在本文中,我们提出了第一次尝试无监督的SBIR来删除常规培训所需的标签成本(类别注释和素描 - 光配对)。由于该问题的独特跨域(草图和照片)性质,现有的单域无监督表示学习方法在本应用程序中的性能很差。因此,我们介绍了一个新型框架,该框架同时执行了无监督的表示学习和素描域的对准。从技术上讲,这是通过利用联合分配最佳运输(JDOT)来对齐的,以使来自不同领域的数据在表示过程中对齐,我们将其扩展到可训练的群集原型和功能记忆库以进一步提高可扩展性和功效。广泛的实验表明,我们的框架在新的无监督环境中取得了出色的性能,并且在零拍设置中的性能比最先进的表现相当或更好。
translated by 谷歌翻译
当前有监督的跨域图像检索方法可以实现出色的性能。但是,数据收集和标签的成本施加了在实际应用程序中实践部署的棘手障碍。在本文中,我们研究了无监督的跨域图像检索任务,其中类标签和配对注释不再是训练的先决条件。这是一项极具挑战性的任务,因为没有对内域特征表示学习和跨域对准的监督。我们通过引入:1)一种新的群体对比度学习机制来应对这两个挑战,以帮助提取班级语义感知特征,以及2)新的距离距离损失,以有效地测量并最大程度地减少域差异而无需任何外部监督。在办公室和域名数据集上进行的实验始终显示出与最先进方法相比,我们的框架的出色图像检索精度。我们的源代码可以在https://github.com/conghuihu/ucdir上找到。
translated by 谷歌翻译
我们解决了跨模型检索问题,其中培训仅受数据中相关的多模态对进行监督。对比学习是此任务最受欢迎的方法。然而,其对学习的抽样复杂性是训练数据点数的二次。此外,它可能是错误的假设,即不同对的实例自动无关紧要。为解决这些问题,我们提出了一种基于未知课程的自我标签的新型损失函数。具体而言,我们的目标是预测每个模态中的数据实例的类标签,并将那些标签分配给其他模态中的相应实例(即,交换伪标签)。使用这些交换的标签,我们使用监督的交叉熵丢失来学习每个模态的数据嵌入,因此导致线性采样复杂性。我们还将队列保留用于存储最新批次的嵌入物,其中群集分配和嵌入学习在在线时尚同时完成。这消除了注入用于离线群集的整个训练数据扫描的间歇时期的计算开销。我们在几个真实跨模型检索问题上测试了我们的方法,包括基于文本的视频检索,基于文本的图像检索和图像文本检索,以及我们的方法对对比学习的显着性能提高实现了显着的性能改善。
translated by 谷歌翻译
半监督域的适应性(SSDA)旨在将从完全标记的源域学习的知识应用于几乎没有标记的目标域。在本文中,我们为SSDA提出了一个多级一致性学习(MCL)框架。具体而言,我们的MCL将目标域样本的不同视图的一致性定于三个级别:(i)在域间级别,我们使用基于原型的最佳传输方法来稳健,准确地对齐源和目标域,该方法利用了PROS和PROS和PROS域目标样本不同观点的缺点; (ii)在域内层面上,我们通过提出新颖的班级对比聚类损失来促进歧视性和紧凑的目标特征表示。 (iii)在样本级别,我们遵循标准实践,并通过进行基于一致性的自我训练来提高预测准确性。从经验上,我们验证了MCL框架对三个流行的SSDA基准的有效性,即Visda2017,域名和办公室家庭数据集,实验结果表明我们的MCL框架可以实现最新的性能。
translated by 谷歌翻译
无监督的域适应性(UDA)旨在使在标记的源域上训练的模型适应未标记的目标域。在本文中,我们提出了典型的对比度适应(PROCA),这是一种无监督域自适应语义分割的简单有效的对比度学习方法。以前的域适应方法仅考虑跨各个域的阶级内表示分布的对齐,而阶层间结构关系的探索不足,从而导致目标域上的对齐表示可能不像在源上歧视的那样容易歧视。域了。取而代之的是,ProCA将类间信息纳入班级原型,并采用以班级为中心的分布对齐进行适应。通过将同一类原型与阳性和其他类原型视为实现以集体为中心的分配对齐方式的负面原型,Proca在经典领域适应任务上实现了最先进的性能,{\ em i.e. text {and} synthia $ \ to $ cityScapes}。代码可在\ href {https://github.com/jiangzhengkai/proca} {proca}获得代码
translated by 谷歌翻译
很少有射击学习(FSL)旨在通过利用基本数据集的先验知识来识别只有几个支持样本的新奇查询。在本文中,我们考虑了FSL中的域移位问题,并旨在解决支持集和查询集之间的域间隙。不同于以前考虑基础和新颖类之间的域移位的跨域FSL工作(CD-FSL),新问题称为跨域跨集FSL(CDSC-FSL),不仅需要很少的学习者适应新的领域,但也要在每个新颖类中的不同领域之间保持一致。为此,我们提出了一种新颖的方法,即Stabpa,学习原型紧凑和跨域对准表示,以便可以同时解决域的转移和很少的学习学习。我们对分别从域和办公室数据集构建的两个新的CDCS-FSL基准进行评估。值得注意的是,我们的方法的表现优于多个详细的基线,例如,在域内,将5-shot精度提高了6.0点。代码可从https://github.com/wentaochen0813/cdcs-fsl获得
translated by 谷歌翻译
无监督的域自适应人重新识别(重新ID)任务是一个挑战,因为与常规域自适应任务不同,人物重新ID中的源域数据和目标域数据之间没有重叠,这导致一个重要的领域差距。最先进的无监督的RE-ID方法使用基于内存的对比损耗训练神经网络。然而,通过将每个未标记的实例视为类来执行对比学习,作为类将导致阶级冲突的问题,并且由于在存储库中更新时不同类别的实例数量的差异,更新强度是不一致的。为了解决此类问题,我们提出了对人的重新ID的原型字典学习,其能够通过一个训练阶段利用源域数据和目标域数据,同时避免类碰撞问题和群集更新强度不一致的问题原型字典学习。为了减少模型上域间隙的干扰,我们提出了一个本地增强模块,以改善模型的域适应而不增加模型参数的数量。我们在两个大型数据集上的实验证明了原型字典学习的有效性。 71.5 \%地图是在市场到Duke任务中实现的,这是与最先进的无监督域自适应RE-ID方法相比的2.3 \%的改进。它在Duke-to-Market任务中实现了83.9 \%地图,而与最先进的无监督的自适应重新ID方法相比,该任务在4.4 \%中提高了4.4%。
translated by 谷歌翻译
自我监督的学习(SSL)最近成为特征学习方法中的最爱。因此,它可以吸引域适应方法来考虑结合SSL。直觉是强制执行实例级别一致性,使得预测器在域中变得不变。但是,域适应制度中的大多数现有SSL方法通常被视为独立的辅助组件,使域自适应的签名无人看管。实际上,域间隙消失的最佳区域和SSL PERUSES的实例级别约束可能根本不一致。从这一点来看,我们向一个特定的范式的自我监督学习量身定制,用于域适应,即可转让的对比学习(TCL),这与SSL和所需的跨域转移性相一致地联系起来。我们发现对比学习本质上是一个合适的域适应候选者,因为它的实例不变性假设可以方便地促进由域适应任务青睐的跨域类级不变性。基于特定的记忆库结构和伪标签策略,TCL然后通过清洁和新的对比损失来惩罚源头和靶之间的跨域内域差异。免费午餐是由于纳入对比学习,TCL依赖于移动平均的关键编码器,自然地实现了用于目标数据的伪标签的暂停标签,这避免了无额外的成本。因此,TCL有效地减少了跨域间隙。通过对基准(Office-Home,Visda-2017,Diamet-Five,PACS和Domainnet)进行广泛的实验,用于单源和多源域适配任务,TCL已经证明了最先进的性能。
translated by 谷歌翻译
本文从跨模式度量学习的角度来解决基于零点草图的图像检索(ZS-SBIR)问题。此任务具有两个特性:1)零拍摄设置需要具有良好的课堂紧凑性和识别新颖类别的课堂间差异的度量空间,而2)草图查询和照片库是不同的模态。从两个方面,公制学习视点益处ZS-SBIR。首先,它促进了深度度量学习(DML)中最近的良好实践的改进。通过在DML中结合两种基本学习方法,例如分类培训和成对培训,我们为ZS-SBIR设置了一个强大的基线。没有钟声和口哨,这种基线实现了竞争的检索准确性。其次,它提供了一个正确抑制模态间隙至关重要的洞察力。为此,我们设计了一种名为Domency Ippar Triplet硬挖掘(Mathm)的新颖方法。 Mathm增强了基线,具有三种类型的成对学习,例如跨模型样本对,模态样本对,以及它们的组合。\我们还设计了一种自适应加权方法,可以在动态训练期间平衡这三个组件。实验结果证实,Mathm根据强大的基线带来另一轮显着改进,并建立了新的最先进的性能。例如,在Tu-Berlin数据集上,我们达到了47.88 + 2.94%地图@全部和58.28 + 2.34%prip @ 100。代码将在:https://github.com/huangzongheng/mathm公开使用。
translated by 谷歌翻译
最近对基于细粒的基于草图的图像检索(FG-SBIR)的重点已转向将模型概括为新类别,而没有任何培训数据。但是,在现实世界中,经过训练的FG-SBIR模型通常应用于新类别和不同的人类素描器,即不同的绘图样式。尽管这使概括问题复杂化,但幸运的是,通常可以使用一些示例,从而使模型适应新的类别/样式。在本文中,我们提供了一种新颖的视角 - 我们没有要求使用概括的模型,而是提倡快速适应的模型,在测试过程中只有很少的样本(以几种方式)。为了解决这个新问题,我们介绍了一种基于几个关键修改的基于新型的模型 - 静态元学习(MAML)框架:(1)作为基于边缘的对比度损失的检索任务,我们简化了内部循环中的MAML训练使其更稳定和易于处理。 (2)我们的对比度损失的边距也通过其余模型进行了元学习。 (3)在外循环中引入了另外三个正规化损失,以使元学习的FG-SBIR模型对类别/样式适应更有效。在公共数据集上进行的广泛实验表明,基于概括和基于零射的方法的增益很大,还有一些强大的射击基线。
translated by 谷歌翻译
很少有图像分类是一个具有挑战性的问题,旨在仅基于少量培训图像来达到人类的识别水平。少数图像分类的一种主要解决方案是深度度量学习。这些方法是,通过将看不见的样本根据距离的距离进行分类,可在强大的深神经网络中学到的嵌入空间中看到的样品,可以避免以少数图像分类的少数训练图像过度拟合,并实现了最新的图像表现。在本文中,我们提供了对深度度量学习方法的最新审查,以进行2018年至2022年的少量图像分类,并根据度量学习的三个阶段将它们分为三组,即学习功能嵌入,学习课堂表示和学习距离措施。通过这种分类法,我们确定了他们面临的不同方法和问题的新颖性。我们通过讨论当前的挑战和未来趋势进行了少量图像分类的讨论。
translated by 谷歌翻译
本文解决了新型类别发现(NCD)的问题,该问题旨在区分大规模图像集中的未知类别。 NCD任务由于与现实世界情景的亲密关系而具有挑战性,我们只遇到了一些部分类和图像。与NCD上的其他作品不同,我们利用原型强调类别歧视的重要性,并减轻缺少新颖阶级注释的问题。具体而言,我们提出了一种新型的适应性原型学习方法,该方法由两个主要阶段组成:原型表示学习和原型自我训练。在第一阶段,我们获得了一个可靠的特征提取器,该功能提取器可以为所有具有基础和新颖类别的图像提供。该功能提取器的实例和类别歧视能力通过自我监督的学习和适应性原型来提高。在第二阶段,我们再次利用原型来整理离线伪标签,并训练类别聚类的最终参数分类器。我们对四个基准数据集进行了广泛的实验,并证明了该方法具有最先进的性能的有效性和鲁棒性。
translated by 谷歌翻译
虽然监督语义分割存在重大进展,但由于领域偏差,将分段模型部署到解除域来仍然具有挑战性。域适应可以通过将知识从标记的源域传输到未标记的目标域来帮助。以前的方法通常尝试执行对全局特征的适应,然而,通常忽略要计入特征空间中的每个像素的本地语义附属机构,导致较少的可辨性。为解决这个问题,我们提出了一种用于细粒度阶级对齐的新型语义原型对比学习框架。具体地,语义原型提供了用于每个像素鉴别的表示学习的监控信号,并且需要在特征空间中的源极和目标域的每个像素来反映相应的语义原型的内容。通过这种方式,我们的框架能够明确地制作较近的类别的像素表示,并且进一步越来越多地分开,以改善分割模型的鲁棒性以及减轻域移位问题。与最先进的方法相比,我们的方法易于实施并达到优异的结果,如众多实验所展示的那样。代码在[此HTTPS URL](https://github.com/binhuixie/spcl)上公开可用。
translated by 谷歌翻译
Domain adaptation methods reduce domain shift typically by learning domain-invariant features. Most existing methods are built on distribution matching, e.g., adversarial domain adaptation, which tends to corrupt feature discriminability. In this paper, we propose Discriminative Radial Domain Adaptation (DRDR) which bridges source and target domains via a shared radial structure. It's motivated by the observation that as the model is trained to be progressively discriminative, features of different categories expand outwards in different directions, forming a radial structure. We show that transferring such an inherently discriminative structure would enable to enhance feature transferability and discriminability simultaneously. Specifically, we represent each domain with a global anchor and each category a local anchor to form a radial structure and reduce domain shift via structure matching. It consists of two parts, namely isometric transformation to align the structure globally and local refinement to match each category. To enhance the discriminability of the structure, we further encourage samples to cluster close to the corresponding local anchors based on optimal-transport assignment. Extensively experimenting on multiple benchmarks, our method is shown to consistently outperforms state-of-the-art approaches on varied tasks, including the typical unsupervised domain adaptation, multi-source domain adaptation, domain-agnostic learning, and domain generalization.
translated by 谷歌翻译
实用的现实世界数据集具有丰富的类别,为无监督的领域适应带来了新的挑战,例如小型阶层歧视性,仅依靠域不变性的现有方法不能很好地处理。在这项工作中,我们提出了MEMSAC,该MEMSAC利用了跨源和目标域的样本级别相似性​​,以实现判别性转移,以​​及扩展到大量类别的体系结构。为此,我们首先引入一种内存增强方法,以在标记的源和未标记的目标域实例之间有效提取成对的相似性关系,该实例适用于处理任意数量的类。接下来,我们建议和理论上证明对比损失的新型变体,以促进阶层内跨域样本之间的局部一致性,同时在类别之间执行分离,从而保留从源到目标的歧视性转移。我们验证了MEMSAC的优势,比以前的最先进的最先进的转移任务有了显着改进。我们还提供了深入的分析和对MEMSAC有效性的见解。
translated by 谷歌翻译
Generalized Category Discovery (GCD) aims to recognize both known and novel categories from a set of unlabeled data, based on another dataset labeled with only known categories. Without considering differences between known and novel categories, current methods learn about them in a coupled manner, which can hurt model's generalization and discriminative ability. Furthermore, the coupled training approach prevents these models transferring category-specific knowledge explicitly from labeled data to unlabeled data, which can lose high-level semantic information and impair model performance. To mitigate above limitations, we present a novel model called Decoupled Prototypical Network (DPN). By formulating a bipartite matching problem for category prototypes, DPN can not only decouple known and novel categories to achieve different training targets effectively, but also align known categories in labeled and unlabeled data to transfer category-specific knowledge explicitly and capture high-level semantics. Furthermore, DPN can learn more discriminative features for both known and novel categories through our proposed Semantic-aware Prototypical Learning (SPL). Besides capturing meaningful semantic information, SPL can also alleviate the noise of hard pseudo labels through semantic-weighted soft assignment. Extensive experiments show that DPN outperforms state-of-the-art models by a large margin on all evaluation metrics across multiple benchmark datasets. Code and data are available at https://github.com/Lackel/DPN.
translated by 谷歌翻译
概括跨越不同视觉域的学习表现的能力,例如在真正的照片,剪贴画,绘画和草图之间是人类视觉系统的基本容量。在本文中,不同于利用一些(或全部)源域监控的大多数跨域工作,我们接近一个相对较新的,非常实用的无监督域泛化(UDG)设置在既不源也不在源域中没有培训监督。我们的方法是基于跨域(BRAD)的桥梁​​的自我监督学习 - 辅助桥域附有一组从每个训练域的Brad将视觉(图像到图像)映射保留的一组语义。 BRAD和MAPPAPAPPED(端到端)与对比的自我监督表示模型一起学习(端到端),其用语义对齐每个域将每个域对齐,因此隐含地驱动所有域(见或看不见)语义上彼此对齐。在这项工作中,我们展示了如何使用边缘正则化的布拉德,我们的方法在多个基准和一系列任务中实现了显着的增益,包括UDG,少量UDA和跨多个域数据集的无监督概括(包括指向未经看明域的概念和课程)。
translated by 谷歌翻译
细粒度的图像分析(FGIA)是计算机视觉和模式识别中的长期和基本问题,并为一组多种现实世界应用提供了基础。 FGIA的任务是从属类别分析视觉物体,例如汽车或汽车型号的种类。细粒度分析中固有的小阶级和阶级阶级内变异使其成为一个具有挑战性的问题。利用深度学习的进步,近年来,我们在深入学习动力的FGIA中见证了显着进展。在本文中,我们对这些进展的系统进行了系统的调查,我们试图通过巩固两个基本的细粒度研究领域 - 细粒度的图像识别和细粒度的图像检索来重新定义和扩大FGIA领域。此外,我们还审查了FGIA的其他关键问题,例如公开可用的基准数据集和相关域的特定于应用程序。我们通过突出几个研究方向和开放问题,从社区中突出了几个研究方向和开放问题。
translated by 谷歌翻译
基于草图的3D形状检索是一项具有挑战性的任务,这是由于草图和3D形状之间的较大域差异。由于现有方法是在相同类别上进行培训和评估的,因此他们无法有效地识别培训期间未使用的类别。在本文中,我们建议用于基于零素描的3D检索的新型域分解生成对抗网络(DD-GAN),该域可以检索训练过程中未访问的不看到的类别。具体而言,我们首先通过删除草图和3D形状的学习特征来生成域不变的特征和特定于域特异性特征,在该特征中,域,域,不变的特征用于与相应的单词嵌入在一起。然后,我们开发了一个生成的对抗网络,该网络将所见类别的特定域特征与对齐的域不变特征结合在一起,以合成样品,在其中使用相应的单词嵌入式生成了看不见类别的合成样本。最后,我们使用看不见类别的综合样本与可见类别的真实样本相结合来训练网络进行检索,以便可以识别出看不见的类别。为了减少域移位问题,我们利用未看到的未见样本来增强歧视者的歧视能力。通过鉴别器将生成的样品与未看到的看不见的样品区分开,生成器可以生成更现实的看不见的样品。 SHEREC'13和SHEREC'14数据集的广泛实验表明,我们的方法显着提高了看不见类别的检索性能。
translated by 谷歌翻译
草图和照片之间的巨大领域差距以及高度抽象的草图表示构成了基于草图的图像检索(\下划线{Sbir})的挑战。基于零拍的草图的图像检索(\下划线{ZS-SBIR})更通用,实用,但由于所看到和未遵守的类别之间的额外知识差距,造成更大的挑战。要同时缓解两个间隙,我们提出了一个\ textbf {a} pproaching-and-\ textbf {c}映射\ textbf {net}工作(称为`\ textbf {acnet}''),以共同优化素描到照片合成与图像检索。检索模块引导综合模块生成大量不同的光相似图像,该图像逐渐接近照片域,从而更好地服务于检索模块,而不是以前学习域名不可知的表征和类别 - 无名的共同知识,以概括到未经证明的类别。通过检索引导产生的这些不同的图像可以有效地减轻了高梯度的混凝土类别训练样本的过度装备问题。我们还发现使用基于代理的NormsoftMax丢失是有效的,因为它的集中效果可以稳定我们的联合培训并促进未经看管分类的概括能力。我们的方法简单而且有效,这在两个广泛使用的ZS-SBIR数据集上实现了最先进的性能,并通过大边距超过以前的方法。
translated by 谷歌翻译