图像检索是计算机视觉中的一个利基问题,该问题策划了使用查询在数据库中查找类似图像的问题。在这项工作中,我们首次采用了测试时间培训技术来适应通用跨域检索(UCDR)下的分配变化。先前已证明测试时间训练可减少图像分类,域适应性,语义分割和基于零绘制草图的图像检索(ZS-SBIR)的概括误差。在UCDR中,除了ZS-SBIR中存在的未知类别的语义转移外,未知域的存在还会导致更高的分布变化。为了弥合此域间隙,我们通过3种不同的损失使用自我划分 - Barlow Twins,拼图拼图和ROTNET在测试时间预审计的网络上。这种简单的方法可改善UCDR基准测试,并在具有挑战性的跨数据集泛化设置下改善模型鲁棒性。
translated by 谷歌翻译
概括跨越不同视觉域的学习表现的能力,例如在真正的照片,剪贴画,绘画和草图之间是人类视觉系统的基本容量。在本文中,不同于利用一些(或全部)源域监控的大多数跨域工作,我们接近一个相对较新的,非常实用的无监督域泛化(UDG)设置在既不源也不在源域中没有培训监督。我们的方法是基于跨域(BRAD)的桥梁​​的自我监督学习 - 辅助桥域附有一组从每个训练域的Brad将视觉(图像到图像)映射保留的一组语义。 BRAD和MAPPAPAPPED(端到端)与对比的自我监督表示模型一起学习(端到端),其用语义对齐每个域将每个域对齐,因此隐含地驱动所有域(见或看不见)语义上彼此对齐。在这项工作中,我们展示了如何使用边缘正则化的布拉德,我们的方法在多个基准和一系列任务中实现了显着的增益,包括UDG,少量UDA和跨多个域数据集的无监督概括(包括指向未经看明域的概念和课程)。
translated by 谷歌翻译
我们提出了一个统一的查看,即通过通用表示,一个深层神经网络共同学习多个视觉任务和视觉域。同时学习多个问题涉及最大程度地减少具有不同幅度和特征的多个损失函数的加权总和,从而导致一个损失的不平衡状态,与学习每个问题的单独模型相比,一个损失的不平衡状态主导了优化和差的结果。为此,我们提出了通过小容量适配器将多个任务/特定于域网络的知识提炼到单个深神经网络中的知识。我们严格地表明,通用表示在学习NYU-V2和CityScapes中多个密集的预测问题方面实现了最新的表现,来自视觉Decathlon数据集中的不同域中的多个图像分类问题以及MetadataSet中的跨域中的几个域中学习。最后,我们还通过消融和定性研究进行多次分析。
translated by 谷歌翻译
最近对基于细粒的基于草图的图像检索(FG-SBIR)的重点已转向将模型概括为新类别,而没有任何培训数据。但是,在现实世界中,经过训练的FG-SBIR模型通常应用于新类别和不同的人类素描器,即不同的绘图样式。尽管这使概括问题复杂化,但幸运的是,通常可以使用一些示例,从而使模型适应新的类别/样式。在本文中,我们提供了一种新颖的视角 - 我们没有要求使用概括的模型,而是提倡快速适应的模型,在测试过程中只有很少的样本(以几种方式)。为了解决这个新问题,我们介绍了一种基于几个关键修改的基于新型的模型 - 静态元学习(MAML)框架:(1)作为基于边缘的对比度损失的检索任务,我们简化了内部循环中的MAML训练使其更稳定和易于处理。 (2)我们的对比度损失的边距也通过其余模型进行了元学习。 (3)在外循环中引入了另外三个正规化损失,以使元学习的FG-SBIR模型对类别/样式适应更有效。在公共数据集上进行的广泛实验表明,基于概括和基于零射的方法的增益很大,还有一些强大的射击基线。
translated by 谷歌翻译
We demonstrate that self-learning techniques like entropy minimization and pseudo-labeling are simple and effective at improving performance of a deployed computer vision model under systematic domain shifts. We conduct a wide range of large-scale experiments and show consistent improvements irrespective of the model architecture, the pre-training technique or the type of distribution shift. At the same time, self-learning is simple to use in practice because it does not require knowledge or access to the original training data or scheme, is robust to hyperparameter choices, is straight-forward to implement and requires only a few adaptation epochs. This makes self-learning techniques highly attractive for any practitioner who applies machine learning algorithms in the real world. We present state-of-the-art adaptation results on CIFAR10-C (8.5% error), ImageNet-C (22.0% mCE), ImageNet-R (17.4% error) and ImageNet-A (14.8% error), theoretically study the dynamics of self-supervised adaptation methods and propose a new classification dataset (ImageNet-D) which is challenging even with adaptation.
translated by 谷歌翻译
语义新颖性检测旨在发现测试数据中未知类别。此任务在安全至关重要的应用中特别相关,例如自动驾驶或医疗保健,在部署时间识别未知物体并相应地向用户发出警告至关重要。尽管深度学习研究取得了令人印象深刻的进步,但现有模型仍然需要在已知类别上进行填充阶段才能识别未知类别。当隐私规则限制数据访问或严格的内存和计算约束(例如边缘计算)时,这可能是令人难以置信的。我们声称,量身定制的表示策略可能是有效,有效的语义新颖性检测的正确解决方案。除了对此任务的最新方法进行最新的方法外,我们还提出了一种基于关系推理的新表示学习范式。它着重于学习如何衡量语义相似性而不是识别已知类别。我们的实验表明,这些知识可直接传输到各种场景,并且可以用作插件模块,以将封闭设置的识别模型转换为可靠的开放式开放集。
translated by 谷歌翻译
组织病理学图像的出现取决于组织类型,染色和数字化过程。这些因素因来源而异,是域转移问题的潜在原因。由于这个问题,尽管深度学习模型在计算病理学中取得了巨大的成功,但在特定领域训练的模型当我们将其应用于另一个领域时,仍可能会表现出色。为了克服这一点,我们提出了一种称为PatchShuffling的新扩展,并为预训练的深度学习模型而被称为Impash的新型自我监视的对比学习框架。使用这些,我们获得了一个RESNET50编码器,该编码器可以提取对域移位抗性的图像表示。我们通过使用其他域普通化技术来比较了我们的派生表示形式,它们通过将它们用于结直肠组织图像的跨域分类。我们表明,所提出的方法优于其他传统的组织学领域适应和最先进的自我监督学习方法。代码可在以下网址获得:https://github.com/trinhvg/impash。
translated by 谷歌翻译
理想情况下,应概遍的视觉学习算法,用于在新目标环境中部署时处理任何看不见的域移位;和数据效率,通过使用尽可能少的标签来降低开发成本。为此,我们研究半监督域泛化(SSDG),旨在使用多源,部分标记的培训数据学习域广泛的模型。我们设计了两个基准,涵盖了两个相关领域,即域泛化(DG)和半监督学习(SSL)开发的最先进方法。我们发现,通过设计无法处理未标记数据的DG方法,在SSDG中使用有限的标签表现不佳; SSL方法,尤其是FixMatch,获得更好的结果,但仍远离使用完整标签培训的基本vanilla模型。我们提出了一种简单的方法,一种简单的方法,将FixMatch扩展到SSDG的几个新成分:1)随机模型,用于减少稀缺标签的过度拟合,2)多视图一致性学习,用于增强域泛化。尽管设计简洁,StyleAtch可以实现SSDG的显着改进。我们希望我们的方法和全面的基准可以为未来的概括和数据高效学习系统进行铺平。源代码以\ url {https://github.com/kaiyangzhou/ssdg-benchmark}释放。
translated by 谷歌翻译
预训练的视觉模型(例如,剪辑)在许多下游任务中显示出有希望的零弹性概括,并具有正确设计的文本提示。最近的作品不依赖手工设计的提示,而是使用下游任务的培训数据来学习提示。虽然有效,但针对领域数据的培训却降低了模型的概括能力,使其无法看到新领域。在这项工作中,我们提出了测试时间提示调整(TPT),该方法可以通过单个测试样本即时学习自适应提示。对于图像分类,TPT通过使用置信度选择最小化熵来优化提示,以便模型在每个测试样本的不同增强视图上都具有一致的预测。在评估对自然分布变化的概括时,TPT平均将零击的TOP-1精度提高了3.6%,超过了先前需要其他特定于任务的训练数据的迅速调整方法。在评估看不见类别的跨数据集泛化时,TPT与使用其他培训数据的最先进方法相当。项目页面:https://azshue.github.io/tpt。
translated by 谷歌翻译
在这项工作中,我们建议使用分布式样本,即来自目标类别外部的未标记样本,以改善几乎没有记录的学习。具体而言,我们利用易于可用的分布样品来驱动分类器,以避免通过最大化原型到分布样品的距离,同时最大程度地减少分布样品的距离(即支持,查询数据),以避免使用分类器。。我们的方法易于实施,不可知论的是提取器,轻量级,而没有任何额外的预训练费用,并且适用于归纳和跨传输设置。对各种标准基准测试的广泛实验表明,所提出的方法始终提高具有不同架构的预审计网络的性能。
translated by 谷歌翻译
This work tackles the problem of semi-supervised learning of image classifiers. Our main insight is that the field of semi-supervised learning can benefit from the quickly advancing field of self-supervised visual representation learning. Unifying these two approaches, we propose the framework of self-supervised semi-supervised learning (S 4 L) and use it to derive two novel semi-supervised image classification methods. We demonstrate the effectiveness of these methods in comparison to both carefully tuned baselines, and existing semi-supervised learning methods. We then show that S 4 L and existing semi-supervised methods can be jointly trained, yielding a new state-of-the-art result on semi-supervised ILSVRC-2012 with 10% of labels.
translated by 谷歌翻译
当源(训练)数据和目标(测试)数据之间存在域移动时,深网很容易降级。最近的测试时间适应方法更新了通过流数据部署在新目标环境中的预训练源模型的批归归式层,以减轻这种性能降低。尽管此类方法可以在不首先收集大型目标域数据集的情况下进行调整,但它们的性能取决于流媒体条件,例如迷你批量的大小和类别分布,在实践中可能无法预测。在这项工作中,我们提出了一个框架,以适应几个域的适应性,以应对数据有效适应的实际挑战。具体而言,我们提出了在预训练的源模型中对特征归一化统计量的约束优化,该模型由目标域的小支持集监督。我们的方法易于实现,并改善每类用于分类任务的示例较小的源模型性能。对5个跨域分类和4个语义分割数据集进行了广泛的实验表明,我们的方法比测试时间适应更准确,更可靠,同时不受流媒体条件的约束。
translated by 谷歌翻译
深度度量学习(DML)旨在找到适合于零拍摄传输到先验未知测试分布的表示。但是,公共评估协议仅测试单个固定数据拆分,其中列车和测试类被随机分配。更现实的评估应考虑广泛的分布转变,具有潜在的变化和困难。在这项工作中,我们系统地构建了增加难度的培训 - 测试分裂,并呈现OHLML基准,以在DML中的分发外换档下表征概括。 OODML旨在探讨更具挑战性的泛化性能,多样化的火车到测试分配换档。根据我们的新基准,我们对最先进的DML方法进行了彻底的实证分析。我们发现,虽然泛化趋于难以困难地降解,但随着分布偏移的增加,一些方法在保持性能方面更好。最后,我们提出了几次拍摄的DML作为一种有效的方法,以响应于OHML中呈现的未知测试班次而始终如一地改善泛化。此处可用的代码:https://github.com/compvis/charracterizing_generalization_in_dml。
translated by 谷歌翻译
Despite their well-documented predictive power on i.i.d. data, convolutional neural networks have been demonstrated to rely more on high-frequency (textural) patterns that humans deem superficial than on low-frequency patterns that agree better with intuitions about what constitutes category membership. This paper proposes a method for training robust convolutional networks by penalizing the predictive power of the local representations learned by earlier layers. Intuitively, our networks are forced to discard predictive signals such as color and texture that can be gleaned from local receptive fields and to rely instead on the global structure of the image. Across a battery of synthetic and benchmark domain adaptation tasks, our method confers improved generalization. To evaluate cross-domain transfer, we introduce ImageNet-Sketch, a new dataset consisting of sketch-like images and matching the ImageNet classification validation set in categories and scale.
translated by 谷歌翻译
在本文中,我们提出了第一次尝试无监督的SBIR来删除常规培训所需的标签成本(类别注释和素描 - 光配对)。由于该问题的独特跨域(草图和照片)性质,现有的单域无监督表示学习方法在本应用程序中的性能很差。因此,我们介绍了一个新型框架,该框架同时执行了无监督的表示学习和素描域的对准。从技术上讲,这是通过利用联合分配最佳运输(JDOT)来对齐的,以使来自不同领域的数据在表示过程中对齐,我们将其扩展到可训练的群集原型和功能记忆库以进一步提高可扩展性和功效。广泛的实验表明,我们的框架在新的无监督环境中取得了出色的性能,并且在零拍设置中的性能比最先进的表现相当或更好。
translated by 谷歌翻译
旨在概括在源域中训练的模型来看不见的目标域,域泛化(DG)最近引起了很多关注。 DG的关键问题是如何防止对观察到的源极域的过度接收,因为在培训期间目标域不可用。我们调查过度拟合不仅导致未经看不见的目标域的普遍推广能力,而且在测试阶段导致不稳定的预测。在本文中,我们观察到,在训练阶段采样多个任务并在测试阶段产生增强图像,很大程度上有利于泛化性能。因此,通过处理不同视图的任务和图像,我们提出了一种新颖的多视图DG框架。具体地,在训练阶段,为了提高泛化能力,我们开发了一种多视图正则化元学习算法,该算法采用多个任务在更新模型期间产生合适的优化方向。在测试阶段,为了减轻不稳定的预测,我们利用多个增强图像来产生多视图预测,这通过熔断测试图像的不同视图的结果显着促进了模型可靠性。三个基准数据集的广泛实验验证了我们的方法优于几种最先进的方法。
translated by 谷歌翻译
Consider a scenario in one-shot query-guided object localization where neither an image of the object nor the object category name is available as a query. In such a scenario, a hand-drawn sketch of the object could be a choice for a query. However, hand-drawn crude sketches alone, when used as queries, might be ambiguous for object localization, e.g., a sketch of a laptop could be confused for a sofa. On the other hand, a linguistic definition of the category, e.g., a small portable computer small enough to use in your lap" along with the sketch query, gives better visual and semantic cues for object localization. In this work, we present a multimodal query-guided object localization approach under the challenging open-set setting. In particular, we use queries from two modalities, namely, hand-drawn sketch and description of the object (also known as gloss), to perform object localization. Multimodal query-guided object localization is a challenging task, especially when a large domain gap exists between the queries and the natural images, as well as due to the challenge of combining the complementary and minimal information present across the queries. For example, hand-drawn crude sketches contain abstract shape information of an object, while the text descriptions often capture partial semantic information about a given object category. To address the aforementioned challenges, we present a novel cross-modal attention scheme that guides the region proposal network to generate object proposals relevant to the input queries and a novel orthogonal projection-based proposal scoring technique that scores each proposal with respect to the queries, thereby yielding the final localization results. ...
translated by 谷歌翻译
当部署和培训之间存在分配变化时,深层神经网络的性能恶化严重。域的概括(DG)旨在通过仅依靠一组源域来安全地传输模型以看不见目标域。尽管已经提出了各种DG方法,但最近的一项名为Domainbed的研究表明,其中大多数没有超过简单的经验风险最小化(ERM)。为此,我们提出了一个通用框架,该框架与现有的DG算法是正交的,并且可以始终如一地提高其性能。与以前的DG作品不同的是,在静态源模型上有希望成为通用的DG,我们提出的ADAODM会在测试时间适应不同目标域的源模型。具体而言,我们在共享域形式的特征提取器上创建多个域特异性分类器。特征提取器和分类器以对抗性方式进行了训练,其中特征提取器将输入样品嵌入到域不变的空间中,并且多个分类器捕获了每个分类器与特定源域有关的独特决策边界。在测试过程中,可以通过利用源分类器之间的预测分歧来有效地衡量目标和源域之间的分布差异。通过微调源模型以最大程度地减少测试时间的分歧,目标域特征与不变特征空间很好地对齐。我们验证了两种流行的DG方法,即ERM和Coral,以及四个DG基准,即VLCS,PACS,OfficeHome和TerrainCognita。结果表明,ADAODM稳定地提高了对看不见的域的概括能力,并实现了最先进的性能。
translated by 谷歌翻译
域泛化(DG)被认为是泛广泛化的前面。我们提出了经验证据表明,DG泛化的主要原因是训练时存在多个域。此外,我们表明IID中的泛化方法对DG的泛化同样重要。量身定制的方法未能在传统的DG(TDG)评估中增加性能增益。我们的实验提示如果TDG已经在评估ood泛化方面存在的有用性?为了进一步加强我们的调查,我们提出了一种新颖的评估策略,Classwise DG(CWDG),在这里,每个班级,我们随机选择一个域并将其保留在一边进行测试。我们认为,这项基准测试更接近人类学习,并在现实世界方案中相关。反直观地,尽管在培训期间暴露于所有域,但CWDG比TDG评估更具挑战性。在解释观察的同时,我们的作品在探索新想法之前,我们的作品在DG问题上进行了更重要的分析。
translated by 谷歌翻译
半监督学习方法已成为对打击获得大量注释数据的挑战的活跃研究领域。为了提高半监督学习方法表现的目标,我们提出了一种新颖的框架,Hiematch,一种半监督方法,利用分层信息来降低标签成本并表现以及vanilla半监督学习方法。分层信息通常是具有细粒标签的粗标签(例如,啄木鸟)的粗标签(例如,啄木鸟)的现有知识(例如,柔软的啄木鸟或金朝啄木鸟)。但是,尚未探讨使用使用粗类标签来改进半监督技术的监督。在没有细粒度的标签的情况下,Himatch利用标签层次结构,并使用粗级标签作为弱监控信号。此外,Himatch是一种改进任何半熟的学习框架的通用方法,我们使用我们的结果在最近的最先进的技术Mixmatch和Fixmatch上展示了这一点。我们评估了在两个基准数据集,即CiFar-100和Nabirds上的Himatch疗效。与MixMatch相比,HOMACHACT可以在CIFAR-100上减少50%的粒度标签50%的用量,仅在前1个精度的边缘下降0.59%。代码:https://github.com/07agarg/hiermatch.
translated by 谷歌翻译