自我监督的代表学习使对比学习的进步推动了显着的跨利赛,这旨在学习嵌入附近积极投入对的转变,同时推动负对的对。虽然可以可靠地生成正对(例如,作为相同图像的不同视图),但是难以准确地建立负对对,定义为来自不同图像的样本,而不管它们的语义内容或视觉功能如何。对比学习中的一个基本问题正在减轻假底片的影响。对比假否定引起了两个代表学习的关键问题:丢弃语义信息和缓慢的收敛。在本文中,我们提出了识别错误否定的新方法,以及减轻其效果的两种策略,即虚假的消极消除和吸引力,同时系统地执行严格的评估,详细阐述了这个问题。我们的方法表现出对基于对比学习的方法的一致性改进。没有标签,我们在想象中的1000个语义课程中识别出具有40%的精度,并且在使用1%标签的FINETUNING时,在先前最先进的最先进的前1个精度的绝对提高5.8%的绝对提高。我们的代码可在https://github.com/gogle-research/fnc上获得。
translated by 谷歌翻译
通过对比学习,自我监督学习最近在视觉任务中显示了巨大的潜力,这旨在在数据集中区分每个图像或实例。然而,这种情况级别学习忽略了实例之间的语义关系,有时不希望地从语义上类似的样本中排斥锚,被称为“假否定”。在这项工作中,我们表明,对于具有更多语义概念的大规模数据集来说,虚假否定的不利影响更为重要。为了解决这个问题,我们提出了一种新颖的自我监督的对比学习框架,逐步地检测并明确地去除假阴性样本。具体地,在训练过程之后,考虑到编码器逐渐提高,嵌入空间变得更加语义结构,我们的方法动态地检测增加的高质量假否定。接下来,我们讨论两种策略,以明确地在对比学习期间明确地消除检测到的假阴性。广泛的实验表明,我们的框架在有限的资源设置中的多个基准上表现出其他自我监督的对比学习方法。
translated by 谷歌翻译
对比度学习最近在无监督的视觉表示学习中显示出巨大的潜力。在此轨道中的现有研究主要集中于图像内不变性学习。学习通常使用丰富的图像内变换来构建正对,然后使用对比度损失最大化一致性。相反,相互影响不变性的优点仍然少得多。利用图像间不变性的一个主要障碍是,尚不清楚如何可靠地构建图像间的正对,并进一步从它们中获得有效的监督,因为没有配对注释可用。在这项工作中,我们提出了一项全面的实证研究,以更好地了解从三个主要组成部分的形象间不变性学习的作用:伪标签维护,采样策略和决策边界设计。为了促进这项研究,我们引入了一个统一的通用框架,该框架支持无监督的内部和间形内不变性学习的整合。通过精心设计的比较和分析,揭示了多个有价值的观察结果:1)在线标签收敛速度比离线标签更快; 2)半硬性样品比硬否定样品更可靠和公正; 3)一个不太严格的决策边界更有利于形象间的不变性学习。借助所有获得的食谱,我们的最终模型(即InterCLR)对多个标准基准测试的最先进的内图内不变性学习方法表现出一致的改进。我们希望这项工作将为设计有效的无监督间歇性不变性学习提供有用的经验。代码:https://github.com/open-mmlab/mmselfsup。
translated by 谷歌翻译
Contrastive learning has become a key component of self-supervised learning approaches for computer vision. By learning to embed two augmented versions of the same image close to each other and to push the embeddings of different images apart, one can train highly transferable visual representations. As revealed by recent studies, heavy data augmentation and large sets of negatives are both crucial in learning such representations. At the same time, data mixing strategies, either at the image or the feature level, improve both supervised and semi-supervised learning by synthesizing novel examples, forcing networks to learn more robust features. In this paper, we argue that an important aspect of contrastive learning, i.e. the effect of hard negatives, has so far been neglected. To get more meaningful negative samples, current top contrastive self-supervised learning approaches either substantially increase the batch sizes, or keep very large memory banks; increasing memory requirements, however, leads to diminishing returns in terms of performance. We therefore start by delving deeper into a top-performing framework and show evidence that harder negatives are needed to facilitate better and faster learning. Based on these observations, and motivated by the success of data mixing, we propose hard negative mixing strategies at the feature level, that can be computed on-the-fly with a minimal computational overhead. We exhaustively ablate our approach on linear classification, object detection, and instance segmentation and show that employing our hard negative mixing procedure improves the quality of visual representations learned by a state-of-the-art self-supervised learning method.Project page: https://europe.naverlabs.com/mochi 34th Conference on Neural Information Processing Systems (NeurIPS 2020),
translated by 谷歌翻译
This paper presents SimCLR: a simple framework for contrastive learning of visual representations. We simplify recently proposed contrastive selfsupervised learning algorithms without requiring specialized architectures or a memory bank. In order to understand what enables the contrastive prediction tasks to learn useful representations, we systematically study the major components of our framework. We show that (1) composition of data augmentations plays a critical role in defining effective predictive tasks, (2) introducing a learnable nonlinear transformation between the representation and the contrastive loss substantially improves the quality of the learned representations, and (3) contrastive learning benefits from larger batch sizes and more training steps compared to supervised learning. By combining these findings, we are able to considerably outperform previous methods for self-supervised and semi-supervised learning on ImageNet. A linear classifier trained on self-supervised representations learned by Sim-CLR achieves 76.5% top-1 accuracy, which is a 7% relative improvement over previous state-ofthe-art, matching the performance of a supervised ResNet-50. When fine-tuned on only 1% of the labels, we achieve 85.8% top-5 accuracy, outperforming AlexNet with 100× fewer labels. 1
translated by 谷歌翻译
自我监督的学习最近在没有人类注释的情况下在表示学习方面取得了巨大的成功。主要方法(即对比度学习)通常基于实例歧视任务,即单个样本被视为独立类别。但是,假定所有样品都是不同的,这与普通视觉数据集中类似样品的自然分组相矛盾,例如同一狗的多个视图。为了弥合差距,本文提出了一种自适应方法,该方法引入了软样本间关系,即自适应软化对比度学习(ASCL)。更具体地说,ASCL将原始实例歧视任务转换为多实体软歧视任务,并自适应地引入样本间关系。作为现有的自我监督学习框架的有效简明的插件模块,ASCL就性能和效率都实现了多个基准的最佳性能。代码可从https://github.com/mrchenfeng/ascl_icpr2022获得。
translated by 谷歌翻译
对比性自我监督学习(CSL)是一种实用解决方案,它以无监督的方法从大量数据中学习有意义的视觉表示。普通的CSL将从神经网络提取的特征嵌入到特定的拓扑结构上。在训练进度期间,对比度损失将同一输入的不同视图融合在一起,同时将不同输入分开的嵌入。 CSL的缺点之一是,损失项需要大量的负样本才能提供更好的相互信息理想。但是,通过较大的运行批量大小增加负样本的数量也增强了错误的负面影响:语义上相似的样品与锚分开,因此降低了下游性能。在本文中,我们通过引入一个简单但有效的对比学习框架来解决这个问题。关键的见解是使用暹罗风格的度量损失来匹配原型内特征,同时增加了原型间特征之间的距离。我们对各种基准测试进行了广泛的实验,其中结果证明了我们方法在提高视觉表示质量方面的有效性。具体而言,我们使用线性探针的无监督预训练的Resnet-50在Imagenet-1K数据集上超过了受访的训练有素的版本。
translated by 谷歌翻译
尽管最近通过剩余网络的代表学习中的自我监督方法取得了进展,但它们仍然对ImageNet分类基准进行了高度的监督学习,限制了它们在性能关键设置中的适用性。在MITROVIC等人的现有理论上洞察中建立2021年,我们提出了RELICV2,其结合了明确的不变性损失,在各种适当构造的数据视图上具有对比的目标。 Relicv2在ImageNet上实现了77.1%的前1个分类准确性,使用线性评估使用Reset50架构和80.6%,具有较大的Reset型号,优于宽边缘以前的最先进的自我监督方法。最值得注意的是,RelicV2是使用一系列标准Reset架构始终如一地始终优先于类似的对比较中的监督基线的第一个表示学习方法。最后,我们表明,尽管使用Reset编码器,Relicv2可与最先进的自我监控视觉变压器相媲美。
translated by 谷歌翻译
对比自我监督的学习已经超越了许多下游任务的监督预测,如分割和物体检测。但是,当前的方法仍然主要应用于像想象成的策划数据集。在本文中,我们首先研究数据集中的偏差如何影响现有方法。我们的研究结果表明,目前的对比方法令人惊讶地工作:(i)对象与场景为中心,(ii)统一与长尾和(iii)一般与域特定的数据集。其次,鉴于这种方法的一般性,我们尝试通过微小的修改来实现进一步的收益。我们展示了学习额外的修正 - 通过使用多尺度裁剪,更强的增强和最近的邻居 - 改善了表示。最后,我们观察Moco在用多作物策略训练时学习空间结构化表示。表示可以用于语义段检索和视频实例分段,而不会FineTuning。此外,结果与专门模型相提并论。我们希望这项工作将成为其他研究人员的有用研究。代码和模型可在https://github.com/wvanganebleke/revisiting-contrastive-ssl上获得。
translated by 谷歌翻译
Contrastive learning applied to self-supervised representation learning has seen a resurgence in recent years, leading to state of the art performance in the unsupervised training of deep image models. Modern batch contrastive approaches subsume or significantly outperform traditional contrastive losses such as triplet, max-margin and the N-pairs loss. In this work, we extend the self-supervised batch contrastive approach to the fully-supervised setting, allowing us to effectively leverage label information. Clusters of points belonging to the same class are pulled together in embedding space, while simultaneously pushing apart clusters of samples from different classes. We analyze two possible versions of the supervised contrastive (SupCon) loss, identifying the best-performing formulation of the loss. On ResNet-200, we achieve top-1 accuracy of 81.4% on the Ima-geNet dataset, which is 0.8% above the best number reported for this architecture. We show consistent outperformance over cross-entropy on other datasets and two ResNet variants. The loss shows benefits for robustness to natural corruptions, and is more stable to hyperparameter settings such as optimizers and data augmentations. Our loss function is simple to implement and reference TensorFlow code is released at https://t.ly/supcon 1 .
translated by 谷歌翻译
Recent research has reported a performance degradation in self-supervised contrastive learning for specially designed efficient networks, such as MobileNet and EfficientNet. A common practice to address this problem is to introduce a pretrained contrastive teacher model and train the lightweight networks with distillation signals generated by the teacher. However, it is time and resource consuming to pretrain a teacher model when it is not available. In this work, we aim to establish a stronger baseline for lightweight contrastive models without using a pretrained teacher model. Specifically, we show that the optimal recipe for efficient models is different from that of larger models, and using the same training settings as ResNet50, as previous research does, is inappropriate. Additionally, we observe a common issu e in contrastive learning where either the positive or negative views can be noisy, and propose a smoothed version of InfoNCE loss to alleviate this problem. As a result, we successfully improve the linear evaluation results from 36.3\% to 62.3\% for MobileNet-V3-Large and from 42.2\% to 65.8\% for EfficientNet-B0 on ImageNet, closing the accuracy gap to ResNet50 with $5\times$ fewer parameters. We hope our research will facilitate the usage of lightweight contrastive models.
translated by 谷歌翻译
Unsupervised image representations have significantly reduced the gap with supervised pretraining, notably with the recent achievements of contrastive learning methods. These contrastive methods typically work online and rely on a large number of explicit pairwise feature comparisons, which is computationally challenging. In this paper, we propose an online algorithm, SwAV, that takes advantage of contrastive methods without requiring to compute pairwise comparisons. Specifically, our method simultaneously clusters the data while enforcing consistency between cluster assignments produced for different augmentations (or "views") of the same image, instead of comparing features directly as in contrastive learning. Simply put, we use a "swapped" prediction mechanism where we predict the code of a view from the representation of another view. Our method can be trained with large and small batches and can scale to unlimited amounts of data. Compared to previous contrastive methods, our method is more memory efficient since it does not require a large memory bank or a special momentum network. In addition, we also propose a new data augmentation strategy, multi-crop, that uses a mix of views with different resolutions in place of two full-resolution views, without increasing the memory or compute requirements. We validate our findings by achieving 75.3% top-1 accuracy on ImageNet with ResNet-50, as well as surpassing supervised pretraining on all the considered transfer tasks.
translated by 谷歌翻译
使用超越欧几里德距离的神经网络,深入的Bregman分歧测量数据点的分歧,并且能够捕获分布的发散。在本文中,我们提出了深深的布利曼对视觉表现的对比学习的分歧,我们的目标是通过基于功能Bregman分歧培训额外的网络来提高自我监督学习中使用的对比损失。与完全基于单点之间的分歧的传统对比学学习方法相比,我们的框架可以捕获分布之间的发散,这提高了学习表示的质量。我们展示了传统的对比损失和我们提出的分歧损失优于基线的结合,并且最先前的自我监督和半监督学习的大多数方法在多个分类和对象检测任务和数据集中。此外,学习的陈述在转移到其他数据集和任务时概括了良好。源代码和我们的型号可用于补充,并将通过纸张释放。
translated by 谷歌翻译
最近对比学习在从未标记数据学习视觉表现方面表现出显着进展。核心思想正在培训骨干,以不变的实例的不同增强。虽然大多数方法只能最大化两个增强数据之间的特征相似性,但我们进一步产生了更具挑战性的训练样本,并强迫模型继续预测这些硬样品上的判别表示。在本文中,我们提出了Mixsiam,传统暹罗网络的混合方法。一方面,我们将实例的两个增强图像输入到骨干,并通过执行两个特征的元素最大值来获得辨别结果。另一方面,我们将这些增强图像的混合物作为输入,并期望模型预测接近鉴别的表示。以这种方式,模型可以访问实例的更多变体数据样本,并继续预测它们的不变判别表示。因此,与先前的对比学习方法相比,学习模型更加强大。大型数据集的广泛实验表明,Mixsiam稳步提高了基线,并通过最先进的方法实现了竞争结果。我们的代码即将发布。
translated by 谷歌翻译
对比学习(CL)是自我监督学习(SSL)最成功的范式之一。它以原则上的方式考虑了两个增强的“视图”,同一图像是正面的,将其拉近,所有其他图像都是负面的。但是,在基于CL的技术的令人印象深刻的成功之后,它们的配方通常依赖于重型设置,包括大型样品批次,广泛的培训时代等。因此,我们有动力解决这些问题并建立一个简单,高效但有竞争力的问题对比学习的基线。具体而言,我们从理论和实证研究中鉴定出对广泛使用的Infonce损失的显着负阳性耦合(NPC)效应,从而导致有关批处理大小的不合适的学习效率。通过消除NPC效应,我们提出了脱钩的对比度学习(DCL)损失,该损失从分母中删除了积极的术语,并显着提高了学习效率。 DCL对竞争性表现具有较小的对亚最佳超参数的敏感性,既不需要SIMCLR中的大批量,Moco中的动量编码或大型时代。我们以各种基准来证明,同时表现出对次优的超参数敏感的鲁棒性。值得注意的是,具有DCL的SIMCLR在200个时期内使用批次尺寸256实现68.2%的Imagenet-1K TOP-1精度,在预训练中的表现优于其SIMCLR基线6.4%。此外,DCL可以与SOTA对比度学习方法NNCLR结合使用,以达到72.3%的Imagenet-1k Top-1精度,在400个时期的512批次大小中,这代表了对比学习中的新SOTA。我们认为DCL为将来的对比SSL研究提供了宝贵的基准。
translated by 谷歌翻译
由于开发更有效的对比学习方法,最近的学习最近取得了特殊的进展。然而,CNNS容易依赖于人类认为非语义的低级特征。据推测这种依赖性促使图像扰动或域移位缺乏鲁棒性。在本文中,我们表明,通过仔细设计的负样本,对比学习可以了解更强大的表现形式,较少依赖这些特征。对比度学习利用正对对保存语义信息的同时在训练图像中扰乱肤浅的特征。类似地,我们建议以反向的方式产生负样本,其中仅保留多余的代言特征。我们开发两种方法,基于纹理和基于补丁的增强,以生成负样本。这些样品达到更好的泛化,尤其是在域外设置下。我们还分析了我们的方法和生成的基于纹理的样本,显示纹理特征在分类特定的ImageNet类以及尤其更精细的类中是必不可少的。我们还表明,在不同的测试设置下,模型偏见有利于纹理和形状不同。我们的代码,培训的模型和想象的纹理数据集可以在https://github.com/songsoneige/contrastive-learning-with-non-semantic-negatiens找到。
translated by 谷歌翻译
尽管增加了大量的增强家庭,但只有几个樱桃采摘的稳健增强政策有利于自我监督的图像代表学习。在本文中,我们提出了一个定向自我监督的学习范式(DSSL),其与显着的增强符号兼容。具体而言,我们在用标准增强的视图轻度增强后调整重增强策略,以产生更难的视图(HV)。 HV通常具有与原始图像较高的偏差而不是轻度增强的标准视图(SV)。与以前的方法不同,同等对称地将所有增强视图对称地最大化它们的相似性,DSSL将相同实例的增强视图视为部分有序集(具有SV $ \ LeftrightArrow $ SV,SV $ \左路$ HV),然后装备一个定向目标函数尊重视图之间的衍生关系。 DSSL可以轻松地用几行代码实现,并且对于流行的自我监督学习框架非常灵活,包括SIMCLR,Simsiam,Byol。对CiFar和Imagenet的广泛实验结果表明,DSSL可以稳定地改善各种基线,其兼容性与更广泛的增强。
translated by 谷歌翻译
这项工作旨在改善具有自我监督的实例检索。我们发现使用最近开发的自我监督(SSL)学习方法(如SIMCLR和MOCO)的微调未能提高实例检索的性能。在这项工作中,我们确定了例如检索的学习表示应该是不变的视点和背景等的大变化,而当前SSL方法应用的自增强阳性不能为学习强大的实例级别表示提供强大的信号。为了克服这个问题,我们提出了一种在\ texit {实例级别}对比度上建立的新SSL方法,以通过动态挖掘迷你批次和存储库来学习类内不变性训练。广泛的实验表明,insclr在实例检索上实现了比最先进的SSL方法更类似或更好的性能。代码可在https://github.com/zeludeng/insclr获得。
translated by 谷歌翻译
数据增强模块用于对比学习将给定的数据示例转换为两个视图,这被认为是必不可少的且不可替代的。但是,多个数据增强的预定组成带来了两个缺点。首先,增强类型的人工选择为模型带来了特定的代表性不变,它们对不同的下游任务具有不同程度的积极和负面影响。在培训期间,平等处理每种类型的增强性,使该模型学习了各种下游任务的非最佳表示,并限制了事先选择增强类型的灵活性。其次,在经典的对比度学习方法中使用的强大数据增强可能会在某些情况下带来太多的不变性,而对于某些下游任务至关重要的细粒度可能会丢失。本文提出了一种通用方法,以考虑在一般的对比学习框架中考虑在何处以及与什么对比来减轻这两个问题。我们首先建议根据每个数据增强的重要性,在模型的不同深度学习不同的增强不变,而不是在骨干中均匀学习代表性不变。然后,我们建议用增强嵌入扩展对比内容,以减少强大数据增强的误导效果。基于几种基线方法的实验表明,我们在分类,检测和分割下游任务上学习更好的各种基准。
translated by 谷歌翻译
最近无监督的表示学习方法已经通过学习表示不变的数据增强,例如随机裁剪和彩色抖动等数据增强来生效。然而,如果依赖于数据增强的特征,例如,位置或色敏,则这种不变性可能对下游任务有害。这不是一个不监督学习的问题;我们发现即使在监督学习中也会发生这种情况,因为它还学会预测实例所有增强样本的相同标签。为避免此类失败并获得更广泛的表示,我们建议优化辅助自我监督损失,创建的AGESELF,了解两个随机增强样本之间的增强参数(例如,裁剪位置,颜色调整强度)的差异。我们的直觉是,Augelf鼓励在学习的陈述中保留增强信息,这可能有利于其可转让性。此外,Augself可以很容易地纳入最近的最先进的表示学习方法,其额外的培训成本可忽略不计。广泛的实验表明,我们的简单想法一直在各种转移学习情景中始终如一地提高了由监督和无监督方法所学到的表示的可转移性。代码可在https://github.com/hankook/augsfir。
translated by 谷歌翻译