我们提出了用于自我监督的视觉表示学习的变换不变性和协方差对比度(TICO)。与其他最新的自我监督学习方法类似,我们的方法基于同一图像的不同变形版本之间的嵌入之间的一致性,这推动了编码器产生变换不变表示。为了避免编码器生成恒定向量的微不足道解,我们通过惩罚低等级解决方案将嵌入的嵌入的协方差矩阵正常化。通过共同最大程度地减少变换不变性损失和协方差对比损失,我们得到了一个能够为下游任务产生有用表示的编码器。我们分析了我们的方法,并表明它可以被视为MOCO的变体,具有无限尺寸的隐式存储器库,无需额外的内存成本。这使我们的方法在使用小批量尺寸时的性能要比替代方法更好。 TICO也可以看作是Barlow双胞胎的修改。通过将对比度和冗余方法联系起来,TICO为我们提供了有关关节嵌入方法如何工作的新见解。
translated by 谷歌翻译
Self-supervised learning (SSL) is rapidly closing BARLOW TWINS is competitive with state-of-the-art methods for self-supervised learning while being conceptually simpler, naturally avoiding trivial constant (i.e. collapsed) embeddings, and being robust to the training batch size.
translated by 谷歌翻译
自我监督的学习表明它有可能在没有人为注释的情况下提取强大的视觉表现。提出各种作品从不同的角度处理自我监督的学习:(1)对比学习方法(例如,MOCO,SIMCLR)利用阳性和阴性样品来引导训练方向; (2)不对称网络方法(例如,BYOL,SIMSIAM)通过引入预测器网络和止动梯度操作来摆脱阴性样本; (3)特征去相关方法(例如,Barlow Twins,ViCREG),而是旨在降低特征尺寸之间的冗余。这些方法在各种动机的设计损失功能中看起来非常不同。最终的准确度数也各不相同,其中不同的网络和技巧在不同的作品中使用。在这项工作中,我们证明这些方法可以统一成相同的形式。我们不是比较他们的损失函数,我们通过梯度分析推出统一的公式。此外,我们进行公平和详细的实验以比较他们的表现。事实证明,这些方法之间几乎没有差距,并且使用动量编码器是提高性能的关键因素。从这个统一的框架来看,我们提出了一个简单但有效的自我监督学习的简单但有效的渐变形式。它不需要内存银行或预测的网络,但仍然可以实现最先进的性能,并轻松采用其他培训策略。广泛的线性评估实验和许多下游任务也表现出其有效性。代码应释放。
translated by 谷歌翻译
许多最近的自我监督学习方法在图像分类和其他任务上表现出了令人印象深刻的表现。已经使用了一种令人困惑的多种技术,并不总是清楚地了解其收益的原因,尤其是在组合使用时。在这里,我们将图像的嵌入视为点粒子,并将模型优化视为该粒子系统上的动态过程。我们的动态模型结合了类似图像的吸引力,避免局部崩溃的局部分散力以及实现颗粒的全球均匀分布的全局分散力。动态透视图突出了使用延迟参数图像嵌入(a la byol)以及同一图像的多个视图的优点。它还使用纯动态的局部分散力(布朗运动),该分散力比其他方法显示出改善的性能,并且不需要其他粒子坐标的知识。该方法称为MSBREG,代表(i)多视质心损失,它施加了吸引力的力来将不同的图像视图嵌入到其质心上,(ii)奇异值损失,将粒子系统推向空间均匀的密度( iii)布朗扩散损失。我们评估MSBREG在ImageNet上的下游分类性能以及转移学习任务,包括细粒度分类,多类对象分类,对象检测和实例分段。此外,我们还表明,将我们的正则化术语应用于其他方法,进一步改善了其性能并通过防止模式崩溃来稳定训练。
translated by 谷歌翻译
We introduce Bootstrap Your Own Latent (BYOL), a new approach to self-supervised image representation learning. BYOL relies on two neural networks, referred to as online and target networks, that interact and learn from each other. From an augmented view of an image, we train the online network to predict the target network representation of the same image under a different augmented view. At the same time, we update the target network with a slow-moving average of the online network. While state-of-the art methods rely on negative pairs, BYOL achieves a new state of the art without them. BYOL reaches 74.3% top-1 classification accuracy on ImageNet using a linear evaluation with a ResNet-50 architecture and 79.6% with a larger ResNet. We show that BYOL performs on par or better than the current state of the art on both transfer and semi-supervised benchmarks. Our implementation and pretrained models are given on GitHub. 3 * Equal contribution; the order of first authors was randomly selected.
translated by 谷歌翻译
Unsupervised image representations have significantly reduced the gap with supervised pretraining, notably with the recent achievements of contrastive learning methods. These contrastive methods typically work online and rely on a large number of explicit pairwise feature comparisons, which is computationally challenging. In this paper, we propose an online algorithm, SwAV, that takes advantage of contrastive methods without requiring to compute pairwise comparisons. Specifically, our method simultaneously clusters the data while enforcing consistency between cluster assignments produced for different augmentations (or "views") of the same image, instead of comparing features directly as in contrastive learning. Simply put, we use a "swapped" prediction mechanism where we predict the code of a view from the representation of another view. Our method can be trained with large and small batches and can scale to unlimited amounts of data. Compared to previous contrastive methods, our method is more memory efficient since it does not require a large memory bank or a special momentum network. In addition, we also propose a new data augmentation strategy, multi-crop, that uses a mix of views with different resolutions in place of two full-resolution views, without increasing the memory or compute requirements. We validate our findings by achieving 75.3% top-1 accuracy on ImageNet with ResNet-50, as well as surpassing supervised pretraining on all the considered transfer tasks.
translated by 谷歌翻译
尽管增加了大量的增强家庭,但只有几个樱桃采摘的稳健增强政策有利于自我监督的图像代表学习。在本文中,我们提出了一个定向自我监督的学习范式(DSSL),其与显着的增强符号兼容。具体而言,我们在用标准增强的视图轻度增强后调整重增强策略,以产生更难的视图(HV)。 HV通常具有与原始图像较高的偏差而不是轻度增强的标准视图(SV)。与以前的方法不同,同等对称地将所有增强视图对称地最大化它们的相似性,DSSL将相同实例的增强视图视为部分有序集(具有SV $ \ LeftrightArrow $ SV,SV $ \左路$ HV),然后装备一个定向目标函数尊重视图之间的衍生关系。 DSSL可以轻松地用几行代码实现,并且对于流行的自我监督学习框架非常灵活,包括SIMCLR,Simsiam,Byol。对CiFar和Imagenet的广泛实验结果表明,DSSL可以稳定地改善各种基线,其兼容性与更广泛的增强。
translated by 谷歌翻译
Siamese networks have become a common structure in various recent models for unsupervised visual representation learning. These models maximize the similarity between two augmentations of one image, subject to certain conditions for avoiding collapsing solutions. In this paper, we report surprising empirical results that simple Siamese networks can learn meaningful representations even using none of the following: (i) negative sample pairs, (ii) large batches, (iii) momentum encoders. Our experiments show that collapsing solutions do exist for the loss and structure, but a stop-gradient operation plays an essential role in preventing collapsing. We provide a hypothesis on the implication of stop-gradient, and further show proof-of-concept experiments verifying it. Our "SimSiam" method achieves competitive results on ImageNet and downstream tasks. We hope this simple baseline will motivate people to rethink the roles of Siamese architectures for unsupervised representation learning. Code will be made available.
translated by 谷歌翻译
数据增强模块用于对比学习将给定的数据示例转换为两个视图,这被认为是必不可少的且不可替代的。但是,多个数据增强的预定组成带来了两个缺点。首先,增强类型的人工选择为模型带来了特定的代表性不变,它们对不同的下游任务具有不同程度的积极和负面影响。在培训期间,平等处理每种类型的增强性,使该模型学习了各种下游任务的非最佳表示,并限制了事先选择增强类型的灵活性。其次,在经典的对比度学习方法中使用的强大数据增强可能会在某些情况下带来太多的不变性,而对于某些下游任务至关重要的细粒度可能会丢失。本文提出了一种通用方法,以考虑在一般的对比学习框架中考虑在何处以及与什么对比来减轻这两个问题。我们首先建议根据每个数据增强的重要性,在模型的不同深度学习不同的增强不变,而不是在骨干中均匀学习代表性不变。然后,我们建议用增强嵌入扩展对比内容,以减少强大数据增强的误导效果。基于几种基线方法的实验表明,我们在分类,检测和分割下游任务上学习更好的各种基准。
translated by 谷歌翻译
近年来,基于对比的自我监督学习方法取得了巨大的成功。但是,自学要求非常长的训练时期(例如,MoCO V3的800个时代)才能获得有希望的结果,这对于一般学术界来说是不可接受的,并阻碍了该主题的发展。这项工作重新审视了基于动量的对比学习框架,并确定了两种增强观点仅产生一个积极对的效率低下。我们提出了快速MOCO-一个新颖的框架,该框架利用组合贴片从两个增强视图中构造了多对正面,该视图提供了丰富的监督信号,这些信号带来了可忽视的额外计算成本,从而带来了显着的加速。经过100个时期训练的快速MOCO实现了73.5%的线性评估精度,类似于经过800个时期训练的MOCO V3(Resnet-50骨干)。额外的训练(200个时期)进一步将结果提高到75.1%,这与最先进的方法相当。几个下游任务的实验也证实了快速MOCO的有效性。
translated by 谷歌翻译
This paper presents Prototypical Contrastive Learning (PCL), an unsupervised representation learning method that bridges contrastive learning with clustering. PCL not only learns low-level features for the task of instance discrimination, but more importantly, it encodes semantic structures discovered by clustering into the learned embedding space. Specifically, we introduce prototypes as latent variables to help find the maximum-likelihood estimation of the network parameters in an Expectation-Maximization framework. We iteratively perform E-step as finding the distribution of prototypes via clustering and M-step as optimizing the network via contrastive learning. We propose ProtoNCE loss, a generalized version of the InfoNCE loss for contrastive learning, which encourages representations to be closer to their assigned prototypes. PCL outperforms state-of-the-art instance-wise contrastive learning methods on multiple benchmarks with substantial improvement in low-resource transfer learning. Code and pretrained models are available at https://github.com/salesforce/PCL.
translated by 谷歌翻译
我们从统计依赖性角度接近自我监督的图像表示学习,提出与希尔伯特 - 施密特独立性标准(SSL-HSIC)自我监督的学习。 SSL-HSIC最大化图像和图像标识的变换表示之间的依赖性,同时最小化这些表示的核化方差。该框架产生了对Infonce的新了解,在不同转换之间的相互信息(MI)上的变分下限。虽然已知MI本身具有可能导致学习无意义的表示的病理学,但其绑定表现得更好:我们表明它隐含地近似于SSL-HSIC(具有略微不同的规范器)。我们的方法还向我们深入了解Byol,一种无与伦比的SSL方法,因为SSL-HSIC类似地了解了当地的样本邻居。 SSL-HSIC允许我们在批量大小中直接在时间线性上直接优化统计依赖性,而无需限制数据假设或间接相互信息估计。 SSL-HSIC培训或没有目标网络,SSL-HSIC与Imagenet的标准线性评估相匹配,半监督学习和转移到其他分类和视觉任务,如语义分割,深度估计和对象识别等。代码可在https://github.com/deepmind/ssl_hsic提供。
translated by 谷歌翻译
自我监督的学习允许AI系统使用不需要昂贵的标签的任务从大量数据中学习有效表示。模式崩溃,即为所有输入产生相同表示形式的模型,是许多自我监督学习方法的核心问题,可以使自我监督任务(例如匹配输入的变形变体)无效。在本文中,我们认为,同一输入的替代潜在表示之间信息最大化的直接应用自然解决了崩溃问题并实现了竞争性的经验结果。我们提出了一种自我监督的学习方法Corinfomax,该方法使用了基于二阶统计的共同信息度量,以反映其参数之间的相关性水平。在同一输入的替代表示之间最大化此相关信息度量有两个目的:(1)它通过生成具有非脱位协方差的特征向量来避免崩溃问题; (2)通过增加它们之间的线性依赖性,它在替代表示之间建立了相关性。提出的信息最大化客观的近似简化为基于欧几里得距离的目标函数,该目标函数由特征协方差矩阵的对数确定因素正规化。正则术语是针对特征空间退化的自然障碍。因此,除了避免完全输出崩溃到一个点外,提出的方法还通过鼓励信息在整个特征空间中的传播来防止尺寸崩溃。数值实验表明,相对于最先进的SSL方法,Corinfomax取得更好或竞争性的性能结果。
translated by 谷歌翻译
Contrastive learning has become a key component of self-supervised learning approaches for computer vision. By learning to embed two augmented versions of the same image close to each other and to push the embeddings of different images apart, one can train highly transferable visual representations. As revealed by recent studies, heavy data augmentation and large sets of negatives are both crucial in learning such representations. At the same time, data mixing strategies, either at the image or the feature level, improve both supervised and semi-supervised learning by synthesizing novel examples, forcing networks to learn more robust features. In this paper, we argue that an important aspect of contrastive learning, i.e. the effect of hard negatives, has so far been neglected. To get more meaningful negative samples, current top contrastive self-supervised learning approaches either substantially increase the batch sizes, or keep very large memory banks; increasing memory requirements, however, leads to diminishing returns in terms of performance. We therefore start by delving deeper into a top-performing framework and show evidence that harder negatives are needed to facilitate better and faster learning. Based on these observations, and motivated by the success of data mixing, we propose hard negative mixing strategies at the feature level, that can be computed on-the-fly with a minimal computational overhead. We exhaustively ablate our approach on linear classification, object detection, and instance segmentation and show that employing our hard negative mixing procedure improves the quality of visual representations learned by a state-of-the-art self-supervised learning method.Project page: https://europe.naverlabs.com/mochi 34th Conference on Neural Information Processing Systems (NeurIPS 2020),
translated by 谷歌翻译
我们专注于更好地理解增强不变代表性学习的关键因素。我们重新访问moco v2和byol,并试图证明以下假设的真实性:不同的框架即使具有相同的借口任务也会带来不同特征的表示。我们建立了MoCo V2和BYOL之间公平比较的第一个基准,并观察:(i)复杂的模型配置使得可以更好地适应预训练数据集; (ii)从实现竞争性转移表演中获得的预训练和微调阻碍模型的优化策略不匹配。鉴于公平的基准,我们进行进一步的研究并发现网络结构的不对称性赋予对比框架在线性评估协议下正常工作,同时可能会损害长尾分类任务的转移性能。此外,负样本并不能使模型更明智地选择数据增强,也不会使不对称网络结构结构。我们相信我们的发现为将来的工作提供了有用的信息。
translated by 谷歌翻译
对比表现学习已被证明是一种有效的自我监督学习方法。大多数成功的方法都是基于噪声对比估计(NCE)范式,并将实例视图的视图视为阳性和其他情况,作为阳性应与其对比的噪声。但是,数据集中的所有实例都是从相同的分布和共享底层语义信息中汲取,这些语义信息不应被视为噪声。我们认为,良好的数据表示包含实例之间的关系或语义相似性。对比学习隐含地学习关系,但认为负面的噪音是对学习关系质量有害的噪音,因此是象征性的质量。为了规避这个问题,我们提出了一种使用称为相似性对比估计(SCE)之间的情况之间的语义相似性的对比学习的新颖性。我们的培训目标可以被视为柔和的对比学习。我们提出了持续分配以基于其语义相似性推动或拉动实例的持续分配。目标相似性分布从弱增强的情况计算并锐化以消除无关的关系。每个弱增强实例都与一个强大的增强实例配对,该实例对比其积极的同时保持目标相似性分布。实验结果表明,我们所提出的SCE在各种数据集中优于其基线MoCov2和RESSL,并对ImageNet线性评估协议上的最先进的算法具有竞争力。
translated by 谷歌翻译
我们通过以端到端的方式对大规模未标记的数据集进行分类,呈现扭曲,简单和理论上可解释的自我监督的表示学习方法。我们使用Softmax操作终止的暹罗网络,以产生两个增强图像的双类分布。没有监督,我们强制执行不同增强的班级分布。但是,只需最小化增强之间的分歧将导致折叠解决方案,即,输出所有图像的相同类概率分布。在这种情况下,留下有关输入图像的信息。为了解决这个问题,我们建议最大化输入和课程预测之间的互信息。具体地,我们最小化每个样品的分布的熵,使每个样品的课程预测是对每个样品自信的预测,并最大化平均分布的熵,以使不同样品的预测变得不同。以这种方式,扭曲可以自然地避免没有特定设计的折叠解决方案,例如非对称网络,停止梯度操作或动量编码器。因此,扭曲优于各种任务的最先进的方法。特别是,在半监督学习中,扭曲令人惊讶地表现出令人惊讶的是,使用Reset-50作为骨干的1%ImageNet标签实现61.2%的顶级精度,以前的最佳结果为6.2%。代码和预先训练的模型是给出的:https://github.com/byteDance/twist
translated by 谷歌翻译
对比性自我监督表示方法学习方法最大程度地提高了正对之间的相似性,同时倾向于最大程度地减少负对之间的相似性。但是,总的来说,负面对之间的相互作用被忽略了,因为它们没有根据其特定差异和相似性而采用的特殊机制来对待负面对。在本文中,我们提出了扩展的动量对比(Xmoco),这是一种基于MOCO家族配置中提出的动量编码单元的遗产,一种自我监督的表示方法。为此,我们引入了交叉一致性正则化损失,并通过该损失将转换一致性扩展到不同图像(负对)。在交叉一致性正则化规则下,我们认为与任何一对图像(正或负)相关的语义表示应在借口转换下保留其交叉相似性。此外,我们通过在批处理上的负面对上实施相似性的均匀分布来进一步规范训练损失。可以轻松地将所提出的正规化添加到现有的自我监督学习算法中。从经验上讲,我们报告了标准Imagenet-1K线性头部分类基准的竞争性能。此外,通过将学习的表示形式转移到常见的下游任务中,我们表明,将Xmoco与普遍使用的增强功能一起使用可以改善此类任务的性能。我们希望本文的发现是研究人员考虑自我监督学习中负面例子的重要相互作用的动机。
translated by 谷歌翻译
自我监督的表示学习将高维数据映射到一个有意义的嵌入空间中,其中相似的语义内容样本彼此接近。最近的大多数表示学习方法都可以最大化余弦相似性,或最大程度地减少通常在$ L2 $归一化的单位透射率上的不同视图的嵌入特征之间的嵌入特征之间的距离。为了防止所有样品具有相同嵌入功能的微不足道的解决方案,已经开发了各种技术,例如对比度学习,停止梯度,差异和协方差正则化等。在这项研究中,我们建议用于多段信息编码(音乐)自我监督的表示学习。音乐将嵌入功能分为多个段,将样本区分为不同的语义簇,不同的片段集中于不同的分区原理。信息理论测量直接用于优化音乐,理论上保证了琐碎的解决方案。音乐不取决于常用的技术,例如内存库或大批次,不对称网络,梯度停止,动量重量更新等,从而使训练框架灵活。我们的实验表明,音乐比大多数相关的Barlow双胞胎和对Imareet探测的ImageNet分类的Vicreg方法获得了更好的结果,并且不需要深层投影仪也不需要大的特征维度。代码将可用。
translated by 谷歌翻译
We introduce Bootstrap Your Own Latent (BYOL), a new approach to selfsupervised image representation learning. BYOL relies on two neural networks, referred to as online and target networks, that interact and learn from each other. From an augmented view of an image, we train the online network to predict the target network representation of the same image under a different augmented view. At the same time, we update the target network with a slow-moving average of the online network. While state-of-the art methods rely on negative pairs, BYOL achieves a new state of the art without them. BYOL reaches 74.3% top-1 classification accuracy on ImageNet using a linear evaluation with a ResNet-50 architecture and 79.6% with a larger ResNet. We show that BYOL performs on par or better than the current state of the art on both transfer and semi-supervised benchmarks. Our implementation and pretrained models are given on GitHub. 3 * Equal contribution; the order of first authors was randomly selected. 3
translated by 谷歌翻译