What role do augmentations play in contrastive learning? Recent work suggests that good augmentations are label-preserving with respect to a specific downstream task. We complicate this picture by showing that label-destroying augmentations can be useful in the foundation model setting, where the goal is to learn diverse, general-purpose representations for multiple downstream tasks. We perform contrastive learning experiments on a range of image and audio datasets with multiple downstream tasks (e.g. for digits superimposed on photographs, predicting the class of one vs. the other). We find that Viewmaker Networks, a recently proposed model for learning augmentations for contrastive learning, produce label-destroying augmentations that stochastically destroy features needed for different downstream tasks. These augmentations are interpretable (e.g. altering shapes, digits, or letters added to images) and surprisingly often result in better performance compared to expert-designed augmentations, despite not preserving label information. To support our empirical results, we theoretically analyze a simple contrastive learning setting with a linear model. In this setting, label-destroying augmentations are crucial for preventing one set of features from suppressing the learning of features useful for another downstream task. Our results highlight the need for analyzing the interaction between multiple downstream tasks when trying to explain the success of foundation models.
translated by 谷歌翻译
自我监督学习中的最新作品通过依靠对比度学习范式来推动最先进的工作,该范式通过推动正面对或从同一班级中的类似示例来学习表示形式,同时将负面对截然不同。尽管取得了经验的成功,但理论基础是有限的 - 先前的分析假设鉴于同一类标签的正对有条件独立性,但是最近的经验应用使用了密切相关的正对(即同一图像的数据增强)。我们的工作分析了对比度学习,而无需在数据上使用增强图的新概念假设正对的有条件独立性。此图中的边缘连接相同数据的增强,而地面实际类别自然形成了连接的子图。我们提出了在人口增强图上执行光谱分解的损失,并且可以简洁地作为对神经净表示的对比学习目标。最小化此目标会导致在线性探针评估下具有可证明准确性的功能。通过标准的概括范围,在最大程度地减少训练对比度损失时,这些准确性也可以保证。从经验上讲,我们目标所学的功能可以匹配或胜过基准视觉数据集上的几个强基线。总的来说,这项工作为对比度学习提供了首次可证明的分析,在该学习中,线性探针评估的保证可以适用于现实的经验环境。
translated by 谷歌翻译
对比学习在各种自我监督的学习任务中取得了最先进的表现,甚至优于其监督的对应物。尽管其经验成功,但对为什么对比学习作品的理论认识仍然有限。在本文中,(i)我们证明,对比学习胜过AutoEncoder,一种经典无监督的学习方法,适用于特征恢复和下游任务;(ii)我们还说明标记数据在监督对比度学习中的作用。这为最近的发现提供了理论支持,即对标签对比学习的结果提高了域名下游任务中学识表的表现,但它可能会损害转移学习的性能。我们通过数值实验验证了我们的理论。
translated by 谷歌翻译
最近已证明自我监督的对比学习(CL)非常有效地防止深网贴上嘈杂的标签。尽管取得了经验成功,但对对比度学习对增强鲁棒性的影响的理论理解非常有限。在这项工作中,我们严格地证明,通过对比度学习学到的表示矩阵可以通过:(i)与数据中每个子类相对应的一个突出的奇异值来增强鲁棒性,并显着较小的剩余奇异值; (ii){{显着的单数矢量与每个子类的干净标签之间的一个很大的对齐。以上属性使对此类表示的线性层能够有效地学习干净的标签,而不会过度适应噪音。}我们进一步表明,通过对比度学习预先训练的深网的雅各比式的低级别结构使他们能够获得优越的最初的性能是在嘈杂的标签上进行微调时。最后,我们证明了对比度学习提供的最初鲁棒性使鲁棒训练方法能够在极端噪声水平下实现最先进的性能,例如平均27.18 \%\%和15.58 \%\%\%\%\%cifar-10上的提高和80 \%对称嘈杂标签的CIFAR-100,网络视频的准确性提高4.11 \%。
translated by 谷歌翻译
数据增强是机器学习管道的基石,但其理论基础尚不清楚。它只是人为增加数据集大小的一种方法吗?还是鼓励模型满足某些不变性?在这项工作中,我们考虑了另一个角度,我们研究了数据增强对学习过程动态的影响。我们发现,数据增强可以改变各种功能的相对重要性,从而有效地使某些信息性但难以学习的功能更有可能在学习过程中捕获。重要的是,我们表明,对于非线性模型,例如神经网络,这种效果更为明显。我们的主要贡献是对Allen-Zhu和Li [2020]最近提出的多视图数据模型中两层卷积神经网络的学习动态数据的详细分析。我们通过进一步的实验证据来补充这一分析,证明数据增加可以看作是特征操纵。
translated by 谷歌翻译
通过对比学习学到的表示的概括依赖于提取数据的特征。然而,我们观察到,对比损失并不总是充分引导提取的特征,可以通过无意中抑制重要预测特征来对下游任务对下游任务的性能产生负面影响的行为。我们发现特征提取受到所谓的实例歧视任务的难度的影响(即,鉴别不同分数的相似点的任务)。虽然更难以改善一些特征的表示,但改进是以抑制先前良好的特征的成本。作为响应,我们提出了隐含的特征修改(IFM),一种改变正和阴性样本的方法,以便引导对比模型来捕获更广泛的预测特征。凭经验,我们观察到IFM减少了特征抑制,结果提高了视觉和医学成像任务的性能。代码可在:\ url {https://github.com/joshr17/ifm}可用。
translated by 谷歌翻译
我们考虑无监督的域适应性(UDA),其中使用来自源域(例如照片)的标记数据,而来自目标域(例如草图)的未标记数据用于学习目标域的分类器。常规的UDA方法(例如,域对抗训练)学习域不变特征,以改善对目标域的概括。在本文中,我们表明,对比的预训练,它在未标记的源和目标数据上学习功能,然后在标记的源数据上进行微调,具有强大的UDA方法的竞争力。但是,我们发现对比前训练不会学习域不变特征,这与常规的UDA直觉不同。从理论上讲,我们证明了对比的预训练可以学习在跨域下微调但仍通过解开域和类信息来概括到目标域的特征。我们的结果表明,UDA不需要域的不变性。我们从经验上验证了基准视觉数据集的理论。
translated by 谷歌翻译
最近,自我监督的学习引起了极大的关注,因为它只需要未标记的培训数据。对比学习是一种流行的自我监督学习方法,并在实践中经验上表现良好。然而,研究了对下游任务的泛化能力的理论理解并未得到很好的研究。为此,我们展示了对对比自我监督的预训练模型概括到下游任务的理论解释。具体地,我们定量表明,如果它将输入数据嵌入到具有区别的特征空间和群集课外样本的特征空间中,则自我监控模型具有下游分类任务的泛化能力。通过上述结论,我们进一步探索了SIMCLR和Barlow双胞胎,这是两个规范对比自我监督的方法。我们证明了上述特征空间可以通过任何方法获得,从而解释它们对下游分类任务的概括的成功。最后,还进行了各种实验以验证我们的理论发现。
translated by 谷歌翻译
A prominent technique for self-supervised representation learning has been to contrast semantically similar and dissimilar pairs of samples. Without access to labels, dissimilar (negative) points are typically taken to be randomly sampled datapoints, implicitly accepting that these points may, in reality, actually have the same label. Perhaps unsurprisingly, we observe that sampling negative examples from truly different labels improves performance, in a synthetic setting where labels are available. Motivated by this observation, we develop a debiased contrastive objective that corrects for the sampling of same-label datapoints, even without knowledge of the true labels. Empirically, the proposed objective consistently outperforms the state-of-the-art for representation learning in vision, language, and reinforcement learning benchmarks. Theoretically, we establish generalization bounds for the downstream classification task.
translated by 谷歌翻译
通过最小化同一图像的两个视图之间的距离来最大程度地减少自我监督学习的非对比度方法(例如BYOL和SIMSIAM)。这些方法在实践中取得了非凡的表现,但是理论理解落在了背后。天等。 2021解释了为什么表示形式不会崩溃到零,但是如何学习该功能仍然是神秘的。在我们的工作中,我们在线性网络中证明了非对抗性方法,学习了理想的投影矩阵,并降低了下游任务的样本复杂性。我们的分析表明,重量衰减是一个隐式阈值,它在数据增强下丢弃具有较高差异的特征,并保持差异较低的功能。受我们的理论的启发,我们通过在Tian等人的原始直接销售算法中删除特征分解步骤,从而设计了更简单,更有效的算法直接副本。 2021.我们的实验表明,直接竞争对手甚至超过了STL-10,CIFAR-10,CIFAR-100和IMAGENET的表现。
translated by 谷歌翻译
理想学识渊博的表示应显示可转移性和鲁棒性。监督对比学习(SUPCON)是一种训练准确模型的有前途的方法,但是当班级映射中的所有点符合相同的表示形式时,就会产生不会捕获这些属性的表示形式。最近的工作表明,“散布”这些表示可以改善它们,但是确切的机制知之甚少。我们认为,单独创建点差不足以进行更好的表示,因为差异对于班级的排列不变。取而代之的是,有必要正确的传播程度和破坏这种不变性的机制。我们首先证明,添加加权类条件的信息损失以控制传播程度。接下来,我们研究了三种破坏排列不变性的机制:使用约束编码器,添加类条件自动编码器并使用数据增强。我们表明,后两者鼓励在更现实的条件下与前者聚集潜在子类。使用这些见解,我们表明,在5个标准数据集中添加适当加权的集体条件infonce损失和一个班级条件自动编码器,以在5个标准数据集中进行粗到5分的转移,并在最差的组上进行4.7分,以达到11.1个升力。 3个数据集,将Celeba的最新时间设置为11.5分。
translated by 谷歌翻译
对比学习是机器学习中最快的研究领域之一,因为它可以在没有标记数据的情况下学习有用的表示。然而,对比学学习易于特征抑制,即,它可能会丢弃与感兴趣的任务相关的重要信息,并学习无关的功能。过去的工作通过消除无关信息的手工制作的数据增强解决了这一限制。然而,这种方法不适用于所有数据集和任务。此外,当一个属性可以抑制与其他属性相关的特征时,数据增强在解决多属性分类中的功能抑制中失败。在本文中,我们分析了对比学习的目标函数,并正式证明它易于特征抑制。然后,我们提出预测对比学习(PCL),一种学习对特征抑制具有鲁棒的无监督表示的框架。关键的想法是强制学习的表示来预测输入,因此防止它丢弃重要信息。广泛的实验验证PCL是否强大地对特征抑制和优于各种数据集和任务的最先进的对比学习方法。
translated by 谷歌翻译
虽然神经网络在平均病例的性能方面对分类任务的成功显着,但它们通常无法在某些数据组上表现良好。这样的组信息可能是昂贵的;因此,即使在培训数据不可用的组标签不可用,较稳健性和公平的最新作品也提出了改善最差组性能的方法。然而,这些方法通常在培训时间使用集团信息的表现不佳。在这项工作中,我们假设没有组标签的较大数据集一起访问少量组标签。我们提出了一个简单的两步框架,利用这个部分组信息来提高最差组性能:训练模型以预测训练数据的丢失组标签,然后在强大的优化目标中使用这些预测的组标签。从理论上讲,我们在最差的组性能方面为我们的方法提供泛化界限,展示了泛化误差如何相对于培训点总数和具有组标签的培训点的数量。凭经验,我们的方法优于不使用群组信息的基线表达,即使只有1-33%的积分都有组标签。我们提供消融研究,以支持我们框架的稳健性和可扩展性。
translated by 谷歌翻译
Recent empirical works have successfully used unlabeled data to learn feature representations that are broadly useful in downstream classification tasks. Several of these methods are reminiscent of the well-known word2vec embedding algorithm: leveraging availability of pairs of semantically "similar" data points and "negative samples," the learner forces the inner product of representations of similar pairs with each other to be higher on average than with negative samples. The current paper uses the term contrastive learning for such algorithms and presents a theoretical framework for analyzing them by introducing latent classes and hypothesizing that semantically similar points are sampled from the same latent class. This framework allows us to show provable guarantees on the performance of the learned representations on the average classification task that is comprised of a subset of the same set of latent classes. Our generalization bound also shows that learned representations can reduce (labeled) sample complexity on downstream tasks. We conduct controlled experiments in both the text and image domains to support the theory.
translated by 谷歌翻译
噪声对比度估计的最新研究表明,从经验上讲,从理论上讲,尽管在对比度损失中拥有更多的“负样本”,但最初在阈值中提高了下游分类的性能,但由于“碰撞覆盖“贸易”,它都会损害下游性能-离开。但是,对比度学习中固有的现象是如此吗?我们在一个简单的理论环境中显示,通过从基础潜在类采样(由Saunshi等人引入(ICML 2019)),产生正对,表明表示(人口)对比度损失的下游性能实际上确实确实确实如此。不会随着负样本的数量降低。一路上,我们在框架中给出了最佳表示形式的结构表征,以进行噪声对比估计。我们还为CIFAR-10和CIFAR-100数据集的理论结果提供了经验支持。
translated by 谷歌翻译
自我监督的表示学习解决辅助预测任务(称为借口任务),而不需要标记数据以学习有用的语义表示。这些借口任务仅使用输入特征,例如预测缺失的图像修补程序,从上下文中恢复图像的颜色通道,或者预测文本中的缺失单词;然而,预测该\ Texit {已知}信息有助于学习对下游预测任务的学习陈述。我们提供利用某些{\ EM重建}借口任务之间的统计连接的机制,以保证学习良好代表性。正式地,我们量化了借口任务的组件之间的近似独立性(标签和潜在变量的条件)允许我们学习可以通过训练在学习表示的顶部的线性层来解决下游任务的表示。我们证明了线性层即使对于复杂的地面真理函数类,也会产生小的近似误差,并且将急剧减少标记的样本复杂性。接下来,我们展示了我们方法的简单修改,导致非线性CCA,类似于流行的Simsiam算法,并显示了非线性CCA的类似保证。
translated by 谷歌翻译
对自我监督学习(SSL)的最新分析发现,以下以数据为中心的属性对于学习良好表示至关重要:对任务 - 无关紧要的语义的不变性,在某些潜在空间中的类别可分离性以及从增强样品中可恢复标签的类别。但是,鉴于它们的离散,非欧成功的性质,图形数据集和图SSL方法不太可能满足这些属性。这提出了一个问题:如何绘制SSL方法(例如对比度学习(CL))如何工作?为了系统地探究这个问题,我们在使用通用图扩展(GGAS)时对CL进行概括分析,重点是以数据为中心的属性。我们的分析对GGA的局限性以及与任务相关的增强的必要性产生了正式见解。正如我们经验表明的那样,GGA不会在共同基准数据集上引起与任务相关的不变性,这只会导致对天真的,未经训练的基线的边际收益。我们的理论激发了合成数据生成过程,该过程能够控制与任务相关的信息并拥有预定义的最佳增强。这种灵活的基准测试有助于我们确定高级增强技术(例如自动化方法)中未认可的限制。总体而言,我们的工作在经验和理论上都严格地对以数据为中心的属性对图形SSL的增强策略和学习范式的影响进行了严格的背景。
translated by 谷歌翻译
由于其无监督的性质和下游任务的信息性特征表示,实例歧视自我监督的代表学习受到了受到关注的。在实践中,它通常使用比监督类的数量更多的负样本。然而,现有分析存在不一致;从理论上讲,大量的负样本在下游监督任务上降低了分类性能,同时凭经验,它们提高了性能。我们提供了一种新颖的框架,用于使用优惠券收集器的问题分析关于负样本的经验结果。我们的界限可以通过增加负样本的数量来隐立地纳入自我监督损失中的下游任务的监督损失。我们确认我们的拟议分析持有现实世界基准数据集。
translated by 谷歌翻译
尽管自我监督学习(SSL)方法取得了经验成功,但尚不清楚其表示的哪些特征导致了高下游精度。在这项工作中,我们表征了SSL表示应该满足的属性。具体而言,我们证明了必要和充分的条件,因此,对于给出的数据增强的任何任务,在该表示形式上训练的所需探针(例如,线性或MLP)具有完美的准确性。这些要求导致一个统一的概念框架,用于改善现有的SSL方法并得出新方法。对于对比度学习,我们的框架规定了对以前的方法(例如使用不对称投影头)的简单但重大改进。对于非对比度学习,我们使用框架来得出一个简单新颖的目标。我们所得的SSL算法在标准基准测试上的表现优于基线,包括Imagenet线性探测的SHAV+多螺旋桨。
translated by 谷歌翻译
Contrastive representation learning has been outstandingly successful in practice. In this work, we identify two key properties related to the contrastive loss: (1) alignment (closeness) of features from positive pairs, and (2) uniformity of the induced distribution of the (normalized) features on the hypersphere. We prove that, asymptotically, the contrastive loss optimizes these properties, and analyze their positive effects on downstream tasks. Empirically, we introduce an optimizable metric to quantify each property. Extensive experiments on standard vision and language datasets confirm the strong agreement between both metrics and downstream task performance. Directly optimizing for these two metrics leads to representations with comparable or better performance at downstream tasks than contrastive learning. Project
translated by 谷歌翻译