无监督的对比度学习(UCL)是一种自我监督的学习技术,旨在通过将正面样本彼此接近,同时将负面样本推到嵌入空间中远处,以学习有用的表示功能。为了提高UCL的性能,几项作品引入了旨在选择“硬”阴性样本与UCL中使用的随机采样策略相比,旨在选择“硬”阴性样本的硬性阴性对比度学习(H-UCL)。在另一种方法中,在假设标签信息可用的假设下,有监督的对比学习(SCL)最近通过将UCL扩展到完全监督的环境来开发。在本文中,由于硬性采样策略在H-UCL中的有效性以及标签信息在SCL中的有用性的启发性,我们提出了一个称为硬性负责监督的对比度学习(H-SCL)的对比学习框架。我们的数值结果证明了H-SCL在几个图像数据集上对SCL和H-UCL的有效性。另外,从理论上讲,在某些条件下,H-SCL的目标函数可以受H-UCL的目标函数的界定,而不是由UCL的目标函数界定。因此,将H-UCL损失最小化可以作为最小化H-SCL损失的代理,而最小化UCL损失不能。正如我们数值表明H-SCL优于其他对比学习方法时,我们的理论结果(通过H-UCL损失界限H-SCL损失)有助于解释为什么H-UCL在实践中优于UCL。
translated by 谷歌翻译
我们研究了针对无监督对比代表学习的硬消耗采样分布设计的问题。我们分析了一种新的MIN-MAX框架,寻求一种表示最小化所有联轴器的最大(最差情况)的广义对比学习损失(正面和阴性样本之间的关节分布)并证明所得的最小最大值代表性将是堕落的。这提供了在联轴器上结合额外的正则化约束的第一理论典范。我们通过最佳运输理论的镜头重新解释最小最大问题,并利用正则化的传输联轴来控制负例的硬度。我们证明最近提出的最先进的硬负面采样分布是对应于耦合熵正则化的特殊情况。
translated by 谷歌翻译
实例歧视对比学习(CL)在学习可转移表示方面取得了重大成功。与CL损失的温度$ \ tau $相关的硬度感知的属性被确定为在自动集中在硬性阴性样品上起着至关重要的作用。但是,先前的工作还证明了CL损失的均匀性困境(UTD)存在,这将导致意外的性能降解。具体而言,较小的温度有助于学习可分离的嵌入,但对语义相关样品的耐受性较小,这可能导致次优的嵌入空间,反之亦然。在本文中,我们提出了一种模型感的对比学习(MACL)策略来逃避UTD。对于训练不足的阶段,锚固的高相似性区域包含潜在的阳性样品的可能性较小。因此,在这些阶段采用较小的温度可以对硬性阴性样品施加更大的惩罚强度,以改善CL模型的歧视。相反,由于对潜在的阳性样品的耐受性,训练有素的相位较高的温度有助于探索语义结构。在实施过程中,MACL中的温度旨在适应反映CL模型置信度的对齐属性。此外,我们重新审查了为什么对比度学习需要在统一梯度降低的视角中大量负面样本。基于MACL和这些分析,在这项工作中提出了新的CL损失,以改善批量尺寸少量的学说和培训。
translated by 谷歌翻译
由于其无监督的性质和下游任务的信息性特征表示,实例歧视自我监督的代表学习受到了受到关注的。在实践中,它通常使用比监督类的数量更多的负样本。然而,现有分析存在不一致;从理论上讲,大量的负样本在下游监督任务上降低了分类性能,同时凭经验,它们提高了性能。我们提供了一种新颖的框架,用于使用优惠券收集器的问题分析关于负样本的经验结果。我们的界限可以通过增加负样本的数量来隐立地纳入自我监督损失中的下游任务的监督损失。我们确认我们的拟议分析持有现实世界基准数据集。
translated by 谷歌翻译
对比度学习最近在无监督的视觉表示学习中显示出巨大的潜力。在此轨道中的现有研究主要集中于图像内不变性学习。学习通常使用丰富的图像内变换来构建正对,然后使用对比度损失最大化一致性。相反,相互影响不变性的优点仍然少得多。利用图像间不变性的一个主要障碍是,尚不清楚如何可靠地构建图像间的正对,并进一步从它们中获得有效的监督,因为没有配对注释可用。在这项工作中,我们提出了一项全面的实证研究,以更好地了解从三个主要组成部分的形象间不变性学习的作用:伪标签维护,采样策略和决策边界设计。为了促进这项研究,我们引入了一个统一的通用框架,该框架支持无监督的内部和间形内不变性学习的整合。通过精心设计的比较和分析,揭示了多个有价值的观察结果:1)在线标签收敛速度比离线标签更快; 2)半硬性样品比硬否定样品更可靠和公正; 3)一个不太严格的决策边界更有利于形象间的不变性学习。借助所有获得的食谱,我们的最终模型(即InterCLR)对多个标准基准测试的最先进的内图内不变性学习方法表现出一致的改进。我们希望这项工作将为设计有效的无监督间歇性不变性学习提供有用的经验。代码:https://github.com/open-mmlab/mmselfsup。
translated by 谷歌翻译
Recent empirical works have successfully used unlabeled data to learn feature representations that are broadly useful in downstream classification tasks. Several of these methods are reminiscent of the well-known word2vec embedding algorithm: leveraging availability of pairs of semantically "similar" data points and "negative samples," the learner forces the inner product of representations of similar pairs with each other to be higher on average than with negative samples. The current paper uses the term contrastive learning for such algorithms and presents a theoretical framework for analyzing them by introducing latent classes and hypothesizing that semantically similar points are sampled from the same latent class. This framework allows us to show provable guarantees on the performance of the learned representations on the average classification task that is comprised of a subset of the same set of latent classes. Our generalization bound also shows that learned representations can reduce (labeled) sample complexity on downstream tasks. We conduct controlled experiments in both the text and image domains to support the theory.
translated by 谷歌翻译
我们提出了一种结合时间序列表示学习的专家知识的方法。我们的方法采用专家功能来代替以前的对比学习方法中常用的数据转换。我们这样做是因为时间序列数据经常源于工业或医疗领域,这些工业或医学领域通常可以从域专家那里获得专家功能,而转换通常难以捉摸,对于时间序列数据。我们首先提出了有用的时间序列表示应实现的两个属性,并表明当前的表示学习方法不能确保这些属性。因此,我们设计了Expclr,这是一种基于目标的目标,它利用专家功能来鼓励两种属性来实现学习的代表。最后,我们在三个现实世界中的数据集上演示了ExpCLR超过了无监督和半监督的表示学习的几种最新方法。
translated by 谷歌翻译
Contrastive learning applied to self-supervised representation learning has seen a resurgence in recent years, leading to state of the art performance in the unsupervised training of deep image models. Modern batch contrastive approaches subsume or significantly outperform traditional contrastive losses such as triplet, max-margin and the N-pairs loss. In this work, we extend the self-supervised batch contrastive approach to the fully-supervised setting, allowing us to effectively leverage label information. Clusters of points belonging to the same class are pulled together in embedding space, while simultaneously pushing apart clusters of samples from different classes. We analyze two possible versions of the supervised contrastive (SupCon) loss, identifying the best-performing formulation of the loss. On ResNet-200, we achieve top-1 accuracy of 81.4% on the Ima-geNet dataset, which is 0.8% above the best number reported for this architecture. We show consistent outperformance over cross-entropy on other datasets and two ResNet variants. The loss shows benefits for robustness to natural corruptions, and is more stable to hyperparameter settings such as optimizers and data augmentations. Our loss function is simple to implement and reference TensorFlow code is released at https://t.ly/supcon 1 .
translated by 谷歌翻译
无教师的在线知识蒸馏(KD)旨在培训多个学生模型的合奏,并彼此提炼知识。尽管现有的在线KD方法实现了理想的性能,但它们通常专注于阶级概率作为核心知识类型,而忽略了宝贵的特征代表性信息。我们为在线KD提供了一个相互的对比学习(MCL)框架。 MCL的核心思想是以在线方式进行对比分布的相互交互和对比度分布的转移。我们的MCL可以汇总跨网络嵌入信息,并最大化两个网络之间的相互信息的下限。这使每个网络能够从他人那里学习额外的对比知识,从而提供更好的特征表示形式,从而提高视觉识别任务的性能。除最后一层外,我们还将MCL扩展到辅助特征细化模块辅助的几个中间层。这进一步增强了在线KD的表示能力。关于图像分类和转移学习到视觉识别任务的实验表明,MCL可以针对最新的在线KD方法带来一致的性能提高。优势表明,MCL可以指导网络生成更好的特征表示。我们的代码可在https://github.com/winycg/mcl上公开获取。
translated by 谷歌翻译
Contrastive learning methods based on InfoNCE loss are popular in node representation learning tasks on graph-structured data. However, its reliance on data augmentation and its quadratic computational complexity might lead to inconsistency and inefficiency problems. To mitigate these limitations, in this paper, we introduce a simple yet effective contrastive model named Localized Graph Contrastive Learning (Local-GCL in short). Local-GCL consists of two key designs: 1) We fabricate the positive examples for each node directly using its first-order neighbors, which frees our method from the reliance on carefully-designed graph augmentations; 2) To improve the efficiency of contrastive learning on graphs, we devise a kernelized contrastive loss, which could be approximately computed in linear time and space complexity with respect to the graph size. We provide theoretical analysis to justify the effectiveness and rationality of the proposed methods. Experiments on various datasets with different scales and properties demonstrate that in spite of its simplicity, Local-GCL achieves quite competitive performance in self-supervised node representation learning tasks on graphs with various scales and properties.
translated by 谷歌翻译
通过对比学习,自我监督学习最近在视觉任务中显示了巨大的潜力,这旨在在数据集中区分每个图像或实例。然而,这种情况级别学习忽略了实例之间的语义关系,有时不希望地从语义上类似的样本中排斥锚,被称为“假否定”。在这项工作中,我们表明,对于具有更多语义概念的大规模数据集来说,虚假否定的不利影响更为重要。为了解决这个问题,我们提出了一种新颖的自我监督的对比学习框架,逐步地检测并明确地去除假阴性样本。具体地,在训练过程之后,考虑到编码器逐渐提高,嵌入空间变得更加语义结构,我们的方法动态地检测增加的高质量假否定。接下来,我们讨论两种策略,以明确地在对比学习期间明确地消除检测到的假阴性。广泛的实验表明,我们的框架在有限的资源设置中的多个基准上表现出其他自我监督的对比学习方法。
translated by 谷歌翻译
最近对比学习在从未标记数据学习视觉表现方面表现出显着进展。核心思想正在培训骨干,以不变的实例的不同增强。虽然大多数方法只能最大化两个增强数据之间的特征相似性,但我们进一步产生了更具挑战性的训练样本,并强迫模型继续预测这些硬样品上的判别表示。在本文中,我们提出了Mixsiam,传统暹罗网络的混合方法。一方面,我们将实例的两个增强图像输入到骨干,并通过执行两个特征的元素最大值来获得辨别结果。另一方面,我们将这些增强图像的混合物作为输入,并期望模型预测接近鉴别的表示。以这种方式,模型可以访问实例的更多变体数据样本,并继续预测它们的不变判别表示。因此,与先前的对比学习方法相比,学习模型更加强大。大型数据集的广泛实验表明,Mixsiam稳步提高了基线,并通过最先进的方法实现了竞争结果。我们的代码即将发布。
translated by 谷歌翻译
噪声对比度估计的最新研究表明,从经验上讲,从理论上讲,尽管在对比度损失中拥有更多的“负样本”,但最初在阈值中提高了下游分类的性能,但由于“碰撞覆盖“贸易”,它都会损害下游性能-离开。但是,对比度学习中固有的现象是如此吗?我们在一个简单的理论环境中显示,通过从基础潜在类采样(由Saunshi等人引入(ICML 2019)),产生正对,表明表示(人口)对比度损失的下游性能实际上确实确实确实如此。不会随着负样本的数量降低。一路上,我们在框架中给出了最佳表示形式的结构表征,以进行噪声对比估计。我们还为CIFAR-10和CIFAR-100数据集的理论结果提供了经验支持。
translated by 谷歌翻译
尽管有关超图的机器学习吸引了很大的关注,但大多数作品都集中在(半)监督的学习上,这可能会导致繁重的标签成本和不良的概括。最近,对比学习已成为一种成功的无监督表示学习方法。尽管其他领域中对比度学习的发展繁荣,但对超图的对比学习仍然很少探索。在本文中,我们提出了Tricon(三个方向对比度学习),这是对超图的对比度学习的一般框架。它的主要思想是三个方向对比度,具体来说,它旨在在两个增强视图中最大化同一节点之间的协议(a),(b)在同一节点之间以及(c)之间,每个组之间的成员及其成员之间的协议(b) 。加上简单但令人惊讶的有效数据增强和负抽样方案,这三种形式的对比使Tricon能够在节点嵌入中捕获显微镜和介观结构信息。我们使用13种基线方法,5个数据集和两个任务进行了广泛的实验,这证明了Tricon的有效性,最明显的是,Tricon始终优于无监督的竞争对手,而且(半)受监督的竞争对手,大多数是由大量的节点分类的大量差额。
translated by 谷歌翻译
对比学习被出现为强大的代表学习方法,促进各种下游任务,特别是当监督数据有限时。如何通过数据增强构建有效的对比样本是其成功的关键。与视觉任务不同,语言任务中尚未对对比学习进行对比学习的数据增强方法。在本文中,我们提出了一种使用文本摘要构建语言任务的对比样本的新方法。我们使用这些样本进行监督的对比学习,以获得更好的文本表示,这极大地利用了具有有限注释的文本分类任务。为了进一步改进该方法,除了交叉熵损失之外,我们将从不同类中的样本混合并添加一个名为MIXSUM的额外正则化。真实世界文本分类数据集(Amazon-5,Yelp-5,AG新闻和IMDB)的实验展示了基于摘要的数据增强和MIXSUM正规化的提议对比学习框架的有效性。
translated by 谷歌翻译
对比度学习(CL)方法有效地学习数据表示,而无需标记监督,在该方法中,编码器通过单VS-MONY SOFTMAX跨透镜损失将每个正样本在多个负样本上对比。通过利用大量未标记的图像数据,在Imagenet上预先训练时,最近的CL方法获得了有希望的结果,这是一个具有均衡图像类的曲制曲线曲线集。但是,当对野外图像进行预训练时,它们往往会产生较差的性能。在本文中,为了进一步提高CL的性能并增强其对未经保育数据集的鲁棒性,我们提出了一种双重的CL策略,该策略将其内部查询的正(负)样本对比,然后才能决定多么强烈地拉动(推)。我们通过对比度吸引力和对比度排斥(CACR)意识到这一策略,这使得查询不仅发挥了更大的力量来吸引更遥远的正样本,而且可以驱除更接近的负面样本。理论分析表明,CACR通过考虑正/阴性样品的分布之间的差异来概括CL的行为,而正/负样品的分布通常与查询独立进行采样,并且它们的真实条件分布给出了查询。我们证明了这种独特的阳性吸引力和阴性排斥机制,这有助于消除在数据集的策划较低时尤其有益于数据及其潜在表示的统一先验分布的需求。对许多标准视觉任务进行的大规模大规模实验表明,CACR不仅在表示学习中的基准数据集上始终优于现有的CL方法,而且在对不平衡图像数据集进行预训练时,还表现出更好的鲁棒性。
translated by 谷歌翻译
图神经网络(GNN)在学习图表表示方面取得了巨大成功,从而促进了各种与图形相关的任务。但是,大多数GNN方法都采用监督的学习设置,由于难以获得标记的数据,因此在现实世界中并不总是可行的。因此,图表自学学习一直在吸引越来越多的关注。图对比度学习(GCL)是自我监督学习的代表性框架。通常,GCL通过将语义上相似的节点(阳性样品)和不同的节点(阴性样品)与锚节点进行对比来学习节点表示。没有访问标签,通常通过数据增强产生阳性样品,而负样品是从整个图中均匀采样的,这导致了亚最佳目标。具体而言,数据增强自然限制了该过程中涉及的正样本的数量(通常只采用一个阳性样本)。另一方面,随机采样过程不可避免地选择假阴性样品(样品与锚共享相同的语义)。这些问题限制了GCL的学习能力。在这项工作中,我们提出了一个增强的目标,以解决上述问题。我们首先引入了一个不可能实现的理想目标,该目标包含所有正样本,没有假阴性样本。然后,基于对阳性和负样品进行采样的分布,将这个理想的目标转化为概率形式。然后,我们以节点相似性对这些分布进行建模,并得出增强的目标。各种数据集上的全面实验证明了在不同设置下提出的增强目标的有效性。
translated by 谷歌翻译
最近,测试时间适应(TTA)由于其处理现实世界中的分销转移问题而引起了越来越多的关注。与用于图像数据的卷积神经网络(CNN)开发的内容不同,图形神经网络(GNN)的探索较少。仍然缺乏针对具有不规则结构的图的有效算法。在本文中,我们提出了一种新颖的测试时间适应策略,称为图形伪群体对比度(GAPGC),用于图神经网络TTA,以更好地适应非分布(OOD)测试数据。具体而言,GAPGC在TTA期间采用了对比度学习变体作为一项自制任务,配备了对抗性可学习的增强器和组伪阳性样本,以增强自我监督任务与主要任务之间的相关性,从而提高主要任务。此外,我们提供了理论上的证据,表明GAPGC可以从信息理论的角度提取主要任务的最小信息。关于分子支架OOD数据集的广泛实验表明,所提出的方法在GNN上实现了最先进的性能。
translated by 谷歌翻译
自我监督的代表学习使对比学习的进步推动了显着的跨利赛,这旨在学习嵌入附近积极投入对的转变,同时推动负对的对。虽然可以可靠地生成正对(例如,作为相同图像的不同视图),但是难以准确地建立负对对,定义为来自不同图像的样本,而不管它们的语义内容或视觉功能如何。对比学习中的一个基本问题正在减轻假底片的影响。对比假否定引起了两个代表学习的关键问题:丢弃语义信息和缓慢的收敛。在本文中,我们提出了识别错误否定的新方法,以及减轻其效果的两种策略,即虚假的消极消除和吸引力,同时系统地执行严格的评估,详细阐述了这个问题。我们的方法表现出对基于对比学习的方法的一致性改进。没有标签,我们在想象中的1000个语义课程中识别出具有40%的精度,并且在使用1%标签的FINETUNING时,在先前最先进的最先进的前1个精度的绝对提高5.8%的绝对提高。我们的代码可在https://github.com/gogle-research/fnc上获得。
translated by 谷歌翻译
基于对比度学习(CL)以成对的方式学习视觉表示。尽管流行的CL模型取得了长足的进步,但在本文中,我们发现了一种不断被忽视的现象:当CL模型接受完整图像训练时,以完整图像测试的性能要比前景区域的表现更好。当CL模型接受前景区域训练时,以完整图像测试的性能要比前景区域差。该观察结果表明,图像中的背景可能会干扰模型学习语义信息及其影响尚未完全消除。为了解决这个问题,我们建立了一个结构性因果模型(SCM),以建模背景作为混杂因素。我们提出了一种基于后门调整的正则化方法,即用元语义正常器(ICL-MSR)进行介入的对比度学习,以对所提出的SCM进行因果干预。可以将ICL-MSR纳入任何现有的CL方法中,以减轻代表学习的背景干扰。从理论上讲,我们证明ICL-MSR达到了更严格的误差。从经验上讲,我们在多个基准数据集上的实验表明,ICL-MSR能够改善不同最先进的CL方法的性能。
translated by 谷歌翻译