由于监督学习模型的培训中的高成本和数据限制,自我监督学习(SSL)最近引起了很多关注。 SSL中的当前范式是利用输入空间的数据增强来创建相同图像的不同视图并训练模型以最大化相似图像之间的表示,并最大程度地减少它们的不同图像。尽管这种方法实现了最新的(SOTA),但仍会实现各种下游任务,但它仍然有机会调查潜在的空间扩展。本文提出了Trimix,这是SSL的一种新颖概念,该概念通过数据的线性插值生成虚拟嵌入,从而为模型提供了新的表示。我们的策略着重于训练模型,以从虚拟的嵌入中提取原始嵌入,从而更好地表示学习。此外,我们提出了一个自称术语,可以提高虚拟嵌入和实际嵌入之间的一致性。我们在八个基准数据集上验证了Trimix,这些数据集由天然和医学图像组成,提高了2.71%和0.41%,比两种数据类型的第二好的模型好。此外,我们的方法表现优于半监督学习中的当前方法,尤其是在低数据制度中。此外,我们的预训练模型显示出更好的传输到其他数据集。
translated by 谷歌翻译
Self-supervised learning (SSL) is rapidly closing BARLOW TWINS is competitive with state-of-the-art methods for self-supervised learning while being conceptually simpler, naturally avoiding trivial constant (i.e. collapsed) embeddings, and being robust to the training batch size.
translated by 谷歌翻译
许多最近的自我监督学习方法在图像分类和其他任务上表现出了令人印象深刻的表现。已经使用了一种令人困惑的多种技术,并不总是清楚地了解其收益的原因,尤其是在组合使用时。在这里,我们将图像的嵌入视为点粒子,并将模型优化视为该粒子系统上的动态过程。我们的动态模型结合了类似图像的吸引力,避免局部崩溃的局部分散力以及实现颗粒的全球均匀分布的全局分散力。动态透视图突出了使用延迟参数图像嵌入(a la byol)以及同一图像的多个视图的优点。它还使用纯动态的局部分散力(布朗运动),该分散力比其他方法显示出改善的性能,并且不需要其他粒子坐标的知识。该方法称为MSBREG,代表(i)多视质心损失,它施加了吸引力的力来将不同的图像视图嵌入到其质心上,(ii)奇异值损失,将粒子系统推向空间均匀的密度( iii)布朗扩散损失。我们评估MSBREG在ImageNet上的下游分类性能以及转移学习任务,包括细粒度分类,多类对象分类,对象检测和实例分段。此外,我们还表明,将我们的正则化术语应用于其他方法,进一步改善了其性能并通过防止模式崩溃来稳定训练。
translated by 谷歌翻译
最近对比学习在从未标记数据学习视觉表现方面表现出显着进展。核心思想正在培训骨干,以不变的实例的不同增强。虽然大多数方法只能最大化两个增强数据之间的特征相似性,但我们进一步产生了更具挑战性的训练样本,并强迫模型继续预测这些硬样品上的判别表示。在本文中,我们提出了Mixsiam,传统暹罗网络的混合方法。一方面,我们将实例的两个增强图像输入到骨干,并通过执行两个特征的元素最大值来获得辨别结果。另一方面,我们将这些增强图像的混合物作为输入,并期望模型预测接近鉴别的表示。以这种方式,模型可以访问实例的更多变体数据样本,并继续预测它们的不变判别表示。因此,与先前的对比学习方法相比,学习模型更加强大。大型数据集的广泛实验表明,Mixsiam稳步提高了基线,并通过最先进的方法实现了竞争结果。我们的代码即将发布。
translated by 谷歌翻译
使用超越欧几里德距离的神经网络,深入的Bregman分歧测量数据点的分歧,并且能够捕获分布的发散。在本文中,我们提出了深深的布利曼对视觉表现的对比学习的分歧,我们的目标是通过基于功能Bregman分歧培训额外的网络来提高自我监督学习中使用的对比损失。与完全基于单点之间的分歧的传统对比学学习方法相比,我们的框架可以捕获分布之间的发散,这提高了学习表示的质量。我们展示了传统的对比损失和我们提出的分歧损失优于基线的结合,并且最先前的自我监督和半监督学习的大多数方法在多个分类和对象检测任务和数据集中。此外,学习的陈述在转移到其他数据集和任务时概括了良好。源代码和我们的型号可用于补充,并将通过纸张释放。
translated by 谷歌翻译
我们提出了用于自我监督的视觉表示学习的变换不变性和协方差对比度(TICO)。与其他最新的自我监督学习方法类似,我们的方法基于同一图像的不同变形版本之间的嵌入之间的一致性,这推动了编码器产生变换不变表示。为了避免编码器生成恒定向量的微不足道解,我们通过惩罚低等级解决方案将嵌入的嵌入的协方差矩阵正常化。通过共同最大程度地减少变换不变性损失和协方差对比损失,我们得到了一个能够为下游任务产生有用表示的编码器。我们分析了我们的方法,并表明它可以被视为MOCO的变体,具有无限尺寸的隐式存储器库,无需额外的内存成本。这使我们的方法在使用小批量尺寸时的性能要比替代方法更好。 TICO也可以看作是Barlow双胞胎的修改。通过将对比度和冗余方法联系起来,TICO为我们提供了有关关节嵌入方法如何工作的新见解。
translated by 谷歌翻译
长期以来,半监督学习(SSL)已被证明是一种有限的标签模型的有效技术。在现有的文献中,基于一致性的基于正则化的方法,这些方法迫使扰动样本具有类似的预测,而原始的样本则引起了极大的关注。但是,我们观察到,当标签变得极为有限时,例如,每个类别的2或3标签时,此类方法的性能会大大降低。我们的实证研究发现,主要问题在于语义信息在数据增强过程中的漂移。当提供足够的监督时,可以缓解问题。但是,如果几乎没有指导,错误的正则化将误导网络并破坏算法的性能。为了解决该问题,我们(1)提出了一种基于插值的方法来构建更可靠的正样品对; (2)设计一种新颖的对比损失,以指导学习网络的嵌入以在样品之间进行线性更改,从而通过扩大保证金决策边界来提高网络的歧视能力。由于未引入破坏性正则化,因此我们提出的算法的性能在很大程度上得到了改善。具体而言,所提出的算法的表现优于第二好算法(COMATT),而当CIFAR-10数据集中的每个类只有两个标签可用时,可以实现88.73%的分类精度,占5.3%。此外,我们通过通过我们提出的策略大大改善现有最新算法的性能,进一步证明了所提出的方法的普遍性。
translated by 谷歌翻译
最近先进的无监督学习方法使用暹罗样框架来比较来自同一图像的两个“视图”以进行学习表示。使两个视图独特是一种保证无监督方法可以学习有意义的信息的核心。但是,如果使用用于生成两个视图的增强不足够强度,此类框架有时会易碎过度装备,导致培训数据上的过度自信的问题。此缺点会阻碍模型,从学习微妙方差和细粒度信息。为了解决这个问题,在这项工作中,我们的目标是涉及在无监督的学习中的标签空间上的距离概念,并让模型通过混合输入数据空间来了解正面或负对对之间的柔和程度,以便协同工作输入和损耗空间。尽管其概念性简单,我们凭借解决的解决方案 - 无监督图像混合(UN-MIX),我们可以从转换的输入和相应的新标签空间中学习Subtler,更强大和广义表示。广泛的实验在CiFar-10,CiFar-100,STL-10,微小的想象和标准想象中进行了流行的无人监督方法SIMCLR,BYOL,MOCO V1和V2,SWAV等。我们所提出的图像混合物和标签分配策略可以获得一致的改进在完全相同的超参数和基础方法的培训程序之后1〜3%。代码在https://github.com/szq0214/un-mix上公开提供。
translated by 谷歌翻译
尽管增加了大量的增强家庭,但只有几个樱桃采摘的稳健增强政策有利于自我监督的图像代表学习。在本文中,我们提出了一个定向自我监督的学习范式(DSSL),其与显着的增强符号兼容。具体而言,我们在用标准增强的视图轻度增强后调整重增强策略,以产生更难的视图(HV)。 HV通常具有与原始图像较高的偏差而不是轻度增强的标准视图(SV)。与以前的方法不同,同等对称地将所有增强视图对称地最大化它们的相似性,DSSL将相同实例的增强视图视为部分有序集(具有SV $ \ LeftrightArrow $ SV,SV $ \左路$ HV),然后装备一个定向目标函数尊重视图之间的衍生关系。 DSSL可以轻松地用几行代码实现,并且对于流行的自我监督学习框架非常灵活,包括SIMCLR,Simsiam,Byol。对CiFar和Imagenet的广泛实验结果表明,DSSL可以稳定地改善各种基线,其兼容性与更广泛的增强。
translated by 谷歌翻译
We introduce Bootstrap Your Own Latent (BYOL), a new approach to self-supervised image representation learning. BYOL relies on two neural networks, referred to as online and target networks, that interact and learn from each other. From an augmented view of an image, we train the online network to predict the target network representation of the same image under a different augmented view. At the same time, we update the target network with a slow-moving average of the online network. While state-of-the art methods rely on negative pairs, BYOL achieves a new state of the art without them. BYOL reaches 74.3% top-1 classification accuracy on ImageNet using a linear evaluation with a ResNet-50 architecture and 79.6% with a larger ResNet. We show that BYOL performs on par or better than the current state of the art on both transfer and semi-supervised benchmarks. Our implementation and pretrained models are given on GitHub. 3 * Equal contribution; the order of first authors was randomly selected.
translated by 谷歌翻译
我们提出了自适应培训 - 一种统一的培训算法,通过模型预测动态校准并增强训练过程,而不会产生额外的计算成本 - 以推进深度神经网络的监督和自我监督的学习。我们分析了培训数据的深网络培训动态,例如随机噪声和对抗例。我们的分析表明,模型预测能够在数据中放大有用的基础信息,即使在没有任何标签信息的情况下,这种现象也会发生,突出显示模型预测可能会产生培训过程:自适应培训改善了深网络的概括在噪音下,增强自我监督的代表学习。分析还阐明了解深度学习,例如,在经验风险最小化和最新的自我监督学习算法的折叠问题中对最近发现的双重现象的潜在解释。在CIFAR,STL和Imagenet数据集上的实验验证了我们在三种应用中的方法的有效性:用标签噪声,选择性分类和线性评估进行分类。为了促进未来的研究,该代码已在HTTPS://github.com/layneh/Self-Aveptive-训练中公开提供。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
我们介绍了代表学习(CARL)的一致分配,通过组合来自自我监督对比学习和深层聚类的思路来学习视觉表现的无监督学习方法。通过从聚类角度来看对比学习,Carl通过学习一组一般原型来学习无监督的表示,该原型用作能量锚来强制执行给定图像的不同视图被分配给相同的原型。与与深层聚类的对比学习的当代工作不同,Carl建议以在线方式学习一组一般原型,使用梯度下降,而无需使用非可微分算法或k手段来解决群集分配问题。卡尔在许多代表性学习基准中超越了竞争对手,包括线性评估,半监督学习和转移学习。
translated by 谷歌翻译
This paper presents SimCLR: a simple framework for contrastive learning of visual representations. We simplify recently proposed contrastive selfsupervised learning algorithms without requiring specialized architectures or a memory bank. In order to understand what enables the contrastive prediction tasks to learn useful representations, we systematically study the major components of our framework. We show that (1) composition of data augmentations plays a critical role in defining effective predictive tasks, (2) introducing a learnable nonlinear transformation between the representation and the contrastive loss substantially improves the quality of the learned representations, and (3) contrastive learning benefits from larger batch sizes and more training steps compared to supervised learning. By combining these findings, we are able to considerably outperform previous methods for self-supervised and semi-supervised learning on ImageNet. A linear classifier trained on self-supervised representations learned by Sim-CLR achieves 76.5% top-1 accuracy, which is a 7% relative improvement over previous state-ofthe-art, matching the performance of a supervised ResNet-50. When fine-tuned on only 1% of the labels, we achieve 85.8% top-5 accuracy, outperforming AlexNet with 100× fewer labels. 1
translated by 谷歌翻译
我们通过以端到端的方式对大规模未标记的数据集进行分类,呈现扭曲,简单和理论上可解释的自我监督的表示学习方法。我们使用Softmax操作终止的暹罗网络,以产生两个增强图像的双类分布。没有监督,我们强制执行不同增强的班级分布。但是,只需最小化增强之间的分歧将导致折叠解决方案,即,输出所有图像的相同类概率分布。在这种情况下,留下有关输入图像的信息。为了解决这个问题,我们建议最大化输入和课程预测之间的互信息。具体地,我们最小化每个样品的分布的熵,使每个样品的课程预测是对每个样品自信的预测,并最大化平均分布的熵,以使不同样品的预测变得不同。以这种方式,扭曲可以自然地避免没有特定设计的折叠解决方案,例如非对称网络,停止梯度操作或动量编码器。因此,扭曲优于各种任务的最先进的方法。特别是,在半监督学习中,扭曲令人惊讶地表现出令人惊讶的是,使用Reset-50作为骨干的1%ImageNet标签实现61.2%的顶级精度,以前的最佳结果为6.2%。代码和预先训练的模型是给出的:https://github.com/byteDance/twist
translated by 谷歌翻译
受到计算机视觉的自我监督学习的最新进展的启发,在本文中,我们介绍了Delores,这是一种新的通用音频表示方法。我们的主要目标是使我们的网络学习在资源受限的设置(数据和计算)中,可以很好地跨越各种下游任务。受Barlow Twins目标功能的启发,我们建议学习对输入音频样本失真不变的嵌入,同时确保它们包含有关样本的非冗余信息。为此,我们测量了两个相同的网络的输出之间的互相关矩阵,该网络用从音频文件采样的音频段的变形版本中,使其尽可能接近身份矩阵。我们将大规模音频集数据集和FSD50K的一小部分组合用于自学学习,并且与最先进的算法相比,参数的一半不到一半。为了进行评估,我们将这些学习的表示形式转移到9个下游分类任务,包括语音,音乐和动物声音,并在不同的评估设置下显示竞争结果。除了简单明了,我们的预训练算法还可以通过其固有的构造本质来计算,并且不需要仔细的实施细节以避免琐碎或退化的解决方案。此外,我们对结果进行消融研究,并使我们的所有代码和预培训模型公开可用https://github.com/speech-lab-iitm/delores。
translated by 谷歌翻译
我们对自我监督,监督或半监督设置的代表学习感兴趣。在应用自我监督学习的平均移位思想的事先工作,通过拉动查询图像来概括拜尔的想法,不仅更接近其其他增强,而且还可以到其他增强的最近邻居(NNS)。我们认为,学习可以从选择远处与查询相关的邻居选择遥远的邻居。因此,我们建议通过约束最近邻居的搜索空间来概括MSF算法。我们显示我们的方法在SSL设置中优于MSF,当约束使用不同的图像时,并且当约束确保NNS具有与查询相同的伪标签时,在半监控设置中优于培训资源的半监控设置中的爪子。
translated by 谷歌翻译
自我监督的学习最近在没有人类注释的情况下在表示学习方面取得了巨大的成功。主要方法(即对比度学习)通常基于实例歧视任务,即单个样本被视为独立类别。但是,假定所有样品都是不同的,这与普通视觉数据集中类似样品的自然分组相矛盾,例如同一狗的多个视图。为了弥合差距,本文提出了一种自适应方法,该方法引入了软样本间关系,即自适应软化对比度学习(ASCL)。更具体地说,ASCL将原始实例歧视任务转换为多实体软歧视任务,并自适应地引入样本间关系。作为现有的自我监督学习框架的有效简明的插件模块,ASCL就性能和效率都实现了多个基准的最佳性能。代码可从https://github.com/mrchenfeng/ascl_icpr2022获得。
translated by 谷歌翻译
对于图像表示的自我监督学习最近对线性评估和微调评估有很多突破。这些方法依赖于巧妙制作的损失函数和培训设置,以避免特征崩溃问题。在本文中,我们改进了最近提出的VICREG纸,这引入了一个不依赖于专业训练环的损失函数,以收敛到有用的陈述。我们的方法改进了Vicrog中提出的协方差术语,另外我们通过极大地加速模型收敛的纤维镜层增强了架构的头部。我们的模型在UCR时间序列分类归档和PTB-XL ECG数据集的子集上实现了卓越的性能和对LINEAR评估和微调评估。
translated by 谷歌翻译
自我监督的学习表明它有可能在没有人为注释的情况下提取强大的视觉表现。提出各种作品从不同的角度处理自我监督的学习:(1)对比学习方法(例如,MOCO,SIMCLR)利用阳性和阴性样品来引导训练方向; (2)不对称网络方法(例如,BYOL,SIMSIAM)通过引入预测器网络和止动梯度操作来摆脱阴性样本; (3)特征去相关方法(例如,Barlow Twins,ViCREG),而是旨在降低特征尺寸之间的冗余。这些方法在各种动机的设计损失功能中看起来非常不同。最终的准确度数也各不相同,其中不同的网络和技巧在不同的作品中使用。在这项工作中,我们证明这些方法可以统一成相同的形式。我们不是比较他们的损失函数,我们通过梯度分析推出统一的公式。此外,我们进行公平和详细的实验以比较他们的表现。事实证明,这些方法之间几乎没有差距,并且使用动量编码器是提高性能的关键因素。从这个统一的框架来看,我们提出了一个简单但有效的自我监督学习的简单但有效的渐变形式。它不需要内存银行或预测的网络,但仍然可以实现最先进的性能,并轻松采用其他培训策略。广泛的线性评估实验和许多下游任务也表现出其有效性。代码应释放。
translated by 谷歌翻译