最近先进的无监督学习方法使用暹罗样框架来比较来自同一图像的两个“视图”以进行学习表示。使两个视图独特是一种保证无监督方法可以学习有意义的信息的核心。但是,如果使用用于生成两个视图的增强不足够强度,此类框架有时会易碎过度装备,导致培训数据上的过度自信的问题。此缺点会阻碍模型,从学习微妙方差和细粒度信息。为了解决这个问题,在这项工作中,我们的目标是涉及在无监督的学习中的标签空间上的距离概念,并让模型通过混合输入数据空间来了解正面或负对对之间的柔和程度,以便协同工作输入和损耗空间。尽管其概念性简单,我们凭借解决的解决方案 - 无监督图像混合(UN-MIX),我们可以从转换的输入和相应的新标签空间中学习Subtler,更强大和广义表示。广泛的实验在CiFar-10,CiFar-100,STL-10,微小的想象和标准想象中进行了流行的无人监督方法SIMCLR,BYOL,MOCO V1和V2,SWAV等。我们所提出的图像混合物和标签分配策略可以获得一致的改进在完全相同的超参数和基础方法的培训程序之后1〜3%。代码在https://github.com/szq0214/un-mix上公开提供。
translated by 谷歌翻译
对比的自我监督学习在很大程度上缩小了对想象成的预先训练的差距。然而,它的成功高度依赖于想象成的以对象形象,即相同图像的不同增强视图对应于相同的对象。当预先训练在具有许多物体的更复杂的场景图像上,如此重种策划约束会立即不可行。为了克服这一限制,我们介绍了对象级表示学习(ORL),这是一个新的自我监督的学习框架迈向场景图像。我们的主要洞察力是利用图像级自我监督的预培训作为发现对象级语义对应之前的,从而实现了从场景图像中学习的对象级表示。对Coco的广泛实验表明,ORL显着提高了自我监督学习在场景图像上的性能,甚至超过了在几个下游任务上的监督Imagenet预训练。此外,当可用更加解标的场景图像时,ORL提高了下游性能,证明其在野外利用未标记数据的巨大潜力。我们希望我们的方法可以激励未来的研究从场景数据的更多通用无人监督的代表。
translated by 谷歌翻译
最近对比学习在从未标记数据学习视觉表现方面表现出显着进展。核心思想正在培训骨干,以不变的实例的不同增强。虽然大多数方法只能最大化两个增强数据之间的特征相似性,但我们进一步产生了更具挑战性的训练样本,并强迫模型继续预测这些硬样品上的判别表示。在本文中,我们提出了Mixsiam,传统暹罗网络的混合方法。一方面,我们将实例的两个增强图像输入到骨干,并通过执行两个特征的元素最大值来获得辨别结果。另一方面,我们将这些增强图像的混合物作为输入,并期望模型预测接近鉴别的表示。以这种方式,模型可以访问实例的更多变体数据样本,并继续预测它们的不变判别表示。因此,与先前的对比学习方法相比,学习模型更加强大。大型数据集的广泛实验表明,Mixsiam稳步提高了基线,并通过最先进的方法实现了竞争结果。我们的代码即将发布。
translated by 谷歌翻译
通过对比学习,自我监督学习最近在视觉任务中显示了巨大的潜力,这旨在在数据集中区分每个图像或实例。然而,这种情况级别学习忽略了实例之间的语义关系,有时不希望地从语义上类似的样本中排斥锚,被称为“假否定”。在这项工作中,我们表明,对于具有更多语义概念的大规模数据集来说,虚假否定的不利影响更为重要。为了解决这个问题,我们提出了一种新颖的自我监督的对比学习框架,逐步地检测并明确地去除假阴性样本。具体地,在训练过程之后,考虑到编码器逐渐提高,嵌入空间变得更加语义结构,我们的方法动态地检测增加的高质量假否定。接下来,我们讨论两种策略,以明确地在对比学习期间明确地消除检测到的假阴性。广泛的实验表明,我们的框架在有限的资源设置中的多个基准上表现出其他自我监督的对比学习方法。
translated by 谷歌翻译
自我监督学习的最新进展证明了多种视觉任务的有希望的结果。高性能自我监督方法中的一个重要成分是通过培训模型使用数据增强,以便在嵌入空间附近的相同图像的不同增强视图。然而,常用的增强管道整体地对待图像,忽略图像的部分的语义相关性-e.g。主题与背景 - 这可能导致学习杂散相关性。我们的工作通过调查一类简单但高度有效的“背景增强”来解决这个问题,这鼓励模型专注于语义相关内容,劝阻它们专注于图像背景。通过系统的调查,我们表明背景增强导致在各种任务中跨越一系列最先进的自我监督方法(MOCO-V2,BYOL,SWAV)的性能大量改进。 $ \ SIM $ + 1-2%的ImageNet收益,使得与监督基准的表现有关。此外,我们发现有限标签设置的改进甚至更大(高达4.2%)。背景技术增强还改善了许多分布换档的鲁棒性,包括天然对抗性实例,想象群-9,对抗性攻击,想象成型。我们还在产生了用于背景增强的显着掩模的过程中完全无监督的显着性检测进展。
translated by 谷歌翻译
自我监督的方法(SSL)通过最大化两个增强视图之间的相互信息,裁剪是一种巨大的成功,其中裁剪是一种流行的增强技术。裁剪区域广泛用于构造正对,而裁剪后的左侧区域很少被探讨在现有方法中,尽管它们在一起构成相同的图像实例并且两者都有助于对类别的描述。在本文中,我们首次尝试从完整的角度来展示两种地区的重要性,并提出称为区域对比学习(RegionCl)的简单但有效的借口任务。具体地,给定两个不同的图像,我们随机从具有相同大小的每个图像随机裁剪区域(称为粘贴视图)并将它们交换以分别与左区域(称为CANVAS视图)一起组成两个新图像。然后,可以根据以下简单标准提供对比度对,即,每个视图是(1)阳性,其视图从相同的原始图像增强,并且与从其他图像增强的视图增强的视图。对于对流行的SSL方法进行微小的修改,RegionCL利用这些丰富的对并帮助模型区分来自画布和粘贴视图的区域特征,因此学习更好的视觉表示。 Imagenet,Coco和Citycapes上的实验表明,RegionCL通过大型边缘改善Moco V2,Densecl和Simsiam,并在分类,检测和分割任务上实现最先进的性能。代码将在https://github.com/annbless/regioncl.git上获得。
translated by 谷歌翻译
我们通过以端到端的方式对大规模未标记的数据集进行分类,呈现扭曲,简单和理论上可解释的自我监督的表示学习方法。我们使用Softmax操作终止的暹罗网络,以产生两个增强图像的双类分布。没有监督,我们强制执行不同增强的班级分布。但是,只需最小化增强之间的分歧将导致折叠解决方案,即,输出所有图像的相同类概率分布。在这种情况下,留下有关输入图像的信息。为了解决这个问题,我们建议最大化输入和课程预测之间的互信息。具体地,我们最小化每个样品的分布的熵,使每个样品的课程预测是对每个样品自信的预测,并最大化平均分布的熵,以使不同样品的预测变得不同。以这种方式,扭曲可以自然地避免没有特定设计的折叠解决方案,例如非对称网络,停止梯度操作或动量编码器。因此,扭曲优于各种任务的最先进的方法。特别是,在半监督学习中,扭曲令人惊讶地表现出令人惊讶的是,使用Reset-50作为骨干的1%ImageNet标签实现61.2%的顶级精度,以前的最佳结果为6.2%。代码和预先训练的模型是给出的:https://github.com/byteDance/twist
translated by 谷歌翻译
最近自我监督学习成功的核心组成部分是裁剪数据增强,其选择要在自我监督损失中用作正视图的图像的子区域。底层假设是给定图像的随机裁剪和调整大小的区域与感兴趣对象的信息共享信息,其中学习的表示将捕获。这种假设在诸如想象网的数据集中大多满足,其中存在大,以中心为中心的对象,这很可能存在于完整图像的随机作物中。然而,在诸如OpenImages或Coco的其他数据集中,其更像是真实世界未保健数据的代表,通常存在图像中的多个小对象。在这项工作中,我们表明,基于通常随机裁剪的自我监督学习在此类数据集中表现不佳。我们提出用从对象提案算法获得的作物取代一种或两种随机作物。这鼓励模型学习对象和场景级别语义表示。使用这种方法,我们调用对象感知裁剪,导致对分类和对象检测基准的场景裁剪的显着改进。例如,在OpenImages上,我们的方法可以使用基于Moco-V2的预训练来实现8.8%的提高8.8%地图。我们还显示了对Coco和Pascal-Voc对象检测和分割任务的显着改善,通过最先进的自我监督的学习方法。我们的方法是高效,简单且通用的,可用于最现有的对比和非对比的自我监督的学习框架。
translated by 谷歌翻译
本文首先揭示令人惊讶的发现:没有任何学习,随机初始化的CNN可以令人惊讶地定位对象。也就是说,CNN具有归纳偏差,以自然地关注物体,在本文中被命名为Tobias(“对象是在视线处的”)。进一步分析并成功地应用于自我监督学习(SSL)的经验感应偏差。鼓励CNN学习专注于前景对象的表示,通过将每个图像转换为具有不同背景的各种版本,其中前景和背景分离被托比亚引导。实验结果表明,建议的托比亚斯显着提高了下游任务,尤其是对象检测。本文还表明,托比亚斯对不同尺寸的训练集具有一致的改进,并且更具弹性变化了图像增强。代码可在https://github.com/cupidjay/tobias获得。
translated by 谷歌翻译
我们提出了自适应培训 - 一种统一的培训算法,通过模型预测动态校准并增强训练过程,而不会产生额外的计算成本 - 以推进深度神经网络的监督和自我监督的学习。我们分析了培训数据的深网络培训动态,例如随机噪声和对抗例。我们的分析表明,模型预测能够在数据中放大有用的基础信息,即使在没有任何标签信息的情况下,这种现象也会发生,突出显示模型预测可能会产生培训过程:自适应培训改善了深网络的概括在噪音下,增强自我监督的代表学习。分析还阐明了解深度学习,例如,在经验风险最小化和最新的自我监督学习算法的折叠问题中对最近发现的双重现象的潜在解释。在CIFAR,STL和Imagenet数据集上的实验验证了我们在三种应用中的方法的有效性:用标签噪声,选择性分类和线性评估进行分类。为了促进未来的研究,该代码已在HTTPS://github.com/layneh/Self-Aveptive-训练中公开提供。
translated by 谷歌翻译
尽管增加了大量的增强家庭,但只有几个樱桃采摘的稳健增强政策有利于自我监督的图像代表学习。在本文中,我们提出了一个定向自我监督的学习范式(DSSL),其与显着的增强符号兼容。具体而言,我们在用标准增强的视图轻度增强后调整重增强策略,以产生更难的视图(HV)。 HV通常具有与原始图像较高的偏差而不是轻度增强的标准视图(SV)。与以前的方法不同,同等对称地将所有增强视图对称地最大化它们的相似性,DSSL将相同实例的增强视图视为部分有序集(具有SV $ \ LeftrightArrow $ SV,SV $ \左路$ HV),然后装备一个定向目标函数尊重视图之间的衍生关系。 DSSL可以轻松地用几行代码实现,并且对于流行的自我监督学习框架非常灵活,包括SIMCLR,Simsiam,Byol。对CiFar和Imagenet的广泛实验结果表明,DSSL可以稳定地改善各种基线,其兼容性与更广泛的增强。
translated by 谷歌翻译
我们介绍了代表学习(CARL)的一致分配,通过组合来自自我监督对比学习和深层聚类的思路来学习视觉表现的无监督学习方法。通过从聚类角度来看对比学习,Carl通过学习一组一般原型来学习无监督的表示,该原型用作能量锚来强制执行给定图像的不同视图被分配给相同的原型。与与深层聚类的对比学习的当代工作不同,Carl建议以在线方式学习一组一般原型,使用梯度下降,而无需使用非可微分算法或k手段来解决群集分配问题。卡尔在许多代表性学习基准中超越了竞争对手,包括线性评估,半监督学习和转移学习。
translated by 谷歌翻译
已经发现基于混合的增强对于培训期间的概括模型有效,特别是对于视觉变压器(VITS),因为它们很容易过度装备。然而,先前的基于混合的方法具有潜在的先验知识,即目标的线性内插比应保持与输入插值中提出的比率相同。这可能导致一个奇怪的现象,有时由于增强中的随机过程,混合图像中没有有效对象,但标签空间仍然存在响应。为了弥合输入和标签空间之间的这种差距,我们提出了透明度,该差别将基于视觉变压器的注意图混合标签。如果受关注图的相应输入图像加权,则标签的置信度将会更大。传输令人尴尬地简单,可以在几行代码中实现,而不会在不引入任何额外的参数和拖鞋到基于Vit的模型。实验结果表明,我们的方法可以在想象集分类上一致地始终改善各种基于Vit的模型。在ImageNet上预先接受过扫描后,基于Vit的模型还展示了对语义分割,对象检测和实例分割的更好的可转换性。当在评估4个不同的基准时,传输展示展示更加强劲。代码将在https://github.com/beckschen/transmix上公开提供。
translated by 谷歌翻译
语言变形金刚的成功主要归因于屏蔽语言建模(MLM)的借口任务,其中文本首先被致以语义有意义的作品。在这项工作中,我们研究了蒙面图像建模(MIM),并指出使用语义有意义的视觉销售器的优缺点。我们提出了一个自我监督的框架IBOT,可以使用在线标记器执行蒙版预测。具体而言,我们在蒙面的补丁令牌上进行自我蒸馏,并将教师网络作为在线标记器,以及在课堂上的自蒸馏来获取视觉语义。在线销售器与MIM目标和分配的多级培训管道共同学习,销售器需要预先预先培训。通过在Imagenet-1K上达到81.6%的线性探测精度和86.3%的微调精度来展示IBOT的突出。除了最先进的图像分类结果之外,我们强调了新兴的局部语义模式,这有助于模型对共同损坏获得强大的鲁棒性,并在密集的下游任务中实现领先的结果,例如,对象检测,实例分割和语义细分。
translated by 谷歌翻译
现有的深度聚类方法依赖于对比学习的对比学习,这需要否定例子来形成嵌入空间,其中所有情况都处于良好分离状态。但是,否定的例子不可避免地引起阶级碰撞问题,损害了群集的表示学习。在本文中,我们探讨了对深度聚类的非对比表示学习,被称为NCC,其基于Byol,一种没有负例的代表性方法。首先,我们建议将一个增强的实例与嵌入空间中的另一个视图的邻居对齐,称为正抽样策略,该域避免了由否定示例引起的类碰撞问题,从而提高了集群内的紧凑性。其次,我们建议鼓励在所有原型中的一个原型和均匀性的两个增强视图之间的对准,命名的原型是原型的对比损失或protocl,这可以最大化簇间距离。此外,我们在期望 - 最大化(EM)框架中制定了NCC,其中E-Step利用球面K手段来估计实例的伪标签和来自目标网络的原型的分布,并且M-Step利用了所提出的损失优化在线网络。结果,NCC形成了一个嵌入空间,其中所有集群都处于分离良好,而内部示例都很紧凑。在包括ImageNet-1K的几个聚类基准数据集上的实验结果证明了NCC优于最先进的方法,通过显着的余量。
translated by 谷歌翻译
虽然自我监督的表示学习(SSL)在大型模型中证明是有效的,但在遵循相同的解决方案时,轻量级模型中的SSL和监督方法之间仍然存在巨大差距。我们深入研究这个问题,发现轻量级模型在简单地执行实例对比时易于在语义空间中崩溃。为了解决这个问题,我们提出了一种与关系知识蒸馏(REKD)的关系方面的对比范例。我们介绍一个异构教师,明确地挖掘语义信息并将新颖的关系知识转移到学生(轻量级模型)。理论分析支持我们对案例对比度的主要担忧,验证了我们关系的对比学习的有效性。广泛的实验结果还表明,我们的方法达到了多种轻量级模型的显着改进。特别是,亚历谢的线性评估显然将目前的最先进从44.7%提高到50.1%,这是第一个接近监督50.5%的工作。代码将可用。
translated by 谷歌翻译
数据增强已被广泛用于改善深形网络的性能。提出了许多方法,例如丢弃,正则化和图像增强,以避免过度发出和增强神经网络的概括。数据增强中的一个子区域是图像混合和删除。这种特定类型的增强混合两个图像或删除图像区域以隐藏或制定困惑的图像的某些特征,以强制它强调图像中对象的整体结构。与此方法培训的模型表明,与未执行混合或删除的培训相比,该模型表现得很好。这种培训方法实现的额外福利是对图像损坏的鲁棒性。由于其最近的计算成本低,因此提出了许多图像混合和删除技术。本文对这些设计的方法提供了详细的审查,在三个主要类别中划分增强策略,切割和删除,切割和混合和混合。纸张的第二部分是评估这些方法的图像分类,微小的图像识别和对象检测方法,其中显示了这类数据增强提高了深度神经网络的整体性能。
translated by 谷歌翻译
最近最近的半监督学习(SSL)研究建立了教师学生的建筑,并通过教师产生的监督信号训练学生网络。数据增强策略在SSL框架中发挥着重要作用,因为很难在不丢失标签信息的情况下创建弱强度增强的输入对。特别是当将SSL扩展到半监督对象检测(SSOD)时,许多与图像几何和插值正则化相关的强大增强方法很难利用,因为它们可能损坏了对象检测任务中的边界框的位置信息。为解决此问题,我们介绍了一个简单但有效的数据增强方法,MIX / unmix(MUM),其中解密为SSOD框架的混合图像块的瓷砖。我们所提出的方法使混合输入图像块进行混合输入图像块,并在特征空间中重建它们。因此,妈妈可以从未插入的伪标签享受插值正则化效果,并成功地生成有意义的弱强对。此外,妈妈可以容易地配备各种SSOD方法。在MS-Coco和Pascal VOC数据集上的广泛实验通过在所有测试的SSOD基准协议中始终如一地提高基线的地图性能,证明了妈妈的优越性。
translated by 谷歌翻译
对比表现学习已被证明是一种有效的自我监督学习方法。大多数成功的方法都是基于噪声对比估计(NCE)范式,并将实例视图的视图视为阳性和其他情况,作为阳性应与其对比的噪声。但是,数据集中的所有实例都是从相同的分布和共享底层语义信息中汲取,这些语义信息不应被视为噪声。我们认为,良好的数据表示包含实例之间的关系或语义相似性。对比学习隐含地学习关系,但认为负面的噪音是对学习关系质量有害的噪音,因此是象征性的质量。为了规避这个问题,我们提出了一种使用称为相似性对比估计(SCE)之间的情况之间的语义相似性的对比学习的新颖性。我们的培训目标可以被视为柔和的对比学习。我们提出了持续分配以基于其语义相似性推动或拉动实例的持续分配。目标相似性分布从弱增强的情况计算并锐化以消除无关的关系。每个弱增强实例都与一个强大的增强实例配对,该实例对比其积极的同时保持目标相似性分布。实验结果表明,我们所提出的SCE在各种数据集中优于其基线MoCov2和RESSL,并对ImageNet线性评估协议上的最先进的算法具有竞争力。
translated by 谷歌翻译
使用超越欧几里德距离的神经网络,深入的Bregman分歧测量数据点的分歧,并且能够捕获分布的发散。在本文中,我们提出了深深的布利曼对视觉表现的对比学习的分歧,我们的目标是通过基于功能Bregman分歧培训额外的网络来提高自我监督学习中使用的对比损失。与完全基于单点之间的分歧的传统对比学学习方法相比,我们的框架可以捕获分布之间的发散,这提高了学习表示的质量。我们展示了传统的对比损失和我们提出的分歧损失优于基线的结合,并且最先前的自我监督和半监督学习的大多数方法在多个分类和对象检测任务和数据集中。此外,学习的陈述在转移到其他数据集和任务时概括了良好。源代码和我们的型号可用于补充,并将通过纸张释放。
translated by 谷歌翻译