Pretrain-Finetune范式是视觉学习的古典管道。最近对无监督预押方法的进展表现出卓越的转移绩效对其监督的对应物。本文重新审视了这种现象,并揭示了了解无监督和监督从多层赫克隆(MLP)观点的无监督和监督预先预测之间的可转移性差距。虽然以前的作品专注于MLP对无监督图像分类的有效性,其中预先训练和评估在同一数据集上进行预测和评估,但我们揭示了MLP投影仪的关键因素,以便更好地转移的预测方法比监督预测方法更好地转移。基于该观察,我们试图通过在监督预测的分类器之前添加MLP投影仪来缩小监督和无监督预测之间的可转移性差距。我们的分析表明,MLP投影仪可以帮助保留视觉特征的类内变化,降低预先训练和评估数据集之间的特征分布距离,并降低特征冗余。关于公共基准的广泛实验表明,添加的MLP投影机显着提高了监督预测的可转移性,例如\ TextBF {+7.2 \%}概念概念概念概念任务的1精度,\ textbf {+5.8 \%} top-1在Coco对象检测任务上的12个域分类任务的线性评估准确性,以及Coco对象检测任务的\ TextBF {+0.8 \%} AP,使监督预测可比或甚至优于无监督的预测。代码将在接受时发布。
translated by 谷歌翻译
我们专注于更好地理解增强不变代表性学习的关键因素。我们重新访问moco v2和byol,并试图证明以下假设的真实性:不同的框架即使具有相同的借口任务也会带来不同特征的表示。我们建立了MoCo V2和BYOL之间公平比较的第一个基准,并观察:(i)复杂的模型配置使得可以更好地适应预训练数据集; (ii)从实现竞争性转移表演中获得的预训练和微调阻碍模型的优化策略不匹配。鉴于公平的基准,我们进行进一步的研究并发现网络结构的不对称性赋予对比框架在线性评估协议下正常工作,同时可能会损害长尾分类任务的转移性能。此外,负样本并不能使模型更明智地选择数据增强,也不会使不对称网络结构结构。我们相信我们的发现为将来的工作提供了有用的信息。
translated by 谷歌翻译
We introduce Bootstrap Your Own Latent (BYOL), a new approach to self-supervised image representation learning. BYOL relies on two neural networks, referred to as online and target networks, that interact and learn from each other. From an augmented view of an image, we train the online network to predict the target network representation of the same image under a different augmented view. At the same time, we update the target network with a slow-moving average of the online network. While state-of-the art methods rely on negative pairs, BYOL achieves a new state of the art without them. BYOL reaches 74.3% top-1 classification accuracy on ImageNet using a linear evaluation with a ResNet-50 architecture and 79.6% with a larger ResNet. We show that BYOL performs on par or better than the current state of the art on both transfer and semi-supervised benchmarks. Our implementation and pretrained models are given on GitHub. 3 * Equal contribution; the order of first authors was randomly selected.
translated by 谷歌翻译
对比度学习最近在无监督的视觉表示学习中显示出巨大的潜力。在此轨道中的现有研究主要集中于图像内不变性学习。学习通常使用丰富的图像内变换来构建正对,然后使用对比度损失最大化一致性。相反,相互影响不变性的优点仍然少得多。利用图像间不变性的一个主要障碍是,尚不清楚如何可靠地构建图像间的正对,并进一步从它们中获得有效的监督,因为没有配对注释可用。在这项工作中,我们提出了一项全面的实证研究,以更好地了解从三个主要组成部分的形象间不变性学习的作用:伪标签维护,采样策略和决策边界设计。为了促进这项研究,我们引入了一个统一的通用框架,该框架支持无监督的内部和间形内不变性学习的整合。通过精心设计的比较和分析,揭示了多个有价值的观察结果:1)在线标签收敛速度比离线标签更快; 2)半硬性样品比硬否定样品更可靠和公正; 3)一个不太严格的决策边界更有利于形象间的不变性学习。借助所有获得的食谱,我们的最终模型(即InterCLR)对多个标准基准测试的最先进的内图内不变性学习方法表现出一致的改进。我们希望这项工作将为设计有效的无监督间歇性不变性学习提供有用的经验。代码:https://github.com/open-mmlab/mmselfsup。
translated by 谷歌翻译
我们考虑在给定的分类任务(例如Imagenet-1k(IN1K))上训练深神网络的问题,以便它在该任务以及其他(未来)转移任务方面擅长。这两个看似矛盾的属性在改善模型的概括的同时保持其在原始任务上的性能之间实现了权衡。接受自我监督学习训练的模型(SSL)倾向于比其受监督的转移学习更好地概括。但是,他们仍然落后于In1k上的监督模型。在本文中,我们提出了一个有监督的学习设置,以利用两全其美的方式。我们使用最近的SSL模型的两个关键组成部分丰富了普通的监督培训框架:多尺度农作物用于数据增强和使用可消耗的投影仪。我们用内存库在即时计算的类原型中代替了班级权重的最后一层。我们表明,这三个改进导致IN1K培训任务和13个转移任务之间的权衡取决于更加有利的权衡。在所有探索的配置中,我们都会挑出两种模型:T-Rex实现了转移学习的新状态,并且超过了In1k上的Dino和Paws等最佳方法,以及与高度优化的RSB--相匹配的T-Rex*在IN1K上的A1模型,同时在转移任务上表现更好。项目页面和预估计的模型:https://europe.naverlabs.com/t-rex
translated by 谷歌翻译
The pretrain-finetune paradigm in modern computer vision facilitates the success of self-supervised learning, which tends to achieve better transferability than supervised learning. However, with the availability of massive labeled data, a natural question emerges: how to train a better model with both self and full supervision signals? In this paper, we propose Omni-suPErvised Representation leArning with hierarchical supervisions (OPERA) as a solution. We provide a unified perspective of supervisions from labeled and unlabeled data and propose a unified framework of fully supervised and self-supervised learning. We extract a set of hierarchical proxy representations for each image and impose self and full supervisions on the corresponding proxy representations. Extensive experiments on both convolutional neural networks and vision transformers demonstrate the superiority of OPERA in image classification, segmentation, and object detection. Code is available at: https://github.com/wangck20/OPERA.
translated by 谷歌翻译
学习概括不见于没有人类监督的有效视觉表现是一个基本问题,以便将机器学习施加到各种各样的任务。最近,分别是SIMCLR和BYOL的两个自我监督方法,对比学习和潜在自动启动的家庭取得了重大进展。在这项工作中,我们假设向这些算法添加显式信息压缩产生更好,更强大的表示。我们通过开发与条件熵瓶颈(CEB)目标兼容的SIMCLR和BYOL配方来验证这一点,允许我们衡量并控制学习的表示中的压缩量,并观察它们对下游任务的影响。此外,我们探讨了Lipschitz连续性和压缩之间的关系,显示了我们学习的编码器的嘴唇峰常数上的易触摸下限。由于Lipschitz连续性与稳健性密切相关,这为什么压缩模型更加强大提供了新的解释。我们的实验证实,向SIMCLR和BYOL添加压缩显着提高了线性评估精度和模型鲁棒性,跨各种域移位。特别是,Byol的压缩版本与Reset-50的ImageNet上的76.0%的线性评估精度达到了76.0%的直线评价精度,并使用Reset-50 2x的78.8%。
translated by 谷歌翻译
元学习已成为几乎没有图像分类的实用方法,在该方法中,“学习分类器的策略”是在标记的基础类别上进行元学习的,并且可以应用于具有新颖类的任务。我们删除了基类标签的要求,并通过无监督的元学习(UML)学习可通用的嵌入。具体而言,任务发作是在元训练过程中使用未标记的基本类别的数据增强构建的,并且我们将基于嵌入式的分类器应用于新的任务,并在元测试期间使用标记的少量示例。我们观察到两个元素在UML中扮演着重要角色,即进行样本任务和衡量实例之间的相似性的方法。因此,我们获得了具有两个简单修改的​​强基线 - 一个足够的采样策略,每情节有效地构建多个任务以及半分解的相似性。然后,我们利用来自两个方向的任务特征以获得进一步的改进。首先,合成的混淆实例被合并以帮助提取更多的判别嵌入。其次,我们利用额外的特定任务嵌入转换作为元训练期间的辅助组件,以促进预先适应的嵌入式的概括能力。几乎没有学习基准的实验证明,我们的方法比以前的UML方法优于先前的UML方法,并且比其监督变体获得了可比甚至更好的性能。
translated by 谷歌翻译
大多数现有的工作在几次学习中,依赖于Meta-Learning网络在大型基础数据集上,该网络通常是与目标数据集相同的域。我们解决了跨域几秒钟的问题,其中基础和目标域之间存在大移位。与未标记的目标数据的跨域几秒识别问题在很大程度上在文献中毫无根据。启动是使用自我训练解决此问题的第一个方法。但是,它使用固定的老师在标记的基础数据集上返回,以为未标记的目标样本创建软标签。由于基本数据集和未标记的数据集来自不同的域,因此将基本数据集的类域中的目标图像投影,具有固定的预制模型可能是子最优的。我们提出了一种简单的动态蒸馏基方法,以方便来自新颖/基础数据集的未标记图像。我们通过从教师网络中的未标记图像的未标记版本的预测计算并将其与来自学生网络相同的相同图像的强大版本匹配来施加一致性正常化。教师网络的参数被更新为学生网络参数的指数移动平均值。我们表明所提出的网络了解可以轻松适应目标域的表示,即使它尚未在预先预测阶段的目标专用类别训练。我们的车型优于当前最先进的方法,在BSCD-FSL基准中的5次分类,3.6%的3.6%,并在传统的域名几枪学习任务中显示出竞争性能。
translated by 谷歌翻译
最近无监督的表示学习方法已经通过学习表示不变的数据增强,例如随机裁剪和彩色抖动等数据增强来生效。然而,如果依赖于数据增强的特征,例如,位置或色敏,则这种不变性可能对下游任务有害。这不是一个不监督学习的问题;我们发现即使在监督学习中也会发生这种情况,因为它还学会预测实例所有增强样本的相同标签。为避免此类失败并获得更广泛的表示,我们建议优化辅助自我监督损失,创建的AGESELF,了解两个随机增强样本之间的增强参数(例如,裁剪位置,颜色调整强度)的差异。我们的直觉是,Augelf鼓励在学习的陈述中保留增强信息,这可能有利于其可转让性。此外,Augself可以很容易地纳入最近的最先进的表示学习方法,其额外的培训成本可忽略不计。广泛的实验表明,我们的简单想法一直在各种转移学习情景中始终如一地提高了由监督和无监督方法所学到的表示的可转移性。代码可在https://github.com/hankook/augsfir。
translated by 谷歌翻译
尽管最近通过剩余网络的代表学习中的自我监督方法取得了进展,但它们仍然对ImageNet分类基准进行了高度的监督学习,限制了它们在性能关键设置中的适用性。在MITROVIC等人的现有理论上洞察中建立2021年,我们提出了RELICV2,其结合了明确的不变性损失,在各种适当构造的数据视图上具有对比的目标。 Relicv2在ImageNet上实现了77.1%的前1个分类准确性,使用线性评估使用Reset50架构和80.6%,具有较大的Reset型号,优于宽边缘以前的最先进的自我监督方法。最值得注意的是,RelicV2是使用一系列标准Reset架构始终如一地始终优先于类似的对比较中的监督基线的第一个表示学习方法。最后,我们表明,尽管使用Reset编码器,Relicv2可与最先进的自我监控视觉变压器相媲美。
translated by 谷歌翻译
这项工作同时考虑了典型的监督学习任务中深度表示的可区分性和可传递性属性,即图像分类。通过全面的时间分析,我们观察到这两个属性之间的权衡。随着培训的进展,可区分性不断提高,而转移性在后来的培训期间大大降低。从信息 - 底层理论的角度来看,我们揭示了可区分性和可传递性之间的不相容性归因于输入信息的过度压缩。更重要的是,我们研究了为什么和为什么如何减轻过度压缩的信息,并进一步提出一个学习框架,称为对比度的时间编码〜(CTC),以抵消过度压缩并减轻不相容性。广泛的实验验证了CTC成功缓解了不相容性,从而产生了歧视性和可转移表示形式。在图像分类任务和挑战转移学习任务上实现了明显的改进。我们希望这项工作将提高传统监督学习环境中可转移性属性的重要性。代码可从https://github.com/dtennant/dt-tradeoff获得。
translated by 谷歌翻译
先前的关于自我监督预训练的研究重点是联合培训方案,在该场景中,假定大量未标记的数据一次性地将其作为输入,只有那时才受过培训的学习者。不幸的是,这种问题设置通常是不切实际的,即使不是不可行的,因为许多现实世界的任务依赖于顺序学习,例如,数据是以流方式分散或收集的。在本文中,我们对通过流数据进行了对自我监督的预训练进行了首次彻底而专门的研究,旨在阐明这种被忽视的设置下的模型行为。具体而言,我们在来自ImageNet和域内的四类预训练流数据数据上预先培训超过500个模型,并在三种类型的下游任务和12个不同的下游数据集上对其进行评估。我们的研究表明,以某种方式超出了我们的期望,通过简单的数据重播或参数正则化,顺序的自我监督预训练的预训练证明是联合预训练的有效替代方法,因为前者的性能主要与这些培训相同后者。此外,灾难性的遗忘是顺序监督学习中的一个常见问题,在顺序的自学学习(SSL)中得到了极大的缓解,这是通过我们对损失景观中最小值的表示和敏锐度的全面经验分析来很好地证明的。因此,我们的发现表明,在实践中,对于SSL,可以主要通过顺序学习来代替繁琐的联合培训,这反过来又可以更广泛的潜在应用方案。
translated by 谷歌翻译
随着自我监督学习(SSL)的成功,它已成为一种主流范式,可以从自我监督预定的预计模型中进行微调以提高下游任务的性能。但是,我们发现当前的SSL模型在执行低位量化时遭受严重的准确性下降,禁止其在资源受限应用程序中的部署。在本文中,我们提出了一种称为协同自我监督和量化学习(SSQL)的方法,以预处理量化量化的自我监督模型,从而有助于下游部署。 SSQL以自我监督的方式对比量化和完整的精度模型的特征,在每个步骤中随机选择了量化模型的位宽度。 SSQL不仅在量化较低的位宽度时显着提高了准确性,而且在大多数情况下都提高了完整精度模型的准确性。通过仅培训一次,SSQL可以同时在不同的位宽度上受益于各种下游任务。此外,在没有额外的存储开销的情况下,可以实现位宽度的灵活性,在训练和推理过程中只需要一份重量。我们理论上分析了SSQL的优化过程,并在各种基准测试中进行详尽的实验,以进一步证明我们方法的有效性。我们的代码可从https://github.com/megvii-research/ssql-eccv2022获得。
translated by 谷歌翻译
许多最近的自我监督学习方法在图像分类和其他任务上表现出了令人印象深刻的表现。已经使用了一种令人困惑的多种技术,并不总是清楚地了解其收益的原因,尤其是在组合使用时。在这里,我们将图像的嵌入视为点粒子,并将模型优化视为该粒子系统上的动态过程。我们的动态模型结合了类似图像的吸引力,避免局部崩溃的局部分散力以及实现颗粒的全球均匀分布的全局分散力。动态透视图突出了使用延迟参数图像嵌入(a la byol)以及同一图像的多个视图的优点。它还使用纯动态的局部分散力(布朗运动),该分散力比其他方法显示出改善的性能,并且不需要其他粒子坐标的知识。该方法称为MSBREG,代表(i)多视质心损失,它施加了吸引力的力来将不同的图像视图嵌入到其质心上,(ii)奇异值损失,将粒子系统推向空间均匀的密度( iii)布朗扩散损失。我们评估MSBREG在ImageNet上的下游分类性能以及转移学习任务,包括细粒度分类,多类对象分类,对象检测和实例分段。此外,我们还表明,将我们的正则化术语应用于其他方法,进一步改善了其性能并通过防止模式崩溃来稳定训练。
translated by 谷歌翻译
我们通过以端到端的方式对大规模未标记的数据集进行分类,呈现扭曲,简单和理论上可解释的自我监督的表示学习方法。我们使用Softmax操作终止的暹罗网络,以产生两个增强图像的双类分布。没有监督,我们强制执行不同增强的班级分布。但是,只需最小化增强之间的分歧将导致折叠解决方案,即,输出所有图像的相同类概率分布。在这种情况下,留下有关输入图像的信息。为了解决这个问题,我们建议最大化输入和课程预测之间的互信息。具体地,我们最小化每个样品的分布的熵,使每个样品的课程预测是对每个样品自信的预测,并最大化平均分布的熵,以使不同样品的预测变得不同。以这种方式,扭曲可以自然地避免没有特定设计的折叠解决方案,例如非对称网络,停止梯度操作或动量编码器。因此,扭曲优于各种任务的最先进的方法。特别是,在半监督学习中,扭曲令人惊讶地表现出令人惊讶的是,使用Reset-50作为骨干的1%ImageNet标签实现61.2%的顶级精度,以前的最佳结果为6.2%。代码和预先训练的模型是给出的:https://github.com/byteDance/twist
translated by 谷歌翻译
自我监督的方法(SSL)通过最大化两个增强视图之间的相互信息,裁剪是一种巨大的成功,其中裁剪是一种流行的增强技术。裁剪区域广泛用于构造正对,而裁剪后的左侧区域很少被探讨在现有方法中,尽管它们在一起构成相同的图像实例并且两者都有助于对类别的描述。在本文中,我们首次尝试从完整的角度来展示两种地区的重要性,并提出称为区域对比学习(RegionCl)的简单但有效的借口任务。具体地,给定两个不同的图像,我们随机从具有相同大小的每个图像随机裁剪区域(称为粘贴视图)并将它们交换以分别与左区域(称为CANVAS视图)一起组成两个新图像。然后,可以根据以下简单标准提供对比度对,即,每个视图是(1)阳性,其视图从相同的原始图像增强,并且与从其他图像增强的视图增强的视图。对于对流行的SSL方法进行微小的修改,RegionCL利用这些丰富的对并帮助模型区分来自画布和粘贴视图的区域特征,因此学习更好的视觉表示。 Imagenet,Coco和Citycapes上的实验表明,RegionCL通过大型边缘改善Moco V2,Densecl和Simsiam,并在分类,检测和分割任务上实现最先进的性能。代码将在https://github.com/annbless/regioncl.git上获得。
translated by 谷歌翻译
尽管增加了大量的增强家庭,但只有几个樱桃采摘的稳健增强政策有利于自我监督的图像代表学习。在本文中,我们提出了一个定向自我监督的学习范式(DSSL),其与显着的增强符号兼容。具体而言,我们在用标准增强的视图轻度增强后调整重增强策略,以产生更难的视图(HV)。 HV通常具有与原始图像较高的偏差而不是轻度增强的标准视图(SV)。与以前的方法不同,同等对称地将所有增强视图对称地最大化它们的相似性,DSSL将相同实例的增强视图视为部分有序集(具有SV $ \ LeftrightArrow $ SV,SV $ \左路$ HV),然后装备一个定向目标函数尊重视图之间的衍生关系。 DSSL可以轻松地用几行代码实现,并且对于流行的自我监督学习框架非常灵活,包括SIMCLR,Simsiam,Byol。对CiFar和Imagenet的广泛实验结果表明,DSSL可以稳定地改善各种基线,其兼容性与更广泛的增强。
translated by 谷歌翻译
自我监督学习(SSL)已取得了有希望的下游表现。但是,当面临现实世界应用程序中的各种资源预算时,将一一一个尺寸的多个网络预算到多个网络的巨大计算负担。在本文中,我们提出了基于歧视性SSL的可靠预处理网络(DSPNET),可以立即训练,然后缩小到各种大小的多个子网络,每个尺寸都可以忠实地学习良好的表示,并可以作为良好的初始化,以良好的初始化。具有各种资源预算的下游任务。具体而言,我们通过优雅地集成SSL和知识蒸馏,将微小网络的思想扩展到判别性SSL范式。我们在图像网上与网络与线性评估和半监督评估方案的一个单独预处理的网络表现出可比性或改进的性能,同时降低了较大的培训成本。预处理的模型还可以很好地推广到下游检测和分割任务。代码将公开。
translated by 谷歌翻译