作为主导范式,微调目标数据的预先训练模型广泛用于许多深度学习应用,特别是对于小数据集。然而,最近的研究已经明确表明,一旦培训迭代的数量增加,划痕训练都没有比这一训练前策略更糟糕的最终表现。在这项工作中,我们从学习理论中流行的泛化分析的角度重新审视这种现象。我们的结果表明,最终预测精度可能具有对预训练模型的弱依赖性,特别是在大训练迭代的情况下。观察激励我们利用预训练预调整的数据,因为此数据也可用于微调。使用预训练数据的泛化结果表明,当适当的预训练数据包含在微调中时,可以提高目标任务的最终性能。随着理论发现的洞察力,我们提出了一种新颖的选择策略来选择从预训练数据中的子集,以帮助改善目标任务的概括。 8个基准数据集上的图像分类任务的广泛实验结果验证了基于数据选择的微调管道的有效性。
translated by 谷歌翻译
Image classification with small datasets has been an active research area in the recent past. However, as research in this scope is still in its infancy, two key ingredients are missing for ensuring reliable and truthful progress: a systematic and extensive overview of the state of the art, and a common benchmark to allow for objective comparisons between published methods. This article addresses both issues. First, we systematically organize and connect past studies to consolidate a community that is currently fragmented and scattered. Second, we propose a common benchmark that allows for an objective comparison of approaches. It consists of five datasets spanning various domains (e.g., natural images, medical imagery, satellite data) and data types (RGB, grayscale, multispectral). We use this benchmark to re-evaluate the standard cross-entropy baseline and ten existing methods published between 2017 and 2021 at renowned venues. Surprisingly, we find that thorough hyper-parameter tuning on held-out validation data results in a highly competitive baseline and highlights a stunted growth of performance over the years. Indeed, only a single specialized method dating back to 2019 clearly wins our benchmark and outperforms the baseline classifier.
translated by 谷歌翻译
我们考虑无监督的域适应性(UDA),其中使用来自源域(例如照片)的标记数据,而来自目标域(例如草图)的未标记数据用于学习目标域的分类器。常规的UDA方法(例如,域对抗训练)学习域不变特征,以改善对目标域的概括。在本文中,我们表明,对比的预训练,它在未标记的源和目标数据上学习功能,然后在标记的源数据上进行微调,具有强大的UDA方法的竞争力。但是,我们发现对比前训练不会学习域不变特征,这与常规的UDA直觉不同。从理论上讲,我们证明了对比的预训练可以学习在跨域下微调但仍通过解开域和类信息来概括到目标域的特征。我们的结果表明,UDA不需要域的不变性。我们从经验上验证了基准视觉数据集的理论。
translated by 谷歌翻译
一种广泛使用的传输学习算法是微调的,其中预先接受的模型在具有少量标记数据的目标任务上进行微调。当预训练模型的容量大于目标数据集的大小时,微调容易过度,并“记忆”训练标签。因此,一个重要的问题是规范微调,并确保其对噪声的鲁棒性。为了解决这个问题,我们首先分析微调的泛化属性。我们介绍了PAC-Bayes泛化界定,这取决于在微调和微调模型的噪声稳定期间在每层中行进的距离。我们经验衡量这些数量。根据分析,我们建议正规化的自我标签 - 正规化和自我标记方法之间的插值,包括(i)层明智的正则化,以限制在每层中行进的距离; (ii)自我标记 - 纠正和标签重新重复纠正错误标记的数据点(模型是自信的)和重新重复的自信数据点。我们在使用多个预先训练的模型体系结构上验证我们的方法和文本数据集的广泛集合和文本数据集。我们的方法将基线方法提高了1.76%(平均),可实现七种图像分类任务和0.75%,为几次拍摄的分类任务。当目标数据集包括嘈杂的标签时,我们的方法在两个嘈杂的设置中平均优于基线方法3.56%。
translated by 谷歌翻译
基于变压器的监督预培训在重新识别(REID)中实现了良好的性能。但是,由于想象成和Reid数据集之间的域间隙,它通常需要更大的预训练数据集(例如,ImageNet-21k),以提高性能,因为变压器的强大数据拟合能力。为了解决这一挑战,这项工作可以分别从数据和模型结构的角度降低预训练和REID数据集之间的差距。我们首先调查在未标记的人物图像(Luperson DataSet)上的视觉变压器(VIV)的自我监督为了进一步降低域间隙并加速预训练,提出了灾难性的遗忘得分(CFS)来评估预训练和微调数据之间的差距。基于CFS,通过采样靠近下游REID数据的相关数据来选择一个子集,并从预训练的数据集中过滤无关数据。对于模型结构,提出了一种名为基于IBN的卷积词条(ICS)的特定于REID的模块来通过学习更不变的功能来弥合域间隙。已经进行了广泛的实验,以微调在监督学习,无监督域适应(UDA)和无监督的学习(USL)设置下进行预训练模型。我们成功将Luperson DataSet缩小为50%,没有性能下降。最后,我们在市场-1501和MSMT17上实现了最先进的表现。例如,我们的VIT-S / 16在Market1501上实现了91.3%/ 89.9%/ 89.6%用于监督/ UDA / USL REID的11501。代码和模型将发布到https://github.com/michuanhaohao/transreid -sl。
translated by 谷歌翻译
Recently, the self-supervised pre-training paradigm has shown great potential in leveraging large-scale unlabeled data to improve downstream task performance. However, increasing the scale of unlabeled pre-training data in real-world scenarios requires prohibitive computational costs and faces the challenge of uncurated samples. To address these issues, we build a task-specific self-supervised pre-training framework from a data selection perspective based on a simple hypothesis that pre-training on the unlabeled samples with similar distribution to the target task can bring substantial performance gains. Buttressed by the hypothesis, we propose the first yet novel framework for Scalable and Efficient visual Pre-Training (SEPT) by introducing a retrieval pipeline for data selection. SEPT first leverage a self-supervised pre-trained model to extract the features of the entire unlabeled dataset for retrieval pipeline initialization. Then, for a specific target task, SEPT retrievals the most similar samples from the unlabeled dataset based on feature similarity for each target instance for pre-training. Finally, SEPT pre-trains the target model with the selected unlabeled samples in a self-supervised manner for target data finetuning. By decoupling the scale of pre-training and available upstream data for a target task, SEPT achieves high scalability of the upstream dataset and high efficiency of pre-training, resulting in high model architecture flexibility. Results on various downstream tasks demonstrate that SEPT can achieve competitive or even better performance compared with ImageNet pre-training while reducing the size of training samples by one magnitude without resorting to any extra annotations.
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
虽然神经网络在平均病例的性能方面对分类任务的成功显着,但它们通常无法在某些数据组上表现良好。这样的组信息可能是昂贵的;因此,即使在培训数据不可用的组标签不可用,较稳健性和公平的最新作品也提出了改善最差组性能的方法。然而,这些方法通常在培训时间使用集团信息的表现不佳。在这项工作中,我们假设没有组标签的较大数据集一起访问少量组标签。我们提出了一个简单的两步框架,利用这个部分组信息来提高最差组性能:训练模型以预测训练数据的丢失组标签,然后在强大的优化目标中使用这些预测的组标签。从理论上讲,我们在最差的组性能方面为我们的方法提供泛化界限,展示了泛化误差如何相对于培训点总数和具有组标签的培训点的数量。凭经验,我们的方法优于不使用群组信息的基线表达,即使只有1-33%的积分都有组标签。我们提供消融研究,以支持我们框架的稳健性和可扩展性。
translated by 谷歌翻译
最近的一些研究表明,使用额外的分配数据可能会导致高水平的对抗性鲁棒性。但是,不能保证始终可以为所选数据集获得足够的额外数据。在本文中,我们提出了一种有偏见的多域对抗训练(BIAMAT)方法,该方法可以使用公开可用的辅助数据集诱导训练数据放大,而无需在主要和辅助数据集之间进行类分配匹配。提出的方法可以通过多域学习利用辅助数据集来实现主数据集上的对抗性鲁棒性。具体而言,可以通过使用Biamat的应用来实现对鲁棒和非鲁棒特征的数据扩增,如通过理论和经验分析所证明的。此外,我们证明,尽管由于辅助和主要数据之间的分布差异,现有方法容易受到负转移的影响,但提出的方法使神经网络能够通过应用程序通过应用程序来成功处理域差异来灵活地利用各种图像数据集来进行对抗训练基于置信的选择策略。预先训练的模型和代码可在:\ url {https://github.com/saehyung-lee/biamat}中获得。
translated by 谷歌翻译
This work tackles the problem of semi-supervised learning of image classifiers. Our main insight is that the field of semi-supervised learning can benefit from the quickly advancing field of self-supervised visual representation learning. Unifying these two approaches, we propose the framework of self-supervised semi-supervised learning (S 4 L) and use it to derive two novel semi-supervised image classification methods. We demonstrate the effectiveness of these methods in comparison to both carefully tuned baselines, and existing semi-supervised learning methods. We then show that S 4 L and existing semi-supervised methods can be jointly trained, yielding a new state-of-the-art result on semi-supervised ILSVRC-2012 with 10% of labels.
translated by 谷歌翻译
Few-shot learning (FSL) is a central problem in meta-learning, where learners must efficiently learn from few labeled examples. Within FSL, feature pre-training has recently become an increasingly popular strategy to significantly improve generalization performance. However, the contribution of pre-training is often overlooked and understudied, with limited theoretical understanding of its impact on meta-learning performance. Further, pre-training requires a consistent set of global labels shared across training tasks, which may be unavailable in practice. In this work, we address the above issues by first showing the connection between pre-training and meta-learning. We discuss why pre-training yields more robust meta-representation and connect the theoretical analysis to existing works and empirical results. Secondly, we introduce Meta Label Learning (MeLa), a novel meta-learning algorithm that learns task relations by inferring global labels across tasks. This allows us to exploit pre-training for FSL even when global labels are unavailable or ill-defined. Lastly, we introduce an augmented pre-training procedure that further improves the learned meta-representation. Empirically, MeLa outperforms existing methods across a diverse range of benchmarks, in particular under a more challenging setting where the number of training tasks is limited and labels are task-specific. We also provide extensive ablation study to highlight its key properties.
translated by 谷歌翻译
我们研究了用于半监控学习(SSL)的无监督数据选择,其中可以提供大规模的未标记数据集,并且为标签采集预算小额数据子集。现有的SSL方法专注于学习一个有效地集成了来自给定小标记数据和大型未标记数据的信息的模型,而我们专注于选择正确的数据以用于SSL的注释,而无需任何标签或任务信息。直观地,要标记的实例应统称为下游任务的最大多样性和覆盖范围,并且单独具有用于SSL的最大信息传播实用程序。我们以三步数据为中心的SSL方法形式化这些概念,使稳定性和精度的纤维液改善8%的CiFar-10(标记为0.08%)和14%的Imagenet -1k(标记为0.2%)。它也是一种具有各种SSL方法的通用框架,提供一致的性能增益。我们的工作表明,在仔细选择注释数据上花费的小计算带来了大注释效率和模型性能增益,而无需改变学习管道。我们完全无监督的数据选择可以轻松扩展到其他弱监督的学习设置。
translated by 谷歌翻译
集群歧视是无监督的代表学习的有效借口任务,这通常由两个阶段组成:聚类和歧视。群集是为每个实例分配伪标签,该标签将用于学习歧视中的表示。主要挑战驻留在群集中,因为普遍的聚类方法(例如,k-means)必须以批处理模式运行,并且可以有一个琐碎的解决方案由主导集群组成。为解决这些挑战,我们首先调查基于聚类的代表学习的目标。基于此,我们提出了一种新的基于聚类的借口任务,具有在线受限的K-means(可乐)。与每个群集具有完全相同的大小的平衡集群相比,我们只限制每个群集的最小大小,以灵活地捕获固有的数据结构。更重要的是,我们的在线分配方法具有接近全球最佳的理论保证。通过解耦聚类和歧视,可焦炭可以在每个实例中仅优化单个视图时实现竞争性能。关于Imagenet的广泛实验验证了我们提案的效力和效率。代码将被释放。
translated by 谷歌翻译
可传递性估计是选择预训练模型和其中的层来转移学习,转移,以最大程度地提高目标任务上的性能并防止负转移的必不可少的工具。现有的估计算法要么需要对目标任务进行深入培训,要么在评估层之间的可传递性方面遇到困难。为此,我们提出了一种简单,高效且有效的可传递性度量,称为“超越”。通过单一传递目标任务的示例,越过可转移性作为在预训练模型及其标签提取的目标示例的特征之间的相互信息。我们通过诉诸于熵的有效替代方案来克服有效的共同信息估计的挑战。从特征表示的角度来看,所得的越来越多地评估了完整性(功能是否包含目标任务的足够信息)和紧凑性(每个类的特征是否足够紧凑,以实现良好的概括)。从理论上讲,我们已经分析了转移学习后的跨度与性能的紧密联系。尽管在10行代码中具有非凡的简单性,但在对32个预训练模型和16个下游任务的广泛评估中,越来越多地表现出色。
translated by 谷歌翻译
近年来,已取得了巨大进展,以通过半监督学习(SSL)来纳入未标记的数据来克服效率低下的监督问题。大多数最先进的模型是基于对未标记的数据追求一致的模型预测的想法,该模型被称为输入噪声,这称为一致性正则化。尽管如此,对其成功的原因缺乏理论上的见解。为了弥合理论和实际结果之间的差距,我们在本文中提出了SSL的最坏情况一致性正则化技术。具体而言,我们首先提出了针对SSL的概括,该概括由分别在标记和未标记的训练数据上观察到的经验损失项组成。在这种界限的激励下,我们得出了一个SSL目标,该目标可最大程度地减少原始未标记的样本与其多重增强变体之间最大的不一致性。然后,我们提供了一种简单但有效的算法来解决提出的最小问题,从理论上证明它会收敛到固定点。五个流行基准数据集的实验验证了我们提出的方法的有效性。
translated by 谷歌翻译
对比度学习(CL)方法有效地学习数据表示,而无需标记监督,在该方法中,编码器通过单VS-MONY SOFTMAX跨透镜损失将每个正样本在多个负样本上对比。通过利用大量未标记的图像数据,在Imagenet上预先训练时,最近的CL方法获得了有希望的结果,这是一个具有均衡图像类的曲制曲线曲线集。但是,当对野外图像进行预训练时,它们往往会产生较差的性能。在本文中,为了进一步提高CL的性能并增强其对未经保育数据集的鲁棒性,我们提出了一种双重的CL策略,该策略将其内部查询的正(负)样本对比,然后才能决定多么强烈地拉动(推)。我们通过对比度吸引力和对比度排斥(CACR)意识到这一策略,这使得查询不仅发挥了更大的力量来吸引更遥远的正样本,而且可以驱除更接近的负面样本。理论分析表明,CACR通过考虑正/阴性样品的分布之间的差异来概括CL的行为,而正/负样品的分布通常与查询独立进行采样,并且它们的真实条件分布给出了查询。我们证明了这种独特的阳性吸引力和阴性排斥机制,这有助于消除在数据集的策划较低时尤其有益于数据及其潜在表示的统一先验分布的需求。对许多标准视觉任务进行的大规模大规模实验表明,CACR不仅在表示学习中的基准数据集上始终优于现有的CL方法,而且在对不平衡图像数据集进行预训练时,还表现出更好的鲁棒性。
translated by 谷歌翻译
神经网络分类器已成为当前“火车前的Fine-Tune”范例的De-Facto选择。在本文中,我们调查了K $ -Nearest邻居(K-NN)分类器,这是一种从预先学习时代的无古典无模型学习方法,作为基于现代神经网络的方法的增强。作为懒惰的学习方法,K-Nn简单地聚集了训练集中的测试图像和顶-k邻居之间的距离。我们采用k-nn具有由监督或自我监督方法产生的预训练的视觉表现,分为两个步骤:(1)利用K-NN预测概率作为培训期间容易\〜〜硬示例的迹象。 (2)用增强分类器的预测分布线性地插入k-nn。通过广泛的实验在广泛的分类任务中,我们的研究揭示了K-NN集成与额外见解的一般性和灵活性:(1)K-NN实现竞争结果,有时甚至优于标准的线性分类器。 (2)结合K-NN对参数分类器执行不良和/或低数据制度的任务特别有益。我们希望这些发现将鼓励人们重新考虑预先学习的角色,计算机愿景中的古典方法。我们的代码可用于:https://github.com/kmnp/nn-revisit。
translated by 谷歌翻译
神经网络修剪对于在预训练的密集网络架构中发现有效,高性能的子网有用。然而,更常见的是,它涉及三步过程 - 预先训练,修剪和重新训练 - 这是计算昂贵的,因为必须完全预先训练的密集模型。幸运的是,已经经过了多种作品,证明可以通过修剪发现高性能的子网,而无需完全预先训练密集网络。旨在理论上分析修剪网络表现良好的密集网络预培训量,我们发现在两层全连接网络上的SGD预训练迭代数量中发现了一个理论界限,超出了由此进行修剪贪婪的前瞻性选择产生了一个达到良好训练错误的子网。该阈值显示在对数上依赖于数据集的大小,这意味着具有较大数据集的实验需要更好地训练通过修剪以执行良好执行的子网。我们经验展示了我们在各种架构和数据集中的理论结果的有效性,包括在Mnist上培训的全连接网络以及在CIFAR10和ImageNet上培训的几个深度卷积神经网络(CNN)架构。
translated by 谷歌翻译
我们提出了很少的示例聚类(FEC),这是一种新型算法,可以进行对比学习以群集几个示例。我们的方法由以下三个步骤组成:(1)生成候选集群分配,(2)每个集群分配的对比度学习,以及(3)选择最佳候选者。基于以下假设:与其他人的对比学习者的训练速度要快,我们选择了在步骤(3)中学习早期学习中训练损失最小的候选人。在\ textit {mini} -imagenet和Cub-200-2011数据集上进行的广泛实验表明,在各种情况下,FEC平均比其他基本线平均优于其他基本线。FEC还表现出有趣的学习曲线,其中聚类性能逐渐增加,然后急剧下降。
translated by 谷歌翻译
各种预培训模型的涌入通过提供丰富的教师资源来增强知识蒸馏〜(KD)。同时,探索大型模型存储库以选择合适的教师并进一步提取其知识成为艰巨的挑战。当训练学生提供大量预先训练的教师,即“教师”时,标准KD未能克服两个障碍。首先,我们需要有效地寻找教师中最有贡献的老师,而不是为学生列举所有教师。其次,由于教师可能会在W.R.T.的不同任务上进行培训。学生,我们必须从更通用的标签空间中提取知识。本文研究了``教师蒸馏'',学生进行教师评估和广义知识再利用。我们利用最佳运输来为两个问题构建一个统一的目标,该目标弥合了语义差距并测量一对模型之间的相关性。这个目标可以选择最相关的老师,我们将相同的目标最小化,而不是学生参数,以便随后从选定的教师转移知识。在各种环境中的实验证明了我们提出的方法的简洁性和多功能性。
translated by 谷歌翻译