本文解决了对预先训练的深神经网络进行排名并筛选最下游任务的重要问题。这是具有挑战性的,因为每个任务的基本模型排名只能通过微调目标数据集中的预训练模型来生成,该模型是蛮力且计算昂贵的。最近的高级方法提出了几个轻巧的可转移性指标来预测微调结果。但是,这些方法仅捕获静态表示,但忽略了微调动态。为此,本文提出了一个新的可传递性度量,称为\ textbf {s} elf-challenging \ textbf {f} isher \ textbf {d} is Criminant \ textbf {a} nalisy(\ textbf {\ textbf {sfda})现有作品没有的有吸引力的好处。首先,SFDA可以将静态特征嵌入渔民空间中,并完善它们,以在类之间更好地分离性。其次,SFDA使用一种自我挑战的机制来鼓励不同的预训练模型来区分硬性示例。第三,SFDA可以轻松地为模型集合选择多个预训练的模型。 $ 33 $预培训的$ 11 $下游任务的$ 33 $预培训模型的广泛实验表明,在测量预训练模型的可传递性时,SFDA具有高效,有效和健壮。例如,与最先进的方法NLEEP相比,SFDA平均显示了59.1美元的增益,同时带来了$ 22.5 $ x的墙壁速度速度。该代码将在\ url {https://github.com/tencentarc/sfda}上提供。
translated by 谷歌翻译
可传递性估计是选择预训练模型和其中的层来转移学习,转移,以最大程度地提高目标任务上的性能并防止负转移的必不可少的工具。现有的估计算法要么需要对目标任务进行深入培训,要么在评估层之间的可传递性方面遇到困难。为此,我们提出了一种简单,高效且有效的可传递性度量,称为“超越”。通过单一传递目标任务的示例,越过可转移性作为在预训练模型及其标签提取的目标示例的特征之间的相互信息。我们通过诉诸于熵的有效替代方案来克服有效的共同信息估计的挑战。从特征表示的角度来看,所得的越来越多地评估了完整性(功能是否包含目标任务的足够信息)和紧凑性(每个类的特征是否足够紧凑,以实现良好的概括)。从理论上讲,我们已经分析了转移学习后的跨度与性能的紧密联系。尽管在10行代码中具有非凡的简单性,但在对32个预训练模型和16个下游任务的广泛评估中,越来越多地表现出色。
translated by 谷歌翻译
具有许多预训练模型(PTM)的模型中心已经是深度学习的基石。尽管以高成本建造,但它们仍然保持\ emph {探索}:从业人员通常会通过普及从提供的模型中心中选择一个PTM,然后对PTM进行微调以解决目标任务。这种na \“我的但共同的实践构成了两个障碍,以充分利用预训练的模型中心:(1)通过受欢迎程度选择的PTM选择没有最佳保证;(2)仅使用一个PTM,而其余的PTM则被忽略。理想情况下。理想情况下。 ,为了最大程度地利用预训练的模型枢纽,需要尝试所有PTM的所有组合和广泛的微调每个PTM组合,这会产生指数组合和不可偿还的计算预算。在本文中,我们提出了一种新的范围排名和调整预训练的模型:(1)我们的会议论文〜\ citep {you_logme:_2021}提出的logMe,以估算预先训练模型提取的标签证据的最大值,该标签证据可以在模型中排名所有PTMS用于各种类型的PTM和任务的枢纽\ Emph {微调之前}。(2)如果我们不偏爱模型的体系结构,则可以对排名最佳的PTM进行微调和部署,或者可以通过TOPE调整目标PTM -k通过t排名PTM他提出了b-tuning算法。排名部分基于会议论文,我们在本文中完成了其理论分析,包括启发式证据最大化程序的收敛证明和特征维度的影响。调整零件引入了一种用于调整多个PTM的新型贝叶斯调整(B-Tuning)方法,该方法超过了专门的方法,该方法旨在调整均匀的PTMS,并为调整异质PTMS设置了一种新的技术。利用PTM枢纽的新范式对于整个机器学习社区的大量受众来说可能会很有趣。
translated by 谷歌翻译
我们解决了转移学习中的集合选择问题:给出了大量的源模型,我们要选择一个模型的集合,在对目标训练集的微调后,在目标测试集上产生最佳性能。由于微调所有可能的合奏是计算禁止的,因此我们目的是使用计算上有效的可转换度量来预测目标数据集的性能。我们提出了用于此任务的几个新的可转换性指标,并在对语义细分的具有挑战性和现实的转移学习设置中进行评估:我们通过考虑涵盖各种图像域的各种数据集来创建一个大型和多样化的源模型池,两种不同架构和两个预训练计划。鉴于此池,我们自动选择子集,以在给定的目标数据集上形成良好的集合。我们将通过我们的方法选择的合奏与两个基线进行比较,该基线选择单个源模型,其中(1)与我们的方法相同;或(2)从包含大源模型的池,每个池具有与集合相似的容量。平均超过17个目标数据集,我们分别以6.0%和2.5%的相对平均值越优于这些基线。
translated by 谷歌翻译
转移学习旨在利用预先培训模型的知识来受益。先前的转移学习工作主要是从单个模型转移。但是,随着从不同资源预先训练的深层模型的出现,由具有各种体系结构的各种模型组成的模型中心,预先训练的数据集和学习范式可用。直接将单模传输学习方法应用于每种模型,都会浪费对模型中心的丰富知识,并遭受高计算成本。在本文中,我们提出了一个枢纽 - 校园框架,以实现从模型中心的知识转移。该框架生成数据依赖性途径权重,基于我们在输入级别分配路径路由以确定激活哪些预训练模型并通过了哪些预训练的模型,然后在输出级别设置了途径聚集,以从不同做出预测的模型。可以通过针对特定于任务的损失端对端训练所提出的框架,在该损失中,它将学会探索更好的途径配置并利用每个目标基准的预训练模型中的知识。我们利用嘈杂的途径生成器并设计勘探损失,以进一步探索整个模型中心的不同途径。为了充分利用预训练模型中的知识,每个模型都会通过激活它的特定数据进一步培训,从而确保其性能并增强知识传递。计算机视觉和强化学习任务的实验结果表明,所提出的枢纽式框架实现了模型中心传输学习的最新性能。
translated by 谷歌翻译
本文关注的是将许多预训练的深神经网络(DNN)(称为检查点)排名,以将学习转移到下游任务。由于广泛使用了DNN,我们可能很容易从各种来源收集数百个检查站。他们中的哪个将最好的人转移到我们感兴趣的下游任务?为了彻底回答这个问题,我们建立了一个神经检查点排名基准(Neucrab),并研究一些直观的排名措施。这些措施是通用的,适用于不同输出类型的检查点,而无需知道如何对哪个数据集进行检查。它们还产生了低计算成本,使它们实际上有意义。我们的结果表明,检查点提取的特征的线性可分离性是可传递性的强烈指标。我们还达到了一种新的排名NLEEP,这在实验中带来了最佳性能。
translated by 谷歌翻译
With the ever-growing model size and the limited availability of labeled training data, transfer learning has become an increasingly popular approach in many science and engineering domains. For classification problems, this work delves into the mystery of transfer learning through an intriguing phenomenon termed neural collapse (NC), where the last-layer features and classifiers of learned deep networks satisfy: (i) the within-class variability of the features collapses to zero, and (ii) the between-class feature means are maximally and equally separated. Through the lens of NC, our findings for transfer learning are the following: (i) when pre-training models, preventing intra-class variability collapse (to a certain extent) better preserves the intrinsic structures of the input data, so that it leads to better model transferability; (ii) when fine-tuning models on downstream tasks, obtaining features with more NC on downstream data results in better test accuracy on the given task. The above results not only demystify many widely used heuristics in model pre-training (e.g., data augmentation, projection head, self-supervised learning), but also leads to more efficient and principled fine-tuning method on downstream tasks that we demonstrate through extensive experimental results.
translated by 谷歌翻译
深层模型必须学习强大而可转移的表示形式,以便在新领域上表现良好。尽管已经提出了域转移方法(例如,域的适应性,域的概括)来学习跨域的可转移表示,但通常将它们应用于在Imagenet上预先训练的重置骨架。因此,现有作品很少关注预训练对域转移任务的影响。在本文中,我们对领域适应和泛化的预训练进行了广泛的研究和深入分析,即:网络体系结构,大小,训练损失和数据集。我们观察到,仅使用最先进的主链优于现有的最先进的域适应基线,并将新的基本线设置为Office-Home和Domainnet在10.7 \%和5.5 \%上提高。我们希望这项工作可以为未来的领域转移研究提供更多见解。
translated by 谷歌翻译
Deep transfer learning has been widely used for knowledge transmission in recent years. The standard approach of pre-training and subsequently fine-tuning, or linear probing, has shown itself to be effective in many down-stream tasks. Therefore, a challenging and ongoing question arises: how to quantify cross-task transferability that is compatible with transferred results while keeping self-consistency? Existing transferability metrics are estimated on the particular model by conversing source and target tasks. They must be recalculated with all existing source tasks whenever a novel unknown target task is encountered, which is extremely computationally expensive. In this work, we highlight what properties should be satisfied and evaluate existing metrics in light of these characteristics. Building upon this, we propose Principal Gradient Expectation (PGE), a simple yet effective method for assessing transferability across tasks. Specifically, we use a restart scheme to calculate every batch gradient over each weight unit more than once, and then we take the average of all the gradients to get the expectation. Thus, the transferability between the source and target task is estimated by computing the distance of normalized principal gradients. Extensive experiments show that the proposed transferability metric is more stable, reliable and efficient than SOTA methods.
translated by 谷歌翻译
转移学习已成为利用计算机视觉中预先训练模型的流行方法。然而,在不执行计算上昂贵的微调的情况下,难以量化哪个预先训练的源模型适用于特定目标任务,或者相反地,可以容易地适应预先训练的源模型的任务。在这项工作中,我们提出了高斯Bhattacharyya系数(GBC),一种用于量化源模型和目标数据集之间的可转换性的新方法。在第一步中,我们在由源模型定义的特征空间中嵌入所有目标图像,并表示使用每类高斯。然后,我们使用Bhattacharyya系数估计它们的成对类可分离性,从而产生了一种简单有效的源模型转移到目标任务的程度。我们在数据集和架构选择的上下文中评估GBC在图像分类任务上。此外,我们还对更复杂的语义分割转移性估算任务进行实验。我们证明GBC在语义分割设置中大多数评估标准上的最先进的可转移性度量,匹配图像分类中的数据集转移性的最高方法的性能,并且在图像分类中执行最佳的架构选择问题。
translated by 谷歌翻译
微调被广泛应用于图像分类任务中,作为转移学习方法。它重新使用源任务中的知识来学习和获得目标任务中的高性能。微调能够减轻培训数据不足和新数据昂贵标签的挑战。但是,标准微调在复杂的数据分布中的性能有限。为了解决这个问题,我们提出了适应性的多调整方法,该方法可适应地确定每个数据样本的微调策略。在此框架中,定义了多个微调设置和一个策略网络。适应性多调整中的策略网络可以动态地调整为最佳权重,以将不同的样本馈入使用不同的微调策略训练的模型。我们的方法的表现优于标准的微调方法1.69%,数据集FGVC-Aircraft和可描述的纹理优于2.79%,在Stanford Cars,CIFAR-10和时尚范围内产生可比的性能。
translated by 谷歌翻译
神经体系结构搜索(NAS)的主要挑战之一是有效地对体系结构的性能进行排名。绩效排名者的主流评估使用排名相关性(例如,肯德尔的tau),这对整个空间都同样关注。但是,NAS的优化目标是识别顶级体系结构,同时对搜索空间中其他体系结构的关注更少。在本文中,我们从经验和理论上都表明,标准化的累积累积增益(NDCG)对于排名者来说是一个更好的指标。随后,我们提出了一种新算法Acenas,该算法直接通过Lambdarank优化NDCG。它还利用体重共享NAS产生的弱标签来预先培训排名,以便进一步降低搜索成本。对12个NAS基准和大规模搜索空间进行的广泛实验表明,我们的方法始终超过SOTA NAS方法,精度提高了3.67%,搜索成本降低了8倍。
translated by 谷歌翻译
自我监督学习(SSL)在预处理模型中取得了出色的性能,这些模型可以通过微调进一步用于下游任务。但是,这些自我监督模型可能不会捕获有意义的语义信息,因为在对比度损失中始终将属于同一类的图像视为负对。因此,同一类的图像通常在学习的特征空间中彼此之间相距很远,这不可避免地会阻碍微调过程。为了解决这个问题,我们试图通过增强语义信息来为自我监督模型提供更好的初始化。为此,我们提出了一种对比初始化(COIN)方法,该方法通过在微调之前引入额外的初始化阶段来打破标准的微调管道。广泛的实验表明,借助丰富的语义,我们的硬币显着优于现有方法,而无需引入额外的培训成本,并在多个下游任务上设定了新的最新技术。
translated by 谷歌翻译
Recently, the self-supervised pre-training paradigm has shown great potential in leveraging large-scale unlabeled data to improve downstream task performance. However, increasing the scale of unlabeled pre-training data in real-world scenarios requires prohibitive computational costs and faces the challenge of uncurated samples. To address these issues, we build a task-specific self-supervised pre-training framework from a data selection perspective based on a simple hypothesis that pre-training on the unlabeled samples with similar distribution to the target task can bring substantial performance gains. Buttressed by the hypothesis, we propose the first yet novel framework for Scalable and Efficient visual Pre-Training (SEPT) by introducing a retrieval pipeline for data selection. SEPT first leverage a self-supervised pre-trained model to extract the features of the entire unlabeled dataset for retrieval pipeline initialization. Then, for a specific target task, SEPT retrievals the most similar samples from the unlabeled dataset based on feature similarity for each target instance for pre-training. Finally, SEPT pre-trains the target model with the selected unlabeled samples in a self-supervised manner for target data finetuning. By decoupling the scale of pre-training and available upstream data for a target task, SEPT achieves high scalability of the upstream dataset and high efficiency of pre-training, resulting in high model architecture flexibility. Results on various downstream tasks demonstrate that SEPT can achieve competitive or even better performance compared with ImageNet pre-training while reducing the size of training samples by one magnitude without resorting to any extra annotations.
translated by 谷歌翻译
近年来,随着预审预周习惯的模型的越来越多,为特定的下游分类任务选择最佳的检查站的问题一直在增加注意力。尽管最近提出了几种方法来解决选择问题(例如LEEP,H-SCORE),但这些方法诉诸应用学习理论并非充分动机的启发式方法。在本文中,我们介绍了PACTRAN,这是一个理论上扎根的指标家族,用于验证模型选择和可传递性测量。我们首先展示了如何从转移学习设置下的最佳PAC-Bayesian界限中得出PACTRAN指标。然后,我们在许多视觉任务(VTAB)以及语言和视觉(OKVQA)任务上对PACTRAN的三个度量实例进行了经验评估。对结果的分析表明,与现有选择方法相比,PACTRAN是一种更一致和有效的可传递性度量。
translated by 谷歌翻译
神经网络分类器已成为当前“火车前的Fine-Tune”范例的De-Facto选择。在本文中,我们调查了K $ -Nearest邻居(K-NN)分类器,这是一种从预先学习时代的无古典无模型学习方法,作为基于现代神经网络的方法的增强。作为懒惰的学习方法,K-Nn简单地聚集了训练集中的测试图像和顶-k邻居之间的距离。我们采用k-nn具有由监督或自我监督方法产生的预训练的视觉表现,分为两个步骤:(1)利用K-NN预测概率作为培训期间容易\〜〜硬示例的迹象。 (2)用增强分类器的预测分布线性地插入k-nn。通过广泛的实验在广泛的分类任务中,我们的研究揭示了K-NN集成与额外见解的一般性和灵活性:(1)K-NN实现竞争结果,有时甚至优于标准的线性分类器。 (2)结合K-NN对参数分类器执行不良和/或低数据制度的任务特别有益。我们希望这些发现将鼓励人们重新考虑预先学习的角色,计算机愿景中的古典方法。我们的代码可用于:https://github.com/kmnp/nn-revisit。
translated by 谷歌翻译
从自然语言监督中学习视觉表示,最近在许多开创性的作品中表现出了巨大的希望。通常,这些具有语言的视觉模型表现出对各种数据集和任务的强大可传递性。但是,由于缺乏易于使用的评估工具包和公共基准,评估这些模型的可转让性仍然很具有挑战性。为了解决这个问题,我们构建了高级版(评估语言的视觉任务级传输),这是用于评估(预训练)语言增强视觉模型的第一个基准和工具包。升华由三个组成部分组成。 (i)数据集。作为下游评估套件,它由20个图像分类数据集和35个对象检测数据集组成,每个数据集都用外部知识来增强。 (ii)工具包。开发了自动高参数调谐工具包,以促进下游任务的模型评估。 (iii)指标。多种评估指标用于测量样品效率(零射击和少量)和参数效率(线性探测和完整模型微调)。我们在https://computer-vision-in-the-wild.github.io/elevater/上公开发布leverater
translated by 谷歌翻译
Transfer learning is a cornerstone of computer vision, yet little work has been done to evaluate the relationship between architecture and transfer. An implicit hypothesis in modern computer vision research is that models that perform better on ImageNet necessarily perform better on other vision tasks. However, this hypothesis has never been systematically tested. Here, we compare the performance of 16 classification networks on 12 image classification datasets. We find that, when networks are used as fixed feature extractors or fine-tuned, there is a strong correlation between ImageNet accuracy and transfer accuracy (r = 0.99 and 0.96, respectively). In the former setting, we find that this relationship is very sensitive to the way in which networks are trained on ImageNet; many common forms of regularization slightly improve ImageNet accuracy but yield penultimate layer features that are much worse for transfer learning. Additionally, we find that, on two small fine-grained image classification datasets, pretraining on ImageNet provides minimal benefits, indicating the learned features from Ima-geNet do not transfer well to fine-grained tasks. Together, our results show that ImageNet architectures generalize well across datasets, but ImageNet features are less general than previously suggested.
translated by 谷歌翻译
我们研究了用于半监控学习(SSL)的无监督数据选择,其中可以提供大规模的未标记数据集,并且为标签采集预算小额数据子集。现有的SSL方法专注于学习一个有效地集成了来自给定小标记数据和大型未标记数据的信息的模型,而我们专注于选择正确的数据以用于SSL的注释,而无需任何标签或任务信息。直观地,要标记的实例应统称为下游任务的最大多样性和覆盖范围,并且单独具有用于SSL的最大信息传播实用程序。我们以三步数据为中心的SSL方法形式化这些概念,使稳定性和精度的纤维液改善8%的CiFar-10(标记为0.08%)和14%的Imagenet -1k(标记为0.2%)。它也是一种具有各种SSL方法的通用框架,提供一致的性能增益。我们的工作表明,在仔细选择注释数据上花费的小计算带来了大注释效率和模型性能增益,而无需改变学习管道。我们完全无监督的数据选择可以轻松扩展到其他弱监督的学习设置。
translated by 谷歌翻译
视觉变压器(VIT)已被证明可以在广泛的视觉应用中获得高度竞争性的性能,例如图像分类,对象检测和语义图像分割。与卷积神经网络相比,通常发现视觉变压器的较弱的电感偏差会在较小的培训数据集上培训时,会增加对模型正则化或数据增强的依赖(简称为“ AUGREG”)。我们进行了一项系统的实证研究,以便更好地了解培训数据,AUGREG,模型大小和计算预算之间的相互作用。作为这项研究的一个结果,我们发现增加的计算和AUGREG的组合可以产生与在数量级上训练的模型相同的训练数据的模型:我们在公共Imagenet-21K数据集中培训各种尺寸的VIT模型在较大的JFT-300M数据集上匹配或超越其对手的培训。
translated by 谷歌翻译