可传递性估计是选择预训练模型和其中的层来转移学习,转移,以最大程度地提高目标任务上的性能并防止负转移的必不可少的工具。现有的估计算法要么需要对目标任务进行深入培训,要么在评估层之间的可传递性方面遇到困难。为此,我们提出了一种简单,高效且有效的可传递性度量,称为“超越”。通过单一传递目标任务的示例,越过可转移性作为在预训练模型及其标签提取的目标示例的特征之间的相互信息。我们通过诉诸于熵的有效替代方案来克服有效的共同信息估计的挑战。从特征表示的角度来看,所得的越来越多地评估了完整性(功能是否包含目标任务的足够信息)和紧凑性(每个类的特征是否足够紧凑,以实现良好的概括)。从理论上讲,我们已经分析了转移学习后的跨度与性能的紧密联系。尽管在10行代码中具有非凡的简单性,但在对32个预训练模型和16个下游任务的广泛评估中,越来越多地表现出色。
translated by 谷歌翻译
本文解决了对预先训练的深神经网络进行排名并筛选最下游任务的重要问题。这是具有挑战性的,因为每个任务的基本模型排名只能通过微调目标数据集中的预训练模型来生成,该模型是蛮力且计算昂贵的。最近的高级方法提出了几个轻巧的可转移性指标来预测微调结果。但是,这些方法仅捕获静态表示,但忽略了微调动态。为此,本文提出了一个新的可传递性度量,称为\ textbf {s} elf-challenging \ textbf {f} isher \ textbf {d} is Criminant \ textbf {a} nalisy(\ textbf {\ textbf {sfda})现有作品没有的有吸引力的好处。首先,SFDA可以将静态特征嵌入渔民空间中,并完善它们,以在类之间更好地分离性。其次,SFDA使用一种自我挑战的机制来鼓励不同的预训练模型来区分硬性示例。第三,SFDA可以轻松地为模型集合选择多个预训练的模型。 $ 33 $预培训的$ 11 $下游任务的$ 33 $预培训模型的广泛实验表明,在测量预训练模型的可传递性时,SFDA具有高效,有效和健壮。例如,与最先进的方法NLEEP相比,SFDA平均显示了59.1美元的增益,同时带来了$ 22.5 $ x的墙壁速度速度。该代码将在\ url {https://github.com/tencentarc/sfda}上提供。
translated by 谷歌翻译
具有许多预训练模型(PTM)的模型中心已经是深度学习的基石。尽管以高成本建造,但它们仍然保持\ emph {探索}:从业人员通常会通过普及从提供的模型中心中选择一个PTM,然后对PTM进行微调以解决目标任务。这种na \“我的但共同的实践构成了两个障碍,以充分利用预训练的模型中心:(1)通过受欢迎程度选择的PTM选择没有最佳保证;(2)仅使用一个PTM,而其余的PTM则被忽略。理想情况下。理想情况下。 ,为了最大程度地利用预训练的模型枢纽,需要尝试所有PTM的所有组合和广泛的微调每个PTM组合,这会产生指数组合和不可偿还的计算预算。在本文中,我们提出了一种新的范围排名和调整预训练的模型:(1)我们的会议论文〜\ citep {you_logme:_2021}提出的logMe,以估算预先训练模型提取的标签证据的最大值,该标签证据可以在模型中排名所有PTMS用于各种类型的PTM和任务的枢纽\ Emph {微调之前}。(2)如果我们不偏爱模型的体系结构,则可以对排名最佳的PTM进行微调和部署,或者可以通过TOPE调整目标PTM -k通过t排名PTM他提出了b-tuning算法。排名部分基于会议论文,我们在本文中完成了其理论分析,包括启发式证据最大化程序的收敛证明和特征维度的影响。调整零件引入了一种用于调整多个PTM的新型贝叶斯调整(B-Tuning)方法,该方法超过了专门的方法,该方法旨在调整均匀的PTMS,并为调整异质PTMS设置了一种新的技术。利用PTM枢纽的新范式对于整个机器学习社区的大量受众来说可能会很有趣。
translated by 谷歌翻译
转移学习已成为利用计算机视觉中预先训练模型的流行方法。然而,在不执行计算上昂贵的微调的情况下,难以量化哪个预先训练的源模型适用于特定目标任务,或者相反地,可以容易地适应预先训练的源模型的任务。在这项工作中,我们提出了高斯Bhattacharyya系数(GBC),一种用于量化源模型和目标数据集之间的可转换性的新方法。在第一步中,我们在由源模型定义的特征空间中嵌入所有目标图像,并表示使用每类高斯。然后,我们使用Bhattacharyya系数估计它们的成对类可分离性,从而产生了一种简单有效的源模型转移到目标任务的程度。我们在数据集和架构选择的上下文中评估GBC在图像分类任务上。此外,我们还对更复杂的语义分割转移性估算任务进行实验。我们证明GBC在语义分割设置中大多数评估标准上的最先进的可转移性度量,匹配图像分类中的数据集转移性的最高方法的性能,并且在图像分类中执行最佳的架构选择问题。
translated by 谷歌翻译
Task transfer learning is a popular technique in image processing applications that uses pre-trained models to reduce the supervision cost of related tasks. An important question is to determine task transferability, i.e. given a common input domain, estimating to what extent representations learned from a source task can help in learning a target task. Typically, transferability is either measured experimentally or inferred through task relatedness, which is often defined without a clear operational meaning. In this paper, we present a novel metric, H-score, an easily-computable evaluation function that estimates the performance of transferred representations from one task to another in classification problems using statistical and information theoretic principles. Experiments on real image data show that our metric is not only consistent with the empirical transferability measurement, but also useful to practitioners in applications such as source model selection and task transfer curriculum learning.
translated by 谷歌翻译
域的概括(DG)旨在仅使用有限的源域学习一个通用模型。先前的DG尝试仅由于训练和测试域之间的显着域移动而无法从源域中学习域不变表示。取而代之的是,我们使用Oracle模型使用共同信息重新构建了DG目标,该模型将概括为任何可能的域。我们通过通过预训练的模型近似oracle模型来得出一个可拖动的变化下限,称为使用Oracle(Miro)的相互信息正则化。我们的广泛实验表明,Miro可显着提高分布性能。此外,我们的缩放实验表明,预训练模型的尺度越大,miro的性能提高就越大。源代码可在https://github.com/kakaobrain/miro中获得。
translated by 谷歌翻译
With the ever-growing model size and the limited availability of labeled training data, transfer learning has become an increasingly popular approach in many science and engineering domains. For classification problems, this work delves into the mystery of transfer learning through an intriguing phenomenon termed neural collapse (NC), where the last-layer features and classifiers of learned deep networks satisfy: (i) the within-class variability of the features collapses to zero, and (ii) the between-class feature means are maximally and equally separated. Through the lens of NC, our findings for transfer learning are the following: (i) when pre-training models, preventing intra-class variability collapse (to a certain extent) better preserves the intrinsic structures of the input data, so that it leads to better model transferability; (ii) when fine-tuning models on downstream tasks, obtaining features with more NC on downstream data results in better test accuracy on the given task. The above results not only demystify many widely used heuristics in model pre-training (e.g., data augmentation, projection head, self-supervised learning), but also leads to more efficient and principled fine-tuning method on downstream tasks that we demonstrate through extensive experimental results.
translated by 谷歌翻译
Deep transfer learning has been widely used for knowledge transmission in recent years. The standard approach of pre-training and subsequently fine-tuning, or linear probing, has shown itself to be effective in many down-stream tasks. Therefore, a challenging and ongoing question arises: how to quantify cross-task transferability that is compatible with transferred results while keeping self-consistency? Existing transferability metrics are estimated on the particular model by conversing source and target tasks. They must be recalculated with all existing source tasks whenever a novel unknown target task is encountered, which is extremely computationally expensive. In this work, we highlight what properties should be satisfied and evaluate existing metrics in light of these characteristics. Building upon this, we propose Principal Gradient Expectation (PGE), a simple yet effective method for assessing transferability across tasks. Specifically, we use a restart scheme to calculate every batch gradient over each weight unit more than once, and then we take the average of all the gradients to get the expectation. Thus, the transferability between the source and target task is estimated by computing the distance of normalized principal gradients. Extensive experiments show that the proposed transferability metric is more stable, reliable and efficient than SOTA methods.
translated by 谷歌翻译
最近关于使用嘈杂标签的学习的研究通过利用小型干净数据集来显示出色的性能。特别是,基于模型不可知的元学习的标签校正方法进一步提高了性能,通过纠正了嘈杂的标签。但是,标签错误矫予没有保障措施,导致不可避免的性能下降。此外,每个训练步骤都需要至少三个背部传播,显着减慢训练速度。为了缓解这些问题,我们提出了一种强大而有效的方法,可以在飞行中学习标签转换矩阵。采用转换矩阵使分类器对所有校正样本持怀疑态度,这减轻了错误的错误问题。我们还介绍了一个双头架构,以便在单个反向传播中有效地估计标签转换矩阵,使得估计的矩阵紧密地遵循由标签校正引起的移位噪声分布。广泛的实验表明,我们的方法在训练效率方面表现出比现有方法相当或更好的准确性。
translated by 谷歌翻译
作为主导范式,微调目标数据的预先训练模型广泛用于许多深度学习应用,特别是对于小数据集。然而,最近的研究已经明确表明,一旦培训迭代的数量增加,划痕训练都没有比这一训练前策略更糟糕的最终表现。在这项工作中,我们从学习理论中流行的泛化分析的角度重新审视这种现象。我们的结果表明,最终预测精度可能具有对预训练模型的弱依赖性,特别是在大训练迭代的情况下。观察激励我们利用预训练预调整的数据,因为此数据也可用于微调。使用预训练数据的泛化结果表明,当适当的预训练数据包含在微调中时,可以提高目标任务的最终性能。随着理论发现的洞察力,我们提出了一种新颖的选择策略来选择从预训练数据中的子集,以帮助改善目标任务的概括。 8个基准数据集上的图像分类任务的广泛实验结果验证了基于数据选择的微调管道的有效性。
translated by 谷歌翻译
本文关注的是将许多预训练的深神经网络(DNN)(称为检查点)排名,以将学习转移到下游任务。由于广泛使用了DNN,我们可能很容易从各种来源收集数百个检查站。他们中的哪个将最好的人转移到我们感兴趣的下游任务?为了彻底回答这个问题,我们建立了一个神经检查点排名基准(Neucrab),并研究一些直观的排名措施。这些措施是通用的,适用于不同输出类型的检查点,而无需知道如何对哪个数据集进行检查。它们还产生了低计算成本,使它们实际上有意义。我们的结果表明,检查点提取的特征的线性可分离性是可传递性的强烈指标。我们还达到了一种新的排名NLEEP,这在实验中带来了最佳性能。
translated by 谷歌翻译
我们提出了两个新颖的可传递性指标F-OTCE(基于快速最佳运输的条件熵)和JC-otce(联合通信OTCE),以评估源模型(任务)可以使目标任务的学习受益多少,并学习更可转移的表示形式。用于跨域交叉任务转移学习。与需要评估辅助任务的经验可转让性的现有指标不同,我们的指标是无辅助的,以便可以更有效地计算它们。具体而言,F-otce通过首先求解源和目标分布之间的最佳传输(OT)问题来估计可转移性,然后使用最佳耦合来计算源和目标标签之间的负条件熵。它还可以用作损失函数,以最大化目标任务填充源模型的可传递性。同时,JC-OTCE通过在OT问题中包含标签距离来提高F-otce的可转移性鲁棒性,尽管它可能会产生额外的计算成本。广泛的实验表明,F-otce和JC-otce优于最先进的无辅助指标,分别为18.85%和28.88%,与基础真相转移精度相关系数。通过消除辅助任务的训练成本,两个指标将前一个方法的总计算时间从43分钟减少到9.32s和10.78,用于一对任务。当用作损失函数时,F-otce在几个射击分类实验中显示出源模型的传输精度的一致性提高,精度增益高达4.41%。
translated by 谷歌翻译
近年来,随着预审预周习惯的模型的越来越多,为特定的下游分类任务选择最佳的检查站的问题一直在增加注意力。尽管最近提出了几种方法来解决选择问题(例如LEEP,H-SCORE),但这些方法诉诸应用学习理论并非充分动机的启发式方法。在本文中,我们介绍了PACTRAN,这是一个理论上扎根的指标家族,用于验证模型选择和可传递性测量。我们首先展示了如何从转移学习设置下的最佳PAC-Bayesian界限中得出PACTRAN指标。然后,我们在许多视觉任务(VTAB)以及语言和视觉(OKVQA)任务上对PACTRAN的三个度量实例进行了经验评估。对结果的分析表明,与现有选择方法相比,PACTRAN是一种更一致和有效的可传递性度量。
translated by 谷歌翻译
利用额外数据的最佳方法(无论是从同一任务中未标记的数据还是从相关任务标记的数据)学习给定任务的最佳方法是什么?本文使用参考研究理论对问题进行正式化。参考先验是客观的,非信息性的贝叶斯先验,可最大程度地提高任务和模型权重之间的相互信息。这样的先验使该任务能够最大程度地影响贝叶斯后部,例如,参考先知取决于可用于学习任务的样本数量,并且对于非常小的样本量,先前的概率质量更大,在假设空间中的低复杂模型上有更多的概率质量。本文介绍了中等尺度深网和基于图像的数据的参考先验的首次演示。我们开发了参考先验的概括,并向两个问题展示了应用。首先,通过使用未标记的数据来计算参考之前,我们开发了新的贝叶斯半监督学习方法,即使每个类别的样本很少,它们仍然有效。其次,通过使用来自源任务的标记数据来计算参考之前,我们开发了一种新的转移学习方法,该方法允许从目标任务进行数据以最大程度地影响贝叶斯后验。这些方法的经验验证是在图像分类数据集上进行的。代码可从https://github.com/grasp-lyrl/deep_reference_priors获得。
translated by 谷歌翻译
由于其无监督的性质和下游任务的信息性特征表示,实例歧视自我监督的代表学习受到了受到关注的。在实践中,它通常使用比监督类的数量更多的负样本。然而,现有分析存在不一致;从理论上讲,大量的负样本在下游监督任务上降低了分类性能,同时凭经验,它们提高了性能。我们提供了一种新颖的框架,用于使用优惠券收集器的问题分析关于负样本的经验结果。我们的界限可以通过增加负样本的数量来隐立地纳入自我监督损失中的下游任务的监督损失。我们确认我们的拟议分析持有现实世界基准数据集。
translated by 谷歌翻译
我们考虑无监督的域适应性(UDA),其中使用来自源域(例如照片)的标记数据,而来自目标域(例如草图)的未标记数据用于学习目标域的分类器。常规的UDA方法(例如,域对抗训练)学习域不变特征,以改善对目标域的概括。在本文中,我们表明,对比的预训练,它在未标记的源和目标数据上学习功能,然后在标记的源数据上进行微调,具有强大的UDA方法的竞争力。但是,我们发现对比前训练不会学习域不变特征,这与常规的UDA直觉不同。从理论上讲,我们证明了对比的预训练可以学习在跨域下微调但仍通过解开域和类信息来概括到目标域的特征。我们的结果表明,UDA不需要域的不变性。我们从经验上验证了基准视觉数据集的理论。
translated by 谷歌翻译
这项工作同时考虑了典型的监督学习任务中深度表示的可区分性和可传递性属性,即图像分类。通过全面的时间分析,我们观察到这两个属性之间的权衡。随着培训的进展,可区分性不断提高,而转移性在后来的培训期间大大降低。从信息 - 底层理论的角度来看,我们揭示了可区分性和可传递性之间的不相容性归因于输入信息的过度压缩。更重要的是,我们研究了为什么和为什么如何减轻过度压缩的信息,并进一步提出一个学习框架,称为对比度的时间编码〜(CTC),以抵消过度压缩并减轻不相容性。广泛的实验验证了CTC成功缓解了不相容性,从而产生了歧视性和可转移表示形式。在图像分类任务和挑战转移学习任务上实现了明显的改进。我们希望这项工作将提高传统监督学习环境中可转移性属性的重要性。代码可从https://github.com/dtennant/dt-tradeoff获得。
translated by 谷歌翻译
Often we wish to transfer representational knowledge from one neural network to another. Examples include distilling a large network into a smaller one, transferring knowledge from one sensory modality to a second, or ensembling a collection of models into a single estimator. Knowledge distillation, the standard approach to these problems, minimizes the KL divergence between the probabilistic outputs of a teacher and student network. We demonstrate that this objective ignores important structural knowledge of the teacher network. This motivates an alternative objective by which we train a student to capture significantly more information in the teacher's representation of the data. We formulate this objective as contrastive learning. Experiments demonstrate that our resulting new objective outperforms knowledge distillation and other cutting-edge distillers on a variety of knowledge transfer tasks, including single model compression, ensemble distillation, and cross-modal transfer. Our method sets a new state-of-the-art in many transfer tasks, and sometimes even outperforms the teacher network when combined with knowledge distillation.
translated by 谷歌翻译
随着大数据的爆炸性增加,培训机器学习(ML)模型成为计算密集型工作量,需要几天甚至几周。因此,重用已经训练的模型受到了受关注的,称为转移学习。转移学习避免通过将知识从源任务转移到目标任务来避免从头开始培训新模型。现有的传输学习方法主要专注于如何通过特定源模型提高目标任务的性能,并假设给出了源模型。虽然有许多源模型可用,但数据科学家难以手动选择目标任务的最佳源模型。因此,如何在模型数据库中有效地选择合适的源模型进行模型重用是一个有趣但未解决的问题。在本文中,我们提出了SMS,有效,高效,灵活的源模型选择框架。即使源数据集具有明显不同的数据标签,SMS也是有效的,并且灵活地支持具有任何类型的结构的源模型,并且有效地避免任何培训过程。对于每个源模型,SMS首先将目标数据集中的样本加速到软标签中,通过直接将该模型直接应用于目标数据集,然后使用高斯分布适合软标签的集群,最后测量源模型使用的显着能力高斯混合的公制。此外,我们提出了一种改进的SMS(I-SMS),其降低了源模型的输出数量。 I-SMS可以显着降低选择时间,同时保留SMS的选择性能。关于一系列实用模型重用工作负载的广泛实验证明了SMS的有效性和效率。
translated by 谷歌翻译
随着普雷雷达的深入学习模型的优势,从模型银行获取现货,找到最佳重量,以便对您的用途进行微调,可以是令人生畏的任务。最近提出了几种方法来寻找转移学习的好模型,但他们要么对大型模型银行进行速度,要么对现成的外在模型的多样性表现不佳。理想情况下,我们要回答的问题是“给定一些数据和源模型,您是否可以在微调后快速预测模型的准确性?”在本文中,我们将此设置形式形式为“可扩展的不同模型选择”,并提出了几个用于评估此任务的基准。我们发现现有的模型选择和可转换性估计方法在这里表现不佳并分析为什么这是如此。然后,我们介绍简单的技术来提高这些算法的性能和速度。最后,我们迭代现有方法来创建PARC,这优于各种模型选择的所有其他方法。我们已经发布了基准和方法代码,希望能够激发可访问的转移学习的模型选择中的未来工作。
translated by 谷歌翻译