在本文中,我们考虑了多任务表示(MTR)的框架学习的目标是使用源任务来学习降低求解目标任务的样本复杂性的表示形式。我们首先回顾MTR理论的最新进展,并表明它们可以在此框架内进行分析时为流行的元学习算法提供新颖的见解。特别是,我们重点介绍了实践中基于梯度和基于度量的算法之间的根本差异,并提出了理论分析来解释它。最后,我们使用派生的见解来通过新的基于光谱的正则化项来提高元学习方法的性能,并通过对少量分类基准的实验研究确认其效率。据我们所知,这是将MTR理论的最新学习范围付诸实践的第一项贡献,以实现几乎没有射击分类的任务。
translated by 谷歌翻译
epiSodic学习是对几枪学习感兴趣的研究人员和从业者的流行练习。它包括在一系列学习问题(或剧集)中组织培训,每个人分为小型训练和验证子集,以模仿评估期间遇到的情况。但这总是必要吗?在本文中,我们调查了在集发作的级别使用非参数方法,例如最近邻居等方法的焦点学习的有用性。对于这些方法,我们不仅展示了广州学习的限制是如何不必要的,而是他们实际上导致利用培训批次的数据低效方式。我们通过匹配和原型网络进行广泛的消融实验,其中两个最流行的方法在集中的级别使用非参数方法。他们的“非焦化”对应物具有很大的更简单,具有较少的近似参数,并在多个镜头分类数据集中提高它们的性能。
translated by 谷歌翻译
元学习方法旨在构建能够快速适应低数据制度的新任务的学习算法。这种算法的主要基准之一是几次学习问题。在本文中,我们调查了在培训期间采用多任务方法的标准元学习管道的修改。该提出的方法同时利用来自常见损​​失函数中的几个元训练任务的信息。每个任务在损耗功能中的影响由相应的重量控制。正确优化这些权重可能对整个模型的训练产生很大影响,并且可能会提高测试时间任务的质量。在这项工作中,我们提出并调查了使用同时扰动随机近似(SPSA)方法的方法的使用方法,用于元列车任务权重优化。我们还将提出的算法与基于梯度的方法进行了比较,发现随机近似表明了测试时间最大的质量增强。提出的多任务修改可以应用于使用元学习管道的几乎所有方法。在本文中,我们研究了这种修改对CiFar-FS,FC100,TieredimAgenet和MiniimAgenet几秒钟学习基准的原型网络和模型 - 不可知的元学习算法。在这些实验期间,多任务修改已经证明了对原始方法的改进。所提出的SPSA跟踪算法显示了对最先进的元学习方法具有竞争力的最大精度提升。我们的代码可在线获取。
translated by 谷歌翻译
Few-shot learning has become essential for producing models that generalize from few examples. In this work, we identify that metric scaling and metric task conditioning are important to improve the performance of few-shot algorithms. Our analysis reveals that simple metric scaling completely changes the nature of few-shot algorithm parameter updates. Metric scaling provides improvements up to 14% in accuracy for certain metrics on the mini-Imagenet 5-way 5-shot classification task. We further propose a simple and effective way of conditioning a learner on the task sample set, resulting in learning a task-dependent metric space. Moreover, we propose and empirically test a practical end-to-end optimization procedure based on auxiliary task co-training to learn a task-dependent metric space. The resulting few-shot learning model based on the task-dependent scaled metric achieves state of the art on mini-Imagenet. We confirm these results on another few-shot dataset that we introduce in this paper based on CIFAR100. Our code is publicly available at https://github.com/ElementAI/TADAM.
translated by 谷歌翻译
模型不足的元学习(MAML)已越来越流行,对于可以通过一个或几个随机梯度下降步骤迅速适应新任务的训练模型。但是,与标准的非自适应学习(NAL)相比,MAML目标更难优化,并且几乎没有理解MAML在各种情况下的溶液的快速适应性方面的改善。我们通过线性回归设置进行分析解决此问题,该设置由简单而艰难的任务组成,其中硬度与梯度下降在任务上收敛的速率有关。具体而言,我们证明,为了使MAML比NAL获得可观的收益,(i)任务之间的硬度必须有一定的差异,并且(ii)艰苦任务的最佳解决方案必须与中心远离远离中心。简单任务最佳解决方案的中心。我们还提供数值和分析结果,表明这些见解适用于两层神经网络。最后,我们提供了很少的图像分类实验,可以支持我们何时使用MAML的见解,并强调培训MAML对实践中的艰巨任务的重要性。
translated by 谷歌翻译
We introduce a framework based on bilevel programming that unifies gradient-based hyperparameter optimization and meta-learning. We show that an approximate version of the bilevel problem can be solved by taking into explicit account the optimization dynamics for the inner objective. Depending on the specific setting, the outer variables take either the meaning of hyperparameters in a supervised learning problem or parameters of a meta-learner. We provide sufficient conditions under which solutions of the approximate problem converge to those of the exact problem. We instantiate our approach for meta-learning in the case of deep learning where representation layers are treated as hyperparameters shared across a set of training episodes. In experiments, we confirm our theoretical findings, present encouraging results for few-shot learning and contrast the bilevel approach against classical approaches for learning-to-learn.
translated by 谷歌翻译
最近,已经观察到,转移学习解决方案可能是我们解决许多少量学习基准的全部 - 因此提出了有关何时以及如何部署元学习算法的重要问题。在本文中,我们试图通过1.提出一个新颖的指标(多样性系数)来阐明这些问题,以测量几次学习基准和2.的任务多样性。 )并在公平条件下进行学习(相同的体系结构,相同的优化器和所有经过培训的模型)。使用多样性系数,我们表明流行的迷你胶原和Cifar-fs几乎没有学习基准的多样性低。这种新颖的洞察力将转移学习解决方案比在公平比较的低多样性方面的元学习解决方案更好。具体而言,我们从经验上发现,低多样性系数与转移学习和MAML学习解决方案之间的高相似性在元测试时间和分类层相似性方面(使用基于特征的距离指标,例如SVCCA,PWCCA,CKA和OPD) )。为了进一步支持我们的主张,我们发现这种元测试的准确性仍然存在,即使模型大小变化也是如此。因此,我们得出的结论是,在低多样性制度中,MAML和转移学习在公平比较时具有等效的元检验性能。我们也希望我们的工作激发了对元学习基准测试基准的更周到的结构和定量评估。
translated by 谷歌翻译
标签 - 不平衡和组敏感分类中的目标是优化相关的指标,例如平衡错误和相同的机会。经典方法,例如加权交叉熵,在训练深网络到训练(TPT)的终端阶段时,这是超越零训练误差的训练。这种观察发生了最近在促进少数群体更大边值的直观机制之后开发启发式替代品的动力。与之前的启发式相比,我们遵循原则性分析,说明不同的损失调整如何影响边距。首先,我们证明,对于在TPT中训练的所有线性分类器,有必要引入乘法,而不是添加性的Logit调整,以便对杂项边缘进行适当的变化。为了表明这一点,我们发现将乘法CE修改的连接到成本敏感的支持向量机。也许是违反,我们还发现,在培训开始时,相同的乘法权重实际上可以损害少数群体。因此,虽然在TPT中,添加剂调整无效,但我们表明它们可以通过对乘法重量的初始负效应进行抗衡来加速会聚。通过这些发现的动机,我们制定了矢量缩放(VS)丢失,即捕获现有技术作为特殊情况。此外,我们引入了对群体敏感分类的VS损失的自然延伸,从而以统一的方式处理两种常见类型的不平衡(标签/组)。重要的是,我们对最先进的数据集的实验与我们的理论见解完全一致,并确认了我们算法的卓越性能。最后,对于不平衡的高斯 - 混合数据,我们执行泛化分析,揭示平衡/标准错误和相同机会之间的权衡。
translated by 谷歌翻译
我们介绍了SubGD,这是一种新颖的几声学习方法,基于最近的发现,即随机梯度下降更新往往生活在低维参数子空间中。在实验和理论分析中,我们表明模型局限于合适的预定义子空间,可以很好地推广用于几次学习。合适的子空间符合给定任务的三个标准:IT(a)允许通过梯度流量减少训练误差,(b)导致模型良好的模型,并且(c)可以通过随机梯度下降来识别。 SUBGD从不同任务的更新说明的自动相关矩阵的特征组合中标识了这些子空间。明确的是,我们可以识别出低维合适的子空间,用于对动态系统的几次学习,而动态系统具有不同的属性,这些属性由分析系统描述的一个或几个参数描述。这种系统在科学和工程领域的现实应用程序中无处不在。我们在实验中证实了SubGD在三个不同的动态系统问题设置上的优势,在样本效率和性能方面,均超过了流行的几次学习方法。
translated by 谷歌翻译
我们研究了基础模型的能力,以了解可转让给新的看不见的课程的分类的表现。文献中最近的结果表明,单个分类器在许多课程中学到的表示在少量学习问题上具有竞争力,这些问题是由专为这些问题设计的特殊用途算法学习的表示。在本文中,我们基于最近观察到的现象提供了对这种行为的解释,即通过共同计量的分类网络学习的特征显示有趣的聚类属性,称为神经崩溃。理论上,我们在理论上展示了神经崩溃的展示给来自培训类的新样本,更重要的是 - 对于新课程,允许基础模型提供在转移学习中良好工作的特征地图,具体地,少量拍摄设置。
translated by 谷歌翻译
Few-shot classification aims to learn a classifier to recognize unseen classes during training with limited labeled examples. While significant progress has been made, the growing complexity of network designs, meta-learning algorithms, and differences in implementation details make a fair comparison difficult. In this paper, we present 1) a consistent comparative analysis of several representative few-shot classification algorithms, with results showing that deeper backbones significantly reduce the performance differences among methods on datasets with limited domain differences, 2) a modified baseline method that surprisingly achieves competitive performance when compared with the state-of-the-art on both the mini-ImageNet and the CUB datasets, and 3) a new experimental setting for evaluating the cross-domain generalization ability for few-shot classification algorithms. Our results reveal that reducing intra-class variation is an important factor when the feature backbone is shallow, but not as critical when using deeper backbones. In a realistic cross-domain evaluation setting, we show that a baseline method with a standard fine-tuning practice compares favorably against other state-of-the-art few-shot learning algorithms.
translated by 谷歌翻译
Few-shot learning (FSL) is a central problem in meta-learning, where learners must efficiently learn from few labeled examples. Within FSL, feature pre-training has recently become an increasingly popular strategy to significantly improve generalization performance. However, the contribution of pre-training is often overlooked and understudied, with limited theoretical understanding of its impact on meta-learning performance. Further, pre-training requires a consistent set of global labels shared across training tasks, which may be unavailable in practice. In this work, we address the above issues by first showing the connection between pre-training and meta-learning. We discuss why pre-training yields more robust meta-representation and connect the theoretical analysis to existing works and empirical results. Secondly, we introduce Meta Label Learning (MeLa), a novel meta-learning algorithm that learns task relations by inferring global labels across tasks. This allows us to exploit pre-training for FSL even when global labels are unavailable or ill-defined. Lastly, we introduce an augmented pre-training procedure that further improves the learned meta-representation. Empirically, MeLa outperforms existing methods across a diverse range of benchmarks, in particular under a more challenging setting where the number of training tasks is limited and labels are task-specific. We also provide extensive ablation study to highlight its key properties.
translated by 谷歌翻译
原型网络是基于元学习的原型分类器,广泛用于几秒钟学习,因为它通过在不调整元测试期间的超参数来构建特定于特定的原型来分类未经调整的示例。有趣的是,最近的研究吸引了很多关注,表明具有微调的线性分类器,不使用元学习算法,与原型网络相对执行。但是,在将模型调整为新环境时,微调需要额外的超参数。此外,虽然几次拍摄学习的目的是使模型能够快速适应新的环境,但每次出现新类时都需要进行微调,使得快速适应困难。在本文中,我们分析了原型分类器在没有微调和元学习的情况下如何运作。我们通过实验发现,使用标准预先训练的模型直接使用用标准预先训练的模型来构建Meta测试中的原型分类器的特征矢量不会表现出来以及具有预先训练模型的微调和特征向量的原型网络和线性分类器。因此,我们推导出对原型网络的新颖泛化,并且表明专注于特征向量的规范的方差可以提高性能。我们通过实验研究了几种正常化方法,以最大限度地减少规范的方差,并发现通过使用L2标准化和嵌入空间变换而无需微调或元学习,可以获得相同的性能。
translated by 谷歌翻译
模型不合时宜的元学习(MAML)目前是少量元学习的主要方法之一。尽管它具有有效性,但由于先天的二聚体问题结构,MAML的优化可能具有挑战性。具体而言,MAML的损失格局比其经验风险最小化的对应物更为复杂,可能的鞍点和局部最小化可能更复杂。为了应对这一挑战,我们利用了最近发明的清晰度最小化的最小化,并开发出一种清晰感的MAML方法,我们称其为Sharp MAML。我们从经验上证明,Sharp-MAML及其计算有效的变体可以胜过流行的现有MAML基准(例如,Mini-Imagenet上的$+12 \%$ $精度)。我们通过收敛速率分析和尖锐MAML的概括结合进行了经验研究。据我们所知,这是在双层学习背景下对清晰度感知最小化的第一个经验和理论研究。该代码可在https://github.com/mominabbass/sharp-maml上找到。
translated by 谷歌翻译
We propose prototypical networks for the problem of few-shot classification, where a classifier must generalize to new classes not seen in the training set, given only a small number of examples of each new class. Prototypical networks learn a metric space in which classification can be performed by computing distances to prototype representations of each class. Compared to recent approaches for few-shot learning, they reflect a simpler inductive bias that is beneficial in this limited-data regime, and achieve excellent results. We provide an analysis showing that some simple design decisions can yield substantial improvements over recent approaches involving complicated architectural choices and meta-learning. We further extend prototypical networks to zero-shot learning and achieve state-of-theart results on the CU-Birds dataset.
translated by 谷歌翻译
Metric-based meta-learning is one of the de facto standards in few-shot learning. It composes of representation learning and metrics calculation designs. Previous works construct class representations in different ways, varying from mean output embedding to covariance and distributions. However, using embeddings in space lacks expressivity and cannot capture class information robustly, while statistical complex modeling poses difficulty to metric designs. In this work, we use tensor fields (``areas'') to model classes from the geometrical perspective for few-shot learning. We present a simple and effective method, dubbed hypersphere prototypes (HyperProto), where class information is represented by hyperspheres with dynamic sizes with two sets of learnable parameters: the hypersphere's center and the radius. Extending from points to areas, hyperspheres are much more expressive than embeddings. Moreover, it is more convenient to perform metric-based classification with hypersphere prototypes than statistical modeling, as we only need to calculate the distance from a data point to the surface of the hypersphere. Following this idea, we also develop two variants of prototypes under other measurements. Extensive experiments and analysis on few-shot learning tasks across NLP and CV and comparison with 20+ competitive baselines demonstrate the effectiveness of our approach.
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
从一个非常少数标记的样品中学习新颖的课程引起了机器学习区域的越来越高。最近关于基于元学习或转移学习的基于范例的研究表明,良好特征空间的获取信息可以是在几次拍摄任务上实现有利性能的有效解决方案。在本文中,我们提出了一种简单但有效的范式,该范式解耦了学习特征表示和分类器的任务,并且只能通过典型的传送学习培训策略从基类嵌入体系结构的特征。为了在每个类别内保持跨基地和新类别和辨别能力的泛化能力,我们提出了一种双路径特征学习方案,其有效地结合了与对比特征结构的结构相似性。以这种方式,内部级别对齐和级别的均匀性可以很好地平衡,并且导致性能提高。三个流行基准测试的实验表明,当与简单的基于原型的分类器结合起来时,我们的方法仍然可以在电感或转换推理设置中的标准和广义的几次射击问题达到有希望的结果。
translated by 谷歌翻译
最近的多任务学习研究旨在反对单一的标准化,其中培训只需最大限度地减少任务损失的总和。代替了几种Ad-hoc多任务优化算法,它受到各种假设的启发,关于使多任务设置困难的原因。这些优化器中的大多数都需要每个任务渐变,并引入重要的内存,运行时和实现开销。我们提出了一个理论分析,表明许多专业的多任务优化器可以被解释为正规化的形式。此外,我们表明,当与单任务学习的标准正则化和稳定技术耦合时,单一的标定化匹配或改善在监督和加固学习设置中复杂的多任务优化器的性能。我们相信我们的结果要求对该地区最近的研究进行关键重新评估。
translated by 谷歌翻译
我们提出了一个统一的查看,即通过通用表示,一个深层神经网络共同学习多个视觉任务和视觉域。同时学习多个问题涉及最大程度地减少具有不同幅度和特征的多个损失函数的加权总和,从而导致一个损失的不平衡状态,与学习每个问题的单独模型相比,一个损失的不平衡状态主导了优化和差的结果。为此,我们提出了通过小容量适配器将多个任务/特定于域网络的知识提炼到单个深神经网络中的知识。我们严格地表明,通用表示在学习NYU-V2和CityScapes中多个密集的预测问题方面实现了最新的表现,来自视觉Decathlon数据集中的不同域中的多个图像分类问题以及MetadataSet中的跨域中的几个域中学习。最后,我们还通过消融和定性研究进行多次分析。
translated by 谷歌翻译