Meta Learning几次分类是最近获得巨大关注的机器学习中的新出现问题,其中目标是学习一个可以快速适应新任务的模型,只有少数标记的数据。我们认为贝叶斯高斯过程(GP)方法,其中我们先前学习GP,并且通过从后部推理的GP预测模型进行对新任务的适应。我们采用Laplace后近似,但是为了规避寻找地图解决方案的迭代梯度步骤,我们将新的线性判别分析(LDA)插件作为地图解决方案介绍。从本质上讲,地图解决方案近似于LDA估计,但要在考虑到GP,我们采用先前的调整来估算LDA的共享方差参数,这确保了调整后的估计在先前与GP一致。这使得能够闭合可分辨率的GP后断和预测性分布,从而允许快速的元训练。我们对以前的方法表现出相当大的改进。
translated by 谷歌翻译
元学习优化了培训过程的超参数,例如其初始化,内核或学习率,基于从许多辅助任务中采样的数据。关键的潜在假设是,称为元训练任务的辅助任务与在部署时间遇到的任务相同的生成分发,称为元测试任务。然而,这可能不是这种情况,当测试环境与元训练条件不同时。为了解决任务的转变,在元训练和元测试阶段之间产生分配,介绍了转移元学习的加权自由能量最小化(WFEM)。我们实例化了通过高斯进程(GPS)的非参数贝叶斯回归和分类的提议方法。该方法在玩具正弦回归问题上验证,以及使用MiniiMAGENET和CUB数据集的分类,通过与PACOH实现的标准元学习的标准元学习进行比较。
translated by 谷歌翻译
Few-shot classification aims to learn a classifier to recognize unseen classes during training with limited labeled examples. While significant progress has been made, the growing complexity of network designs, meta-learning algorithms, and differences in implementation details make a fair comparison difficult. In this paper, we present 1) a consistent comparative analysis of several representative few-shot classification algorithms, with results showing that deeper backbones significantly reduce the performance differences among methods on datasets with limited domain differences, 2) a modified baseline method that surprisingly achieves competitive performance when compared with the state-of-the-art on both the mini-ImageNet and the CUB datasets, and 3) a new experimental setting for evaluating the cross-domain generalization ability for few-shot classification algorithms. Our results reveal that reducing intra-class variation is an important factor when the feature backbone is shallow, but not as critical when using deeper backbones. In a realistic cross-domain evaluation setting, we show that a baseline method with a standard fine-tuning practice compares favorably against other state-of-the-art few-shot learning algorithms.
translated by 谷歌翻译
几乎没有学习方法的目的是训练模型,这些模型可以根据少量数据轻松适应以前看不见的任务。最受欢迎,最优雅的少学习方法之一是模型敏捷的元学习(MAML)。这种方法背后的主要思想是学习元模型的一般权重,该权重进一步适应了少数梯度步骤中的特定问题。但是,该模型的主要限制在于以下事实:更新过程是通过基于梯度的优化实现的。因此,MAML不能总是在一个甚至几个梯度迭代中将权重修改为基本水平。另一方面,使用许多梯度步骤会导致一个复杂且耗时的优化程序,这很难在实践中训练,并且可能导致过度拟合。在本文中,我们提出了HyperMAML,这是MAML的新型概括,其中更新过程的训练也是模型的一部分。也就是说,在HyperMAML中,我们没有使用梯度下降来更新权重,而是为此目的使用可训练的超级净机。因此,在此框架中,该模型可以生成重大更新,其范围不限于固定数量的梯度步骤。实验表明,超型MAML始终胜过MAML,并且在许多标准的几次学习基准测试基准中与其他最先进的技术相当。
translated by 谷歌翻译
Many meta-learning approaches for few-shot learning rely on simple base learners such as nearest-neighbor classifiers. However, even in the few-shot regime, discriminatively trained linear predictors can offer better generalization. We propose to use these predictors as base learners to learn representations for few-shot learning and show they offer better tradeoffs between feature size and performance across a range of few-shot recognition benchmarks. Our objective is to learn feature embeddings that generalize well under a linear classification rule for novel categories. To efficiently solve the objective, we exploit two properties of linear classifiers: implicit differentiation of the optimality conditions of the convex problem and the dual formulation of the optimization problem. This allows us to use highdimensional embeddings with improved generalization at a modest increase in computational overhead. Our approach, named MetaOptNet, achieves state-of-the-art performance on miniImageNet, tieredImageNet, CIFAR-FS, and FC100 few-shot learning benchmarks. Our code is available online 1 .
translated by 谷歌翻译
很少有图像分类是一个具有挑战性的问题,旨在仅基于少量培训图像来达到人类的识别水平。少数图像分类的一种主要解决方案是深度度量学习。这些方法是,通过将看不见的样本根据距离的距离进行分类,可在强大的深神经网络中学到的嵌入空间中看到的样品,可以避免以少数图像分类的少数训练图像过度拟合,并实现了最新的图像表现。在本文中,我们提供了对深度度量学习方法的最新审查,以进行2018年至2022年的少量图像分类,并根据度量学习的三个阶段将它们分为三组,即学习功能嵌入,学习课堂表示和学习距离措施。通过这种分类法,我们确定了他们面临的不同方法和问题的新颖性。我们通过讨论当前的挑战和未来趋势进行了少量图像分类的讨论。
translated by 谷歌翻译
很少有射击学习(FSL)旨在使用有限标记的示例生成分类器。许多现有的作品采用了元学习方法,构建了一些可以从几个示例中学习以生成分类器的学习者。通常,几次学习者是通过依次对多个几次射击任务进行采样并优化几杆学习者在为这些任务生成分类器时的性能来构建或进行元训练的。性能是通过结果分类器对这些任务的测试(即查询)示例进行分类的程度来衡量的。在本文中,我们指出了这种方法的两个潜在弱点。首先,采样的查询示例可能无法提供足够的监督来进行元训练少数学习者。其次,元学习的有效性随着射击数量的增加而急剧下降。为了解决这些问题,我们为少数学习者提出了一个新颖的元训练目标,这是为了鼓励少数学习者生成像强大分类器一样执行的分类器。具体而言,我们将每个采样的几个弹药任务与强大的分类器相关联,该分类器接受了充分的标记示例。强大的分类器可以看作是目标分类器,我们希望在几乎没有示例的情况下生成的几个学习者,我们使用强大的分类器来监督少数射击学习者。我们提出了一种构建强分类器的有效方法,使我们提出的目标成为现有基于元学习的FSL方法的易于插入的术语。我们与许多代表性的元学习方法相结合验证了我们的方法,Lastshot。在几个基准数据集中,我们的方法可导致各种任务的显着改进。更重要的是,通过我们的方法,基于元学习的FSL方法可以在不同数量的镜头上胜过基于非Meta学习的方法。
translated by 谷歌翻译
从少数样本中学习的多功能性是人类智能的标志。很少有学习能力超越机器的努力。受概率深度学习的承诺和力量的启发,我们提出了一个新颖的变异推理网络,用于几个射击分类(被构成三叉戟),将图像的表示形式分离为语义和标记潜在变量,并以相互交织的方式推断它们。为了诱导任务意识,作为三叉戟推理机制的一部分,我们使用一种新型的基于内置的基于注意的转导功能提取模块(我们致电ATTFEX)在查询和支持图像上借鉴了几次任务的图像。我们广泛的实验结果证实了三叉戟的功效,并证明,使用最简单的骨架,它在最常见的数据集Miniimagenet和Tieredimagenet中设置了新的最新时间(最多可提高4%和5%,,高达4%和5%分别是)以及最近具有挑战性的跨域迷你膜 - > CUB场景,其范围超出了最佳现有跨域基线的显着利润率(最高20%)。可以在我们的GitHub存储库中找到代码和实验:https://github.com/anujinho/trident
translated by 谷歌翻译
当数据稀缺时,元学习可以通过利用相关的学习任务的先前经验来提高学习者的准确性。然而,现有方法具有不可靠的不确定性估计,通常过于自信。解决这些缺点,我们介绍了一个名为F-PACOH的新型元学习框架,该框架称为F-PACOH,该框架将Meta学习的前沿视为随机过程,并直接在函数空间中执行元级正则化。这使我们能够直接转向元学习者在元区域训练数据区域中对高至少认知不确定性的概率预测,从而获得良好的不确定性估计。最后,我们展示了我们的方法如何与顺序决策集成,其中可靠的不确定性量化是必要的。在我们对贝叶斯优化(BO)的元学习的基准研究中,F-PACOH显着优于所有其他元学习者和标准基线。
translated by 谷歌翻译
Few-shot learning aims to fast adapt a deep model from a few examples. While pre-training and meta-training can create deep models powerful for few-shot generalization, we find that pre-training and meta-training focuses respectively on cross-domain transferability and cross-task transferability, which restricts their data efficiency in the entangled settings of domain shift and task shift. We thus propose the Omni-Training framework to seamlessly bridge pre-training and meta-training for data-efficient few-shot learning. Our first contribution is a tri-flow Omni-Net architecture. Besides the joint representation flow, Omni-Net introduces two parallel flows for pre-training and meta-training, responsible for improving domain transferability and task transferability respectively. Omni-Net further coordinates the parallel flows by routing their representations via the joint-flow, enabling knowledge transfer across flows. Our second contribution is the Omni-Loss, which introduces a self-distillation strategy separately on the pre-training and meta-training objectives for boosting knowledge transfer throughout different training stages. Omni-Training is a general framework to accommodate many existing algorithms. Evaluations justify that our single framework consistently and clearly outperforms the individual state-of-the-art methods on both cross-task and cross-domain settings in a variety of classification, regression and reinforcement learning problems.
translated by 谷歌翻译
Few-shot learning (FSL) is a central problem in meta-learning, where learners must efficiently learn from few labeled examples. Within FSL, feature pre-training has recently become an increasingly popular strategy to significantly improve generalization performance. However, the contribution of pre-training is often overlooked and understudied, with limited theoretical understanding of its impact on meta-learning performance. Further, pre-training requires a consistent set of global labels shared across training tasks, which may be unavailable in practice. In this work, we address the above issues by first showing the connection between pre-training and meta-learning. We discuss why pre-training yields more robust meta-representation and connect the theoretical analysis to existing works and empirical results. Secondly, we introduce Meta Label Learning (MeLa), a novel meta-learning algorithm that learns task relations by inferring global labels across tasks. This allows us to exploit pre-training for FSL even when global labels are unavailable or ill-defined. Lastly, we introduce an augmented pre-training procedure that further improves the learned meta-representation. Empirically, MeLa outperforms existing methods across a diverse range of benchmarks, in particular under a more challenging setting where the number of training tasks is limited and labels are task-specific. We also provide extensive ablation study to highlight its key properties.
translated by 谷歌翻译
从一个非常少数标记的样品中学习新颖的课程引起了机器学习区域的越来越高。最近关于基于元学习或转移学习的基于范例的研究表明,良好特征空间的获取信息可以是在几次拍摄任务上实现有利性能的有效解决方案。在本文中,我们提出了一种简单但有效的范式,该范式解耦了学习特征表示和分类器的任务,并且只能通过典型的传送学习培训策略从基类嵌入体系结构的特征。为了在每个类别内保持跨基地和新类别和辨别能力的泛化能力,我们提出了一种双路径特征学习方案,其有效地结合了与对比特征结构的结构相似性。以这种方式,内部级别对齐和级别的均匀性可以很好地平衡,并且导致性能提高。三个流行基准测试的实验表明,当与简单的基于原型的分类器结合起来时,我们的方法仍然可以在电感或转换推理设置中的标准和广义的几次射击问题达到有希望的结果。
translated by 谷歌翻译
目前,难以获得贝叶斯方法深入学习的好处,这允许明确的知识规范,准确地捕获模型不确定性。我们呈现先前数据拟合网络(PFN)。 PFN利用大规模机器学习技术来近似一组一组后索。 PFN唯一要求工作的要求是能够从先前分配通过监督的学习任务(或函数)来采样。我们的方法将后近似的目标重新定为具有带有值的输入的监督分类问题:它反复从先前绘制任务(或功能),从中绘制一组数据点及其标签,掩盖其中一个标签并学习基于其余数据点的设定值输入对其进行概率预测。呈现来自新的监督学习任务的一组样本作为输入,PFNS在单个前向传播中对任意其他数据点进行概率预测,从而学习到近似贝叶斯推断。我们展示了PFN可以接近完全模仿高斯过程,并且还可以实现高效的贝叶斯推理对难以处理的问题,与当前方法相比,多个设置中有超过200倍的加速。我们在非常多样化的地区获得强烈的结果,如高斯过程回归,贝叶斯神经网络,小型表格数据集的分类,以及少量图像分类,展示了PFN的一般性。代码和培训的PFN在https://github.com/automl/transformerscandobayesianinference发布。
translated by 谷歌翻译
Few-shot learning has become essential for producing models that generalize from few examples. In this work, we identify that metric scaling and metric task conditioning are important to improve the performance of few-shot algorithms. Our analysis reveals that simple metric scaling completely changes the nature of few-shot algorithm parameter updates. Metric scaling provides improvements up to 14% in accuracy for certain metrics on the mini-Imagenet 5-way 5-shot classification task. We further propose a simple and effective way of conditioning a learner on the task sample set, resulting in learning a task-dependent metric space. Moreover, we propose and empirically test a practical end-to-end optimization procedure based on auxiliary task co-training to learn a task-dependent metric space. The resulting few-shot learning model based on the task-dependent scaled metric achieves state of the art on mini-Imagenet. We confirm these results on another few-shot dataset that we introduce in this paper based on CIFAR100. Our code is publicly available at https://github.com/ElementAI/TADAM.
translated by 谷歌翻译
少量学习,特别是几秒钟的图像分类,近年来受到了越来越多的关注,并目睹了重大进展。最近的一些研究暗示表明,许多通用技术或“诀窍”,如数据增强,预训练,知识蒸馏和自我监督,可能大大提高了几次学习方法的性能。此外,不同的作品可以采用不同的软件平台,不同的训练计划,不同的骨干架构以及甚至不同的输入图像大小,使得公平的比较困难,从业者与再现性斗争。为了解决这些情况,通过在Pytorch中的同一单个代码库中重新实施17个最新的框架,提出了几次射门学习(Libfewshot)的全面图书馆。此外,基于libfewshot,我们提供多个基准数据集的全面评估,其中包含多个骨干架构,以评估不同培训技巧的常见缺陷和效果。此外,鉴于近期对必要性或未培训机制的必要性怀疑,我们的评估结果表明,特别是当与预训练相结合时,仍然需要这种机制。我们希望我们的工作不仅可以降低初学者的障碍,可以在几次学习上工作,而且还消除了非动力技巧的影响,促进了几枪学习的内在研究。源代码可从https://github.com/rl-vig/libfewshot获取。
translated by 谷歌翻译
Accurate uncertainty quantification is a major challenge in deep learning, as neural networks can make overconfident errors and assign high confidence predictions to out-of-distribution (OOD) inputs. The most popular approaches to estimate predictive uncertainty in deep learning are methods that combine predictions from multiple neural networks, such as Bayesian neural networks (BNNs) and deep ensembles. However their practicality in real-time, industrial-scale applications are limited due to the high memory and computational cost. Furthermore, ensembles and BNNs do not necessarily fix all the issues with the underlying member networks. In this work, we study principled approaches to improve uncertainty property of a single network, based on a single, deterministic representation. By formalizing the uncertainty quantification as a minimax learning problem, we first identify distance awareness, i.e., the model's ability to quantify the distance of a testing example from the training data, as a necessary condition for a DNN to achieve high-quality (i.e., minimax optimal) uncertainty estimation. We then propose Spectral-normalized Neural Gaussian Process (SNGP), a simple method that improves the distance-awareness ability of modern DNNs with two simple changes: (1) applying spectral normalization to hidden weights to enforce bi-Lipschitz smoothness in representations and (2) replacing the last output layer with a Gaussian process layer. On a suite of vision and language understanding benchmarks, SNGP outperforms other single-model approaches in prediction, calibration and out-of-domain detection. Furthermore, SNGP provides complementary benefits to popular techniques such as deep ensembles and data augmentation, making it a simple and scalable building block for probabilistic deep learning. Code is open-sourced at https://github.com/google/uncertainty-baselines
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
在这项工作中,我们建议使用分布式样本,即来自目标类别外部的未标记样本,以改善几乎没有记录的学习。具体而言,我们利用易于可用的分布样品来驱动分类器,以避免通过最大化原型到分布样品的距离,同时最大程度地减少分布样品的距离(即支持,查询数据),以避免使用分类器。。我们的方法易于实施,不可知论的是提取器,轻量级,而没有任何额外的预训练费用,并且适用于归纳和跨传输设置。对各种标准基准测试的广泛实验表明,所提出的方法始终提高具有不同架构的预审计网络的性能。
translated by 谷歌翻译
最近,已经观察到,转移学习解决方案可能是我们解决许多少量学习基准的全部 - 因此提出了有关何时以及如何部署元学习算法的重要问题。在本文中,我们试图通过1.提出一个新颖的指标(多样性系数)来阐明这些问题,以测量几次学习基准和2.的任务多样性。 )并在公平条件下进行学习(相同的体系结构,相同的优化器和所有经过培训的模型)。使用多样性系数,我们表明流行的迷你胶原和Cifar-fs几乎没有学习基准的多样性低。这种新颖的洞察力将转移学习解决方案比在公平比较的低多样性方面的元学习解决方案更好。具体而言,我们从经验上发现,低多样性系数与转移学习和MAML学习解决方案之间的高相似性在元测试时间和分类层相似性方面(使用基于特征的距离指标,例如SVCCA,PWCCA,CKA和OPD) )。为了进一步支持我们的主张,我们发现这种元测试的准确性仍然存在,即使模型大小变化也是如此。因此,我们得出的结论是,在低多样性制度中,MAML和转移学习在公平比较时具有等效的元检验性能。我们也希望我们的工作激发了对元学习基准测试基准的更周到的结构和定量评估。
translated by 谷歌翻译
模型不合时宜的元学习(MAML)是一种著名的少数学习方法,它启发了许多后续工作,例如Anil和Boil。但是,作为一种归纳方法,MAML无法完全利用查询集的信息,从而限制了其获得更高通用性的潜力。为了解决这个问题,我们提出了一种简单而有效的方法,该方法可以适应性地生成伪标记,并可以提高MAML家族的性能。所提出的方法,被称为生成伪标签的MAML(GP-MAML),GP-Anil和GP-Boil,是查询的杠杆统计数据,以提高新任务的性能。具体而言,我们自适应地添加伪标签并从查询集中挑选样品,然后使用挑选的查询样品和支持集对模型进行重新训练。 GP系列还可以使用伪查询集中的信息在元测试过程中重新培训网络。尽管某些转导方法(例如跨传播网络(TPN))努力实现这一目标。
translated by 谷歌翻译