Few-shot classification aims to learn a classifier to recognize unseen classes during training with limited labeled examples. While significant progress has been made, the growing complexity of network designs, meta-learning algorithms, and differences in implementation details make a fair comparison difficult. In this paper, we present 1) a consistent comparative analysis of several representative few-shot classification algorithms, with results showing that deeper backbones significantly reduce the performance differences among methods on datasets with limited domain differences, 2) a modified baseline method that surprisingly achieves competitive performance when compared with the state-of-the-art on both the mini-ImageNet and the CUB datasets, and 3) a new experimental setting for evaluating the cross-domain generalization ability for few-shot classification algorithms. Our results reveal that reducing intra-class variation is an important factor when the feature backbone is shallow, but not as critical when using deeper backbones. In a realistic cross-domain evaluation setting, we show that a baseline method with a standard fine-tuning practice compares favorably against other state-of-the-art few-shot learning algorithms.
translated by 谷歌翻译
少量学习,特别是几秒钟的图像分类,近年来受到了越来越多的关注,并目睹了重大进展。最近的一些研究暗示表明,许多通用技术或“诀窍”,如数据增强,预训练,知识蒸馏和自我监督,可能大大提高了几次学习方法的性能。此外,不同的作品可以采用不同的软件平台,不同的训练计划,不同的骨干架构以及甚至不同的输入图像大小,使得公平的比较困难,从业者与再现性斗争。为了解决这些情况,通过在Pytorch中的同一单个代码库中重新实施17个最新的框架,提出了几次射门学习(Libfewshot)的全面图书馆。此外,基于libfewshot,我们提供多个基准数据集的全面评估,其中包含多个骨干架构,以评估不同培训技巧的常见缺陷和效果。此外,鉴于近期对必要性或未培训机制的必要性怀疑,我们的评估结果表明,特别是当与预训练相结合时,仍然需要这种机制。我们希望我们的工作不仅可以降低初学者的障碍,可以在几次学习上工作,而且还消除了非动力技巧的影响,促进了几枪学习的内在研究。源代码可从https://github.com/rl-vig/libfewshot获取。
translated by 谷歌翻译
很少有射击学习(FSL)旨在使用有限标记的示例生成分类器。许多现有的作品采用了元学习方法,构建了一些可以从几个示例中学习以生成分类器的学习者。通常,几次学习者是通过依次对多个几次射击任务进行采样并优化几杆学习者在为这些任务生成分类器时的性能来构建或进行元训练的。性能是通过结果分类器对这些任务的测试(即查询)示例进行分类的程度来衡量的。在本文中,我们指出了这种方法的两个潜在弱点。首先,采样的查询示例可能无法提供足够的监督来进行元训练少数学习者。其次,元学习的有效性随着射击数量的增加而急剧下降。为了解决这些问题,我们为少数学习者提出了一个新颖的元训练目标,这是为了鼓励少数学习者生成像强大分类器一样执行的分类器。具体而言,我们将每个采样的几个弹药任务与强大的分类器相关联,该分类器接受了充分的标记示例。强大的分类器可以看作是目标分类器,我们希望在几乎没有示例的情况下生成的几个学习者,我们使用强大的分类器来监督少数射击学习者。我们提出了一种构建强分类器的有效方法,使我们提出的目标成为现有基于元学习的FSL方法的易于插入的术语。我们与许多代表性的元学习方法相结合验证了我们的方法,Lastshot。在几个基准数据集中,我们的方法可导致各种任务的显着改进。更重要的是,通过我们的方法,基于元学习的FSL方法可以在不同数量的镜头上胜过基于非Meta学习的方法。
translated by 谷歌翻译
Few-shot learning aims to fast adapt a deep model from a few examples. While pre-training and meta-training can create deep models powerful for few-shot generalization, we find that pre-training and meta-training focuses respectively on cross-domain transferability and cross-task transferability, which restricts their data efficiency in the entangled settings of domain shift and task shift. We thus propose the Omni-Training framework to seamlessly bridge pre-training and meta-training for data-efficient few-shot learning. Our first contribution is a tri-flow Omni-Net architecture. Besides the joint representation flow, Omni-Net introduces two parallel flows for pre-training and meta-training, responsible for improving domain transferability and task transferability respectively. Omni-Net further coordinates the parallel flows by routing their representations via the joint-flow, enabling knowledge transfer across flows. Our second contribution is the Omni-Loss, which introduces a self-distillation strategy separately on the pre-training and meta-training objectives for boosting knowledge transfer throughout different training stages. Omni-Training is a general framework to accommodate many existing algorithms. Evaluations justify that our single framework consistently and clearly outperforms the individual state-of-the-art methods on both cross-task and cross-domain settings in a variety of classification, regression and reinforcement learning problems.
translated by 谷歌翻译
少量分类旨在执行分类,因为只有利息类别的标记示例。尽管提出了几种方法,但大多数现有的几次射击学习(FSL)模型假设基础和新颖类是从相同的数据域中汲取的。在识别在一个看不见的域中的新型类数据方面,这成为域广义少量分类的更具挑战性的任务。在本文中,我们为域广义的少量拍摄分类提供了一个独特的学习框架,其中基类来自同质的多个源域,而要识别的新类是来自训练期间未见的目标域。通过推进元学习策略,我们的学习框架跨越多个源域利用数据来捕获域不变的功能,通过基于度量学习的机制跨越支持和查询数据来引入FSL能力。我们进行广泛的实验,以验证我们提出的学习框架和展示从小但同质源数据的效果,能够优选地对来自大规模的学习来执行。此外,我们为域广泛的少量分类提供了骨干模型的选择。
translated by 谷歌翻译
基于元学习的现有方法通过从(源域)基础类别的培训任务中学到的元知识来预测(目标域)测试任务的新颖类标签。但是,由于范围内可能存在较大的域差异,大多数现有作品可能无法推广到新颖的类别。为了解决这个问题,我们提出了一种新颖的对抗特征增强(AFA)方法,以弥合域间隙,以几乎没有学习。该特征增强旨在通过最大化域差异来模拟分布变化。在对抗训练期间,通过将增强特征(看不见的域)与原始域(可见域)区分开来学习域歧视器,而将域差异最小化以获得最佳特征编码器。所提出的方法是一个插件模块,可以轻松地基于元学习的方式将其集成到现有的几种学习方法中。在九个数据集上进行的广泛实验证明了我们方法对跨域几乎没有射击分类的优越性,与最新技术相比。代码可从https://github.com/youthhoo/afa_for_few_shot_learning获得
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
元学习已成为几乎没有图像分类的实用方法,在该方法中,“学习分类器的策略”是在标记的基础类别上进行元学习的,并且可以应用于具有新颖类的任务。我们删除了基类标签的要求,并通过无监督的元学习(UML)学习可通用的嵌入。具体而言,任务发作是在元训练过程中使用未标记的基本类别的数据增强构建的,并且我们将基于嵌入式的分类器应用于新的任务,并在元测试期间使用标记的少量示例。我们观察到两个元素在UML中扮演着重要角色,即进行样本任务和衡量实例之间的相似性的方法。因此,我们获得了具有两个简单修改的​​强基线 - 一个足够的采样策略,每情节有效地构建多个任务以及半分解的相似性。然后,我们利用来自两个方向的任务特征以获得进一步的改进。首先,合成的混淆实例被合并以帮助提取更多的判别嵌入。其次,我们利用额外的特定任务嵌入转换作为元训练期间的辅助组件,以促进预先适应的嵌入式的概括能力。几乎没有学习基准的实验证明,我们的方法比以前的UML方法优于先前的UML方法,并且比其监督变体获得了可比甚至更好的性能。
translated by 谷歌翻译
模型不合时宜的元学习(MAML)可以说是当今最流行的元学习算法之一。然而,它在几次分类上的性能远远远远远远远远远远远远远远落在许多致力于该问题的算法。在本文中,我们指出了如何训练MAML以进行几次分类的几个关键方面。首先,我们发现MAML在其内部循环更新中需要大量的梯度步骤,这与其常见的用法相矛盾。其次,我们发现MAML对元测试过程中的类标签分配敏感。具体而言,MAML Meta-Trains $ n$道分类器的初始化。这些$ n $方式,在元测试期间,然后具有“ $ n!$”的“ $ n!$”排列,并与$ n $新颖的课程配对。我们发现这些排列会导致巨大的准确性差异,从而使MAML不稳定。第三,我们研究了几种使MAML置换不变的方法,其中元训练单个向量以初始化分类头中的所有$ n $重量矢量的初始化。在Miniimagenet和Tieredimagenet等基准数据集上,我们命名Unicorn-MAML的方法在不牺牲MAML的简单性的情况下以与许多最近的几杆分类算法相同甚至优于许多近期的几个次数分类算法。
translated by 谷歌翻译
很少有射击学习(FSL)由于其在模型训练中的能力而无需过多的数据而引起了计算机视觉的越来越多的关注。 FSL具有挑战性,因为培训和测试类别(基础与新颖集)可能会在很大程度上多样化。传统的基于转移的解决方案旨在将从大型培训集中学到的知识转移到目标测试集中是有限的,因为任务分配转移的关键不利影响没有充分解决。在本文中,我们通过结合度量学习和通道注意的概念扩展了基于转移方法的解决方案。为了更好地利用特征主链提取的特征表示,我们提出了特定于类的通道注意(CSCA)模块,该模块通过分配每个类别的CSCA权重向量来学会突出显示每个类中的判别通道。与旨在学习全球班级功能的一般注意力模块不同,CSCA模块旨在通过非常有效的计算来学习本地和特定的特定功能。我们评估了CSCA模块在标准基准测试中的性能,包括Miniimagenet,Cifar-imagenet,Cifar-FS和Cub-200-200-2011。实验在电感和/跨域设置中进行。我们取得了新的最新结果。
translated by 谷歌翻译
Learning with limited data is a key challenge for visual recognition. Many few-shot learning methods address this challenge by learning an instance embedding function from seen classes and apply the function to instances from unseen classes with limited labels. This style of transfer learning is task-agnostic: the embedding function is not learned optimally discriminative with respect to the unseen classes, where discerning among them leads to the target task. In this paper, we propose a novel approach to adapt the instance embeddings to the target classification task with a set-to-set function, yielding embeddings that are task-specific and are discriminative. We empirically investigated various instantiations of such set-to-set functions and observed the Transformer is most effective -as it naturally satisfies key properties of our desired model. We denote this model as FEAT (few-shot embedding adaptation w/ Transformer) and validate it on both the standard few-shot classification benchmark and four extended few-shot learning settings with essential use cases, i.e., cross-domain, transductive, generalized few-shot learning, and low-shot learning. It archived consistent improvements over baseline models as well as previous methods, and established the new stateof-the-art results on two benchmarks.
translated by 谷歌翻译
The focus of recent meta-learning research has been on the development of learning algorithms that can quickly adapt to test time tasks with limited data and low computational cost. Few-shot learning is widely used as one of the standard benchmarks in meta-learning. In this work, we show that a simple baseline: learning a supervised or selfsupervised representation on the meta-training set, followed by training a linear classifier on top of this representation, outperforms state-of-the-art few-shot learning methods. An additional boost can be achieved through the use of selfdistillation. This demonstrates that using a good learned embedding model can be more effective than sophisticated meta-learning algorithms. We believe that our findings motivate a rethinking of few-shot image classification benchmarks and the associated role of meta-learning algorithms.
translated by 谷歌翻译
大多数元学习方法都假设存在于可用于基本知识的情节元学习的一组非常大的标记数据。这与更现实的持续学习范例形成对比,其中数据以包含不相交类的任务的形式逐步到达。在本文中,我们考虑了这个增量元学习(IML)的这个问题,其中类在离散任务中逐步呈现。我们提出了一种方法,我们调用了IML,我们称之为eCISODIC重播蒸馏(ERD),该方法将来自当前任务的类混合到当前任务中,当研究剧集时,来自先前任务的类别示例。然后将这些剧集用于知识蒸馏以最大限度地减少灾难性的遗忘。四个数据集的实验表明ERD超越了最先进的。特别是,在一次挑战的单次次数较挑战,长任务序列增量元学习场景中,我们将IML和联合训练与当前状态的3.5%/ 10.1%/ 13.4%之间的差距降低我们在Diered-ImageNet / Mini-ImageNet / CIFAR100上分别为2.6%/ 2.9%/ 5.0%。
translated by 谷歌翻译
很少有图像分类是一个具有挑战性的问题,旨在仅基于少量培训图像来达到人类的识别水平。少数图像分类的一种主要解决方案是深度度量学习。这些方法是,通过将看不见的样本根据距离的距离进行分类,可在强大的深神经网络中学到的嵌入空间中看到的样品,可以避免以少数图像分类的少数训练图像过度拟合,并实现了最新的图像表现。在本文中,我们提供了对深度度量学习方法的最新审查,以进行2018年至2022年的少量图像分类,并根据度量学习的三个阶段将它们分为三组,即学习功能嵌入,学习课堂表示和学习距离措施。通过这种分类法,我们确定了他们面临的不同方法和问题的新颖性。我们通过讨论当前的挑战和未来趋势进行了少量图像分类的讨论。
translated by 谷歌翻译
大多数现有的工作在几次学习中,依赖于Meta-Learning网络在大型基础数据集上,该网络通常是与目标数据集相同的域。我们解决了跨域几秒钟的问题,其中基础和目标域之间存在大移位。与未标记的目标数据的跨域几秒识别问题在很大程度上在文献中毫无根据。启动是使用自我训练解决此问题的第一个方法。但是,它使用固定的老师在标记的基础数据集上返回,以为未标记的目标样本创建软标签。由于基本数据集和未标记的数据集来自不同的域,因此将基本数据集的类域中的目标图像投影,具有固定的预制模型可能是子最优的。我们提出了一种简单的动态蒸馏基方法,以方便来自新颖/基础数据集的未标记图像。我们通过从教师网络中的未标记图像的未标记版本的预测计算并将其与来自学生网络相同的相同图像的强大版本匹配来施加一致性正常化。教师网络的参数被更新为学生网络参数的指数移动平均值。我们表明所提出的网络了解可以轻松适应目标域的表示,即使它尚未在预先预测阶段的目标专用类别训练。我们的车型优于当前最先进的方法,在BSCD-FSL基准中的5次分类,3.6%的3.6%,并在传统的域名几枪学习任务中显示出竞争性能。
translated by 谷歌翻译
几乎没有学习方法的目的是训练模型,这些模型可以根据少量数据轻松适应以前看不见的任务。最受欢迎,最优雅的少学习方法之一是模型敏捷的元学习(MAML)。这种方法背后的主要思想是学习元模型的一般权重,该权重进一步适应了少数梯度步骤中的特定问题。但是,该模型的主要限制在于以下事实:更新过程是通过基于梯度的优化实现的。因此,MAML不能总是在一个甚至几个梯度迭代中将权重修改为基本水平。另一方面,使用许多梯度步骤会导致一个复杂且耗时的优化程序,这很难在实践中训练,并且可能导致过度拟合。在本文中,我们提出了HyperMAML,这是MAML的新型概括,其中更新过程的训练也是模型的一部分。也就是说,在HyperMAML中,我们没有使用梯度下降来更新权重,而是为此目的使用可训练的超级净机。因此,在此框架中,该模型可以生成重大更新,其范围不限于固定数量的梯度步骤。实验表明,超型MAML始终胜过MAML,并且在许多标准的几次学习基准测试基准中与其他最先进的技术相当。
translated by 谷歌翻译
识别诸如眼睛和喙之类的判别细节对于区分细粒度的班级非常重要,因为它们的总体外观相似。在这方面,我们介绍了任务差异最大化(TDM),这是一个简单的模块,用于细颗粒的几个射击分类。我们的目标是通过强调编码课堂不同信息的渠道来定位班级判别区域。具体而言,TDM基于两个新颖的组件学习特定于任务的通道权重:支持注意模块(SAM)和查询注意模块(QAM)。 SAM产生支持权重,以表示每个类别的频道判别能力。尽管如此,由于SAM基本上仅基于标记的支持集,因此它可能容易受到此类支持集的偏见。因此,我们提出了QAM,通过产生查询权重来补充SAM,该查询权重使给定查询图像的对象相关的通道更加重量。通过组合这两个权重,定义了特定于类的任务通道权重。然后将权重应用以产生任务自适应特征地图,更多地关注判别细节。我们的实验证实了TDM的有效性及其互补益处,并在细粒度的几乎没有分类中使用了先前的方法。
translated by 谷歌翻译
很少的识别涉及训练图像分类器,以使用几个示例(Shot)在测试时间区分新颖概念。现有方法通常假定测试时间的射击号是事先知道的。这是不现实的,当火车和测试射击不匹配时,流行和基础方法的性能已被证明会受到影响。我们对该现象进行了系统的经验研究。与先前的工作一致,我们发现射击灵敏度在基于度量的几个学习者中广泛存在,但是与先前的工作相反,较大的神经体系结构为变化的测试拍摄提供了一定程度的内置鲁棒性。更重要的是,通过消除对样品噪声的敏感性,一种基于余弦距离的简单,以前已知但非常忽略了一类方法,可以极大地改善对射击变化的鲁​​棒性。我们为流行和最近的几个弹药分类器提供了余弦替代品,从而扩大了它们对现实环境的适用性。这些余弦模型一致地提高了射击力,超越先前的射击状态,并在一系列基准和架构上提供竞争精度,包括在非常低的射击方案中取得的显着增长。
translated by 谷歌翻译
Few-shot learning (FSL) is a central problem in meta-learning, where learners must efficiently learn from few labeled examples. Within FSL, feature pre-training has recently become an increasingly popular strategy to significantly improve generalization performance. However, the contribution of pre-training is often overlooked and understudied, with limited theoretical understanding of its impact on meta-learning performance. Further, pre-training requires a consistent set of global labels shared across training tasks, which may be unavailable in practice. In this work, we address the above issues by first showing the connection between pre-training and meta-learning. We discuss why pre-training yields more robust meta-representation and connect the theoretical analysis to existing works and empirical results. Secondly, we introduce Meta Label Learning (MeLa), a novel meta-learning algorithm that learns task relations by inferring global labels across tasks. This allows us to exploit pre-training for FSL even when global labels are unavailable or ill-defined. Lastly, we introduce an augmented pre-training procedure that further improves the learned meta-representation. Empirically, MeLa outperforms existing methods across a diverse range of benchmarks, in particular under a more challenging setting where the number of training tasks is limited and labels are task-specific. We also provide extensive ablation study to highlight its key properties.
translated by 谷歌翻译
在这项工作中,我们建议使用分布式样本,即来自目标类别外部的未标记样本,以改善几乎没有记录的学习。具体而言,我们利用易于可用的分布样品来驱动分类器,以避免通过最大化原型到分布样品的距离,同时最大程度地减少分布样品的距离(即支持,查询数据),以避免使用分类器。。我们的方法易于实施,不可知论的是提取器,轻量级,而没有任何额外的预训练费用,并且适用于归纳和跨传输设置。对各种标准基准测试的广泛实验表明,所提出的方法始终提高具有不同架构的预审计网络的性能。
translated by 谷歌翻译