很少有射击学习(FSL)需要视觉模型来快速适应任务分布的变化的全新分类任务。了解此任务分配转移带来的困难是FSL的核心。在本文中,我们表明,从频道的角度来看,简单的频道特征转换可能是揭开此秘密的关键。当在测试时间数据集中面对新颖的少量任务时,这种转换可以极大地提高学习图像表示的概括能力,同时对培训算法和数据集的选择不可知。通过对这种转变的深入分析,我们发现FSL中表示的难度源于图像表示的严重通道偏置问题:渠道在不同任务中的重要性可能不同,而卷积神经网络可能不敏感,可能是不敏感的,可能是不敏感的,或对这种转变做出错误的反应。这指出了现代视觉系统和未来需要进一步关注的概括能力的核心问题。
translated by 谷歌翻译
很少有射击学习(FSL)由于其在模型训练中的能力而无需过多的数据而引起了计算机视觉的越来越多的关注。 FSL具有挑战性,因为培训和测试类别(基础与新颖集)可能会在很大程度上多样化。传统的基于转移的解决方案旨在将从大型培训集中学到的知识转移到目标测试集中是有限的,因为任务分配转移的关键不利影响没有充分解决。在本文中,我们通过结合度量学习和通道注意的概念扩展了基于转移方法的解决方案。为了更好地利用特征主链提取的特征表示,我们提出了特定于类的通道注意(CSCA)模块,该模块通过分配每个类别的CSCA权重向量来学会突出显示每个类中的判别通道。与旨在学习全球班级功能的一般注意力模块不同,CSCA模块旨在通过非常有效的计算来学习本地和特定的特定功能。我们评估了CSCA模块在标准基准测试中的性能,包括Miniimagenet,Cifar-imagenet,Cifar-FS和Cub-200-200-2011。实验在电感和/跨域设置中进行。我们取得了新的最新结果。
translated by 谷歌翻译
培训和评估之间的类别差距被特征为少量学习(FSL)成功的主要障碍之一。在本文中,我们首次凭证识别现实图像中的图像背景,作为课堂上的捷径知识,以适应课堂分类,而是超出FSL中的培训类别。一个小说框架COSOC,旨在通过在训练和评估中提取图像中的图像中的前景对象来解决这个问题而没有任何额外的监督。对电感FSL任务进行的广泛实验表明了我们方法的有效性。
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
最近,已经观察到,转移学习解决方案可能是我们解决许多少量学习基准的全部 - 因此提出了有关何时以及如何部署元学习算法的重要问题。在本文中,我们试图通过1.提出一个新颖的指标(多样性系数)来阐明这些问题,以测量几次学习基准和2.的任务多样性。 )并在公平条件下进行学习(相同的体系结构,相同的优化器和所有经过培训的模型)。使用多样性系数,我们表明流行的迷你胶原和Cifar-fs几乎没有学习基准的多样性低。这种新颖的洞察力将转移学习解决方案比在公平比较的低多样性方面的元学习解决方案更好。具体而言,我们从经验上发现,低多样性系数与转移学习和MAML学习解决方案之间的高相似性在元测试时间和分类层相似性方面(使用基于特征的距离指标,例如SVCCA,PWCCA,CKA和OPD) )。为了进一步支持我们的主张,我们发现这种元测试的准确性仍然存在,即使模型大小变化也是如此。因此,我们得出的结论是,在低多样性制度中,MAML和转移学习在公平比较时具有等效的元检验性能。我们也希望我们的工作激发了对元学习基准测试基准的更周到的结构和定量评估。
translated by 谷歌翻译
少量分类旨在通过一些培训样本来调整小型课程的分类器。然而,训练数据的不足可能导致某个类中的特征分布偏差估计。为了缓解这个问题,我们通过探索新颖和基类之间的类别相关性,作为先前知识来展示一个简单而有效的功能整流方法。我们通过将特征映射到潜在的向量中明确地捕获这种相关性,其中匹配基类的数量的维度,将其视为在基类上的特征的对数概率。基于该潜伏向量,整流特征由解码器直接构建,我们预计在去除其他随机因素的同时保持与类别相关的信息,因此更接近其类心。此外,通过改变SoftMax中的温度值,我们可以重新平衡特征整流和重建以获得更好的性能。我们的方法是通用的,灵活的,不可知的任何特征提取器和分类器,容易嵌入到现有的FSL方法中。实验验证了我们的方法能够整流偏置功能,尤其是当特征远离班级质心时。拟议的方法一直在三种广泛使用的基准上获得相当大的性能收益,用不同的骨干和分类器评估。该代码将公开。
translated by 谷歌翻译
Few-shot classification aims to learn a classifier to recognize unseen classes during training with limited labeled examples. While significant progress has been made, the growing complexity of network designs, meta-learning algorithms, and differences in implementation details make a fair comparison difficult. In this paper, we present 1) a consistent comparative analysis of several representative few-shot classification algorithms, with results showing that deeper backbones significantly reduce the performance differences among methods on datasets with limited domain differences, 2) a modified baseline method that surprisingly achieves competitive performance when compared with the state-of-the-art on both the mini-ImageNet and the CUB datasets, and 3) a new experimental setting for evaluating the cross-domain generalization ability for few-shot classification algorithms. Our results reveal that reducing intra-class variation is an important factor when the feature backbone is shallow, but not as critical when using deeper backbones. In a realistic cross-domain evaluation setting, we show that a baseline method with a standard fine-tuning practice compares favorably against other state-of-the-art few-shot learning algorithms.
translated by 谷歌翻译
The focus of recent meta-learning research has been on the development of learning algorithms that can quickly adapt to test time tasks with limited data and low computational cost. Few-shot learning is widely used as one of the standard benchmarks in meta-learning. In this work, we show that a simple baseline: learning a supervised or selfsupervised representation on the meta-training set, followed by training a linear classifier on top of this representation, outperforms state-of-the-art few-shot learning methods. An additional boost can be achieved through the use of selfdistillation. This demonstrates that using a good learned embedding model can be more effective than sophisticated meta-learning algorithms. We believe that our findings motivate a rethinking of few-shot image classification benchmarks and the associated role of meta-learning algorithms.
translated by 谷歌翻译
很少有图像分类是一个具有挑战性的问题,旨在仅基于少量培训图像来达到人类的识别水平。少数图像分类的一种主要解决方案是深度度量学习。这些方法是,通过将看不见的样本根据距离的距离进行分类,可在强大的深神经网络中学到的嵌入空间中看到的样品,可以避免以少数图像分类的少数训练图像过度拟合,并实现了最新的图像表现。在本文中,我们提供了对深度度量学习方法的最新审查,以进行2018年至2022年的少量图像分类,并根据度量学习的三个阶段将它们分为三组,即学习功能嵌入,学习课堂表示和学习距离措施。通过这种分类法,我们确定了他们面临的不同方法和问题的新颖性。我们通过讨论当前的挑战和未来趋势进行了少量图像分类的讨论。
translated by 谷歌翻译
Few-shot learning aims to fast adapt a deep model from a few examples. While pre-training and meta-training can create deep models powerful for few-shot generalization, we find that pre-training and meta-training focuses respectively on cross-domain transferability and cross-task transferability, which restricts their data efficiency in the entangled settings of domain shift and task shift. We thus propose the Omni-Training framework to seamlessly bridge pre-training and meta-training for data-efficient few-shot learning. Our first contribution is a tri-flow Omni-Net architecture. Besides the joint representation flow, Omni-Net introduces two parallel flows for pre-training and meta-training, responsible for improving domain transferability and task transferability respectively. Omni-Net further coordinates the parallel flows by routing their representations via the joint-flow, enabling knowledge transfer across flows. Our second contribution is the Omni-Loss, which introduces a self-distillation strategy separately on the pre-training and meta-training objectives for boosting knowledge transfer throughout different training stages. Omni-Training is a general framework to accommodate many existing algorithms. Evaluations justify that our single framework consistently and clearly outperforms the individual state-of-the-art methods on both cross-task and cross-domain settings in a variety of classification, regression and reinforcement learning problems.
translated by 谷歌翻译
识别诸如眼睛和喙之类的判别细节对于区分细粒度的班级非常重要,因为它们的总体外观相似。在这方面,我们介绍了任务差异最大化(TDM),这是一个简单的模块,用于细颗粒的几个射击分类。我们的目标是通过强调编码课堂不同信息的渠道来定位班级判别区域。具体而言,TDM基于两个新颖的组件学习特定于任务的通道权重:支持注意模块(SAM)和查询注意模块(QAM)。 SAM产生支持权重,以表示每个类别的频道判别能力。尽管如此,由于SAM基本上仅基于标记的支持集,因此它可能容易受到此类支持集的偏见。因此,我们提出了QAM,通过产生查询权重来补充SAM,该查询权重使给定查询图像的对象相关的通道更加重量。通过组合这两个权重,定义了特定于类的任务通道权重。然后将权重应用以产生任务自适应特征地图,更多地关注判别细节。我们的实验证实了TDM的有效性及其互补益处,并在细粒度的几乎没有分类中使用了先前的方法。
translated by 谷歌翻译
几次学习的元学习算法旨在训练能够仅使用几个示例将新任务概括为新任务的神经网络。早期停滞对于性能至关重要,在对新任务分布达到最佳概括时停止模型训练。元学习的早期机制通常依赖于从训练(源)数据集中绘制的元验证集中的标记示例上测量模型性能。这在几个射击传输学习设置中是有问题的,其中元测试集来自不同的目标数据集(OOD),并且可能会在元验证集中具有较大的分配转移。在这项工作中,我们提出了基于激活的早期停滞(ABE),这是使用基于验证的早期播放进行元学习的替代方法。具体而言,我们分析了每个隐藏层的神经激活期间的演变,在目标任务分布的一项任务中,在一组未标记的支持示例上,因为这构成了从最小值和合理的信息中。目标问题。我们的实验表明,有关激活的简单标签不可知统计提供了一种有效的方法来估计目标概括如何随着时间的推移如何发展。在每个隐藏层,我们从第一阶和二阶矩来表征激活分布,然后沿特征维度进一步汇总,从而在四维空间中产生紧凑而直观的表征。检测何时,在整个训练时间以及在哪个层上,目标激活轨迹与源数据的激活轨迹有所不同,使我们能够在大量的几个射击传输学习设置中执行早期停滞并改善概括,并在不同算法,源和目标数据集。
translated by 谷歌翻译
最近观察到,转移学习解决方案可能是我们所需要的全部解决许多射门学习基准。这提出了关于何时以及如何部署元学习算法的重要问题。在本文中,我们通过首先将可计算的度量标准制定几次学习基准来阐明这些问题,以便我们假设是预测元学学习解决方案是否会成功的。我们命名为几秒钟学习基准的分集系数。使用多样性系数,我们表明MiniimAgeNet基准与计算多样性的二十四种不同的方式具有零多样性。我们继续表明,在MAML学会在转移学习的解决方案之间进行公平比较时,都具有相同的元测试精度。这表明转移学习未能超越MAML - 违反以前的工作表明。在一起,这两个事实提供了多样性是否与元学习成功相关的第一次测试,因此表明,与转移学习和MAML学习解决方案之间的高度相似性的分集系数 - 特别是在Meta-Test时间。因此,我们猜测元学位解决方案具有与分集系数为零时与转移学习相同的荟萃测试性能。
translated by 谷歌翻译
Humans can quickly learn new visual concepts, perhaps because they can easily visualize or imagine what novel objects look like from different views. Incorporating this ability to hallucinate novel instances of new concepts might help machine vision systems perform better low-shot learning, i.e., learning concepts from few examples. We present a novel approach to low-shot learning that uses this idea. Our approach builds on recent progress in meta-learning ("learning to learn") by combining a meta-learner with a "hallucinator" that produces additional training examples, and optimizing both models jointly. Our hallucinator can be incorporated into a variety of meta-learners and provides significant gains: up to a 6 point boost in classification accuracy when only a single training example is available, yielding state-of-the-art performance on the challenging ImageNet low-shot classification benchmark.
translated by 谷歌翻译
从一个非常少数标记的样品中学习新颖的课程引起了机器学习区域的越来越高。最近关于基于元学习或转移学习的基于范例的研究表明,良好特征空间的获取信息可以是在几次拍摄任务上实现有利性能的有效解决方案。在本文中,我们提出了一种简单但有效的范式,该范式解耦了学习特征表示和分类器的任务,并且只能通过典型的传送学习培训策略从基类嵌入体系结构的特征。为了在每个类别内保持跨基地和新类别和辨别能力的泛化能力,我们提出了一种双路径特征学习方案,其有效地结合了与对比特征结构的结构相似性。以这种方式,内部级别对齐和级别的均匀性可以很好地平衡,并且导致性能提高。三个流行基准测试的实验表明,当与简单的基于原型的分类器结合起来时,我们的方法仍然可以在电感或转换推理设置中的标准和广义的几次射击问题达到有希望的结果。
translated by 谷歌翻译
传统的细颗粒图像分类通常依赖于带注释的地面真相的大规模训练样本。但是,某些子类别在实际应用中可能几乎没有可用的样本。在本文中,我们建议使用多频邻域(MFN)和双交叉调制(DCM)提出一个新颖的几弹性细颗粒图像分类网络(FICNET)。采用模块MFN来捕获空间域和频域中的信息。然后,提取自相似性和多频成分以产生多频结构表示。 DCM使用分别考虑全球环境信息和类别之间的微妙关系来调节嵌入过程。针对两个少量任务的三个细粒基准数据集进行的综合实验验证了FICNET与最先进的方法相比具有出色的性能。特别是,在两个数据集“ Caltech-UCSD鸟”和“ Stanford Cars”上进行的实验分别可以获得分类精度93.17 \%和95.36 \%。它们甚至高于一般的细粒图像分类方法可以实现的。
translated by 谷歌翻译
Learning with limited data is a key challenge for visual recognition. Many few-shot learning methods address this challenge by learning an instance embedding function from seen classes and apply the function to instances from unseen classes with limited labels. This style of transfer learning is task-agnostic: the embedding function is not learned optimally discriminative with respect to the unseen classes, where discerning among them leads to the target task. In this paper, we propose a novel approach to adapt the instance embeddings to the target classification task with a set-to-set function, yielding embeddings that are task-specific and are discriminative. We empirically investigated various instantiations of such set-to-set functions and observed the Transformer is most effective -as it naturally satisfies key properties of our desired model. We denote this model as FEAT (few-shot embedding adaptation w/ Transformer) and validate it on both the standard few-shot classification benchmark and four extended few-shot learning settings with essential use cases, i.e., cross-domain, transductive, generalized few-shot learning, and low-shot learning. It archived consistent improvements over baseline models as well as previous methods, and established the new stateof-the-art results on two benchmarks.
translated by 谷歌翻译
在这项工作中,我们建议使用分布式样本,即来自目标类别外部的未标记样本,以改善几乎没有记录的学习。具体而言,我们利用易于可用的分布样品来驱动分类器,以避免通过最大化原型到分布样品的距离,同时最大程度地减少分布样品的距离(即支持,查询数据),以避免使用分类器。。我们的方法易于实施,不可知论的是提取器,轻量级,而没有任何额外的预训练费用,并且适用于归纳和跨传输设置。对各种标准基准测试的广泛实验表明,所提出的方法始终提高具有不同架构的预审计网络的性能。
translated by 谷歌翻译
Metric-based meta-learning is one of the de facto standards in few-shot learning. It composes of representation learning and metrics calculation designs. Previous works construct class representations in different ways, varying from mean output embedding to covariance and distributions. However, using embeddings in space lacks expressivity and cannot capture class information robustly, while statistical complex modeling poses difficulty to metric designs. In this work, we use tensor fields (``areas'') to model classes from the geometrical perspective for few-shot learning. We present a simple and effective method, dubbed hypersphere prototypes (HyperProto), where class information is represented by hyperspheres with dynamic sizes with two sets of learnable parameters: the hypersphere's center and the radius. Extending from points to areas, hyperspheres are much more expressive than embeddings. Moreover, it is more convenient to perform metric-based classification with hypersphere prototypes than statistical modeling, as we only need to calculate the distance from a data point to the surface of the hypersphere. Following this idea, we also develop two variants of prototypes under other measurements. Extensive experiments and analysis on few-shot learning tasks across NLP and CV and comparison with 20+ competitive baselines demonstrate the effectiveness of our approach.
translated by 谷歌翻译
很少有射击学习(FSL)旨在使用有限标记的示例生成分类器。许多现有的作品采用了元学习方法,构建了一些可以从几个示例中学习以生成分类器的学习者。通常,几次学习者是通过依次对多个几次射击任务进行采样并优化几杆学习者在为这些任务生成分类器时的性能来构建或进行元训练的。性能是通过结果分类器对这些任务的测试(即查询)示例进行分类的程度来衡量的。在本文中,我们指出了这种方法的两个潜在弱点。首先,采样的查询示例可能无法提供足够的监督来进行元训练少数学习者。其次,元学习的有效性随着射击数量的增加而急剧下降。为了解决这些问题,我们为少数学习者提出了一个新颖的元训练目标,这是为了鼓励少数学习者生成像强大分类器一样执行的分类器。具体而言,我们将每个采样的几个弹药任务与强大的分类器相关联,该分类器接受了充分的标记示例。强大的分类器可以看作是目标分类器,我们希望在几乎没有示例的情况下生成的几个学习者,我们使用强大的分类器来监督少数射击学习者。我们提出了一种构建强分类器的有效方法,使我们提出的目标成为现有基于元学习的FSL方法的易于插入的术语。我们与许多代表性的元学习方法相结合验证了我们的方法,Lastshot。在几个基准数据集中,我们的方法可导致各种任务的显着改进。更重要的是,通过我们的方法,基于元学习的FSL方法可以在不同数量的镜头上胜过基于非Meta学习的方法。
translated by 谷歌翻译