我们研究了如何在只有几个类别(几次拍摄设置)给出的一些样本时识别来自Unseen类别(开放式分类)的样本的问题。学习良好抽象的挑战是一个非常少数样本的课程使得从看不见的类别中检测样本非常困难;因此,开放式识别在少量拍摄设置中受到最小的关注。大多数开放式少量拍摄分类方法正规化SoftMax得分以表明开放类样本的均匀概率,但我们认为这种方法通常是不准确的,特别是在细粒度。相反,我们提出了一种新颖的示例性重建的元学习策略,用于共同检测开放类样本,以及通过基于度量的分类对来自观众的样本进行分类。充当类的代表的示例可以在训练数据集中提供或在特征域中估计。我们的框架,名为重建示例的基于少量拍摄的少量开放式分类器(Refofs),在各种数据集上测试,实验结果明确突出了我们作为新技术的方法。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
很少有开放式识别旨在对可见类别的培训数据进行有限的培训数据进行分类和新颖的图像。这项任务的挑战是,该模型不仅需要学习判别性分类器,以用很少的培训数据对预定的类进行分类,而且还要拒绝从未见过的培训时间出现的未见类别的输入。在本文中,我们建议从两个新方面解决问题。首先,我们没有像在标准的封闭设置分类中那样学习看到类之间的决策边界,而是为看不见的类保留空间,因此位于这些区域中的图像被认为是看不见的类。其次,为了有效地学习此类决策边界,我们建议利用所见类的背景功能。由于这些背景区域没有显着促进近距离分类的决定,因此自然地将它们用作分类器学习的伪阶层。我们的广泛实验表明,我们提出的方法不仅要优于多个基线,而且还为三个流行的基准测试(即Tieredimagenet,Miniimagenet和Caltech-uscd Birds-birds-2011-2011(Cub))设定了新的最先进结果。
translated by 谷歌翻译
广义零射击学习(GZSL)旨在培训一个模型,以在某些输出类别在监督学习过程中未知的情况下对数据样本进行分类。为了解决这一具有挑战性的任务,GZSL利用可见的(源)和看不见的(目标)类的语义信息来弥合所见类和看不见的类之间的差距。自引入以来,已经制定了许多GZSL模型。在这篇评论论文中,我们介绍了有关GZSL的全面评论。首先,我们提供了GZSL的概述,包括问题和挑战。然后,我们为GZSL方法介绍了分层分类,并讨论了每个类别中的代表性方法。此外,我们讨论了GZSL的可用基准数据集和应用程序,以及有关研究差距和未来研究方向的讨论。
translated by 谷歌翻译
Metric-based meta-learning is one of the de facto standards in few-shot learning. It composes of representation learning and metrics calculation designs. Previous works construct class representations in different ways, varying from mean output embedding to covariance and distributions. However, using embeddings in space lacks expressivity and cannot capture class information robustly, while statistical complex modeling poses difficulty to metric designs. In this work, we use tensor fields (``areas'') to model classes from the geometrical perspective for few-shot learning. We present a simple and effective method, dubbed hypersphere prototypes (HyperProto), where class information is represented by hyperspheres with dynamic sizes with two sets of learnable parameters: the hypersphere's center and the radius. Extending from points to areas, hyperspheres are much more expressive than embeddings. Moreover, it is more convenient to perform metric-based classification with hypersphere prototypes than statistical modeling, as we only need to calculate the distance from a data point to the surface of the hypersphere. Following this idea, we also develop two variants of prototypes under other measurements. Extensive experiments and analysis on few-shot learning tasks across NLP and CV and comparison with 20+ competitive baselines demonstrate the effectiveness of our approach.
translated by 谷歌翻译
很少有图像分类是一个具有挑战性的问题,旨在仅基于少量培训图像来达到人类的识别水平。少数图像分类的一种主要解决方案是深度度量学习。这些方法是,通过将看不见的样本根据距离的距离进行分类,可在强大的深神经网络中学到的嵌入空间中看到的样品,可以避免以少数图像分类的少数训练图像过度拟合,并实现了最新的图像表现。在本文中,我们提供了对深度度量学习方法的最新审查,以进行2018年至2022年的少量图像分类,并根据度量学习的三个阶段将它们分为三组,即学习功能嵌入,学习课堂表示和学习距离措施。通过这种分类法,我们确定了他们面临的不同方法和问题的新颖性。我们通过讨论当前的挑战和未来趋势进行了少量图像分类的讨论。
translated by 谷歌翻译
少量分类旨在通过一些培训样本来调整小型课程的分类器。然而,训练数据的不足可能导致某个类中的特征分布偏差估计。为了缓解这个问题,我们通过探索新颖和基类之间的类别相关性,作为先前知识来展示一个简单而有效的功能整流方法。我们通过将特征映射到潜在的向量中明确地捕获这种相关性,其中匹配基类的数量的维度,将其视为在基类上的特征的对数概率。基于该潜伏向量,整流特征由解码器直接构建,我们预计在去除其他随机因素的同时保持与类别相关的信息,因此更接近其类心。此外,通过改变SoftMax中的温度值,我们可以重新平衡特征整流和重建以获得更好的性能。我们的方法是通用的,灵活的,不可知的任何特征提取器和分类器,容易嵌入到现有的FSL方法中。实验验证了我们的方法能够整流偏置功能,尤其是当特征远离班级质心时。拟议的方法一直在三种广泛使用的基准上获得相当大的性能收益,用不同的骨干和分类器评估。该代码将公开。
translated by 谷歌翻译
开放式识别使深度神经网络(DNN)能够识别未知类别的样本,同时在已知类别的样本上保持高分类精度。基于自动编码器(AE)和原型学习的现有方法在处理这项具有挑战性的任务方面具有巨大的潜力。在这项研究中,我们提出了一种新的方法,称为类别特定的语义重建(CSSR),该方法整合了AE和原型学习的力量。具体而言,CSSR用特定于类的AE表示的歧管替代了原型点。与传统的基于原型的方法不同,CSSR在单个AE歧管上的每个已知类模型,并通过AE的重建误差来测量类归属感。特定于类的AE被插入DNN主链的顶部,并重建DNN而不是原始图像所学的语义表示。通过端到端的学习,DNN和AES互相促进,以学习歧视性和代表性信息。在多个数据集上进行的实验结果表明,所提出的方法在封闭式和开放式识别中都达到了出色的性能,并且非常简单且灵活地将其纳入现有框架中。
translated by 谷歌翻译
在运行时检测新颖类的问题称为开放式检测,对于各种现实世界应用,例如医疗应用,自动驾驶等。在深度学习的背景下进行开放式检测涉及解决两个问题:(i):(i)必须将输入图像映射到潜在表示中,该图像包含足够的信息来检测异常值,并且(ii)必须学习一个可以从潜在表示中提取此信息以识别异常情况的异常评分函数。深度异常检测方法的研究缓慢进展。原因之一可能是大多数论文同时引入了新的表示学习技术和新的异常评分方法。这项工作的目的是通过提供分别衡量表示学习和异常评分的有效性的方法来改善这种方法。这项工作做出了两项方法论贡献。首先是引入甲骨文异常检测的概念,以量化学习潜在表示中可用的信息。第二个是引入Oracle表示学习,该学习产生的表示形式可以保证足以准确的异常检测。这两种技术可帮助研究人员将学习表示的质量与异常评分机制的性能分开,以便他们可以调试和改善系统。这些方法还为通过更好的异常评分机制改善了多少开放类别检测提供了上限。两个牙齿的组合给出了任何开放类别检测方法可以实现的性能的上限。这项工作介绍了这两种Oracle技术,并通过将它们应用于几种领先的开放类别检测方法来演示其实用性。
translated by 谷歌翻译
在新课程训练时,几乎没有射击学习(FSL)方法通常假设具有准确标记的样品的清洁支持集。这个假设通常可能是不现实的:支持集,无论多么小,仍然可能包括标签错误的样本。因此,对标签噪声的鲁棒性对于FSL方法是实用的,但是这个问题令人惊讶地在很大程度上没有探索。为了解决FSL设置中标签错误的样品,我们做出了一些技术贡献。 (1)我们提供了简单而有效的特征聚合方法,改善了流行的FSL技术Protonet使用的原型。 (2)我们描述了一种嘈杂的噪声学习的新型变压器模型(TRANFS)。 TRANFS利用变压器的注意机制称重标记为错误的样品。 (3)最后,我们对迷你胶原和tieredimagenet的嘈杂版本进行了广泛的测试。我们的结果表明,TRANFS与清洁支持集的领先FSL方法相对应,但到目前为止,在存在标签噪声的情况下,它们的表现优于它们。
translated by 谷歌翻译
We propose prototypical networks for the problem of few-shot classification, where a classifier must generalize to new classes not seen in the training set, given only a small number of examples of each new class. Prototypical networks learn a metric space in which classification can be performed by computing distances to prototype representations of each class. Compared to recent approaches for few-shot learning, they reflect a simpler inductive bias that is beneficial in this limited-data regime, and achieve excellent results. We provide an analysis showing that some simple design decisions can yield substantial improvements over recent approaches involving complicated architectural choices and meta-learning. We further extend prototypical networks to zero-shot learning and achieve state-of-theart results on the CU-Birds dataset.
translated by 谷歌翻译
我们解决了几个射击开放式识别(FSOSR)问题,即在我们只有很少的标签样本的一组类中分类的实例,同时检测不属于任何已知类别的实例。偏离现有文献,我们专注于开发模型不足的推理方法,这些方法可以插入任何现有模型,无论其架构或培训程序如何。通过评估嵌入的各种模型的质量,我们量化了模型 - 敏捷FSOSR的内在难度。此外,公平的经验评估表明,在FSOSR的电感环境中,KNN检测器和原型分类器的天真组合在专业或复杂方法之前。这些观察结果促使我们诉诸于转导,这是对标准的几次学习问题的流行而实用的放松。我们介绍了一个开放的设置转导信息最大化方法OSTIM,该方法幻觉了异常原型,同时最大程度地提高了提取的特征和作业之间的相互信息。通过跨越5个数据集的广泛实验,我们表明OSTIM在检测开放式实例的同时,在与最强的托管方法竞争时,在检测开放式实例时都超过了电感和现有的转导方法。我们进一步表明,OSTIM的模型不可知论使其能够成功利用最新体系结构和培训策略的强大表现能力而没有任何超参数修改,这是一个有希望的信号,即将来临的建筑进步将继续积极影响Ostim的表现。
translated by 谷歌翻译
我们研究了很少的开放式识别(FSOR)的问题,该问题学习了一个能够快速适应新类的识别系统,具有有限的标签示例和对未知负样本的拒绝。由于数据限制,传统的大规模开放式方法对FSOR问题有效无效。当前的FSOR方法通常校准了几个弹出封闭式分类器对负样品敏感的,因此可以通过阈值拒绝它们。但是,阈值调整是一个具有挑战性的过程,因为不同的FSOR任务可能需要不同的拒绝功能。在本文中,我们提出了任务自适应的负面类别设想,以使FSOR集成阈值调整到学习过程中。具体而言,我们增加了几个封闭式分类器,并使用少量示例产生的其他负面原型。通过在负生成过程中纳入很少的类相关性,我们可以学习FSOR任务的动态拒绝边界。此外,我们将我们的方法扩展到概括的少数开放式识别(GFSOR),该识别需要在许多射击和少数类别上进行分类以及拒绝​​负样本。公共基准的广泛实验验证了我们在这两个问题上的方法。
translated by 谷歌翻译
分布(OOD)检测对于确保机器学习系统的可靠性和安全性至关重要。例如,在自动驾驶中,我们希望驾驶系统在发现在训练时间中从未见过的异常​​场景或对象时,发出警报并将控件移交给人类,并且无法做出安全的决定。该术语《 OOD检测》于2017年首次出现,此后引起了研究界的越来越多的关注,从而导致了大量开发的方法,从基于分类到基于密度到基于距离的方法。同时,其他几个问题,包括异常检测(AD),新颖性检测(ND),开放式识别(OSR)和离群检测(OD)(OD),在动机和方法方面与OOD检测密切相关。尽管有共同的目标,但这些主题是孤立发展的,它们在定义和问题设定方面的细微差异通常会使读者和从业者感到困惑。在这项调查中,我们首先提出一个称为广义OOD检测的统一框架,该框架涵盖了上述五个问题,即AD,ND,OSR,OOD检测和OD。在我们的框架下,这五个问题可以看作是特殊情况或子任务,并且更容易区分。然后,我们通过总结了他们最近的技术发展来审查这五个领域中的每一个,特别关注OOD检测方法。我们以公开挑战和潜在的研究方向结束了这项调查。
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
Learning with limited data is a key challenge for visual recognition. Many few-shot learning methods address this challenge by learning an instance embedding function from seen classes and apply the function to instances from unseen classes with limited labels. This style of transfer learning is task-agnostic: the embedding function is not learned optimally discriminative with respect to the unseen classes, where discerning among them leads to the target task. In this paper, we propose a novel approach to adapt the instance embeddings to the target classification task with a set-to-set function, yielding embeddings that are task-specific and are discriminative. We empirically investigated various instantiations of such set-to-set functions and observed the Transformer is most effective -as it naturally satisfies key properties of our desired model. We denote this model as FEAT (few-shot embedding adaptation w/ Transformer) and validate it on both the standard few-shot classification benchmark and four extended few-shot learning settings with essential use cases, i.e., cross-domain, transductive, generalized few-shot learning, and low-shot learning. It archived consistent improvements over baseline models as well as previous methods, and established the new stateof-the-art results on two benchmarks.
translated by 谷歌翻译
在过去的几年里,几年枪支学习(FSL)引起了极大的关注,以最大限度地减少标有标记的训练示例的依赖。FSL中固有的困难是处理每个课程的培训样本太少的含糊不清的歧义。为了在FSL中解决这一基本挑战,我们的目标是培训可以利用关于新颖类别的先前语义知识来引导分类器合成过程的元学习模型。特别是,我们提出了语义调节的特征注意力和样本注意机制,估计表示尺寸和培训实例的重要性。我们还研究了FSL的样本噪声问题,以便在更现实和不完美的环境中利用Meta-Meverys。我们的实验结果展示了所提出的语义FSL模型的有效性,而没有样品噪声。
translated by 谷歌翻译
图形神经网络(GNNS)已被用于解决几次拍摄学习(FSL)问题,并在转换设置下显示出很大的潜力。但是在归纳设置下,现有的基于GNN的方法竞争较差。这是因为它们使用实例GNN作为标签传播/分类模块,其与特征嵌入网络共同学习。这种设计是有问题的,因为分类器需要在嵌入而不快速地适应新任务。为了克服这个问题,本文提出了一种新的混合GNN(HGNN)模型,包括两个GNN,实例GNN和原型GNN。它们代替标签传播,它们用作嵌入适应模块的功能,以便快速适应嵌入到新任务的元学员的功能。重要的是,他们旨在处理FSL中的基本但经常被忽视的挑战,即只有每班少量镜头,任何几次拍摄的分类器都会对差异或可能导致阶层的严重采样镜头敏感分配重叠。 %我们的两个GNNS旨在分别解决这两种类型的差别少量射击,并且在混合GNN模型中利用它们的互补性。广泛的实验表明,我们的HGNN在三个FSL基准上获得了新的最先进。
translated by 谷歌翻译
Few-shot learning has become essential for producing models that generalize from few examples. In this work, we identify that metric scaling and metric task conditioning are important to improve the performance of few-shot algorithms. Our analysis reveals that simple metric scaling completely changes the nature of few-shot algorithm parameter updates. Metric scaling provides improvements up to 14% in accuracy for certain metrics on the mini-Imagenet 5-way 5-shot classification task. We further propose a simple and effective way of conditioning a learner on the task sample set, resulting in learning a task-dependent metric space. Moreover, we propose and empirically test a practical end-to-end optimization procedure based on auxiliary task co-training to learn a task-dependent metric space. The resulting few-shot learning model based on the task-dependent scaled metric achieves state of the art on mini-Imagenet. We confirm these results on another few-shot dataset that we introduce in this paper based on CIFAR100. Our code is publicly available at https://github.com/ElementAI/TADAM.
translated by 谷歌翻译
在过去的几年中,关于分类,检测和分割问题的3D学习领域取得了重大进展。现有的绝大多数研究都集中在规范的封闭式条件上,忽略了现实世界的内在开放性。这限制了需要管理新颖和未知信号的自主系统的能力。在这种情况下,利用3D数据可以是有价值的资产,因为它传达了有关感应物体和场景几何形状的丰富信息。本文提供了关于开放式3D学习的首次广泛研究。我们介绍了一种新颖的测试床,其设置在类别语义转移方面的难度增加,并且涵盖了内域(合成之间)和跨域(合成对真实)场景。此外,我们研究了相关的分布情况,并开放了2D文献,以了解其最新方法是否以及如何在3D数据上有效。我们广泛的基准测试在同一连贯的图片中定位了几种算法,从而揭示了它们的优势和局限性。我们的分析结果可能是未来量身定制的开放式3D模型的可靠立足点。
translated by 谷歌翻译