教学机器根据少数训练样本认识到一个新的类别,特别是由于缺乏数据缺乏的新型类别的难题了解,只有一个仍然挑战。然而,人类可以快速学习新课程,甚至在人类可以讲述基于视觉和语义先前知识的关于每个类别的歧视特征时,甚至给出了一些样本。为了更好地利用这些先验知识,我们提出了语义引导的注意力(SEGA)机制,其中语义知识用于以自上而下的方式引导视觉感知,在区分类别时应注意哪些视觉特征。结果,即使少量样品也可以更具判别嵌入新类。具体地,借助从基类传输可视化的先验知识,接受了一个特征提取器,以培训以将每个小组类的数量的每个小组的图像嵌入到视觉原型中。然后,我们学习一个网络将语义知识映射到特定于类别的注意力矢量,该向量将用于执行功能选择以增强视觉原型。在Miniimagenet,Tieredimagenet,CiFar-FS和Cub上进行了广泛的实验表明,我们的语义引导的注意力实现了预期的功能和优于最先进的结果。
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
很少有图像分类是一个具有挑战性的问题,旨在仅基于少量培训图像来达到人类的识别水平。少数图像分类的一种主要解决方案是深度度量学习。这些方法是,通过将看不见的样本根据距离的距离进行分类,可在强大的深神经网络中学到的嵌入空间中看到的样品,可以避免以少数图像分类的少数训练图像过度拟合,并实现了最新的图像表现。在本文中,我们提供了对深度度量学习方法的最新审查,以进行2018年至2022年的少量图像分类,并根据度量学习的三个阶段将它们分为三组,即学习功能嵌入,学习课堂表示和学习距离措施。通过这种分类法,我们确定了他们面临的不同方法和问题的新颖性。我们通过讨论当前的挑战和未来趋势进行了少量图像分类的讨论。
translated by 谷歌翻译
从一个非常少数标记的样品中学习新颖的课程引起了机器学习区域的越来越高。最近关于基于元学习或转移学习的基于范例的研究表明,良好特征空间的获取信息可以是在几次拍摄任务上实现有利性能的有效解决方案。在本文中,我们提出了一种简单但有效的范式,该范式解耦了学习特征表示和分类器的任务,并且只能通过典型的传送学习培训策略从基类嵌入体系结构的特征。为了在每个类别内保持跨基地和新类别和辨别能力的泛化能力,我们提出了一种双路径特征学习方案,其有效地结合了与对比特征结构的结构相似性。以这种方式,内部级别对齐和级别的均匀性可以很好地平衡,并且导致性能提高。三个流行基准测试的实验表明,当与简单的基于原型的分类器结合起来时,我们的方法仍然可以在电感或转换推理设置中的标准和广义的几次射击问题达到有希望的结果。
translated by 谷歌翻译
最近,很少拍摄的视频分类已经获得了越来越令人利益。目前的方法主要集中在有效利用视频中的时间维度,以在低数据制度下改善学习。然而,大多数作品在很大程度上忽略了视频通常伴随着丰富的文本描述,也可以是处理少量拍摄识别情况的重要信息来源。在本文中,我们建议利用这些人提供的文本描述作为培训几次视频分类模型时的特权信息。具体来说,我们制定了一种基于文本的任务调节器,以使视频功能适应几次拍摄的学习任务。此外,我们的模型遵循转换设置,通过使用支持文本描述和查询实例来更新一组类原型来提高模型的任务适应能力。我们的模型在四个具有挑战性的基准测试中实现了最先进的性能,通常用于评估少量拍摄视频动作分类模型。
translated by 谷歌翻译
The human visual system has the remarkably ability to be able to effortlessly learn novel concepts from only a few examples. Mimicking the same behavior on machine learning vision systems is an interesting and very challenging research problem with many practical advantages on real world vision applications. In this context, the goal of our work is to devise a few-shot visual learning system that during test time it will be able to efficiently learn novel categories from only a few training data while at the same time it will not forget the initial categories on which it was trained (here called base categories). To achieve that goal we propose (a) to extend an object recognition system with an attention based few-shot classification weight generator, and (b) to redesign the classifier of a ConvNet model as the cosine similarity function between feature representations and classification weight vectors. The latter, apart from unifying the recognition of both novel and base categories, it also leads to feature representations that generalize better on "unseen" categories. We extensively evaluate our approach on Mini-ImageNet where we manage to improve the prior state-of-the-art on few-shot recognition (i.e., we achieve 56.20% and 73.00% on the 1-shot and 5-shot settings respectively) while at the same time we do not sacrifice any accuracy on the base categories, which is a characteristic that most prior approaches lack. Finally, we apply our approach on the recently introduced few-shot benchmark of Bharath and Girshick [4] where we also achieve stateof-the-art results. The code and models of our paper will be published on: https://github.com/gidariss/ FewShotWithoutForgetting.
translated by 谷歌翻译
我们研究了很少的开放式识别(FSOR)的问题,该问题学习了一个能够快速适应新类的识别系统,具有有限的标签示例和对未知负样本的拒绝。由于数据限制,传统的大规模开放式方法对FSOR问题有效无效。当前的FSOR方法通常校准了几个弹出封闭式分类器对负样品敏感的,因此可以通过阈值拒绝它们。但是,阈值调整是一个具有挑战性的过程,因为不同的FSOR任务可能需要不同的拒绝功能。在本文中,我们提出了任务自适应的负面类别设想,以使FSOR集成阈值调整到学习过程中。具体而言,我们增加了几个封闭式分类器,并使用少量示例产生的其他负面原型。通过在负生成过程中纳入很少的类相关性,我们可以学习FSOR任务的动态拒绝边界。此外,我们将我们的方法扩展到概括的少数开放式识别(GFSOR),该识别需要在许多射击和少数类别上进行分类以及拒绝​​负样本。公共基准的广泛实验验证了我们在这两个问题上的方法。
translated by 谷歌翻译
少量分类旨在通过一些培训样本来调整小型课程的分类器。然而,训练数据的不足可能导致某个类中的特征分布偏差估计。为了缓解这个问题,我们通过探索新颖和基类之间的类别相关性,作为先前知识来展示一个简单而有效的功能整流方法。我们通过将特征映射到潜在的向量中明确地捕获这种相关性,其中匹配基类的数量的维度,将其视为在基类上的特征的对数概率。基于该潜伏向量,整流特征由解码器直接构建,我们预计在去除其他随机因素的同时保持与类别相关的信息,因此更接近其类心。此外,通过改变SoftMax中的温度值,我们可以重新平衡特征整流和重建以获得更好的性能。我们的方法是通用的,灵活的,不可知的任何特征提取器和分类器,容易嵌入到现有的FSL方法中。实验验证了我们的方法能够整流偏置功能,尤其是当特征远离班级质心时。拟议的方法一直在三种广泛使用的基准上获得相当大的性能收益,用不同的骨干和分类器评估。该代码将公开。
translated by 谷歌翻译
很少有学习的学习(FSL)旨在学习一个可以轻松适应新颖课程的分类器,只有几个标签的示例,限制数据使这项任务挑战深度学习。基于量子指标的方法已实现了有希望的表现基于图像级的功能。但是,这些全球特征忽略了丰富的本地和结构信息,这些信息在可见的和看不见的类之间都是可以转移和一致的。认知科学的某些研究认为,人类可以识别出具有学识渊博的新颖类。我们希望挖掘出来可以从基础类别转移和判别性表示,并采用它们以识别新的课程。建立情节训练机制,我们提出了一个原始的采矿和推理网络(PMRN),以端到端的方式学习原始感知的表示,以进行度量。基于基于FSL模型。我们首先添加自学辅助任务,迫使功能提取器学习与原始词相对应的电视模式。为了进一步挖掘并产生可转移的原始感知表示形式,我们设计了一个自适应通道组(ACG)模块,以通过增强信息通道图的同时抑制无用的通道图,从而从对象嵌入中合成一组视觉原语。基于学到的原始功能,提出了一个语义相关推理(SCR)模块来捕获它们之间的内部关系。在本文中,我们了解原始词的特定于任务的重要性,并基于特定于任务的注意力功能进行原始级别的度量。广泛的实验表明,我们的方法在六个标准基准下实现了最先进的结果。
translated by 谷歌翻译
基于度量学习的最近方法取得了很大镜头学习的巨大进步。然而,大多数人都仅限于图像级表示方式,这不能正确地处理课外变化和空间知识,从而产生不希望的性能。在本文中,我们提出了一个深度偏置纠正网络(DBRN)来充分利用特征表示结构中存在的空间信息。我们首先采用偏置整流模块来缓解由类内变化引起的不利影响。偏置纠正模块能够专注于通过给定不同权重的对分类更具判别的特征。为了充分利用培训数据,我们设计了一种模拟增强机制,可以使从支架组产生的原型更具代表性。为了验证我们方法的有效性,我们对各种流行的几次分类基准进行了广泛的实验,我们的方法可以优于最先进的方法。
translated by 谷歌翻译
从有限的数据学习是一个具有挑战性的任务,因为数据的稀缺导致训练型模型的较差。经典的全局汇总表示可能会失去有用的本地信息。最近,许多射击学习方法通​​过使用深度描述符和学习像素级度量来解决这一挑战。但是,使用深描述符作为特征表示可能丢失图像的上下文信息。这些方法中的大多数方法独立地处理支持集中的每个类,这不能充分利用鉴别性信息和特定于特定的嵌入。在本文中,我们提出了一种名为稀疏空间变压器(SSFormers)的新型变压器的神经网络架构,可以找到任务相关的功能并抑制任务无关的功能。具体地,我们首先将每个输入图像划分为不同大小的几个图像斑块,以获得密集的局部特征。这些功能在表达本地信息时保留上下文信息。然后,提出了一种稀疏的空间变压器层以在查询图像和整个支持集之间找到空间对应关系,以选择任务相关的图像斑块并抑制任务 - 无关的图像斑块。最后,我们建议使用图像补丁匹配模块来计算密集的本地表示之间的距离,从而确定查询图像属于支持集中的哪个类别。广泛的少量学习基准测试表明,我们的方法实现了最先进的性能。
translated by 谷歌翻译
The task of Few-shot learning (FSL) aims to transfer the knowledge learned from base categories with sufficient labelled data to novel categories with scarce known information. It is currently an important research question and has great practical values in the real-world applications. Despite extensive previous efforts are made on few-shot learning tasks, we emphasize that most existing methods did not take into account the distributional shift caused by sample selection bias in the FSL scenario. Such a selection bias can induce spurious correlation between the semantic causal features, that are causally and semantically related to the class label, and the other non-causal features. Critically, the former ones should be invariant across changes in distributions, highly related to the classes of interest, and thus well generalizable to novel classes, while the latter ones are not stable to changes in the distribution. To resolve this problem, we propose a novel data augmentation strategy dubbed as PatchMix that can break this spurious dependency by replacing the patch-level information and supervision of the query images with random gallery images from different classes from the query ones. We theoretically show that such an augmentation mechanism, different from existing ones, is able to identify the causal features. To further make these features to be discriminative enough for classification, we propose Correlation-guided Reconstruction (CGR) and Hardness-Aware module for instance discrimination and easier discrimination between similar classes. Moreover, such a framework can be adapted to the unsupervised FSL scenario.
translated by 谷歌翻译
很少有开放式识别旨在对可见类别的培训数据进行有限的培训数据进行分类和新颖的图像。这项任务的挑战是,该模型不仅需要学习判别性分类器,以用很少的培训数据对预定的类进行分类,而且还要拒绝从未见过的培训时间出现的未见类别的输入。在本文中,我们建议从两个新方面解决问题。首先,我们没有像在标准的封闭设置分类中那样学习看到类之间的决策边界,而是为看不见的类保留空间,因此位于这些区域中的图像被认为是看不见的类。其次,为了有效地学习此类决策边界,我们建议利用所见类的背景功能。由于这些背景区域没有显着促进近距离分类的决定,因此自然地将它们用作分类器学习的伪阶层。我们的广泛实验表明,我们提出的方法不仅要优于多个基线,而且还为三个流行的基准测试(即Tieredimagenet,Miniimagenet和Caltech-uscd Birds-birds-2011-2011(Cub))设定了新的最先进结果。
translated by 谷歌翻译
Nearest-Neighbor (NN) classification has been proven as a simple and effective approach for few-shot learning. The query data can be classified efficiently by finding the nearest support class based on features extracted by pretrained deep models. However, NN-based methods are sensitive to the data distribution and may produce false prediction if the samples in the support set happen to lie around the distribution boundary of different classes. To solve this issue, we present P3DC-Shot, an improved nearest-neighbor based few-shot classification method empowered by prior-driven data calibration. Inspired by the distribution calibration technique which utilizes the distribution or statistics of the base classes to calibrate the data for few-shot tasks, we propose a novel discrete data calibration operation which is more suitable for NN-based few-shot classification. Specifically, we treat the prototypes representing each base class as priors and calibrate each support data based on its similarity to different base prototypes. Then, we perform NN classification using these discretely calibrated support data. Results from extensive experiments on various datasets show our efficient non-learning based method can outperform or at least comparable to SOTA methods which need additional learning steps.
translated by 谷歌翻译
在元学习框架下设计了许多射门学习方法,这些方法从各种学习任务中学习并推广到新任务。这些元学习方法在从同一分布(I.I.D.观察)中绘制的所有样本中的情况下实现了预期的性能。然而,在现实世界应用中,很少拍摄的学习范式往往遭受数据转移,即,即使在相同的任务中,也可以从各种数据分布中汲取不同任务中的示例。大多数现有的几次拍摄方法不考虑数据班次,因此在数据分布换档时显示降级性能。然而,由于每个任务中的标记样本数量有限的标记样本,因此在几次拍摄学习中解决数据转换问题是不普遍的。针对解决此问题,我们提出了一种新的基于度量的元学习框架,以便在知识图表的帮助下提取任务特定的表示和任务共享表示。因此,任务内的数据偏移可以通过任务共享和特定于任务的表示的组合来组合。拟议的模型是对流行的基准测试和两个构造的新具有挑战性的数据集。评估结果表明了其显着性能。
translated by 谷歌翻译
广义零射击学习(GZSL)旨在培训一个模型,以在某些输出类别在监督学习过程中未知的情况下对数据样本进行分类。为了解决这一具有挑战性的任务,GZSL利用可见的(源)和看不见的(目标)类的语义信息来弥合所见类和看不见的类之间的差距。自引入以来,已经制定了许多GZSL模型。在这篇评论论文中,我们介绍了有关GZSL的全面评论。首先,我们提供了GZSL的概述,包括问题和挑战。然后,我们为GZSL方法介绍了分层分类,并讨论了每个类别中的代表性方法。此外,我们讨论了GZSL的可用基准数据集和应用程序,以及有关研究差距和未来研究方向的讨论。
translated by 谷歌翻译
少数拍摄识别旨在在低数据制度下识别新型类别。由于图像的稀缺性,机器不能获得足够的有效信息,并且模型的泛化能力极弱。通过使用辅助语义模式​​,基于最近的公制学习的少量学习方法已经取得了有希望的表现。但是,这些方法仅增强了支持类的表示,而查询图像没有语义模态信息以增强表示。相反,我们提出了属性形状的学习(ASL),其可以将可视化表示标准化以预测查询图像的属性。我们进一步设计了一个属性 - 视觉注意力模块(Avam),它利用属性来生成更多辨别特征。我们的方法使视觉表示能够专注于具有属性指导的重要区域。实验表明,我们的方法可以在幼崽和太阳基准上实现竞争结果。我们的代码可用于{https://github.com/chenhaoxing/asl}。
translated by 谷歌翻译
Zero-Shot Learning has been a highlighted research topic in both vision and language areas. Recently, most existing methods adopt structured knowledge information to model explicit correlations among categories and use deep graph convolutional network to propagate information between different categories. However, it is difficult to add new categories to existing structured knowledge graph, and deep graph convolutional network suffers from over-smoothing problem. In this paper, we provide a new semantic enhanced knowledge graph that contains both expert knowledge and categories semantic correlation. Our semantic enhanced knowledge graph can further enhance the correlations among categories and make it easy to absorb new categories. To propagate information on the knowledge graph, we propose a novel Residual Graph Convolutional Network (ResGCN), which can effectively alleviate the problem of over-smoothing. Experiments conducted on the widely used large-scale ImageNet-21K dataset and AWA2 dataset show the effectiveness of our method, and establish a new state-of-the-art on zero-shot learning. Moreover, our results on the large-scale ImageNet-21K with various feature extraction networks show that our method has better generalization and robustness.
translated by 谷歌翻译
Despite significant progress in object categorization, in recent years, a number of important challenges remain; mainly, the ability to learn from limited labeled data and to recognize object classes within large, potentially open, set of labels. Zero-shot learning is one way of addressing these challenges, but it has only been shown to work with limited sized class vocabularies and typically requires separation between supervised and unsupervised classes, allowing former to inform the latter but not vice versa. We propose the notion of vocabulary-informed learning to alleviate the above mentioned challenges and address problems of supervised, zero-shot, generalized zero-shot and open set recognition using a unified framework. Specifically, we propose a weighted maximum margin framework for semantic manifold-based recognition that incorporates distance constraints from (both supervised and unsupervised) vocabulary atoms. Distance constraints ensure that labeled samples are projected closer to their correct prototypes, in the embedding space, than to others. We illustrate that resulting model shows improvements in supervised, zero-shot, generalized zero-shot, and large open set recognition, with up to 310K class vocabulary on Animal with Attributes and ImageNet datasets.
translated by 谷歌翻译
零拍学习(ZSL)旨在通过利用所见类和看不见的类之间共享的语义描述来识别看不见的类。当前的方法表明,通过将语义嵌入将视觉空间投射到视觉空间中是类原型,从而有效地学习视觉语义对齐是有效的。但是,这样的投影函数仅与可见的类有关。当应用于看不见的类时,原型通常由于域移位而次优。在本文中,我们建议通过称为LPL的占位符学习原型,以消除看到和看不见的阶级之间的域转移。具体来说,我们将看到的课程结合在一起,以使新课程成为视觉和语义空间中看不见的班级的占位符。占位持有人放置在看到的班级之间,鼓励人们高度分散所见类的原型。插入良好的看不见的空间也可以保留更多的空间。从经验上讲,分离良好的原型有助于抵消由域转移引起的视觉声音错位。此外,我们利用一种新颖的面向语义的微调来保证占位符的语义可靠性。在五个基准数据集上进行的广泛实验证明了LPL在最新方法上的显着性能提高。代码可在https://github.com/zaiquanyang/lpl上找到。
translated by 谷歌翻译