很少有图像分类是一个具有挑战性的问题,旨在仅基于少量培训图像来达到人类的识别水平。少数图像分类的一种主要解决方案是深度度量学习。这些方法是,通过将看不见的样本根据距离的距离进行分类,可在强大的深神经网络中学到的嵌入空间中看到的样品,可以避免以少数图像分类的少数训练图像过度拟合,并实现了最新的图像表现。在本文中,我们提供了对深度度量学习方法的最新审查,以进行2018年至2022年的少量图像分类,并根据度量学习的三个阶段将它们分为三组,即学习功能嵌入,学习课堂表示和学习距离措施。通过这种分类法,我们确定了他们面临的不同方法和问题的新颖性。我们通过讨论当前的挑战和未来趋势进行了少量图像分类的讨论。
translated by 谷歌翻译
广义零射击学习(GZSL)旨在培训一个模型,以在某些输出类别在监督学习过程中未知的情况下对数据样本进行分类。为了解决这一具有挑战性的任务,GZSL利用可见的(源)和看不见的(目标)类的语义信息来弥合所见类和看不见的类之间的差距。自引入以来,已经制定了许多GZSL模型。在这篇评论论文中,我们介绍了有关GZSL的全面评论。首先,我们提供了GZSL的概述,包括问题和挑战。然后,我们为GZSL方法介绍了分层分类,并讨论了每个类别中的代表性方法。此外,我们讨论了GZSL的可用基准数据集和应用程序,以及有关研究差距和未来研究方向的讨论。
translated by 谷歌翻译
细粒度的图像分析(FGIA)是计算机视觉和模式识别中的长期和基本问题,并为一组多种现实世界应用提供了基础。 FGIA的任务是从属类别分析视觉物体,例如汽车或汽车型号的种类。细粒度分析中固有的小阶级和阶级阶级内变异使其成为一个具有挑战性的问题。利用深度学习的进步,近年来,我们在深入学习动力的FGIA中见证了显着进展。在本文中,我们对这些进展的系统进行了系统的调查,我们试图通过巩固两个基本的细粒度研究领域 - 细粒度的图像识别和细粒度的图像检索来重新定义和扩大FGIA领域。此外,我们还审查了FGIA的其他关键问题,例如公开可用的基准数据集和相关域的特定于应用程序。我们通过突出几个研究方向和开放问题,从社区中突出了几个研究方向和开放问题。
translated by 谷歌翻译
少量学习是一个基本和挑战性的问题,因为它需要识别只有几个例子的新型类别。识别对象具有多个变体,可以定位图像中的任何位置。直接将查询图像与示例图像进行比较无法处理内容未对准。比较的表示和度量是至关重要的,但由于在几次拍摄学习中的样本的稀缺和广泛变化而挑战。在本文中,我们提出了一种新颖的语义对齐模型来比较关系,这是对内容未对准的强大。我们建议为现有的几次射门学习框架添加两个关键成分,以获得更好的特征和度量学习能力。首先,我们介绍了语义对齐损失,以对准属于同一类别的样本的功能的关系统计。其次,引入了本地和全局互动信息,允许在图像中的结构位置包含本地一致和类别共享信息的表示。第三,我们通过考虑每个流的同性恋的不确定性来介绍一个原则的方法来称量多重损失功能。我们对几个几次拍摄的学习数据集进行了广泛的实验。实验结果表明,该方法能够比较与语义对准策略的关系,实现最先进的性能。
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
对象检测是计算机视觉和图像处理中的基本任务。基于深度学习的对象探测器非常成功,具有丰富的标记数据。但在现实生活中,它不保证每个对象类别都有足够的标记样本进行培训。当训练数据有限时,这些大型物体探测器易于过度装备。因此,有必要将几次拍摄的学习和零射击学习引入对象检测,这可以将低镜头对象检测命名在一起。低曝光对象检测(LSOD)旨在检测来自少数甚至零标记数据的对象,其分别可以分为几次对象检测(FSOD)和零拍摄对象检测(ZSD)。本文对基于深度学习的FSOD和ZSD进行了全面的调查。首先,本调查将FSOD和ZSD的方法分类为不同的类别,并讨论了它们的利弊。其次,本调查审查了数据集设置和FSOD和ZSD的评估指标,然后分析了在这些基准上的不同方法的性能。最后,本调查讨论了FSOD和ZSD的未来挑战和有希望的方向。
translated by 谷歌翻译
即使在几个例子中,人类能够学会识别新物品。相比之下,培训基于深度学习的对象探测器需要大量的注释数据。为避免需求获取和注释这些大量数据,但很少拍摄的对象检测旨在从目标域中的新类别的少数对象实例中学习。在本调查中,我们在几次拍摄对象检测中概述了本领域的状态。我们根据培训方案和建筑布局分类方法。对于每种类型的方法,我们描述了一般的实现以及提高新型类别性能的概念。在适当的情况下,我们在这些概念上给出短暂的外卖,以突出最好的想法。最终,我们介绍了常用的数据集及其评估协议,并分析了报告的基准结果。因此,我们强调了评估中的共同挑战,并确定了这种新兴对象检测领域中最有前景的电流趋势。
translated by 谷歌翻译
Metric-based meta-learning is one of the de facto standards in few-shot learning. It composes of representation learning and metrics calculation designs. Previous works construct class representations in different ways, varying from mean output embedding to covariance and distributions. However, using embeddings in space lacks expressivity and cannot capture class information robustly, while statistical complex modeling poses difficulty to metric designs. In this work, we use tensor fields (``areas'') to model classes from the geometrical perspective for few-shot learning. We present a simple and effective method, dubbed hypersphere prototypes (HyperProto), where class information is represented by hyperspheres with dynamic sizes with two sets of learnable parameters: the hypersphere's center and the radius. Extending from points to areas, hyperspheres are much more expressive than embeddings. Moreover, it is more convenient to perform metric-based classification with hypersphere prototypes than statistical modeling, as we only need to calculate the distance from a data point to the surface of the hypersphere. Following this idea, we also develop two variants of prototypes under other measurements. Extensive experiments and analysis on few-shot learning tasks across NLP and CV and comparison with 20+ competitive baselines demonstrate the effectiveness of our approach.
translated by 谷歌翻译
图形神经网络(GNNS)已被用于解决几次拍摄学习(FSL)问题,并在转换设置下显示出很大的潜力。但是在归纳设置下,现有的基于GNN的方法竞争较差。这是因为它们使用实例GNN作为标签传播/分类模块,其与特征嵌入网络共同学习。这种设计是有问题的,因为分类器需要在嵌入而不快速地适应新任务。为了克服这个问题,本文提出了一种新的混合GNN(HGNN)模型,包括两个GNN,实例GNN和原型GNN。它们代替标签传播,它们用作嵌入适应模块的功能,以便快速适应嵌入到新任务的元学员的功能。重要的是,他们旨在处理FSL中的基本但经常被忽视的挑战,即只有每班少量镜头,任何几次拍摄的分类器都会对差异或可能导致阶层的严重采样镜头敏感分配重叠。 %我们的两个GNNS旨在分别解决这两种类型的差别少量射击,并且在混合GNN模型中利用它们的互补性。广泛的实验表明,我们的HGNN在三个FSL基准上获得了新的最先进。
translated by 谷歌翻译
传统的细颗粒图像分类通常依赖于带注释的地面真相的大规模训练样本。但是,某些子类别在实际应用中可能几乎没有可用的样本。在本文中,我们建议使用多频邻域(MFN)和双交叉调制(DCM)提出一个新颖的几弹性细颗粒图像分类网络(FICNET)。采用模块MFN来捕获空间域和频域中的信息。然后,提取自相似性和多频成分以产生多频结构表示。 DCM使用分别考虑全球环境信息和类别之间的微妙关系来调节嵌入过程。针对两个少量任务的三个细粒基准数据集进行的综合实验验证了FICNET与最先进的方法相比具有出色的性能。特别是,在两个数据集“ Caltech-UCSD鸟”和“ Stanford Cars”上进行的实验分别可以获得分类精度93.17 \%和95.36 \%。它们甚至高于一般的细粒图像分类方法可以实现的。
translated by 谷歌翻译
很少有学习的学习(FSL)旨在学习一个可以轻松适应新颖课程的分类器,只有几个标签的示例,限制数据使这项任务挑战深度学习。基于量子指标的方法已实现了有希望的表现基于图像级的功能。但是,这些全球特征忽略了丰富的本地和结构信息,这些信息在可见的和看不见的类之间都是可以转移和一致的。认知科学的某些研究认为,人类可以识别出具有学识渊博的新颖类。我们希望挖掘出来可以从基础类别转移和判别性表示,并采用它们以识别新的课程。建立情节训练机制,我们提出了一个原始的采矿和推理网络(PMRN),以端到端的方式学习原始感知的表示,以进行度量。基于基于FSL模型。我们首先添加自学辅助任务,迫使功能提取器学习与原始词相对应的电视模式。为了进一步挖掘并产生可转移的原始感知表示形式,我们设计了一个自适应通道组(ACG)模块,以通过增强信息通道图的同时抑制无用的通道图,从而从对象嵌入中合成一组视觉原语。基于学到的原始功能,提出了一个语义相关推理(SCR)模块来捕获它们之间的内部关系。在本文中,我们了解原始词的特定于任务的重要性,并基于特定于任务的注意力功能进行原始级别的度量。广泛的实验表明,我们的方法在六个标准基准下实现了最先进的结果。
translated by 谷歌翻译
机器学习方法尤其是深度神经网络取得了巨大的成功,但其中许多往往依赖于一些标记的样品进行训练。在真实世界的应用中,我们经常需要通过例如具有新兴预测目标和昂贵的样本注释的动态上下文来解决样本短缺。因此,低资源学习,旨在学习具有足够资源(特别是培训样本)的强大预测模型,现在正在被广泛调查。在所有低资源学习研究中,许多人更喜欢以知识图(kg)的形式利用一些辅助信息,这对于知识表示变得越来越受欢迎,以减少对标记样本的依赖。在这项调查中,我们非常全面地审查了90美元的报纸关于两个主要的低资源学习设置 - 零射击学习(ZSL)的预测,从未出现过训练,而且很少拍摄的学习(FSL)预测的新类仅具有可用的少量标记样本。我们首先介绍了ZSL和FSL研究中使用的KGS以及现有的和潜在的KG施工解决方案,然后系统地分类和总结了KG感知ZSL和FSL方法,将它们划分为不同的范例,例如基于映射的映射,数据增强,基于传播和基于优化的。我们接下来呈现了不同的应用程序,包括计算机视觉和自然语言处理中的kg增强预测任务,还包括kg完成的任务,以及每个任务的一些典型评估资源。我们最终讨论了一些关于新学习和推理范式的方面的一些挑战和未来方向,以及高质量的KGs的建设。
translated by 谷歌翻译
在元学习框架下设计了许多射门学习方法,这些方法从各种学习任务中学习并推广到新任务。这些元学习方法在从同一分布(I.I.D.观察)中绘制的所有样本中的情况下实现了预期的性能。然而,在现实世界应用中,很少拍摄的学习范式往往遭受数据转移,即,即使在相同的任务中,也可以从各种数据分布中汲取不同任务中的示例。大多数现有的几次拍摄方法不考虑数据班次,因此在数据分布换档时显示降级性能。然而,由于每个任务中的标记样本数量有限的标记样本,因此在几次拍摄学习中解决数据转换问题是不普遍的。针对解决此问题,我们提出了一种新的基于度量的元学习框架,以便在知识图表的帮助下提取任务特定的表示和任务共享表示。因此,任务内的数据偏移可以通过任务共享和特定于任务的表示的组合来组合。拟议的模型是对流行的基准测试和两个构造的新具有挑战性的数据集。评估结果表明了其显着性能。
translated by 谷歌翻译
We propose prototypical networks for the problem of few-shot classification, where a classifier must generalize to new classes not seen in the training set, given only a small number of examples of each new class. Prototypical networks learn a metric space in which classification can be performed by computing distances to prototype representations of each class. Compared to recent approaches for few-shot learning, they reflect a simpler inductive bias that is beneficial in this limited-data regime, and achieve excellent results. We provide an analysis showing that some simple design decisions can yield substantial improvements over recent approaches involving complicated architectural choices and meta-learning. We further extend prototypical networks to zero-shot learning and achieve state-of-theart results on the CU-Birds dataset.
translated by 谷歌翻译
少量学习,特别是几秒钟的图像分类,近年来受到了越来越多的关注,并目睹了重大进展。最近的一些研究暗示表明,许多通用技术或“诀窍”,如数据增强,预训练,知识蒸馏和自我监督,可能大大提高了几次学习方法的性能。此外,不同的作品可以采用不同的软件平台,不同的训练计划,不同的骨干架构以及甚至不同的输入图像大小,使得公平的比较困难,从业者与再现性斗争。为了解决这些情况,通过在Pytorch中的同一单个代码库中重新实施17个最新的框架,提出了几次射门学习(Libfewshot)的全面图书馆。此外,基于libfewshot,我们提供多个基准数据集的全面评估,其中包含多个骨干架构,以评估不同培训技巧的常见缺陷和效果。此外,鉴于近期对必要性或未培训机制的必要性怀疑,我们的评估结果表明,特别是当与预训练相结合时,仍然需要这种机制。我们希望我们的工作不仅可以降低初学者的障碍,可以在几次学习上工作,而且还消除了非动力技巧的影响,促进了几枪学习的内在研究。源代码可从https://github.com/rl-vig/libfewshot获取。
translated by 谷歌翻译
少量学习致力于在少数样品上培训模型。这些方法中的大多数基于像素级或全局级别特征表示学习模型。但是,使用全局功能可能会丢失本地信息,并且使用像素级别功能可能会丢失图像的上下文语义。此外,这些作品只能在单个级别上衡量它们之间的关系,这并不全面而有效。如果查询图像可以通过三个不同的水平相似度量同时分类很好,则类内的查询图像可以在较小的特征空间中更紧密地分布,产生更多辨别特征映射。由此激励,我们提出了一种新的零件级别嵌入适应图形(PEAG)方法来生成特定于任务特征。此外,提出了一种多级度量学习(MML)方法,其不仅可以计算像素级相似度,而且还考虑了部分级别特征和全局级别特征的相似性。对流行的少量图像识别数据集进行了广泛的实验,证明了与最先进的方法相比的方法的有效性。我们的代码可用于\ url {https:/github.com/chenhaoxing/m2l}。
translated by 谷歌翻译
元学习已成为几乎没有图像分类的实用方法,在该方法中,“学习分类器的策略”是在标记的基础类别上进行元学习的,并且可以应用于具有新颖类的任务。我们删除了基类标签的要求,并通过无监督的元学习(UML)学习可通用的嵌入。具体而言,任务发作是在元训练过程中使用未标记的基本类别的数据增强构建的,并且我们将基于嵌入式的分类器应用于新的任务,并在元测试期间使用标记的少量示例。我们观察到两个元素在UML中扮演着重要角色,即进行样本任务和衡量实例之间的相似性的方法。因此,我们获得了具有两个简单修改的​​强基线 - 一个足够的采样策略,每情节有效地构建多个任务以及半分解的相似性。然后,我们利用来自两个方向的任务特征以获得进一步的改进。首先,合成的混淆实例被合并以帮助提取更多的判别嵌入。其次,我们利用额外的特定任务嵌入转换作为元训练期间的辅助组件,以促进预先适应的嵌入式的概括能力。几乎没有学习基准的实验证明,我们的方法比以前的UML方法优于先前的UML方法,并且比其监督变体获得了可比甚至更好的性能。
translated by 谷歌翻译
Few-shot learning has become essential for producing models that generalize from few examples. In this work, we identify that metric scaling and metric task conditioning are important to improve the performance of few-shot algorithms. Our analysis reveals that simple metric scaling completely changes the nature of few-shot algorithm parameter updates. Metric scaling provides improvements up to 14% in accuracy for certain metrics on the mini-Imagenet 5-way 5-shot classification task. We further propose a simple and effective way of conditioning a learner on the task sample set, resulting in learning a task-dependent metric space. Moreover, we propose and empirically test a practical end-to-end optimization procedure based on auxiliary task co-training to learn a task-dependent metric space. The resulting few-shot learning model based on the task-dependent scaled metric achieves state of the art on mini-Imagenet. We confirm these results on another few-shot dataset that we introduce in this paper based on CIFAR100. Our code is publicly available at https://github.com/ElementAI/TADAM.
translated by 谷歌翻译
The task of Few-shot learning (FSL) aims to transfer the knowledge learned from base categories with sufficient labelled data to novel categories with scarce known information. It is currently an important research question and has great practical values in the real-world applications. Despite extensive previous efforts are made on few-shot learning tasks, we emphasize that most existing methods did not take into account the distributional shift caused by sample selection bias in the FSL scenario. Such a selection bias can induce spurious correlation between the semantic causal features, that are causally and semantically related to the class label, and the other non-causal features. Critically, the former ones should be invariant across changes in distributions, highly related to the classes of interest, and thus well generalizable to novel classes, while the latter ones are not stable to changes in the distribution. To resolve this problem, we propose a novel data augmentation strategy dubbed as PatchMix that can break this spurious dependency by replacing the patch-level information and supervision of the query images with random gallery images from different classes from the query ones. We theoretically show that such an augmentation mechanism, different from existing ones, is able to identify the causal features. To further make these features to be discriminative enough for classification, we propose Correlation-guided Reconstruction (CGR) and Hardness-Aware module for instance discrimination and easier discrimination between similar classes. Moreover, such a framework can be adapted to the unsupervised FSL scenario.
translated by 谷歌翻译
很少有射击分类旨在学习一个模型,该模型只有几个标签样本可用,可以很好地推广到新任务。为了利用在实际应用中更丰富的未标记数据,Ren等人。 \ shortcite {ren2018meta}提出了一种半监督的少数射击分类方法,该方法通过手动定义的度量标记为每个未标记的样本分配了适当的标签。但是,手动定义的度量未能捕获数据中的内在属性。在本文中,我们提出了a \ textbf {s} elf- \ textbf {a} daptive \ textbf {l} abel \ textbf {a} u摄孔方法,称为\ textbf {sala},用于半精神分裂的几个分类。萨拉(Sala)的主要新颖性是任务自适应指标,可以以端到端的方式适应不同任务的指标。萨拉(Sala)的另一个吸引人的特征是一种进步的邻居选择策略,该策略在整个训练阶段逐渐逐渐信心选择未标记的数据。实验表明,SALA优于在基准数据集上半监督的几种射击分类的几种最新方法。
translated by 谷歌翻译