少量学习是一个基本和挑战性的问题,因为它需要识别只有几个例子的新型类别。识别对象具有多个变体,可以定位图像中的任何位置。直接将查询图像与示例图像进行比较无法处理内容未对准。比较的表示和度量是至关重要的,但由于在几次拍摄学习中的样本的稀缺和广泛变化而挑战。在本文中,我们提出了一种新颖的语义对齐模型来比较关系,这是对内容未对准的强大。我们建议为现有的几次射门学习框架添加两个关键成分,以获得更好的特征和度量学习能力。首先,我们介绍了语义对齐损失,以对准属于同一类别的样本的功能的关系统计。其次,引入了本地和全局互动信息,允许在图像中的结构位置包含本地一致和类别共享信息的表示。第三,我们通过考虑每个流的同性恋的不确定性来介绍一个原则的方法来称量多重损失功能。我们对几个几次拍摄的学习数据集进行了广泛的实验。实验结果表明,该方法能够比较与语义对准策略的关系,实现最先进的性能。
translated by 谷歌翻译
很少有图像分类是一个具有挑战性的问题,旨在仅基于少量培训图像来达到人类的识别水平。少数图像分类的一种主要解决方案是深度度量学习。这些方法是,通过将看不见的样本根据距离的距离进行分类,可在强大的深神经网络中学到的嵌入空间中看到的样品,可以避免以少数图像分类的少数训练图像过度拟合,并实现了最新的图像表现。在本文中,我们提供了对深度度量学习方法的最新审查,以进行2018年至2022年的少量图像分类,并根据度量学习的三个阶段将它们分为三组,即学习功能嵌入,学习课堂表示和学习距离措施。通过这种分类法,我们确定了他们面临的不同方法和问题的新颖性。我们通过讨论当前的挑战和未来趋势进行了少量图像分类的讨论。
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
传统的细颗粒图像分类通常依赖于带注释的地面真相的大规模训练样本。但是,某些子类别在实际应用中可能几乎没有可用的样本。在本文中,我们建议使用多频邻域(MFN)和双交叉调制(DCM)提出一个新颖的几弹性细颗粒图像分类网络(FICNET)。采用模块MFN来捕获空间域和频域中的信息。然后,提取自相似性和多频成分以产生多频结构表示。 DCM使用分别考虑全球环境信息和类别之间的微妙关系来调节嵌入过程。针对两个少量任务的三个细粒基准数据集进行的综合实验验证了FICNET与最先进的方法相比具有出色的性能。特别是,在两个数据集“ Caltech-UCSD鸟”和“ Stanford Cars”上进行的实验分别可以获得分类精度93.17 \%和95.36 \%。它们甚至高于一般的细粒图像分类方法可以实现的。
translated by 谷歌翻译
很少有学习的学习(FSL)旨在学习一个可以轻松适应新颖课程的分类器,只有几个标签的示例,限制数据使这项任务挑战深度学习。基于量子指标的方法已实现了有希望的表现基于图像级的功能。但是,这些全球特征忽略了丰富的本地和结构信息,这些信息在可见的和看不见的类之间都是可以转移和一致的。认知科学的某些研究认为,人类可以识别出具有学识渊博的新颖类。我们希望挖掘出来可以从基础类别转移和判别性表示,并采用它们以识别新的课程。建立情节训练机制,我们提出了一个原始的采矿和推理网络(PMRN),以端到端的方式学习原始感知的表示,以进行度量。基于基于FSL模型。我们首先添加自学辅助任务,迫使功能提取器学习与原始词相对应的电视模式。为了进一步挖掘并产生可转移的原始感知表示形式,我们设计了一个自适应通道组(ACG)模块,以通过增强信息通道图的同时抑制无用的通道图,从而从对象嵌入中合成一组视觉原语。基于学到的原始功能,提出了一个语义相关推理(SCR)模块来捕获它们之间的内部关系。在本文中,我们了解原始词的特定于任务的重要性,并基于特定于任务的注意力功能进行原始级别的度量。广泛的实验表明,我们的方法在六个标准基准下实现了最先进的结果。
translated by 谷歌翻译
细粒度的图像分析(FGIA)是计算机视觉和模式识别中的长期和基本问题,并为一组多种现实世界应用提供了基础。 FGIA的任务是从属类别分析视觉物体,例如汽车或汽车型号的种类。细粒度分析中固有的小阶级和阶级阶级内变异使其成为一个具有挑战性的问题。利用深度学习的进步,近年来,我们在深入学习动力的FGIA中见证了显着进展。在本文中,我们对这些进展的系统进行了系统的调查,我们试图通过巩固两个基本的细粒度研究领域 - 细粒度的图像识别和细粒度的图像检索来重新定义和扩大FGIA领域。此外,我们还审查了FGIA的其他关键问题,例如公开可用的基准数据集和相关域的特定于应用程序。我们通过突出几个研究方向和开放问题,从社区中突出了几个研究方向和开放问题。
translated by 谷歌翻译
Few-shot classification aims to recognize unlabeled samples from unseen classes given only few labeled samples. The unseen classes and low-data problem make few-shot classification very challenging. Many existing approaches extracted features from labeled and unlabeled samples independently, as a result, the features are not discriminative enough. In this work, we propose a novel Cross Attention Network to address the challenging problems in few-shot classification. Firstly, Cross Attention Module is introduced to deal with the problem of unseen classes. The module generates cross attention maps for each pair of class feature and query sample feature so as to highlight the target object regions, making the extracted feature more discriminative. Secondly, a transductive inference algorithm is proposed to alleviate the low-data problem, which iteratively utilizes the unlabeled query set to augment the support set, thereby making the class features more representative. Extensive experiments on two benchmarks show our method is a simple, effective and computationally efficient framework and outperforms the state-of-the-arts.
translated by 谷歌翻译
从有限的数据学习是一个具有挑战性的任务,因为数据的稀缺导致训练型模型的较差。经典的全局汇总表示可能会失去有用的本地信息。最近,许多射击学习方法通​​过使用深度描述符和学习像素级度量来解决这一挑战。但是,使用深描述符作为特征表示可能丢失图像的上下文信息。这些方法中的大多数方法独立地处理支持集中的每个类,这不能充分利用鉴别性信息和特定于特定的嵌入。在本文中,我们提出了一种名为稀疏空间变压器(SSFormers)的新型变压器的神经网络架构,可以找到任务相关的功能并抑制任务无关的功能。具体地,我们首先将每个输入图像划分为不同大小的几个图像斑块,以获得密集的局部特征。这些功能在表达本地信息时保留上下文信息。然后,提出了一种稀疏的空间变压器层以在查询图像和整个支持集之间找到空间对应关系,以选择任务相关的图像斑块并抑制任务 - 无关的图像斑块。最后,我们建议使用图像补丁匹配模块来计算密集的本地表示之间的距离,从而确定查询图像属于支持集中的哪个类别。广泛的少量学习基准测试表明,我们的方法实现了最先进的性能。
translated by 谷歌翻译
识别诸如眼睛和喙之类的判别细节对于区分细粒度的班级非常重要,因为它们的总体外观相似。在这方面,我们介绍了任务差异最大化(TDM),这是一个简单的模块,用于细颗粒的几个射击分类。我们的目标是通过强调编码课堂不同信息的渠道来定位班级判别区域。具体而言,TDM基于两个新颖的组件学习特定于任务的通道权重:支持注意模块(SAM)和查询注意模块(QAM)。 SAM产生支持权重,以表示每个类别的频道判别能力。尽管如此,由于SAM基本上仅基于标记的支持集,因此它可能容易受到此类支持集的偏见。因此,我们提出了QAM,通过产生查询权重来补充SAM,该查询权重使给定查询图像的对象相关的通道更加重量。通过组合这两个权重,定义了特定于类的任务通道权重。然后将权重应用以产生任务自适应特征地图,更多地关注判别细节。我们的实验证实了TDM的有效性及其互补益处,并在细粒度的几乎没有分类中使用了先前的方法。
translated by 谷歌翻译
The task of Few-shot learning (FSL) aims to transfer the knowledge learned from base categories with sufficient labelled data to novel categories with scarce known information. It is currently an important research question and has great practical values in the real-world applications. Despite extensive previous efforts are made on few-shot learning tasks, we emphasize that most existing methods did not take into account the distributional shift caused by sample selection bias in the FSL scenario. Such a selection bias can induce spurious correlation between the semantic causal features, that are causally and semantically related to the class label, and the other non-causal features. Critically, the former ones should be invariant across changes in distributions, highly related to the classes of interest, and thus well generalizable to novel classes, while the latter ones are not stable to changes in the distribution. To resolve this problem, we propose a novel data augmentation strategy dubbed as PatchMix that can break this spurious dependency by replacing the patch-level information and supervision of the query images with random gallery images from different classes from the query ones. We theoretically show that such an augmentation mechanism, different from existing ones, is able to identify the causal features. To further make these features to be discriminative enough for classification, we propose Correlation-guided Reconstruction (CGR) and Hardness-Aware module for instance discrimination and easier discrimination between similar classes. Moreover, such a framework can be adapted to the unsupervised FSL scenario.
translated by 谷歌翻译
少量学习致力于在少数样品上培训模型。这些方法中的大多数基于像素级或全局级别特征表示学习模型。但是,使用全局功能可能会丢失本地信息,并且使用像素级别功能可能会丢失图像的上下文语义。此外,这些作品只能在单个级别上衡量它们之间的关系,这并不全面而有效。如果查询图像可以通过三个不同的水平相似度量同时分类很好,则类内的查询图像可以在较小的特征空间中更紧密地分布,产生更多辨别特征映射。由此激励,我们提出了一种新的零件级别嵌入适应图形(PEAG)方法来生成特定于任务特征。此外,提出了一种多级度量学习(MML)方法,其不仅可以计算像素级相似度,而且还考虑了部分级别特征和全局级别特征的相似性。对流行的少量图像识别数据集进行了广泛的实验,证明了与最先进的方法相比的方法的有效性。我们的代码可用于\ url {https:/github.com/chenhaoxing/m2l}。
translated by 谷歌翻译
对象检测是计算机视觉和图像处理中的基本任务。基于深度学习的对象探测器非常成功,具有丰富的标记数据。但在现实生活中,它不保证每个对象类别都有足够的标记样本进行培训。当训练数据有限时,这些大型物体探测器易于过度装备。因此,有必要将几次拍摄的学习和零射击学习引入对象检测,这可以将低镜头对象检测命名在一起。低曝光对象检测(LSOD)旨在检测来自少数甚至零标记数据的对象,其分别可以分为几次对象检测(FSOD)和零拍摄对象检测(ZSD)。本文对基于深度学习的FSOD和ZSD进行了全面的调查。首先,本调查将FSOD和ZSD的方法分类为不同的类别,并讨论了它们的利弊。其次,本调查审查了数据集设置和FSOD和ZSD的评估指标,然后分析了在这些基准上的不同方法的性能。最后,本调查讨论了FSOD和ZSD的未来挑战和有希望的方向。
translated by 谷歌翻译
我们提出STAF,一种用于几次视频分类的时空关注融合网络。STAF首先通过应用3D卷积神经网络嵌入网络来提取视频的粗粒度的空间和时间特征。然后使用自我关注和跨关注网络微调提取的特征。最后,STAF应用轻量级融合网络和最近的邻邻分类器来分类每个查询视频。为了评估STAF,我们在三个基准(UCF101,HMDB51和SomeS-V2)上进行广泛的实验。实验结果表明,STAF通过大边缘提高了最先进的准确性,例如,STAF分别将五向单拍精度增加5.3%和7.0%,分别为UCF101和HMDB51增加。
translated by 谷歌翻译
在视觉识别任务中,很少的学习需要在很少的支持示例中学习对象类别的能力。鉴于深度学习的发展,它的重新流行主要是图像分类。这项工作着重于几片语义细分,这仍然是一个未开发的领域。最近的一些进步通常仅限于单级少量分段。在本文中,我们首先介绍了一个新颖的多通道(类)编码和解码体系结构,该体系结构有效地将多尺度查询信息和多类支持信息融合到一个查询支持嵌入中。多级分割直接在此嵌入后解码。为了获得更好的特征融合,在体系结构中提出了多层注意机制,其中包括对支持功能调制的关注和多尺度组合的注意力。最后,为了增强嵌入式空间学习,引入了一个额外的像素度量学习模块,并在输入图像的像素级嵌入式上提出了三重损失。对标准基准Pascal-5i和Coco-20i进行的广泛实验显示了我们方法对最新技术的明显好处
translated by 谷歌翻译
We present a conceptually simple, flexible, and general framework for few-shot learning, where a classifier must learn to recognise new classes given only few examples from each. Our method, called the Relation Network (RN), is trained end-to-end from scratch. During meta-learning, it learns to learn a deep distance metric to compare a small number of images within episodes, each of which is designed to simulate the few-shot setting. Once trained, a RN is able to classify images of new classes by computing relation scores between query images and the few examples of each new class without further updating the network. Besides providing improved performance on few-shot learning, our framework is easily extended to zero-shot learning. Extensive experiments on five benchmarks demonstrate that our simple approach provides a unified and effective approach for both of these two tasks.
translated by 谷歌翻译
旨在使用非常有限的样本识别看不见的类的几个射击分类吸引了越来越多的关注。通常,它被称为公制学习问题。几乎没有射击分类的核心问题是如何学习(1)支持和查询集中图像的一致表示以及(2)在支持和查询集之间的图像的有效度量学习。在本文中,我们表明,这两个挑战可以通过统一的查询支持变压器(QSFormer)模型同时建模。具体而言,提出的QSFormer涉及全局查询支持样品变压器(SampleFormer)分支和局部补丁变压器(PatchFormer)学习分支。 SampleFormer旨在捕获样品在支持和查询集以进行图像表示方面的依赖性。它采用编码器,解码器和交叉注意力,分别对几个射击分类任务的支持,查询(图像)表示和度量学习进行建模。同样,作为全球学习分支的补充,我们采用了局部贴片变压器,通过捕获本地图像贴片的长距离依赖性来提取每个图像样本的结构表示。此外,还提出了一种新型的跨尺度交互式提取器(CIFE)来提取和融合多尺度CNN特征,作为建议的少量学习方法的有效骨干模块。所有模块都集成到统一的框架中,并以端到端的方式进行了训练。在四个流行数据集上进行的广泛实验证明了所提出的QSFormer的有效性和优势。
translated by 谷歌翻译
近年来,已经产生了大量的视觉内容,并从许多领域共享,例如社交媒体平台,医学成像和机器人。这种丰富的内容创建和共享引入了新的挑战,特别是在寻找类似内容内容的图像检索(CBIR)-A的数据库中,即长期建立的研究区域,其中需要改进的效率和准确性来实时检索。人工智能在CBIR中取得了进展,并大大促进了实例搜索过程。在本调查中,我们审查了最近基于深度学习算法和技术开发的实例检索工作,通过深网络架构类型,深度功能,功能嵌入方法以及网络微调策略组织了调查。我们的调查考虑了各种各样的最新方法,在那里,我们识别里程碑工作,揭示各种方法之间的联系,并呈现常用的基准,评估结果,共同挑战,并提出未来的未来方向。
translated by 谷歌翻译
Metric-based meta-learning is one of the de facto standards in few-shot learning. It composes of representation learning and metrics calculation designs. Previous works construct class representations in different ways, varying from mean output embedding to covariance and distributions. However, using embeddings in space lacks expressivity and cannot capture class information robustly, while statistical complex modeling poses difficulty to metric designs. In this work, we use tensor fields (``areas'') to model classes from the geometrical perspective for few-shot learning. We present a simple and effective method, dubbed hypersphere prototypes (HyperProto), where class information is represented by hyperspheres with dynamic sizes with two sets of learnable parameters: the hypersphere's center and the radius. Extending from points to areas, hyperspheres are much more expressive than embeddings. Moreover, it is more convenient to perform metric-based classification with hypersphere prototypes than statistical modeling, as we only need to calculate the distance from a data point to the surface of the hypersphere. Following this idea, we also develop two variants of prototypes under other measurements. Extensive experiments and analysis on few-shot learning tasks across NLP and CV and comparison with 20+ competitive baselines demonstrate the effectiveness of our approach.
translated by 谷歌翻译
即使在几个例子中,人类能够学会识别新物品。相比之下,培训基于深度学习的对象探测器需要大量的注释数据。为避免需求获取和注释这些大量数据,但很少拍摄的对象检测旨在从目标域中的新类别的少数对象实例中学习。在本调查中,我们在几次拍摄对象检测中概述了本领域的状态。我们根据培训方案和建筑布局分类方法。对于每种类型的方法,我们描述了一般的实现以及提高新型类别性能的概念。在适当的情况下,我们在这些概念上给出短暂的外卖,以突出最好的想法。最终,我们介绍了常用的数据集及其评估协议,并分析了报告的基准结果。因此,我们强调了评估中的共同挑战,并确定了这种新兴对象检测领域中最有前景的电流趋势。
translated by 谷歌翻译
很少有细粒度的学习旨在将查询图像分类为具有细粒度差异的一组支持类别之一。尽管学习不同对象通过深神网络的局部差异取得了成功,但如何在基于变压器的架构中利用查询支持的跨图像对象语义关系在几个摄像机的细粒度场景中仍未得到充分探索。在这项工作中,我们提出了一个基于变压器的双螺旋模型,即HelixFormer,以双向和对称方式实现跨图像对象语义挖掘。 HelixFormer由两个步骤组成:1)跨不同分支的关系挖掘过程(RMP),以及2)在每个分支中表示增强过程(REP)。通过设计的RMP,每个分支都可以使用来自另一个分支的信息提取细粒对象级跨图义语义关系图(CSRMS),从而确保在语义相关的本地对象区域中更好地跨图像相互作用。此外,借助CSRMS,开发的REP可以增强每个分支中发现的与语义相关的局部区域的提取特征,从而增强模型区分细粒物体的细微特征差异的能力。在五个公共细粒基准上进行的广泛实验表明,螺旋形式可以有效地增强识别细颗粒物体的跨图像对象语义关系匹配,从而在1次以下的大多数先进方法中实现更好的性能,并且5击场景。我们的代码可在以下网址找到:https://github.com/jiakangyuan/helixformer
translated by 谷歌翻译