组成零射击学习(CZSL)是指识别已知视觉原始素的看不见的组成,这是人工智能系统学习和理解世界的重要能力。尽管在现有基准测试方面取得了长足的进展,但我们怀疑流行的CZSL方法是否可以解决几乎没有射击的挑战和很少的参考构成,这在现实世界中看不见的环境中学习时很常见。为此,我们研究了本文中具有挑战性的参考有限的零拍学习(RL-CZSL)问题,即,只有少数样品作为参考,应确定观察到的原始物的参考的有限参考组成。我们提出了一种新型的元组合图学习器(metaCGL),该图可以从不足的参考信息中有效地学习组成性并推广到看不见的组成。此外,我们通过两个新的大型数据集构建了一个基准测试,这些数据集由具有不同组成标签的自然图像组成,为RL-CZSL提供了更现实的环境。基准中的广泛实验表明,当参考文献受到构成学习的限制时,我们的方法在识别看不见的成分方面取得了最新的性能。
translated by 谷歌翻译
很少有学习的学习(FSL)旨在学习一个可以轻松适应新颖课程的分类器,只有几个标签的示例,限制数据使这项任务挑战深度学习。基于量子指标的方法已实现了有希望的表现基于图像级的功能。但是,这些全球特征忽略了丰富的本地和结构信息,这些信息在可见的和看不见的类之间都是可以转移和一致的。认知科学的某些研究认为,人类可以识别出具有学识渊博的新颖类。我们希望挖掘出来可以从基础类别转移和判别性表示,并采用它们以识别新的课程。建立情节训练机制,我们提出了一个原始的采矿和推理网络(PMRN),以端到端的方式学习原始感知的表示,以进行度量。基于基于FSL模型。我们首先添加自学辅助任务,迫使功能提取器学习与原始词相对应的电视模式。为了进一步挖掘并产生可转移的原始感知表示形式,我们设计了一个自适应通道组(ACG)模块,以通过增强信息通道图的同时抑制无用的通道图,从而从对象嵌入中合成一组视觉原语。基于学到的原始功能,提出了一个语义相关推理(SCR)模块来捕获它们之间的内部关系。在本文中,我们了解原始词的特定于任务的重要性,并基于特定于任务的注意力功能进行原始级别的度量。广泛的实验表明,我们的方法在六个标准基准下实现了最先进的结果。
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
组成零射击学习(CZSL)旨在使用从训练集中的属性对象组成中学到的知识来识别新的构图。先前的作品主要将图像和组合物投影到共同的嵌入空间中,以衡量其兼容性得分。但是,属性和对象都共享上面学到的视觉表示,导致模型利用虚假的相关性和对可见对的偏见。取而代之的是,我们重新考虑CZSL作为分布的概括问题。如果将对象视为域,我们可以学习对象不变的功能,以识别任何对象附加的属性。同样,当识别具有属性为域的对象时,还可以学习属性不变的功能。具体而言,我们提出了一个不变的特征学习框架,以在表示和梯度级别上对齐不同的域,以捕获与任务相关的内在特征。对两个CZSL基准测试的实验表明,所提出的方法显着优于先前的最新方法。
translated by 谷歌翻译
The task of Compositional Zero-Shot Learning (CZSL) is to recognize images of novel state-object compositions that are absent during the training stage. Previous methods of learning compositional embedding have shown effectiveness in closed-world CZSL. However, in Open-World CZSL (OW-CZSL), their performance tends to degrade significantly due to the large cardinality of possible compositions. Some recent works separately predict simple primitives (i.e., states and objects) to reduce cardinality. However, they consider simple primitives as independent probability distributions, ignoring the heavy dependence between states, objects, and compositions. In this paper, we model the dependence of compositions via feasibility and contextuality. Feasibility-dependence refers to the unequal feasibility relations between simple primitives, e.g., \textit{hairy} is more feasible with \textit{cat} than with \textit{building} in the real world. Contextuality-dependence represents the contextual variance in images, e.g., \textit{cat} shows diverse appearances under the state of \textit{dry} and \textit{wet}. We design Semantic Attention (SA) and generative Knowledge Disentanglement (KD) to learn the dependence of feasibility and contextuality, respectively. SA captures semantics in compositions to alleviate impossible predictions, driven by the visual similarity between simple primitives. KD disentangles images into unbiased feature representations, easing contextual bias in predictions. Moreover, we complement the current compositional probability model with feasibility and contextuality in a compatible format. Finally, we conduct comprehensive experiments to analyze and validate the superior or competitive performance of our model, Semantic Attention and knowledge Disentanglement guided Simple Primitives (SAD-SP), on three widely-used benchmark OW-CZSL datasets.
translated by 谷歌翻译
Few-shot classification aims to recognize unlabeled samples from unseen classes given only few labeled samples. The unseen classes and low-data problem make few-shot classification very challenging. Many existing approaches extracted features from labeled and unlabeled samples independently, as a result, the features are not discriminative enough. In this work, we propose a novel Cross Attention Network to address the challenging problems in few-shot classification. Firstly, Cross Attention Module is introduced to deal with the problem of unseen classes. The module generates cross attention maps for each pair of class feature and query sample feature so as to highlight the target object regions, making the extracted feature more discriminative. Secondly, a transductive inference algorithm is proposed to alleviate the low-data problem, which iteratively utilizes the unlabeled query set to augment the support set, thereby making the class features more representative. Extensive experiments on two benchmarks show our method is a simple, effective and computationally efficient framework and outperforms the state-of-the-arts.
translated by 谷歌翻译
广义的组成零射限学习意味着学习零射时的属性对象对的概念,其中模型在一组看到的概念上培训并在一组组合和看不见的概念上测试。此任务非常具有挑战性,因为不仅是所见和看不见的概念之间的差距,而且是属性和对象之间的上下文依赖性。本文介绍了一种新的方法,称为翻译概念嵌入,解决统一框架中的这两个困难。它模拟将属性应用于对象的效果,如将翻译属性要素添加到对象原型。通过生成有条件地依赖于对象原型的翻译属性功能,我们显式明确地考虑了属性和对象之间的上下文依赖性。此外,我们设计了一个比率方差约束损失,以促进模型对看不见的概念的泛化能力。它通过利用预训练字嵌入的知识来规范概念之间的距离。我们根据无偏见和偏见的概念分类任务评估我们模型的表现,并表明我们的模型能够在预测看不见和看到的概念方面实现良好的平衡。
translated by 谷歌翻译
Zero-Shot Learning has been a highlighted research topic in both vision and language areas. Recently, most existing methods adopt structured knowledge information to model explicit correlations among categories and use deep graph convolutional network to propagate information between different categories. However, it is difficult to add new categories to existing structured knowledge graph, and deep graph convolutional network suffers from over-smoothing problem. In this paper, we provide a new semantic enhanced knowledge graph that contains both expert knowledge and categories semantic correlation. Our semantic enhanced knowledge graph can further enhance the correlations among categories and make it easy to absorb new categories. To propagate information on the knowledge graph, we propose a novel Residual Graph Convolutional Network (ResGCN), which can effectively alleviate the problem of over-smoothing. Experiments conducted on the widely used large-scale ImageNet-21K dataset and AWA2 dataset show the effectiveness of our method, and establish a new state-of-the-art on zero-shot learning. Moreover, our results on the large-scale ImageNet-21K with various feature extraction networks show that our method has better generalization and robustness.
translated by 谷歌翻译
组成零射击学习(CZSL)旨在识别训练过程中从可见状态和物体形成的看不见的构图。由于与不同对象纠缠的视觉外观中相同的状态可能是不同的,因此CZSL仍然是一项艰巨的任务。某些方法使用两个训练有素的分类器识别状态和对象,忽略了对象与状态之间的相互作用的影响;其他方法试图学习状态对象组成的联合表示,从而导致可见和看不见的组成集之间的域间隙。在本文中,我们提出了一种新颖的暹罗对比度嵌入网络(场景)(代码:https://github.com/xduxyli/scen-master),以实现看不见的构图识别。考虑到状态与物体之间的纠缠,我们将视觉特征嵌入了暹罗对比度空间中,以分别捕获它们的原型,从而减轻了状态与物体之间的相互作用。此外,我们设计了一个状态过渡模块(STM),以增加训练组成的多样性,从而提高识别模型的鲁棒性。广泛的实验表明,我们的方法在三个具有挑战性的基准数据集(包括最近提出的C-QGA数据集)上的最先进方法大大优于最先进的方法。
translated by 谷歌翻译
我们引入了构图软提示(CSP),这是一种参数有效的学习技术,可改善大规模预处理视觉模型(VLMS)的零摄像组成性。 VLM可以在其灵活的文本编码器中代表任意类作为自然语言提示,但在组成零击基准任务上的表现不佳。为了改善VLM,我们提出了一种新颖的软提示形式。我们将构成的属性和对象视为将类定义为词汇的可学习令牌,并在多个及时的构图上调整它们。在推断期间,我们在新组合中重新组装了学习的属性对象词汇。我们表明,CSP在基准数据集上的原始VLM的表现平均为AUC上的10.9个百分点。 CSP还胜过Coop,这是一种调谐前缀上下文的软提示方法,在AUC上平均要点5.8个百分点。我们执行其他实验,以表明CSP对仅属性分类,高阶属性 - 属性对象组成以及预验证属性和微调对象的组合进行了改进。
translated by 谷歌翻译
很少有图像分类是一个具有挑战性的问题,旨在仅基于少量培训图像来达到人类的识别水平。少数图像分类的一种主要解决方案是深度度量学习。这些方法是,通过将看不见的样本根据距离的距离进行分类,可在强大的深神经网络中学到的嵌入空间中看到的样品,可以避免以少数图像分类的少数训练图像过度拟合,并实现了最新的图像表现。在本文中,我们提供了对深度度量学习方法的最新审查,以进行2018年至2022年的少量图像分类,并根据度量学习的三个阶段将它们分为三组,即学习功能嵌入,学习课堂表示和学习距离措施。通过这种分类法,我们确定了他们面临的不同方法和问题的新颖性。我们通过讨论当前的挑战和未来趋势进行了少量图像分类的讨论。
translated by 谷歌翻译
少量学习,特别是几秒钟的图像分类,近年来受到了越来越多的关注,并目睹了重大进展。最近的一些研究暗示表明,许多通用技术或“诀窍”,如数据增强,预训练,知识蒸馏和自我监督,可能大大提高了几次学习方法的性能。此外,不同的作品可以采用不同的软件平台,不同的训练计划,不同的骨干架构以及甚至不同的输入图像大小,使得公平的比较困难,从业者与再现性斗争。为了解决这些情况,通过在Pytorch中的同一单个代码库中重新实施17个最新的框架,提出了几次射门学习(Libfewshot)的全面图书馆。此外,基于libfewshot,我们提供多个基准数据集的全面评估,其中包含多个骨干架构,以评估不同培训技巧的常见缺陷和效果。此外,鉴于近期对必要性或未培训机制的必要性怀疑,我们的评估结果表明,特别是当与预训练相结合时,仍然需要这种机制。我们希望我们的工作不仅可以降低初学者的障碍,可以在几次学习上工作,而且还消除了非动力技巧的影响,促进了几枪学习的内在研究。源代码可从https://github.com/rl-vig/libfewshot获取。
translated by 谷歌翻译
视频中的动作通常涉及人类与物体的相互作用。动作标签通常由动词和名词的各种组合组成,但我们可能没有所有可能组合的培训数据。在本文中,我们旨在通过利用知识图的力量来提高组成动作识别模型在训练时间期间看不见的新型动词或新名词的概括能力。先前的工作利用了知识图中的动词 - 单词组成动作节点,因此比效率低下,因为相对于动词和名词的数量,组成动作节点的数量在四倍上增长。为了解决这个问题,我们提出了我们的方法:通过知识掩盖(黑暗)的解开行动识别,它利用了动作的固有组成。黑暗训练一个分解模型,首先提取动词和名词的解开特征表示,然后使用外部知识图中的关系预测分类权重。动词和名词之间的类型约束是从外部知识库中提取的,并在组成动作时最终应用。黑暗的对象和动词数量具有更好的可伸缩性,并在Charades数据集中实现了最新性能。我们进一步根据Epic-Kitchen数据集提出了一个新的基准分配,该数据集的类别和样本数量更大,并且该基准测试了各种模型。
translated by 谷歌翻译
在过去的几年里,几年枪支学习(FSL)引起了极大的关注,以最大限度地减少标有标记的训练示例的依赖。FSL中固有的困难是处理每个课程的培训样本太少的含糊不清的歧义。为了在FSL中解决这一基本挑战,我们的目标是培训可以利用关于新颖类别的先前语义知识来引导分类器合成过程的元学习模型。特别是,我们提出了语义调节的特征注意力和样本注意机制,估计表示尺寸和培训实例的重要性。我们还研究了FSL的样本噪声问题,以便在更现实和不完美的环境中利用Meta-Meverys。我们的实验结果展示了所提出的语义FSL模型的有效性,而没有样品噪声。
translated by 谷歌翻译
很少有开放式识别旨在对可见类别的培训数据进行有限的培训数据进行分类和新颖的图像。这项任务的挑战是,该模型不仅需要学习判别性分类器,以用很少的培训数据对预定的类进行分类,而且还要拒绝从未见过的培训时间出现的未见类别的输入。在本文中,我们建议从两个新方面解决问题。首先,我们没有像在标准的封闭设置分类中那样学习看到类之间的决策边界,而是为看不见的类保留空间,因此位于这些区域中的图像被认为是看不见的类。其次,为了有效地学习此类决策边界,我们建议利用所见类的背景功能。由于这些背景区域没有显着促进近距离分类的决定,因此自然地将它们用作分类器学习的伪阶层。我们的广泛实验表明,我们提出的方法不仅要优于多个基线,而且还为三个流行的基准测试(即Tieredimagenet,Miniimagenet和Caltech-uscd Birds-birds-2011-2011(Cub))设定了新的最先进结果。
translated by 谷歌翻译
The task of Few-shot learning (FSL) aims to transfer the knowledge learned from base categories with sufficient labelled data to novel categories with scarce known information. It is currently an important research question and has great practical values in the real-world applications. Despite extensive previous efforts are made on few-shot learning tasks, we emphasize that most existing methods did not take into account the distributional shift caused by sample selection bias in the FSL scenario. Such a selection bias can induce spurious correlation between the semantic causal features, that are causally and semantically related to the class label, and the other non-causal features. Critically, the former ones should be invariant across changes in distributions, highly related to the classes of interest, and thus well generalizable to novel classes, while the latter ones are not stable to changes in the distribution. To resolve this problem, we propose a novel data augmentation strategy dubbed as PatchMix that can break this spurious dependency by replacing the patch-level information and supervision of the query images with random gallery images from different classes from the query ones. We theoretically show that such an augmentation mechanism, different from existing ones, is able to identify the causal features. To further make these features to be discriminative enough for classification, we propose Correlation-guided Reconstruction (CGR) and Hardness-Aware module for instance discrimination and easier discrimination between similar classes. Moreover, such a framework can be adapted to the unsupervised FSL scenario.
translated by 谷歌翻译
零件代表不同对象的几何和语义相似性的基本单位。我们争辩说,部分知识应与观察到的对象课程中有款组合。对此,我们将3D组成零射击学习作为从看作识的零件泛化的问题,从而看成了语义分割。我们通过将任务与所提出的组成部分数据集进行基准测试,提供结构化研究。该数据集是通过处理原始PartNet来创建的,以最大化不同对象的部分重叠。现有点云部分段方法未能在此设置中概括到未遵守的对象类。作为解决方案,我们提出了分解共识,其将零件分割网络与部分评分网络相结合。我们方法的关键直觉是某些部件的分割掩码应该具有与其部分分数分开的零件分数的共识。在生成最合适的分割掩模之前在每个对象部分中定义的不同部分组合的两个网络原因。我们展示了我们的方法允许组成零射分段和广义零拍分类,并在两个任务中建立最先进的状态。
translated by 谷歌翻译
从一个非常少数标记的样品中学习新颖的课程引起了机器学习区域的越来越高。最近关于基于元学习或转移学习的基于范例的研究表明,良好特征空间的获取信息可以是在几次拍摄任务上实现有利性能的有效解决方案。在本文中,我们提出了一种简单但有效的范式,该范式解耦了学习特征表示和分类器的任务,并且只能通过典型的传送学习培训策略从基类嵌入体系结构的特征。为了在每个类别内保持跨基地和新类别和辨别能力的泛化能力,我们提出了一种双路径特征学习方案,其有效地结合了与对比特征结构的结构相似性。以这种方式,内部级别对齐和级别的均匀性可以很好地平衡,并且导致性能提高。三个流行基准测试的实验表明,当与简单的基于原型的分类器结合起来时,我们的方法仍然可以在电感或转换推理设置中的标准和广义的几次射击问题达到有希望的结果。
translated by 谷歌翻译
We present a conceptually simple, flexible, and general framework for few-shot learning, where a classifier must learn to recognise new classes given only few examples from each. Our method, called the Relation Network (RN), is trained end-to-end from scratch. During meta-learning, it learns to learn a deep distance metric to compare a small number of images within episodes, each of which is designed to simulate the few-shot setting. Once trained, a RN is able to classify images of new classes by computing relation scores between query images and the few examples of each new class without further updating the network. Besides providing improved performance on few-shot learning, our framework is easily extended to zero-shot learning. Extensive experiments on five benchmarks demonstrate that our simple approach provides a unified and effective approach for both of these two tasks.
translated by 谷歌翻译
少量学习致力于在少数样品上培训模型。这些方法中的大多数基于像素级或全局级别特征表示学习模型。但是,使用全局功能可能会丢失本地信息,并且使用像素级别功能可能会丢失图像的上下文语义。此外,这些作品只能在单个级别上衡量它们之间的关系,这并不全面而有效。如果查询图像可以通过三个不同的水平相似度量同时分类很好,则类内的查询图像可以在较小的特征空间中更紧密地分布,产生更多辨别特征映射。由此激励,我们提出了一种新的零件级别嵌入适应图形(PEAG)方法来生成特定于任务特征。此外,提出了一种多级度量学习(MML)方法,其不仅可以计算像素级相似度,而且还考虑了部分级别特征和全局级别特征的相似性。对流行的少量图像识别数据集进行了广泛的实验,证明了与最先进的方法相比的方法的有效性。我们的代码可用于\ url {https:/github.com/chenhaoxing/m2l}。
translated by 谷歌翻译