逐渐射击的语义分割(IFSS)目标以逐步扩展模型的能力逐渐扩大了仅由几个样本监督的新图像。但是,在旧课程中学到的特征可能会大大漂移,从而导致灾难性遗忘。此外,很少有针对新课程的像素级细分样本会导致每个学习课程中臭名昭著的过度拟合问题。在本文中,我们明确表示基于类别的语义分割的知识作为类别嵌入和超级类嵌入,前者描述了独家的语义属性,而后者则表示超级类知识作为类共享语义属性。为了解决IFSS问题,我们提出了EHNET,即从两个方面嵌入自适应更高和超级级表示网络。首先,我们提出了一种嵌入自适应的策略,以避免特征漂移,该策略通过超级班级表示保持旧知识,并使用类似课程的方案自适应地更新类别嵌入类别,以涉及在各个会话中学习的新课程。其次,为了抵制很少有培训样本引起的过度拟合问题,通过将所有类别嵌入以进行初始化并与新班级的类别保持一致以进行增强,从而学习了超级班级的嵌入,从而使学会知识有助于学习新知识,从而减轻了绩效绩效的绩效,依赖培训数据量表。值得注意的是,这两种设计为具有足够语义和有限偏见的类提供了表示能力,从而可以执行需要高语义依赖性的分割任务。 Pascal-5i和可可数据集的实验表明,EHNET具有显着优势的新最先进的性能。
translated by 谷歌翻译
很少有分段旨在学习一个细分模型,该模型可以推广到只有几个培训图像的新课程。在本文中,我们提出了一个交叉引用和局部全球条件网络(CRCNET),以进行几次分割。与以前仅预测查询图像掩码的作品不同,我们提出的模型同时对支持图像和查询图像进行了预测。我们的网络可以更好地在两个图像中使用交叉引用机制找到同时出现的对象,从而有助于少量分割任务。为了进一步改善功能比较,我们开发了一个局部全球条件模块,以捕获全球和本地关系。我们还开发了一个掩模修补模块,以重新完善前景区域的预测。Pascal VOC 2012,MS Coco和FSS-1000数据集的实验表明,我们的网络实现了新的最新性能。
translated by 谷歌翻译
几次拍摄的语义分割旨在将新颖的类对象分段为仅具有少数标记的支持图像。大多数高级解决方案利用度量学习框架,通过将每个查询功能与学习的类特定的原型匹配来执行分段。然而,由于特征比较不完整,该框架遭受了偏见的分类。为了解决这个问题,我们通过引入类别特定的和类别不可知的原型来提出自适应原型表示,从而构建与查询功能学习语义对齐的完整样本对。互补特征学习方式有效地丰富了特征比较,并有助于在几次拍摄设置中产生一个非偏见的分段模型。它用双分支端到端网络(\即,特定于类分支和类别不可知分支)实现,它生成原型,然后组合查询特征以执行比较。此外,所提出的类别无神不可话的分支简单而且有效。在实践中,它可以自适应地为查询图像生成多种类别 - 不可知的原型,并以自我对比方式学习特征对齐。广泛的Pascal-5 $ ^ i $和Coco-20 $ ^ i $展示了我们方法的优越性。在不牺牲推理效率的费用中,我们的模型实现了最先进的,导致1-Shot和5-Shot Settings进行语义分割。
translated by 谷歌翻译
很少有课堂学习(FSCIL)着重于设计学习算法,这些学习算法可以不断地从几个样本中学习一系列新任务,而不会忘记旧任务。困难是,从新任务中进行一系列有限数据的培训会导致严重的过度拟合问题,并导致众所周知的灾难性遗忘问题。现有研究主要利用图像信息,例如存储以前任务的图像知识或限制分类器更新。但是,他们忽略了分析课堂标签的信息丰富且较少的嘈杂文本信息。在这项工作中,我们建议通过采用内存提示来利用标签文本信息。内存提示可以依次学习新数据,同时存储先前的知识。此外,为了优化内存提示而不破坏存储的知识,我们提出了基于刺激的训练策略。它根据图像嵌入刺激(即嵌入元素的分布)来优化内存提示。实验表明,我们提出的方法的表现优于所有先前的最新方法,从而大大减轻了灾难性的遗忘和过度拟合问题。
translated by 谷歌翻译
对象检测是计算机视觉和图像处理中的基本任务。基于深度学习的对象探测器非常成功,具有丰富的标记数据。但在现实生活中,它不保证每个对象类别都有足够的标记样本进行培训。当训练数据有限时,这些大型物体探测器易于过度装备。因此,有必要将几次拍摄的学习和零射击学习引入对象检测,这可以将低镜头对象检测命名在一起。低曝光对象检测(LSOD)旨在检测来自少数甚至零标记数据的对象,其分别可以分为几次对象检测(FSOD)和零拍摄对象检测(ZSD)。本文对基于深度学习的FSOD和ZSD进行了全面的调查。首先,本调查将FSOD和ZSD的方法分类为不同的类别,并讨论了它们的利弊。其次,本调查审查了数据集设置和FSOD和ZSD的评估指标,然后分析了在这些基准上的不同方法的性能。最后,本调查讨论了FSOD和ZSD的未来挑战和有希望的方向。
translated by 谷歌翻译
很少有语义细分旨在识别一个看不见类别的对象区域,只有几个带注释的示例作为监督。几次分割的关键是在支持图像和查询图像之间建立牢固的语义关系,并防止过度拟合。在本文中,我们提出了一个有效的多相似性超关联网络(MSHNET),以解决几个射击语义分割问题。在MSHNET中,我们提出了一种新的生成原型相似性(GPS),与余弦相似性可以在支持图像和查询图像之间建立牢固的语义关系。基于全局特征的本地生成的原型相似性在逻辑上与基于本地特征的全局余弦相似性互补,并且可以通过同时使用两个相似性来更全面地表达查询图像和受支持图像之间的关系。此外,我们提出了MSHNET中的对称合并块(SMB),以有效合并多层,多弹射和多相似性超相关特征。 MSHNET是基于相似性而不是特定类别特征而构建的,这些特征可以实现更一般的统一性并有效地减少过度拟合。在两个基准的语义分割数据集Pascal-5i和Coco-20i上,MSHNET在1次和5次语义分段任务上实现了新的最先进的表演。
translated by 谷歌翻译
Despite the remarkable success of existing methods for few-shot segmentation, there remain two crucial challenges. First, the feature learning for novel classes is suppressed during the training on base classes in that the novel classes are always treated as background. Thus, the semantics of novel classes are not well learned. Second, most of existing methods fail to consider the underlying semantic gap between the support and the query resulting from the representative bias by the scarce support samples. To circumvent these two challenges, we propose to activate the discriminability of novel classes explicitly in both the feature encoding stage and the prediction stage for segmentation. In the feature encoding stage, we design the Semantic-Preserving Feature Learning module (SPFL) to first exploit and then retain the latent semantics contained in the whole input image, especially those in the background that belong to novel classes. In the prediction stage for segmentation, we learn an Self-Refined Online Foreground-Background classifier (SROFB), which is able to refine itself using the high-confidence pixels of query image to facilitate its adaptation to the query image and bridge the support-query semantic gap. Extensive experiments on PASCAL-5$^i$ and COCO-20$^i$ datasets demonstrates the advantages of these two novel designs both quantitatively and qualitatively.
translated by 谷歌翻译
新课程经常出现在我们不断变化的世界中,例如社交媒体中的新兴主题和电子商务中的新产品。模型应识别新的类,同时保持对旧类的可区分性。在严重的情况下,只有有限的新颖实例可以逐步更新模型。在不忘记旧课程的情况下识别几个新课程的任务称为少数类的课程学习(FSCIL)。在这项工作中,我们通过学习多相增量任务(limit)提出了一个基于元学习的FSCIL的新范式,该任务从基本数据集中综合了伪造的FSCIL任务。假任务的数据格式与“真实”的增量任务一致,我们可以通过元学习构建可概括的特征空间。此外,限制还基于变压器构建了一个校准模块,该模块将旧类分类器和新类原型校准为相同的比例,并填补语义间隙。校准模块还可以自适应地将具有设置对集合函数的特定于实例的嵌入方式化。限制有效地适应新课程,同时拒绝忘记旧课程。在三个基准数据集(CIFAR100,Miniimagenet和Cub200)和大规模数据集上进行的实验,即Imagenet ILSVRC2012验证以实现最新性能。
translated by 谷歌翻译
我们解决了几次拍摄语义分割(FSS)的问题,该问题旨在通过一些带有一些注释的样本分段为目标图像中的新型类对象。尽管通过结合基于原型的公制学习来进行最近的进步,但由于其特征表示差,现有方法仍然显示出在极端内部对象变化和语义相似的类别对象下的有限性能。为了解决这个问题,我们提出了一种针对FSS任务定制的双重原型对比学习方法,以有效地捕获代表性的语义。主要思想是通过增加阶级距离来鼓励原型更差异,同时减少了原型特征空间中的课堂距离。为此,我们首先向类别特定的对比丢失丢失具有动态原型字典,该字典字典存储在训练期间的类感知原型,从而实现相同的类原型和不同的类原型是不同的。此外,我们通过压缩每集内语义类的特征分布来提高类别无话的对比损失,以提高未经看不见的类别的概念能力。我们表明,所提出的双重原型对比学习方法优于Pascal-5i和Coco-20i数据集的最先进的FSS方法。该代码可用于:https://github.com/kwonjunn01/dpcl1。
translated by 谷歌翻译
人类的持续学习(CL)能力与稳定性与可塑性困境密切相关,描述了人类如何实现持续的学习能力和保存的学习信息。自发育以来,CL的概念始终存在于人工智能(AI)中。本文提出了对CL的全面审查。与之前的评论不同,主要关注CL中的灾难性遗忘现象,本文根据稳定性与可塑性机制的宏观视角来调查CL。类似于生物对应物,“智能”AI代理商应该是I)记住以前学到的信息(信息回流); ii)不断推断新信息(信息浏览:); iii)转移有用的信息(信息转移),以实现高级CL。根据分类学,评估度量,算法,应用以及一些打开问题。我们的主要贡献涉及I)从人工综合情报层面重新检查CL; ii)在CL主题提供详细和广泛的概述; iii)提出一些关于CL潜在发展的新颖思路。
translated by 谷歌翻译
很少有课堂学习(FSCIL)旨在仅用几个样本不断学习新概念,这很容易遭受灾难性的遗忘和过度拟合的问题。旧阶级的无法获得性和新颖样本的稀缺性使实现保留旧知识和学习新颖概念之间的权衡很大。受到不同模型的启发,我们在学习新颖概念时记住了不同的知识,我们提出了一个记忆的补充网络(MCNET),以整合多个模型,以在新任务中相互补充不同的记忆知识。此外,为了用很少的新样本更新模型,我们开发了一个原型平滑的硬矿三元组(PSHT)损失,以将新型样品不仅在当前任务中彼此远离,而且在旧分布中脱颖而出。在三个基准数据集(例如CIFAR100,Miniimagenet和Cub200)上进行了广泛的实验,证明了我们提出的方法的优势。
translated by 谷歌翻译
在视觉识别任务中,很少的学习需要在很少的支持示例中学习对象类别的能力。鉴于深度学习的发展,它的重新流行主要是图像分类。这项工作着重于几片语义细分,这仍然是一个未开发的领域。最近的一些进步通常仅限于单级少量分段。在本文中,我们首先介绍了一个新颖的多通道(类)编码和解码体系结构,该体系结构有效地将多尺度查询信息和多类支持信息融合到一个查询支持嵌入中。多级分割直接在此嵌入后解码。为了获得更好的特征融合,在体系结构中提出了多层注意机制,其中包括对支持功能调制的关注和多尺度组合的注意力。最后,为了增强嵌入式空间学习,引入了一个额外的像素度量学习模块,并在输入图像的像素级嵌入式上提出了三重损失。对标准基准Pascal-5i和Coco-20i进行的广泛实验显示了我们方法对最新技术的明显好处
translated by 谷歌翻译
很少有分割的目的是仅给出少数标记的样品,旨在细分看不见的级对象。原型学习,支持功能通过平均全局和局部对象信息产生单个原型,在FSS中已广泛使用。但是,仅利用原型矢量可能不足以代表所有训练数据的功能。为了提取丰富的特征并做出更精确的预测,我们提出了一个多相似性和注意力网络(MSANET),包括两个新型模块,一个多相似性模块和一个注意模块。多相似模块利用支持图像和查询图像的多个特征图来估计准确的语义关系。注意模块指示网络专注于相关的信息。该网络在标准FSS数据集,Pascal-5i 1-Shot,Pascal-5i 5-Shot,Coco-20i 1-Shot和Coco-20i 5-Shot上进行了测试。具有RESNET-101骨架的MSANET可在所有4基准测试数据集中达到最先进的性能,而平均交叉点(MIOU)为69.13%,73.99%,51.09%,56.80%。代码可在https://github.com/aivresearch/msanet上获得
translated by 谷歌翻译
共同出现的视觉模式使上下文聚集成为语义分割的重要范式。现有的研究重点是建模图像中的上下文,同时忽略图像以下相应类别的有价值的语义。为此,我们提出了一个新颖的软采矿上下文信息,超出了名为McIbi ++的图像范式,以进一步提高像素级表示。具体来说,我们首先设置了动态更新的内存模块,以存储各种类别的数据集级别的分布信息,然后利用信息在网络转发过程中产生数据集级别类别表示。之后,我们为每个像素表示形式生成一个类概率分布,并以类概率分布作为权重进行数据集级上下文聚合。最后,使用汇总的数据集级别和传统的图像级上下文信息来增强原始像素表示。此外,在推论阶段,我们还设计了一种粗到最新的迭代推理策略,以进一步提高分割结果。 MCIBI ++可以轻松地纳入现有的分割框架中,并带来一致的性能改进。此外,MCIBI ++可以扩展到视频语义分割框架中,比基线进行了大量改进。配备MCIBI ++,我们在七个具有挑战性的图像或视频语义分段基准测试中实现了最先进的性能。
translated by 谷歌翻译
Few-shot object detection (FSOD), which aims at learning a generic detector that can adapt to unseen tasks with scarce training samples, has witnessed consistent improvement recently. However, most existing methods ignore the efficiency issues, e.g., high computational complexity and slow adaptation speed. Notably, efficiency has become an increasingly important evaluation metric for few-shot techniques due to an emerging trend toward embedded AI. To this end, we present an efficient pretrain-transfer framework (PTF) baseline with no computational increment, which achieves comparable results with previous state-of-the-art (SOTA) methods. Upon this baseline, we devise an initializer named knowledge inheritance (KI) to reliably initialize the novel weights for the box classifier, which effectively facilitates the knowledge transfer process and boosts the adaptation speed. Within the KI initializer, we propose an adaptive length re-scaling (ALR) strategy to alleviate the vector length inconsistency between the predicted novel weights and the pretrained base weights. Finally, our approach not only achieves the SOTA results across three public benchmarks, i.e., PASCAL VOC, COCO and LVIS, but also exhibits high efficiency with 1.8-100x faster adaptation speed against the other methods on COCO/LVIS benchmark during few-shot transfer. To our best knowledge, this is the first work to consider the efficiency problem in FSOD. We hope to motivate a trend toward powerful yet efficient few-shot technique development. The codes are publicly available at https://github.com/Ze-Yang/Efficient-FSOD.
translated by 谷歌翻译
表面缺陷检测是工业质量检查最重要的过程之一。基于深度学习的表面缺陷检测方法已显示出巨大的潜力。但是,表现出色的模型通常需要大量的训练数据,并且只能检测出在训练阶段出现的缺陷。当面对少量数据数据时,缺陷检测模型不可避免地会遭受灾难性遗忘和错误分类问题的困扰。为了解决这些问题,本文提出了一个新的知识蒸馏网络,称为双知识对齐网络(DKAN)。提出的DKAN方法遵循预处理的转移学习范式,并设计了用于微调的知识蒸馏框架。具体而言,提出了增量RCNN以实现不同类别的分离稳定特征表示。在此框架下,设计特征知识对齐(FKA)的损失是在类不足的特征图之间设计的,以解决灾难性的遗忘问题,而logit知识对准(LKA)损失在logit分布之间部署以解决错误分类问题。实验已经在递增的几个neu-det数据集上进行,结果表明,DKAN在各种几个场景上的其他方法都优于其他方法,对平均平均精度度量指标最高可达6.65%,这证明了该方法的有效性。
translated by 谷歌翻译
Despite the great progress made by deep CNNs in image semantic segmentation, they typically require a large number of densely-annotated images for training and are difficult to generalize to unseen object categories. Few-shot segmentation has thus been developed to learn to perform segmentation from only a few annotated examples. In this paper, we tackle the challenging few-shot segmentation problem from a metric learning perspective and present PANet, a novel prototype alignment network to better utilize the information of the support set. Our PANet learns classspecific prototype representations from a few support images within an embedding space and then performs segmentation over the query images through matching each pixel to the learned prototypes. With non-parametric metric learning, PANet offers high-quality prototypes that are representative for each semantic class and meanwhile discriminative for different classes. Moreover, PANet introduces a prototype alignment regularization between support and query. With this, PANet fully exploits knowledge from the support and provides better generalization on few-shot segmentation. Significantly, our model achieves the mIoU score of 48.1% and 55.7% on PASCAL-5 i for 1-shot and 5-shot settings respectively, surpassing the state-of-the-art method by 1.8% and 8.6%.
translated by 谷歌翻译
Few-shot semantic segmentation aims to learn to segment new object classes with only a few annotated examples, which has a wide range of real-world applications. Most existing methods either focus on the restrictive setting of one-way few-shot segmentation or suffer from incomplete coverage of object regions. In this paper, we propose a novel few-shot semantic segmentation framework based on the prototype representation. Our key idea is to decompose the holistic class representation into a set of part-aware prototypes, capable of capturing diverse and fine-grained object features. In addition, we propose to leverage unlabeled data to enrich our part-aware prototypes, resulting in better modeling of intra-class variations of semantic objects. We develop a novel graph neural network model to generate and enhance the proposed part-aware prototypes based on labeled and unlabeled images. Extensive experimental evaluations on two benchmarks show that our method outperforms the prior art with a sizable margin.
translated by 谷歌翻译
以前的人类解析模型仅限于将人类解析为预定义的类,这对于通常具有新时尚项目类的实用时尚应用是不灵活的。在本文中,我们定义了一个新颖的单次人类解析(OSHP)任务,该任务需要将人解析为任何测试示例定义的一组开放式类别。在培训期间,仅公开基础课程,这仅与一部分测试时间类别重叠。为了解决OSHP中的三个主要挑战,即小型,测试偏见和类似部分,我们设计了一个端到端的一击人类解析网络(EOP-NET)。首先,提出了一个端到端的人解析框架,以将查询图像解析为粗粒和细粒度的人类类别,该框架建立了一个强大的嵌入网络,具有在不同粒度上共享的丰富语义信息,从人类阶级。然后,我们通过逐步平滑训练时间静态原型来提出学习势头更新的原型,这有助于稳定训练并学习健壮的功能。此外,我们设计了一种双重度量学习方案,该方案鼓励网络增强特征的表示能力和可传递性。因此,我们的EOP-NET可以学习代表性功能,这些功能可以快速适应新颖的类并减轻测试偏置问题。此外,我们在原型水平上采用了对比损失,从而在细粒度度量空间中执行了类别之间的距离,以区分相似的部分。我们根据OSHP任务量身定制了三个现有的人类解析基准。新基准测试的实验表明,EOP-NET的表现优于大量边缘的代表性单次分割模型,这是进一步研究这项新任务的强大基线。源代码可从https://github.com/charleshhy/one-shot-human-parsing获得。
translated by 谷歌翻译
少量对象检测(FSOD)是计算机视觉中快速生长的领域。它包括查找给定的一组类的所有出现,只有每个类的少数注释的示例。已经提出了许多方法来解决这一挑战,其中大部分是基于注意机制。然而,各种经典对象检测框架和培训策略使方法之间的性能比较困难。特别是对于基于关注的FSOD方法,比较不同关注机制对性能的影响是费力的。本文旨在填补这种缺点。为此,提出了一种灵活的框架,以允许实施文献中可用的大部分注意技术。要正确介绍这样的框架,首先提供了对现有FSOD方法的详细审查。然后在框架内重新实现一些不同的关注机制,并与固定的所有其他参数进行比较。
translated by 谷歌翻译