我们解决了几次拍摄语义分割(FSS)的问题,该问题旨在通过一些带有一些注释的样本分段为目标图像中的新型类对象。尽管通过结合基于原型的公制学习来进行最近的进步,但由于其特征表示差,现有方法仍然显示出在极端内部对象变化和语义相似的类别对象下的有限性能。为了解决这个问题,我们提出了一种针对FSS任务定制的双重原型对比学习方法,以有效地捕获代表性的语义。主要思想是通过增加阶级距离来鼓励原型更差异,同时减少了原型特征空间中的课堂距离。为此,我们首先向类别特定的对比丢失丢失具有动态原型字典,该字典字典存储在训练期间的类感知原型,从而实现相同的类原型和不同的类原型是不同的。此外,我们通过压缩每集内语义类的特征分布来提高类别无话的对比损失,以提高未经看不见的类别的概念能力。我们表明,所提出的双重原型对比学习方法优于Pascal-5i和Coco-20i数据集的最先进的FSS方法。该代码可用于:https://github.com/kwonjunn01/dpcl1。
translated by 谷歌翻译
几次拍摄的语义分割旨在将新颖的类对象分段为仅具有少数标记的支持图像。大多数高级解决方案利用度量学习框架,通过将每个查询功能与学习的类特定的原型匹配来执行分段。然而,由于特征比较不完整,该框架遭受了偏见的分类。为了解决这个问题,我们通过引入类别特定的和类别不可知的原型来提出自适应原型表示,从而构建与查询功能学习语义对齐的完整样本对。互补特征学习方式有效地丰富了特征比较,并有助于在几次拍摄设置中产生一个非偏见的分段模型。它用双分支端到端网络(\即,特定于类分支和类别不可知分支)实现,它生成原型,然后组合查询特征以执行比较。此外,所提出的类别无神不可话的分支简单而且有效。在实践中,它可以自适应地为查询图像生成多种类别 - 不可知的原型,并以自我对比方式学习特征对齐。广泛的Pascal-5 $ ^ i $和Coco-20 $ ^ i $展示了我们方法的优越性。在不牺牲推理效率的费用中,我们的模型实现了最先进的,导致1-Shot和5-Shot Settings进行语义分割。
translated by 谷歌翻译
Despite the great progress made by deep CNNs in image semantic segmentation, they typically require a large number of densely-annotated images for training and are difficult to generalize to unseen object categories. Few-shot segmentation has thus been developed to learn to perform segmentation from only a few annotated examples. In this paper, we tackle the challenging few-shot segmentation problem from a metric learning perspective and present PANet, a novel prototype alignment network to better utilize the information of the support set. Our PANet learns classspecific prototype representations from a few support images within an embedding space and then performs segmentation over the query images through matching each pixel to the learned prototypes. With non-parametric metric learning, PANet offers high-quality prototypes that are representative for each semantic class and meanwhile discriminative for different classes. Moreover, PANet introduces a prototype alignment regularization between support and query. With this, PANet fully exploits knowledge from the support and provides better generalization on few-shot segmentation. Significantly, our model achieves the mIoU score of 48.1% and 55.7% on PASCAL-5 i for 1-shot and 5-shot settings respectively, surpassing the state-of-the-art method by 1.8% and 8.6%.
translated by 谷歌翻译
Few-shot semantic segmentation aims to learn to segment new object classes with only a few annotated examples, which has a wide range of real-world applications. Most existing methods either focus on the restrictive setting of one-way few-shot segmentation or suffer from incomplete coverage of object regions. In this paper, we propose a novel few-shot semantic segmentation framework based on the prototype representation. Our key idea is to decompose the holistic class representation into a set of part-aware prototypes, capable of capturing diverse and fine-grained object features. In addition, we propose to leverage unlabeled data to enrich our part-aware prototypes, resulting in better modeling of intra-class variations of semantic objects. We develop a novel graph neural network model to generate and enhance the proposed part-aware prototypes based on labeled and unlabeled images. Extensive experimental evaluations on two benchmarks show that our method outperforms the prior art with a sizable margin.
translated by 谷歌翻译
以前的人类解析模型仅限于将人类解析为预定义的类,这对于通常具有新时尚项目类的实用时尚应用是不灵活的。在本文中,我们定义了一个新颖的单次人类解析(OSHP)任务,该任务需要将人解析为任何测试示例定义的一组开放式类别。在培训期间,仅公开基础课程,这仅与一部分测试时间类别重叠。为了解决OSHP中的三个主要挑战,即小型,测试偏见和类似部分,我们设计了一个端到端的一击人类解析网络(EOP-NET)。首先,提出了一个端到端的人解析框架,以将查询图像解析为粗粒和细粒度的人类类别,该框架建立了一个强大的嵌入网络,具有在不同粒度上共享的丰富语义信息,从人类阶级。然后,我们通过逐步平滑训练时间静态原型来提出学习势头更新的原型,这有助于稳定训练并学习健壮的功能。此外,我们设计了一种双重度量学习方案,该方案鼓励网络增强特征的表示能力和可传递性。因此,我们的EOP-NET可以学习代表性功能,这些功能可以快速适应新颖的类并减轻测试偏置问题。此外,我们在原型水平上采用了对比损失,从而在细粒度度量空间中执行了类别之间的距离,以区分相似的部分。我们根据OSHP任务量身定制了三个现有的人类解析基准。新基准测试的实验表明,EOP-NET的表现优于大量边缘的代表性单次分割模型,这是进一步研究这项新任务的强大基线。源代码可从https://github.com/charleshhy/one-shot-human-parsing获得。
translated by 谷歌翻译
在视觉识别任务中,很少的学习需要在很少的支持示例中学习对象类别的能力。鉴于深度学习的发展,它的重新流行主要是图像分类。这项工作着重于几片语义细分,这仍然是一个未开发的领域。最近的一些进步通常仅限于单级少量分段。在本文中,我们首先介绍了一个新颖的多通道(类)编码和解码体系结构,该体系结构有效地将多尺度查询信息和多类支持信息融合到一个查询支持嵌入中。多级分割直接在此嵌入后解码。为了获得更好的特征融合,在体系结构中提出了多层注意机制,其中包括对支持功能调制的关注和多尺度组合的注意力。最后,为了增强嵌入式空间学习,引入了一个额外的像素度量学习模块,并在输入图像的像素级嵌入式上提出了三重损失。对标准基准Pascal-5i和Coco-20i进行的广泛实验显示了我们方法对最新技术的明显好处
translated by 谷歌翻译
Despite the remarkable success of existing methods for few-shot segmentation, there remain two crucial challenges. First, the feature learning for novel classes is suppressed during the training on base classes in that the novel classes are always treated as background. Thus, the semantics of novel classes are not well learned. Second, most of existing methods fail to consider the underlying semantic gap between the support and the query resulting from the representative bias by the scarce support samples. To circumvent these two challenges, we propose to activate the discriminability of novel classes explicitly in both the feature encoding stage and the prediction stage for segmentation. In the feature encoding stage, we design the Semantic-Preserving Feature Learning module (SPFL) to first exploit and then retain the latent semantics contained in the whole input image, especially those in the background that belong to novel classes. In the prediction stage for segmentation, we learn an Self-Refined Online Foreground-Background classifier (SROFB), which is able to refine itself using the high-confidence pixels of query image to facilitate its adaptation to the query image and bridge the support-query semantic gap. Extensive experiments on PASCAL-5$^i$ and COCO-20$^i$ datasets demonstrates the advantages of these two novel designs both quantitatively and qualitatively.
translated by 谷歌翻译
很少有语义细分旨在识别一个看不见类别的对象区域,只有几个带注释的示例作为监督。几次分割的关键是在支持图像和查询图像之间建立牢固的语义关系,并防止过度拟合。在本文中,我们提出了一个有效的多相似性超关联网络(MSHNET),以解决几个射击语义分割问题。在MSHNET中,我们提出了一种新的生成原型相似性(GPS),与余弦相似性可以在支持图像和查询图像之间建立牢固的语义关系。基于全局特征的本地生成的原型相似性在逻辑上与基于本地特征的全局余弦相似性互补,并且可以通过同时使用两个相似性来更全面地表达查询图像和受支持图像之间的关系。此外,我们提出了MSHNET中的对称合并块(SMB),以有效合并多层,多弹射和多相似性超相关特征。 MSHNET是基于相似性而不是特定类别特征而构建的,这些特征可以实现更一般的统一性并有效地减少过度拟合。在两个基准的语义分割数据集Pascal-5i和Coco-20i上,MSHNET在1次和5次语义分段任务上实现了新的最先进的表演。
translated by 谷歌翻译
就像其他少量学习问题一样,很少拍摄的细分旨在最大限度地减少手动注释的需求,这在分割任务中特别昂贵。即使少量拍摄设置降低了新型测试类的这种成本,仍然需要注释培训数据。为了减轻这种需求,我们提出了一种自我监督的培训方法,用于学习几次射门分割模型。我们首先使用无监督的显着性估计来获得图像上的伪掩码。然后,我们将在不同的伪掩模的不同分割和增强图像的不同分裂上培训一个简单的原型模型。我们广泛的实验表明,该方法达到了有希望的结果,突出了自我监督培训的潜力。据我们所知,这是第一个解决自然图像上无监督的少量分割问题的第一项工作。
translated by 谷歌翻译
Few-shot segmentation (FSS) aims to segment unseen classes using a few annotated samples. Typically, a prototype representing the foreground class is extracted from annotated support image(s) and is matched to features representing each pixel in the query image. However, models learnt in this way are insufficiently discriminatory, and often produce false positives: misclassifying background pixels as foreground. Some FSS methods try to address this issue by using the background in the support image(s) to help identify the background in the query image. However, the backgrounds of theses images is often quite distinct, and hence, the support image background information is uninformative. This article proposes a method, QSR, that extracts the background from the query image itself, and as a result is better able to discriminate between foreground and background features in the query image. This is achieved by modifying the training process to associate prototypes with class labels including known classes from the training data and latent classes representing unknown background objects. This class information is then used to extract a background prototype from the query image. To successfully associate prototypes with class labels and extract a background prototype that is capable of predicting a mask for the background regions of the image, the machinery for extracting and using foreground prototypes is induced to become more discriminative between different classes. Experiments for both 1-shot and 5-shot FSS on both the PASCAL-5i and COCO-20i datasets demonstrate that the proposed method results in a significant improvement in performance for the baseline methods it is applied to. As QSR operates only during training, these improved results are produced with no extra computational complexity during testing.
translated by 谷歌翻译
现有的少数射击分段方法基于支持 - 引人入胜的匹配框架取得了巨大进展。但是,他们仍然受到所提供的少量支撑的覆盖率有限的覆盖范围。由简单的格式塔原理激励,即属于同一对象的像素比同一班级的不同对象的像素更相似,我们提出了一种新颖的自支撑匹配策略来减轻此问题,该策略使用查询原型来匹配查询功能查询原型是从高信心查询预测中收集的。该策略可以有效地捕获查询对象的一致潜在特性,从而符合查询功能。我们还提出了一个自适应的自支持背景原型生成模块和自支撑损失,以进一步促进自支撑匹配过程。我们的自支撑网络大大提高了原型质量,更强的骨架和更多支持,并在多个数据集上实现了SOTA。代码位于\ url {https://github.com/fanq15/ssp}。
translated by 谷歌翻译
虽然监督语义分割存在重大进展,但由于领域偏差,将分段模型部署到解除域来仍然具有挑战性。域适应可以通过将知识从标记的源域传输到未标记的目标域来帮助。以前的方法通常尝试执行对全局特征的适应,然而,通常忽略要计入特征空间中的每个像素的本地语义附属机构,导致较少的可辨性。为解决这个问题,我们提出了一种用于细粒度阶级对齐的新型语义原型对比学习框架。具体地,语义原型提供了用于每个像素鉴别的表示学习的监控信号,并且需要在特征空间中的源极和目标域的每个像素来反映相应的语义原型的内容。通过这种方式,我们的框架能够明确地制作较近的类别的像素表示,并且进一步越来越多地分开,以改善分割模型的鲁棒性以及减轻域移位问题。与最先进的方法相比,我们的方法易于实施并达到优异的结果,如众多实验所展示的那样。代码在[此HTTPS URL](https://github.com/binhuixie/spcl)上公开可用。
translated by 谷歌翻译
Semantic segmentation assigns a class label to each image pixel. This dense prediction problem requires large amounts of manually annotated data, which is often unavailable. Few-shot learning aims to learn the pattern of a new category with only a few annotated examples. In this paper, we formulate the few-shot semantic segmentation problem from 1-way (class) to N-way (classes). Inspired by few-shot classification, we propose a generalized framework for few-shot semantic segmentation with an alternative training scheme. The framework is based on prototype learning and metric learning. Our approach outperforms the baselines by a large margin and shows comparable performance for 1-way few-shot semantic segmentation on PASCAL VOC 2012 dataset.
translated by 谷歌翻译
很少有分段旨在学习一个细分模型,该模型可以推广到只有几个培训图像的新课程。在本文中,我们提出了一个交叉引用和局部全球条件网络(CRCNET),以进行几次分割。与以前仅预测查询图像掩码的作品不同,我们提出的模型同时对支持图像和查询图像进行了预测。我们的网络可以更好地在两个图像中使用交叉引用机制找到同时出现的对象,从而有助于少量分割任务。为了进一步改善功能比较,我们开发了一个局部全球条件模块,以捕获全球和本地关系。我们还开发了一个掩模修补模块,以重新完善前景区域的预测。Pascal VOC 2012,MS Coco和FSS-1000数据集的实验表明,我们的网络实现了新的最新性能。
translated by 谷歌翻译
零拍摄对象检测(ZSD),将传统检测模型扩展到检测来自Unseen类别的对象的任务,已成为计算机视觉中的新挑战。大多数现有方法通过严格的映射传输策略来解决ZSD任务,这可能导致次优ZSD结果:1)这些模型的学习过程忽略了可用的看不见的类信息,因此可以轻松地偏向所看到的类别; 2)原始视觉特征空间并不合适,缺乏歧视信息。为解决这些问题,我们开发了一种用于ZSD的新型语义引导的对比网络,命名为Contrastzsd,一种检测框架首先将对比学习机制带入零拍摄检测的领域。特别地,对比度包括两个语义导向的对比学学习子网,其分别与区域类别和区域区域对之间形成对比。成对对比度任务利用从地面真理标签和预定义的类相似性分布派生的附加监督信号。在那些明确的语义监督的指导下,模型可以了解更多关于看不见的类别的知识,以避免看到概念的偏见问题,同时优化视觉功能的数据结构,以更好地辨别更好的视觉语义对齐。广泛的实验是在ZSD,即Pascal VOC和MS Coco的两个流行基准上进行的。结果表明,我们的方法优于ZSD和广义ZSD任务的先前最先进的。
translated by 谷歌翻译
从一个非常少数标记的样品中学习新颖的课程引起了机器学习区域的越来越高。最近关于基于元学习或转移学习的基于范例的研究表明,良好特征空间的获取信息可以是在几次拍摄任务上实现有利性能的有效解决方案。在本文中,我们提出了一种简单但有效的范式,该范式解耦了学习特征表示和分类器的任务,并且只能通过典型的传送学习培训策略从基类嵌入体系结构的特征。为了在每个类别内保持跨基地和新类别和辨别能力的泛化能力,我们提出了一种双路径特征学习方案,其有效地结合了与对比特征结构的结构相似性。以这种方式,内部级别对齐和级别的均匀性可以很好地平衡,并且导致性能提高。三个流行基准测试的实验表明,当与简单的基于原型的分类器结合起来时,我们的方法仍然可以在电感或转换推理设置中的标准和广义的几次射击问题达到有希望的结果。
translated by 谷歌翻译
上下文信息对于各种计算机视觉任务至关重要,以前的作品通常设计插件模块和结构损失,以有效地提取和汇总全局上下文。这些方法利用优质标签来优化模型,但忽略了精细训练的特征也是宝贵的训练资源,可以将优选的分布引入硬像素(即错误分类的像素)。受到无监督范式的对比学习的启发,我们以监督的方式应用了对比度损失,并重新设计了损失功能,以抛弃无监督学习的刻板印象(例如,积极和负面的不平衡,对锚定计算的混淆)。为此,我们提出了阳性阴性相等的对比损失(PNE损失),这增加了阳性嵌入对锚的潜在影响,并同时对待阳性和阴性样本对。 PNE损失可以直接插入现有的语义细分框架中,并以可忽视的额外计算成本导致出色的性能。我们利用许多经典的分割方法(例如,DeepLabv3,Ocrnet,Upernet)和骨干(例如Resnet,Hrnet,Swin Transformer)进行全面的实验,并在两个基准数据集(例如,例如,例如,,例如城市景观和可可固定)。我们的代码将公开
translated by 谷歌翻译
少量分割旨在培训一个分割模型,可以快速适应具有少量示例的新型课程。传统的训练范例是学习对从支持图像的特征上的查询图像进行预测。以前的方法仅利用支持图像的语义级原型作为条件信息。这些方法不能利用用于查询预测的所有像素 - WISE支持信息,这对于分割任务来说是至关重要的。在本文中,我们专注于利用支持和查询图像之间的像素方面的关系来促进几次拍摄分段任务。我们设计一种新颖的循环一致的变压器(Cyctr)模块,将像素天然气支持功能聚合到查询中。 Cyctr在来自不同图像的特征之间进行跨关注,即支持和查询图像。我们观察到可能存在意外的无关像素级支持特征。直接执行跨关注可以将这些功能从支持汇总到查询和偏置查询功能。因此,我们建议使用新的循环一致的注意机制来滤除可能的有害支持特征,并鼓励查询功能从支持图像上参加最富有信息的像素。所有几次分割基准测试的实验表明,与以前的最先进的方法相比,我们所提出的Cyctr导致显着的改进。具体而言,在Pascal-$ 5 ^ i $和20 ^ i $ datasets上,我们达到了66.6%和45.6%的5次分割,优于以前的最先进方法分别为4.6%和7.1%。
translated by 谷歌翻译
虽然图像级弱监督的语义分割(WSSS)与类激活地图(CAM)作为基石取得了很大的进展,但分类和分割之间的大型监督差距仍然妨碍模型以产生用于分割的更完整和精确的伪掩模。在这项研究中,我们提出了弱监管的像素到原型对比度,其可以提供像素级监控信号来缩小间隙。由两个直观的前沿引导,我们的方法在不同视图和图像的单个视图中执行,旨在施加跨视图特征语义一致性正则化,并促进特征空间的帧内(互联)紧凑性(色散)。我们的方法可以无缝地纳入现有的WSSS模型,而没有对基础网络的任何更改,并且不会产生任何额外的推断负担。广泛的实验表明,我们的方法始终如一地通过大幅度改善两个强的基线,证明了有效性。具体而言,建于接缝的顶部,我们将初始种子Miou 2012从55.4%提高到Pascal VOC上。此外,通过我们的方法武装,我们从70.8%增加到73.6%的EPS分割Miou,实现了新的最先进。
translated by 谷歌翻译
由顺序训练和元训练阶段组成的两阶段训练范式已广泛用于当前的几次学习(FSL)研究。这些方法中的许多方法都使用自我监督的学习和对比度学习来实现新的最新结果。但是,在FSL培训范式的两个阶段,对比度学习的潜力仍未得到充分利用。在本文中,我们提出了一个新颖的基于学习的框架,该框架将对比度学习无缝地整合到两个阶段中,以提高少量分类的性能。在预训练阶段,我们提出了特征向量与特征映射和特征映射与特征映射的形式的自我监督对比损失,该图形与特征映射使用全局和本地信息来学习良好的初始表示形式。在元训练阶段,我们提出了一种跨视图的情节训练机制,以对同一情节的两个不同视图进行最近的质心分类,并采用基于它们的距离尺度对比度损失。这两种策略迫使模型克服观点之间的偏见并促进表示形式的可转让性。在三个基准数据集上进行的广泛实验表明,我们的方法可以实现竞争成果。
translated by 谷歌翻译