很少有分段旨在学习一个细分模型,该模型可以推广到只有几个培训图像的新课程。在本文中,我们提出了一个交叉引用和局部全球条件网络(CRCNET),以进行几次分割。与以前仅预测查询图像掩码的作品不同,我们提出的模型同时对支持图像和查询图像进行了预测。我们的网络可以更好地在两个图像中使用交叉引用机制找到同时出现的对象,从而有助于少量分割任务。为了进一步改善功能比较,我们开发了一个局部全球条件模块,以捕获全球和本地关系。我们还开发了一个掩模修补模块,以重新完善前景区域的预测。Pascal VOC 2012,MS Coco和FSS-1000数据集的实验表明,我们的网络实现了新的最新性能。
translated by 谷歌翻译
在这项工作中,我们解决了艰巨的任务。几次射击语义细分至关重要,以充分利用支持信息。以前的方法通常采用蒙版的平均池在支持功能上,以将支持线索作为全球向量提取,通常由显着部分主导并失去了某些基本线索。在这项工作中,我们认为希望每个支持像素的信息都需要传输到所有查询像素,并提出一个具有最佳传输匹配模块的对应匹配网络(CMNET),以挖掘查询和支持图像之间的对应关系。此外,从注释的支持图像中充分利用本地和全局信息至关重要。为此,我们提出了一个消息流模块,以沿着同一图像内的内流传播消息,并在支持图像和查询图像之间进行交叉流,这极大地有助于增强本地特征表示。 Pascal VOC 2012,Coco女士和FSS-1000数据集的实验表明,我们的网络实现了新的最先进的少细分性能。
translated by 谷歌翻译
经过图像级标签训练的弱监督图像分割通常在伪地面上的生成期间因物体区域的覆盖率不准确。这是因为对象激活图受到分类目标的训练,并且缺乏概括的能力。为了提高客观激活图的一般性,我们提出了一个区域原型网络RPNET来探索训练集的跨图像对象多样性。通过区域特征比较确定了跨图像的相似对象零件。区域之间传播对象信心,以发现新的对象区域,同时抑制了背景区域。实验表明,该提出的方法会生成更完整和准确的伪对象掩模,同时在Pascal VOC 2012和MS Coco上实现最先进的性能。此外,我们研究了提出的方法在减少训练集方面的鲁棒性。
translated by 谷歌翻译
Few-shot semantic segmentation aims to learn to segment new object classes with only a few annotated examples, which has a wide range of real-world applications. Most existing methods either focus on the restrictive setting of one-way few-shot segmentation or suffer from incomplete coverage of object regions. In this paper, we propose a novel few-shot semantic segmentation framework based on the prototype representation. Our key idea is to decompose the holistic class representation into a set of part-aware prototypes, capable of capturing diverse and fine-grained object features. In addition, we propose to leverage unlabeled data to enrich our part-aware prototypes, resulting in better modeling of intra-class variations of semantic objects. We develop a novel graph neural network model to generate and enhance the proposed part-aware prototypes based on labeled and unlabeled images. Extensive experimental evaluations on two benchmarks show that our method outperforms the prior art with a sizable margin.
translated by 谷歌翻译
很少有语义细分旨在识别一个看不见类别的对象区域,只有几个带注释的示例作为监督。几次分割的关键是在支持图像和查询图像之间建立牢固的语义关系,并防止过度拟合。在本文中,我们提出了一个有效的多相似性超关联网络(MSHNET),以解决几个射击语义分割问题。在MSHNET中,我们提出了一种新的生成原型相似性(GPS),与余弦相似性可以在支持图像和查询图像之间建立牢固的语义关系。基于全局特征的本地生成的原型相似性在逻辑上与基于本地特征的全局余弦相似性互补,并且可以通过同时使用两个相似性来更全面地表达查询图像和受支持图像之间的关系。此外,我们提出了MSHNET中的对称合并块(SMB),以有效合并多层,多弹射和多相似性超相关特征。 MSHNET是基于相似性而不是特定类别特征而构建的,这些特征可以实现更一般的统一性并有效地减少过度拟合。在两个基准的语义分割数据集Pascal-5i和Coco-20i上,MSHNET在1次和5次语义分段任务上实现了新的最先进的表演。
translated by 谷歌翻译
几次拍摄的语义分割旨在将新颖的类对象分段为仅具有少数标记的支持图像。大多数高级解决方案利用度量学习框架,通过将每个查询功能与学习的类特定的原型匹配来执行分段。然而,由于特征比较不完整,该框架遭受了偏见的分类。为了解决这个问题,我们通过引入类别特定的和类别不可知的原型来提出自适应原型表示,从而构建与查询功能学习语义对齐的完整样本对。互补特征学习方式有效地丰富了特征比较,并有助于在几次拍摄设置中产生一个非偏见的分段模型。它用双分支端到端网络(\即,特定于类分支和类别不可知分支)实现,它生成原型,然后组合查询特征以执行比较。此外,所提出的类别无神不可话的分支简单而且有效。在实践中,它可以自适应地为查询图像生成多种类别 - 不可知的原型,并以自我对比方式学习特征对齐。广泛的Pascal-5 $ ^ i $和Coco-20 $ ^ i $展示了我们方法的优越性。在不牺牲推理效率的费用中,我们的模型实现了最先进的,导致1-Shot和5-Shot Settings进行语义分割。
translated by 谷歌翻译
在视觉识别任务中,很少的学习需要在很少的支持示例中学习对象类别的能力。鉴于深度学习的发展,它的重新流行主要是图像分类。这项工作着重于几片语义细分,这仍然是一个未开发的领域。最近的一些进步通常仅限于单级少量分段。在本文中,我们首先介绍了一个新颖的多通道(类)编码和解码体系结构,该体系结构有效地将多尺度查询信息和多类支持信息融合到一个查询支持嵌入中。多级分割直接在此嵌入后解码。为了获得更好的特征融合,在体系结构中提出了多层注意机制,其中包括对支持功能调制的关注和多尺度组合的注意力。最后,为了增强嵌入式空间学习,引入了一个额外的像素度量学习模块,并在输入图像的像素级嵌入式上提出了三重损失。对标准基准Pascal-5i和Coco-20i进行的广泛实验显示了我们方法对最新技术的明显好处
translated by 谷歌翻译
Despite the great progress made by deep CNNs in image semantic segmentation, they typically require a large number of densely-annotated images for training and are difficult to generalize to unseen object categories. Few-shot segmentation has thus been developed to learn to perform segmentation from only a few annotated examples. In this paper, we tackle the challenging few-shot segmentation problem from a metric learning perspective and present PANet, a novel prototype alignment network to better utilize the information of the support set. Our PANet learns classspecific prototype representations from a few support images within an embedding space and then performs segmentation over the query images through matching each pixel to the learned prototypes. With non-parametric metric learning, PANet offers high-quality prototypes that are representative for each semantic class and meanwhile discriminative for different classes. Moreover, PANet introduces a prototype alignment regularization between support and query. With this, PANet fully exploits knowledge from the support and provides better generalization on few-shot segmentation. Significantly, our model achieves the mIoU score of 48.1% and 55.7% on PASCAL-5 i for 1-shot and 5-shot settings respectively, surpassing the state-of-the-art method by 1.8% and 8.6%.
translated by 谷歌翻译
很少有分割的目的是仅给出少数标记的样品,旨在细分看不见的级对象。原型学习,支持功能通过平均全局和局部对象信息产生单个原型,在FSS中已广泛使用。但是,仅利用原型矢量可能不足以代表所有训练数据的功能。为了提取丰富的特征并做出更精确的预测,我们提出了一个多相似性和注意力网络(MSANET),包括两个新型模块,一个多相似性模块和一个注意模块。多相似模块利用支持图像和查询图像的多个特征图来估计准确的语义关系。注意模块指示网络专注于相关的信息。该网络在标准FSS数据集,Pascal-5i 1-Shot,Pascal-5i 5-Shot,Coco-20i 1-Shot和Coco-20i 5-Shot上进行了测试。具有RESNET-101骨架的MSANET可在所有4基准测试数据集中达到最先进的性能,而平均交叉点(MIOU)为69.13%,73.99%,51.09%,56.80%。代码可在https://github.com/aivresearch/msanet上获得
translated by 谷歌翻译
现有的少数射击分段方法基于支持 - 引人入胜的匹配框架取得了巨大进展。但是,他们仍然受到所提供的少量支撑的覆盖率有限的覆盖范围。由简单的格式塔原理激励,即属于同一对象的像素比同一班级的不同对象的像素更相似,我们提出了一种新颖的自支撑匹配策略来减轻此问题,该策略使用查询原型来匹配查询功能查询原型是从高信心查询预测中收集的。该策略可以有效地捕获查询对象的一致潜在特性,从而符合查询功能。我们还提出了一个自适应的自支持背景原型生成模块和自支撑损失,以进一步促进自支撑匹配过程。我们的自支撑网络大大提高了原型质量,更强的骨架和更多支持,并在多个数据集上实现了SOTA。代码位于\ url {https://github.com/fanq15/ssp}。
translated by 谷歌翻译
Few-shot segmentation aims to devise a generalizing model that segments query images from unseen classes during training with the guidance of a few support images whose class tally with the class of the query. There exist two domain-specific problems mentioned in the previous works, namely spatial inconsistency and bias towards seen classes. Taking the former problem into account, our method compares the support feature map with the query feature map at multi scales to become scale-agnostic. As a solution to the latter problem, a supervised model, called as base learner, is trained on available classes to accurately identify pixels belonging to seen classes. Hence, subsequent meta learner has a chance to discard areas belonging to seen classes with the help of an ensemble learning model that coordinates meta learner with the base learner. We simultaneously address these two vital problems for the first time and achieve state-of-the-art performances on both PASCAL-5i and COCO-20i datasets.
translated by 谷歌翻译
Despite the remarkable success of existing methods for few-shot segmentation, there remain two crucial challenges. First, the feature learning for novel classes is suppressed during the training on base classes in that the novel classes are always treated as background. Thus, the semantics of novel classes are not well learned. Second, most of existing methods fail to consider the underlying semantic gap between the support and the query resulting from the representative bias by the scarce support samples. To circumvent these two challenges, we propose to activate the discriminability of novel classes explicitly in both the feature encoding stage and the prediction stage for segmentation. In the feature encoding stage, we design the Semantic-Preserving Feature Learning module (SPFL) to first exploit and then retain the latent semantics contained in the whole input image, especially those in the background that belong to novel classes. In the prediction stage for segmentation, we learn an Self-Refined Online Foreground-Background classifier (SROFB), which is able to refine itself using the high-confidence pixels of query image to facilitate its adaptation to the query image and bridge the support-query semantic gap. Extensive experiments on PASCAL-5$^i$ and COCO-20$^i$ datasets demonstrates the advantages of these two novel designs both quantitatively and qualitatively.
translated by 谷歌翻译
大多数现有的语义分割方法都以图像级类标签作为监督,高度依赖于从标准分类网络生成的初始类激活图(CAM)。在本文中,提出了一种新颖的“渐进贴片学习”方法,以改善分类的局部细节提取,从而更好地覆盖整个对象的凸轮,而不仅仅是在常规分类模型中获得的CAM中的最歧视区域。 “补丁学习”将特征映射破坏成贴片,并在最终聚合之前并行独立处理每个本地贴片。这样的机制强迫网络从分散的歧视性本地部分中找到弱信息,从而提高了本地细节的敏感性。 “渐进的补丁学习”进一步将特征破坏和补丁学习扩展到多层粒度。与多阶段优化策略合作,这种“渐进的补丁学习”机制隐式地为模型提供了跨不同位置粒状性的特征提取能力。作为隐式多粒性渐进式融合方法的替代方案,我们还提出了一种明确的方法,以同时将单个模型中不同粒度的特征融合,从而进一步增强了完整对象覆盖的凸轮质量。我们提出的方法在Pascal VOC 2012数据集上取得了出色的性能,例如,测试集中有69.6 $%miou),它超过了大多数现有的弱监督语义细分方法。代码将在此处公开提供,https://github.com/tyroneli/ppl_wsss。
translated by 谷歌翻译
少量分割旨在培训一个分割模型,可以快速适应具有少量示例的新型课程。传统的训练范例是学习对从支持图像的特征上的查询图像进行预测。以前的方法仅利用支持图像的语义级原型作为条件信息。这些方法不能利用用于查询预测的所有像素 - WISE支持信息,这对于分割任务来说是至关重要的。在本文中,我们专注于利用支持和查询图像之间的像素方面的关系来促进几次拍摄分段任务。我们设计一种新颖的循环一致的变压器(Cyctr)模块,将像素天然气支持功能聚合到查询中。 Cyctr在来自不同图像的特征之间进行跨关注,即支持和查询图像。我们观察到可能存在意外的无关像素级支持特征。直接执行跨关注可以将这些功能从支持汇总到查询和偏置查询功能。因此,我们建议使用新的循环一致的注意机制来滤除可能的有害支持特征,并鼓励查询功能从支持图像上参加最富有信息的像素。所有几次分割基准测试的实验表明,与以前的最先进的方法相比,我们所提出的Cyctr导致显着的改进。具体而言,在Pascal-$ 5 ^ i $和20 ^ i $ datasets上,我们达到了66.6%和45.6%的5次分割,优于以前的最先进方法分别为4.6%和7.1%。
translated by 谷歌翻译
对少量语义分割(FSS)的研究引起了极大的关注,目的是在查询图像中仅给出目标类别的少数注释的支持图像。这项具有挑战性的任务的关键是通过利用查询和支持图像之间的细粒度相关性来充分利用支持图像中的信息。但是,大多数现有方法要么将支持信息压缩为几个班级原型,要么在像素级别上使用的部分支持信息(例如,唯一的前景),从而导致不可忽略的信息损失。在本文中,我们提出了密集的像素,互源和支持的注意力加权面膜聚合(DCAMA),其中前景和背景支持信息都是通过配对查询和支持特征之间的多级像素的相关性通过多级像素的相关性充分利用的。 DCAMA在变压器体系结构中以缩放点产生的关注实现,将每个查询像素视为令牌,计算其与所有支持像素的相似之处,并预测其分割标签是所有支持像素标签的添加剂聚集 - 相似之处。基于DCAMA的唯一公式,我们进一步提出了对N-shot分割的有效有效的一通推断,其中所有支持图像的像素立即为掩模聚集收集。实验表明,我们的DCAMA在Pascal-5i,Coco-20i和FSS-1000的标准FSS基准上显着提高了最先进的状态以前的最佳记录。烧烤研究还验证了设计dcama。
translated by 谷歌翻译
几次拍摄的语义分割解决了学习任务,其中只有几个具有地面真理像素级标签的图像可用于新颖的感兴趣的景点。通常需要将大量数据(即基类)收集具有这样的地面真理信息,然后是元学习策略来解决上述学习任务。当在训练和测试期间只能观察到图像级语义标签时,它被认为是弱监督少量语义细分的更具挑战性的任务。为了解决这个问题,我们提出了一种新的元学习框架,其预测来自有限量的数据和它们的语义标签的伪像素级分段掩模。更重要的是,我们的学习方案进一步利用了具有分段保证的查询图像输入的产生的像素级信息。因此,我们提出的学习模型可以被视为像素级元学习者。通过对基准数据集的广泛实验,我们表明我们的模型在完全监督的环境下实现了令人满意的性能,但在弱势监督的环境下对最先进的方法进行了有利的方法。
translated by 谷歌翻译
Few-shot segmentation (FSS) aims to segment unseen classes using a few annotated samples. Typically, a prototype representing the foreground class is extracted from annotated support image(s) and is matched to features representing each pixel in the query image. However, models learnt in this way are insufficiently discriminatory, and often produce false positives: misclassifying background pixels as foreground. Some FSS methods try to address this issue by using the background in the support image(s) to help identify the background in the query image. However, the backgrounds of theses images is often quite distinct, and hence, the support image background information is uninformative. This article proposes a method, QSR, that extracts the background from the query image itself, and as a result is better able to discriminate between foreground and background features in the query image. This is achieved by modifying the training process to associate prototypes with class labels including known classes from the training data and latent classes representing unknown background objects. This class information is then used to extract a background prototype from the query image. To successfully associate prototypes with class labels and extract a background prototype that is capable of predicting a mask for the background regions of the image, the machinery for extracting and using foreground prototypes is induced to become more discriminative between different classes. Experiments for both 1-shot and 5-shot FSS on both the PASCAL-5i and COCO-20i datasets demonstrate that the proposed method results in a significant improvement in performance for the baseline methods it is applied to. As QSR operates only during training, these improved results are produced with no extra computational complexity during testing.
translated by 谷歌翻译
弱监督语义分段(WSSS)的现有研究已经利用了类激活映射(CAM)来本地化类对象。然而,由于分类损失不足以提供精确的物区域,因此凸轮倾向于偏向辨别模式(即,稀疏),并且不提供精确的对象边界信息(即,不确定)。为了解决这些限制,我们提出了一种新颖的框架(由MainNet和SupportNet组成),从给定的图像级监督导出像素级自我监督。在我们的框架中,借助拟议的区域对比模块(RCM)和多尺寸细分模块(MAM),MainNet由来自SupportNet的自我监督训练。 RCM从SupportNet中提取两种形式的自我监督:(1)从凸轮和(2)根据类区域掩码的特征获得的(2)类的类别区域掩模。然后,主目的的每个像素明智的特征被原型训练以对比的方式,锐化所产生的凸轮。 MAM利用从SupportNet的多个尺度推断的凸轮作为自我监控来指导MailNet。基于Mainnet和SupportNet的多尺度凸轮之间的不相似性,来自主目的的凸轮训练以扩展到较少辨别的区域。该方法在Pascal VOC 2012数据集上显示了在列车和验证集上的最先进的WSSS性能。为了再现性,代码将很快公开提供。
translated by 谷歌翻译
几乎没有射击的细分是一项具有挑战性的密集预测任务,它需要分割新的查询图像,仅给出一个小注释的支持集。因此,关键问题是设计一种方法,该方法可以从支持集中汇总详细信息,同时对外观和上下文的巨大变化进行稳健。为此,我们提出了基于密集的高斯过程(GP)回归的几种分割方法。鉴于支持集,我们密集的GP了解了从局部深层图像特征到掩模值的映射,能够捕获复杂的外观分布。此外,它提供了一种捕获不确定性的原则方法,这是CNN解码器获得的最终分割的另一种强大提示。我们进一步利用了我们方法的端到端学习能力,以学习GP的高维输出空间。我们的方法在Pascal-5 $^i $和Coco-20 $^i $ Benchmarks上设定了新的最新技术,在Coco-20 $^i $中获得了绝对的$+8.4 $ MIOU的绝对增益5杆设置。此外,在增加支撑设置大小时,我们的方法的分割质量会优雅地缩放,同时实现强大的跨数据库转移。代码和训练有素的模型可在\ url {https://github.com/joakimjohnander/dgpnet}上获得。
translated by 谷歌翻译
就像其他少量学习问题一样,很少拍摄的细分旨在最大限度地减少手动注释的需求,这在分割任务中特别昂贵。即使少量拍摄设置降低了新型测试类的这种成本,仍然需要注释培训数据。为了减轻这种需求,我们提出了一种自我监督的培训方法,用于学习几次射门分割模型。我们首先使用无监督的显着性估计来获得图像上的伪掩码。然后,我们将在不同的伪掩模的不同分割和增强图像的不同分裂上培训一个简单的原型模型。我们广泛的实验表明,该方法达到了有希望的结果,突出了自我监督培训的潜力。据我们所知,这是第一个解决自然图像上无监督的少量分割问题的第一项工作。
translated by 谷歌翻译