图像级弱监督的语义分割(WSSS)是一个基本但具有挑战性的计算机视觉任务,促进了场景理解和自动驾驶。大多数现有方法都采用基于分类的类激活地图(CAM)作为初始伪标签进行播放,倾向于关注分割任务的定制特征。为了减轻这个问题,我们提出了一种新的激活调制和重新校准(AMR)方案,它利用聚光灯分支和补偿分支来获得加权凸轮,可以提供可重新校准和特定于任务的概念。具体地,用于重新排列来自信道空间顺序透视的特征重要性的分布,这有助于明确地模拟通道 - 方向的相互依赖性和空间编码,以自适应地调制面向分割的激活响应。此外,我们向双分支引入交叉伪监督,这可以被视为对互动两个分支的语义类似的正则化。广泛的实验表明,AMR在Pascal VOC 2012年数据集上建立了新的最先进的性能,不仅超越了当前方法培训的监督图像水平,而且一些方法依赖于更强的监督,如显着性标签。实验还揭示了我们的计划是即插即用的,可以与其他促进其性能的其他方法合并。
translated by 谷歌翻译
仅使用图像级标签的弱监督语义细分旨在降低分割任务的注释成本。现有方法通常利用类激活图(CAM)来定位伪标签生成的对象区域。但是,凸轮只能发现对象的最歧视部分,从而导致下像素级伪标签。为了解决这个问题,我们提出了一个限制的显着性和内类关系的显着性(I $^2 $ CRC)框架,以协助CAM中激活的对象区域的扩展。具体而言,我们提出了一个显着性指导的类不足的距离模块,以通过将特征对准其类原型来更接近类别内特征。此外,我们提出了一个特定的距离模块,以将类间特征推开,并鼓励对象区域的激活高于背景。除了加强分类网络激活CAM中更多积分对象区域的能力外,我们还引入了一个对象引导的标签细化模块,以完全利用分割预测和初始标签,以获取出色的伪标签。 Pascal VOC 2012和可可数据集的广泛实验很好地证明了I $^2 $ CRC的有效性,而不是其他最先进的对应物。源代码,模型和数据已在\ url {https://github.com/nust-machine-intelligence-laboratory/i2crc}提供。
translated by 谷歌翻译
Image-level weakly supervised semantic segmentation is a challenging problem that has been deeply studied in recent years. Most of advanced solutions exploit class activation map (CAM). However, CAMs can hardly serve as the object mask due to the gap between full and weak supervisions. In this paper, we propose a self-supervised equivariant attention mechanism (SEAM) to discover additional supervision and narrow the gap. Our method is based on the observation that equivariance is an implicit constraint in fully supervised semantic segmentation, whose pixel-level labels take the same spatial transformation as the input images during data augmentation. However, this constraint is lost on the CAMs trained by image-level supervision. Therefore, we propose consistency regularization on predicted CAMs from various transformed images to provide self-supervision for network learning. Moreover, we propose a pixel correlation module (PCM), which exploits context appearance information and refines the prediction of current pixel by its similar neighbors, leading to further improvement on CAMs consistency. Extensive experiments on PASCAL VOC 2012 dataset demonstrate our method outperforms state-of-the-art methods using the same level of supervision. The code is released online 1 .
translated by 谷歌翻译
大多数现有的语义分割方法都以图像级类标签作为监督,高度依赖于从标准分类网络生成的初始类激活图(CAM)。在本文中,提出了一种新颖的“渐进贴片学习”方法,以改善分类的局部细节提取,从而更好地覆盖整个对象的凸轮,而不仅仅是在常规分类模型中获得的CAM中的最歧视区域。 “补丁学习”将特征映射破坏成贴片,并在最终聚合之前并行独立处理每个本地贴片。这样的机制强迫网络从分散的歧视性本地部分中找到弱信息,从而提高了本地细节的敏感性。 “渐进的补丁学习”进一步将特征破坏和补丁学习扩展到多层粒度。与多阶段优化策略合作,这种“渐进的补丁学习”机制隐式地为模型提供了跨不同位置粒状性的特征提取能力。作为隐式多粒性渐进式融合方法的替代方案,我们还提出了一种明确的方法,以同时将单个模型中不同粒度的特征融合,从而进一步增强了完整对象覆盖的凸轮质量。我们提出的方法在Pascal VOC 2012数据集上取得了出色的性能,例如,测试集中有69.6 $%miou),它超过了大多数现有的弱监督语义细分方法。代码将在此处公开提供,https://github.com/tyroneli/ppl_wsss。
translated by 谷歌翻译
弱监督的语义分割(WSSS)是具有挑战性的,特别是当使用图像级标签来监督像素级预测时。为了弥合它们的差距,通常生成一个类激活图(CAM)以提供像素级伪标签。卷积神经网络中的凸轮患有部分激活,即,仅激活最多的识别区域。另一方面,基于变压器的方法在探索具有长范围依赖性建模的全球背景下,非常有效,可能会减轻“部分激活”问题。在本文中,我们提出了基于第一变压器的WSSS方法,并介绍了梯度加权元素明智的变压器注意图(GetAn)。 GetaN显示所有特征映射元素的精确激活,跨越变压器层显示对象的不同部分。此外,我们提出了一种激活感知标签完成模块来生成高质量的伪标签。最后,我们将我们的方法纳入了使用双向向上传播的WSS的结束框架。 Pascal VOC和Coco的广泛实验表明,我们的结果通过显着的保证金击败了最先进的端到端方法,并且优于大多数多级方法.M大多数多级方法。
translated by 谷歌翻译
生成精确的类感知的伪基真实,也就是类激活图(CAM),对于弱监督的语义分割至关重要。原始CAM方法通常会产生不完整和不准确的定位图。为了解决这个问题,本文提出了基于可变形卷积中的偏移学习的扩展和收缩方案,以依次改善两个各个阶段中定位对象的回忆和精度。在扩展阶段,在可变形卷积层中的偏移学习分支,称为“扩展采样器”,寻求采样越来越小的判别对象区域,这是由逆监督信号驱动的,从而最大程度地提高了图像级分类损失。然后在收缩阶段逐渐将位置更完整的物体逐渐缩小到最终对象区域。在收缩阶段,引入了另一个可变形卷积层的偏移学习分支,称为“收缩采样器”,以排除在扩展阶段参加的假积极背景区域,以提高定位图的精度。我们在Pascal VOC 2012和MS Coco 2014上进行了各种实验,以很好地证明了我们方法比其他最先进的方法对弱监督语义分割的优越性。代码将在此处公开提供,https://github.com/tyroneli/esol_wsss。
translated by 谷歌翻译
虽然图像级弱监督的语义分割(WSSS)与类激活地图(CAM)作为基石取得了很大的进展,但分类和分割之间的大型监督差距仍然妨碍模型以产生用于分割的更完整和精确的伪掩模。在这项研究中,我们提出了弱监管的像素到原型对比度,其可以提供像素级监控信号来缩小间隙。由两个直观的前沿引导,我们的方法在不同视图和图像的单个视图中执行,旨在施加跨视图特征语义一致性正则化,并促进特征空间的帧内(互联)紧凑性(色散)。我们的方法可以无缝地纳入现有的WSSS模型,而没有对基础网络的任何更改,并且不会产生任何额外的推断负担。广泛的实验表明,我们的方法始终如一地通过大幅度改善两个强的基线,证明了有效性。具体而言,建于接缝的顶部,我们将初始种子Miou 2012从55.4%提高到Pascal VOC上。此外,通过我们的方法武装,我们从70.8%增加到73.6%的EPS分割Miou,实现了新的最先进。
translated by 谷歌翻译
弱监督语义分段(WSSS)的现有研究已经利用了类激活映射(CAM)来本地化类对象。然而,由于分类损失不足以提供精确的物区域,因此凸轮倾向于偏向辨别模式(即,稀疏),并且不提供精确的对象边界信息(即,不确定)。为了解决这些限制,我们提出了一种新颖的框架(由MainNet和SupportNet组成),从给定的图像级监督导出像素级自我监督。在我们的框架中,借助拟议的区域对比模块(RCM)和多尺寸细分模块(MAM),MainNet由来自SupportNet的自我监督训练。 RCM从SupportNet中提取两种形式的自我监督:(1)从凸轮和(2)根据类区域掩码的特征获得的(2)类的类别区域掩模。然后,主目的的每个像素明智的特征被原型训练以对比的方式,锐化所产生的凸轮。 MAM利用从SupportNet的多个尺度推断的凸轮作为自我监控来指导MailNet。基于Mainnet和SupportNet的多尺度凸轮之间的不相似性,来自主目的的凸轮训练以扩展到较少辨别的区域。该方法在Pascal VOC 2012数据集上显示了在列车和验证集上的最先进的WSSS性能。为了再现性,代码将很快公开提供。
translated by 谷歌翻译
带有图像级标签的弱监督语义分割(WSSS)是一项重要且具有挑战性的任务。由于高训练效率,WSS的端到端解决方案受到了社区的越来越多的关注。但是,当前方法主要基于卷积神经网络,无法正确探索全局信息,因此通常会导致不完整的对象区域。在本文中,为了解决上述问题,我们介绍了自然整合全局信息的变形金刚,以生成更具不可或缺的初始伪标签,以用于端到端WSSS。由变压器中的自我注意力与语义亲和力之间的固有一致性激发,我们提出了来自注意力(AFA)模块的亲和力,以从变形金刚中的多头自我注意力(MHSA)学习语义亲和力。然后将学习的亲和力借用以完善初始伪标签以进行分割。此外,为了有效地得出可靠的亲和力标签,用于监督AFA并确保伪标签的局部一致性,我们设计了一个像素自适应改进模块,该模块结合了低级图像外观信息,以完善伪标签。我们进行了广泛的实验,我们的方法在Pascal VOC 2012和MS Coco 2014数据集中获得了66.0%和38.9%的MIOU,大大优于最近的端到端方法和几个多阶段竞争对手。代码可在https://github.com/rulixiang/afa上找到。
translated by 谷歌翻译
This paper presents the first attempt to learn semantic boundary detection using image-level class labels as supervision. Our method starts by estimating coarse areas of object classes through attentions drawn by an image classification network. Since boundaries will locate somewhere between such areas of different classes, our task is formulated as a multiple instance learning (MIL) problem, where pixels on a line segment connecting areas of two different classes are regarded as a bag of boundary candidates. Moreover, we design a new neural network architecture that can learn to estimate semantic boundaries reliably even with uncertain supervision given by the MIL strategy. Our network is used to generate pseudo semantic boundary labels of training images, which are in turn used to train fully supervised models. The final model trained with our pseudo labels achieves an outstanding performance on the SBD dataset, where it is as competitive as some of previous arts trained with stronger supervision.
translated by 谷歌翻译
分类网络已用于弱监督语义分割(WSSS)中,以通过类激活图(CAM)进行细分对象。但是,没有像素级注释,已知它们主要是(1)集中在歧视区域上,以及(2)产生弥漫性凸轮而没有定义明确的预测轮廓。在这项工作中,我们通过改善CAM学习来缓解这两个问题。首先,我们根据CAM引起的类别概率质量函数来合并重要性抽样,以产生随机图像级别的类预测。如我们的经验研究所示,这导致分割涵盖更大程度的对象。其次,我们制定了特征相似性损失项,该术语进一步改善了图像中边缘的预测轮廓的对齐。此外,我们通过测量轮廓f-评分作为对公共区域MIOU度量的补充,将新的光芒放到了WSS的问题上。我们表明,我们的方法在轮廓质量方面显着优于以前的方法,同时匹配了区域相似性的最新方法。
translated by 谷歌翻译
经过图像级标签训练的弱监督图像分割通常在伪地面上的生成期间因物体区域的覆盖率不准确。这是因为对象激活图受到分类目标的训练,并且缺乏概括的能力。为了提高客观激活图的一般性,我们提出了一个区域原型网络RPNET来探索训练集的跨图像对象多样性。通过区域特征比较确定了跨图像的相似对象零件。区域之间传播对象信心,以发现新的对象区域,同时抑制了背景区域。实验表明,该提出的方法会生成更完整和准确的伪对象掩模,同时在Pascal VOC 2012和MS Coco上实现最先进的性能。此外,我们研究了提出的方法在减少训练集方面的鲁棒性。
translated by 谷歌翻译
弱监督的语义细分(WSSS)旨在仅使用用于训练的图像级标签来产生像素类预测。为此,以前的方法采用了通用管道:它们从类激活图(CAM)生成伪口罩,并使用此类掩码来监督分割网络。但是,由于凸轮的局部属性,即它们倾向于仅专注于小的判别对象零件,因此涵盖涵盖整个物体的全部范围的全面伪面罩是一项挑战。在本文中,我们将CAM的局部性与卷积神经网络(CNNS)的质地偏见特性相关联。因此,我们建议利用形状信息来补充质地偏见的CNN特征,从而鼓励掩模预测不仅是全面的,而且还与物体边界相交。我们通过一种新颖的改进方法进一步完善了在线方式的预测,该方法同时考虑了类和颜色亲和力,以生成可靠的伪口罩以监督模型。重要的是,我们的模型是在单阶段框架内进行端到端训练的,因此在培训成本方面有效。通过对Pascal VOC 2012的广泛实验,我们验证了方法在产生精确和形状对准的分割结果方面的有效性。具体而言,我们的模型超过了现有的最新单阶段方法。此外,当在没有铃铛和哨声的简单两阶段管道中采用时,它还在多阶段方法上实现了新的最新性能。
translated by 谷歌翻译
当前的最新显着性检测模型在很大程度上依赖于精确的像素注释的大型数据集,但是手动标记像素是时必的且劳动力密集的。有一些用于减轻该问题的弱监督方法,例如图像标签,边界框标签和涂鸦标签,而在该领域仍未探索点标签。在本文中,我们提出了一种使用点监督的新型弱监督的显着对象检测方法。为了推断显着性图,我们首先设计了一种自适应掩盖洪水填充算法以生成伪标签。然后,我们开发了一个基于变压器的点保护显着性检测模型,以产生第一轮显着图。但是,由于标签的稀疏性,弱监督模型倾向于退化为一般​​的前景检测模型。为了解决这个问题,我们提出了一种非征服方法(NSS)方法,以优化第一轮中产生的错误显着图,并利用它们进行第二轮训练。此外,我们通过重新标记DUTS数据集来构建一个新的监督数据集(P-DUTS)。在p-duts中,每个显着对象只有一个标记点​​。在五个最大基准数据集上进行的全面实验表明,我们的方法的表现优于先前的最先进方法,该方法接受了更强的监督,甚至超过了几种完全监督的最先进模型。该代码可在以下网址获得:https://github.com/shuyonggao/psod。
translated by 谷歌翻译
最近,Vision Transformer模型已成为一系列视觉任务的重要模型。但是,这些模型通常是不透明的,特征可解释性较弱。此外,目前尚无针对本质上可解释的变压器构建的方法,该方法能够解释其推理过程并提供忠实的解释。为了缩小这些关键差距,我们提出了一种新型视觉变压器,称为“可解释的视觉变压器”(Ex-Vit),这是一种本质上可解释的变压器模型,能够共同发现可鲁棒的可解释特征并执行预测。具体而言,前vit由可解释的多头注意(E-MHA)模块,属性引导的解释器(ATTE)模块和自我监督属性引导的损失组成。 E-MHA裁缝可以解释的注意力重量,能够从本地贴片中学习具有噪音稳健性的模型决策的语义解释表示。同时,提议通过不同的属性发现来编码目标对象的歧视性属性特征,该发现构成了模型预测的忠实证据。此外,为我们的前武器开发了自我监督的属性引导损失,该损失旨在通过属性可区分性机制和属性多样性机制来学习增强表示形式,以定位多样性和歧视性属性并产生更健壮的解释。结果,我们可以通过拟议的前武器发现具有多种属性的忠实和强大的解释。
translated by 谷歌翻译
深度学习的快速发展在分割方面取得了长足的进步,这是计算机视觉的基本任务之一。但是,当前的细分算法主要取决于像素级注释的可用性,这些注释通常昂贵,乏味且费力。为了减轻这一负担,过去几年见证了越来越多的关注,以建立标签高效,深度学习的细分算法。本文对标签有效的细分方法进行了全面的审查。为此,我们首先根据不同类型的弱标签提供的监督(包括没有监督,粗略监督,不完整的监督和嘈杂的监督和嘈杂的监督),首先开发出一种分类法来组织这些方法,并通过细分类型(包括语义细分)补充,实例分割和全景分割)。接下来,我们从统一的角度总结了现有的标签有效的细分方法,该方法讨论了一个重要的问题:如何弥合弱监督和密集预测之间的差距 - 当前的方法主要基于启发式先导,例如交叉像素相似性,跨标签约束,跨视图一致性,跨图像关系等。最后,我们分享了对标签有效深层细分的未来研究方向的看法。
translated by 谷歌翻译
当前弱监督的语义分割(WSSS)框架通常包含分离的掩模 - 细化模型和主要语义区域挖掘模型。这些方法将包含冗余特征提取骨干网和偏置的学习目标,使其计算复杂但是解决WSSS任务的子最优。为了解决这个问题,本文建立了一个紧凑的学习框架,将分类和掩码精细组件嵌入统一的深层模型。通过共享特征提取骨干通,我们的模型能够促进两个组件之间的知识共享,同时保留低计算复杂性。为了鼓励高质量的知识互动,我们提出了一种新颖的替代自我双重教学(ASDT)机制。与传统蒸馏策略不同,我们模型中的两个教师分支的知识通过脉冲宽度调制(PWM)替代地蒸馏到学生分支,该脉冲宽度调制(PWM)产生PW波形选择信号以引导知识蒸馏过程。通过这种方式,学生分支可以帮助阻止模型落入由教师分支提供的不完美知识引起的局部最低解决方案。 Pascal VOC的综合实验2012和Coco-Stuff 10K展示了拟议的替代自我双重教学机制的有效性以及我们方法的新的最新性能。
translated by 谷歌翻译
无弱监督的语义细分(WSSS)段对象没有密度注释的沉重负担。虽然作为价格,产生的伪掩模存在明显的嘈杂像素,其导致在这些伪掩模上训练的次优分割模型。但是罕见的研究通知或解决这个问题,即使在他们改进伪掩码后,即使这些嘈杂的像素也是不可避免的。所以我们试图在噪音缓解的方面提高WSSS。并且我们观察到许多嘈杂的像素具有高置信度,特别是当响应范围太宽或狭窄时,呈现不确定的状态。因此,在本文中,我们通过多次缩放预测映射来模拟响应的噪声变化以进行不确定性估计。然后使用不确定性来重量分割损失以减轻嘈杂的监督信号。我们调用此方法URN,通过响应缩放来缩短来自不确定性估计来噪声缓解。实验验证了URN的好处,我们的方法分别在Pascal VOC 2012和MS Coco 2014上实现了最先进的71.2%和41.5%,而无需额外的型号,如显着性检测。代码可在https://github.com/xmed-lab/urn获得。
translated by 谷歌翻译
The deficiency of segmentation labels is one of the main obstacles to semantic segmentation in the wild. To alleviate this issue, we present a novel framework that generates segmentation labels of images given their image-level class labels. In this weakly supervised setting, trained models have been known to segment local discriminative parts rather than the entire object area. Our solution is to propagate such local responses to nearby areas which belong to the same semantic entity. To this end, we propose a Deep Neural Network (DNN) called AffinityNet that predicts semantic affinity between a pair of adjacent image coordinates. The semantic propagation is then realized by random walk with the affinities predicted by AffinityNet. More importantly, the supervision employed to train AffinityNet is given by the initial discriminative part segmentation, which is incomplete as a segmentation annotation but sufficient for learning semantic affinities within small image areas. Thus the entire framework relies only on image-level class labels and does not require any extra data or annotations. On the PASCAL VOC 2012 dataset, a DNN learned with segmentation labels generated by our method outperforms previous models trained with the same level of supervision, and is even as competitive as those relying on stronger supervision.
translated by 谷歌翻译
尽管仅使用图像级标签(WSSS-IL)仅使用图像级标签(WSSS-IL)弱监督的语义分割可能有用,但其低性能和实现复杂性仍然限制了其应用。主要原因是(a)非检测和(b)假检测现象:(a)从现有的WSSS-IL方法中完善的类激活图仍然仅表示大规模对象的部分区域,以及(b) - 规模对象,过度激活使它们偏离对象边缘。我们提出了反复进行的,该反复环境通过递归迭代交替减少非和错误的检测,从而隐含地找到了最大程度地减少这两个错误的最佳连接。我们还提出了一种称为EdgePredictMix的新型数据增强方法(DA)方法,该方法通过利用相邻像素之间的概率差异信息在结合分割结果时进一步表达了对象的边缘,从而在将现有的DA方法应用于WSS时,从而弥补了缺点。我们在Pascal VOC 2012和MS Coco 2014基准(VOC Val 74.4%,可可Val 46.4%)上实现了最先进的表演。该代码可从https://github.com/ofrin/recurseed_and_edgepredictmix获得。
translated by 谷歌翻译