通过使用图像级分类掩模监督其学习过程,弱监督对象本地化(WSOL)放宽对对象本地化的密度注释的要求。然而,当前的WSOL方法遭受背景位置的过度激活,并且需要后处理以获得定位掩模。本文将这些问题归因于背景提示的不明显,并提出了背景感知分类激活映射(B-CAM),以便仅使用图像级标签同时学习对象和背景的本地化分数。在我们的B-CAM中,两个图像级功能,由潜在背景和对象位置的像素级别功能聚合,用于从对象相关的背景中净化对象功能,并表示纯背景样本的功能,分别。然后基于这两个特征,学习对象分类器和背景分类器,以确定二进制对象本地化掩码。我们的B-CAM可以基于提出的错开分类损失以端到端的方式培训,这不仅可以改善对象本地化,而且还抑制了背景激活。实验表明,我们的B-CAM在Cub-200,OpenImages和VOC2012数据集上优于一级WSOL方法。
translated by 谷歌翻译
分类激活图(CAM),利用分类结构来生成像素定位图,是弱监督物体定位(WSOL)的关键机制。但是,CAM直接使用对图像级特征训练的分类器来定位对象,从而更喜欢辨别全局歧视性因素,而不是区域对象提示。因此,在将像素级特征馈入此分类器时,只有判别位置才能激活。为了解决此问题,本文详细阐述了一种称为Bagcams的插件机制,以更好地投射训练有素的本地化任务分类器,而无需完善或重新训练基线结构。我们的手袋采用了拟议的区域定位器(RLG)策略来定义一组区域本地化,然后从训练有素的分类器中得出。这些区域本地化可以被视为基础学习者,只能辨别出针对本地化任务的区域对象因素,而我们的袋子可以有效地加权其结果以形成最终的本地化图。实验表明,采用我们提出的口袋可以在很大程度上提高基线WSOL方法的性能,并在三个WSOL基准上获得最先进的性能。代码可在https://github.com/zh460045050/bagcams上发布。
translated by 谷歌翻译
弱监督对象本地化(WSOL)旨在仅使用图像级标签作为监控本地化对象区域。最近,通过生成前景预测映射(FPM)来实现新的范例来实现本地化任务。现有的基于FPM的方法使用跨熵(CE)来评估前景预测映射并引导发电机的学习。我们争辩使用激活值来实现更高效的学习。它基于实验观察,对于培训的网络,CE当前景掩模仅覆盖物体区域的一部分时,CE会聚到零。虽然激活值增加,直到掩码扩展到对象边界,这表明可以通过使用激活值来学习更多对象区域。在本文中,我们提出了背景激活抑制(BAS)方法。具体地,设计激活地图约束模块(AMC)以通过抑制背景激活值来促进生成器的学习。同时,通过使用前景区域指导和区域约束,BAS可以学习对象的整个区域。此外,在推理阶段,我们考虑不同类别的预测映射,以获得最终的本地化结果。广泛的实验表明,BAS通过CUB-200-2011和ILSVRC数据集的基线方法实现了显着和一致的改进。
translated by 谷歌翻译
While class activation map (CAM) generated by image classification network has been widely used for weakly supervised object localization (WSOL) and semantic segmentation (WSSS), such classifiers usually focus on discriminative object regions. In this paper, we propose Contrastive learning for Class-agnostic Activation Map (C$^2$AM) generation only using unlabeled image data, without the involvement of image-level supervision. The core idea comes from the observation that i) semantic information of foreground objects usually differs from their backgrounds; ii) foreground objects with similar appearance or background with similar color/texture have similar representations in the feature space. We form the positive and negative pairs based on the above relations and force the network to disentangle foreground and background with a class-agnostic activation map using a novel contrastive loss. As the network is guided to discriminate cross-image foreground-background, the class-agnostic activation maps learned by our approach generate more complete object regions. We successfully extracted from C$^2$AM class-agnostic object bounding boxes for object localization and background cues to refine CAM generated by classification network for semantic segmentation. Extensive experiments on CUB-200-2011, ImageNet-1K, and PASCAL VOC2012 datasets show that both WSOL and WSSS can benefit from the proposed C$^2$AM.
translated by 谷歌翻译
基于弱监管的像素 - 明显的密集预测任务当前使用类注意映射(CAM)以产生伪掩模作为地面真理。然而,现有方法通常取决于诱人的训练模块,这可能会引入磨削计算开销和复杂的培训程序。在这项工作中,提出了语义结构知识推断(SSA)来探索隐藏在基于CNN的网络的不同阶段的语义结构信息,以在模型推断中产生高质量凸轮。具体地,首先提出语义结构建模模块(SSM)来生成类别不可知语义相关表示,其中每个项目表示一个类别对象和所有其他类别之间的亲和程度。然后,探索结构化特征表示通过点产品操作来抛光不成熟的凸轮。最后,来自不同骨架级的抛光凸轮融合为输出。所提出的方法具有没有参数的优点,不需要培训。因此,它可以应用于广泛的弱监管像素 - 明智的密集预测任务。对弱势监督对象本地化和弱监督语义分割任务的实验结果证明了该方法的效力,这使得新的最先进的结果实现了这两项任务。
translated by 谷歌翻译
大多数现有的语义分割方法都以图像级类标签作为监督,高度依赖于从标准分类网络生成的初始类激活图(CAM)。在本文中,提出了一种新颖的“渐进贴片学习”方法,以改善分类的局部细节提取,从而更好地覆盖整个对象的凸轮,而不仅仅是在常规分类模型中获得的CAM中的最歧视区域。 “补丁学习”将特征映射破坏成贴片,并在最终聚合之前并行独立处理每个本地贴片。这样的机制强迫网络从分散的歧视性本地部分中找到弱信息,从而提高了本地细节的敏感性。 “渐进的补丁学习”进一步将特征破坏和补丁学习扩展到多层粒度。与多阶段优化策略合作,这种“渐进的补丁学习”机制隐式地为模型提供了跨不同位置粒状性的特征提取能力。作为隐式多粒性渐进式融合方法的替代方案,我们还提出了一种明确的方法,以同时将单个模型中不同粒度的特征融合,从而进一步增强了完整对象覆盖的凸轮质量。我们提出的方法在Pascal VOC 2012数据集上取得了出色的性能,例如,测试集中有69.6 $%miou),它超过了大多数现有的弱监督语义细分方法。代码将在此处公开提供,https://github.com/tyroneli/ppl_wsss。
translated by 谷歌翻译
弱监督的对象本地化(WSOL)在过去几年中获得了普及,以便培训具有图像级标签的本地化模型。由于Soliminal WSOL类激活映射(CAM),该领域的重点是如何扩展注意区域更广泛地覆盖物体并更好地本地化。但是,这些策略依赖于验证超参数和模型选择的完全本地化监督,这是原则上禁止WSOL设置。在本文中,我们认为WSOL任务仅用图像级标签均不含糊,并提出了一种新的评估协议,其中全面监督仅限于仅与测试集没有重叠的小型举出的设置。我们观察到,根据我们的协议,五种最新的WSOL方法没有对CAM基线进行重大改进。此外,我们报告说,现有的WSOL方法尚未达到几次学习基准,其中验证时间的全面监督用于模型培训。根据我们的调查结果,我们讨论了WSOL的​​一些未来方向。
translated by 谷歌翻译
在弱监督的本地化设置中,监督作为图像级标签。我们建议使用图像分类器$ F $,并培训发电网络$ G $,给定输入图像,指示图像内对象位置的每个像素权重映射。通过最大限度地减少原始图像上的分类器F $ F $的输出之间的差异来培训网络$ G $培训。该方案需要一个正常化术语,确保$ G $不提供统一的重量,以及提前停止标准,以防止超过段图像。我们的结果表明,该方法在充满挑战的细粒度分类数据集中的相当余量以及通用图像识别数据集中优于现有的本地化方法。另外,在细粒度分类数据集中的弱监督分割中,所获得的权重映射也是最新的。
translated by 谷歌翻译
使用深度学习模型从组织学数据中诊断癌症提出了一些挑战。这些图像中关注区域(ROI)的癌症分级和定位通常依赖于图像和像素级标签,后者需要昂贵的注释过程。深度弱监督的对象定位(WSOL)方法为深度学习模型的低成本培训提供了不同的策略。仅使用图像级注释,可以训练这些方法以对图像进行分类,并为ROI定位进行分类类激活图(CAM)。本文综述了WSOL的​​最先进的DL方法。我们提出了一种分类法,根据模型中的信息流,将这些方法分为自下而上和自上而下的方法。尽管后者的进展有限,但最近的自下而上方法目前通过深层WSOL方法推动了很多进展。早期作品的重点是设计不同的空间合并功能。但是,这些方法达到了有限的定位准确性,并揭示了一个主要限制 - 凸轮的不足激活导致了高假阴性定位。随后的工作旨在减轻此问题并恢复完整的对象。评估和比较了两个具有挑战性的组织学数据集的分类和本地化准确性,对我们的分类学方法进行了评估和比较。总体而言,结果表明定位性能差,特别是对于最初设计用于处理自然图像的通用方法。旨在解决组织学数据挑战的方法产生了良好的结果。但是,所有方法都遭受高假阳性/阴性定位的影响。在组织学中应用深WSOL方法的应用是四个关键的挑战 - 凸轮的激活下/过度激活,对阈值的敏感性和模型选择。
translated by 谷歌翻译
弱监督语义分段(WSSS)的现有研究已经利用了类激活映射(CAM)来本地化类对象。然而,由于分类损失不足以提供精确的物区域,因此凸轮倾向于偏向辨别模式(即,稀疏),并且不提供精确的对象边界信息(即,不确定)。为了解决这些限制,我们提出了一种新颖的框架(由MainNet和SupportNet组成),从给定的图像级监督导出像素级自我监督。在我们的框架中,借助拟议的区域对比模块(RCM)和多尺寸细分模块(MAM),MainNet由来自SupportNet的自我监督训练。 RCM从SupportNet中提取两种形式的自我监督:(1)从凸轮和(2)根据类区域掩码的特征获得的(2)类的类别区域掩模。然后,主目的的每个像素明智的特征被原型训练以对比的方式,锐化所产生的凸轮。 MAM利用从SupportNet的多个尺度推断的凸轮作为自我监控来指导MailNet。基于Mainnet和SupportNet的多尺度凸轮之间的不相似性,来自主目的的凸轮训练以扩展到较少辨别的区域。该方法在Pascal VOC 2012数据集上显示了在列车和验证集上的最先进的WSSS性能。为了再现性,代码将很快公开提供。
translated by 谷歌翻译
图像和视频中的消防本地化是自治系统对抗火事故的重要一步。基于深神经网络的最先进的图像分割方法需要大量的像素注释样本以以完全监督的方式训练卷积神经网络(CNNS)。在本文中,我们考虑了图像中的火灾的弱监管,其中仅使用图像标签来训练网络。我们示出在火灾分割的情况下,这是二进制分割问题,分类中的中层中的特征的平均值可以比传统的类激活映射(CAM)方法更好。我们还建议通过在上次卷积层的特征上添加旋转等值正则化损耗来进一步提高分割精度。我们的结果表明,对弱势监督的火灾细分的基线方法显着改善。
translated by 谷歌翻译
弱监督对象本地化(WSOL)是一个具有挑战性的任务,可以仅通过类别标签本地化对象。然而,分类和定位之间存在矛盾,因为准确的分类网络倾向于注意物体的歧视区域而不是整体。我们提出这种歧视是由基于CAM的方法选择的手工阈值引起的。因此,我们提出了具有视觉变压器(VIV)骨干的令牌(CAFT)的聚类和过滤器,以以另一种方式解决这个问题。 CAFT首先将图像的修补程序令牌拆分为VIT和群集输出令牌以生成对象的初始掩码。其次,CAFT将初始掩码视为伪标签,以训练骨干后骨干的浅卷积头(注意滤波器,atf)直接从令牌中提取掩码。然后,CAFT将图像分成零件,分别输出掩码并将它们合并到一个精制的掩模中。最后,新的ATF培训在精制的掩模上,并用于预测对象的框。实验验证CAFT优于上一个工作,并分别在CUB-200和Imagenet-1K上与地面真理类实现97.55 \%和69.86 \%。 CAFT提供了一种思考WSOL任务的新方法。
translated by 谷歌翻译
This paper presents the first attempt to learn semantic boundary detection using image-level class labels as supervision. Our method starts by estimating coarse areas of object classes through attentions drawn by an image classification network. Since boundaries will locate somewhere between such areas of different classes, our task is formulated as a multiple instance learning (MIL) problem, where pixels on a line segment connecting areas of two different classes are regarded as a bag of boundary candidates. Moreover, we design a new neural network architecture that can learn to estimate semantic boundaries reliably even with uncertain supervision given by the MIL strategy. Our network is used to generate pseudo semantic boundary labels of training images, which are in turn used to train fully supervised models. The final model trained with our pseudo labels achieves an outstanding performance on the SBD dataset, where it is as competitive as some of previous arts trained with stronger supervision.
translated by 谷歌翻译
生成精确的类感知的伪基真实,也就是类激活图(CAM),对于弱监督的语义分割至关重要。原始CAM方法通常会产生不完整和不准确的定位图。为了解决这个问题,本文提出了基于可变形卷积中的偏移学习的扩展和收缩方案,以依次改善两个各个阶段中定位对象的回忆和精度。在扩展阶段,在可变形卷积层中的偏移学习分支,称为“扩展采样器”,寻求采样越来越小的判别对象区域,这是由逆监督信号驱动的,从而最大程度地提高了图像级分类损失。然后在收缩阶段逐渐将位置更完整的物体逐渐缩小到最终对象区域。在收缩阶段,引入了另一个可变形卷积层的偏移学习分支,称为“收缩采样器”,以排除在扩展阶段参加的假积极背景区域,以提高定位图的精度。我们在Pascal VOC 2012和MS Coco 2014上进行了各种实验,以很好地证明了我们方法比其他最先进的方法对弱监督语义分割的优越性。代码将在此处公开提供,https://github.com/tyroneli/esol_wsss。
translated by 谷歌翻译
我们考虑临床应用异常定位问题。虽然深入学习推动了最近的医学成像进展,但许多临床挑战都没有完全解决,限制了其更广泛的使用。虽然最近的方法报告了高的诊断准确性,但医生因普遍缺乏算法决策和解释性而涉及诊断决策的这些算法,这是关注这些算法。解决这个问题的一种潜在方法是进一步培训这些模型,以便除了分类它们之外,除了分类。然而,准确地进行这一临床专家需要大量的疾病定位注释,这是对大多数应用程序来实现昂贵的任务。在这项工作中,我们通过一种新的注意力弱监督算法来解决这些问题,该弱势监督算法包括分层关注挖掘框架,可以以整体方式统一激活和基于梯度的视觉关注。我们的关键算法创新包括明确序号注意约束的设计,实现了以弱监督的方式实现了原则的模型培训,同时还通过本地化线索促进了产生视觉关注驱动的模型解释。在两个大型胸部X射线数据集(NIH Chescx-Ray14和Chexpert)上,我们展示了对现有技术的显着本地化性能,同时也实现了竞争的分类性能。我们的代码可在https://github.com/oyxhust/ham上找到。
translated by 谷歌翻译
弱监督对象本地化(WSOL)旨在仅通过使用图像级标签来学习对象本地化器。基于卷积神经网络(CNN)的技术通常导致突出显示物体的最辨别部分,同时忽略整个对象范围。最近,变压器架构已经部署到WSOL,以捕获具有自我关注机制和多层的Perceptron结构的远程特征依赖性。然而,变压器缺乏CNN所固有的局部感应偏差,因此可以恶化WSOL中的局部特征细节。在本文中,我们提出了一种基于变压器的新型框架,称为LCTR(局部连续性变压器),该框架被称为LCTR(局部连续性变压器),该框架在长期特征依赖项中提高全局特征的本地感知能力。为此,我们提出了一个关系的修补程序注意模块(RPAM),其考虑全球跨补丁信息。我们进一步设计了一个CUE挖掘模块(CDM),它利用本地特征来指导模型的学习趋势,以突出弱局部响应。最后,在两个广泛使用的数据集,即Cub-200-2011和ILSVRC上进行综合实验,以验证我们方法的有效性。
translated by 谷歌翻译
虽然现有的语义分割方法实现令人印象深刻的结果,但它们仍然努力将其模型逐步更新,因为新类别被发现。此外,逐个像素注释昂贵且耗时。本文提出了一种新颖的对语义分割学习弱增量学习的框架,旨在学习从廉价和大部分可用的图像级标签进行新课程。与现有的方法相反,需要从下线生成伪标签,我们使用辅助分类器,用图像级标签培训并由分段模型规范化,在线获取伪监督并逐步更新模型。我们通过使用由辅助分类器生成的软标签来应对过程中的内在噪声。我们展示了我们对Pascal VOC和Coco数据集的方法的有效性,表现出离线弱监督方法,并获得了具有全面监督的增量学习方法的结果。
translated by 谷歌翻译
深度学习的快速发展在分割方面取得了长足的进步,这是计算机视觉的基本任务之一。但是,当前的细分算法主要取决于像素级注释的可用性,这些注释通常昂贵,乏味且费力。为了减轻这一负担,过去几年见证了越来越多的关注,以建立标签高效,深度学习的细分算法。本文对标签有效的细分方法进行了全面的审查。为此,我们首先根据不同类型的弱标签提供的监督(包括没有监督,粗略监督,不完整的监督和嘈杂的监督和嘈杂的监督),首先开发出一种分类法来组织这些方法,并通过细分类型(包括语义细分)补充,实例分割和全景分割)。接下来,我们从统一的角度总结了现有的标签有效的细分方法,该方法讨论了一个重要的问题:如何弥合弱监督和密集预测之间的差距 - 当前的方法主要基于启发式先导,例如交叉像素相似性,跨标签约束,跨视图一致性,跨图像关系等。最后,我们分享了对标签有效深层细分的未来研究方向的看法。
translated by 谷歌翻译
现有的突出实例检测(SID)方法通常从像素级注释数据集中学习。在本文中,我们向SID问题提出了第一个弱监督的方法。虽然在一般显着性检测中考虑了弱监管,但它主要基于使用类标签进行对象本地化。然而,仅使用类标签来学习实例知识的显着性信息是不普遍的,因为标签可能不容易地分离具有高语义亲和力的显着实例。由于子化信息提供了对突出项的数量的即时判断,因此自然地与检测突出实例相关,并且可以帮助分离相同实例的不同部分的同一类别的单独实例。灵感来自这一观察,我们建议使用课程和镇展标签作为SID问题的弱监督。我们提出了一种具有三个分支的新型弱监管网络:显着性检测分支利用类一致性信息来定位候选物体;边界检测分支利用类差异信息来解除对象边界;和Firedroid检测分支,使用子化信息来检测SALICE实例质心。然后融合该互补信息以产生突出的实例图。为方便学习过程,我们进一步提出了一种渐进的培训方案,以减少标签噪声和模型中学到的相应噪声,通过往复式突出实例预测和模型刷新模型。我们广泛的评估表明,该方法对精心设计的基线方法进行了有利地竞争,这些方法适应了相关任务。
translated by 谷歌翻译
Image-level weakly supervised semantic segmentation is a challenging problem that has been deeply studied in recent years. Most of advanced solutions exploit class activation map (CAM). However, CAMs can hardly serve as the object mask due to the gap between full and weak supervisions. In this paper, we propose a self-supervised equivariant attention mechanism (SEAM) to discover additional supervision and narrow the gap. Our method is based on the observation that equivariance is an implicit constraint in fully supervised semantic segmentation, whose pixel-level labels take the same spatial transformation as the input images during data augmentation. However, this constraint is lost on the CAMs trained by image-level supervision. Therefore, we propose consistency regularization on predicted CAMs from various transformed images to provide self-supervision for network learning. Moreover, we propose a pixel correlation module (PCM), which exploits context appearance information and refines the prediction of current pixel by its similar neighbors, leading to further improvement on CAMs consistency. Extensive experiments on PASCAL VOC 2012 dataset demonstrate our method outperforms state-of-the-art methods using the same level of supervision. The code is released online 1 .
translated by 谷歌翻译