图像和视频中的消防本地化是自治系统对抗火事故的重要一步。基于深神经网络的最先进的图像分割方法需要大量的像素注释样本以以完全监督的方式训练卷积神经网络(CNNS)。在本文中,我们考虑了图像中的火灾的弱监管,其中仅使用图像标签来训练网络。我们示出在火灾分割的情况下,这是二进制分割问题,分类中的中层中的特征的平均值可以比传统的类激活映射(CAM)方法更好。我们还建议通过在上次卷积层的特征上添加旋转等值正则化损耗来进一步提高分割精度。我们的结果表明,对弱势监督的火灾细分的基线方法显着改善。
translated by 谷歌翻译
探测和火灾中的图像和视频的定位是在应对火灾事故的重要。虽然语义分割方法可以用来表示在图像火像素的位置,他们的预测是局部的,他们往往没有考虑到火图像中的存在,这是在图像标签隐含的全局信息。我们提出了一个卷积神经网络(CNN)联合分类和图像火的分割提高了防火分割的性能。我们使用的空间自注意机制来捕获其使用分类概率作为关注重量的新信道注意模块的像素之间的远程相关性,和。该网络联合训练既分割和分类,从而提高了的单任务的图像分割方法的性能,并提出了防火分割以前的方法。
translated by 谷歌翻译
通过使用图像级分类掩模监督其学习过程,弱监督对象本地化(WSOL)放宽对对象本地化的密度注释的要求。然而,当前的WSOL方法遭受背景位置的过度激活,并且需要后处理以获得定位掩模。本文将这些问题归因于背景提示的不明显,并提出了背景感知分类激活映射(B-CAM),以便仅使用图像级标签同时学习对象和背景的本地化分数。在我们的B-CAM中,两个图像级功能,由潜在背景和对象位置的像素级别功能聚合,用于从对象相关的背景中净化对象功能,并表示纯背景样本的功能,分别。然后基于这两个特征,学习对象分类器和背景分类器,以确定二进制对象本地化掩码。我们的B-CAM可以基于提出的错开分类损失以端到端的方式培训,这不仅可以改善对象本地化,而且还抑制了背景激活。实验表明,我们的B-CAM在Cub-200,OpenImages和VOC2012数据集上优于一级WSOL方法。
translated by 谷歌翻译
在弱监督的本地化设置中,监督作为图像级标签。我们建议使用图像分类器$ F $,并培训发电网络$ G $,给定输入图像,指示图像内对象位置的每个像素权重映射。通过最大限度地减少原始图像上的分类器F $ F $的输出之间的差异来培训网络$ G $培训。该方案需要一个正常化术语,确保$ G $不提供统一的重量,以及提前停止标准,以防止超过段图像。我们的结果表明,该方法在充满挑战的细粒度分类数据集中的相当余量以及通用图像识别数据集中优于现有的本地化方法。另外,在细粒度分类数据集中的弱监督分割中,所获得的权重映射也是最新的。
translated by 谷歌翻译
基于弱监管的像素 - 明显的密集预测任务当前使用类注意映射(CAM)以产生伪掩模作为地面真理。然而,现有方法通常取决于诱人的训练模块,这可能会引入磨削计算开销和复杂的培训程序。在这项工作中,提出了语义结构知识推断(SSA)来探索隐藏在基于CNN的网络的不同阶段的语义结构信息,以在模型推断中产生高质量凸轮。具体地,首先提出语义结构建模模块(SSM)来生成类别不可知语义相关表示,其中每个项目表示一个类别对象和所有其他类别之间的亲和程度。然后,探索结构化特征表示通过点产品操作来抛光不成熟的凸轮。最后,来自不同骨架级的抛光凸轮融合为输出。所提出的方法具有没有参数的优点,不需要培训。因此,它可以应用于广泛的弱监管像素 - 明智的密集预测任务。对弱势监督对象本地化和弱监督语义分割任务的实验结果证明了该方法的效力,这使得新的最先进的结果实现了这两项任务。
translated by 谷歌翻译
In this work, we revisit the global average pooling layer proposed in [13], and shed light on how it explicitly enables the convolutional neural network to have remarkable localization ability despite being trained on image-level labels. While this technique was previously proposed as a means for regularizing training, we find that it actually builds a generic localizable deep representation that can be applied to a variety of tasks. Despite the apparent simplicity of global average pooling, we are able to achieve 37.1% top-5 error for object localization on ILSVRC 2014, which is remarkably close to the 34.2% top-5 error achieved by a fully supervised CNN approach. We demonstrate that our network is able to localize the discriminative image regions on a variety of tasks despite not being trained for them.
translated by 谷歌翻译
虽然图像级弱监督的语义分割(WSSS)与类激活地图(CAM)作为基石取得了很大的进展,但分类和分割之间的大型监督差距仍然妨碍模型以产生用于分割的更完整和精确的伪掩模。在这项研究中,我们提出了弱监管的像素到原型对比度,其可以提供像素级监控信号来缩小间隙。由两个直观的前沿引导,我们的方法在不同视图和图像的单个视图中执行,旨在施加跨视图特征语义一致性正则化,并促进特征空间的帧内(互联)紧凑性(色散)。我们的方法可以无缝地纳入现有的WSSS模型,而没有对基础网络的任何更改,并且不会产生任何额外的推断负担。广泛的实验表明,我们的方法始终如一地通过大幅度改善两个强的基线,证明了有效性。具体而言,建于接缝的顶部,我们将初始种子Miou 2012从55.4%提高到Pascal VOC上。此外,通过我们的方法武装,我们从70.8%增加到73.6%的EPS分割Miou,实现了新的最先进。
translated by 谷歌翻译
Image-level weakly supervised semantic segmentation is a challenging problem that has been deeply studied in recent years. Most of advanced solutions exploit class activation map (CAM). However, CAMs can hardly serve as the object mask due to the gap between full and weak supervisions. In this paper, we propose a self-supervised equivariant attention mechanism (SEAM) to discover additional supervision and narrow the gap. Our method is based on the observation that equivariance is an implicit constraint in fully supervised semantic segmentation, whose pixel-level labels take the same spatial transformation as the input images during data augmentation. However, this constraint is lost on the CAMs trained by image-level supervision. Therefore, we propose consistency regularization on predicted CAMs from various transformed images to provide self-supervision for network learning. Moreover, we propose a pixel correlation module (PCM), which exploits context appearance information and refines the prediction of current pixel by its similar neighbors, leading to further improvement on CAMs consistency. Extensive experiments on PASCAL VOC 2012 dataset demonstrate our method outperforms state-of-the-art methods using the same level of supervision. The code is released online 1 .
translated by 谷歌翻译
利用深度学习的水提取需要精确的像素级标签。然而,在像素级别标记高分辨率遥感图像非常困难。因此,我们研究如何利用点标签来提取水体并提出一种名为邻居特征聚合网络(NFANET)的新方法。与PixelLevel标签相比,Point标签更容易获得,但它们会失去许多信息。在本文中,我们利用了局部水体的相邻像素之间的相似性,并提出了邻居采样器来重塑遥感图像。然后,将采样的图像发送到网络以进行特征聚合。此外,我们使用改进的递归训练算法进一步提高提取精度,使水边界更加自然。此外,我们的方法利用相邻特征而不是全局或本地特征来学习更多代表性。实验结果表明,所提出的NFANET方法不仅优于其他研究的弱监管方法,而且还获得与最先进的结果相似。
translated by 谷歌翻译
大多数现有的语义分割方法都以图像级类标签作为监督,高度依赖于从标准分类网络生成的初始类激活图(CAM)。在本文中,提出了一种新颖的“渐进贴片学习”方法,以改善分类的局部细节提取,从而更好地覆盖整个对象的凸轮,而不仅仅是在常规分类模型中获得的CAM中的最歧视区域。 “补丁学习”将特征映射破坏成贴片,并在最终聚合之前并行独立处理每个本地贴片。这样的机制强迫网络从分散的歧视性本地部分中找到弱信息,从而提高了本地细节的敏感性。 “渐进的补丁学习”进一步将特征破坏和补丁学习扩展到多层粒度。与多阶段优化策略合作,这种“渐进的补丁学习”机制隐式地为模型提供了跨不同位置粒状性的特征提取能力。作为隐式多粒性渐进式融合方法的替代方案,我们还提出了一种明确的方法,以同时将单个模型中不同粒度的特征融合,从而进一步增强了完整对象覆盖的凸轮质量。我们提出的方法在Pascal VOC 2012数据集上取得了出色的性能,例如,测试集中有69.6 $%miou),它超过了大多数现有的弱监督语义细分方法。代码将在此处公开提供,https://github.com/tyroneli/ppl_wsss。
translated by 谷歌翻译
几次拍摄的语义分割解决了学习任务,其中只有几个具有地面真理像素级标签的图像可用于新颖的感兴趣的景点。通常需要将大量数据(即基类)收集具有这样的地面真理信息,然后是元学习策略来解决上述学习任务。当在训练和测试期间只能观察到图像级语义标签时,它被认为是弱监督少量语义细分的更具挑战性的任务。为了解决这个问题,我们提出了一种新的元学习框架,其预测来自有限量的数据和它们的语义标签的伪像素级分段掩模。更重要的是,我们的学习方案进一步利用了具有分段保证的查询图像输入的产生的像素级信息。因此,我们提出的学习模型可以被视为像素级元学习者。通过对基准数据集的广泛实验,我们表明我们的模型在完全监督的环境下实现了令人满意的性能,但在弱势监督的环境下对最先进的方法进行了有利的方法。
translated by 谷歌翻译
弱监督对象本地化(WSOL)旨在仅使用图像级标签作为监控本地化对象区域。最近,通过生成前景预测映射(FPM)来实现新的范例来实现本地化任务。现有的基于FPM的方法使用跨熵(CE)来评估前景预测映射并引导发电机的学习。我们争辩使用激活值来实现更高效的学习。它基于实验观察,对于培训的网络,CE当前景掩模仅覆盖物体区域的一部分时,CE会聚到零。虽然激活值增加,直到掩码扩展到对象边界,这表明可以通过使用激活值来学习更多对象区域。在本文中,我们提出了背景激活抑制(BAS)方法。具体地,设计激活地图约束模块(AMC)以通过抑制背景激活值来促进生成器的学习。同时,通过使用前景区域指导和区域约束,BAS可以学习对象的整个区域。此外,在推理阶段,我们考虑不同类别的预测映射,以获得最终的本地化结果。广泛的实验表明,BAS通过CUB-200-2011和ILSVRC数据集的基线方法实现了显着和一致的改进。
translated by 谷歌翻译
弱监督语义分段(WSSS)的现有研究已经利用了类激活映射(CAM)来本地化类对象。然而,由于分类损失不足以提供精确的物区域,因此凸轮倾向于偏向辨别模式(即,稀疏),并且不提供精确的对象边界信息(即,不确定)。为了解决这些限制,我们提出了一种新颖的框架(由MainNet和SupportNet组成),从给定的图像级监督导出像素级自我监督。在我们的框架中,借助拟议的区域对比模块(RCM)和多尺寸细分模块(MAM),MainNet由来自SupportNet的自我监督训练。 RCM从SupportNet中提取两种形式的自我监督:(1)从凸轮和(2)根据类区域掩码的特征获得的(2)类的类别区域掩模。然后,主目的的每个像素明智的特征被原型训练以对比的方式,锐化所产生的凸轮。 MAM利用从SupportNet的多个尺度推断的凸轮作为自我监控来指导MailNet。基于Mainnet和SupportNet的多尺度凸轮之间的不相似性,来自主目的的凸轮训练以扩展到较少辨别的区域。该方法在Pascal VOC 2012数据集上显示了在列车和验证集上的最先进的WSSS性能。为了再现性,代码将很快公开提供。
translated by 谷歌翻译
This paper presents the first attempt to learn semantic boundary detection using image-level class labels as supervision. Our method starts by estimating coarse areas of object classes through attentions drawn by an image classification network. Since boundaries will locate somewhere between such areas of different classes, our task is formulated as a multiple instance learning (MIL) problem, where pixels on a line segment connecting areas of two different classes are regarded as a bag of boundary candidates. Moreover, we design a new neural network architecture that can learn to estimate semantic boundaries reliably even with uncertain supervision given by the MIL strategy. Our network is used to generate pseudo semantic boundary labels of training images, which are in turn used to train fully supervised models. The final model trained with our pseudo labels achieves an outstanding performance on the SBD dataset, where it is as competitive as some of previous arts trained with stronger supervision.
translated by 谷歌翻译
使用深度学习模型从组织学数据中诊断癌症提出了一些挑战。这些图像中关注区域(ROI)的癌症分级和定位通常依赖于图像和像素级标签,后者需要昂贵的注释过程。深度弱监督的对象定位(WSOL)方法为深度学习模型的低成本培训提供了不同的策略。仅使用图像级注释,可以训练这些方法以对图像进行分类,并为ROI定位进行分类类激活图(CAM)。本文综述了WSOL的​​最先进的DL方法。我们提出了一种分类法,根据模型中的信息流,将这些方法分为自下而上和自上而下的方法。尽管后者的进展有限,但最近的自下而上方法目前通过深层WSOL方法推动了很多进展。早期作品的重点是设计不同的空间合并功能。但是,这些方法达到了有限的定位准确性,并揭示了一个主要限制 - 凸轮的不足激活导致了高假阴性定位。随后的工作旨在减轻此问题并恢复完整的对象。评估和比较了两个具有挑战性的组织学数据集的分类和本地化准确性,对我们的分类学方法进行了评估和比较。总体而言,结果表明定位性能差,特别是对于最初设计用于处理自然图像的通用方法。旨在解决组织学数据挑战的方法产生了良好的结果。但是,所有方法都遭受高假阳性/阴性定位的影响。在组织学中应用深WSOL方法的应用是四个关键的挑战 - 凸轮的激活下/过度激活,对阈值的敏感性和模型选择。
translated by 谷歌翻译
卫星图像中的云的检测是遥感中的大数据的基本预处理任务。卷积神经网络(CNNS)在检测卫星图像中的云中大大提升了最先进的,但是现有的基于CNN的方法昂贵,因为它们需要大量具有昂贵的像素级云标签的训练图像。为了减轻这种成本,我们提出了针对云检测(FCD)的定点GaN,这是一种弱监督的方法。只有图像级标签训练,我们学习在清晰和阴天的图像之间的固定点转换,因此在翻译期间只影响云。这样做使我们的方法能够通过将卫星图像转换为清除并将阈值设置为两个图像之间的差异来预测像素级云标签。此外,我们提出了FCD +,在那里我们利用CNN的标签噪声稳健性来改进FCD的预测,从而进一步改进。我们展示了我们对Landsat-8生物群落云检测数据集的方法的有效性,在那里我们将性能接近与昂贵的像素级标签一起列车的现有全监督方法。通过微调我们的FCD +,只有1%的可用像素级标签,我们符合完全监督方法的性能。
translated by 谷歌翻译
The deficiency of segmentation labels is one of the main obstacles to semantic segmentation in the wild. To alleviate this issue, we present a novel framework that generates segmentation labels of images given their image-level class labels. In this weakly supervised setting, trained models have been known to segment local discriminative parts rather than the entire object area. Our solution is to propagate such local responses to nearby areas which belong to the same semantic entity. To this end, we propose a Deep Neural Network (DNN) called AffinityNet that predicts semantic affinity between a pair of adjacent image coordinates. The semantic propagation is then realized by random walk with the affinities predicted by AffinityNet. More importantly, the supervision employed to train AffinityNet is given by the initial discriminative part segmentation, which is incomplete as a segmentation annotation but sufficient for learning semantic affinities within small image areas. Thus the entire framework relies only on image-level class labels and does not require any extra data or annotations. On the PASCAL VOC 2012 dataset, a DNN learned with segmentation labels generated by our method outperforms previous models trained with the same level of supervision, and is even as competitive as those relying on stronger supervision.
translated by 谷歌翻译
分类网络已用于弱监督语义分割(WSSS)中,以通过类激活图(CAM)进行细分对象。但是,没有像素级注释,已知它们主要是(1)集中在歧视区域上,以及(2)产生弥漫性凸轮而没有定义明确的预测轮廓。在这项工作中,我们通过改善CAM学习来缓解这两个问题。首先,我们根据CAM引起的类别概率质量函数来合并重要性抽样,以产生随机图像级别的类预测。如我们的经验研究所示,这导致分割涵盖更大程度的对象。其次,我们制定了特征相似性损失项,该术语进一步改善了图像中边缘的预测轮廓的对齐。此外,我们通过测量轮廓f-评分作为对公共区域MIOU度量的补充,将新的光芒放到了WSS的问题上。我们表明,我们的方法在轮廓质量方面显着优于以前的方法,同时匹配了区域相似性的最新方法。
translated by 谷歌翻译
仅使用图像级标签的弱监督语义细分旨在降低分割任务的注释成本。现有方法通常利用类激活图(CAM)来定位伪标签生成的对象区域。但是,凸轮只能发现对象的最歧视部分,从而导致下像素级伪标签。为了解决这个问题,我们提出了一个限制的显着性和内类关系的显着性(I $^2 $ CRC)框架,以协助CAM中激活的对象区域的扩展。具体而言,我们提出了一个显着性指导的类不足的距离模块,以通过将特征对准其类原型来更接近类别内特征。此外,我们提出了一个特定的距离模块,以将类间特征推开,并鼓励对象区域的激活高于背景。除了加强分类网络激活CAM中更多积分对象区域的能力外,我们还引入了一个对象引导的标签细化模块,以完全利用分割预测和初始标签,以获取出色的伪标签。 Pascal VOC 2012和可可数据集的广泛实验很好地证明了I $^2 $ CRC的有效性,而不是其他最先进的对应物。源代码,模型和数据已在\ url {https://github.com/nust-machine-intelligence-laboratory/i2crc}提供。
translated by 谷歌翻译
弱监督的语义细分(WSSS)旨在仅使用用于训练的图像级标签来产生像素类预测。为此,以前的方法采用了通用管道:它们从类激活图(CAM)生成伪口罩,并使用此类掩码来监督分割网络。但是,由于凸轮的局部属性,即它们倾向于仅专注于小的判别对象零件,因此涵盖涵盖整个物体的全部范围的全面伪面罩是一项挑战。在本文中,我们将CAM的局部性与卷积神经网络(CNNS)的质地偏见特性相关联。因此,我们建议利用形状信息来补充质地偏见的CNN特征,从而鼓励掩模预测不仅是全面的,而且还与物体边界相交。我们通过一种新颖的改进方法进一步完善了在线方式的预测,该方法同时考虑了类和颜色亲和力,以生成可靠的伪口罩以监督模型。重要的是,我们的模型是在单阶段框架内进行端到端训练的,因此在培训成本方面有效。通过对Pascal VOC 2012的广泛实验,我们验证了方法在产生精确和形状对准的分割结果方面的有效性。具体而言,我们的模型超过了现有的最新单阶段方法。此外,当在没有铃铛和哨声的简单两阶段管道中采用时,它还在多阶段方法上实现了新的最新性能。
translated by 谷歌翻译