仅使用诸如图像类标签的全局注释,弱监督学习方法允许CNN分类器共同分类图像,并产生与预测类相关的感兴趣区域。然而,在像素水平的任何引导下,这种方法可以产生不准确的区域。已知该问题与组织学图像更具挑战,而不是与天然自然的图像,因为物体不太突出,结构具有更多变化,并且前景和背景区域具有更强的相似之处。因此,用于CNNS的视觉解释的计算机视觉文献中的方法可能无法直接适用。在这项工作中,我们提出了一种基于复合损耗功能的简单而有效的方法,可利用完全消极样本的信息。我们的新损失函数包含两个补充项:第一次利用CNN分类器收集的积极证据,而第二个利用来自CNN分类器的积极证据,而第二个互联网将利用来自训练数据集的完全消极样本。特别是,我们用解码器装备预先训练的分类器,该解码器允许精制感兴趣的区域。利用相同的分类器来收集像素电平的正面和负证据,以培训解码器。这使得能够利用自然地发生在数据中的完全消极样本,而没有任何额外的监督信号,并且仅使用图像类作为监督。与几种相关方法相比,在冒号癌的公共基准GLAS和使用三种不同的骨架的CONELYON16基于乳腺癌的CAMELYON16基准测试,我们展示了我们方法引入的大量改进。我们的结果表明了使用负数和积极证据的好处,即,从分类器获得的效益以及在数据集中自然可用的那个。我们对这两种术语进行了消融研究。我们的代码公开提供。
translated by 谷歌翻译
使用深度学习模型从组织学数据中诊断癌症提出了一些挑战。这些图像中关注区域(ROI)的癌症分级和定位通常依赖于图像和像素级标签,后者需要昂贵的注释过程。深度弱监督的对象定位(WSOL)方法为深度学习模型的低成本培训提供了不同的策略。仅使用图像级注释,可以训练这些方法以对图像进行分类,并为ROI定位进行分类类激活图(CAM)。本文综述了WSOL的​​最先进的DL方法。我们提出了一种分类法,根据模型中的信息流,将这些方法分为自下而上和自上而下的方法。尽管后者的进展有限,但最近的自下而上方法目前通过深层WSOL方法推动了很多进展。早期作品的重点是设计不同的空间合并功能。但是,这些方法达到了有限的定位准确性,并揭示了一个主要限制 - 凸轮的不足激活导致了高假阴性定位。随后的工作旨在减轻此问题并恢复完整的对象。评估和比较了两个具有挑战性的组织学数据集的分类和本地化准确性,对我们的分类学方法进行了评估和比较。总体而言,结果表明定位性能差,特别是对于最初设计用于处理自然图像的通用方法。旨在解决组织学数据挑战的方法产生了良好的结果。但是,所有方法都遭受高假阳性/阴性定位的影响。在组织学中应用深WSOL方法的应用是四个关键的挑战 - 凸轮的激活下/过度激活,对阈值的敏感性和模型选择。
translated by 谷歌翻译
弱监督的视频对象本地化(WSVOL)允许仅使用全局视频标签(例如对象类)在视频中找到对象。最先进的方法依赖于多个独立阶段,其中最初的时空建议是使用视觉和运动提示生成的,然后确定和完善了突出的对象。本地化是通过在一个或多个视频上解决优化问题来完成的,并且视频标签通常用于视频集群。这需要每件型号或每类制造代价高昂的推理。此外,由于无监督的运动方法(如光流)或视频标签是从优化中丢弃的,因此本地化区域不是必需的判别。在本文中,我们利用成功的类激活映射(CAM)方法,该方法是基于静止图像而设计的。引入了一种新的时间凸轮(TCAM)方法,以训练一种判别深度学习(DL)模型,以使用称为CAM-Temporal Max Max Pooling(CAM-TMP)的聚集机制在视频中利用时空信息,而不是连续的凸轮。特别是,感兴趣区域的激活(ROI)是从审计的CNN分类器生成的CAM中收集的,以构建Pseudo-Labels构建用于训练DL模型的伪标记。此外,使用全局无监督的尺寸约束和诸如CRF之类的局部约束来产生更准确的凸轮。对单个独立帧的推断允许并行处理框架片段和实时定位。在两个挑战性的YouTube-Objects数据集上进行无限制视频的广泛实验,表明CAM方法(在独立框架上训练)可以产生不错的定位精度。我们提出的TCAM方法在WSVOL准确性方面达到了新的艺术品,并且视觉结果表明它可以适用于后续任务,例如视觉对象跟踪和检测。代码公开可用。
translated by 谷歌翻译
弱监督的对象本地化(WSOL)在过去几年中获得了普及,以便培训具有图像级标签的本地化模型。由于Soliminal WSOL类激活映射(CAM),该领域的重点是如何扩展注意区域更广泛地覆盖物体并更好地本地化。但是,这些策略依赖于验证超参数和模型选择的完全本地化监督,这是原则上禁止WSOL设置。在本文中,我们认为WSOL任务仅用图像级标签均不含糊,并提出了一种新的评估协议,其中全面监督仅限于仅与测试集没有重叠的小型举出的设置。我们观察到,根据我们的协议,五种最新的WSOL方法没有对CAM基线进行重大改进。此外,我们报告说,现有的WSOL方法尚未达到几次学习基准,其中验证时间的全面监督用于模型培训。根据我们的调查结果,我们讨论了WSOL的​​一些未来方向。
translated by 谷歌翻译
分类网络已用于弱监督语义分割(WSSS)中,以通过类激活图(CAM)进行细分对象。但是,没有像素级注释,已知它们主要是(1)集中在歧视区域上,以及(2)产生弥漫性凸轮而没有定义明确的预测轮廓。在这项工作中,我们通过改善CAM学习来缓解这两个问题。首先,我们根据CAM引起的类别概率质量函数来合并重要性抽样,以产生随机图像级别的类预测。如我们的经验研究所示,这导致分割涵盖更大程度的对象。其次,我们制定了特征相似性损失项,该术语进一步改善了图像中边缘的预测轮廓的对齐。此外,我们通过测量轮廓f-评分作为对公共区域MIOU度量的补充,将新的光芒放到了WSS的问题上。我们表明,我们的方法在轮廓质量方面显着优于以前的方法,同时匹配了区域相似性的最新方法。
translated by 谷歌翻译
通过使用图像级分类掩模监督其学习过程,弱监督对象本地化(WSOL)放宽对对象本地化的密度注释的要求。然而,当前的WSOL方法遭受背景位置的过度激活,并且需要后处理以获得定位掩模。本文将这些问题归因于背景提示的不明显,并提出了背景感知分类激活映射(B-CAM),以便仅使用图像级标签同时学习对象和背景的本地化分数。在我们的B-CAM中,两个图像级功能,由潜在背景和对象位置的像素级别功能聚合,用于从对象相关的背景中净化对象功能,并表示纯背景样本的功能,分别。然后基于这两个特征,学习对象分类器和背景分类器,以确定二进制对象本地化掩码。我们的B-CAM可以基于提出的错开分类损失以端到端的方式培训,这不仅可以改善对象本地化,而且还抑制了背景激活。实验表明,我们的B-CAM在Cub-200,OpenImages和VOC2012数据集上优于一级WSOL方法。
translated by 谷歌翻译
在弱监督的本地化设置中,监督作为图像级标签。我们建议使用图像分类器$ F $,并培训发电网络$ G $,给定输入图像,指示图像内对象位置的每个像素权重映射。通过最大限度地减少原始图像上的分类器F $ F $的输出之间的差异来培训网络$ G $培训。该方案需要一个正常化术语,确保$ G $不提供统一的重量,以及提前停止标准,以防止超过段图像。我们的结果表明,该方法在充满挑战的细粒度分类数据集中的相当余量以及通用图像识别数据集中优于现有的本地化方法。另外,在细粒度分类数据集中的弱监督分割中,所获得的权重映射也是最新的。
translated by 谷歌翻译
This paper presents the first attempt to learn semantic boundary detection using image-level class labels as supervision. Our method starts by estimating coarse areas of object classes through attentions drawn by an image classification network. Since boundaries will locate somewhere between such areas of different classes, our task is formulated as a multiple instance learning (MIL) problem, where pixels on a line segment connecting areas of two different classes are regarded as a bag of boundary candidates. Moreover, we design a new neural network architecture that can learn to estimate semantic boundaries reliably even with uncertain supervision given by the MIL strategy. Our network is used to generate pseudo semantic boundary labels of training images, which are in turn used to train fully supervised models. The final model trained with our pseudo labels achieves an outstanding performance on the SBD dataset, where it is as competitive as some of previous arts trained with stronger supervision.
translated by 谷歌翻译
几次拍摄的语义分割解决了学习任务,其中只有几个具有地面真理像素级标签的图像可用于新颖的感兴趣的景点。通常需要将大量数据(即基类)收集具有这样的地面真理信息,然后是元学习策略来解决上述学习任务。当在训练和测试期间只能观察到图像级语义标签时,它被认为是弱监督少量语义细分的更具挑战性的任务。为了解决这个问题,我们提出了一种新的元学习框架,其预测来自有限量的数据和它们的语义标签的伪像素级分段掩模。更重要的是,我们的学习方案进一步利用了具有分段保证的查询图像输入的产生的像素级信息。因此,我们提出的学习模型可以被视为像素级元学习者。通过对基准数据集的广泛实验,我们表明我们的模型在完全监督的环境下实现了令人满意的性能,但在弱势监督的环境下对最先进的方法进行了有利的方法。
translated by 谷歌翻译
深度学习的快速发展在分割方面取得了长足的进步,这是计算机视觉的基本任务之一。但是,当前的细分算法主要取决于像素级注释的可用性,这些注释通常昂贵,乏味且费力。为了减轻这一负担,过去几年见证了越来越多的关注,以建立标签高效,深度学习的细分算法。本文对标签有效的细分方法进行了全面的审查。为此,我们首先根据不同类型的弱标签提供的监督(包括没有监督,粗略监督,不完整的监督和嘈杂的监督和嘈杂的监督),首先开发出一种分类法来组织这些方法,并通过细分类型(包括语义细分)补充,实例分割和全景分割)。接下来,我们从统一的角度总结了现有的标签有效的细分方法,该方法讨论了一个重要的问题:如何弥合弱监督和密集预测之间的差距 - 当前的方法主要基于启发式先导,例如交叉像素相似性,跨标签约束,跨视图一致性,跨图像关系等。最后,我们分享了对标签有效深层细分的未来研究方向的看法。
translated by 谷歌翻译
在病理样本的全坡度图像(WSI)中注释癌区域在临床诊断,生物医学研究和机器学习算法开发中起着至关重要的作用。但是,产生详尽而准确的注释是劳动密集型,具有挑战性和昂贵的。仅绘制粗略和近似注释是一项容易得多的任务,成本较小,并且可以减轻病理学家的工作量。在本文中,我们研究了在数字病理学中完善这些近似注释以获得更准确的问题的问题。以前的一些作品探索了从这些不准确的注释中获得机器学习模型,但是很少有人解决改进问题,在这些问题中,应该明确识别和纠正错误标签的区域,并且所有这些都需要大量的培训样本(通常很大) 。我们提出了一种名为标签清洁多个实例学习(LC-MIL)标签的方法,可在不需要外部培训数据的情况下对单个WSI进行粗略注释。从WSI裁剪的带有不准确标签的贴片在多个实例学习框架内共同处理,从而减轻了它们对预测模型的影响并完善分割。我们对具有乳腺癌淋巴结转移,肝癌和结直肠癌样品的异质WSI进行的实验表明,LC-MIL显着完善了粗糙的注释,即使从单个幻灯片中学习,LC-MIL也优于最先进的替代方案。此外,我们证明了拟议方法如何有效地完善和改进病理学家绘制的真实注释。所有这些结果表明,LC-MIL是一种有前途的,轻巧的工具,可提供从粗糙注释的病理组中提供细粒的注释。
translated by 谷歌翻译
3D医学图像分割中卷积神经网络(CNN)的成功取决于大量的完全注释的3D体积,用于训练,这些训练是耗时且劳动力密集的。在本文中,我们建议在3D医学图像中只有7个点注释分段目标,并设计一个两阶段弱监督的学习框架PA-SEG。在第一阶段,我们采用大地距离变换来扩展种子点以提供更多的监督信号。为了在培训期间进一步处理未注释的图像区域,我们提出了两种上下文正则化策略,即多视图条件随机场(MCRF)损失和差异最小化(VM)损失,其中第一个鼓励具有相似特征的像素以具有一致的标签,第二个分别可以最大程度地减少分段前景和背景的强度差异。在第二阶段,我们使用在第一阶段预先训练的模型获得的预测作为伪标签。为了克服伪标签中的噪音,我们引入了一种自我和交叉监测(SCM)策略,该策略将自我训练与跨知识蒸馏(CKD)结合在主要模型和辅助模型之间,该模型从彼此生成的软标签中学习。在公共数据集的前庭造型瘤(VS)分割和脑肿瘤分割(BRAT)上的实验表明,我们在第一阶段训练的模型优于现有的最先进的弱监督方法,并在使用SCM之后,以提供其他scm来获得其他额外的scm培训,与Brats数据集中完全有监督的对应物相比,该模型可以实现竞争性能。
translated by 谷歌翻译
弱监督的语义细分(WSSS)旨在仅使用用于训练的图像级标签来产生像素类预测。为此,以前的方法采用了通用管道:它们从类激活图(CAM)生成伪口罩,并使用此类掩码来监督分割网络。但是,由于凸轮的局部属性,即它们倾向于仅专注于小的判别对象零件,因此涵盖涵盖整个物体的全部范围的全面伪面罩是一项挑战。在本文中,我们将CAM的局部性与卷积神经网络(CNNS)的质地偏见特性相关联。因此,我们建议利用形状信息来补充质地偏见的CNN特征,从而鼓励掩模预测不仅是全面的,而且还与物体边界相交。我们通过一种新颖的改进方法进一步完善了在线方式的预测,该方法同时考虑了类和颜色亲和力,以生成可靠的伪口罩以监督模型。重要的是,我们的模型是在单阶段框架内进行端到端训练的,因此在培训成本方面有效。通过对Pascal VOC 2012的广泛实验,我们验证了方法在产生精确和形状对准的分割结果方面的有效性。具体而言,我们的模型超过了现有的最新单阶段方法。此外,当在没有铃铛和哨声的简单两阶段管道中采用时,它还在多阶段方法上实现了新的最新性能。
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
为视觉细分标记图像是一项耗时的任务,尤其是在必须由专业专家注释者(例如土木工程)提供标签的应用领域中。在本文中,我们建议使用归因方法来利用专家注释者和在缺陷细分的情况下进行注释的专家注释之间的有价值的相互作用,以视觉检查民用基础架构。具体而言,对分类器进行了训练,可以检测缺陷,并与基于归因的方法和对抗性攀爬相结合,以生成和完善与分类输出相对应的分割掩码。这些用于在辅助标签框架中使用,在该框架中,注释者可以通过决定接受,拒绝或修改它们作为建议分割掩码与它们进行交互,并将交互记录为弱标签以进一步完善分类器。与对缺陷的手动注释相比,我们所提出的方法应用于自动视觉检查桥梁产生的现实数据集。
translated by 谷歌翻译
生成精确的类感知的伪基真实,也就是类激活图(CAM),对于弱监督的语义分割至关重要。原始CAM方法通常会产生不完整和不准确的定位图。为了解决这个问题,本文提出了基于可变形卷积中的偏移学习的扩展和收缩方案,以依次改善两个各个阶段中定位对象的回忆和精度。在扩展阶段,在可变形卷积层中的偏移学习分支,称为“扩展采样器”,寻求采样越来越小的判别对象区域,这是由逆监督信号驱动的,从而最大程度地提高了图像级分类损失。然后在收缩阶段逐渐将位置更完整的物体逐渐缩小到最终对象区域。在收缩阶段,引入了另一个可变形卷积层的偏移学习分支,称为“收缩采样器”,以排除在扩展阶段参加的假积极背景区域,以提高定位图的精度。我们在Pascal VOC 2012和MS Coco 2014上进行了各种实验,以很好地证明了我们方法比其他最先进的方法对弱监督语义分割的优越性。代码将在此处公开提供,https://github.com/tyroneli/esol_wsss。
translated by 谷歌翻译
从组织学图像开发AI辅助腺体分割方法对于自动癌症诊断和预后至关重要。但是,像素级注释的高成本阻碍了其对更广泛的疾病的应用。计算机视觉中现有的弱监督语义分割方法获得了腺体分割的退化结果,因为腺体数据集的特征和问题与一般对象数据集不同。我们观察到,与自然图像不同,组织学图像的关键问题是,在不同组织之间拥有阶级与形态同质性和低色对比的混淆。为此,我们提出了一种新颖的在线方法简单的示例采矿(OEEM),该方法鼓励网络专注于可靠的监督信号,而不是嘈杂的信号,因此减轻了伪掩模中不可避免的错误预测的影响。根据腺数据集的特征,我们为腺体分割设计了强大的框架。我们的结果分别超过了MIOU的许多完全监督的方法和弱监督的方法,用于腺体分割超过4.4%和6.04%。代码可从https://github.com/xmed-lab/oeem获得。
translated by 谷歌翻译
仅使用图像级标签的弱监督语义细分旨在降低分割任务的注释成本。现有方法通常利用类激活图(CAM)来定位伪标签生成的对象区域。但是,凸轮只能发现对象的最歧视部分,从而导致下像素级伪标签。为了解决这个问题,我们提出了一个限制的显着性和内类关系的显着性(I $^2 $ CRC)框架,以协助CAM中激活的对象区域的扩展。具体而言,我们提出了一个显着性指导的类不足的距离模块,以通过将特征对准其类原型来更接近类别内特征。此外,我们提出了一个特定的距离模块,以将类间特征推开,并鼓励对象区域的激活高于背景。除了加强分类网络激活CAM中更多积分对象区域的能力外,我们还引入了一个对象引导的标签细化模块,以完全利用分割预测和初始标签,以获取出色的伪标签。 Pascal VOC 2012和可可数据集的广泛实验很好地证明了I $^2 $ CRC的有效性,而不是其他最先进的对应物。源代码,模型和数据已在\ url {https://github.com/nust-machine-intelligence-laboratory/i2crc}提供。
translated by 谷歌翻译
美国和全球的两个主要死亡原因是中风和心肌梗塞。两者的根本原因是由破裂或侵蚀的不稳定的动脉粥样硬化斑块释放的,这些斑块阻塞了心脏(心肌梗塞)或大脑(中风)的血管。临床研究表明,在斑块破裂或侵蚀事件中,斑块组成比病变大小更重要。为了确定斑块组成,计算了3D心血管免疫荧光图像的各种细胞类型的斑块病变。但是,手动计算这些细胞是昂贵的,耗时的,并且容易发生人为错误。手动计数的这些挑战激发了对自动化方法进行定位和计算图像中细胞的需求。这项研究的目的是开发一种自动方法,以最少的注释工作在3D免疫荧光图像中准确检测和计数细胞。在这项研究中,我们使用弱监督的学习方法使用点注释来训练悬停网络分割模型,以检测荧光图像中的核。使用点注释的优点是,与像素的注释相比,它们需要更少的精力。为了使用点注释训练悬停的网络模型,我们采用了一种普遍使用的群集标记方法,将点注释转换为精确的细胞核二进制掩模。传统上,这些方法从点注释产生了二进制面具,使该物体周围的区域未标记(通常在模型训练中被忽略)。但是,这些区域可能包含重要信息,有助于确定细胞之间的边界。因此,我们在这些区域使用了熵最小化的损失函数,以鼓励模型在未标记区域上输出更自信的预测。我们的比较研究表明,使用我们的弱训练的悬停网络模型...
translated by 谷歌翻译
经过图像级标签训练的弱监督图像分割通常在伪地面上的生成期间因物体区域的覆盖率不准确。这是因为对象激活图受到分类目标的训练,并且缺乏概括的能力。为了提高客观激活图的一般性,我们提出了一个区域原型网络RPNET来探索训练集的跨图像对象多样性。通过区域特征比较确定了跨图像的相似对象零件。区域之间传播对象信心,以发现新的对象区域,同时抑制了背景区域。实验表明,该提出的方法会生成更完整和准确的伪对象掩模,同时在Pascal VOC 2012和MS Coco上实现最先进的性能。此外,我们研究了提出的方法在减少训练集方面的鲁棒性。
translated by 谷歌翻译