To overcome the data-hungry challenge, we have proposed a semi-supervised contrastive learning framework for the task of class-imbalanced semantic segmentation. First and foremost, to make the model operate in a semi-supervised manner, we proposed the confidence-level-based contrastive learning to achieve instance discrimination in an explicit manner, and make the low-confidence low-quality features align with the high-confidence counterparts. Moreover, to tackle the problem of class imbalance in crack segmentation and road components extraction, we proposed the data imbalance loss to replace the traditional cross entropy loss in pixel-level semantic segmentation. Finally, we have also proposed an effective multi-stage fusion network architecture to improve semantic segmentation performance. Extensive experiments on the real industrial crack segmentation and the road segmentation demonstrate the superior effectiveness of the proposed framework. Our proposed method can provide satisfactory segmentation results with even merely 3.5% labeled data.
translated by 谷歌翻译
上下文信息对于各种计算机视觉任务至关重要,以前的作品通常设计插件模块和结构损失,以有效地提取和汇总全局上下文。这些方法利用优质标签来优化模型,但忽略了精细训练的特征也是宝贵的训练资源,可以将优选的分布引入硬像素(即错误分类的像素)。受到无监督范式的对比学习的启发,我们以监督的方式应用了对比度损失,并重新设计了损失功能,以抛弃无监督学习的刻板印象(例如,积极和负面的不平衡,对锚定计算的混淆)。为此,我们提出了阳性阴性相等的对比损失(PNE损失),这增加了阳性嵌入对锚的潜在影响,并同时对待阳性和阴性样本对。 PNE损失可以直接插入现有的语义细分框架中,并以可忽视的额外计算成本导致出色的性能。我们利用许多经典的分割方法(例如,DeepLabv3,Ocrnet,Upernet)和骨干(例如Resnet,Hrnet,Swin Transformer)进行全面的实验,并在两个基准数据集(例如,例如,例如,,例如城市景观和可可固定)。我们的代码将公开
translated by 谷歌翻译
卷积神经网络可以在语义细分任务中实现出色的性能。但是,这种神经网络方法在很大程度上依赖于昂贵的像素级注释。半监督学习是解决这个问题的有前途的决议,但其表现仍然远远落后于完全受监督的对手。这项工作提出了一个带有三个模块的跨教师培训框架,可显着改善传统的半监督学习方法。核心是跨教师模块,可以同时减少同伴网络之间的耦合以及教师和学生网络之间的错误积累。此外,我们提出了两个互补的对比学习模块。高级模块可以将高质量的知识从标记的数据传输到未标记的数据,并在特征空间中促进类之间的分离。低级模块可以鼓励从同伴网络中的高质量功能学习的低质量功能。在实验中,跨教师模块显着提高了传统的学生教师方法的性能,而我们的框架在基准数据集上的表现优于现行方法。我们的CTT源代码将发布。
translated by 谷歌翻译
基于深度学习的半监督学习(SSL)方法在医学图像细分中实现了强大的性能,可以通过使用大量未标记的数据来减轻医生昂贵的注释。与大多数现有的半监督学习方法不同,基于对抗性训练的方法通过学习分割图的数据分布来区分样本与不同来源,导致细分器生成更准确的预测。我们认为,此类方法的当前绩效限制是特征提取和学习偏好的问题。在本文中,我们提出了一种新的半监督的对抗方法,称为贴片置信疗法训练(PCA),用于医疗图像分割。我们提出的歧视器不是单个标量分类结果或像素级置信度图,而是创建贴片置信图,并根据斑块的规模进行分类。未标记数据的预测学习了每个贴片中的像素结构和上下文信息,以获得足够的梯度反馈,这有助于歧视器以融合到最佳状态,并改善半监督的分段性能。此外,在歧视者的输入中,我们补充了图像上的语义信息约束,使得未标记的数据更简单,以适合预期的数据分布。关于自动心脏诊断挑战(ACDC)2017数据集和脑肿瘤分割(BRATS)2019挑战数据集的广泛实验表明,我们的方法优于最先进的半监督方法,这证明了其对医疗图像分割的有效性。
translated by 谷歌翻译
监管基于深度学习的方法,产生医学图像分割的准确结果。但是,它们需要大量标记的数据集,并获得它们是一种艰苦的任务,需要临床专业知识。基于半/自我监督的学习方法通​​过利用未标记的数据以及有限的注释数据来解决此限制。最近的自我监督学习方法使用对比损失来从未标记的图像中学习良好的全球层面表示,并在像想象网那样的流行自然图像数据集上实现高性能。在诸如分段的像素级预测任务中,对于学习良好的本地级别表示以及全局表示来说至关重要,以实现更好的准确性。然而,现有的局部对比损失的方法的影响仍然是学习良好本地表现的限制,因为类似于随机增强和空间接近定义了类似和不同的局部区域;由于半/自我监督设置缺乏大规模专家注释,而不是基于当地地区的语义标签。在本文中,我们提出了局部对比损失,以便通过利用从未标记的图像的未标记图像的伪标签获得的语义标签信息来学习用于分割的良好像素级别特征。特别地,我们定义了建议的损失,以鼓励具有相同伪标签/标签的像素的类似表示,同时与数据集中的不同伪标签/标签的像素的表示。我们通过联合优化标记和未标记的集合和仅限于标记集的分割损失,通过联合优化拟议的对比损失来进行基于伪标签的自培训和培训网络。我们在三个公共心脏和前列腺数据集上进行了评估,并获得高分割性能。
translated by 谷歌翻译
从医用试剂染色图像中分割牙齿斑块为诊断和确定随访治疗计划提供了宝贵的信息。但是,准确的牙菌斑分割是一项具有挑战性的任务,需要识别牙齿和牙齿斑块受到语义腔区域的影响(即,在牙齿和牙齿斑块之间的边界区域中存在困惑的边界)以及实例形状的复杂变化,这些变化均未完全解决。现有方法。因此,我们提出了一个语义分解网络(SDNET),该网络介绍了两个单任务分支,以分别解决牙齿和牙齿斑块的分割,并设计了其他约束,以学习每个分支的特定类别特征,从而促进语义分解并改善该类别的特征牙齿分割的性能。具体而言,SDNET以分裂方式学习了两个单独的分割分支和牙齿的牙齿,以解除它们之间的纠缠关系。指定类别的每个分支都倾向于产生准确的分割。为了帮助这两个分支更好地关注特定类别的特征,进一步提出了两个约束模块:1)通过最大化不同类别表示之间的距离来学习判别特征表示,以了解判别特征表示形式,以减少减少负面影响关于特征提取的语义腔区域; 2)结构约束模块(SCM)通过监督边界感知的几何约束提供完整的结构信息,以提供各种形状的牙菌斑。此外,我们构建了一个大规模的开源染色牙菌斑分割数据集(SDPSEG),该数据集为牙齿和牙齿提供高质量的注释。 SDPSEG数据集的实验结果显示SDNET达到了最新的性能。
translated by 谷歌翻译
半监督学习是一个具有挑战性的问题,旨在通过从有限标记的例子学习来构建模型。此任务的许多方法侧重于利用单独的未标记实例的预测,以单独进行正规化网络。然而,分别处理标记和未标记的数据通常导致从标记的例子中学习的质量事先知识的丢弃。 %,并且未能在标记和未标记的图像对之间的特征交互。在本文中,我们提出了一种新的半监督语义细分方法,名为Guidedmix-Net,通过利用标签信息来指导未标记的实例的学习。具体而言,Guidedmix-Net采用三种操作:1)类似标记的未标记图像对的插值; 2)转让互动信息; 3)伪面具的概括。它使分段模型可以通过将知识从标记的样本转移到未标记的数据来学习未标记数据的更高质量的伪掩模。除了用于标记数据的监督学习之外,使用来自混合数据的生成的伪掩模共同学习未标记数据的预测。对Pascal VOC的大量实验2012年,城市景观展示了我们的Guidedmix-Net的有效性,这实现了竞争性的细分准确性,并与以前的方法相比,通过+7美元\%$大大改善Miou。
translated by 谷歌翻译
深度学习算法在非常高分辨率(VHR)图像的语义分割方面取得了巨大成功。然而,培训这些模型通常需要大量准确的像素注释,这非常费力且耗时。为了减轻注释负担,本文提出了一个一致性调节的区域生长网络(CRGNET),以实现具有点级注释的VHR图像的语义分割。 CRGNET的关键思想是迭代选择未标记的像素,具有很高的信心,可以从原始稀疏点扩展带注释的区域。但是,由于扩展的注释中可能存在一些错误和噪音,因此直接向它们学习可能会误导网络的培训。为此,我们进一步提出了一致性正则化策略,在该策略中,基本分类器和扩展的分类器被采用。具体而言,基本分类器受原始稀疏注释的监督,而扩展的分类器的目的是从基本分类器生成的扩展注释中学习具有区域生长机制。因此,通过最大程度地减少基础和扩展分类器的预测之间的差异来实现一致性正则化。我们发现如此简单的正则化策略对于控制区域生长机制的质量非常有用。在两个基准数据集上进行的广泛实验表明,所提出的CRGNET显着优于现有的最新方法。代码和预培训模型可在线获得(https://github.com/yonghaoxu/crgnet)。
translated by 谷歌翻译
医学图像分割是许多临床方法的基本和关键步骤。半监督学习已被广​​泛应用于医学图像分割任务,因为它减轻了收购专家审查的注释的沉重负担,并利用了更容易获得的未标记数据的优势。虽然已被证明是通过实施不同分布下的预测的不变性的一致性学习,但现有方法无法充分利用来自未标记数据的区域级形状约束和边界级距离信息。在本文中,我们提出了一种新颖的不确定性引导的相互一致学习框架,通过将任务中的一致性学习与自组合和交叉任务一致性学习从任务级正则化的最新预测集成了任务内的一致性学习,从而有效地利用了未标记的数据利用几何形状信息。该框架是由模型的估计分割不确定性指导,以便为一致性学习选择相对某些预测,以便有效地利用来自未标记数据的更可靠的信息。我们在两个公开的基准数据集中广泛地验证了我们提出的方法:左心房分割(LA)数据集和大脑肿瘤分割(BRATS)数据集。实验结果表明,我们的方法通过利用未标记的数据和优于现有的半监督分段方法来实现性能增益。
translated by 谷歌翻译
深度学习已成为火星探索的强大工具。火星地形细分是一项重要的火星愿景任务,它是漫游者自动计划和安全驾驶的基础。但是,现有的基于深度学习的地形细分方法遇到了两个问题:一个是缺乏足够的详细和高信心注释,另一个是模型过度依赖于注释的培训数据。在本文中,我们从联合数据和方法设计的角度解决了这两个问题。我们首先提出了一个新的火星地形细分数据集,该数据集包含6K高分辨率图像,并根据置信度稀疏注释,以确保标签的高质量。然后从这些稀疏的数据中学习,我们为火星地形细分的基于表示的学习框架,包括一个自我监督的学习阶段(用于预训练)和半监督的学习阶段(用于微调)。具体而言,对于自我监督的学习,我们设计了一个基于掩盖图像建模(MIM)概念的多任务机制,以强调图像的纹理信息。对于半监督的学习,由于我们的数据集很少注释,因此我们鼓励该模型通过在线生成和利用伪标签来挖掘每个图像中未标记的区域的信息。我们将数据集和方法命名为MARS(S $^{5} $ MARS)的自我监督和半监督分割。实验结果表明,我们的方法可以超越最先进的方法,并通过很大的边距提高地形分割性能。
translated by 谷歌翻译
强大的语义细分面临的一个普遍挑战是昂贵的数据注释成本。现有的半监督解决方案显示出解决此问题的巨大潜力。他们的关键想法是通过未经监督的数据增加未标记的数据来构建一致性正则化,以进行模型培训。未标记数据的扰动使一致性训练损失使半监督的语义分割受益。但是,这些扰动破坏了图像上下文并引入了不自然的边界,这对语义分割是有害的。此外,广泛采用的半监督学习框架,即均值老师,遭受了绩效限制,因为学生模型最终会收敛于教师模型。在本文中,首先,我们提出了一个友好的可区分几何扭曲,以进行无监督的数据增强。其次,提出了一个新颖的对抗双重学生框架,以从以下两个方面从以下两个方面改善均等老师:(1)双重学生模型是独立学习的,除了稳定约束以鼓励利用模型多样性; (2)对对抗性训练计划适用于学生,并诉诸歧视者以区分无标记数据的可靠伪标签进行自我训练。通过对Pascal VOC2012和CityScapes进行的广泛实验来验证有效性。我们的解决方案可显着提高两个数据集的性能和最先进的结果。值得注意的是,与完全监督相比,我们的解决方案仅使用Pascal VOC2012上的12.5%注释数据获得了73.4%的可比MIOU。我们的代码和模型可在https://github.com/caocong/ads-semiseg上找到。
translated by 谷歌翻译
有了大规模标记的数据集,深度学习在医学图像分割方面已取得了重大成功。但是,由于广泛的专业知识要求和昂贵的标签工作,在临床实践中获取大量注释是具有挑战性的。最近,对比学习表明,在未标记的数据上进行视觉表示学习的能力很强,在许多领域中实现了令人印象深刻的性能与监督的学习。在这项工作中,我们提出了一个新型的多尺度多视图全球对比度学习(MMGL)框架,以彻底探索不同尺度的全球和局部特征,并观察到可靠的对比度学习表现,从而通过有限的注释来改善细分性能。在MM-WHS数据集上进行的广泛实验证明了MMGL框架对半监视的心脏图像分割的有效性,从而超过了最先进的对比度学习方法,这是通过较大的余量。
translated by 谷歌翻译
一致性损失在解决新监督学习研究中的问题方面发挥了关键作用。然而,具有一致性损失的现存研究仅限于其对分类任务的应用;关于半监督语义分割的现存研究依赖于像素明智的分类,这不反映预测中特征的结构化性质。我们提出了一个结构化的一致性损失,以解决现存研究的这种限制。结构化的一致性损失促进了教师和学生网络之间的像素间相似性的一致性。具体而言,与Cutmix的协作通过降低计算负担急剧性地,优化了半监控语义分割的高效性能,通过降低计算负担。建议方法的优越性通过城市展开核实; Citycapes通过验证和测试数据的基准结果分别为81.9 miou和83.84 miou。这在CityCapes基准套件的像素级语义标记任务中排名第一。据我们所知,我们是第一个在语义细分中展示最先进的半监督学习的优势。
translated by 谷歌翻译
单眼深度估计和语义分割是场景理解的两个基本目标。由于任务交互的优点,许多作品研究了联合任务学习算法。但是,大多数现有方法都无法充分利用语义标签,忽略提供的上下文结构,并且仅使用它们来监督分段拆分的预测,这限制了两个任务的性能。在本文中,我们提出了一个网络注入了上下文信息(CI-Net)来解决问题。具体而言,我们在编码器中引入自我关注块以产生注意图。通过由语义标签创建的理想注意图的监督,网络嵌入了上下文信息,使得它可以更好地理解场景并利用相关特征来进行准确的预测。此外,构造了一个特征共享模块,以使任务特征深入融合,并且设计了一致性损耗,以使特征相互引导。我们在NYU-Deaft-V2和Sun-RGBD数据集上评估所提出的CI-Net。实验结果验证了我们所提出的CI-Net可以有效提高语义分割和深度估计的准确性。
translated by 谷歌翻译
很少有分段旨在学习一个细分模型,该模型可以推广到只有几个培训图像的新课程。在本文中,我们提出了一个交叉引用和局部全球条件网络(CRCNET),以进行几次分割。与以前仅预测查询图像掩码的作品不同,我们提出的模型同时对支持图像和查询图像进行了预测。我们的网络可以更好地在两个图像中使用交叉引用机制找到同时出现的对象,从而有助于少量分割任务。为了进一步改善功能比较,我们开发了一个局部全球条件模块,以捕获全球和本地关系。我们还开发了一个掩模修补模块,以重新完善前景区域的预测。Pascal VOC 2012,MS Coco和FSS-1000数据集的实验表明,我们的网络实现了新的最新性能。
translated by 谷歌翻译
弱监督语义分段(WSSS)的现有研究已经利用了类激活映射(CAM)来本地化类对象。然而,由于分类损失不足以提供精确的物区域,因此凸轮倾向于偏向辨别模式(即,稀疏),并且不提供精确的对象边界信息(即,不确定)。为了解决这些限制,我们提出了一种新颖的框架(由MainNet和SupportNet组成),从给定的图像级监督导出像素级自我监督。在我们的框架中,借助拟议的区域对比模块(RCM)和多尺寸细分模块(MAM),MainNet由来自SupportNet的自我监督训练。 RCM从SupportNet中提取两种形式的自我监督:(1)从凸轮和(2)根据类区域掩码的特征获得的(2)类的类别区域掩模。然后,主目的的每个像素明智的特征被原型训练以对比的方式,锐化所产生的凸轮。 MAM利用从SupportNet的多个尺度推断的凸轮作为自我监控来指导MailNet。基于Mainnet和SupportNet的多尺度凸轮之间的不相似性,来自主目的的凸轮训练以扩展到较少辨别的区域。该方法在Pascal VOC 2012数据集上显示了在列车和验证集上的最先进的WSSS性能。为了再现性,代码将很快公开提供。
translated by 谷歌翻译
弱监督的点云语义分割方法需要1 \%或更少的标签,希望实现与完全监督的方法几乎相同的性能,这些方法最近引起了广泛的研究关注。该框架中的一个典型解决方案是使用自我训练或伪标记来从点云本身挖掘监督,但忽略了图像中的关键信息。实际上,在激光雷达场景中广泛存在相机,而这种互补信息对于3D应用似乎非常重要。在本文中,我们提出了一种用于3D分割的新型交叉模式弱监督的方法,并结合了来自未标记图像的互补信息。基本上,我们设计了一个配备有效标签策略的双分支网络,以最大程度地发挥标签的力量,并直接实现2D到3D知识转移。之后,我们以期望最大(EM)的视角建立了一个跨模式的自我训练框架,该框架在伪标签估计和更新参数之间进行了迭代。在M-Step中,我们提出了一个跨模式关联学习,通过增强3D点和2D超级像素之间的周期矛盾性,从图像中挖掘互补的监督。在E-Step中,伪标签的自我校准机制被得出过滤噪声标签,从而为网络提供了更准确的标签,以进行全面训练。广泛的实验结果表明,我们的方法甚至优于最先进的竞争对手,而少于1 \%的主动选择注释。
translated by 谷歌翻译
医学图像分割或计算voxelwise语义面具是一个基本又具有挑战性的任务,用于计算体素级语义面具。为了提高编码器 - 解码器神经网络在大型临床队列中执行这项任务的能力,对比学习提供了稳定模型初始化和增强编码器而无需标签的机会。然而,多个目标对象(具有不同的语义含义)可能存在于单个图像中,这使得适应传统的对比学习方法从普遍的“图像级分类”到“像素级分段”中的问题。在本文中,我们提出了一种简单的语义感知对比学习方法,利用注意掩模来推进多对象语义分割。简而言之,我们将不同的语义对象嵌入不同的群集而不是传统的图像级嵌入。我们在与内部数据和Miccai挑战2015 BTCV数据集中的多器官医学图像分段任务中评估我们提出的方法。与目前的最先进的培训策略相比,我们拟议的管道分别产生了两种医学图像分割队列的骰子评分的大幅提高5.53%和6.09%(P值<0.01)。通过Pascal VOC 2012 DataSet进一步评估了所提出的方法的性能,并在MiOU(P值<0.01)上实现了2.75%的大幅提高。
translated by 谷歌翻译
在无监督的域自适应(UDA)语义分割中,基于蒸馏的方法目前在性能上占主导地位。但是,蒸馏技术需要使多阶段的过程和许多培训技巧复杂化。在本文中,我们提出了一种简单而有效的方法,可以实现高级蒸馏方法的竞争性能。我们的核心思想是从边界和功能的观点充分探索目标域信息。首先,我们提出了一种新颖的混合策略,以产生具有地面标签的高质量目标域边界。与以前的作品中的源域边界不同,我们选择了高信心目标域区域,然后将其粘贴到源域图像中。这样的策略可以使用正确的标签在目标域(目标域对象区域的边缘)中生成对象边界。因此,可以通过学习混合样品来有效地捕获目标域的边界信息。其次,我们设计了多层对比损失,以改善目标域数据的表示,包括像素级和原型级对比度学习。通过结合两种建议的方法,可以提取更多的判别特征,并且可以更好地解决目标域的硬对象边界。对两个常用基准测试的实验结果(\ textit {i.e。},gta5 $ \ rightarrow $ cityScapes and synthia $ \ rightarrow $ cityScapes)表明,我们的方法在复杂的蒸馏方法上取得了竞争性能。值得注意的是,对于Synthia $ \ rightarrow $ CityScapes方案,我们的方法以$ 57.8 \%$ MIOU和$ 64.6 \%$ MIOU的16堂课和16堂课实现了最先进的性能。代码可在https://github.com/ljjcoder/ehtdi上找到。
translated by 谷歌翻译
本文介绍了一种基于单模态语义分割的新型坑洞检测方法。它首先使用卷积神经网络从输入图像中提取视觉特征。然后,通道注意力模块重新引起通道功能以增强不同特征映射的一致性。随后,我们采用了一个不足的空间金字塔汇集模块(包括串联循环升级的不足卷积)来整合空间上下文信息。这有助于更好地区分坑洼和未损害的道路区域。最后,相邻层中的特征映射使用我们提出的多尺度特征融合模块融合。这进一步降低了不同特征通道层之间的语义间隙。在Pothole-600数据集上进行了广泛的实验,以证明我们提出的方法的有效性。定量比较表明,我们的方法在RGB图像和变换的差异图像上实现了最先进的(SOTA)性能,优于三个SOTA单模语义分段网络。
translated by 谷歌翻译