半监督学习是一个具有挑战性的问题,旨在通过从有限标记的例子学习来构建模型。此任务的许多方法侧重于利用单独的未标记实例的预测,以单独进行正规化网络。然而,分别处理标记和未标记的数据通常导致从标记的例子中学习的质量事先知识的丢弃。 %,并且未能在标记和未标记的图像对之间的特征交互。在本文中,我们提出了一种新的半监督语义细分方法,名为Guidedmix-Net,通过利用标签信息来指导未标记的实例的学习。具体而言,Guidedmix-Net采用三种操作:1)类似标记的未标记图像对的插值; 2)转让互动信息; 3)伪面具的概括。它使分段模型可以通过将知识从标记的样本转移到未标记的数据来学习未标记数据的更高质量的伪掩模。除了用于标记数据的监督学习之外,使用来自混合数据的生成的伪掩模共同学习未标记数据的预测。对Pascal VOC的大量实验2012年,城市景观展示了我们的Guidedmix-Net的有效性,这实现了竞争性的细分准确性,并与以前的方法相比,通过+7美元\%$大大改善Miou。
translated by 谷歌翻译
深度学习的快速发展在分割方面取得了长足的进步,这是计算机视觉的基本任务之一。但是,当前的细分算法主要取决于像素级注释的可用性,这些注释通常昂贵,乏味且费力。为了减轻这一负担,过去几年见证了越来越多的关注,以建立标签高效,深度学习的细分算法。本文对标签有效的细分方法进行了全面的审查。为此,我们首先根据不同类型的弱标签提供的监督(包括没有监督,粗略监督,不完整的监督和嘈杂的监督和嘈杂的监督),首先开发出一种分类法来组织这些方法,并通过细分类型(包括语义细分)补充,实例分割和全景分割)。接下来,我们从统一的角度总结了现有的标签有效的细分方法,该方法讨论了一个重要的问题:如何弥合弱监督和密集预测之间的差距 - 当前的方法主要基于启发式先导,例如交叉像素相似性,跨标签约束,跨视图一致性,跨图像关系等。最后,我们分享了对标签有效深层细分的未来研究方向的看法。
translated by 谷歌翻译
In this paper, we present a novel cross-consistency based semi-supervised approach for semantic segmentation. Consistency training has proven to be a powerful semisupervised learning framework for leveraging unlabeled data under the cluster assumption, in which the decision boundary should lie in low density regions. In this work, we first observe that for semantic segmentation, the low density regions are more apparent within the hidden representations than within the inputs. We thus propose crossconsistency training, where an invariance of the predictions is enforced over different perturbations applied to the outputs of the encoder. Concretely, a shared encoder and a main decoder are trained in a supervised manner using the available labeled examples. To leverage the unlabeled examples, we enforce a consistency between the main decoder predictions and those of the auxiliary decoders, taking as inputs different perturbed versions of the encoder's output, and consequently, improving the encoder's representations. The proposed method is simple and can easily be extended to use additional training signal, such as image-level labels or pixel-level labels across different domains. We perform an ablation study to tease apart the effectiveness of each component, and conduct extensive experiments to demonstrate that our method achieves stateof-the-art results in several datasets.
translated by 谷歌翻译
强大的语义细分面临的一个普遍挑战是昂贵的数据注释成本。现有的半监督解决方案显示出解决此问题的巨大潜力。他们的关键想法是通过未经监督的数据增加未标记的数据来构建一致性正则化,以进行模型培训。未标记数据的扰动使一致性训练损失使半监督的语义分割受益。但是,这些扰动破坏了图像上下文并引入了不自然的边界,这对语义分割是有害的。此外,广泛采用的半监督学习框架,即均值老师,遭受了绩效限制,因为学生模型最终会收敛于教师模型。在本文中,首先,我们提出了一个友好的可区分几何扭曲,以进行无监督的数据增强。其次,提出了一个新颖的对抗双重学生框架,以从以下两个方面从以下两个方面改善均等老师:(1)双重学生模型是独立学习的,除了稳定约束以鼓励利用模型多样性; (2)对对抗性训练计划适用于学生,并诉诸歧视者以区分无标记数据的可靠伪标签进行自我训练。通过对Pascal VOC2012和CityScapes进行的广泛实验来验证有效性。我们的解决方案可显着提高两个数据集的性能和最先进的结果。值得注意的是,与完全监督相比,我们的解决方案仅使用Pascal VOC2012上的12.5%注释数据获得了73.4%的可比MIOU。我们的代码和模型可在https://github.com/caocong/ads-semiseg上找到。
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
卷积神经网络可以在语义细分任务中实现出色的性能。但是,这种神经网络方法在很大程度上依赖于昂贵的像素级注释。半监督学习是解决这个问题的有前途的决议,但其表现仍然远远落后于完全受监督的对手。这项工作提出了一个带有三个模块的跨教师培训框架,可显着改善传统的半监督学习方法。核心是跨教师模块,可以同时减少同伴网络之间的耦合以及教师和学生网络之间的错误积累。此外,我们提出了两个互补的对比学习模块。高级模块可以将高质量的知识从标记的数据传输到未标记的数据,并在特征空间中促进类之间的分离。低级模块可以鼓励从同伴网络中的高质量功能学习的低质量功能。在实验中,跨教师模块显着提高了传统的学生教师方法的性能,而我们的框架在基准数据集上的表现优于现行方法。我们的CTT源代码将发布。
translated by 谷歌翻译
在许多图像引导的临床方法中,医学图像分割是一个基本和关键的步骤。基于深度学习的细分方法的最新成功通常取决于大量标记的数据,这特别困难且昂贵,尤其是在医学成像领域中,只有专家才能提供可靠和准确的注释。半监督学习已成为一种吸引人的策略,并广泛应用于医学图像分割任务,以训练注释有限的深层模型。在本文中,我们对最近提议的半监督学习方法进行了全面综述,并总结了技术新颖性和经验结果。此外,我们分析和讨论现有方法的局限性和几个未解决的问题。我们希望这篇评论可以激发研究界探索解决这一挑战的解决方案,并进一步促进医学图像细分领域的发展。
translated by 谷歌翻译
半监督语义分割的流行方法主要采用了使用卷积神经网络(CNN)(CNN)的统一网络模型,并在应用于输入或模型的小型扰动上实施模型预测的一致性。但是,这种学习范式受到a)基于CNN模型的学习能力有限; b)学习未标记数据的判别特征的能力有限; c)从整个图像中对全球和本地信息的学习有限。在本文中,我们提出了一种新型的半监督学习方法,称为Transformer-CNN队列(TCC),该方法由两个基于视觉变压器(VIT)的学生组成,另一种是基于CNN的学生。我们的方法巧妙地通过伪标记来纳入预测和异质特征空间上的多级一致性正则化,用于未标记的数据。首先,由于VIT学生的输入是图像贴片,因此特征地图提取了编码至关重要的类统计。为此,我们建议首先利用每个学生作为伪标签并生成类吸引功能(CF)映射的班级感知功能一致性蒸馏(CFCD)。然后,它通过学生之间的CF地图传输知识。其次,随着VIT学生对所有层具有更统一的表示,我们提出一致性感知的交叉蒸馏以在类像素方面的预测之间转移知识。我们在CityScapes和Pascal VOC 2012数据集上验证了TCC框架,该数据集大大优于现有的半监督方法。
translated by 谷歌翻译
经过图像级标签训练的弱监督图像分割通常在伪地面上的生成期间因物体区域的覆盖率不准确。这是因为对象激活图受到分类目标的训练,并且缺乏概括的能力。为了提高客观激活图的一般性,我们提出了一个区域原型网络RPNET来探索训练集的跨图像对象多样性。通过区域特征比较确定了跨图像的相似对象零件。区域之间传播对象信心,以发现新的对象区域,同时抑制了背景区域。实验表明,该提出的方法会生成更完整和准确的伪对象掩模,同时在Pascal VOC 2012和MS Coco上实现最先进的性能。此外,我们研究了提出的方法在减少训练集方面的鲁棒性。
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
Pseudo supervision is regarded as the core idea in semi-supervised learning for semantic segmentation, and there is always a tradeoff between utilizing only the high-quality pseudo labels and leveraging all the pseudo labels. Addressing that, we propose a novel learning approach, called Conservative-Progressive Collaborative Learning (CPCL), among which two predictive networks are trained in parallel, and the pseudo supervision is implemented based on both the agreement and disagreement of the two predictions. One network seeks common ground via intersection supervision and is supervised by the high-quality labels to ensure a more reliable supervision, while the other network reserves differences via union supervision and is supervised by all the pseudo labels to keep exploring with curiosity. Thus, the collaboration of conservative evolution and progressive exploration can be achieved. To reduce the influences of the suspicious pseudo labels, the loss is dynamic re-weighted according to the prediction confidence. Extensive experiments demonstrate that CPCL achieves state-of-the-art performance for semi-supervised semantic segmentation.
translated by 谷歌翻译
多任务学习(MTL)范式着重于共同学习两个或多个任务,旨在重大改进W.R.T模型的通用性,性能和培训/推理记忆足迹。对于与视觉相关的{\ bf密集}的预测任务的联合培训,上述好处是必不可少的。在这项工作中,我们解决了两个密集任务的MTL问题,即\ ie,语义细分和深度估计,并提出了一个新颖的注意模块,称为跨通道注意模块({CCAM}),可促进沿着每个频道之间的有效特征共享这两个任务,导致相互绩效增长,可训练的参数可忽略不计。然后,我们以一种真正的共生精神,使用称为{affinemix}的预测深度为语义分割任务制定新的数据增强,并使用称为{coloraug}的预测语义进行了简单的深度增强。最后,我们验证了CityScapes数据集上提出的方法的性能增益,这有助于我们基于深度和语义分割的半监督联合模型实现最新结果。
translated by 谷歌翻译
弱监督的语义细分(WSSS)旨在仅使用用于训练的图像级标签来产生像素类预测。为此,以前的方法采用了通用管道:它们从类激活图(CAM)生成伪口罩,并使用此类掩码来监督分割网络。但是,由于凸轮的局部属性,即它们倾向于仅专注于小的判别对象零件,因此涵盖涵盖整个物体的全部范围的全面伪面罩是一项挑战。在本文中,我们将CAM的局部性与卷积神经网络(CNNS)的质地偏见特性相关联。因此,我们建议利用形状信息来补充质地偏见的CNN特征,从而鼓励掩模预测不仅是全面的,而且还与物体边界相交。我们通过一种新颖的改进方法进一步完善了在线方式的预测,该方法同时考虑了类和颜色亲和力,以生成可靠的伪口罩以监督模型。重要的是,我们的模型是在单阶段框架内进行端到端训练的,因此在培训成本方面有效。通过对Pascal VOC 2012的广泛实验,我们验证了方法在产生精确和形状对准的分割结果方面的有效性。具体而言,我们的模型超过了现有的最新单阶段方法。此外,当在没有铃铛和哨声的简单两阶段管道中采用时,它还在多阶段方法上实现了新的最新性能。
translated by 谷歌翻译
在最近的半监督语义分割方法中,一致性正则化已被广泛研究。从图像,功能和网络扰动中受益,已经实现了出色的性能。为了充分利用这些扰动,在这项工作中,我们提出了一个新的一致性正则化框架,称为相互知识蒸馏(MKD)。我们创新地基于一致性正则化方法,创新了两个辅助均值老师模型。更具体地说,我们使用一位卑鄙的老师生成的伪标签来监督另一个学生网络,以在两个分支之间进行相互知识蒸馏。除了使用图像级强和弱的增强外,我们还采用了特征增强,考虑隐性语义分布来增加对学生的进一步扰动。提出的框架大大增加了训练样本的多样性。公共基准测试的广泛实验表明,我们的框架在各种半监督设置下都优于先前的最先进方法(SOTA)方法。
translated by 谷歌翻译
Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.
translated by 谷歌翻译
仅使用图像级标签的弱监督语义细分旨在降低分割任务的注释成本。现有方法通常利用类激活图(CAM)来定位伪标签生成的对象区域。但是,凸轮只能发现对象的最歧视部分,从而导致下像素级伪标签。为了解决这个问题,我们提出了一个限制的显着性和内类关系的显着性(I $^2 $ CRC)框架,以协助CAM中激活的对象区域的扩展。具体而言,我们提出了一个显着性指导的类不足的距离模块,以通过将特征对准其类原型来更接近类别内特征。此外,我们提出了一个特定的距离模块,以将类间特征推开,并鼓励对象区域的激活高于背景。除了加强分类网络激活CAM中更多积分对象区域的能力外,我们还引入了一个对象引导的标签细化模块,以完全利用分割预测和初始标签,以获取出色的伪标签。 Pascal VOC 2012和可可数据集的广泛实验很好地证明了I $^2 $ CRC的有效性,而不是其他最先进的对应物。源代码,模型和数据已在\ url {https://github.com/nust-machine-intelligence-laboratory/i2crc}提供。
translated by 谷歌翻译
在社区中广泛调查了语义分割,其中最先进的技术基于监督模型。这些模型报告了前所未有的性能,以需要大量的高质量细分面具。为了获得这种注释是非常昂贵的并且特别是在需要像素级注释的语义分割中。在这项工作中,我们通过提出作为半监督语义细分的三级自我训练框架的整体解决方案来解决这个问题。我们技术的关键思想是提取伪掩模统计信息,以减少预测概率的不确定性,同时以多任务方式执行分段一致性。我们通过三级解决方案实现这一目标。首先,我们训练分割网络以产生粗糙的伪掩模,预测概率非常不确定。其次,我们使用一个多任务模型来减少伪掩模的不确定性,该模型强制利用数据丰富的数据统计信息。我们将采用现有方法与半监督语义分割的现有方法进行比较,并在广泛的实验中展示其最先进的性能。
translated by 谷歌翻译
Recent studies on semi-supervised semantic segmentation (SSS) have seen fast progress. Despite their promising performance, current state-of-the-art methods tend to increasingly complex designs at the cost of introducing more network components and additional training procedures. Differently, in this work, we follow a standard teacher-student framework and propose AugSeg, a simple and clean approach that focuses mainly on data perturbations to boost the SSS performance. We argue that various data augmentations should be adjusted to better adapt to the semi-supervised scenarios instead of directly applying these techniques from supervised learning. Specifically, we adopt a simplified intensity-based augmentation that selects a random number of data transformations with uniformly sampling distortion strengths from a continuous space. Based on the estimated confidence of the model on different unlabeled samples, we also randomly inject labelled information to augment the unlabeled samples in an adaptive manner. Without bells and whistles, our simple AugSeg can readily achieve new state-of-the-art performance on SSS benchmarks under different partition protocols.
translated by 谷歌翻译
尽管在半监督语义细分领域的进度程度不同,但其最近的大部分成功都涉及笨拙的模型,并且尚未探索轻量级解决方案。我们发现,现有的知识蒸馏技术更多地关注标签数据中的像素级概念,该数据未能在未标记的数据中考虑更有用的线索。因此,我们提供了首次尝试通过新颖的多晶蒸馏(MGD)方案提供轻量级SSS模型,其中从三个方面捕获了多个跨性别:i)互补的教师结构; ii)标记为未标记的数据合作蒸馏; iii)分层和多层次损失设置。具体而言,MGD被配制为标记的未标记数据合作蒸馏方案,该方案有助于充分利用在半监督环境中必不可少的不同数据特征。图像水平的语义敏感损失,区域级别的内容感知损失和像素级的一致性损失是通过结构互补的教师来丰富层次蒸馏抽象的。 Pascal VOC2012和CityScapes的实验结果表明,在不同的分区协议下,MGD可以超越竞争方法。例如,在1/16的CityScapes分区协议下,RESNET-18和MOBILENET-V2主链的性能分别增长了11.5%和4.6%。尽管模型骨干的拖曳量被3.4-5.3倍(RESNET-18)和38.7-59.6X(MobileNetV2)压缩,但该模型旨在实现令人满意的分割结果。
translated by 谷歌翻译
很少有分段旨在学习一个细分模型,该模型可以推广到只有几个培训图像的新课程。在本文中,我们提出了一个交叉引用和局部全球条件网络(CRCNET),以进行几次分割。与以前仅预测查询图像掩码的作品不同,我们提出的模型同时对支持图像和查询图像进行了预测。我们的网络可以更好地在两个图像中使用交叉引用机制找到同时出现的对象,从而有助于少量分割任务。为了进一步改善功能比较,我们开发了一个局部全球条件模块,以捕获全球和本地关系。我们还开发了一个掩模修补模块,以重新完善前景区域的预测。Pascal VOC 2012,MS Coco和FSS-1000数据集的实验表明,我们的网络实现了新的最新性能。
translated by 谷歌翻译