使用输入图像,功能或网络扰动的一致性学习已经显示出半监督语义分割的显着结果,但这种方法可能受到未准确的未标记训练图像的预测的严重影响。这些不准确的预测有两种后果:1)基于“严格”的跨熵(CE)损失的培训可以容易地过度造成预测错误,导致确认偏见; 2)应用于这些不准确的预测的扰动将使用可能错误的预测作为训练信号,降低一致性学习。在本文中,我们解决了具有新颖的教师(MT)模型的一致性学习方法的预测准确性问题,包括新的辅助教师,并通过更严格的信心更换MT的均方误差(MSE) - 加权交叉熵(CONF-CE)损失。该模型的准确预测使我们能够利用网络,输入数据和特征扰动的具有挑战性的组合,以改善特征扰动的一致性学习概括,其中包括新的对抗扰动。 Public基准的结果表明,我们的方法通过现场上一个SOTA方法实现了显着的改进。
translated by 谷歌翻译
在最近的半监督语义分割方法中,一致性正则化已被广泛研究。从图像,功能和网络扰动中受益,已经实现了出色的性能。为了充分利用这些扰动,在这项工作中,我们提出了一个新的一致性正则化框架,称为相互知识蒸馏(MKD)。我们创新地基于一致性正则化方法,创新了两个辅助均值老师模型。更具体地说,我们使用一位卑鄙的老师生成的伪标签来监督另一个学生网络,以在两个分支之间进行相互知识蒸馏。除了使用图像级强和弱的增强外,我们还采用了特征增强,考虑隐性语义分布来增加对学生的进一步扰动。提出的框架大大增加了训练样本的多样性。公共基准测试的广泛实验表明,我们的框架在各种半监督设置下都优于先前的最先进方法(SOTA)方法。
translated by 谷歌翻译
半监督语义分割的流行方法主要采用了使用卷积神经网络(CNN)(CNN)的统一网络模型,并在应用于输入或模型的小型扰动上实施模型预测的一致性。但是,这种学习范式受到a)基于CNN模型的学习能力有限; b)学习未标记数据的判别特征的能力有限; c)从整个图像中对全球和本地信息的学习有限。在本文中,我们提出了一种新型的半监督学习方法,称为Transformer-CNN队列(TCC),该方法由两个基于视觉变压器(VIT)的学生组成,另一种是基于CNN的学生。我们的方法巧妙地通过伪标记来纳入预测和异质特征空间上的多级一致性正则化,用于未标记的数据。首先,由于VIT学生的输入是图像贴片,因此特征地图提取了编码至关重要的类统计。为此,我们建议首先利用每个学生作为伪标签并生成类吸引功能(CF)映射的班级感知功能一致性蒸馏(CFCD)。然后,它通过学生之间的CF地图传输知识。其次,随着VIT学生对所有层具有更统一的表示,我们提出一致性感知的交叉蒸馏以在类像素方面的预测之间转移知识。我们在CityScapes和Pascal VOC 2012数据集上验证了TCC框架,该数据集大大优于现有的半监督方法。
translated by 谷歌翻译
Recent studies on semi-supervised semantic segmentation (SSS) have seen fast progress. Despite their promising performance, current state-of-the-art methods tend to increasingly complex designs at the cost of introducing more network components and additional training procedures. Differently, in this work, we follow a standard teacher-student framework and propose AugSeg, a simple and clean approach that focuses mainly on data perturbations to boost the SSS performance. We argue that various data augmentations should be adjusted to better adapt to the semi-supervised scenarios instead of directly applying these techniques from supervised learning. Specifically, we adopt a simplified intensity-based augmentation that selects a random number of data transformations with uniformly sampling distortion strengths from a continuous space. Based on the estimated confidence of the model on different unlabeled samples, we also randomly inject labelled information to augment the unlabeled samples in an adaptive manner. Without bells and whistles, our simple AugSeg can readily achieve new state-of-the-art performance on SSS benchmarks under different partition protocols.
translated by 谷歌翻译
在社区中广泛调查了语义分割,其中最先进的技术基于监督模型。这些模型报告了前所未有的性能,以需要大量的高质量细分面具。为了获得这种注释是非常昂贵的并且特别是在需要像素级注释的语义分割中。在这项工作中,我们通过提出作为半监督语义细分的三级自我训练框架的整体解决方案来解决这个问题。我们技术的关键思想是提取伪掩模统计信息,以减少预测概率的不确定性,同时以多任务方式执行分段一致性。我们通过三级解决方案实现这一目标。首先,我们训练分割网络以产生粗糙的伪掩模,预测概率非常不确定。其次,我们使用一个多任务模型来减少伪掩模的不确定性,该模型强制利用数据丰富的数据统计信息。我们将采用现有方法与半监督语义分割的现有方法进行比较,并在广泛的实验中展示其最先进的性能。
translated by 谷歌翻译
卷积神经网络可以在语义细分任务中实现出色的性能。但是,这种神经网络方法在很大程度上依赖于昂贵的像素级注释。半监督学习是解决这个问题的有前途的决议,但其表现仍然远远落后于完全受监督的对手。这项工作提出了一个带有三个模块的跨教师培训框架,可显着改善传统的半监督学习方法。核心是跨教师模块,可以同时减少同伴网络之间的耦合以及教师和学生网络之间的错误积累。此外,我们提出了两个互补的对比学习模块。高级模块可以将高质量的知识从标记的数据传输到未标记的数据,并在特征空间中促进类之间的分离。低级模块可以鼓励从同伴网络中的高质量功能学习的低质量功能。在实验中,跨教师模块显着提高了传统的学生教师方法的性能,而我们的框架在基准数据集上的表现优于现行方法。我们的CTT源代码将发布。
translated by 谷歌翻译
自我训练在半监督学习中表现出巨大的潜力。它的核心思想是使用在标记数据上学习的模型来生成未标记样本的伪标签,然后自我教学。为了获得有效的监督,主动尝试通常会采用动量老师进行伪标签的预测,但要观察确认偏见问题,在这种情况下,错误的预测可能会提供错误的监督信号并在培训过程中积累。这种缺点的主要原因是,现行的自我训练框架充当以前的知识指导当前状态,因为老师仅与过去的学生更新。为了减轻这个问题,我们提出了一种新颖的自我训练策略,该策略使模型可以从未来学习。具体而言,在每个培训步骤中,我们都会首先优化学生(即,在不将其应用于模型权重的情况下缓存梯度),然后用虚拟未来的学生更新老师,最后要求老师为伪标记生产伪标签目前的学生作为指导。这样,我们设法提高了伪标签的质量,从而提高了性能。我们还通过深入(FST-D)和广泛(FST-W)窥视未来,开发了我们未来自我训练(FST)框架的两个变体。将无监督的域自适应语义分割和半监督语义分割的任务作为实例,我们在广泛的环境下实验表明了我们方法的有效性和优越性。代码将公开可用。
translated by 谷歌翻译
强大的语义细分面临的一个普遍挑战是昂贵的数据注释成本。现有的半监督解决方案显示出解决此问题的巨大潜力。他们的关键想法是通过未经监督的数据增加未标记的数据来构建一致性正则化,以进行模型培训。未标记数据的扰动使一致性训练损失使半监督的语义分割受益。但是,这些扰动破坏了图像上下文并引入了不自然的边界,这对语义分割是有害的。此外,广泛采用的半监督学习框架,即均值老师,遭受了绩效限制,因为学生模型最终会收敛于教师模型。在本文中,首先,我们提出了一个友好的可区分几何扭曲,以进行无监督的数据增强。其次,提出了一个新颖的对抗双重学生框架,以从以下两个方面从以下两个方面改善均等老师:(1)双重学生模型是独立学习的,除了稳定约束以鼓励利用模型多样性; (2)对对抗性训练计划适用于学生,并诉诸歧视者以区分无标记数据的可靠伪标签进行自我训练。通过对Pascal VOC2012和CityScapes进行的广泛实验来验证有效性。我们的解决方案可显着提高两个数据集的性能和最先进的结果。值得注意的是,与完全监督相比,我们的解决方案仅使用Pascal VOC2012上的12.5%注释数据获得了73.4%的可比MIOU。我们的代码和模型可在https://github.com/caocong/ads-semiseg上找到。
translated by 谷歌翻译
In this paper, we present a novel cross-consistency based semi-supervised approach for semantic segmentation. Consistency training has proven to be a powerful semisupervised learning framework for leveraging unlabeled data under the cluster assumption, in which the decision boundary should lie in low density regions. In this work, we first observe that for semantic segmentation, the low density regions are more apparent within the hidden representations than within the inputs. We thus propose crossconsistency training, where an invariance of the predictions is enforced over different perturbations applied to the outputs of the encoder. Concretely, a shared encoder and a main decoder are trained in a supervised manner using the available labeled examples. To leverage the unlabeled examples, we enforce a consistency between the main decoder predictions and those of the auxiliary decoders, taking as inputs different perturbed versions of the encoder's output, and consequently, improving the encoder's representations. The proposed method is simple and can easily be extended to use additional training signal, such as image-level labels or pixel-level labels across different domains. We perform an ablation study to tease apart the effectiveness of each component, and conduct extensive experiments to demonstrate that our method achieves stateof-the-art results in several datasets.
translated by 谷歌翻译
我们展示了N-CPS - 最近最新的初级伪伪监督(CPS)方法的概括为半监督语义细分的任务。在N-CPS中,通过单热编码扰动和一致性正则化,有n个同时培训的子网。我们还表明,应用于子网输出的合奏技术可以显着提高性能。据我们所知,N-CP与CutMix占FPS,并为Pascal VOC的新型为Pascal VOC与(1/16,1 / 8,1/4和1/2监督制度)和城市景观(1/16监督)。
translated by 谷歌翻译
尽管在半监督语义细分领域的进度程度不同,但其最近的大部分成功都涉及笨拙的模型,并且尚未探索轻量级解决方案。我们发现,现有的知识蒸馏技术更多地关注标签数据中的像素级概念,该数据未能在未标记的数据中考虑更有用的线索。因此,我们提供了首次尝试通过新颖的多晶蒸馏(MGD)方案提供轻量级SSS模型,其中从三个方面捕获了多个跨性别:i)互补的教师结构; ii)标记为未标记的数据合作蒸馏; iii)分层和多层次损失设置。具体而言,MGD被配制为标记的未标记数据合作蒸馏方案,该方案有助于充分利用在半监督环境中必不可少的不同数据特征。图像水平的语义敏感损失,区域级别的内容感知损失和像素级的一致性损失是通过结构互补的教师来丰富层次蒸馏抽象的。 Pascal VOC2012和CityScapes的实验结果表明,在不同的分区协议下,MGD可以超越竞争方法。例如,在1/16的CityScapes分区协议下,RESNET-18和MOBILENET-V2主链的性能分别增长了11.5%和4.6%。尽管模型骨干的拖曳量被3.4-5.3倍(RESNET-18)和38.7-59.6X(MobileNetV2)压缩,但该模型旨在实现令人满意的分割结果。
translated by 谷歌翻译
最近的半监督学习(SSL)方法通常基于伪标记。由于SSL性能受到伪标签质量的大大影响,因此已经提出了相互学习,以有效地抑制伪监管中的噪音。在这项工作中,我们提出了强大的相互学习,可以在两个方面提高先前的方法。首先,vanilla相互学习者遭受耦合问题,模型可能会聚以学习同质知识。我们通过介绍卑鄙教师来产生互动监督,以便在这两个学生之间没有直接互动来解决这个问题。我们还表明,强大的数据增强,模型噪声和异构网络架构对于缓解模型耦合至关重要。其次,我们注意到相互学习未能利用网络自身的伪标签改进能力。因此,我们介绍了自我整改,利用内部知识,并在相互教学前明确地整流伪标签。这种自我整改和共同教学在整个学习过程中协同提高了伪标签准确性。所提出的强大相互学习在低数据制度中展示了最先进的性能。
translated by 谷歌翻译
Pseudo supervision is regarded as the core idea in semi-supervised learning for semantic segmentation, and there is always a tradeoff between utilizing only the high-quality pseudo labels and leveraging all the pseudo labels. Addressing that, we propose a novel learning approach, called Conservative-Progressive Collaborative Learning (CPCL), among which two predictive networks are trained in parallel, and the pseudo supervision is implemented based on both the agreement and disagreement of the two predictions. One network seeks common ground via intersection supervision and is supervised by the high-quality labels to ensure a more reliable supervision, while the other network reserves differences via union supervision and is supervised by all the pseudo labels to keep exploring with curiosity. Thus, the collaboration of conservative evolution and progressive exploration can be achieved. To reduce the influences of the suspicious pseudo labels, the loss is dynamic re-weighted according to the prediction confidence. Extensive experiments demonstrate that CPCL achieves state-of-the-art performance for semi-supervised semantic segmentation.
translated by 谷歌翻译
在这项工作中,我们重新审视了弱到较强的一致性框架,该框架由半监视分类的FixMatch推广,在该分类中,对弱扰动的图像的预测可作为其强烈扰动版本的监督。有趣的是,我们观察到,这种简单的管道已经转移到我们的细分方案时已经在最近的高级工作中取得了竞争成果。它的成功在很大程度上依赖于强大数据增强的手动设计,但是,这可能是有限的,并且不足以探索更广泛的扰动空间。在此激励的情况下,我们提出了一个辅助特征扰动流作为补充,从而导致了扩大的扰动空间。另一方面,为了充分探测原始的图像级增强,我们提出了一种双流扰动技术,从而使两个强大的观点能够同时受到共同的弱视图的指导。因此,我们整体统一的双流扰动方法(Unipatch)在Pascal,CityScapes和Coco基准的所有评估方案中都显着超过所有现有方法。我们还证明了我们方法在遥感解释和医学图像分析中的优越性。代码可从https://github.com/liheyoung/unimatch获得。
translated by 谷歌翻译
最近,许多半监督的对象检测(SSOD)方法采用教师学生框架并取得了最新的结果。但是,教师网络与学生网络紧密相结合,因为教师是学生的指数移动平均值(EMA),这会导致表现瓶颈。为了解决耦合问题,我们为SSOD提出了一个周期自我训练(CST)框架,该框架由两个老师T1和T2,两个学生S1和S2组成。基于这些网络,构建了一个周期自我训练机制​​,即S1 $ {\ rightarrow} $ t1 $ {\ rightArow} $ s2 $ {\ rightArrow} $ t2 $ {\ rightArrow} $ s1。对于S $ {\ Rightarrow} $ T,我们还利用学生的EMA权重来更新老师。对于t $ {\ rightarrow} $ s,而不是直接为其学生S1(S2)提供监督,而是老师T1(T2)为学生S2(S1)生成伪标记,从而松散耦合效果。此外,由于EMA的财产,老师最有可能积累学生的偏见,并使错误变得不可逆转。为了减轻问题,我们还提出了分配一致性重新加权策略,在该策略中,根据教师T1和T2的分配一致性,将伪标记重新加权。通过该策略,可以使用嘈杂的伪标签对两个学生S2和S1进行训练,以避免确认偏见。广泛的实验证明了CST的优势,通过将AP比基线优于最先进的方法提高了2.1%的绝对AP改进,并具有稀缺的标记数据,而胜过了2.1%的绝对AP。
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
我们解决对象检测中的域适应问题,其中在源(带有监控)和目标域(没有监督的域的域名)之间存在显着的域移位。作为广泛采用的域适应方法,自培训教师学生框架(学生模型从教师模型生成的伪标签学习)在目标域中产生了显着的精度增益。然而,由于其偏向源域,它仍然存在从教师产生的大量低质量伪标签(例如,误报)。为了解决这个问题,我们提出了一种叫做自适应无偏见教师(AUT)的自我训练框架,利用对抗的对抗学习和弱强的数据增强来解决域名。具体而言,我们在学生模型中使用特征级的对抗性培训,确保从源和目标域中提取的功能共享类似的统计数据。这使学生模型能够捕获域不变的功能。此外,我们在目标领域的教师模型和两个域上的学生模型之间应用了弱强的增强和相互学习。这使得教师模型能够从学生模型中逐渐受益,而不会遭受域移位。我们展示了AUT通过大边距显示所有现有方法甚至Oracle(完全监督)模型的优势。例如,我们在有雾的城市景观(Clipart1k)上实现了50.9%(49.3%)地图,分别比以前的最先进和甲骨文高9.2%(5.2%)和8.2%(11.0%)
translated by 谷歌翻译
无监督的语义分割旨在在没有手动注释的情况下获得高级视觉功能的高级语义表示。大多数现有方法是基于其视觉提示或某些预定义规则尝试将像素分组为区域的自下而上的方法。因此,在具有多个对象的复杂场景和共享类似的视觉外观的某些对象时,这些自下而上的方法难以产生细粒度的语义分割。相比之下,我们提出了一个在极其复杂的情景中的细粒度分割的第一个自上而下的无监督语义分割框架。具体而言,我们首先以自我监督的学习方式从大规模视觉数据中获得丰富的高级结构化语义概念信息,并在发现目标数据集中呈现的潜在语义类别之前使用此类信息。其次,通过计算关于某些发现的语义表示的类激活地图(CAM)来计算发现的高电平语义类别以映射到低级像素特征。最后,所获得的凸轮用作伪标签,以培训分割模块并产生最终的语义分割。多个语义分割基准测试的实验结果表明,我们的自上而下的无监督分割对于对象为中心和以场景为中心的数据集,在不同的语义粒度水平下,并且优于所有最新的最先进的自下而上方法。我们的代码可用于\ URL {https://github.com/damo-cv/transfgugu}。
translated by 谷歌翻译
培训语义细分模型的现实世界注释收集是一个昂贵的过程。无监督的域适应性(UDA)试图通过研究如何使用更多可访问的数据(例如合成数据)来训练和适应现实世界图像而无需其注释,以解决此问题。最近的UDA方法通过使用学生和教师网络对像素的分类损失进行培训,适用于自学习。在本文中,我们建议通过对网络输出中元素之间的像素间关系进行建模,将一致性正则项添加到半监督UDA中。我们通过将其应用于最先进的涂抹式框架并将GTA5上的MIOU1绩效应用于CityScapes Benchmark,并在Synthia上的MIOU16绩效提高了MIOU19在Synthia上的效果,并将MIOU19上的MIOU1上的性能提高到CityScapes基准,将其应用于CityScapes Benchmark,并将MIOU19上的MIOU1上的性能提高到CityScapes基准,从而证明了拟议的一致性正规化项的有效性。
translated by 谷歌翻译
半监督学习是一个具有挑战性的问题,旨在通过从有限标记的例子学习来构建模型。此任务的许多方法侧重于利用单独的未标记实例的预测,以单独进行正规化网络。然而,分别处理标记和未标记的数据通常导致从标记的例子中学习的质量事先知识的丢弃。 %,并且未能在标记和未标记的图像对之间的特征交互。在本文中,我们提出了一种新的半监督语义细分方法,名为Guidedmix-Net,通过利用标签信息来指导未标记的实例的学习。具体而言,Guidedmix-Net采用三种操作:1)类似标记的未标记图像对的插值; 2)转让互动信息; 3)伪面具的概括。它使分段模型可以通过将知识从标记的样本转移到未标记的数据来学习未标记数据的更高质量的伪掩模。除了用于标记数据的监督学习之外,使用来自混合数据的生成的伪掩模共同学习未标记数据的预测。对Pascal VOC的大量实验2012年,城市景观展示了我们的Guidedmix-Net的有效性,这实现了竞争性的细分准确性,并与以前的方法相比,通过+7美元\%$大大改善Miou。
translated by 谷歌翻译