智能论文笔记

Semi-Supervised Semantic Segmentation with Cross Teacher Training

Hui Xiao , Li Dong , Kangkang Song , Hao Xu , Shuibo Fu , Diqun Yan , Chengbin Peng

分类：计算机视觉

2022-09-03

卷积神经网络可以在语义细分任务中实现出色的性能。但是，这种神经网络方法在很大程度上依赖于昂贵的像素级注释。半监督学习是解决这个问题的有前途的决议，但其表现仍然远远落后于完全受监督的对手。这项工作提出了一个带有三个模块的跨教师培训框架，可显着改善传统的半监督学习方法。核心是跨教师模块，可以同时减少同伴网络之间的耦合以及教师和学生网络之间的错误积累。此外，我们提出了两个互补的对比学习模块。高级模块可以将高质量的知识从标记的数据传输到未标记的数据，并在特征空间中促进类之间的分离。低级模块可以鼓励从同伴网络中的高质量功能学习的低质量功能。在实验中，跨教师模块显着提高了传统的学生教师方法的性能，而我们的框架在基准数据集上的表现优于现行方法。我们的CTT源代码将发布。

translated by 谷歌翻译

Semi-supervised Semantic Segmentation with Mutual Knowledge Distillation

Jianlong Yuan , Jinchao Ge , Qi Qian , Zhibin Wang , Fan Wang , Yifan Liu

分类：计算机视觉

2022-08-24

在最近的半监督语义分割方法中，一致性正则化已被广泛研究。从图像，功能和网络扰动中受益，已经实现了出色的性能。为了充分利用这些扰动，在这项工作中，我们提出了一个新的一致性正则化框架，称为相互知识蒸馏（MKD）。我们创新地基于一致性正则化方法，创新了两个辅助均值老师模型。更具体地说，我们使用一位卑鄙的老师生成的伪标签来监督另一个学生网络，以在两个分支之间进行相互知识蒸馏。除了使用图像级强和弱的增强外，我们还采用了特征增强，考虑隐性语义分布来增加对学生的进一步扰动。提出的框架大大增加了训练样本的多样性。公共基准测试的广泛实验表明，我们的框架在各种半监督设置下都优于先前的最先进方法（SOTA）方法。

translated by 谷歌翻译

HTML版本

Robust Mutual Learning for Semi-supervised Semantic Segmentation

Pan Zhang , Bo Zhang , Ting Zhang , Dong Chen , Fang Wen

分类：计算机视觉

2021-06-01

最近的半监督学习（SSL）方法通常基于伪标记。由于SSL性能受到伪标签质量的大大影响，因此已经提出了相互学习，以有效地抑制伪监管中的噪音。在这项工作中，我们提出了强大的相互学习，可以在两个方面提高先前的方法。首先，vanilla相互学习者遭受耦合问题，模型可能会聚以学习同质知识。我们通过介绍卑鄙教师来产生互动监督，以便在这两个学生之间没有直接互动来解决这个问题。我们还表明，强大的数据增强，模型噪声和异构网络架构对于缓解模型耦合至关重要。其次，我们注意到相互学习未能利用网络自身的伪标签改进能力。因此，我们介绍了自我整改，利用内部知识，并在相互教学前明确地整流伪标签。这种自我整改和共同教学在整个学习过程中协同提高了伪标签准确性。所提出的强大相互学习在低数据制度中展示了最先进的性能。

translated by 谷歌翻译

Multi-Granularity Distillation Scheme Towards Lightweight Semi-Supervised Semantic Segmentation

Jie Qin , Jie Wu , Ming Li , Xuefeng Xiao , Min Zheng , Xingang Wang

分类：计算机视觉

2022-08-22

尽管在半监督语义细分领域的进度程度不同，但其最近的大部分成功都涉及笨拙的模型，并且尚未探索轻量级解决方案。我们发现，现有的知识蒸馏技术更多地关注标签数据中的像素级概念，该数据未能在未标记的数据中考虑更有用的线索。因此，我们提供了首次尝试通过新颖的多晶蒸馏（MGD）方案提供轻量级SSS模型，其中从三个方面捕获了多个跨性别：i）互补的教师结构； ii）标记为未标记的数据合作蒸馏； iii）分层和多层次损失设置。具体而言，MGD被配制为标记的未标记数据合作蒸馏方案，该方案有助于充分利用在半监督环境中必不可少的不同数据特征。图像水平的语义敏感损失，区域级别的内容感知损失和像素级的一致性损失是通过结构互补的教师来丰富层次蒸馏抽象的。 Pascal VOC2012和CityScapes的实验结果表明，在不同的分区协议下，MGD可以超越竞争方法。例如，在1/16的CityScapes分区协议下，RESNET-18和MOBILENET-V2主链的性能分别增长了11.5％和4.6％。尽管模型骨干的拖曳量被3.4-5.3倍（RESNET-18）和38.7-59.6X（MobileNetV2）压缩，但该模型旨在实现令人满意的分割结果。

translated by 谷歌翻译

Conservative-Progressive Collaborative Learning for Semi-supervised Semantic Segmentation

Siqi Fan , Fenghua Zhu , Zunlei Feng , Yisheng Lv , Mingli Song , Fei-Yue Wang

分类：计算机视觉

2022-11-30

Pseudo supervision is regarded as the core idea in semi-supervised learning for semantic segmentation, and there is always a tradeoff between utilizing only the high-quality pseudo labels and leveraging all the pseudo labels. Addressing that, we propose a novel learning approach, called Conservative-Progressive Collaborative Learning (CPCL), among which two predictive networks are trained in parallel, and the pseudo supervision is implemented based on both the agreement and disagreement of the two predictions. One network seeks common ground via intersection supervision and is supervised by the high-quality labels to ensure a more reliable supervision, while the other network reserves differences via union supervision and is supervised by all the pseudo labels to keep exploring with curiosity. Thus, the collaboration of conservative evolution and progressive exploration can be achieved. To reduce the influences of the suspicious pseudo labels, the loss is dynamic re-weighted according to the prediction confidence. Extensive experiments demonstrate that CPCL achieves state-of-the-art performance for semi-supervised semantic segmentation.

translated by 谷歌翻译

Learning from Future: A Novel Self-Training Framework for Semantic Segmentation

Ye Du , Yujun Shen , Haochen Wang , Jingjing Fei , Wei Li , Liwei Wu , Rui Zhao , Zehua Fu , Qingjie Liu

分类：计算机视觉

2022-09-15

自我训练在半监督学习中表现出巨大的潜力。它的核心思想是使用在标记数据上学习的模型来生成未标记样本的伪标签，然后自我教学。为了获得有效的监督，主动尝试通常会采用动量老师进行伪标签的预测，但要观察确认偏见问题，在这种情况下，错误的预测可能会提供错误的监督信号并在培训过程中积累。这种缺点的主要原因是，现行的自我训练框架充当以前的知识指导当前状态，因为老师仅与过去的学生更新。为了减轻这个问题，我们提出了一种新颖的自我训练策略，该策略使模型可以从未来学习。具体而言，在每个培训步骤中，我们都会首先优化学生（即，在不将其应用于模型权重的情况下缓存梯度），然后用虚拟未来的学生更新老师，最后要求老师为伪标记生产伪标签目前的学生作为指导。这样，我们设法提高了伪标签的质量，从而提高了性能。我们还通过深入（FST-D）和广泛（FST-W）窥视未来，开发了我们未来自我训练（FST）框架的两个变体。将无监督的域自适应语义分割和半监督语义分割的任务作为实例，我们在广泛的环境下实验表明了我们方法的有效性和优越性。代码将公开可用。

translated by 谷歌翻译

Augmentation Matters: A Simple-yet-Effective Approach to Semi-supervised Semantic Segmentation

Zhen Zhao , Lihe Yang , Sifan Long , Jimin Pi , Luping Zhou , Jingdong Wang

分类：计算机视觉

2022-12-09

Recent studies on semi-supervised semantic segmentation (SSS) have seen fast progress. Despite their promising performance, current state-of-the-art methods tend to increasingly complex designs at the cost of introducing more network components and additional training procedures. Differently, in this work, we follow a standard teacher-student framework and propose AugSeg, a simple and clean approach that focuses mainly on data perturbations to boost the SSS performance. We argue that various data augmentations should be adjusted to better adapt to the semi-supervised scenarios instead of directly applying these techniques from supervised learning. Specifically, we adopt a simplified intensity-based augmentation that selects a random number of data transformations with uniformly sampling distortion strengths from a continuous space. Based on the estimated confidence of the model on different unlabeled samples, we also randomly inject labelled information to augment the unlabeled samples in an adaptive manner. Without bells and whistles, our simple AugSeg can readily achieve new state-of-the-art performance on SSS benchmarks under different partition protocols.

translated by 谷歌翻译

Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation

Yuyuan Liu , Yu Tian , Yuanhong Chen , Fengbei Liu , Vasileios Belagiannis , Gustavo Carneiro

分类：计算机视觉

2021-11-25

使用输入图像，功能或网络扰动的一致性学习已经显示出半监督语义分割的显着结果，但这种方法可能受到未准确的未标记训练图像的预测的严重影响。这些不准确的预测有两种后果：1）基于“严格”的跨熵（CE）损失的培训可以容易地过度造成预测错误，导致确认偏见; 2）应用于这些不准确的预测的扰动将使用可能错误的预测作为训练信号，降低一致性学习。在本文中，我们解决了具有新颖的教师（MT）模型的一致性学习方法的预测准确性问题，包括新的辅助教师，并通过更严格的信心更换MT的均方误差（MSE） - 加权交叉熵（CONF-CE）损失。该模型的准确预测使我们能够利用网络，输入数据和特征扰动的具有挑战性的组合，以改善特征扰动的一致性学习概括，其中包括新的对抗扰动。 Public基准的结果表明，我们的方法通过现场上一个SOTA方法实现了显着的改进。

translated by 谷歌翻译

Boosting Semi-Supervised Semantic Segmentation with Probabilistic Representations

Haoyu Xie , Changqi Wang , Mingkai Zheng , Minjing Dong , Shan You , Chong Fu , Chang Xu

分类：计算机视觉

2022-10-26

Recent breakthroughs in semi-supervised semantic segmentation have been developed through contrastive learning. In prevalent pixel-wise contrastive learning solutions, the model maps pixels to deterministic representations and regularizes them in the latent space. However, there exist inaccurate pseudo-labels which map the ambiguous representations of pixels to the wrong classes due to the limited cognitive ability of the model. In this paper, we define pixel-wise representations from a new perspective of probability theory and propose a Probabilistic Representation Contrastive Learning (PRCL) framework that improves representation quality by taking its probability into consideration. Through modelling the mapping from pixels to representations as the probability via multivariate Gaussian distributions, we can tune the contribution of the ambiguous representations to tolerate the risk of inaccurate pseudo-labels. Furthermore, we define prototypes in the form of distributions, which indicates the confidence of a class, while the point prototype cannot. Moreover, we propose to regularize the distribution variance to enhance the reliability of representations. Taking advantage of these benefits, high-quality feature representations can be derived in the latent space, thereby the performance of semantic segmentation can be further improved. We conduct sufficient experiment to evaluate PRCL on Pascal VOC and CityScapes to demonstrate its superiority. The code is available at https://github.com/Haoyu-Xie/PRCL.

translated by 谷歌翻译

Adversarial Dual-Student with Differentiable Spatial Warping for Semi-Supervised Semantic Segmentation

Cong Cao , Tianwei Lin , Dongliang He , Fu Li , Huanjing Yue , Jingyu Yang , Errui Ding

分类：计算机视觉

2022-03-05

强大的语义细分面临的一个普遍挑战是昂贵的数据注释成本。现有的半监督解决方案显示出解决此问题的巨大潜力。他们的关键想法是通过未经监督的数据增加未标记的数据来构建一致性正则化，以进行模型培训。未标记数据的扰动使一致性训练损失使半监督的语义分割受益。但是，这些扰动破坏了图像上下文并引入了不自然的边界，这对语义分割是有害的。此外，广泛采用的半监督学习框架，即均值老师，遭受了绩效限制，因为学生模型最终会收敛于教师模型。在本文中，首先，我们提出了一个友好的可区分几何扭曲，以进行无监督的数据增强。其次，提出了一个新颖的对抗双重学生框架，以从以下两个方面从以下两个方面改善均等老师：（1）双重学生模型是独立学习的，除了稳定约束以鼓励利用模型多样性；（2）对对抗性训练计划适用于学生，并诉诸歧视者以区分无标记数据的可靠伪标签进行自我训练。通过对Pascal VOC2012和CityScapes进行的广泛实验来验证有效性。我们的解决方案可显着提高两个数据集的性能和最先进的结果。值得注意的是，与完全监督相比，我们的解决方案仅使用Pascal VOC2012上的12.5％注释数据获得了73.4％的可比MIOU。我们的代码和模型可在https://github.com/caocong/ads-semiseg上找到。

translated by 谷歌翻译

Transformer-CNN Cohort: Semi-supervised Semantic Segmentation by the Best of Both Students

Xu Zheng , Yunhao Luo , Hao Wang , Chong Fu , Lin Wang

分类：计算机视觉

2022-09-06

半监督语义分割的流行方法主要采用了使用卷积神经网络（CNN）（CNN）的统一网络模型，并在应用于输入或模型的小型扰动上实施模型预测的一致性。但是，这种学习范式受到a）基于CNN模型的学习能力有限； b）学习未标记数据的判别特征的能力有限； c）从整个图像中对全球和本地信息的学习有限。在本文中，我们提出了一种新型的半监督学习方法，称为Transformer-CNN队列（TCC），该方法由两个基于视觉变压器（VIT）的学生组成，另一种是基于CNN的学生。我们的方法巧妙地通过伪标记来纳入预测和异质特征空间上的多级一致性正则化，用于未标记的数据。首先，由于VIT学生的输入是图像贴片，因此特征地图提取了编码至关重要的类统计。为此，我们建议首先利用每个学生作为伪标签并生成类吸引功能（CF）映射的班级感知功能一致性蒸馏（CFCD）。然后，它通过学生之间的CF地图传输知识。其次，随着VIT学生对所有层具有更统一的表示，我们提出一致性感知的交叉蒸馏以在类像素方面的预测之间转移知识。我们在CityScapes和Pascal VOC 2012数据集上验证了TCC框架，该数据集大大优于现有的半监督方法。

translated by 谷歌翻译

Structured Consistency Loss for semi-supervised semantic segmentation

Jongmok Kim , Jooyoung Jang , Hyunwoo Park , SeongAh Jeong

分类：计算机视觉

2020-01-14

一致性损失在解决新监督学习研究中的问题方面发挥了关键作用。然而，具有一致性损失的现存研究仅限于其对分类任务的应用;关于半监督语义分割的现存研究依赖于像素明智的分类，这不反映预测中特征的结构化性质。我们提出了一个结构化的一致性损失，以解决现存研究的这种限制。结构化的一致性损失促进了教师和学生网络之间的像素间相似性的一致性。具体而言，与Cutmix的协作通过降低计算负担急剧性地，优化了半监控语义分割的高效性能，通过降低计算负担。建议方法的优越性通过城市展开核实; Citycapes通过验证和测试数据的基准结果分别为81.9 miou和83.84 miou。这在CityCapes基准套件的像素级语义标记任务中排名第一。据我们所知，我们是第一个在语义细分中展示最先进的半监督学习的优势。

translated by 谷歌翻译

Multi-View Correlation Consistency for Semi-Supervised Semantic Segmentation

Yunzhong Hou , Stephen Gould , Liang Zheng

分类：计算机视觉

2022-08-17

半监督的语义细分需要对未标记的数据进行丰富而强大的监督。一致性学习强制执行相同的像素在不同的增强视图中具有相似的特征，这是一个强大的信号，但忽略了与其他像素的关系。相比之下，对比学习考虑了丰富的成对关系，但是为像素对分配二进制阳性阴性监督信号可能是一个难题。在本文中，我们竭尽所能，并提出多视图相关性一致性（MVCC）学习：它考虑了自相关矩阵中的丰富成对关系，并将它们匹配到视图中以提供强大的监督。加上这种相关性一致性损失，我们提出了一个视图增强策略，可以保证不同观点之间的像素像素对应关系。在两个数据集上的一系列半监督设置中，我们报告了与最先进方法相比的竞争精度。值得注意的是，在CityScapes上，我们以1/8标记的数据达到76.8％的MIOU，比完全监督的Oracle差0.6％。

translated by 谷歌翻译

Local contrastive loss with pseudo-label based self-training for semi-supervised medical image segmentation

Krishna Chaitanya , Ertunc Erdil , Neerav Karani , Ender Konukoglu

分类：计算机视觉 | 人工智能 | 机器学习 | (统计)机器学习

2021-12-17

监管基于深度学习的方法，产生医学图像分割的准确结果。但是，它们需要大量标记的数据集，并获得它们是一种艰苦的任务，需要临床专业知识。基于半/自我监督的学习方法通过利用未标记的数据以及有限的注释数据来解决此限制。最近的自我监督学习方法使用对比损失来从未标记的图像中学习良好的全球层面表示，并在像想象网那样的流行自然图像数据集上实现高性能。在诸如分段的像素级预测任务中，对于学习良好的本地级别表示以及全局表示来说至关重要，以实现更好的准确性。然而，现有的局部对比损失的方法的影响仍然是学习良好本地表现的限制，因为类似于随机增强和空间接近定义了类似和不同的局部区域;由于半/自我监督设置缺乏大规模专家注释，而不是基于当地地区的语义标签。在本文中，我们提出了局部对比损失，以便通过利用从未标记的图像的未标记图像的伪标签获得的语义标签信息来学习用于分割的良好像素级别特征。特别地，我们定义了建议的损失，以鼓励具有相同伪标签/标签的像素的类似表示，同时与数据集中的不同伪标签/标签的像素的表示。我们通过联合优化标记和未标记的集合和仅限于标记集的分割损失，通过联合优化拟议的对比损失来进行基于伪标签的自培训和培训网络。我们在三个公共心脏和前列腺数据集上进行了评估，并获得高分割性能。

translated by 谷歌翻译

GuidedMix-Net: Semi-supervised Semantic Segmentation by Using Labeled Images as Reference

Peng Tu , Yawen Huang , Feng Zheng , Zhenyu He , Liujun Cao , Ling Shao

分类：计算机视觉

2021-12-28

半监督学习是一个具有挑战性的问题，旨在通过从有限标记的例子学习来构建模型。此任务的许多方法侧重于利用单独的未标记实例的预测，以单独进行正规化网络。然而，分别处理标记和未标记的数据通常导致从标记的例子中学习的质量事先知识的丢弃。％，并且未能在标记和未标记的图像对之间的特征交互。在本文中，我们提出了一种新的半监督语义细分方法，名为Guidedmix-Net，通过利用标签信息来指导未标记的实例的学习。具体而言，Guidedmix-Net采用三种操作：1）类似标记的未标记图像对的插值; 2）转让互动信息; 3）伪面具的概括。它使分段模型可以通过将知识从标记的样本转移到未标记的数据来学习未标记数据的更高质量的伪掩模。除了用于标记数据的监督学习之外，使用来自混合数据的生成的伪掩模共同学习未标记数据的预测。对Pascal VOC的大量实验2012年，城市景观展示了我们的Guidedmix-Net的有效性，这实现了竞争性的细分准确性，并与以前的方法相比，通过+7美元\％$大大改善Miou。

translated by 谷歌翻译

Boosting Semi-Supervised Learning with Contrastive Complementary Labeling

Qinyi Deng , Yong Guo , Zhibang Yang , Haolin Pan , Jian Chen

分类：计算机视觉

2022-12-13

Semi-supervised learning (SSL) has achieved great success in leveraging a large amount of unlabeled data to learn a promising classifier. A popular approach is pseudo-labeling that generates pseudo labels only for those unlabeled data with high-confidence predictions. As for the low-confidence ones, existing methods often simply discard them because these unreliable pseudo labels may mislead the model. Nevertheless, we highlight that these data with low-confidence pseudo labels can be still beneficial to the training process. Specifically, although the class with the highest probability in the prediction is unreliable, we can assume that this sample is very unlikely to belong to the classes with the lowest probabilities. In this way, these data can be also very informative if we can effectively exploit these complementary labels, i.e., the classes that a sample does not belong to. Inspired by this, we propose a novel Contrastive Complementary Labeling (CCL) method that constructs a large number of reliable negative pairs based on the complementary labels and adopts contrastive learning to make use of all the unlabeled data. Extensive experiments demonstrate that CCL significantly improves the performance on top of existing methods. More critically, our CCL is particularly effective under the label-scarce settings. For example, we yield an improvement of 2.43% over FixMatch on CIFAR-10 only with 40 labeled data.

translated by 谷歌翻译

Exploring Feature Representation Learning for Semi-supervised Medical Image Segmentation

Huimin Wu , Xiaomeng Li , Kwang-Ting Cheng

分类：计算机视觉

2021-11-22

本文为半监督医学图像分割提供了一个简单而有效的两阶段框架。我们的主要洞察力是探索用标记和未标记的（即伪标记）图像的特征表示学习，以增强分段性能。在第一阶段，我们介绍了一种炼层的不确定感知方法，即Aua，以改善产生高质量伪标签的分割性能。考虑到医学图像的固有歧义，Aua自适应地规范了具有低歧义的图像的一致性。为了提高代表学习，我们提出了一种舞台适应性的对比学习方法，包括边界意识的对比损失，以规范第一阶段中标记的图像，并在第二阶段中的原型感知对比损失优化标记和伪标记的图像阶段。边界意识的对比损失仅优化分段边界周围的像素，以降低计算成本。原型感知对比损失通过为每个类构建质心来充分利用标记的图像和伪标记的图像，以减少对比较的计算成本。我们的方法在两个公共医学图像分割基准上实现了最佳结果。值得注意的是，我们的方法在结肠肿瘤分割的骰子上以5.7％的骰子依赖于只有5％标记的图像而表现出5.7％。

translated by 谷歌翻译

A Three-Stage Self-Training Framework for Semi-Supervised Semantic Segmentation

Rihuan Ke , Angelica Aviles-Rivero , Saurabh Pandey , Saikumar Reddy , Carola-Bibiane Schönlieb

分类：计算机视觉

2020-12-01

在社区中广泛调查了语义分割，其中最先进的技术基于监督模型。这些模型报告了前所未有的性能，以需要大量的高质量细分面具。为了获得这种注释是非常昂贵的并且特别是在需要像素级注释的语义分割中。在这项工作中，我们通过提出作为半监督语义细分的三级自我训练框架的整体解决方案来解决这个问题。我们技术的关键思想是提取伪掩模统计信息，以减少预测概率的不确定性，同时以多任务方式执行分段一致性。我们通过三级解决方案实现这一目标。首先，我们训练分割网络以产生粗糙的伪掩模，预测概率非常不确定。其次，我们使用一个多任务模型来减少伪掩模的不确定性，该模型强制利用数据丰富的数据统计信息。我们将采用现有方法与半监督语义分割的现有方法进行比较，并在广泛的实验中展示其最先进的性能。

translated by 谷歌翻译

Cycle Self-Training for Semi-Supervised Object Detection with Distribution Consistency Reweighting

Hao Liu , Bin Chen , Bo Wang , Chunpeng Wu , Feng Dai , Peng Wu

分类：计算机视觉

2022-07-12

最近，许多半监督的对象检测（SSOD）方法采用教师学生框架并取得了最新的结果。但是，教师网络与学生网络紧密相结合，因为教师是学生的指数移动平均值（EMA），这会导致表现瓶颈。为了解决耦合问题，我们为SSOD提出了一个周期自我训练（CST）框架，该框架由两个老师T1和T2，两个学生S1和S2组成。基于这些网络，构建了一个周期自我训练机制，即S1 $ {\ rightarrow} $ t1 $ {\ rightArow} $ s2 $ {\ rightArrow} $ t2 $ {\ rightArrow} $ s1。对于S $ {\ Rightarrow} $ T，我们还利用学生的EMA权重来更新老师。对于t $ {\ rightarrow} $ s，而不是直接为其学生S1（S2）提供监督，而是老师T1（T2）为学生S2（S1）生成伪标记，从而松散耦合效果。此外，由于EMA的财产，老师最有可能积累学生的偏见，并使错误变得不可逆转。为了减轻问题，我们还提出了分配一致性重新加权策略，在该策略中，根据教师T1和T2的分配一致性，将伪标记重新加权。通过该策略，可以使用嘈杂的伪标签对两个学生S2和S1进行训练，以避免确认偏见。广泛的实验证明了CST的优势，通过将AP比基线优于最先进的方法提高了2.1％的绝对AP改进，并具有稀缺的标记数据，而胜过了2.1％的绝对AP。

translated by 谷歌翻译

Semi-Supervised Object Detection with Object-wise Contrastive Learning and Regression Uncertainty

Honggyu Choi , Zhixiang Chen , Xuepeng Shi , Tae-Kyun Kim

分类：计算机视觉

2022-12-06

Semi-supervised object detection (SSOD) aims to boost detection performance by leveraging extra unlabeled data. The teacher-student framework has been shown to be promising for SSOD, in which a teacher network generates pseudo-labels for unlabeled data to assist the training of a student network. Since the pseudo-labels are noisy, filtering the pseudo-labels is crucial to exploit the potential of such framework. Unlike existing suboptimal methods, we propose a two-step pseudo-label filtering for the classification and regression heads in a teacher-student framework. For the classification head, OCL (Object-wise Contrastive Learning) regularizes the object representation learning that utilizes unlabeled data to improve pseudo-label filtering by enhancing the discriminativeness of the classification score. This is designed to pull together objects in the same class and push away objects from different classes. For the regression head, we further propose RUPL (Regression-Uncertainty-guided Pseudo-Labeling) to learn the aleatoric uncertainty of object localization for label filtering. By jointly filtering the pseudo-labels for the classification and regression heads, the student network receives better guidance from the teacher network for object detection task. Experimental results on Pascal VOC and MS-COCO datasets demonstrate the superiority of our proposed method with competitive performance compared to existing methods.

translated by 谷歌翻译