智能论文笔记

LE-UDA: Label-efficient unsupervised domain adaptation for medical image segmentation

Ziyuan Zhao , Fangcheng Zhou , Kaixin Xu , Zeng Zeng , Cuntai Guan , S. Kevin Zhou

分类：人工智能 | 计算机视觉

2022-12-05

While deep learning methods hitherto have achieved considerable success in medical image segmentation, they are still hampered by two limitations: (i) reliance on large-scale well-labeled datasets, which are difficult to curate due to the expert-driven and time-consuming nature of pixel-level annotations in clinical practices, and (ii) failure to generalize from one domain to another, especially when the target domain is a different modality with severe domain shifts. Recent unsupervised domain adaptation~(UDA) techniques leverage abundant labeled source data together with unlabeled target data to reduce the domain gap, but these methods degrade significantly with limited source annotations. In this study, we address this underexplored UDA problem, investigating a challenging but valuable realistic scenario, where the source domain not only exhibits domain shift~w.r.t. the target domain but also suffers from label scarcity. In this regard, we propose a novel and generic framework called ``Label-Efficient Unsupervised Domain Adaptation"~(LE-UDA). In LE-UDA, we construct self-ensembling consistency for knowledge transfer between both domains, as well as a self-ensembling adversarial learning module to achieve better feature alignment for UDA. To assess the effectiveness of our method, we conduct extensive experiments on two different tasks for cross-modality segmentation between MRI and CT images. Experimental results demonstrate that the proposed LE-UDA can efficiently leverage limited source labels to improve cross-domain segmentation performance, outperforming state-of-the-art UDA approaches in the literature. Code is available at: https://github.com/jacobzhaoziyuan/LE-UDA.

translated by 谷歌翻译

Contrastive Semi-supervised Learning for Domain Adaptive Segmentation Across Similar Anatomical Structures

Ran Gu , Jingyang Zhang , Guotai Wang , Wenhui Lei , Tao Song , Xiaofan Zhang , Kang Li , Shaoting Zhang

分类：计算机视觉

2022-08-18

卷积神经网络（CNN）已经实现了医学图像细分的最先进性能，但需要大量的手动注释进行培训。半监督学习（SSL）方法有望减少注释的要求，但是当数据集大小和注释图像的数量较小时，它们的性能仍然受到限制。利用具有类似解剖结构的现有注释数据集来协助培训，这有可能改善模型的性能。然而，由于目标结构的外观不同甚至成像方式，跨解剖结构域的转移进一步挑战。为了解决这个问题，我们提出了跨解剖结构域适应（CS-CADA）的对比度半监督学习，该学习适应一个模型以在目标结构域中细分相似的结构，这仅需要通过利用一组现有现有的现有的目标域中的限制注释源域中相似结构的注释图像。我们使用特定领域的批归归量表（DSBN）来单独地标准化两个解剖域的特征图，并提出跨域对比度学习策略，以鼓励提取域不变特征。它们被整合到一个自我兼容的均值老师（SE-MT）框架中，以利用具有预测一致性约束的未标记的目标域图像。广泛的实验表明，我们的CS-CADA能够解决具有挑战性的跨解剖结构域移位问题，从而在视网膜血管图像和心脏MR图像的帮助下，在X射线图像中准确分割冠状动脉，并借助底底图像，分别仅给定目标域中的少量注释。

translated by 谷歌翻译

Uncertainty-Guided Mutual Consistency Learning for Semi-Supervised Medical Image Segmentation

Yichi Zhang , Qingcheng Liao , Rushi Jiao , Jicong Zhang

分类：计算机视觉

2021-12-05

医学图像分割是许多临床方法的基本和关键步骤。半监督学习已被广泛应用于医学图像分割任务，因为它减轻了收购专家审查的注释的沉重负担，并利用了更容易获得的未标记数据的优势。虽然已被证明是通过实施不同分布下的预测的不变性的一致性学习，但现有方法无法充分利用来自未标记数据的区域级形状约束和边界级距离信息。在本文中，我们提出了一种新颖的不确定性引导的相互一致学习框架，通过将任务中的一致性学习与自组合和交叉任务一致性学习从任务级正则化的最新预测集成了任务内的一致性学习，从而有效地利用了未标记的数据利用几何形状信息。该框架是由模型的估计分割不确定性指导，以便为一致性学习选择相对某些预测，以便有效地利用来自未标记数据的更可靠的信息。我们在两个公开的基准数据集中广泛地验证了我们提出的方法：左心房分割（LA）数据集和大脑肿瘤分割（BRATS）数据集。实验结果表明，我们的方法通过利用未标记的数据和优于现有的半监督分段方法来实现性能增益。

translated by 谷歌翻译

Source-free unsupervised domain adaptation for cross-modality abdominal multi-organ segmentation

Jin Hong , Yu-Dong Zhang , Weitian Chen

分类：计算机视觉

2021-11-24

实现域适应是有价值的，以将学习知识从标记为CT数据集传输到腹部多器官分段的目标未标记的MR DataSet。同时，非常希望避免目标数据集的高注重成本并保护源数据集的隐私。因此，我们提出了一种有效的无核心无监督域适应方法，用于跨型号腹部多器官分段而不访问源数据集。所提出的框架的过程包括两个阶段。在第一阶段，特征映射统计损失用于对准顶部分段网络中的源和目标特征的分布，并使用熵最小化损耗来鼓励高席位细分。从顶部分段网络输出的伪标签用于指导样式补偿网络生成类似源图像。从中间分割网络输出的伪标签用于监督所需模型的学习（底部分段网络）。在第二阶段，循环学习和像素自适应掩模细化用于进一步提高所需模型的性能。通过这种方法，我们在肝脏，肾脏，左肾肾脏和脾脏的分割中实现了令人满意的性能，骰子相似系数分别为0.884,0.891,0.864和0.911。此外，当存在目标注释数据时，所提出的方法可以很容易地扩展到情况。该性能在平均骰子相似度系数的0.888至0.922增加到0.888至0.922，靠近监督学习（0.929），只有一个标记的MR卷。

translated by 谷歌翻译

Learning with Limited Annotations: A Survey on Deep Semi-Supervised Learning for Medical Image Segmentation

Rushi Jiao , Yichi Zhang , Le Ding , Rong Cai , Jicong Zhang

分类：计算机视觉

2022-07-28

在许多图像引导的临床方法中，医学图像分割是一个基本和关键的步骤。基于深度学习的细分方法的最新成功通常取决于大量标记的数据，这特别困难且昂贵，尤其是在医学成像领域中，只有专家才能提供可靠和准确的注释。半监督学习已成为一种吸引人的策略，并广泛应用于医学图像分割任务，以训练注释有限的深层模型。在本文中，我们对最近提议的半监督学习方法进行了全面综述，并总结了技术新颖性和经验结果。此外，我们分析和讨论现有方法的局限性和几个未解决的问题。我们希望这篇评论可以激发研究界探索解决这一挑战的解决方案，并进一步促进医学图像细分领域的发展。

translated by 谷歌翻译

Unsupervised Domain Adaptation for Semantic Image Segmentation: a Comprehensive Survey

Gabriela Csurka , Riccardo Volpi , Boris Chidlovskii

分类：计算机视觉 | 人工智能

2021-12-06

语义分割在广泛的计算机视觉应用中起着基本作用，提供了全球对图像的理解的关键信息。然而，最先进的模型依赖于大量的注释样本，其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜，因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年，这包含了语义细分本身的重要性，以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习，域泛化，测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员，并有助于他们培养现场的新研究方向。

translated by 谷歌翻译

Mind The Gap: Alleviating Local Imbalance for Unsupervised Cross-Modality Medical Image Segmentation

Zixian Su , Kai Yao , Xi Yang , Qiufeng Wang , Yuyao Yan , Jie Sun , Kaizhu Huang

分类：计算机视觉

2022-05-24

无监督的交叉模式医学图像适应旨在减轻不同成像方式之间的严重域间隙，而无需使用目标域标签。该活动的关键依赖于对齐源和目标域的分布。一种常见的尝试是强制两个域之间的全局对齐，但是，这忽略了致命的局部不平衡域间隙问题，即，一些具有较大域间隙的局部特征很难转移。最近，某些方法进行一致性，重点是地方区域，以提高模型学习的效率。尽管此操作可能会导致上下文中关键信息的缺陷。为了应对这一限制，我们提出了一种新的策略，以减轻医学图像的特征，即全球本地联盟的一致性，以减轻域间隙不平衡。具体而言，功能 - 触发样式转移模块首先合成类似目标的源包含图像，以减少全局域间隙。然后，集成了本地功能掩码，以通过优先考虑具有较大域间隙的判别特征来减少本地特征的“间隙”。全球和局部对齐的这种组合可以精确地将关键区域定位在分割目标中，同时保持整体语义一致性。我们进行了一系列具有两个跨模式适应任务的实验，i，e。心脏子结构和腹部多器官分割。实验结果表明，我们的方法在这两个任务中都达到了最新的性能。

translated by 谷歌翻译

Self-Ensembling GAN for Cross-Domain Semantic Segmentation

Yonghao Xu , Fengxiang He , Bo Du , Liangpei Zhang , Dacheng Tao

分类：计算机视觉

2021-12-15

深度神经网络（DNN）极大地促进了语义分割中的性能增益。然而，训练DNN通常需要大量的像素级标记数据，这在实践中收集昂贵且耗时。为了减轻注释负担，本文提出了一种自组装的生成对抗网络（SE-GAN）利用语义分割的跨域数据。在SE-GaN中，教师网络和学生网络构成用于生成语义分割图的自组装模型，与鉴别器一起形成GaN。尽管它很简单，我们发现SE-GaN可以显着提高对抗性训练的性能，提高模型的稳定性，这是由大多数普遍培训的方法共享的常见障碍。我们理论上分析SE-GaN并提供$ \ Mathcal o（1 / \ sqrt {n}）$泛化绑定（$ n $是培训样本大小），这表明控制了鉴别者的假设复杂性，以提高概括性。因此，我们选择一个简单的网络作为鉴别器。两个标准设置中的广泛和系统实验表明，该方法显着优于最新的最先进的方法。我们模型的源代码即将推出。

translated by 谷歌翻译

Contrastive Image Synthesis and Self-supervised Feature Adaptation for Cross-Modality Biomedical Image Segmentation

Xinrong Hu , Corey Wang , Yiyu Shi

分类：计算机视觉

2022-07-27

这项工作提出了一个新颖的框架CISFA（对比图像合成和自我监督的特征适应），该框架建立在图像域翻译和无监督的特征适应性上，以进行跨模式生物医学图像分割。与现有作品不同，我们使用单方面的生成模型，并在输入图像的采样贴片和相应的合成图像之间添加加权贴片对比度损失，该图像用作形状约束。此外，我们注意到生成的图像和输入图像共享相似的结构信息，但具有不同的方式。因此，我们在生成的图像和输入图像上强制实施对比损失，以训练分割模型的编码器，以最大程度地减少学到的嵌入空间中成对图像之间的差异。与依靠对抗性学习进行特征适应的现有作品相比，这种方法使编码器能够以更明确的方式学习独立于域的功能。我们对包含腹腔和全心的CT和MRI图像的分割任务进行了广泛评估。实验结果表明，所提出的框架不仅输出了较小的器官形状变形的合成图像，而且还超过了最先进的域适应方法的较大边缘。

translated by 谷歌翻译

Unsupervised Domain Adaptation through Shape Modeling for Medical Image Segmentation

Yuan Yao , Fengze Liu , Zongwei Zhou , Yan Wang , Wei Shen , Alan Yuille , Yongyi Lu

分类：计算机视觉

2022-07-06

形状信息在医学图像中分割器官方面是强大而有价值的先验。但是，当前大多数基于深度学习的分割算法尚未考虑形状信息，这可能导致对纹理的偏见。我们旨在明确地对形状进行建模并使用它来帮助医疗图像分割。先前的方法提出了基于变异的自动编码器（VAE）模型，以了解特定器官的形状分布，并通过将其拟合到学习的形状分布中来自动评估分割预测的质量。我们旨在将VAE纳入当前的分割管道中。具体而言，我们提出了一种基于伪损失和在教师学习范式下的VAE重建损失的新的无监督域适应管道。两种损失都是同时优化的，作为回报，提高了分割任务性能。对三个公共胰腺细分数据集以及两个内部胰腺细分数据集进行了广泛的实验，显示了一致的改进，骰子分数中至少有2.8分的增益，这表明了我们方法在挑战无监督的域适应性方案中对医学图像分割的有效性。我们希望这项工作能够在医学成像中提高形状分析和几何学习。

translated by 谷歌翻译

Cross-Domain Object Detection via Adaptive Self-Training

Yu-Jhe Li , Xiaoliang Dai , Chih-Yao Ma , Yen-Cheng Liu , Kan Chen , Bichen Wu , Zijian He , Kris Kitani , Peter Vadja

分类：计算机视觉

2021-11-25

我们解决对象检测中的域适应问题，其中在源（带有监控）和目标域（没有监督的域的域名）之间存在显着的域移位。作为广泛采用的域适应方法，自培训教师学生框架（学生模型从教师模型生成的伪标签学习）在目标域中产生了显着的精度增益。然而，由于其偏向源域，它仍然存在从教师产生的大量低质量伪标签（例如，误报）。为了解决这个问题，我们提出了一种叫做自适应无偏见教师（AUT）的自我训练框架，利用对抗的对抗学习和弱强的数据增强来解决域名。具体而言，我们在学生模型中使用特征级的对抗性培训，确保从源和目标域中提取的功能共享类似的统计数据。这使学生模型能够捕获域不变的功能。此外，我们在目标领域的教师模型和两个域上的学生模型之间应用了弱强的增强和相互学习。这使得教师模型能够从学生模型中逐渐受益，而不会遭受域移位。我们展示了AUT通过大边距显示所有现有方法甚至Oracle（完全监督）模型的优势。例如，我们在有雾的城市景观（Clipart1k）上实现了50.9％（49.3％）地图，分别比以前的最先进和甲骨文高9.2％（5.2％）和8.2％（11.0％）

translated by 谷歌翻译

Domain Generalization for Medical Image Segmentation via Hierarchical Consistency Regularization

Yijun Yang , Shujun Wang , Lei Zhu , Pheng-Ann Heng , Lequan Yu

分类：计算机视觉

2021-09-13

现代深层神经网络在部署到现实世界应用程序时努力转移知识并跨越不同领域的知识。当前，引入了域的概括（DG），以从多个域中学习通用表示，以提高看不见的域的网络泛化能力。但是，以前的DG方法仅关注数据级的一致性方案，而无需考虑不同一致性方案之间的协同正则化。在本文中，我们通过通过协同整合外在的一致性和内在的一致性来提出一个新型的域概括（HCDG）层次一致性框架。特别是对于外部一致性，我们利用跨多个源域的知识来强制数据级的一致性。为了更好地提高这种一致性，我们将新型的高斯混合策略设计为基于傅立叶的数据增强，称为domainup。对于固有的一致性，我们在双重任务方案下对同一实例执行任务级的一致性。我们在两个医学图像分割任务上评估了提出的HCDG框架，即对眼底图像和前列腺MRI分割的视频杯/圆盘分割。广泛的实验结果表明了我们的HCDG框架的有效性和多功能性。

translated by 谷歌翻译

Source-Free Unsupervised Domain Adaptation: A Survey

Yuqi Fang , Pew-Thian Yap , Weili Lin , Hongtu Zhu , Mingxia Liu

分类：计算机视觉 | 人工智能 | 机器学习

2022-12-31

Unsupervised domain adaptation (UDA) via deep learning has attracted appealing attention for tackling domain-shift problems caused by distribution discrepancy across different domains. Existing UDA approaches highly depend on the accessibility of source domain data, which is usually limited in practical scenarios due to privacy protection, data storage and transmission cost, and computation burden. To tackle this issue, many source-free unsupervised domain adaptation (SFUDA) methods have been proposed recently, which perform knowledge transfer from a pre-trained source model to unlabeled target domain with source data inaccessible. A comprehensive review of these works on SFUDA is of great significance. In this paper, we provide a timely and systematic literature review of existing SFUDA approaches from a technical perspective. Specifically, we categorize current SFUDA studies into two groups, i.e., white-box SFUDA and black-box SFUDA, and further divide them into finer subcategories based on different learning strategies they use. We also investigate the challenges of methods in each subcategory, discuss the advantages/disadvantages of white-box and black-box SFUDA methods, conclude the commonly used benchmark datasets, and summarize the popular techniques for improved generalizability of models learned without using source data. We finally discuss several promising future directions in this field.

translated by 谷歌翻译

ACT-Net: Asymmetric Co-Teacher Network for Semi-supervised Memory-efficient Medical Image Segmentation

Ziyuan Zhao , Andong Zhu , Zeng Zeng , Bharadwaj Veeravalli , Cuntai Guan

分类：人工智能 | 计算机视觉

2022-07-05

尽管深层模型在医学图像分割中表现出了有希望的性能，但它们在很大程度上依赖大量宣布的数据，这很难访问，尤其是在临床实践中。另一方面，高准确的深层模型通常有大型模型尺寸，从而限制了它们在实际情况下的工作。在这项工作中，我们提出了一个新颖的不对称联合教师框架ACT-NET，以减轻半监督知识蒸馏的昂贵注释和计算成本的负担。我们通过共同教师网络推进教师学习的学习，以通过交替的学生和教师角色来促进从大型模型到小模型的不对称知识蒸馏，从而获得了临床就业的微小但准确的模型。为了验证我们的行动网络的有效性，我们在实验中采用了ACDC数据集进行心脏子结构分段。广泛的实验结果表明，ACT-NET的表现优于其他知识蒸馏方法，并实现无损分割性能，参数少250倍。

translated by 谷歌翻译

PCA: Semi-supervised Segmentation with Patch Confidence Adversarial Training

Zihang Xu , Zhenghua Xu , Shuo Zhang , Thomas Lukasiewicz

分类：计算机视觉 | 机器学习

2022-07-24

基于深度学习的半监督学习（SSL）方法在医学图像细分中实现了强大的性能，可以通过使用大量未标记的数据来减轻医生昂贵的注释。与大多数现有的半监督学习方法不同，基于对抗性训练的方法通过学习分割图的数据分布来区分样本与不同来源，导致细分器生成更准确的预测。我们认为，此类方法的当前绩效限制是特征提取和学习偏好的问题。在本文中，我们提出了一种新的半监督的对抗方法，称为贴片置信疗法训练（PCA），用于医疗图像分割。我们提出的歧视器不是单个标量分类结果或像素级置信度图，而是创建贴片置信图，并根据斑块的规模进行分类。未标记数据的预测学习了每个贴片中的像素结构和上下文信息，以获得足够的梯度反馈，这有助于歧视器以融合到最佳状态，并改善半监督的分段性能。此外，在歧视者的输入中，我们补充了图像上的语义信息约束，使得未标记的数据更简单，以适合预期的数据分布。关于自动心脏诊断挑战（ACDC）2017数据集和脑肿瘤分割（BRATS）2019挑战数据集的广泛实验表明，我们的方法优于最先进的半监督方法，这证明了其对医疗图像分割的有效性。

translated by 谷歌翻译

Edge-preserving Domain Adaptation for semantic segmentation of Medical Images

Thong Vo , Naimul Khan

分类：计算机视觉 | 机器学习

2021-11-18

域适应是一种解决未经看线环境中缺乏大量标记数据的技术。提出了无监督的域适应，以使模型适用于使用单独标记的源数据和未标记的目标域数据的新模式。虽然已经提出了许多图像空间域适配方法来捕获像素级域移位，但是这种技术可能无法维持分割任务的高电平语义信息。对于生物医学图像的情况，在域之间的图像转换操作期间，诸如血管的细细节可能会丢失。在这项工作中，我们提出了一种模型，它使用周期 - 一致丢失在域之间适应域，同时通过在适应过程中强制执行基于边缘的损耗来维持原始图像的边缘细节。我们通过将其与其他两只眼底血管分割数据集的其他方法进行比较来证明我们的算法的有效性。与SOTA和〜5.2增量相比，我们达到了1.1〜9.2递增的骰子分数。

translated by 谷歌翻译

CXR Segmentation by AdaIN-based Domain Adaptation and Knowledge Distillation

Yujin Oh , Jong Chul Ye

分类：计算机视觉 | 机器学习

2021-04-13

由于细分标签稀缺，已经进行了广泛的研究，以培训具有域名适应性，半监督或自制学习技术来利用丰富的未标记数据集的分割网络。但是，这些方法彼此不同，因此尚不清楚如何将这些方法组合起来以提高性能。受到最新的多域图像翻译方法的启发，我们在这里提出了一个新颖的分割框架，使用自适应实例归一化（ADAIN），以便对单个发电机进行培训，以通过简单地通过更改任务来通过知识蒸馏来执行域的适应性和半手不足的细分任务 - 特定的AD代码。具体而言，我们的框架旨在处理胸部X射线射线照片（CXR）细分中的困难情况，其中标签仅适用于正常数据，但训练有素的模型应应用于正常数据和异常数据。提出的网络在域移动下显示出极大的概括性，并实现了异常CXR分割的最新性能。

translated by 谷歌翻译

Context-Aware Mixup for Domain Adaptive Semantic Segmentation

Qianyu Zhou , Zhengyang Feng , Qiqi Gu , Jiangmiao Pang , Guangliang Cheng , Xuequan Lu , Jianping Shi , Lizhuang Ma

分类：计算机视觉

2021-08-08

无监督的域适应性（UDA）旨在使标记的源域的模型适应未标记的目标域。现有的基于UDA的语义细分方法始终降低像素级别，功能级别和输出级别的域移动。但是，几乎所有这些都在很大程度上忽略了上下文依赖性，该依赖性通常在不同的领域共享，从而导致较不怀疑的绩效。在本文中，我们提出了一个新颖的环境感知混音（camix）框架自适应语义分割的框架，该框架以完全端到端的可训练方式利用了上下文依赖性的这一重要线索作为显式的先验知识，以增强对适应性的适应性目标域。首先，我们通过利用积累的空间分布和先前的上下文关系来提出上下文掩盖的生成策略。生成的上下文掩码在这项工作中至关重要，并将指导三个不同级别的上下文感知域混合。此外，提供了背景知识，我们引入了重要的一致性损失，以惩罚混合学生预测与混合教师预测之间的不一致，从而减轻了适应性的负面转移，例如早期绩效降级。广泛的实验和分析证明了我们方法对广泛使用的UDA基准的最新方法的有效性。

translated by 谷歌翻译

Deep Unsupervised Domain Adaptation: A Review of Recent Advances and Perspectives

Xiaofeng Liu , Chaehwa Yoo , Fangxu Xing , Hyejin Oh , Georges El Fakhri , Je-Won Kang , Jonghye Woo

分类：计算机视觉 | 人工智能 | 机器学习

2022-08-15

深度学习已成为解决不同领域中现实世界中问题的首选方法，部分原因是它能够从数据中学习并在广泛的应用程序上实现令人印象深刻的性能。但是，它的成功通常取决于两个假设：（i）精确模型拟合需要大量标记的数据集，并且（ii）培训和测试数据是独立的且分布相同的。因此，不能保证它在看不见的目标域上的性能，尤其是在适应阶段遇到分布数据的数据时。目标域中数据的性能下降是部署深层神经网络的关键问题，这些网络已成功地在源域中的数据训练。通过利用标记的源域数据和未标记的目标域数据来执行目标域中的各种任务，提出了无监督的域适应（UDA）来对抗这一点。 UDA在自然图像处理，视频分析，自然语言处理，时间序列数据分析，医学图像分析等方面取得了令人鼓舞的结果。在本综述中，作为一个快速发展的主题，我们对其方法和应用程序进行了系统的比较。此外，还讨论了UDA与其紧密相关的任务的联系，例如域的概括和分布外检测。此外，突出显示了当前方法和可能有希望的方向的缺陷。

translated by 谷歌翻译

SSDA-YOLO: Semi-supervised Domain Adaptive YOLO for Cross-Domain Object Detection

Huayi Zhou , Fei Jiang , Hongtao Lu

分类：计算机视觉

2022-11-04

Domain adaptive object detection (DAOD) aims to alleviate transfer performance degradation caused by the cross-domain discrepancy. However, most existing DAOD methods are dominated by computationally intensive two-stage detectors, which are not the first choice for industrial applications. In this paper, we propose a novel semi-supervised domain adaptive YOLO (SSDA-YOLO) based method to improve cross-domain detection performance by integrating the compact one-stage detector YOLOv5 with domain adaptation. Specifically, we adapt the knowledge distillation framework with the Mean Teacher model to assist the student model in obtaining instance-level features of the unlabeled target domain. We also utilize the scene style transfer to cross-generate pseudo images in different domains for remedying image-level differences. In addition, an intuitive consistency loss is proposed to further align cross-domain predictions. We evaluate our proposed SSDA-YOLO on public benchmarks including PascalVOC, Clipart1k, Cityscapes, and Foggy Cityscapes. Moreover, to verify its generalization, we conduct experiments on yawning detection datasets collected from various classrooms. The results show considerable improvements of our method in these DAOD tasks. Our code is available on \url{https://github.com/hnuzhy/SSDA-YOLO}.

translated by 谷歌翻译