智能论文笔记

Cross-Modality Domain Adaptation for Vestibular Schwannoma and Cochlea Segmentation

Han Liu , Yubo Fan , Can Cui , Dingjie Su , Andrew McNeil , Benoit M. Dawant

分类：计算机视觉

2021-09-13

分割前庭施瓦瘤瘤（VS）肿瘤的自动方法和来自磁共振成像（MRI）的耳蜗对VS治疗计划至关重要。虽然监督方法在VS分割中取得了令人满意的性能，但他们需要专家的完整注释，这是费力且耗时的。在这项工作中，我们的目标是在无监督的域适应设置中解决VS和Cochlea分段问题。我们所提出的方法利用了图像级域对齐，以最大限度地减少域发散和半监督培训，以进一步提高性能。此外，我们建议通过嘈杂的标签校正熔断从多个模型预测的标签。我们对挑战验证排行榜的结果表明，我们无人监督的方法取得了有前途的与科技分割性能，平均骰子得分为0.8261 $ \ PM $ 0.0416;肿瘤的平均骰子值为0.8302 $ \ PM $ 0.0772。这与基于弱监督的方法相当。

translated by 谷歌翻译

Enhancing Data Diversity for Self-training Based Unsupervised Cross-modality Vestibular Schwannoma and Cochlea Segmentation

Han Liu , Yubo Fan , Benoit M. Dawant

分类：计算机视觉

2022-09-23

自动分割前庭造型瘤（VS）和来自磁共振成像（MRI）的耳蜗可以促进与治疗计划。无监督的分割方法已显示出令人鼓舞的结果，而无需耗时且费力的手动标记过程。在本文中，我们提出了一种在无监督域的适应设置中进行VS和耳蜗分割的方法。具体而言，我们首先开发了跨站点的跨模式未配对的图像翻译策略，以丰富合成数据的多样性。然后，我们设计了一种基于规则的离线增强技术，以进一步最大程度地减少域间隙。最后，我们采用一个自我训练的自我配置分割框架，以获得最终结果。在Crossmoda 2022验证排行榜上，我们的方法已获得竞争性与耳蜗细分性能，平均骰子得分为0.8178 $ \ pm $ 0.0803和0.8433 $ \ pm $ 0.0293。

translated by 谷歌翻译

LE-UDA: Label-efficient unsupervised domain adaptation for medical image segmentation

Ziyuan Zhao , Fangcheng Zhou , Kaixin Xu , Zeng Zeng , Cuntai Guan , S. Kevin Zhou

分类：人工智能 | 计算机视觉

2022-12-05

While deep learning methods hitherto have achieved considerable success in medical image segmentation, they are still hampered by two limitations: (i) reliance on large-scale well-labeled datasets, which are difficult to curate due to the expert-driven and time-consuming nature of pixel-level annotations in clinical practices, and (ii) failure to generalize from one domain to another, especially when the target domain is a different modality with severe domain shifts. Recent unsupervised domain adaptation~(UDA) techniques leverage abundant labeled source data together with unlabeled target data to reduce the domain gap, but these methods degrade significantly with limited source annotations. In this study, we address this underexplored UDA problem, investigating a challenging but valuable realistic scenario, where the source domain not only exhibits domain shift~w.r.t. the target domain but also suffers from label scarcity. In this regard, we propose a novel and generic framework called ``Label-Efficient Unsupervised Domain Adaptation"~(LE-UDA). In LE-UDA, we construct self-ensembling consistency for knowledge transfer between both domains, as well as a self-ensembling adversarial learning module to achieve better feature alignment for UDA. To assess the effectiveness of our method, we conduct extensive experiments on two different tasks for cross-modality segmentation between MRI and CT images. Experimental results demonstrate that the proposed LE-UDA can efficiently leverage limited source labels to improve cross-domain segmentation performance, outperforming state-of-the-art UDA approaches in the literature. Code is available at: https://github.com/jacobzhaoziyuan/LE-UDA.

translated by 谷歌翻译

Unsupervised Cross-Modality Domain Adaptation for Segmenting Vestibular Schwannoma and Cochlea with Data Augmentation and Model Ensemble

Hao Li , Dewei Hu , Qibang Zhu , Kathleen E. Larson , Huahong Zhang , Ipek Oguz

分类：计算机视觉

2021-09-24

磁共振图像（MRI）被广泛用于量化前庭切片瘤和耳蜗。最近，深度学习方法显示了用于分割这些结构的最先进的性能。但是，培训细分模型可能需要目标域中的手动标签，这是昂贵且耗时的。为了克服这个问题，域的适应是一种有效的方法，可以利用来自源域的信息来获得准确的分割，而无需在目标域中进行手动标签。在本文中，我们提出了一个无监督的学习框架，以分割VS和耳蜗。我们的框架从对比增强的T1加权（CET1-W）MRI及其标签中利用信息，并为T2加权MRIS产生分割，而目标域中没有任何标签。我们首先应用了一个发电机来实现图像到图像翻译。接下来，我们从不同模型的集合中集合输出以获得最终的分割。为了应对来自不同站点/扫描仪的MRI，我们在培训过程中应用了各种“在线”增强量，以更好地捕获几何变异性以及图像外观和质量的可变性。我们的方法易于构建和产生有希望的分割，在验证集中，VS和耳蜗的平均骰子得分分别为0.7930和0.7432。

translated by 谷歌翻译

Contrastive Semi-supervised Learning for Domain Adaptive Segmentation Across Similar Anatomical Structures

Ran Gu , Jingyang Zhang , Guotai Wang , Wenhui Lei , Tao Song , Xiaofan Zhang , Kang Li , Shaoting Zhang

分类：计算机视觉

2022-08-18

卷积神经网络（CNN）已经实现了医学图像细分的最先进性能，但需要大量的手动注释进行培训。半监督学习（SSL）方法有望减少注释的要求，但是当数据集大小和注释图像的数量较小时，它们的性能仍然受到限制。利用具有类似解剖结构的现有注释数据集来协助培训，这有可能改善模型的性能。然而，由于目标结构的外观不同甚至成像方式，跨解剖结构域的转移进一步挑战。为了解决这个问题，我们提出了跨解剖结构域适应（CS-CADA）的对比度半监督学习，该学习适应一个模型以在目标结构域中细分相似的结构，这仅需要通过利用一组现有现有的现有的目标域中的限制注释源域中相似结构的注释图像。我们使用特定领域的批归归量表（DSBN）来单独地标准化两个解剖域的特征图，并提出跨域对比度学习策略，以鼓励提取域不变特征。它们被整合到一个自我兼容的均值老师（SE-MT）框架中，以利用具有预测一致性约束的未标记的目标域图像。广泛的实验表明，我们的CS-CADA能够解决具有挑战性的跨解剖结构域移位问题，从而在视网膜血管图像和心脏MR图像的帮助下，在X射线图像中准确分割冠状动脉，并借助底底图像，分别仅给定目标域中的少量注释。

translated by 谷歌翻译

CrossMoDA 2021 challenge: Benchmark of Cross-Modality Domain Adaptation techniques for Vestibular Schwnannoma and Cochlea Segmentation

Reuben Dorent , Aaron Kujawa , Marina Ivory , Spyridon Bakas , Nicola Rieke , Samuel Joutard , Ben Glocker , Jorge Cardoso , Marc Modat , Kayhan Batmanghelich

分类：计算机视觉

2022-01-08

域适应（DA）最近在医学影像社区提出了强烈的兴趣。虽然已经提出了大量DA技术进行了用于图像分割，但大多数这些技术已经在私有数据集或小公共可用数据集上验证。此外，这些数据集主要解决了单级问题。为了解决这些限制，与第24届医学图像计算和计算机辅助干预（Miccai 2021）结合第24届国际会议组织交叉模态域适应（Crossmoda）挑战。 Crossmoda是无监督跨型号DA的第一个大型和多级基准。挑战的目标是分割参与前庭施瓦新瘤（VS）的后续和治疗规划的两个关键脑结构：VS和Cochleas。目前，使用对比度增强的T1（CET1）MRI进行VS患者的诊断和监测。然而，使用诸如高分辨率T2（HRT2）MRI的非对比度序列越来越感兴趣。因此，我们创建了一个无人监督的跨模型分段基准。训练集提供注释CET1（n = 105）和未配对的非注释的HRT2（n = 105）。目的是在测试集中提供的HRT2上自动对HRT2进行单侧VS和双侧耳蜗分割（n = 137）。共有16支球队提交了评估阶段的算法。顶级履行团队达成的表现水平非常高（最佳中位数骰子 - vs：88.4％; Cochleas：85.7％）并接近完全监督（中位数骰子 - vs：92.5％;耳蜗：87.7％）。所有顶级执行方法都使用图像到图像转换方法将源域图像转换为伪目标域图像。然后使用这些生成的图像和为源图像提供的手动注释进行培训分割网络。

translated by 谷歌翻译

An Unpaired Cross-modality Segmentation Framework Using Data Augmentation and Hybrid Convolutional Networks for Segmenting Vestibular Schwannoma and Cochlea

Yuzhou Zhuang , Hong Liu , Enmin Song , Coskun Cetinkaya , Chih-Cheng Hung

分类：计算机视觉

2022-11-28

The crossMoDA challenge aims to automatically segment the vestibular schwannoma (VS) tumor and cochlea regions of unlabeled high-resolution T2 scans by leveraging labeled contrast-enhanced T1 scans. The 2022 edition extends the segmentation task by including multi-institutional scans. In this work, we proposed an unpaired cross-modality segmentation framework using data augmentation and hybrid convolutional networks. Considering heterogeneous distributions and various image sizes for multi-institutional scans, we apply the min-max normalization for scaling the intensities of all scans between -1 and 1, and use the voxel size resampling and center cropping to obtain fixed-size sub-volumes for training. We adopt two data augmentation methods for effectively learning the semantic information and generating realistic target domain scans: generative and online data augmentation. For generative data augmentation, we use CUT and CycleGAN to generate two groups of realistic T2 volumes with different details and appearances for supervised segmentation training. For online data augmentation, we design a random tumor signal reducing method for simulating the heterogeneity of VS tumor signals. Furthermore, we utilize an advanced hybrid convolutional network with multi-dimensional convolutions to adaptively learn sparse inter-slice information and dense intra-slice information for accurate volumetric segmentation of VS tumor and cochlea regions in anisotropic scans. On the crossMoDA2022 validation dataset, our method produces promising results and achieves the mean DSC values of 72.47% and 76.48% and ASSD values of 3.42 mm and 0.53 mm for VS tumor and cochlea regions, respectively.

translated by 谷歌翻译

Using Out-of-the-Box Frameworks for Contrastive Unpaired Image Translation for Vestibular Schwannoma and Cochlea Segmentation: An approach for the crossMoDA Challenge

Jae Won Choi

分类：计算机视觉

2021-10-02

本研究的目的是申请和评估跨多媒体挑战的开箱即用的深度学习框架。我们使用从对比度增强的T1 MR到高分辨率T2 MR的域改性的剪切模型。作为数据增强，我们生成了带有较低信号强度的前庭施瓦莫纳的额外图像。对于分段任务，我们使用NNU-Net框架。我们的最终提交在验证阶段实现了0.8299的平均骰子分数，测试阶段0.8253。我们的方法在Crossmoda挑战中排名第3。

translated by 谷歌翻译

Uncertainty-Guided Mutual Consistency Learning for Semi-Supervised Medical Image Segmentation

Yichi Zhang , Qingcheng Liao , Rushi Jiao , Jicong Zhang

分类：计算机视觉

2021-12-05

医学图像分割是许多临床方法的基本和关键步骤。半监督学习已被广泛应用于医学图像分割任务，因为它减轻了收购专家审查的注释的沉重负担，并利用了更容易获得的未标记数据的优势。虽然已被证明是通过实施不同分布下的预测的不变性的一致性学习，但现有方法无法充分利用来自未标记数据的区域级形状约束和边界级距离信息。在本文中，我们提出了一种新颖的不确定性引导的相互一致学习框架，通过将任务中的一致性学习与自组合和交叉任务一致性学习从任务级正则化的最新预测集成了任务内的一致性学习，从而有效地利用了未标记的数据利用几何形状信息。该框架是由模型的估计分割不确定性指导，以便为一致性学习选择相对某些预测，以便有效地利用来自未标记数据的更可靠的信息。我们在两个公开的基准数据集中广泛地验证了我们提出的方法：左心房分割（LA）数据集和大脑肿瘤分割（BRATS）数据集。实验结果表明，我们的方法通过利用未标记的数据和优于现有的半监督分段方法来实现性能增益。

translated by 谷歌翻译

Uncertainty-aware Self-ensembling Model for Semi-supervised 3D Left Atrium Segmentation

Lequan Yu , Shujun Wang , Xiaomeng Li , Chi-Wing Fu , Pheng-Ann Heng

分类：

2019-07-16

Training deep convolutional neural networks usually requires a large amount of labeled data. However, it is expensive and timeconsuming to annotate data for medical image segmentation tasks. In this paper, we present a novel uncertainty-aware semi-supervised framework for left atrium segmentation from 3D MR images. Our framework can effectively leverage the unlabeled data by encouraging consistent predictions of the same input under different perturbations. Concretely, the framework consists of a student model and a teacher model, and the student model learns from the teacher model by minimizing a segmentation loss and a consistency loss with respect to the targets of the teacher model. We design a novel uncertainty-aware scheme to enable the student model to gradually learn from the meaningful and reliable targets by exploiting the uncertainty information. Experiments show that our method achieves high performance gains by incorporating the unlabeled data. Our method outperforms the state-of-the-art semi-supervised methods, demonstrating the potential of our framework for the challenging semi-supervised problems 3 .

translated by 谷歌翻译

Cross-Domain Object Detection via Adaptive Self-Training

Yu-Jhe Li , Xiaoliang Dai , Chih-Yao Ma , Yen-Cheng Liu , Kan Chen , Bichen Wu , Zijian He , Kris Kitani , Peter Vadja

分类：计算机视觉

2021-11-25

我们解决对象检测中的域适应问题，其中在源（带有监控）和目标域（没有监督的域的域名）之间存在显着的域移位。作为广泛采用的域适应方法，自培训教师学生框架（学生模型从教师模型生成的伪标签学习）在目标域中产生了显着的精度增益。然而，由于其偏向源域，它仍然存在从教师产生的大量低质量伪标签（例如，误报）。为了解决这个问题，我们提出了一种叫做自适应无偏见教师（AUT）的自我训练框架，利用对抗的对抗学习和弱强的数据增强来解决域名。具体而言，我们在学生模型中使用特征级的对抗性培训，确保从源和目标域中提取的功能共享类似的统计数据。这使学生模型能够捕获域不变的功能。此外，我们在目标领域的教师模型和两个域上的学生模型之间应用了弱强的增强和相互学习。这使得教师模型能够从学生模型中逐渐受益，而不会遭受域移位。我们展示了AUT通过大边距显示所有现有方法甚至Oracle（完全监督）模型的优势。例如，我们在有雾的城市景观（Clipart1k）上实现了50.9％（49.3％）地图，分别比以前的最先进和甲骨文高9.2％（5.2％）和8.2％（11.0％）

translated by 谷歌翻译

SSDA-YOLO: Semi-supervised Domain Adaptive YOLO for Cross-Domain Object Detection

Huayi Zhou , Fei Jiang , Hongtao Lu

分类：计算机视觉

2022-11-04

Domain adaptive object detection (DAOD) aims to alleviate transfer performance degradation caused by the cross-domain discrepancy. However, most existing DAOD methods are dominated by computationally intensive two-stage detectors, which are not the first choice for industrial applications. In this paper, we propose a novel semi-supervised domain adaptive YOLO (SSDA-YOLO) based method to improve cross-domain detection performance by integrating the compact one-stage detector YOLOv5 with domain adaptation. Specifically, we adapt the knowledge distillation framework with the Mean Teacher model to assist the student model in obtaining instance-level features of the unlabeled target domain. We also utilize the scene style transfer to cross-generate pseudo images in different domains for remedying image-level differences. In addition, an intuitive consistency loss is proposed to further align cross-domain predictions. We evaluate our proposed SSDA-YOLO on public benchmarks including PascalVOC, Clipart1k, Cityscapes, and Foggy Cityscapes. Moreover, to verify its generalization, we conduct experiments on yawning detection datasets collected from various classrooms. The results show considerable improvements of our method in these DAOD tasks. Our code is available on \url{https://github.com/hnuzhy/SSDA-YOLO}.

translated by 谷歌翻译

PA-Seg: Learning from Point Annotations for 3D Medical Image Segmentation using Contextual Regularization and Cross Knowledge Distillation

Shuwei Zhai , Guotai Wang , Xiangde Luo , Qiang Yue , Kang Li , Shaoting Zhang

分类：计算机视觉

2022-08-11

3D医学图像分割中卷积神经网络（CNN）的成功取决于大量的完全注释的3D体积，用于训练，这些训练是耗时且劳动力密集的。在本文中，我们建议在3D医学图像中只有7个点注释分段目标，并设计一个两阶段弱监督的学习框架PA-SEG。在第一阶段，我们采用大地距离变换来扩展种子点以提供更多的监督信号。为了在培训期间进一步处理未注释的图像区域，我们提出了两种上下文正则化策略，即多视图条件随机场（MCRF）损失和差异最小化（VM）损失，其中第一个鼓励具有相似特征的像素以具有一致的标签，第二个分别可以最大程度地减少分段前景和背景的强度差异。在第二阶段，我们使用在第一阶段预先训练的模型获得的预测作为伪标签。为了克服伪标签中的噪音，我们引入了一种自我和交叉监测（SCM）策略，该策略将自我训练与跨知识蒸馏（CKD）结合在主要模型和辅助模型之间，该模型从彼此生成的软标签中学习。在公共数据集的前庭造型瘤（VS）分割和脑肿瘤分割（BRAT）上的实验表明，我们在第一阶段训练的模型优于现有的最先进的弱监督方法，并在使用SCM之后，以提供其他scm来获得其他额外的scm培训，与Brats数据集中完全有监督的对应物相比，该模型可以实现竞争性能。

translated by 谷歌翻译

ACT: Semi-supervised Domain-adaptive Medical Image Segmentation with Asymmetric Co-training

Xiaofeng Liu , Fangxu Xing , Nadya Shusharina , Ruth Lim , C-C Jay Kuo , Georges El Fakhri , Jonghye Woo

分类：计算机视觉

2022-06-05

通过在未标记的目标域中应用良好的模型，通过对标记的源域的监督应用了良好的模型，已经通过对未标记的目标域应用了良好的模型，对无监督的域适应（UDA）进行了大量探索，以减轻源和目标域之间的域变化。然而，最近的文献表明，在存在重大领域变化的情况下，性能仍然远非令人满意。但是，由于绩效的实质性增长，划定一些目标样本通常是易于管理的，尤其是值得的。受此启发的启发，我们旨在开发半监督域的适应性（SSDA）进行医学图像分割，这在很大程度上没有被置于脑海中。因此，除了以统一的方式使用未标记的目标数据外，我们建议利用标记的源和目标域数据。具体而言，我们提出了一种新型的不对称共同训练（ACT）框架，以整合这些子集并避免源域数据的统治。遵循分歧和纠纷策略，我们将SSDA的标签监督分为两个不对称的子任务，包括半监督学习（SSL）和UDA，并利用两个细分市场的不同知识来考虑在两个部分之间的区别，以考虑到不同的知识。来源和目标标签监督。然后，在两个模块中学习的知识与ACT自适应地整合，通过基于置信度的伪标签进行迭代教学。此外，伪标签噪声与指数混合衰减方案可以很好地控制，以进行平滑传播。使用BRATS18数据库进行跨模式脑肿瘤MRI分割任务的实验表明，即使标记有限的目标样本，ACT也对UDA和最先进的SSDA方法产生了明显的改进，并接近了受监督的联合训练的“上限” 。

translated by 谷歌翻译

Unsupervised Domain Adaptation through Shape Modeling for Medical Image Segmentation

Yuan Yao , Fengze Liu , Zongwei Zhou , Yan Wang , Wei Shen , Alan Yuille , Yongyi Lu

分类：计算机视觉

2022-07-06

形状信息在医学图像中分割器官方面是强大而有价值的先验。但是，当前大多数基于深度学习的分割算法尚未考虑形状信息，这可能导致对纹理的偏见。我们旨在明确地对形状进行建模并使用它来帮助医疗图像分割。先前的方法提出了基于变异的自动编码器（VAE）模型，以了解特定器官的形状分布，并通过将其拟合到学习的形状分布中来自动评估分割预测的质量。我们旨在将VAE纳入当前的分割管道中。具体而言，我们提出了一种基于伪损失和在教师学习范式下的VAE重建损失的新的无监督域适应管道。两种损失都是同时优化的，作为回报，提高了分割任务性能。对三个公共胰腺细分数据集以及两个内部胰腺细分数据集进行了广泛的实验，显示了一致的改进，骰子分数中至少有2.8分的增益，这表明了我们方法在挑战无监督的域适应性方案中对医学图像分割的有效性。我们希望这项工作能够在医学成像中提高形状分析和几何学习。

translated by 谷歌翻译

Unsupervised domain adaptation for clinician pose estimation and instance segmentationin the operating room

Vinkle Srivastav , Afshin Gangi , Nicolas Padoy

分类：计算机视觉

2021-08-26

临床医生在手术室（OR）的细粒度定位是设计新一代或支持系统的关键组成部分。需要基于人像素的分段和身体视觉计算机的计算机视觉模型检测，以更好地了解OR的临床活动和空间布局。这是具有挑战性的，这不仅是因为或图像与传统视觉数据集有很大不同，还因为在隐私问题上很难收集和生成数据和注释。为了解决这些问题，我们首先研究了如何在低分辨率图像上进行姿势估计和实例分割，而下采样因子从1x到12倍进行下采样因子。其次，为了解决域的偏移和缺乏注释，我们提出了一种新型的无监督域适应方法，称为适配器，以使模型从野外标记的源域中适应统计上不同的未标记目标域。我们建议在未标记的目标域图像的不同增强上利用明确的几何约束，以生成准确的伪标签，并使用这些伪标签在自我训练框架中对高分辨率和低分辨率或图像进行训练。此外，我们提出了分离的特征归一化，以处理统计上不同的源和目标域数据。对两个或数据集MVOR+和TUM-或TUM-或测试的详细消融研究的广泛实验结果表明，我们方法对强构建的基线的有效性，尤其是在低分辨率的隐私性或图像上。最后，我们在大规模可可数据集上显示了我们作为半监督学习方法（SSL）方法的普遍性，在这里，我们获得了可比较的结果，而对经过100％标记的监督培训的模型的标签监督只有1％。。

translated by 谷歌翻译

TimeMatch: Unsupervised Cross-Region Adaptation by Temporal Shift Estimation

Joachim Nyborg , Charlotte Pelletier , Sébastien Lefèvre , Ira Assent

分类：计算机视觉 | 机器学习

2021-11-04

深度学习模型的最新发展，捕捉作物物候的复杂的时间模式有卫星图像时间序列（坐在），大大高级作物分类。然而，当施加到目标区域从训练区空间上不同的，这些模型差没有任何目标标签由于作物物候区域之间的时间位移进行。为了解决这个无人监督跨区域适应环境，现有方法学域不变特征没有任何目标的监督，而不是时间偏移本身。因此，这些技术提供了SITS只有有限的好处。在本文中，我们提出TimeMatch，一种新的无监督领域适应性方法SITS直接占时移。 TimeMatch由两个部分组成：1）时间位移的估计，其估计具有源极训练模型的未标记的目标区域的时间偏移，和2）TimeMatch学习，它结合了时间位移估计与半监督学习到一个分类适应未标记的目标区域。我们还引进了跨区域适应的开放式访问的数据集与来自欧洲四个不同区域的旁边。在此数据集，我们证明了TimeMatch优于所有竞争的方法，通过11％的在五个不同的适应情景F1-得分，创下了新的国家的最先进的跨区域适应性。

translated by 谷歌翻译

Online pseudo labeling for polyp segmentation with momentum networks

Toan Pham Van , Linh Bao Doan , Thanh Tung Nguyen , Duc Trung Tran , Quan Van Nguyen , Dinh Viet Sang

分类：计算机视觉

2022-09-29

语义分割是开发医学图像诊断系统的重要任务。但是，构建注释的医疗数据集很昂贵。因此，在这种情况下，半监督方法很重要。在半监督学习中，标签的质量在模型性能中起着至关重要的作用。在这项工作中，我们提出了一种新的伪标签策略，可提高用于培训学生网络的伪标签的质量。我们遵循多阶段的半监督训练方法，该方法在标记的数据集上训练教师模型，然后使用训练有素的老师将伪标签渲染用于学生培训。通过这样做，伪标签将被更新，并且随着培训的进度更加精确。上一个和我们的方法之间的关键区别在于，我们在学生培训过程中更新教师模型。因此，在学生培训过程中，提高了伪标签的质量。我们还提出了一种简单但有效的策略，以使用动量模型来提高伪标签的质量 - 训练过程中原始模型的慢复制版本。通过应用动量模型与学生培训期间的重新渲染伪标签相结合，我们在五个数据集中平均达到了84.1％的骰子分数（即Kvarsir，CVC-ClinicdB，Etis-laribpolypdb，cvc-colondb，cvc-colondb，cvc-colondb和cvc-300）和CVC-300）只有20％的数据集用作标记数据。我们的结果超过了3％的共同实践，甚至在某些数据集中取得了完全监督的结果。我们的源代码和预培训模型可在https://github.com/sun-asterisk-research/online学习SSL上找到

translated by 谷歌翻译

Frequency Spectrum Augmentation Consistency for Domain Adaptive Object Detection

Rui Liu , Yahong Han , Yaowei Wang , Qi Tian

分类：计算机视觉 | 人工智能

2021-12-16

域自适应对象检测（DAOD）旨在改善探测和测试数据来自不同域时的探测器的泛化能力。考虑到显着的域间隙，一些典型方法，例如基于Conscangan的方法，采用中间域来逐步地桥接源域和靶域。然而，基于Conscangan的中间域缺少对象检测的PIX或实例级监控，这导致语义差异。为了解决这个问题，在本文中，我们介绍了具有四种不同的低频滤波器操作的频谱增强一致性（FSAC）框架。通过这种方式，我们可以获得一系列增强数据作为中间域。具体地，我们提出了一种两级优化框架。在第一阶段，我们利用所有原始和增强的源数据来训练对象检测器。在第二阶段，采用增强源和目标数据，具有伪标签来执行预测一致性的自培训。使用均值优化的教师模型用于进一步修改伪标签。在实验中，我们分别评估了我们在单一和复合目标DAOD上的方法，这证明了我们方法的有效性。

translated by 谷歌翻译

MTTrans: Cross-Domain Object Detection with Mean-Teacher Transformer

Jinze Yu , Jiaming Liu , Xiaobao Wei , Haoyi Zhou , Yohei Nakata , Denis Gudovskiy , Tomoyuki Okuno , Jianxin Li , Kurt Keutzer , Shanghang Zhang

分类：计算机视觉

2022-05-03

最近，检测变压器（DETR）是一种端到端对象检测管道，已达到有希望的性能。但是，它需要大规模标记的数据，并遭受域移位，尤其是当目标域中没有标记的数据时。为了解决这个问题，我们根据平均教师框架MTTRANS提出了一个端到端的跨域检测变压器，该变压器可以通过伪标签充分利用对象检测训练中未标记的目标域数据和在域之间的传输知识中的传输知识。我们进一步提出了综合的多级特征对齐方式，以改善由平均教师框架生成的伪标签，利用跨尺度的自我注意事项机制在可变形的DETR中。图像和对象特征在本地，全局和实例级别与基于域查询的特征对齐（DQFA），基于BI级的基于图形的原型对齐（BGPA）和Wine-Wise图像特征对齐（TIFA）对齐。另一方面，未标记的目标域数据伪标记，可用于平均教师框架的对象检测训练，可以导致更好的特征提取和对齐。因此，可以根据变压器的架构对迭代和相互优化的平均教师框架和全面的多层次特征对齐。广泛的实验表明，我们提出的方法在三个领域适应方案中实现了最先进的性能，尤其是SIM10K到CityScapes方案的结果，从52.6地图提高到57.9地图。代码将发布。

translated by 谷歌翻译