最近基于深度学习的医学图像注册方法实现了与传统优化算法在减少的运行时间时具有竞争力的结果。但是,深度神经网络通常需要大量标记的培训数据,并且容易受到培训和测试数据之间的领域变化。尽管基于按键的注册可以减轻典型的强度移位,但由于不同的视野,这些方法仍然遭受几何域移位。作为一种补救措施,在这项工作中,我们提出了一种用于图像注册的几何结构域适应性的新方法,将模型从标记的源调整为未标记的目标域。我们以基于按键的注册模型为基础,将用于几何特征学习的图形卷积与循环信念优化相结合,并提议通过自我增压来减少域的转移。为此,我们将模型嵌入了卑鄙的教师范式中。我们将平均教师扩展到这种情况下,通过1)调整随机增强方案和2)将学习的特征提取与可区分优化相结合。这使我们能够通过对学习学生和时间平均的教师模型的一致预测来指导未标记的目标域中的学习过程。我们评估了在两个具有挑战性的适应方案(dir-lab 4d ct to copd,copd to copd to Learn2Reg)下呼气到肺CT注册的方法。我们的方法一致地将基线模型提高了50%/47%,甚至匹配了对目标数据训练的模型的准确性。源代码可在https://github.com/multimodallearning/registration-da-mean-teacher上获得。
translated by 谷歌翻译
迄今为止,迄今为止,众所周知,对广泛的互补临床相关任务进行了全面比较了医学图像登记方法。这限制了采用研究进展,以防止竞争方法的公平基准。在过去五年内已经探讨了许多新的学习方法,但优化,建筑或度量战略的问题非常适合仍然是开放的。 Learn2reg涵盖了广泛的解剖学:脑,腹部和胸部,方式:超声波,CT,MRI,群体:患者内部和患者内部和监督水平。我们为3D注册的培训和验证建立了较低的入境障碍,这帮助我们从20多个独特的团队中汇编了65多个单独的方法提交的结果。我们的互补度量集,包括稳健性,准确性,合理性和速度,使得能够独特地位了解当前的医学图像登记现状。进一步分析监督问题的转移性,偏见和重要性,主要是基于深度学习的方法的优越性,并将新的研究方向开放到利用GPU加速的常规优化的混合方法。
translated by 谷歌翻译
虽然姿势估计是一项重要的计算机视觉任务,但它需要昂贵的注释,并且遭受了域转移的困扰。在本文中,我们调查了域自适应2D姿势估计的问题,这些估计会传输有关合成源域的知识,而无需监督。尽管最近已经提出了几个领域的自适应姿势估计模型,但它们不是通用的,而是专注于人姿势或动物姿势估计,因此它们的有效性在某种程度上限于特定情况。在这项工作中,我们提出了一个统一的框架,该框架可以很好地推广到各种领域自适应姿势估计问题上。我们建议使用输入级别和输出级线索(分别是像素和姿势标签)对齐表示,这有助于知识转移从源域到未标记的目标域。我们的实验表明,我们的方法在各个领域变化下实现了最先进的性能。我们的方法的表现优于现有的姿势估计基线,最高4.5%(PP),手部姿势估算高达7.4 pp,狗的动物姿势估计高达4.8 pp,而绵羊的姿势估计为3.3 pp。这些结果表明,我们的方法能够减轻各种任务甚至看不见的域和物体的转移(例如,在马匹上训练并在狗上进行了测试)。我们的代码将在以下网址公开可用:https://github.com/visionlearninggroup/uda_poseestimation。
translated by 谷歌翻译
While deep learning methods hitherto have achieved considerable success in medical image segmentation, they are still hampered by two limitations: (i) reliance on large-scale well-labeled datasets, which are difficult to curate due to the expert-driven and time-consuming nature of pixel-level annotations in clinical practices, and (ii) failure to generalize from one domain to another, especially when the target domain is a different modality with severe domain shifts. Recent unsupervised domain adaptation~(UDA) techniques leverage abundant labeled source data together with unlabeled target data to reduce the domain gap, but these methods degrade significantly with limited source annotations. In this study, we address this underexplored UDA problem, investigating a challenging but valuable realistic scenario, where the source domain not only exhibits domain shift~w.r.t. the target domain but also suffers from label scarcity. In this regard, we propose a novel and generic framework called ``Label-Efficient Unsupervised Domain Adaptation"~(LE-UDA). In LE-UDA, we construct self-ensembling consistency for knowledge transfer between both domains, as well as a self-ensembling adversarial learning module to achieve better feature alignment for UDA. To assess the effectiveness of our method, we conduct extensive experiments on two different tasks for cross-modality segmentation between MRI and CT images. Experimental results demonstrate that the proposed LE-UDA can efficiently leverage limited source labels to improve cross-domain segmentation performance, outperforming state-of-the-art UDA approaches in the literature. Code is available at: https://github.com/jacobzhaoziyuan/LE-UDA.
translated by 谷歌翻译
最近3D点云学习一直是计算机视觉和自主驾驶中的热门话题。由于事实上,难以手动注释一个定性的大型3D点云数据集,无监督的域适应(UDA)在3D点云学习中流行,旨在将学习知识从标记的源域转移到未标记的目标领域。然而,具有简单学习模型引起的域转移引起的泛化和重建误差是不可避免的,这基本上阻碍了模型的学习良好表示的能力。为了解决这些问题,我们提出了一个结束到底自组合网络(SEN),用于3D云域适应任务。一般来说,我们的森林度假前的含义教师和半监督学习的优势,并引入了软的分类损失和一致性损失,旨在实现一致的泛化和准确的重建。在森中,学生网络以具有监督的学习和自我监督学习的协作方式,教师网络进行时间一致性,以学习有用的表示,并确保点云重建的质量。在几个3D点云UDA基准上的广泛实验表明,我们的SEN在分类和分段任务中表现出最先进的方法。此外,进一步的分析表明,我们的森也实现了更好的重建结果。
translated by 谷歌翻译
深度学习模型的最新发展,捕捉作物物候的复杂的时间模式有卫星图像时间序列(坐在),大大高级作物分类。然而,当施加到目标区域从训练区空间上不同的,这些模型差没有任何目标标签由于作物物候区域之间的时间位移进行。为了解决这个无人监督跨区域适应环境,现有方法学域不变特征没有任何目标的监督,而不是时间偏移本身。因此,这些技术提供了SITS只有有限的好处。在本文中,我们提出TimeMatch,一种新的无监督领域适应性方法SITS直接占时移。 TimeMatch由两个部分组成:1)时间位移的估计,其估计具有源极训练模型的未标记的目标区域的时间偏移,和2)TimeMatch学习,它结合了时间位移估计与半监督学习到一个分类适应未标记的目标区域。我们还引进了跨区域适应的开放式访问的数据集与来自欧洲四个不同区域的旁边。在此数据集,我们证明了TimeMatch优于所有竞争的方法,通过11%的在五个不同的适应情景F1-得分,创下了新的国家的最先进的跨区域适应性。
translated by 谷歌翻译
我们的目标是在新的成像条件下(例如,户外)在新的成像条件下(例如,在非常不同的条件下拍摄的图像(例如室内)时(室内),在新成像条件(例如室外)下(例如室外),在新的成像条件下(例如室外)进行分割的像素级掩盖的性能。在现实世界中,重要的是在各种成像条件下进行培训的模型都必须运行。但是,它们被现有标记的手数据集涵盖的变化是有限的。因此,有必要调整在标记的图像(源)上训练的模型,以使其具有看不见的成像条件的未标记图像(目标)。尽管已经为这两项任务开发了自我训练域的适应方法(即以自我监督的方式学习以自我监督的方式学习),但当目标图像的预测嘈杂时,它们的训练可能会降低性能。为了避免这种情况,至关重要的是,在自我训练过程中,为嘈杂的预测分配了较低的重要性(置信度)。在本文中,我们建议利用两个预测的差异来估计目标图像对这两个任务的信心。这些预测来自两个单独的网络,它们的差异有助于确定嘈杂的预测。为了将我们提出的信心估计纳入自我训练中,我们提出了一个教师学生的框架,在该框架中,两个网络(教师)为网络(学生)提供自我培训的监督,并通过知识蒸馏从学生那里学习教师。我们的实验表明,在具有不同照明,握住对象,背景和摄像机观点的适应设置中,其优于最先进的方法。与最新的对抗适应方法相比,我们的方法在HO3D上的多任务得分提高了4%。我们还验证了我们在室外成像条件下快速变化的Ego4d的方法。
translated by 谷歌翻译
这项工作调查了鲁棒优化运输(OT)的形状匹配。具体而言,我们表明最近的OT溶解器改善了基于优化和深度学习方法的点云登记,以实惠的计算成本提高了准确性。此手稿从现代OT理论的实际概述开始。然后,我们为使用此框架进行形状匹配的主要困难提供解决方案。最后,我们展示了在广泛的具有挑战性任务上的运输增强的注册模型的性能:部分形状的刚性注册;基蒂数据集的场景流程估计;肺血管树的非参数和肺部血管树。我们基于OT的方法在准确性和可扩展性方面实现了基蒂的最先进的结果,并为挑战性的肺登记任务。我们还释放了PVT1010,这是一个新的公共数据集,1,010对肺血管树,具有密集的采样点。此数据集提供了具有高度复杂形状和变形的点云登记算法的具有挑战性用例。我们的工作表明,强大的OT可以为各种注册模型进行快速预订和微调,从而为计算机视觉工具箱提供新的键方法。我们的代码和数据集可在线提供:https://github.com/uncbiag/robot。
translated by 谷歌翻译
形状信息在医学图像中分割器官方面是强大而有价值的先验。但是,当前大多数基于深度学习的分割算法尚未考虑形状信息,这可能导致对纹理的偏见。我们旨在明确地对形状进行建模并使用它来帮助医疗图像分割。先前的方法提出了基于变异的自动编码器(VAE)模型,以了解特定器官的形状分布,并通过将其拟合到学习的形状分布中来自动评估分割预测的质量。我们旨在将VAE纳入当前的分割管道中。具体而言,我们提出了一种基于伪损失和在教师学习范式下的VAE重建损失的新的无监督域适应管道。两种损失都是同时优化的,作为回报,提高了分割任务性能。对三个公共胰腺细分数据集以及两个内部胰腺细分数据集进行了广泛的实验,显示了一致的改进,骰子分数中至少有2.8分的增益,这表明了我们方法在挑战无监督的域适应性方案中对医学图像分割的有效性。我们希望这项工作能够在医学成像中提高形状分析和几何学习。
translated by 谷歌翻译
学习估计对象姿势通常需要地面真理(GT)标签,例如CAD模型和绝对级对象姿势,这在现实世界中获得昂贵且费力。为了解决这个问题,我们为类别级对象姿势估计提出了一个无监督的域适应(UDA),称为\ textbf {uda-cope}。受到最近的多模态UDA技术的启发,所提出的方法利用教师学生自我监督的学习方案来训练姿势估计网络而不使用目标域标签。我们还在预测归一化对象坐标空间(NOCS)地图和观察点云之间引入了双向滤波方法,不仅使我们的教师网络更加强大地对目标域,而且为学生网络培训提供更可靠的伪标签。广泛的实验结果表明了我们所提出的方法的有效性,可以定量和定性。值得注意的是,在不利用目标域GT标签的情况下,我们所提出的方法可以实现与依赖于GT标签的现有方法相当或有时优越的性能。
translated by 谷歌翻译
最小化分布匹配损失是在图像分类的背景下的域适应的原则方法。但是,在适应分割网络中,它基本上被忽略,目前由对抗模型主导。我们提出了一系列损失函数,鼓励在网络输出空间中直接核心密度匹配,直至从未标记的输入计算的一些几何变换。我们的直接方法而不是使用中间域鉴别器,而不是使用单一损失统一分发匹配和分段。因此,它通过避免额外的对抗步骤来简化分段适应,同时提高培训的质量,稳定性和效率。我们通过网络输出空间的对抗培训使我们对最先进的分段适应的方法并置。在对不同磁共振图像(MRI)方式相互调整脑细分的具有挑战性的任务中,我们的方法在准确性和稳定性方面取得了明显的结果。
translated by 谷歌翻译
临床医生在手术室(OR)的细粒度定位是设计新一代或支持系统的关键组成部分。需要基于人像素的分段和身体视觉计算机的计算机视觉模型检测,以更好地了解OR的临床活动和空间布局。这是具有挑战性的,这不仅是因为或图像与传统视觉数据集有很大不同,还因为在隐私问题上很难收集和生成数据和注释。为了解决这些问题,我们首先研究了如何在低分辨率图像上进行姿势估计和实例分割,而下采样因子从1x到12倍进行下采样因子。其次,为了解决域的偏移和缺乏注释,我们提出了一种新型的无监督域适应方法,称为适配器,以使模型从野外标记的源域中适应统计上不同的未标记目标域。我们建议在未标记的目标域图像的不同增强上利用明确的几何约束,以生成准确的伪标签,并使用这些伪标签在自我训练框架中对高分辨率和低分辨率或图像进行训练。此外,我们提出了分离的特征归一化,以处理统计上不同的源和目标域数据。对两个或数据集MVOR+和TUM-或TUM-或测试的详细消融研究的广泛实验结果表明,我们方法对强构建的基线的有效性,尤其是在低分辨率的隐私性或图像上。最后,我们在大规模可可数据集上显示了我们作为半监督学习方法(SSL)方法的普遍性,在这里,我们获得了可比较的结果,而对经过100%标记的监督培训的模型的标签监督只有1%。 。
translated by 谷歌翻译
运动估计是用于评估目标器官解剖学和功能的动态医学图像处理的基本步骤。然而,通过评估局部图像相似性通过评估局部图像相似性优化运动场的基于图像的运动估计方法,易于产生令人难以置信的估计,尤其是在大运动的情况下。在这项研究中,我们提供了一种新颖的稀疏密度(DSD)的运动估计框架,其包括两个阶段。在第一阶段,我们处理原始密集图像以提取稀疏地标以表示目标器官解剖拓扑,并丢弃对运动估计不必要的冗余信息。为此目的,我们介绍一个无监督的3D地标检测网络,以提取用于目标器官运动估计的空间稀疏但代表性的地标。在第二阶段,我们从两个不同时间点的两个图像的提取稀疏地标的稀疏运动位移得出。然后,我们通过将稀疏地标位移突出回致密图像域,呈现运动重建网络来构造运动场。此外,我们从我们的两级DSD框架中使用估计的运动场作为初始化,并提高轻量级且有效的迭代优化中的运动估计质量。我们分别评估了两种动态医学成像任务的方法,分别为模型心脏运动和肺呼吸运动。与现有的比较方法相比,我们的方法产生了出色的运动估计精度。此外,广泛的实验结果表明,我们的解决方案可以提取良好代表性解剖标志,而无需手动注释。我们的代码在线公开提供。
translated by 谷歌翻译
我们解决对象检测中的域适应问题,其中在源(带有监控)和目标域(没有监督的域的域名)之间存在显着的域移位。作为广泛采用的域适应方法,自培训教师学生框架(学生模型从教师模型生成的伪标签学习)在目标域中产生了显着的精度增益。然而,由于其偏向源域,它仍然存在从教师产生的大量低质量伪标签(例如,误报)。为了解决这个问题,我们提出了一种叫做自适应无偏见教师(AUT)的自我训练框架,利用对抗的对抗学习和弱强的数据增强来解决域名。具体而言,我们在学生模型中使用特征级的对抗性培训,确保从源和目标域中提取的功能共享类似的统计数据。这使学生模型能够捕获域不变的功能。此外,我们在目标领域的教师模型和两个域上的学生模型之间应用了弱强的增强和相互学习。这使得教师模型能够从学生模型中逐渐受益,而不会遭受域移位。我们展示了AUT通过大边距显示所有现有方法甚至Oracle(完全监督)模型的优势。例如,我们在有雾的城市景观(Clipart1k)上实现了50.9%(49.3%)地图,分别比以前的最先进和甲骨文高9.2%(5.2%)和8.2%(11.0%)
translated by 谷歌翻译
卷积神经网络(CNN)已经实现了医学图像细分的最先进性能,但需要大量的手动注释进行培训。半监督学习(SSL)方法有望减少注释的要求,但是当数据集大小和注释图像的数量较小时,它们的性能仍然受到限制。利用具有类似解剖结构的现有注释数据集来协助培训,这有可能改善模型的性能。然而,由于目标结构的外观不同甚至成像方式,跨解剖结构域的转移进一步挑战。为了解决这个问题,我们提出了跨解剖结构域适应(CS-CADA)的对比度半监督学习,该学习适应一个模型以在目标结构域中细分相似的结构,这仅需要通过利用一组现有现有的现有的目标域中的限制注释源域中相似结构的注释图像。我们使用特定领域的批归归量表(DSBN)来单独地标准化两个解剖域的特征图,并提出跨域对比度学习策略,以鼓励提取域不变特征。它们被整合到一个自我兼容的均值老师(SE-MT)框架中,以利用具有预测一致性约束的未标记的目标域图像。广泛的实验表明,我们的CS-CADA能够解决具有挑战性的跨解剖结构域移位问题,从而在视网膜血管图像和心脏MR图像的帮助下,在X射线图像中准确分割冠状动脉,并借助底底图像,分别仅给定目标域中的少量注释。
translated by 谷歌翻译
Deep learning has achieved notable success in 3D object detection with the advent of large-scale point cloud datasets. However, severe performance degradation in the past trained classes, i.e., catastrophic forgetting, still remains a critical issue for real-world deployment when the number of classes is unknown or may vary. Moreover, existing 3D class-incremental detection methods are developed for the single-domain scenario, which fail when encountering domain shift caused by different datasets, varying environments, etc. In this paper, we identify the unexplored yet valuable scenario, i.e., class-incremental learning under domain shift, and propose a novel 3D domain adaptive class-incremental object detection framework, DA-CIL, in which we design a novel dual-domain copy-paste augmentation method to construct multiple augmented domains for diversifying training distributions, thereby facilitating gradual domain adaptation. Then, multi-level consistency is explored to facilitate dual-teacher knowledge distillation from different domains for domain adaptive class-incremental learning. Extensive experiments on various datasets demonstrate the effectiveness of the proposed method over baselines in the domain adaptive class-incremental learning scenario.
translated by 谷歌翻译
Domain adaptive object detection (DAOD) aims to alleviate transfer performance degradation caused by the cross-domain discrepancy. However, most existing DAOD methods are dominated by computationally intensive two-stage detectors, which are not the first choice for industrial applications. In this paper, we propose a novel semi-supervised domain adaptive YOLO (SSDA-YOLO) based method to improve cross-domain detection performance by integrating the compact one-stage detector YOLOv5 with domain adaptation. Specifically, we adapt the knowledge distillation framework with the Mean Teacher model to assist the student model in obtaining instance-level features of the unlabeled target domain. We also utilize the scene style transfer to cross-generate pseudo images in different domains for remedying image-level differences. In addition, an intuitive consistency loss is proposed to further align cross-domain predictions. We evaluate our proposed SSDA-YOLO on public benchmarks including PascalVOC, Clipart1k, Cityscapes, and Foggy Cityscapes. Moreover, to verify its generalization, we conduct experiments on yawning detection datasets collected from various classrooms. The results show considerable improvements of our method in these DAOD tasks. Our code is available on \url{https://github.com/hnuzhy/SSDA-YOLO}.
translated by 谷歌翻译
分割前庭施瓦瘤瘤(VS)肿瘤的自动方法和来自磁共振成像(MRI)的耳蜗对VS治疗计划至关重要。虽然监督方法在VS分割中取得了令人满意的性能,但他们需要专家的完整注释,这是费力且耗时的。在这项工作中,我们的目标是在无监督的域适应设置中解决VS和Cochlea分段问题。我们所提出的方法利用了图像级域对齐,以最大限度地减少域发散和半监督培训,以进一步提高性能。此外,我们建议通过嘈杂的标签校正熔断从多个模型预测的标签。我们对挑战验证排行榜的结果表明,我们无人监督的方法取得了有前途的与科技分割性能,平均骰子得分为0.8261 $ \ PM $ 0.0416;肿瘤的平均骰子值为0.8302 $ \ PM $ 0.0772。这与基于弱监督的方法相当。
translated by 谷歌翻译
当标签稀缺时,域的适应性是使学习能够学习的重要任务。尽管大多数作品仅着眼于图像模式,但有许多重要的多模式数据集。为了利用多模式的域适应性,我们提出了跨模式学习,在这种学习中,我们通过相互模仿在两种模式的预测之间执行一致性。我们限制了我们的网络,以对未标记的目标域数据进行正确预测,并在标记的数据和跨模式的一致预测中进行预测。在无监督和半监督的域适应设置中进行的实验证明了这种新型域适应策略的有效性。具体而言,我们评估了从2D图像,3D点云或两者都从3D语义分割的任务进行评估。我们利用最近的驾驶数据集生产各种域名适应场景,包括场景布局,照明,传感器设置和天气以及合成到现实的设置的变化。我们的方法在所有适应方案上都显着改善了以前的单模式适应基线。我们的代码可在https://github.com/valeoai/xmuda_journal上公开获取
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译