虽然姿势估计是一项重要的计算机视觉任务,但它需要昂贵的注释,并且遭受了域转移的困扰。在本文中,我们调查了域自适应2D姿势估计的问题,这些估计会传输有关合成源域的知识,而无需监督。尽管最近已经提出了几个领域的自适应姿势估计模型,但它们不是通用的,而是专注于人姿势或动物姿势估计,因此它们的有效性在某种程度上限于特定情况。在这项工作中,我们提出了一个统一的框架,该框架可以很好地推广到各种领域自适应姿势估计问题上。我们建议使用输入级别和输出级线索(分别是像素和姿势标签)对齐表示,这有助于知识转移从源域到未标记的目标域。我们的实验表明,我们的方法在各个领域变化下实现了最先进的性能。我们的方法的表现优于现有的姿势估计基线,最高4.5%(PP),手部姿势估算高达7.4 pp,狗的动物姿势估计高达4.8 pp,而绵羊的姿势估计为3.3 pp。这些结果表明,我们的方法能够减轻各种任务甚至看不见的域和物体的转移(例如,在马匹上训练并在狗上进行了测试)。我们的代码将在以下网址公开可用:https://github.com/visionlearninggroup/uda_poseestimation。
translated by 谷歌翻译
我们解决对象检测中的域适应问题,其中在源(带有监控)和目标域(没有监督的域的域名)之间存在显着的域移位。作为广泛采用的域适应方法,自培训教师学生框架(学生模型从教师模型生成的伪标签学习)在目标域中产生了显着的精度增益。然而,由于其偏向源域,它仍然存在从教师产生的大量低质量伪标签(例如,误报)。为了解决这个问题,我们提出了一种叫做自适应无偏见教师(AUT)的自我训练框架,利用对抗的对抗学习和弱强的数据增强来解决域名。具体而言,我们在学生模型中使用特征级的对抗性培训,确保从源和目标域中提取的功能共享类似的统计数据。这使学生模型能够捕获域不变的功能。此外,我们在目标领域的教师模型和两个域上的学生模型之间应用了弱强的增强和相互学习。这使得教师模型能够从学生模型中逐渐受益,而不会遭受域移位。我们展示了AUT通过大边距显示所有现有方法甚至Oracle(完全监督)模型的优势。例如,我们在有雾的城市景观(Clipart1k)上实现了50.9%(49.3%)地图,分别比以前的最先进和甲骨文高9.2%(5.2%)和8.2%(11.0%)
translated by 谷歌翻译
我们的目标是在新的成像条件下(例如,户外)在新的成像条件下(例如,在非常不同的条件下拍摄的图像(例如室内)时(室内),在新成像条件(例如室外)下(例如室外),在新的成像条件下(例如室外)进行分割的像素级掩盖的性能。在现实世界中,重要的是在各种成像条件下进行培训的模型都必须运行。但是,它们被现有标记的手数据集涵盖的变化是有限的。因此,有必要调整在标记的图像(源)上训练的模型,以使其具有看不见的成像条件的未标记图像(目标)。尽管已经为这两项任务开发了自我训练域的适应方法(即以自我监督的方式学习以自我监督的方式学习),但当目标图像的预测嘈杂时,它们的训练可能会降低性能。为了避免这种情况,至关重要的是,在自我训练过程中,为嘈杂的预测分配了较低的重要性(置信度)。在本文中,我们建议利用两个预测的差异来估计目标图像对这两个任务的信心。这些预测来自两个单独的网络,它们的差异有助于确定嘈杂的预测。为了将我们提出的信心估计纳入自我训练中,我们提出了一个教师学生的框架,在该框架中,两个网络(教师)为网络(学生)提供自我培训的监督,并通过知识蒸馏从学生那里学习教师。我们的实验表明,在具有不同照明,握住对象,背景和摄像机观点的适应设置中,其优于最先进的方法。与最新的对抗适应方法相比,我们的方法在HO3D上的多任务得分提高了4%。我们还验证了我们在室外成像条件下快速变化的Ego4d的方法。
translated by 谷歌翻译
学习估计对象姿势通常需要地面真理(GT)标签,例如CAD模型和绝对级对象姿势,这在现实世界中获得昂贵且费力。为了解决这个问题,我们为类别级对象姿势估计提出了一个无监督的域适应(UDA),称为\ textbf {uda-cope}。受到最近的多模态UDA技术的启发,所提出的方法利用教师学生自我监督的学习方案来训练姿势估计网络而不使用目标域标签。我们还在预测归一化对象坐标空间(NOCS)地图和观察点云之间引入了双向滤波方法,不仅使我们的教师网络更加强大地对目标域,而且为学生网络培训提供更可靠的伪标签。广泛的实验结果表明了我们所提出的方法的有效性,可以定量和定性。值得注意的是,在不利用目标域GT标签的情况下,我们所提出的方法可以实现与依赖于GT标签的现有方法相当或有时优越的性能。
translated by 谷歌翻译
Domain adaptive object detection (DAOD) aims to alleviate transfer performance degradation caused by the cross-domain discrepancy. However, most existing DAOD methods are dominated by computationally intensive two-stage detectors, which are not the first choice for industrial applications. In this paper, we propose a novel semi-supervised domain adaptive YOLO (SSDA-YOLO) based method to improve cross-domain detection performance by integrating the compact one-stage detector YOLOv5 with domain adaptation. Specifically, we adapt the knowledge distillation framework with the Mean Teacher model to assist the student model in obtaining instance-level features of the unlabeled target domain. We also utilize the scene style transfer to cross-generate pseudo images in different domains for remedying image-level differences. In addition, an intuitive consistency loss is proposed to further align cross-domain predictions. We evaluate our proposed SSDA-YOLO on public benchmarks including PascalVOC, Clipart1k, Cityscapes, and Foggy Cityscapes. Moreover, to verify its generalization, we conduct experiments on yawning detection datasets collected from various classrooms. The results show considerable improvements of our method in these DAOD tasks. Our code is available on \url{https://github.com/hnuzhy/SSDA-YOLO}.
translated by 谷歌翻译
临床医生在手术室(OR)的细粒度定位是设计新一代或支持系统的关键组成部分。需要基于人像素的分段和身体视觉计算机的计算机视觉模型检测,以更好地了解OR的临床活动和空间布局。这是具有挑战性的,这不仅是因为或图像与传统视觉数据集有很大不同,还因为在隐私问题上很难收集和生成数据和注释。为了解决这些问题,我们首先研究了如何在低分辨率图像上进行姿势估计和实例分割,而下采样因子从1x到12倍进行下采样因子。其次,为了解决域的偏移和缺乏注释,我们提出了一种新型的无监督域适应方法,称为适配器,以使模型从野外标记的源域中适应统计上不同的未标记目标域。我们建议在未标记的目标域图像的不同增强上利用明确的几何约束,以生成准确的伪标签,并使用这些伪标签在自我训练框架中对高分辨率和低分辨率或图像进行训练。此外,我们提出了分离的特征归一化,以处理统计上不同的源和目标域数据。对两个或数据集MVOR+和TUM-或TUM-或测试的详细消融研究的广泛实验结果表明,我们方法对强构建的基线的有效性,尤其是在低分辨率的隐私性或图像上。最后,我们在大规模可可数据集上显示了我们作为半监督学习方法(SSL)方法的普遍性,在这里,我们获得了可比较的结果,而对经过100%标记的监督培训的模型的标签监督只有1%。 。
translated by 谷歌翻译
While transformers have greatly boosted performance in semantic segmentation, domain adaptive transformers are not yet well explored. We identify that the domain gap can cause discrepancies in self-attention. Due to this gap, the transformer attends to spurious regions or pixels, which deteriorates accuracy on the target domain. We propose to perform adaptation on attention maps with cross-domain attention layers that share features between the source and the target domains. Specifically, we impose consistency between predictions from cross-domain attention and self-attention modules to encourage similar distribution in the attention and output of the model across domains, i.e., attention-level and output-level alignment. We also enforce consistency in attention maps between different augmented views to further strengthen the attention-based alignment. Combining these two components, our method mitigates the discrepancy in attention maps across domains and further boosts the performance of the transformer under unsupervised domain adaptation settings. Our model outperforms the existing state-of-the-art baseline model on three widely used benchmarks, including GTAV-to-Cityscapes by 1.3 percent point (pp), Synthia-to-Cityscapes by 0.6 pp, and Cityscapes-to-ACDC by 1.1 pp, on average. Additionally, we verify the effectiveness and generalizability of our method through extensive experiments. Our code will be publicly available.
translated by 谷歌翻译
Recently, unsupervised domain adaptation in satellite pose estimation has gained increasing attention, aiming at alleviating the annotation cost for training deep models. To this end, we propose a self-training framework based on the domain-agnostic geometrical constraints. Specifically, we train a neural network to predict the 2D keypoints of a satellite and then use PnP to estimate the pose. The poses of target samples are regarded as latent variables to formulate the task as a minimization problem. Furthermore, we leverage fine-grained segmentation to tackle the information loss issue caused by abstracting the satellite as sparse keypoints. Finally, we iteratively solve the minimization problem in two steps: pseudo-label generation and network training. Experimental results show that our method adapts well to the target domain. Moreover, our method won the 1st place on the sunlamp task of the second international Satellite Pose Estimation Competition.
translated by 谷歌翻译
无监督的域适应性(UDA)旨在使标记的源域的模型适应未标记的目标域。现有的基于UDA的语义细分方法始终降低像素级别,功能级别和输出级别的域移动。但是,几乎所有这些都在很大程度上忽略了上下文依赖性,该依赖性通常在不同的领域共享,从而导致较不怀疑的绩效。在本文中,我们提出了一个新颖的环境感知混音(camix)框架自适应语义分割的框架,该框架以完全端到端的可训练方式利用了上下文依赖性的这一重要线索作为显式的先验知识,以增强对适应性的适应性目标域。首先,我们通过利用积累的空间分布和先前的上下文关系来提出上下文掩盖的生成策略。生成的上下文掩码在这项工作中至关重要,并将指导三个不同级别的上下文感知域混合。此外,提供了背景知识,我们引入了重要的一致性损失,以惩罚混合学生预测与混合教师预测之间的不一致,从而减轻了适应性的负面转移,例如早期绩效降级。广泛的实验和分析证明了我们方法对广泛使用的UDA基准的最新方法的有效性。
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
深度学习模型的最新发展,捕捉作物物候的复杂的时间模式有卫星图像时间序列(坐在),大大高级作物分类。然而,当施加到目标区域从训练区空间上不同的,这些模型差没有任何目标标签由于作物物候区域之间的时间位移进行。为了解决这个无人监督跨区域适应环境,现有方法学域不变特征没有任何目标的监督,而不是时间偏移本身。因此,这些技术提供了SITS只有有限的好处。在本文中,我们提出TimeMatch,一种新的无监督领域适应性方法SITS直接占时移。 TimeMatch由两个部分组成:1)时间位移的估计,其估计具有源极训练模型的未标记的目标区域的时间偏移,和2)TimeMatch学习,它结合了时间位移估计与半监督学习到一个分类适应未标记的目标区域。我们还引进了跨区域适应的开放式访问的数据集与来自欧洲四个不同区域的旁边。在此数据集,我们证明了TimeMatch优于所有竞争的方法,通过11%的在五个不同的适应情景F1-得分,创下了新的国家的最先进的跨区域适应性。
translated by 谷歌翻译
While deep learning methods hitherto have achieved considerable success in medical image segmentation, they are still hampered by two limitations: (i) reliance on large-scale well-labeled datasets, which are difficult to curate due to the expert-driven and time-consuming nature of pixel-level annotations in clinical practices, and (ii) failure to generalize from one domain to another, especially when the target domain is a different modality with severe domain shifts. Recent unsupervised domain adaptation~(UDA) techniques leverage abundant labeled source data together with unlabeled target data to reduce the domain gap, but these methods degrade significantly with limited source annotations. In this study, we address this underexplored UDA problem, investigating a challenging but valuable realistic scenario, where the source domain not only exhibits domain shift~w.r.t. the target domain but also suffers from label scarcity. In this regard, we propose a novel and generic framework called ``Label-Efficient Unsupervised Domain Adaptation"~(LE-UDA). In LE-UDA, we construct self-ensembling consistency for knowledge transfer between both domains, as well as a self-ensembling adversarial learning module to achieve better feature alignment for UDA. To assess the effectiveness of our method, we conduct extensive experiments on two different tasks for cross-modality segmentation between MRI and CT images. Experimental results demonstrate that the proposed LE-UDA can efficiently leverage limited source labels to improve cross-domain segmentation performance, outperforming state-of-the-art UDA approaches in the literature. Code is available at: https://github.com/jacobzhaoziyuan/LE-UDA.
translated by 谷歌翻译
最近基于深度学习的医学图像注册方法实现了与传统优化算法在减少的运行时间时具有竞争力的结果。但是,深度神经网络通常需要大量标记的培训数据,并且容易受到培训和测试数据之间的领域变化。尽管基于按键的注册可以减轻典型的强度移位,但由于不同的视野,这些方法仍然遭受几何域移位。作为一种补救措施,在这项工作中,我们提出了一种用于图像注册的几何结构域适应性的新方法,将模型从标记的源调整为未标记的目标域。我们以基于按键的注册模型为基础,将用于几何特征学习的图形卷积与循环信念优化相结合,并提议通过自我增压来减少域的转移。为此,我们将模型嵌入了卑鄙的教师范式中。我们将平均教师扩展到这种情况下,通过1)调整随机增强方案和2)将学习的特征提取与可区分优化相结合。这使我们能够通过对学习学生和时间平均的教师模型的一致预测来指导未标记的目标域中的学习过程。我们评估了在两个具有挑战性的适应方案(dir-lab 4d ct to copd,copd to copd to Learn2Reg)下呼气到肺CT注册的方法。我们的方法一致地将基线模型提高了50%/47%,甚至匹配了对目标数据训练的模型的准确性。源代码可在https://github.com/multimodallearning/registration-da-mean-teacher上获得。
translated by 谷歌翻译
无监督域自适应对象检测的自我训练是一项艰巨的任务,其性能在很大程度上取决于伪盒的质量。尽管结果有令人鼓舞,但先前的工作在很大程度上忽略了自训练期间伪箱的不确定性。在本文中,我们提出了一个简单而有效的框架,称为概率教师(PT),该框架旨在从逐渐发展的教师中捕获未标记的目标数据的不确定性,并以互惠互利的方式指导学生学习学生。具体而言,我们建议利用不确定性引导的一致性训练来促进分类适应和本地化适应,而不是通过精心设计的置信度阈值过滤伪盒。此外,我们与定位适应同时进行锚定适应性,因为锚被视为可学习的参数。与此框架一起,我们还提出了一种新颖的熵局灶性损失(EFL),以进一步促进不确定性引导的自我训练。配备了EFL,PT的表现优于所有以前的基线,并实现了新的最先进。
translated by 谷歌翻译
人体/手的姿势估计是计算机愿景中的根本问题,基于学习的解决方案需要大量的注释数据。给定有限的注释预算,增加标签效率的常见方法是活动学习(AL),其选择具有最高值的举例,但选择选择策略通常是不变的。在这项工作中,我们改进了在多视图设置中的3D姿态估计问题的主动学习,这在许多应用场景中的重要性越来越重要。我们开发一个框架,使我们能够有效地扩展现有的单视角策略,然后提出两种新的AL策略,可以充分利用多视图几何形状。此外,我们通过纳入预测的伪标签来证明额外的性能提升,这是一种自我训练的形式。我们的系统在三个大型基准测试中显着优于3D身体和手势估计中的基线:CMU Panoptic Studio和Interwand2.6m。值得注意的是,在CMU Panoptic Studio上,我们能够使用仅使用20%的标记培训数据来匹配全监督模型的性能。
translated by 谷歌翻译
自从17世纪以来,理论上就建立了非语言交流的\ Esquote*{Language}的手势。但是,它与视觉艺术的相关性仅偶尔表达。这可能主要是由于传统上必须手工处理的大量数据。但是,随着数字化的稳定进展,越来越多的历史文物被索引并提供给公众,从而需要自动检索具有类似身体星座或姿势的艺术历史图案。由于艺术领域因其风格差异而与现有的人类姿势估计的现实世界数据集有很大不同,因此提出了新的挑战。在本文中,我们提出了一种新颖的方法来估计艺术历史图像中的人类姿势。与以前试图用预训练模型或通过样式转移弥合域间隙的工作相反,我们建议对对象和关键点检测进行半监督学习。此外,我们引入了一个新颖的特定领域艺术数据集,其中包括人物的边界框和关键点注释。与使用预训练模型或样式转移的方法相比,我们的方法取得了明显更好的结果。
translated by 谷歌翻译
开放的复合域适应(OCDA)将目标域视为多个未知同质子域的化合物。 OCDA的目的是最大程度地减少标记的源域和未标记的复合目标域之间的域间隙,这使对未见域的模型概括有益。当前用于语义分割方法的OCDA采用手动域分离,并采用单个模型同时适应所有目标子域。但是,适应目标子域可能会阻碍该模型适应其他不同目标子域,从而导致性能有限。在这项工作中,我们引入了一个带有双向光度混合的多教学框架,以分别适应每个目标子域。首先,我们提出一个自动域分离,以找到最佳的子域数。在此基础上,我们提出了一个多教学框架,在该框架中,每个教师模型都使用双向光度混合来适应一个目标子域。此外,我们进行自适应蒸馏以学习学生模型并应用一致性正规化以改善学生的概括。基准数据集上的实验结果显示了针对复合域和开放域对现有最新方法的拟议方法的功效。
translated by 谷歌翻译
半监督域适应(SSDA)是将学习者调整到新域,只有一小组标记的数据集在源域上给出时,只有一小组标记的样本。在本文中,我们提出了一种基于对的SSDA方法,使用用样品对的自蒸馏来适应靶域的模型。每个样本对由来自标记数据集(即源或标记为目标)的教师样本以及来自未标记数据集的学生样本(即,未标记的目标)组成。我们的方法通过在教师和学生之间传输中间样式来生成助手功能,然后通过最小化学生和助手之间的输出差异来培训模型。在培训期间,助手逐渐弥合了两个域之间的差异,从而让学生容易地从老师那里学习。标准基准测试的实验评估表明,我们的方法有效地减少了域间和域内的差异,从而实现了对最近的方法的显着改进。
translated by 谷歌翻译
域自适应对象检测(DAOD)旨在改善探测和测试数据来自不同域时的探测器的泛化能力。考虑到显着的域间隙,一些典型方法,例如基于Conscangan的方法,采用中间域来逐步地桥接源域和靶域。然而,基于Conscangan的中间域缺少对象检测的PIX或实例级监控,这导致语义差异。为了解决这个问题,在本文中,我们介绍了具有四种不同的低频滤波器操作的频谱增强一致性(FSAC)框架。通过这种方式,我们可以获得一系列增强数据作为中间域。具体地,我们提出了一种两级优化框架。在第一阶段,我们利用所有原始和增强的源数据来训练对象检测器。在第二阶段,采用增强源和目标数据,具有伪标签来执行预测一致性的自培训。使用均值优化的教师模型用于进一步修改伪标签。在实验中,我们分别评估了我们在单一和复合目标DAOD上的方法,这证明了我们方法的有效性。
translated by 谷歌翻译
最近,立体声匹配基准的记录由端到端视差网络不断破碎。但是,这些深层模型的域适应能力非常有限。解决此类问题,我们提出了一种名为ADASTEREO的新型域自适应方法,该方法旨在对准深度立体声匹配网络的多级表示。与以前的方法相比,我们的ADASTEREO实现了更标准,完整有效的域适应管道。首先,我们提出了一种用于输入图像级对准的非对抗渐进颜色传输算法。其次,我们设计一个有效的无参数成本归一化层,用于内部特征级别对齐。最后,提出了一种高效的辅助任务,自我监督的遮挡感知重建以缩小输出空间中的间隙。我们进行密集的消融研究和分解比较,以验证每个提出的模块的有效性。没有额外推断开销,只有略微增加训练复杂性,我们的Adastereo模型在多个基准上实现了最先进的跨领域性能,包括Kitti,Middrbury,Eth3D和驾驶员,甚至优于一些状态 - 与目标域的地面真相Fineetuned的差异网络。此外,基于两个额外的评估指标,从更多的观点进一步揭示了我们域 - 自适应立体声匹配管道的优越性。最后,我们证明我们的方法对各种域适配设置具有强大,并且可以轻松地集成到快速适应应用方案和现实世界部署中。
translated by 谷歌翻译