在本文中,我们在不依赖于任何源域表示的情况下向“无监督域适应(UDA)的任务”的任务提供了一个解决方案。以前的UDA用于语义细分的方法使用在源域和目标域中的模型的同时训练,或者它们依赖于附加网络,在适应期间将源域知识重放到模型。相比之下,我们介绍了我们的小说无监督的批量适应(UBNA)方法,它将给定的预先训练模型适应未经使用的策略域而不使用 - 超出现有模型参数 - 任何源域表示(既不是数据或者,也可以在在线设置或仅以几滴方式使用从目标域中的几个未标记的图像中应用的。具体地,我们使用指数衰减的动量因子部分地将归一化层统计数据调整到目标域,从而将统计数据与两个域混合。通过评估语义分割的标准UDA基准测试,我们认为这优于一个没有适应的模型以及仅使用目标域中的统计数据的基线方法。与标准UDA方法相比,我们在源域表示的性能和使用之间报告权衡。
translated by 谷歌翻译
自动驾驶车辆中的环境感知通常严重依赖于深度神经网络(DNN),这些神经网络受到域的转移,导致DNN部署期间的性能大大降低。通常,通过无监督的域适应(UDA)方法解决了此问题,同时在源和目标域数据集上训练了训练,甚至仅以离线方式对目标数据进行训练。在这项工作中,我们进一步将无源的UDA方法扩展到了连续的,因此可以在单一图像的基础上进行语义细分。因此,我们的方法仅需要供应商(在源域中训练)和电流(未标记的目标域)相机图像的预训练模型。我们的方法持续batchNorm适应(CBNA)使用目标域图像以无监督的方式修改了批准层中的源域统计信息,从而在推理过程中可以提高稳定的性能。因此,与现有作品相反,我们的方法可以应用于在部署期间不断地以单位图像改进DNN,而无需访问源数据,而无需算法延迟,并且几乎没有计算开销。我们在各种源/目标域设置中显示了我们方法在语义分割中的一致有效性。代码可在https://github.com/ifnspaml/cbna上找到。
translated by 谷歌翻译
尽管进行了多年的研究,但跨域的概括仍然是深层网络的语义分割的关键弱点。先前的研究取决于静态模型的假设,即训练过程完成后,模型参数在测试时间保持固定。在这项工作中,我们通过一种自适应方法来挑战这一前提,用于语义分割,将推理过程调整为每个输入样本。自我适应在两个级别上运行。首先,它采用了自我监督的损失,该损失将网络中卷积层的参数定制为输入图像。其次,在批准层中,自适应近似于整个测试数据的平均值和方差,这是不可用的。它通过在训练和从单个测试样本得出的参考分布之间进行插值来实现这一目标。为了凭经验分析我们的自适应推理策略,我们制定并遵循严格的评估协议,以解决先前工作的严重局限性。我们的广泛分析得出了一个令人惊讶的结论:使用标准训练程序,自我适应大大优于强大的基准,并在多域基准测试方面设定了新的最先进的准确性。我们的研究表明,自适应推断可以补充培训时间的既定模型正规化实践,以改善深度网络的概括到异域数据。
translated by 谷歌翻译
在本文中,我们解决了一次性分段的单次无监督域适应(OSUDA)的问题,其中分段器在训练期间只看到一个未标记的目标图像。在这种情况下,传统的无监督域适应模型通常失败,因为它们不能适应目标域,以具有过度拟合到一个(或几个)目标样本。为了解决这个问题,现有的OSUDA方法通常集成了一种样式传输模块,基于未标记的目标样本执行域随机化,可以在训练期间探讨目标样本周围的多个域。然而,这种样式传输模块依赖于一组额外的图像作为预训练的样式参考,并且还增加了对域适应的内存需求。在这里,我们提出了一种新的奥德达方法,可以有效地缓解这种计算负担。具体而言,我们将多个样式混合层集成到分段器中,该分段器播放样式传输模块的作用,以在不引入任何学习参数的情况下使源图像进行体现。此外,我们提出了一种剪辑的原型匹配(PPM)方法来加权考虑源像素在监督训练期间的重要性,以缓解负适应。实验结果表明,我们的方法在单次设置下的两个常用基准上实现了新的最先进的性能,并且比所有比较方法更有效。
translated by 谷歌翻译
由于获取对语义分割的实际图像的像素明智的注释是一个昂贵的过程,模型可以通过更多可访问的合成数据训练,并且适应真实图像而不需要其注释。在无监督的域适应(UDA)中研究了该过程。尽管大量方法提出了新的适应策略,但它们主要基于过时的网络架构。由于尚未系统地研究了网络架构的影响,我们首先为UDA进行基准标记不同的网络架构,然后提出基于基准结果的新型UDA方法Daformer。 DAFormer网络由变压器编码器和多级上下文感知功能融合解码器组成。它通过三种简单但重要的培训策略使稳定培训并避免将DAFFormer过度装箱到源域:虽然通过减轻自我训练的确认偏差来提高源域上的罕见类别提高了伪标签的质量常见的类,Thing-Class Imagenet特征距离和学习率预热促进了从想象成预介绍的功能转移。 Daformer显着提高了最先进的性能,通过10.8 Miou for GTA-> Citycapes和5.4 Miou for Synthia-> Citycapes,并使得甚至是学习甚至困难的课程,如火车,公共汽车和卡车。该实现可在https://github.com/lhoyer/daformer中获得。
translated by 谷歌翻译
深度学习极大地提高了语义细分的性能,但是,它的成功依赖于大量注释的培训数据的可用性。因此,许多努力致力于域自适应语义分割,重点是将语义知识从标记的源域转移到未标记的目标域。现有的自我训练方法通常需要多轮训练,而基于对抗训练的另一个流行框架已知对超参数敏感。在本文中,我们提出了一个易于训练的框架,该框架学习了域自适应语义分割的域不变原型。特别是,我们表明域的适应性与很少的学习共享一个共同的角色,因为两者都旨在识别一些从大量可见数据中学到的知识的看不见的数据。因此,我们提出了一个统一的框架,用于域适应和很少的学习。核心思想是使用从几个镜头注释的目标图像中提取的类原型来对源图像和目标图像的像素进行分类。我们的方法仅涉及一个阶段训练,不需要对大规模的未经通知的目标图像进行培训。此外,我们的方法可以扩展到域适应性和几乎没有射击学习的变体。关于适应GTA5到CITYSCAPES和合成景观的实验表明,我们的方法实现了对最先进的竞争性能。
translated by 谷歌翻译
当源(训练)数据和目标(测试)数据之间存在域移动时,深网很容易降级。最近的测试时间适应方法更新了通过流数据部署在新目标环境中的预训练源模型的批归归式层,以减轻这种性能降低。尽管此类方法可以在不首先收集大型目标域数据集的情况下进行调整,但它们的性能取决于流媒体条件,例如迷你批量的大小和类别分布,在实践中可能无法预测。在这项工作中,我们提出了一个框架,以适应几个域的适应性,以应对数据有效适应的实际挑战。具体而言,我们提出了在预训练的源模型中对特征归一化统计量的约束优化,该模型由目标域的小支持集监督。我们的方法易于实现,并改善每类用于分类任务的示例较小的源模型性能。对5个跨域分类和4个语义分割数据集进行了广泛的实验表明,我们的方法比测试时间适应更准确,更可靠,同时不受流媒体条件的约束。
translated by 谷歌翻译
语义细分是自动驾驶汽车和机器人中的场景理解的重要任务,旨在为图像中的所有像素分配密集标签。现有工作通常通过在目标数据集上探索不同的网络架构来提高语义分割性能。由于不同数据集的固有分布移位,通过同时从多个数据集同时学习,已经支付了很少的注意。在本文中,我们提出了一种简单,灵活,一般的语义分割方法,称为交叉数据集协作学习(CDCL)。我们的目标是通过利用来自所有数据集的信息来培训统一的模型来提高每个数据集中的性能。具体来说,我们首先将一个数据集感知块(DAB)作为网络的基本计算单元推出,这有助于在不同的数据集中捕获均匀的卷积表示和异构统计数据。其次,我们提供了一个数据集交替培训(DAT)机制,以促进协作优化程序。我们对自动驾驶的多样性分割数据集进行广泛的评估。实验表明,我们的方法始终如一地实现了对现有的单数据集和交叉数据集训练方法的显着改进,而不会引入额外的拖鞋。特别是,具有相同的PSPNet(Reset-18)的架构,我们的方法分别在CityScapes,BDD100K,Camvid的验证组上以5.65 \%,6.57 \%和5.79 \%Miou表示。我们还将CDCL应用于点云3D语义分割,实现了改进的性能,进一步验证了我们方法的优势和一般性。代码和模型将被释放。
translated by 谷歌翻译
我们建议利用模拟的潜力,以域的概括方式对现实世界自动驾驶场景的语义分割。对分割网络进行了训练,没有任何目标域数据,并在看不见的目标域进行了测试。为此,我们提出了一种新的域随机化和金字塔一致性的方法,以学习具有高推广性的模型。首先,我们建议使用辅助数据集以视觉外观的方式随机将合成图像随机化,以有效地学习域不变表示。其次,我们进一步在不同的“风格化”图像和图像中实施了金字塔一致性,以分别学习域不变和规模不变的特征。关于从GTA和合成对城市景观,BDD和Mapillary的概括进行了广泛的实验;而我们的方法比最新技术取得了卓越的成果。值得注意的是,我们的概括结果与最先进的模拟域适应方法相比甚至更好,甚至比在训练时访问目标域数据的结果。
translated by 谷歌翻译
近年来,语义细分领域取得了巨大进展。但是,剩下的一个具有挑战性的问题是,细分模型并未推广到看不见的域。为了克服这个问题,要么必须标记大量涵盖整个域的数据,这些域通常在实践中是不可行的,要么应用无监督的域适应性(UDA),仅需要标记为源数据。在这项工作中,我们专注于UDA,并另外解决了适应单个域,而且针对一系列目标域的情况。这需要机制,以防止模型忘记其先前学习的知识。为了使细分模型适应目标域,我们遵循利用轻质样式转移将标记的源图像样式转换为目标域样式的想法,同时保留源内容。为了减轻源和目标域之间的分布移位,模型在第二步中在传输的源图像上进行了微调。现有的轻重量样式转移方法依赖于自适应实例归一化(ADAIN)或傅立叶变换仍然缺乏性能,并且在常见数据增强(例如颜色抖动)上没有显着改善。这样做的原因是,这些方法并不关注特定于区域或类别的差异,而是主要捕获最突出的样式。因此,我们提出了一个简单且轻巧的框架,该框架结合了两个类条件的ADAIN层。为了提取传输层所需的特定类目标矩,我们使用未过滤的伪标签,与真实标签相比,我们表明这是有效的近似值。我们在合成序列上广泛验证了我们的方法(CACE),并进一步提出了由真实域组成的具有挑战性的序列。 CACE在视觉和定量上优于现有方法。
translated by 谷歌翻译
无监督的域适应性(UDA)旨在减少训练和测试数据之间的域间隙,并在大多数情况下以离线方式进行。但是,在部署过程中可能会连续且不可预测地发生域的变化(例如,天气变化突然变化)。在这种情况下,深度神经网络见证了准确性的急剧下降,离线适应可能不足以对比。在本文中,我们解决了在线域适应(ONDA)进行语义细分。我们设计了一条可逐步或突然转移的域转移的管道,在多雨和有雾的情况下,我们对其进行了评估。我们的实验表明,我们的框架可以有效地适应部署期间的新域,而不受灾难性遗忘以前的域的影响。
translated by 谷歌翻译
Semantic segmentation is a key problem for many computer vision tasks. While approaches based on convolutional neural networks constantly break new records on different benchmarks, generalizing well to diverse testing environments remains a major challenge. In numerous real world applications, there is indeed a large gap between data distributions in train and test domains, which results in severe performance loss at run-time. In this work, we address the task of unsupervised domain adaptation in semantic segmentation with losses based on the entropy of the pixel-wise predictions. To this end, we propose two novel, complementary methods using (i) an entropy loss and (ii) an adversarial loss respectively. We demonstrate state-of-theart performance in semantic segmentation on two challenging "synthetic-2-real" set-ups 1 and show that the approach can also be used for detection.
translated by 谷歌翻译
Domain adaptation aims to bridge the domain shifts between the source and the target domain. These shifts may span different dimensions such as fog, rainfall, etc. However, recent methods typically do not consider explicit prior knowledge about the domain shifts on a specific dimension, thus leading to less desired adaptation performance. In this paper, we study a practical setting called Specific Domain Adaptation (SDA) that aligns the source and target domains in a demanded-specific dimension. Within this setting, we observe the intra-domain gap induced by different domainness (i.e., numerical magnitudes of domain shifts in this dimension) is crucial when adapting to a specific domain. To address the problem, we propose a novel Self-Adversarial Disentangling (SAD) framework. In particular, given a specific dimension, we first enrich the source domain by introducing a domainness creator with providing additional supervisory signals. Guided by the created domainness, we design a self-adversarial regularizer and two loss functions to jointly disentangle the latent representations into domainness-specific and domainness-invariant features, thus mitigating the intra-domain gap. Our method can be easily taken as a plug-and-play framework and does not introduce any extra costs in the inference time. We achieve consistent improvements over state-of-the-art methods in both object detection and semantic segmentation.
translated by 谷歌翻译
In unsupervised domain adaptation (UDA), a model trained on source data (e.g. synthetic) is adapted to target data (e.g. real-world) without access to target annotation. Most previous UDA methods struggle with classes that have a similar visual appearance on the target domain as no ground truth is available to learn the slight appearance differences. To address this problem, we propose a Masked Image Consistency (MIC) module to enhance UDA by learning spatial context relations of the target domain as additional clues for robust visual recognition. MIC enforces the consistency between predictions of masked target images, where random patches are withheld, and pseudo-labels that are generated based on the complete image by an exponential moving average teacher. To minimize the consistency loss, the network has to learn to infer the predictions of the masked regions from their context. Due to its simple and universal concept, MIC can be integrated into various UDA methods across different visual recognition tasks such as image classification, semantic segmentation, and object detection. MIC significantly improves the state-of-the-art performance across the different recognition tasks for synthetic-to-real, day-to-nighttime, and clear-to-adverse-weather UDA. For instance, MIC achieves an unprecedented UDA performance of 75.9 mIoU and 92.8% on GTA-to-Cityscapes and VisDA-2017, respectively, which corresponds to an improvement of +2.1 and +3.0 percent points over the previous state of the art. The implementation is available at https://github.com/lhoyer/MIC.
translated by 谷歌翻译
Convolutional neural network-based approaches for semantic segmentation rely on supervision with pixel-level ground truth, but may not generalize well to unseen image domains. As the labeling process is tedious and labor intensive, developing algorithms that can adapt source ground truth labels to the target domain is of great interest. In this paper, we propose an adversarial learning method for domain adaptation in the context of semantic segmentation. Considering semantic segmentations as structured outputs that contain spatial similarities between the source and target domains, we adopt adversarial learning in the output space. To further enhance the adapted model, we construct a multi-level adversarial network to effectively perform output space domain adaptation at different feature levels. Extensive experiments and ablation study are conducted under various domain adaptation settings, including synthetic-to-real and cross-city scenarios. We show that the proposed method performs favorably against the stateof-the-art methods in terms of accuracy and visual quality.
translated by 谷歌翻译
在本文中,我们考虑了语义分割中域概括的问题,该问题旨在仅使用标记的合成(源)数据来学习强大的模型。该模型有望在看不见的真实(目标)域上表现良好。我们的研究发现,图像样式的变化在很大程度上可以影响模型的性能,并且样式特征可以通过图像的频率平均值和标准偏差来很好地表示。受此启发,我们提出了一种新颖的对抗性增强(Advstyle)方法,该方法可以在训练过程中动态生成硬性化的图像,因此可以有效防止该模型过度适应源域。具体而言,AdvStyle将样式功能视为可学习的参数,并通过对抗培训对其进行更新。学习的对抗性风格功能用于构建用于健壮模型训练的对抗图像。 AdvStyle易于实现,并且可以轻松地应用于不同的模型。对两个合成到现实的语义分割基准的实验表明,Advstyle可以显着改善看不见的真实域的模型性能,并表明我们可以实现最新技术的状态。此外,可以将AdvStyle用于域通用图像分类,并在考虑的数据集上产生明显的改进。
translated by 谷歌翻译
Domain adaptation has been vastly investigated in computer vision but still requires access to target images at train time, which might be intractable in some conditions, especially for long-tail samples. In this paper, we propose the task of `Prompt-driven Zero-shot Domain Adaptation', where we adapt a model trained on a source domain using only a general textual description of the target domain, i.e., a prompt. First, we leverage a pretrained contrastive vision-language model (CLIP) to optimize affine transformations of source features, bringing them closer to target text embeddings, while preserving their content and semantics. Second, we show that augmented features can be used to perform zero-shot domain adaptation for semantic segmentation. Experiments demonstrate that our method significantly outperforms CLIP-based style transfer baselines on several datasets for the downstream task at hand. Our prompt-driven approach even outperforms one-shot unsupervised domain adaptation on some datasets, and gives comparable results on others. The code is available at https://github.com/astra-vision/PODA.
translated by 谷歌翻译
Test-time adaptation (TTA) has attracted significant attention due to its practical properties which enable the adaptation of a pre-trained model to a new domain with only target dataset during the inference stage. Prior works on TTA assume that the target dataset comes from the same distribution and thus constitutes a single homogeneous domain. In practice, however, the target domain can contain multiple homogeneous domains which are sufficiently distinctive from each other and those multiple domains might occur cyclically. Our preliminary investigation shows that domain-specific TTA outperforms vanilla TTA treating compound domain (CD) as a single one. However, domain labels are not available for CD, which makes domain-specific TTA not practicable. To this end, we propose an online clustering algorithm for finding pseudo-domain labels to obtain similar benefits as domain-specific configuration and accumulating knowledge of cyclic domains effectively. Moreover, we observe that there is a significant discrepancy in terms of prediction quality among samples, especially in the CD context. This further motivates us to boost its performance with gradient denoising by considering the image-wise similarity with the source distribution. Overall, the key contribution of our work lies in proposing a highly significant new task compound domain test-time adaptation (CD-TTA) on semantic segmentation as well as providing a strong baseline to facilitate future works to benchmark.
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
无监督的域适应性(UDA)仅使用未标记的数据适应一个在一个域上训练的模型。已经进行了许多研究,特别是由于其高注释成本而用于语义分割。现有研究坚持这样的基本假设,即新领域没有标记的样品。但是,这个假设有几个问题。首先,考虑到ML的标准实践,可以在部署前确认该模型的性能,这是非常不现实的。确认需要标记的数据。其次,任何UDA方法都将具有一些超参数,需要一定数量的标记数据。为了纠正现实的错误对准,我们从以数据为中心的角度重新考虑UDA。具体而言,我们从假设我们确实可以访问最低标记数据级别的假设。然后,我们询问需要多少个标记样品来找到现有UDA方法令人满意的超参数。如果我们使用相同的数据来训练模型,例如填充,它的工作原理如何?我们进行实验,以流行的情况为{GTA5,Synthia} $ \ rightarrow $ CityScapes。我们的发现如下:i)对于某些UDA方法,只有几个标记的样品(即图像),例如五个,可以找到良好的超参数,例如五个,但这不适用于其他样品,ii)较高的芬特(ii)均超过了大多数的芬特。现有的UDA方法只有十个标记的图像。
translated by 谷歌翻译