域的适应性引起了极大的兴趣,因为标签是一项昂贵且容易出错的任务,尤其是当像素级在语义分段中需要标签时。因此,人们希望能够在数据丰富并且标签精确的合成域上训练神经网络。但是,这些模型通常在室外图像上表现不佳。为了减轻输入的变化,可以使用图像到图像的方法。然而,使用合成训练域桥接部署领域的标准图像到图像方法并不关注下游任务,而仅关注视觉检查级别。因此,我们在图像到图像域的适应方法中提出了gan的“任务意识”版本。借助少量标记的地面真实数据,我们将图像到图像翻译指导为更合适的输入图像,用于培训合成数据(合成域专家)的语义分割网络。这项工作的主要贡献是1)一种模块化半监督域适应方法,通过训练下游任务Aware Cycean,同时避免适应合成语义分割专家2)该方法适用于复杂的域适应任务3)通过使用从头开始网络进行较不偏见的域间隙分析。我们在分类任务以及语义细分方面评估我们的方法。我们的实验表明,我们的方法比仅使用70(10%)地面真实图像的分类任务中的准确性优于标准图像到图像方法 - 准确性的准确性7%。对于语义细分,我们可以在训练过程中仅使用14个地面真相图像,在均值评估数据集上,平均交叉点比联合的平均交叉点约4%至7%。
translated by 谷歌翻译
Domain adaptation is critical for success in new, unseen environments. Adversarial adaptation models applied in feature spaces discover domain invariant representations, but are difficult to visualize and sometimes fail to capture pixel-level and low-level domain shifts. Recent work has shown that generative adversarial networks combined with cycle-consistency constraints are surprisingly effective at mapping images between domains, even without the use of aligned image pairs. We propose a novel discriminatively-trained Cycle-Consistent Adversarial Domain Adaptation model. CyCADA adapts representations at both the pixel-level and feature-level, enforces cycle-consistency while leveraging a task loss, and does not require aligned pairs. Our model can be applied in a variety of visual recognition and prediction settings. We show new state-of-the-art results across multiple adaptation tasks, including digit classification and semantic segmentation of road scenes demonstrating transfer from synthetic to real world domains.
translated by 谷歌翻译
无监督的域适应(UDA)旨在使源域上培训的模型适应到新的目标域,其中没有可用标记的数据。在这项工作中,我们调查从合成计算机生成的域的UDA的问题,以用于学习语义分割的类似但实际的域。我们提出了一种与UDA的一致性正则化方法结合的语义一致的图像到图像转换方法。我们克服了将合成图像转移到真实的图像的先前限制。我们利用伪标签来学习生成的图像到图像转换模型,该图像到图像转换模型从两个域上的语义标签接收额外的反馈。我们的方法优于最先进的方法,将图像到图像转换和半监督学习与相关域适应基准,即Citycapes和Synthia上的CutyCapes和Synthia进行了全面的学习。
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
Semantic segmentation is a key problem for many computer vision tasks. While approaches based on convolutional neural networks constantly break new records on different benchmarks, generalizing well to diverse testing environments remains a major challenge. In numerous real world applications, there is indeed a large gap between data distributions in train and test domains, which results in severe performance loss at run-time. In this work, we address the task of unsupervised domain adaptation in semantic segmentation with losses based on the entropy of the pixel-wise predictions. To this end, we propose two novel, complementary methods using (i) an entropy loss and (ii) an adversarial loss respectively. We demonstrate state-of-theart performance in semantic segmentation on two challenging "synthetic-2-real" set-ups 1 and show that the approach can also be used for detection.
translated by 谷歌翻译
Deep learning has produced state-of-the-art results for a variety of tasks. While such approaches for supervised learning have performed well, they assume that training and testing data are drawn from the same distribution, which may not always be the case. As a complement to this challenge, single-source unsupervised domain adaptation can handle situations where a network is trained on labeled data from a source domain and unlabeled data from a related but different target domain with the goal of performing well at test-time on the target domain. Many single-source and typically homogeneous unsupervised deep domain adaptation approaches have thus been developed, combining the powerful, hierarchical representations from deep learning with domain adaptation to reduce reliance on potentially-costly target data labels. This survey will compare these approaches by examining alternative methods, the unique and common elements, results, and theoretical insights. We follow this with a look at application areas and open research directions.
translated by 谷歌翻译
我们建议利用模拟的潜力,以域的概括方式对现实世界自动驾驶场景的语义分割。对分割网络进行了训练,没有任何目标域数据,并在看不见的目标域进行了测试。为此,我们提出了一种新的域随机化和金字塔一致性的方法,以学习具有高推广性的模型。首先,我们建议使用辅助数据集以视觉外观的方式随机将合成图像随机化,以有效地学习域不变表示。其次,我们进一步在不同的“风格化”图像和图像中实施了金字塔一致性,以分别学习域不变和规模不变的特征。关于从GTA和合成对城市景观,BDD和Mapillary的概括进行了广泛的实验;而我们的方法比最新技术取得了卓越的成果。值得注意的是,我们的概括结果与最先进的模拟域适应方法相比甚至更好,甚至比在训练时访问目标域数据的结果。
translated by 谷歌翻译
使用合成数据来训练在现实世界数据上实现良好性能的神经网络是一项重要任务,因为它可以减少对昂贵数据注释的需求。然而,合成和现实世界数据具有域间隙。近年来,已经广泛研究了这种差距,也称为域的适应性。通过直接执行两者之间的适应性来缩小源(合成)和目标数据之间的域间隙是具有挑战性的。在这项工作中,我们提出了一个新颖的两阶段框架,用于改进图像数据上的域适应技术。在第一阶段,我们逐步训练一个多尺度神经网络,以从源域到目标域进行图像翻译。我们将新的转换数据表示为“目标中的源”(SIT)。然后,我们将生成的SIT数据插入任何标准UDA方法的输入。该新数据从所需的目标域缩小了域间隙,这有助于应用UDA进一步缩小差距的方法。我们通过与其他领先的UDA和图像对图像翻译技术进行比较来强调方法的有效性,当时用作SIT发电机。此外,我们通过三种用于语义分割的最先进的UDA方法(HRDA,daformer and proda)在两个UDA任务上,GTA5到CityScapes和Synthia to CityScapes来证明我们的框架的改进。
translated by 谷歌翻译
深度学习极大地提高了语义细分的性能,但是,它的成功依赖于大量注释的培训数据的可用性。因此,许多努力致力于域自适应语义分割,重点是将语义知识从标记的源域转移到未标记的目标域。现有的自我训练方法通常需要多轮训练,而基于对抗训练的另一个流行框架已知对超参数敏感。在本文中,我们提出了一个易于训练的框架,该框架学习了域自适应语义分割的域不变原型。特别是,我们表明域的适应性与很少的学习共享一个共同的角色,因为两者都旨在识别一些从大量可见数据中学到的知识的看不见的数据。因此,我们提出了一个统一的框架,用于域适应和很少的学习。核心思想是使用从几个镜头注释的目标图像中提取的类原型来对源图像和目标图像的像素进行分类。我们的方法仅涉及一个阶段训练,不需要对大规模的未经通知的目标图像进行培训。此外,我们的方法可以扩展到域适应性和几乎没有射击学习的变体。关于适应GTA5到CITYSCAPES和合成景观的实验表明,我们的方法实现了对最先进的竞争性能。
translated by 谷歌翻译
传统的域自适应语义细分解决了在有限或没有其他监督下,将模型调整为新的目标域的任务。在解决输入域间隙的同时,标准域的适应设置假设输出空间没有域的变化。在语义预测任务中,通常根据不同的语义分类法标记不同的数据集。在许多现实世界中,目标域任务需要与源域施加的分类法不同。因此,我们介绍了更通用的自适应跨域语义细分(TAC)问题,从而使两个域之间的分类学不一致。我们进一步提出了一种共同解决图像级和标签级域适应的方法。在标签级别上,我们采用双边混合采样策略来增强目标域,并采用重新标记方法来统一和对齐标签空间。我们通过提出一种不确定性构造的对比度学习方法来解决图像级域间隙,从而导致更多的域不变和类别的歧义特征。我们在不同的TACS设置下广泛评估了框架的有效性:开放分类法,粗到精细的分类学和隐式重叠的分类学。我们的方法的表现超过了先前的最先进的利润,同时能够适应目标分类法。我们的实施可在https://github.com/ethruigong/tada上公开获得。
translated by 谷歌翻译
深度神经网络(DNN)极大地促进了语义分割中的性能增益。然而,训练DNN通常需要大量的像素级标记数据,这在实践中收集昂贵且耗时。为了减轻注释负担,本文提出了一种自组装的生成对抗网络(SE-GAN)利用语义分割的跨域数据。在SE-GaN中,教师网络和学生网络构成用于生成语义分割图的自组装模型,与鉴别器一起形成GaN。尽管它很简单,我们发现SE-GaN可以显着提高对抗性训练的性能,提高模型的稳定性,这是由大多数普遍培训的方法共享的常见障碍。我们理论上分析SE-GaN并提供$ \ Mathcal o(1 / \ sqrt {n})$泛化绑定($ n $是培训样本大小),这表明控制了鉴别者的假设复杂性,以提高概括性。因此,我们选择一个简单的网络作为鉴别器。两个标准设置中的广泛和系统实验表明,该方法显着优于最新的最先进的方法。我们模型的源代码即将推出。
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
由于获取对语义分割的实际图像的像素明智的注释是一个昂贵的过程,模型可以通过更多可访问的合成数据训练,并且适应真实图像而不需要其注释。在无监督的域适应(UDA)中研究了该过程。尽管大量方法提出了新的适应策略,但它们主要基于过时的网络架构。由于尚未系统地研究了网络架构的影响,我们首先为UDA进行基准标记不同的网络架构,然后提出基于基准结果的新型UDA方法Daformer。 DAFormer网络由变压器编码器和多级上下文感知功能融合解码器组成。它通过三种简单但重要的培训策略使稳定培训并避免将DAFFormer过度装箱到源域:虽然通过减轻自我训练的确认偏差来提高源域上的罕见类别提高了伪标签的质量常见的类,Thing-Class Imagenet特征距离和学习率预热促进了从想象成预介绍的功能转移。 Daformer显着提高了最先进的性能,通过10.8 Miou for GTA-> Citycapes和5.4 Miou for Synthia-> Citycapes,并使得甚至是学习甚至困难的课程,如火车,公共汽车和卡车。该实现可在https://github.com/lhoyer/daformer中获得。
translated by 谷歌翻译
本文提出FogAdapt,一种用于密集有雾场景的语义细分域的新方法。虽然已经针对显着的研究来减少语义分割中的域移位,但对具有恶劣天气条件的场景的适应仍然是一个开放的问题。由于天气状况,如雾,烟雾和雾度,加剧了域移位的场景的可见性,从而使得在这种情况下进行了无监督的适应性。我们提出了一种自熵和多尺度信息增强的自我监督域适应方法(FOGADAPT),以最大限度地减少有雾场景分割的域移位。由经验证据支持,雾密度的增加导致分割概率的高自熵性,我们引入了基于自熵的损耗功能来引导适应方法。此外,在不同的图像尺度上获得的推论由不确定性组合并加权,以生成目标域的尺度不变伪标签。这些规模不变的伪标签对可见性和比例变化具有鲁棒性。我们在真正的雾景场景中评估了真正的清晰天气场景模型,适应和综合非雾图像到真正的雾场景适应情景。我们的实验表明,FogAdapt在有雾图像的语义分割中的目前最先进的情况下显着优异。具体而言,通过考虑标准设置与最先进的(SOTA)方法相比,FogaDATK在Foggy苏黎世上获得3.8%,有雾的驾驶密集为6.0%,而在Miou的雾化驾驶的3.6%,在Miou,在MiOOP中改编为有雾的苏黎世。
translated by 谷歌翻译
For best performance, today's semantic segmentation methods use large and carefully labeled datasets, requiring expensive annotation budgets. In this work, we show that coarse annotation is a low-cost but highly effective alternative for training semantic segmentation models. Considering the urban scene segmentation scenario, we leverage cheap coarse annotations for real-world captured data, as well as synthetic data to train our model and show competitive performance compared with finely annotated real-world data. Specifically, we propose a coarse-to-fine self-training framework that generates pseudo labels for unlabeled regions of the coarsely annotated data, using synthetic data to improve predictions around the boundaries between semantic classes, and using cross-domain data augmentation to increase diversity. Our extensive experimental results on Cityscapes and BDD100k datasets demonstrate that our method achieves a significantly better performance vs annotation cost tradeoff, yielding a comparable performance to fully annotated data with only a small fraction of the annotation budget. Also, when used as pretraining, our framework performs better compared to the standard fully supervised setting.
translated by 谷歌翻译
Although unsupervised domain adaptation methods have achieved remarkable performance in semantic scene segmentation in visual perception for self-driving cars, these approaches remain impractical in real-world use cases. In practice, the segmentation models may encounter new data that have not been seen yet. Also, the previous data training of segmentation models may be inaccessible due to privacy problems. Therefore, to address these problems, in this work, we propose a Continual Unsupervised Domain Adaptation (CONDA) approach that allows the model to continuously learn and adapt with respect to the presence of the new data. Moreover, our proposed approach is designed without the requirement of accessing previous training data. To avoid the catastrophic forgetting problem and maintain the performance of the segmentation models, we present a novel Bijective Maximum Likelihood loss to impose the constraint of predicted segmentation distribution shifts. The experimental results on the benchmark of continual unsupervised domain adaptation have shown the advanced performance of the proposed CONDA method.
translated by 谷歌翻译
最先进的深神经网络在语义细分方面表现出了出色的表现。但是,它们的性能与培训数据所代表的领域相关。开放世界的场景会导致不准确的预测,这在安全相关应用中是危险的,例如自动驾驶。在这项工作中,我们使用单眼深度估计来增强语义分割预测,从而通过减少存在域移位时未检测到的对象的发生来改善分割。为此,我们通过修改后的分割网络推断出深度热图,该网络生成前后背面的掩模,该面具与给定的语义分割网络并行运行。两种细分面具均汇总,重点关注前景类(此处的道路使用者),以减少虚假负面因素。为了减少假阳性的发生,我们根据不确定性估计进行修剪。从某种意义上说,我们的方法是模块化的,它后处理了任何语义分割网络的输出。在我们的实验中,与基本的语义分割预测相比,我们观察到大多数重要类别的未检测到的对象,并增强对其他领域的概括。
translated by 谷歌翻译
对象检测网络已经达到了令人印象深刻的性能水平,但是在特定应用程序中缺乏合适的数据通常会限制在实践中。通常,使用其他数据源来支持培训任务。但是,在这些中,不同数据源之间的域间隙在深度学习中构成了挑战。基于GAN的图像到图像样式转移通常用于缩小域间隙,但不稳定并与对象检测任务脱钩。我们提出了Awada,这是一个注意力加权的对抗域适应框架,用于在样式变换和检测任务之间创建反馈循环。通过从对象探测器建议中构造前景对象注意图,我们将转换集中在前景对象区域并稳定样式转移训练。在广泛的实验和消融研究中,我们表明AWADA在常用的基准中达到了最新的无监督域适应对象检测性能,用于诸如合成,不利的天气和跨摄像机适应性。
translated by 谷歌翻译
语义图像细分是通过训练深层模型来解决的。由于受监督的训练借鉴了基于人类的图像标签的诅咒,因此使用具有自动生成地面真实的合成图像以及未标记的现实世界图像是一种有希望的选择。这意味着解决无监督的域适应性(UDA)问题。在本文中,我们为语义分割模型的合成器UDA提出了一个新的共同训练过程。首先,我们设计了一个提供两个初始模型的自我训练过程。然后,我们继续以协作方式培训这些模型,以获得最终模型。总体过程将深层模型视为黑匣子,并在伪标记的目标图像级别上驱动其协作,即,不需要修改损失函数,也不需要明确的特征对齐。我们测试有关标准合成和现实世界数据集的建议。我们的共同训练显示了MIOU比基线的15-20个百分点的改善,因此建立了新的最先进的结果。
translated by 谷歌翻译
由于难以获得地面真理标签,从虚拟世界数据集学习对于像语义分割等现实世界的应用非常关注。从域适应角度来看,关键挑战是学习输入的域名签名表示,以便从虚拟数据中受益。在本文中,我们提出了一种新颖的三叉戟架构,该架构强制执行共享特征编码器,同时满足对抗源和目标约束,从而学习域不变的特征空间。此外,我们还介绍了一种新颖的训练管道,在前向通过期间能够自我引起的跨域数据增强。这有助于进一步减少域间隙。结合自我培训过程,我们在基准数据集(例如GTA5或Synthia适应城市景观)上获得最先进的结果。Https://github.com/hmrc-ael/trideadapt提供了代码和预先训练的型号。
translated by 谷歌翻译