由于在不良视觉条件下记录的图像的密集像素级语义注释缺乏,因此对此类图像的语义分割的无监督域适应性(UDA)引起了兴趣。 UDA适应了在正常条件下训练的模型,以适应目标不利条件域。同时,多个带有驾驶场景的数据集提供了跨多个条件的相同场景的相应图像,这可以用作域适应的弱监督。我们提出了重新设计,这是对基于自训练的UDA方法的通用扩展,该方法利用了这些跨域对应关系。重新调整由两个步骤组成:(1)使用不确定性意识到的密度匹配网络将正常条件图像与相应的不良条件图像对齐,以及(2)使用自适应标签校正机制来完善不良预测,并使用正常预测。我们设计自定义模块,以简化这两个步骤,并在几个不良条件基准(包括ACDC和Dark Zurich)上设置域自适应语义分割的新技术。该方法不引入额外的训练参数,只有在训练期间最少的计算开销 - 可以用作撤离扩展,以改善任何给定的基于自我训练的UDA方法。代码可从https://github.com/brdav/refign获得。
translated by 谷歌翻译
自动驾驶的语义细分应在各种野外环境中具有鲁棒性。由于缺乏带注释的夜间图像和带有足够注释的白天图像的较大域间隙,夜间语义细分尤其具有挑战性。在本文中,我们为夜间语义分割提出了一个新型的基于GPS的培训框架。给定与白天和夜间图像的GPS对齐的对,我们执行跨域对应关系匹配以获得像素级伪监督。此外,我们在白天视频帧之间进行流量估计,并应用基于GPS的缩放量表以获取另一个像素级的伪监督。使用这些伪内的置信图,我们训练一个夜间语义分割网络,而无需夜间图像的任何注释。实验结果证明了该方法对几个夜间语义分割数据集的有效性。我们的源代码可在https://github.com/jimmy9704/gps-glass上获得。
translated by 谷歌翻译
本文提出FogAdapt,一种用于密集有雾场景的语义细分域的新方法。虽然已经针对显着的研究来减少语义分割中的域移位,但对具有恶劣天气条件的场景的适应仍然是一个开放的问题。由于天气状况,如雾,烟雾和雾度,加剧了域移位的场景的可见性,从而使得在这种情况下进行了无监督的适应性。我们提出了一种自熵和多尺度信息增强的自我监督域适应方法(FOGADAPT),以最大限度地减少有雾场景分割的域移位。由经验证据支持,雾密度的增加导致分割概率的高自熵性,我们引入了基于自熵的损耗功能来引导适应方法。此外,在不同的图像尺度上获得的推论由不确定性组合并加权,以生成目标域的尺度不变伪标签。这些规模不变的伪标签对可见性和比例变化具有鲁棒性。我们在真正的雾景场景中评估了真正的清晰天气场景模型,适应和综合非雾图像到真正的雾场景适应情景。我们的实验表明,FogAdapt在有雾图像的语义分割中的目前最先进的情况下显着优异。具体而言,通过考虑标准设置与最先进的(SOTA)方法相比,FogaDATK在Foggy苏黎世上获得3.8%,有雾的驾驶密集为6.0%,而在Miou的雾化驾驶的3.6%,在Miou,在MiOOP中改编为有雾的苏黎世。
translated by 谷歌翻译
5级自动驾驶汽车自主权需要一个强大的视觉感知系统,可以在任何视觉条件下解析输入图像。但是,现有的语义分段数据集是由正常条件下捕获的图像主导,或者规模小。为了解决这个问题,我们引入了ACDC,具有对应于培训和测试原种视觉条件的语义分段方法的不利条件数据集。 ACDC由一组大型4006个图像组成,它在四个常见的不利条件之间同样分布:雾,夜间,雨和雪。每个不利条件图像具有高质量的细像素级语义注释,在正常条件下采取的相同场景的相应图像,以及区分清晰和不确定的语义内容的图像内区域之间的二进制掩模。因此,ACDC支持标准语义分割,新引入的不确定性感知语义分割。详细的实证研究表明,ACDC对最先进的监督和无人监督和无监督的方法的挑战,并表明了我们数据集在转向该领域的进展方面的价值。我们的数据集和基准是公开可用的。
translated by 谷歌翻译
了解驾驶场景中的雾图像序列对于自主驾驶至关重要,但是由于难以收集和注释不利天气的现实世界图像,这仍然是一项艰巨的任务。最近,自我训练策略被认为是无监督域适应的强大解决方案,通过生成目标伪标签并重新训练模型,它迭代地将模型从源域转化为目标域。但是,选择自信的伪标签不可避免地会遭受稀疏与准确性之间的冲突,这两者都会导致次优模型。为了解决这个问题,我们利用了驾驶场景的雾图图像序列的特征,以使自信的伪标签致密。具体而言,基于顺序图像数据的局部空间相似性和相邻时间对应的两个发现,我们提出了一种新型的目标域驱动的伪标签扩散(TDO-DIF)方案。它采用超像素和光学流来识别空间相似性和时间对应关系,然后扩散自信但稀疏的伪像标签,或者是由流量链接的超像素或时间对应对。此外,为了确保扩散像素的特征相似性,我们在模型重新训练阶段引入了局部空间相似性损失和时间对比度损失。实验结果表明,我们的TDO-DIF方案有助于自适应模型在两个公共可用的天然雾化数据集(超过雾气的Zurich and Forggy驾驶)上实现51.92%和53.84%的平均跨工会(MIOU),这超过了最态度ART无监督的域自适应语义分割方法。可以在https://github.com/velor2012/tdo-dif上找到模型和数据。
translated by 谷歌翻译
Semantic segmentation is a key problem for many computer vision tasks. While approaches based on convolutional neural networks constantly break new records on different benchmarks, generalizing well to diverse testing environments remains a major challenge. In numerous real world applications, there is indeed a large gap between data distributions in train and test domains, which results in severe performance loss at run-time. In this work, we address the task of unsupervised domain adaptation in semantic segmentation with losses based on the entropy of the pixel-wise predictions. To this end, we propose two novel, complementary methods using (i) an entropy loss and (ii) an adversarial loss respectively. We demonstrate state-of-theart performance in semantic segmentation on two challenging "synthetic-2-real" set-ups 1 and show that the approach can also be used for detection.
translated by 谷歌翻译
无监督的域适应性(UDA)旨在使标记的源域的模型适应未标记的目标域。现有的基于UDA的语义细分方法始终降低像素级别,功能级别和输出级别的域移动。但是,几乎所有这些都在很大程度上忽略了上下文依赖性,该依赖性通常在不同的领域共享,从而导致较不怀疑的绩效。在本文中,我们提出了一个新颖的环境感知混音(camix)框架自适应语义分割的框架,该框架以完全端到端的可训练方式利用了上下文依赖性的这一重要线索作为显式的先验知识,以增强对适应性的适应性目标域。首先,我们通过利用积累的空间分布和先前的上下文关系来提出上下文掩盖的生成策略。生成的上下文掩码在这项工作中至关重要,并将指导三个不同级别的上下文感知域混合。此外,提供了背景知识,我们引入了重要的一致性损失,以惩罚混合学生预测与混合教师预测之间的不一致,从而减轻了适应性的负面转移,例如早期绩效降级。广泛的实验和分析证明了我们方法对广泛使用的UDA基准的最新方法的有效性。
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
尽管进行了多年的研究,但跨域的概括仍然是深层网络的语义分割的关键弱点。先前的研究取决于静态模型的假设,即训练过程完成后,模型参数在测试时间保持固定。在这项工作中,我们通过一种自适应方法来挑战这一前提,用于语义分割,将推理过程调整为每个输入样本。自我适应在两个级别上运行。首先,它采用了自我监督的损失,该损失将网络中卷积层的参数定制为输入图像。其次,在批准层中,自适应近似于整个测试数据的平均值和方差,这是不可用的。它通过在训练和从单个测试样本得出的参考分布之间进行插值来实现这一目标。为了凭经验分析我们的自适应推理策略,我们制定并遵循严格的评估协议,以解决先前工作的严重局限性。我们的广泛分析得出了一个令人惊讶的结论:使用标准训练程序,自我适应大大优于强大的基准,并在多域基准测试方面设定了新的最先进的准确性。我们的研究表明,自适应推断可以补充培训时间的既定模型正规化实践,以改善深度网络的概括到异域数据。
translated by 谷歌翻译
In unsupervised domain adaptation (UDA), a model trained on source data (e.g. synthetic) is adapted to target data (e.g. real-world) without access to target annotation. Most previous UDA methods struggle with classes that have a similar visual appearance on the target domain as no ground truth is available to learn the slight appearance differences. To address this problem, we propose a Masked Image Consistency (MIC) module to enhance UDA by learning spatial context relations of the target domain as additional clues for robust visual recognition. MIC enforces the consistency between predictions of masked target images, where random patches are withheld, and pseudo-labels that are generated based on the complete image by an exponential moving average teacher. To minimize the consistency loss, the network has to learn to infer the predictions of the masked regions from their context. Due to its simple and universal concept, MIC can be integrated into various UDA methods across different visual recognition tasks such as image classification, semantic segmentation, and object detection. MIC significantly improves the state-of-the-art performance across the different recognition tasks for synthetic-to-real, day-to-nighttime, and clear-to-adverse-weather UDA. For instance, MIC achieves an unprecedented UDA performance of 75.9 mIoU and 92.8% on GTA-to-Cityscapes and VisDA-2017, respectively, which corresponds to an improvement of +2.1 and +3.0 percent points over the previous state of the art. The implementation is available at https://github.com/lhoyer/MIC.
translated by 谷歌翻译
The network trained for domain adaptation is prone to bias toward the easy-to-transfer classes. Since the ground truth label on the target domain is unavailable during training, the bias problem leads to skewed predictions, forgetting to predict hard-to-transfer classes. To address this problem, we propose Cross-domain Moving Object Mixing (CMOM) that cuts several objects, including hard-to-transfer classes, in the source domain video clip and pastes them into the target domain video clip. Unlike image-level domain adaptation, the temporal context should be maintained to mix moving objects in two different videos. Therefore, we design CMOM to mix with consecutive video frames, so that unrealistic movements are not occurring. We additionally propose Feature Alignment with Temporal Context (FATC) to enhance target domain feature discriminability. FATC exploits the robust source domain features, which are trained with ground truth labels, to learn discriminative target domain features in an unsupervised manner by filtering unreliable predictions with temporal consensus. We demonstrate the effectiveness of the proposed approaches through extensive experiments. In particular, our model reaches mIoU of 53.81% on VIPER to Cityscapes-Seq benchmark and mIoU of 56.31% on SYNTHIA-Seq to Cityscapes-Seq benchmark, surpassing the state-of-the-art methods by large margins.
translated by 谷歌翻译
Self-training is a competitive approach in domain adaptive segmentation, which trains the network with the pseudo labels on the target domain. However inevitably, the pseudo labels are noisy and the target features are dispersed due to the discrepancy between source and target domains. In this paper, we rely on representative prototypes, the feature centroids of classes, to address the two issues for unsupervised domain adaptation. In particular, we take one step further and exploit the feature distances from prototypes that provide richer information than mere prototypes. Specifically, we use it to estimate the likelihood of pseudo labels to facilitate online correction in the course of training. Meanwhile, we align the prototypical assignments based on relative feature distances for two different views of the same target, producing a more compact target feature space. Moreover, we find that distilling the already learned knowledge to a self-supervised pretrained model further boosts the performance. Our method shows tremendous performance advantage over state-of-the-art methods. We will make the code publicly available.
translated by 谷歌翻译
受益于从特定情况(源)收集的相当大的像素级注释,训练有素的语义分段模型表现得非常好,但由于大域移位而导致的新情况(目标)失败。为了缓解域间隙,先前的跨域语义分段方法始终在域对齐期间始终假设源数据和目标数据的共存。但是,在实际方案中访问源数据可能会引发隐私问题并违反知识产权。为了解决这个问题,我们专注于一个有趣和具有挑战性的跨域语义分割任务,其中仅向目标域提供训练源模型。具体地,我们提出了一种称为ATP的统一框架,其包括三种方案,即特征对准,双向教学和信息传播。首先,我们设计了课程熵最小化目标,以通过提供的源模型隐式对准目标功能与看不见的源特征。其次,除了vanilla自我训练中的正伪标签外,我们是第一个向该领域引入负伪标签的,并开发双向自我训练策略,以增强目标域中的表示学习。最后,采用信息传播方案来通过伪半监督学习进一步降低目标域内的域内差异。综合与跨城市驾驶数据集的广泛结果验证\ TextBF {ATP}产生最先进的性能,即使是需要访问源数据的方法。
translated by 谷歌翻译
域自适应语义分割的大多数现代方法依赖于适应期间继续访问源数据,这可能是由于计算或隐私约束而不可行的。我们专注于对语义分割的无源域适应,其中源模型必须仅为仅给出未标记的目标数据给出的新目标域。我们提出了增强一致性引导的自我培训(ATHCO),一种无源适应算法,它使用模型的像素级预测一致性,各种目标图像的自动生成的视图以及模型置信度来识别可靠的像素预测,并选择性地那些人的自动训练。ATHCO在三个标准基准测试中实现最先进的结果,以便在语义分割中的3个标准基准,所有内部都在实现和快速收敛方法中。
translated by 谷歌翻译
我们提出了一种用于语义分割的新型无监督域适应方法,该方法将训练的模型概括为源图像和相应的地面真相标签到目标域。域自适应语义分割的关键是学习域,不变和判别特征,而无需目标地面真相标签。为此,我们提出了一个双向像素 - 型对比型学习框架,该框架可最大程度地减少同一对象类特征的类内变化,同时无论域,无论域如何,都可以最大程度地提高不同阶层的阶层变化。具体而言,我们的框架将像素级特征与目标和源图像中同一对象类的原型保持一致(即分别为正面对),将它们设置为不同的类别(即负对),并执行对齐和分离在源图像中具有像素级特征的另一个方向的过程,目标图像中的原型。跨域匹配鼓励域不变特征表示,而双向像素 - 型对应对应关系汇总了同一对象类的特征,提供了歧视性特征。为了建立对比度学习的训练对,我们建议使用非参数标签转移(即跨不同域的像素 - 型对应关系,就可以生成目标图像的动态伪标签。我们还提出了一种校准方法,以补偿训练过程中逐渐补偿原型的阶级域偏差。
translated by 谷歌翻译
由于严重的图像降解,在挑战性高动态范围(HDR)和高速条件下检索准确的语义信息仍然是基于图像的算法的开放挑战。事件摄像机有望应对这些挑战,因为它们具有更高的动态范围,并且对运动模糊具有弹性。尽管如此,事件摄像机的语义细分仍处于起步阶段,这主要是由于缺乏高质量的标记数据集所致。在这项工作中,我们介绍了ESS(基于事件的语义细分),该工作通过将语义分割任务直接从现有标记的图像数据集传输到无标记的事件来解决此问题。与现有的UDA方法相比,我们的方法与图像嵌入的经常性运动不变事件嵌入对齐。因此,我们的方法既不需要视频数据,也不需要图像和事件之间的每个像素对齐,也不需要从静止图像中幻觉运动。此外,我们介绍了DSEC-Semantic,这是第一个带有细粒标签的基于大规模事件的数据集。我们表明,单独使用图像标签,ESS优于现有的UDA方法,并且与事件标签结合使用,它甚至超过了DDD17和DSEC-Semantic上最先进的监督方法。最后,ESS是通用的,它可以解锁大量现有标记的图像数据集,并为事件摄像机无法访问的新领域的新领域中的新和令人兴奋的研究方向铺平了道路。
translated by 谷歌翻译
在本文中,我们介绍了全景语义细分,该分段以整体方式提供了对周围环境的全景和密集的像素的理解。由于两个关键的挑战,全景分割尚未探索:(1)全景上的图像扭曲和对象变形; (2)缺乏培训全景分段的注释。为了解决这些问题,我们提出了一个用于全景语义细分(Trans4Pass)体系结构的变压器。首先,为了增强失真意识,Trans4Pass配备了可变形的贴片嵌入(DPE)和可变形的MLP(DMLP)模块,能够在适应之前(适应之前或之后)和任何地方(浅层或深度级别的(浅层或深度))和图像变形(通过任何涉及(浅层或深层))和图像变形(通过任何地方)和图像变形设计。我们进一步介绍了升级后的Trans4Pass+模型,其中包含具有平行令牌混合的DMLPV2,以提高建模歧视性线索的灵活性和概括性。其次,我们提出了一种无监督域适应性的相互典型适应(MPA)策略。第三,除了针孔到型 - 帕诺amic(PIN2PAN)适应外,我们还创建了一个新的数据集(Synpass),其中具有9,080个全景图像,以探索360 {\ deg} Imagery中的合成对真实(Syn2real)适应方案。进行了广泛的实验,这些实验涵盖室内和室外场景,并且使用PIN2PAN和SYN2REAL方案进行了研究。 Trans4Pass+在四个域自适应的全景语义分割基准上实现最先进的性能。代码可从https://github.com/jamycheung/trans4pass获得。
translated by 谷歌翻译
在自动驾驶中,学习可以适应各种环境条件的分割模型至关重要。特别是,具有严重的照明变化的复制是一种推动的需求,因为在日光数据上培训的模型将在夜间训练。在本文中,我们研究了域自适应夜间语义分割(DANS)的问题,旨在学习具有标有日间数据集和未标记的数据集的判别夜间模型,包括粗略对齐的日夜图像对。为此,我们提出了一种新的双向混合(Bi-Mix)框架,用于疏浚,这可以有助于图像平移和分割适应过程。具体地,在图像翻译阶段中,Bi-Mix利用日夜图像对的知识来提高夜间图像致密的质量。另一方面,在分段适应阶段,双混合有效地桥接白天和夜间域之间的分布差距,以使模型适应夜间域。在这两个过程中,双混合简单地通过混合两个样本而无需额外的超参数来操作,因此易于实施。暗苏黎世和夜间驾驶数据集的广泛实验展示了所提出的双组合的优势,并表明我们的方法在丹盘中获得最先进的表现。我们的代码可在https://github.com/ygjwd12345/bimix上获得。
translated by 谷歌翻译
语义细分是智能车辆了解环境的重要任务。当前的深度学习方法需要大量的标记数据进行培训。手动注释很昂贵,而模拟器可以提供准确的注释。但是,在实际场景中应用时,使用模拟器数据训练的语义分割模型的性能将大大降低。对于语义分割的无监督域适应性(UDA)最近引起了越来越多的研究注意力,旨在减少域间隙并改善目标域的性能。在本文中,我们提出了一种新型的基于两阶段熵的UDA方法,用于语义分割。在第一阶段,我们设计了一个阈值适应的无监督局灶性损失,以使目标域中的预测正常,该预测具有轻度的梯度中和机制,并减轻了在基于熵方法中几乎没有优化硬样品的问题。在第二阶段,我们引入了一种名为跨域图像混合(CIM)的数据增强方法,以弥合两个域的语义知识。我们的方法在合成景观和gta5-to-cityscapes上使用DeepLabV2和使用轻量级的Bisenet实现了最新的58.4%和59.6%的MIOS和59.6%的Mious。
translated by 谷歌翻译
本文提出了一种新颖的像素级分布正则化方案(DRSL),用于自我监督的语义分割域的适应性。在典型的环境中,分类损失迫使语义分割模型贪婪地学习捕获类间变化的表示形式,以确定决策(类)边界。由于域的转移,该决策边界在目标域中未对齐,从而导致嘈杂的伪标签对自我监督域的适应性产生不利影响。为了克服这一限制,以及捕获阶层间变化,我们通过类感知的多模式分布学习(MMDL)捕获了像素级内的类内变化。因此,捕获阶层内变化所需的信息与阶层间歧视所需的信息明确分开。因此,捕获的功能更具信息性,导致伪噪声低的伪标记。这种分离使我们能够使用前者的基于跨凝结的自学习,在判别空间和多模式分布空间中进行单独的对齐。稍后,我们通过明确降低映射到同一模式的目标和源像素之间的距离来提出一种新型的随机模式比对方法。距离度量标签上计算出的距离度量损失,并从多模式建模头部反向传播,充当与分割头共享的基本网络上的正常化程序。关于合成到真实域的适应设置的全面实验的结果,即GTA-V/Synthia to CityScapes,表明DRSL的表现优于许多现有方法(MIOU的最小余量为2.3%和2.5%,用于MIOU,而合成的MIOU到CityScapes)。
translated by 谷歌翻译