自动驾驶汽车必须能够可靠地处理不利的天气条件(例如,雪地)安全运行。在本文中,我们研究了以不利条件捕获的转动传感器输入(即图像)的想法,将其下游任务(例如,语义分割)可以达到高精度。先前的工作主要将其作为未配对的图像到图像翻译问题,因为缺乏在完全相同的相机姿势和语义布局下捕获的配对图像。虽然没有完美对准的图像,但可以轻松获得粗配上的图像。例如,许多人每天在好天气和不利的天气中驾驶相同的路线;因此,在近距离GPS位置捕获的图像可以形成一对。尽管来自重复遍历的数据不太可能捕获相同的前景对象,但我们认为它们提供了丰富的上下文信息来监督图像翻译模型。为此,我们提出了一个新颖的训练目标,利用了粗糙的图像对。我们表明,我们与一致的训练方案可提高更好的图像翻译质量和改进的下游任务,例如语义分割,单眼深度估计和视觉定位。
translated by 谷歌翻译
培训监督图像综合模型需要批评评论权来比较两个图像:结果的原始真相。然而,这种基本功能仍然是一个公开问题。流行的方法使用L1(平均绝对误差)丢失,或者在预先预留的深网络的像素或特征空间中。然而,我们观察到这些损失倾向于产生过度模糊和灰色的图像,以及其他技术,如GAN需要用于对抗这些伪影。在这项工作中,我们介绍了一种基于信息理论的方法来测量两个图像之间的相似性。我们认为,良好的重建应该具有较高的相互信息与地面真相。这种观点使得能够以对比的方式学习轻量级批评者以“校准”特征空间,使得相应的空间贴片的重建被置于擦除其他贴片。我们表明,当用作L1损耗的替代时,我们的配方立即提升输出图像的感知现实主义,有或没有额外的GaN丢失。
translated by 谷歌翻译
恶劣的天气图像翻译属于无监督的图像到图像(I2i)翻译任务,旨在将不利条件领域(例如,雨夜)转移到标准领域(例如,日期)。这是一个具有挑战性的任务,因为来自不利域的图像具有一些伪影和信息不足。最近,许多采用生成的对抗性网络(GANS)的研究在I2I翻译中取得了显着的成功,但仍然有限制将它们应用于恶劣天气增强。基于双向循环 - 一致性损耗的对称架构被采用作为无监督域传输方法的标准框架。但是,如果两个域具有不平衡信息,它可能会导致较差的转换结果。为了解决这个问题,我们提出了一种新的GaN模型,即Au-GaN,它具有不对称的域翻译的非对称架构。我们仅在普通域生成器(即雨夜 - >日)中插入建议的功能传输网络($ {T} $ - 网),以增强不利域图像的编码特征。此外,我们介绍了对编码特征的解剖学的非对称特征匹配。最后,我们提出了不确定感知的周期 - 一致性损失,以解决循环重建图像的区域不确定性。我们通过与最先进的模型进行定性和定量比较来证明我们的方法的有效性。代码在https://github.com/jgkwak95/au-g中提供。
translated by 谷歌翻译
动态对象对机器人对环境的看法产生了重大影响,这降低了本地化和映射等基本任务的性能。在这项工作中,我们通过在由动态对象封闭的区域中合成合理的颜色,纹理和几何形状来解决这个问题。我们提出了一种新的几何感知Dynafill架构,其遵循粗略拓扑,并将我们所通用的经常性反馈机制结合到自适应地融合来自之前的时间步来的信息。我们使用对抗性培训来优化架构,以综合精细的现实纹理,使其能够以空间和时间相干的方式在线在线遮挡地区的幻觉和深度结构,而不依赖于未来的帧信息。将我们的待遇问题作为图像到图像到图像的翻译任务,我们的模型还纠正了与场景中动态对象的存在相关的区域,例如阴影或反射。我们引入了具有RGB-D图像,语义分段标签,摄像机的大型高估数据集,以及遮挡区域的地面RGB-D信息。广泛的定量和定性评估表明,即使在挑战天气条件下,我们的方法也能实现最先进的性能。此外,我们使用综合图像显示基于检索的视觉本地化的结果,该图像证明了我们方法的效用。
translated by 谷歌翻译
卫星图像中的云的检测是遥感中的大数据的基本预处理任务。卷积神经网络(CNNS)在检测卫星图像中的云中大大提升了最先进的,但是现有的基于CNN的方法昂贵,因为它们需要大量具有昂贵的像素级云标签的训练图像。为了减轻这种成本,我们提出了针对云检测(FCD)的定点GaN,这是一种弱监督的方法。只有图像级标签训练,我们学习在清晰和阴天的图像之间的固定点转换,因此在翻译期间只影响云。这样做使我们的方法能够通过将卫星图像转换为清除并将阈值设置为两个图像之间的差异来预测像素级云标签。此外,我们提出了FCD +,在那里我们利用CNN的标签噪声稳健性来改进FCD的预测,从而进一步改进。我们展示了我们对Landsat-8生物群落云检测数据集的方法的有效性,在那里我们将性能接近与昂贵的像素级标签一起列车的现有全监督方法。通过微调我们的FCD +,只有1%的可用像素级标签,我们符合完全监督方法的性能。
translated by 谷歌翻译
Domain adaptation is critical for success in new, unseen environments. Adversarial adaptation models applied in feature spaces discover domain invariant representations, but are difficult to visualize and sometimes fail to capture pixel-level and low-level domain shifts. Recent work has shown that generative adversarial networks combined with cycle-consistency constraints are surprisingly effective at mapping images between domains, even without the use of aligned image pairs. We propose a novel discriminatively-trained Cycle-Consistent Adversarial Domain Adaptation model. CyCADA adapts representations at both the pixel-level and feature-level, enforces cycle-consistency while leveraging a task loss, and does not require aligned pairs. Our model can be applied in a variety of visual recognition and prediction settings. We show new state-of-the-art results across multiple adaptation tasks, including digit classification and semantic segmentation of road scenes demonstrating transfer from synthetic to real world domains.
translated by 谷歌翻译
Deep learning has produced state-of-the-art results for a variety of tasks. While such approaches for supervised learning have performed well, they assume that training and testing data are drawn from the same distribution, which may not always be the case. As a complement to this challenge, single-source unsupervised domain adaptation can handle situations where a network is trained on labeled data from a source domain and unlabeled data from a related but different target domain with the goal of performing well at test-time on the target domain. Many single-source and typically homogeneous unsupervised deep domain adaptation approaches have thus been developed, combining the powerful, hierarchical representations from deep learning with domain adaptation to reduce reliance on potentially-costly target data labels. This survey will compare these approaches by examining alternative methods, the unique and common elements, results, and theoretical insights. We follow this with a look at application areas and open research directions.
translated by 谷歌翻译
In image-to-image translation, each patch in the output should reflect the content of the corresponding patch in the input, independent of domain. We propose a straightforward method for doing so -maximizing mutual information between the two, using a framework based on contrastive learning. The method encourages two elements (corresponding patches) to map to a similar point in a learned feature space, relative to other elements (other patches) in the dataset, referred to as negatives. We explore several critical design choices for making contrastive learning effective in the image synthesis setting. Notably, we use a multilayer, patch-based approach, rather than operate on entire images. Furthermore, we draw negatives from within the input image itself, rather than from the rest of the dataset. We demonstrate that our framework enables one-sided translation in the unpaired image-to-image translation setting, while improving quality and reducing training time. In addition, our method can even be extended to the training setting where each "domain" is only a single image.
translated by 谷歌翻译
强大的模拟器高度降低了在培训和评估自动车辆时对真实测试的需求。数据驱动的模拟器蓬勃发展,最近有条件生成对冲网络(CGANS)的进步,提供高保真图像。主要挑战是在施加约束之后的同时合成光量造型图像。在这项工作中,我们建议通过重新思考鉴别者架构来提高所生成的图像的质量。重点是在给定对语义输入生成图像的问题类上,例如场景分段图或人体姿势。我们建立成功的CGAN模型,提出了一种新的语义感知鉴别器,更好地指导发电机。我们的目标是学习一个共享的潜在表示,编码足够的信息,共同进行语义分割,内容重建以及粗糙的粒度的对抗性推理。实现的改进是通用的,并且可以应用于任何条件图像合成的任何架构。我们展示了我们在场景,建筑和人类综合任务上的方法,跨越三个不同的数据集。代码可在https://github.com/vita-epfl/semdisc上获得。
translated by 谷歌翻译
域适应是一种解决未经看线环境中缺乏大量标记数据的技术。提出了无监督的域适应,以使模型适用于使用单独标记的源数据和未标记的目标域数据的新模式。虽然已经提出了许多图像空间域适配方法来捕获像素级域移位,但是这种技术可能无法维持分割任务的高电平语义信息。对于生物医学图像的情况,在域之间的图像转换操作期间,诸如血管的细细节可能会丢失。在这项工作中,我们提出了一种模型,它使用周期 - 一致丢失在域之间适应域,同时通过在适应过程中强制执行基于边缘的损耗来维持原始图像的边缘细节。我们通过将其与其他两只眼底血管分割数据集的其他方法进行比较来证明我们的算法的有效性。与SOTA和〜5.2增量相比,我们达到了1.1〜9.2递增的骰子分数。
translated by 谷歌翻译
未配对的图像到图像转换的目标是产生反映目标域样式的输出图像,同时保持输入源图像的不相关内容不变。但是,由于缺乏对现有方法的内容变化的关注,来自源图像的语义信息遭受翻译期间的降级。在论文中,为了解决这个问题,我们介绍了一种新颖的方法,全局和局部对齐网络(GLA-NET)。全局对齐网络旨在将输入图像从源域传输到目标域。要有效地这样做,我们通过使用MLP-MILLER基于MATY编码器将多元高斯分布的参数(均值和标准偏差)作为样式特征学习。要更准确地传输样式,我们在编码器中使用自适应实例归一化层,具有目标多功能高斯分布的参数作为输入。我们还采用正常化和可能性损失,以进一步降低领域差距并产生高质量的产出。另外,我们介绍了局部对准网络,该网络采用预磨平的自我监督模型来通过新颖的局部对准丢失来产生注意图,确保翻译网络专注于相关像素。在五个公共数据集上进行的广泛实验表明,我们的方法有效地产生比现有方法更锐利和更现实的图像。我们的代码可在https://github.com/ygjwd12345/glanet获得。
translated by 谷歌翻译
未配对的图像到图像翻译旨在找到源域和目标域之间的映射。为了减轻缺乏源图像的监督标签的问题,通过假设未配对的图像之间的可逆关系,已经提出了基于周期矛盾的方法来保存图像结构。但是,此假设仅使用图像对之间的有限对应关系。最近,使用基于贴片的正/负学习,对比度学习(CL)已被用来进一步研究未配对图像翻译中的图像对应关系。基于贴片的对比例程通过自相似度计算获得阳性,并将其余的斑块视为负面。这种灵活的学习范式以低成本获得辅助上下文化信息。由于负面的样本人数令人印象深刻,因此我们有好奇心,我们基于一个问题进行了调查:是否需要所有负面的对比度学习?与以前的CL方法不同,在本文中,我们从信息理论的角度研究了负面因素,并通过稀疏和对补丁进行排名来引入一种新的负面修剪技术,以用于未配对的图像到图像翻译(PUT) 。所提出的算法是有效的,灵活的,并使模型能够稳定地学习相应贴片之间的基本信息。通过将质量置于数量上,只需要几个负贴片即可获得更好的结果。最后,我们通过比较实验验证了模型的优势,稳定性和多功能性。
translated by 谷歌翻译
随着计算智能算法的发展,由扭曲的光度一致性驱动的无监督的单眼深度和姿势估计框架在白天场景中表现出色。尽管在一些具有挑战性的环境中,例如夜晚和雨天之夜,但由于复杂的照明和反射,基本的光度一致性假设是站不住脚的,因此上述无监督的框架不能直接应用于这些复杂的情况。在本文中,我们研究了高度复杂的情景中无监督的单眼深度估计的问题,并通过采用基于图像传输的域适应框架来解决这个具有挑战性的问题。我们适应了在白天场景中训练的深度模型,适用于夜间场景,并且对特征空间和输出空间的约束促进了框架,以了解深度解码的关键功能。同时,我们进一步解决了不稳定图像转移质量对域适应的影响,并提出了图像适应方法来评估转移图像的质量并重新进行相应的损失,以提高适应深度模型的性能。广泛的实验显示了所提出的无监督框架在估计高度复杂图像的密集深度图方面的有效性。
translated by 谷歌翻译
图像到图像翻译在启用合成数据的计算机视觉方面发挥了重要作用。但是,如果源和目标域具有较大的语义不匹配,那么现有的技术通常会遭受源内容损坏,也就是语义翻转。为了解决这个问题,我们提出了一个新的范式,用于使用矢量符号体系结构(VSA),这是一个理论框架,该框架定义了在高维矢量(HyphyMytector)空间中定义代数操作的理论框架。我们通过学习逆转翻译以确保与源内容的一致性来介绍对源到目标翻译的对抗学习的基于VSA的约束。我们在定性和定量上表明我们的方法比其他最先进的技术有所改进。
translated by 谷歌翻译
估计漫画图像的深度是具有挑战性的,因为此类图像a)是单眼的。b)缺乏地面深度注释;c)不同艺术风格的不同;d)稀疏而嘈杂。因此,我们使用现成的无监督图像来图像翻译方法将漫画图像转换为自然图像,然后使用注意引导的单眼深度估计器来预测其深度。这使我们能够利用现有自然图像的深度注释来训练深度估计器。此外,我们的模型学会了区分漫画面板中的文本和图像,以减少深度估计中基于文本的人工制品。我们的方法始终优于DCM和EBDTheque图像上所有指标的现有最新方法。最后,我们介绍了一个数据集来评估漫画的深度预测。可以通过https://github.com/ivrl/comicsdepth访问我们的项目网站。
translated by 谷歌翻译
深度学习的关键批评之一是,需要大量昂贵且难以获得的训练数据,以便培训具有高性能和良好的概率功能的模型。专注于通过场景坐标回归(SCR)的单眼摄像机姿势估计的任务,我们描述了一种新的方法,用于相机姿势估计(舞蹈)网络的域改编,这使得培训模型无需访问目标任务上的任何标签。舞蹈需要未标记的图像(没有已知的姿势,订购或场景坐标标签)和空间的3D表示(例如,扫描点云),这两者都可以使用现成的商品硬件最少的努力来捕获。舞蹈渲染从3D模型标记的合成图像,通过应用无监督的图像级域适应技术(未配对图像到图像转换)来桥接合成和实图像之间的不可避免的域间隙。在实际图像上进行测试时,舞蹈培训的SCR模型在成本的一小部分中对其完全监督的对应物(在两种情况下使用PNP-RANSAC进行最终姿势估算的情况下)进行了相当的性能。我们的代码和数据集可以在https://github.com/jacklangerman/dance获得
translated by 谷歌翻译
对象检测网络已经达到了令人印象深刻的性能水平,但是在特定应用程序中缺乏合适的数据通常会限制在实践中。通常,使用其他数据源来支持培训任务。但是,在这些中,不同数据源之间的域间隙在深度学习中构成了挑战。基于GAN的图像到图像样式转移通常用于缩小域间隙,但不稳定并与对象检测任务脱钩。我们提出了Awada,这是一个注意力加权的对抗域适应框架,用于在样式变换和检测任务之间创建反馈循环。通过从对象探测器建议中构造前景对象注意图,我们将转换集中在前景对象区域并稳定样式转移训练。在广泛的实验和消融研究中,我们表明AWADA在常用的基准中达到了最新的无监督域适应对象检测性能,用于诸如合成,不利的天气和跨摄像机适应性。
translated by 谷歌翻译
这项工作提出了一个新颖的框架CISFA(对比图像合成和自我监督的特征适应),该框架建立在图像域翻译和无监督的特征适应性上,以进行跨模式生物医学图像分割。与现有作品不同,我们使用单方面的生成模型,并在输入图像的采样贴片和相应的合成图像之间添加加权贴片对比度损失,该图像用作形状约束。此外,我们注意到生成的图像和输入图像共享相似的结构信息,但具有不同的方式。因此,我们在生成的图像和输入图像上强制实施对比损失,以训练分割模型的编码器,以最大程度地减少学到的嵌入空间中成对图像之间的差异。与依靠对抗性学习进行特征适应的现有作品相比,这种方法使编码器能够以更明确的方式学习独立于域的功能。我们对包含腹腔和全心的CT和MRI图像的分割任务进行了广泛评估。实验结果表明,所提出的框架不仅输出了较小的器官形状变形的合成图像,而且还超过了最先进的域适应方法的较大边缘。
translated by 谷歌翻译
在良好的弹药条件下,车辆检测准确性相当准确,但在弱光条件下容易受到检测准确性不佳。弱光和眩光的组合效果或尾灯的眩光导致最新的对象检测模型更有可能错过车辆检测。但是,热红外图像对照明的变化是可靠的,并且基于热辐射。最近,生成对抗网络(GAN)已在图像域传输任务中广泛使用。最先进的GAN型号试图通过将红外图像转换为白天的RGB图像来提高夜间车辆检测准确性。但是,与白天条件相比,在夜间条件下,这些模型在夜间条件下表现不佳。因此,这项研究试图通过提出三种不同的方法来缓解这一缺点,该方法基于两个不同级别的GAN模型的组合,试图减少白天和夜间红外图像之间的特征分布差距。通过使用最新的对象检测模型测试模型,可以完成定量分析以比较提出模型的性能与最新模型的性能。定量和定性分析都表明,所提出的模型在夜间条件下的最新车辆检测模型优于最先进的GAN模型,显示了所提出的模型的功效。
translated by 谷歌翻译