未配对的视频对视频翻译旨在在不需要配对培训数据的情况下将视频翻译在源和目标域之间,从而使其对于实际应用程序更可行。不幸的是,翻译的视频通常会遇到时间和语义不一致。为了解决这个问题,许多现有的作品采用了基于运动估计的时间信息,采用时空一致性约束。然而,运动估计的不准确性导致空间颞一致性的指导质量,从而导致不稳定的翻译。在这项工作中,我们提出了一种新颖的范式,该范式通过将输入视频中的动作与生成的光流合成,而不是估算它们,从而使时空的一致性正常。因此,可以在正则化范式中应用合成运动,以使运动在范围内保持一致,而不会冒出运动估计错误的风险。此后,我们利用了我们的无监督回收和无监督的空间损失,在合成光流提供的伪内观察指导下,以准确地在两个域中实现时空一致性。实验表明,在各种情况下,我们的方法在生成时间和语义一致的视频方面具有最先进的性能。代码可在以下网址获得:https://github.com/wangkaihong/unsup_recycle_gan/。
translated by 谷歌翻译
Domain adaptation is critical for success in new, unseen environments. Adversarial adaptation models applied in feature spaces discover domain invariant representations, but are difficult to visualize and sometimes fail to capture pixel-level and low-level domain shifts. Recent work has shown that generative adversarial networks combined with cycle-consistency constraints are surprisingly effective at mapping images between domains, even without the use of aligned image pairs. We propose a novel discriminatively-trained Cycle-Consistent Adversarial Domain Adaptation model. CyCADA adapts representations at both the pixel-level and feature-level, enforces cycle-consistency while leveraging a task loss, and does not require aligned pairs. Our model can be applied in a variety of visual recognition and prediction settings. We show new state-of-the-art results across multiple adaptation tasks, including digit classification and semantic segmentation of road scenes demonstrating transfer from synthetic to real world domains.
translated by 谷歌翻译
在大量标记培训数据的监督下,视频语义细分取得了巨大进展。但是,域自适应视频分割,可以通过从标记的源域对未标记的目标域进行调整来减轻数据标记约束,这很大程度上被忽略了。我们设计了时间伪监督(TPS),这是一种简单有效的方法,探讨了从未标记的目标视频学习有效表示的一致性培训的想法。与在空间空间中建立一致性的传统一致性训练不同,我们通过在增强视频框架之间执行模型一致性来探索时空空间中的一致性训练,这有助于从更多样化的目标数据中学习。具体来说,我们设计了跨框架伪标签,以从以前的视频帧中提供伪监督,同时从增强的当前视频帧中学习。跨框架伪标签鼓励网络产生高确定性预测,从而有效地通过跨框架增强来促进一致性训练。对多个公共数据集进行的广泛实验表明,与最先进的ART相比,TPS更容易实现,更稳定,并且可以实现卓越的视频细分精度。
translated by 谷歌翻译
生成高质量的艺术肖像视频是计算机图形和愿景中的一项重要且理想的任务。尽管已经提出了一系列成功的肖像图像图像模型模型,但这些面向图像的方法在应用于视频(例如固定框架尺寸,面部对齐的要求,缺失的非种族细节和缺失的非种族细节和缺失的要求)时,具有明显的限制。时间不一致。在这项工作中,我们通过引入一个新颖的Vtoonify框架来研究具有挑战性的可控高分辨率肖像视频风格转移。具体而言,Vtoonify利用了Stylegan的中高分辨率层,以基于编码器提取的多尺度内容功能来渲染高质量的艺术肖像,以更好地保留框架细节。由此产生的完全卷积体系结构接受可变大小的视频中的非对齐面孔作为输入,从而有助于完整的面部区域,并在输出中自然动作。我们的框架与现有的基于Stylegan的图像图像模型兼容,以将其扩展到视频化,并继承了这些模型的吸引力,以进行柔性风格控制颜色和强度。这项工作分别为基于收藏和基于示例的肖像视频风格转移而建立在Toonify和DualStylegan的基于Toonify和Dualstylegan的Vtoonify的两个实例化。广泛的实验结果证明了我们提出的VTOONIFY框架对现有方法的有效性在生成具有灵活风格控件的高质量和临时艺术肖像视频方面的有效性。
translated by 谷歌翻译
使用合成数据来训练在现实世界数据上实现良好性能的神经网络是一项重要任务,因为它可以减少对昂贵数据注释的需求。然而,合成和现实世界数据具有域间隙。近年来,已经广泛研究了这种差距,也称为域的适应性。通过直接执行两者之间的适应性来缩小源(合成)和目标数据之间的域间隙是具有挑战性的。在这项工作中,我们提出了一个新颖的两阶段框架,用于改进图像数据上的域适应技术。在第一阶段,我们逐步训练一个多尺度神经网络,以从源域到目标域进行图像翻译。我们将新的转换数据表示为“目标中的源”(SIT)。然后,我们将生成的SIT数据插入任何标准UDA方法的输入。该新数据从所需的目标域缩小了域间隙,这有助于应用UDA进一步缩小差距的方法。我们通过与其他领先的UDA和图像对图像翻译技术进行比较来强调方法的有效性,当时用作SIT发电机。此外,我们通过三种用于语义分割的最先进的UDA方法(HRDA,daformer and proda)在两个UDA任务上,GTA5到CityScapes和Synthia to CityScapes来证明我们的框架的改进。
translated by 谷歌翻译
The network trained for domain adaptation is prone to bias toward the easy-to-transfer classes. Since the ground truth label on the target domain is unavailable during training, the bias problem leads to skewed predictions, forgetting to predict hard-to-transfer classes. To address this problem, we propose Cross-domain Moving Object Mixing (CMOM) that cuts several objects, including hard-to-transfer classes, in the source domain video clip and pastes them into the target domain video clip. Unlike image-level domain adaptation, the temporal context should be maintained to mix moving objects in two different videos. Therefore, we design CMOM to mix with consecutive video frames, so that unrealistic movements are not occurring. We additionally propose Feature Alignment with Temporal Context (FATC) to enhance target domain feature discriminability. FATC exploits the robust source domain features, which are trained with ground truth labels, to learn discriminative target domain features in an unsupervised manner by filtering unreliable predictions with temporal consensus. We demonstrate the effectiveness of the proposed approaches through extensive experiments. In particular, our model reaches mIoU of 53.81% on VIPER to Cityscapes-Seq benchmark and mIoU of 56.31% on SYNTHIA-Seq to Cityscapes-Seq benchmark, surpassing the state-of-the-art methods by large margins.
translated by 谷歌翻译
恶劣的天气图像翻译属于无监督的图像到图像(I2i)翻译任务,旨在将不利条件领域(例如,雨夜)转移到标准领域(例如,日期)。这是一个具有挑战性的任务,因为来自不利域的图像具有一些伪影和信息不足。最近,许多采用生成的对抗性网络(GANS)的研究在I2I翻译中取得了显着的成功,但仍然有限制将它们应用于恶劣天气增强。基于双向循环 - 一致性损耗的对称架构被采用作为无监督域传输方法的标准框架。但是,如果两个域具有不平衡信息,它可能会导致较差的转换结果。为了解决这个问题,我们提出了一种新的GaN模型,即Au-GaN,它具有不对称的域翻译的非对称架构。我们仅在普通域生成器(即雨夜 - >日)中插入建议的功能传输网络($ {T} $ - 网),以增强不利域图像的编码特征。此外,我们介绍了对编码特征的解剖学的非对称特征匹配。最后,我们提出了不确定感知的周期 - 一致性损失,以解决循环重建图像的区域不确定性。我们通过与最先进的模型进行定性和定量比较来证明我们的方法的有效性。代码在https://github.com/jgkwak95/au-g中提供。
translated by 谷歌翻译
本文介绍了DCT-NET,这是一种新颖的图像翻译体系结构,可用于几张肖像风格。给定有限的样式示例($ \ sim $ 100),新的体系结构可以产生高质量的样式转移结果,具有先进的能力,可以合成高保真内容和强大的一般性来处理复杂的场景(例如,遮挡和配件)。此外,它可以通过一个由部分观察(即风格化的头)训练的优雅评估网络启用全身图像翻译。几乎没有基于学习的样式转移是具有挑战性的,因为由于仅由少数几个培训示例形成的偏见分布,学到的模型很容易在目标域中过度拟合。本文旨在通过采用“首先校准,稍后翻译”的关键思想来应对挑战,并以本地注重的翻译探索增强的全球结构。具体而言,所提出的DCT-NET由三个模块组成:一个内容适配器从源照片借用功能的先验来校准目标样本的内容分布;使用仿射变换来释放空间语义约束的几何扩展模块;以及通过校准分布产生的样品的质地翻译模块学习细粒的转换。实验结果证明了所提出的方法在头部风格化方面具有优势及其对具有自适应变形的完整图像翻译的有效性。
translated by 谷歌翻译
自动驾驶的语义细分应在各种野外环境中具有鲁棒性。由于缺乏带注释的夜间图像和带有足够注释的白天图像的较大域间隙,夜间语义细分尤其具有挑战性。在本文中,我们为夜间语义分割提出了一个新型的基于GPS的培训框架。给定与白天和夜间图像的GPS对齐的对,我们执行跨域对应关系匹配以获得像素级伪监督。此外,我们在白天视频帧之间进行流量估计,并应用基于GPS的缩放量表以获取另一个像素级的伪监督。使用这些伪内的置信图,我们训练一个夜间语义分割网络,而无需夜间图像的任何注释。实验结果证明了该方法对几个夜间语义分割数据集的有效性。我们的源代码可在https://github.com/jimmy9704/gps-glass上获得。
translated by 谷歌翻译
在偏置数据集上培训的分类模型通常在分发外部的外部样本上表现不佳,因为偏置的表示嵌入到模型中。最近,已经提出了各种脱叠方法来解除偏见的表示,但仅丢弃偏见的特征是具有挑战性的,而不会改变其他相关信息。在本文中,我们提出了一种新的扩展方法,该方法使用不同标记图像的纹理表示明确地生成附加图像来放大训练数据集,并在训练分类器时减轻偏差效果。每个新的生成图像包含来自源图像的类似内容信息,同时从具有不同标签的目标图像传送纹理。我们的模型包括纹理共发生损耗,该损耗确定生成的图像的纹理是否与目标的纹理类似,以及确定所生成和源图像之间的内容细节是否保留的内容细节的空间自相似性丢失。生成和原始训练图像都进一步用于训练能够改善抗偏置表示的鲁棒性的分类器。我们使用具有已知偏差的五个不同的人工设计数据集来展示我们的方法缓解偏差信息的能力。对于所有情况,我们的方法表现优于现有的现有最先进的方法。代码可用:https://github.com/myeongkyunkang/i2i4debias
translated by 谷歌翻译
本文介绍了一个名为DTVNet的新型端到端动态时间流逝视频生成框架,以从归一化运动向量上的单个景观图像生成多样化的延期视频。所提出的DTVNET由两个子模块组成:\ EMPH {光学流编码器}(OFE)和\ EMPH {动态视频生成器}(DVG)。 OFE将一系列光学流程图映射到编码所生成视频的运动信息的\ Emph {归一化运动向量}。 DVG包含来自运动矢量和单个景观图像的运动和内容流。此外,它包含一个编码器,用于学习共享内容特征和解码器,以构造具有相应运动的视频帧。具体地,\ EMPH {运动流}介绍多个\ EMPH {自适应实例归一化}(Adain)层,以集成用于控制对象运动的多级运动信息。在测试阶段,基于仅一个输入图像,可以产生具有相同内容但具有相同运动信息但各种运动信息的视频。此外,我们提出了一个高分辨率的景区时间流逝视频数据集,命名为快速天空时间,以评估不同的方法,可以被视为高质量景观图像和视频生成任务的新基准。我们进一步对天空延时,海滩和快速天空数据集进行实验。结果证明了我们对最先进的方法产生高质量和各种动态视频的方法的优越性。
translated by 谷歌翻译
未配对的图像到图像转换的目标是产生反映目标域样式的输出图像,同时保持输入源图像的不相关内容不变。但是,由于缺乏对现有方法的内容变化的关注,来自源图像的语义信息遭受翻译期间的降级。在论文中,为了解决这个问题,我们介绍了一种新颖的方法,全局和局部对齐网络(GLA-NET)。全局对齐网络旨在将输入图像从源域传输到目标域。要有效地这样做,我们通过使用MLP-MILLER基于MATY编码器将多元高斯分布的参数(均值和标准偏差)作为样式特征学习。要更准确地传输样式,我们在编码器中使用自适应实例归一化层,具有目标多功能高斯分布的参数作为输入。我们还采用正常化和可能性损失,以进一步降低领域差距并产生高质量的产出。另外,我们介绍了局部对准网络,该网络采用预磨平的自我监督模型来通过新颖的局部对准丢失来产生注意图,确保翻译网络专注于相关像素。在五个公共数据集上进行的广泛实验表明,我们的方法有效地产生比现有方法更锐利和更现实的图像。我们的代码可在https://github.com/ygjwd12345/glanet获得。
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
人类运动转移是指合成的照片现实和时间连贯的视频,使一个人能够模仿他人的运动。但是,当前的合成视频遭受了序列帧的时间不一致,这些框架显着降低了视频质量,但远未通过像素域中的现有方法来解决。最近,由于图像合成方法的频率不足,一些有关DeepFake检测的作品试图区分频域中的自然图像和合成图像。尽管如此,从自然和合成视频之间的频域间隙方面的各个方面研究合成视频的时间不一致。在本文中,我们建议深入研究频率空间,以进行时间一致的人类运动转移。首先,我们对频域中的自然和合成视频进行了首次综合分析,以揭示单个帧的空间维度和视频的时间维度的频率差距。为了弥补自然视频和合成视频之间的频率差距,我们提出了一个新型的基于频率的人类运动转移框架,名为Fremotr,该框架可以有效地减轻空间伪像以及合成视频的时间不一致。 Fremotr探索了两个基于频率的新型正则化模块:1)频域外观正则化(FAR),以改善个人在单个帧中的外观和2)时间频率正则化(TFR),以确保相邻框架之间的时间一致性。最后,全面的实验表明,FremoTR不仅在时间一致性指标中产生卓越的性能,而且还提高了合成视频的框架级视觉质量。特别是,时间一致性指标比最新模型提高了近30%。
translated by 谷歌翻译
图像到图像翻译在启用合成数据的计算机视觉方面发挥了重要作用。但是,如果源和目标域具有较大的语义不匹配,那么现有的技术通常会遭受源内容损坏,也就是语义翻转。为了解决这个问题,我们提出了一个新的范式,用于使用矢量符号体系结构(VSA),这是一个理论框架,该框架定义了在高维矢量(HyphyMytector)空间中定义代数操作的理论框架。我们通过学习逆转翻译以确保与源内容的一致性来介绍对源到目标翻译的对抗学习的基于VSA的约束。我们在定性和定量上表明我们的方法比其他最先进的技术有所改进。
translated by 谷歌翻译
While transformers have greatly boosted performance in semantic segmentation, domain adaptive transformers are not yet well explored. We identify that the domain gap can cause discrepancies in self-attention. Due to this gap, the transformer attends to spurious regions or pixels, which deteriorates accuracy on the target domain. We propose to perform adaptation on attention maps with cross-domain attention layers that share features between the source and the target domains. Specifically, we impose consistency between predictions from cross-domain attention and self-attention modules to encourage similar distribution in the attention and output of the model across domains, i.e., attention-level and output-level alignment. We also enforce consistency in attention maps between different augmented views to further strengthen the attention-based alignment. Combining these two components, our method mitigates the discrepancy in attention maps across domains and further boosts the performance of the transformer under unsupervised domain adaptation settings. Our model outperforms the existing state-of-the-art baseline model on three widely used benchmarks, including GTAV-to-Cityscapes by 1.3 percent point (pp), Synthia-to-Cityscapes by 0.6 pp, and Cityscapes-to-ACDC by 1.1 pp, on average. Additionally, we verify the effectiveness and generalizability of our method through extensive experiments. Our code will be publicly available.
translated by 谷歌翻译
动态对象对机器人对环境的看法产生了重大影响,这降低了本地化和映射等基本任务的性能。在这项工作中,我们通过在由动态对象封闭的区域中合成合理的颜色,纹理和几何形状来解决这个问题。我们提出了一种新的几何感知Dynafill架构,其遵循粗略拓扑,并将我们所通用的经常性反馈机制结合到自适应地融合来自之前的时间步来的信息。我们使用对抗性培训来优化架构,以综合精细的现实纹理,使其能够以空间和时间相干的方式在线在线遮挡地区的幻觉和深度结构,而不依赖于未来的帧信息。将我们的待遇问题作为图像到图像到图像的翻译任务,我们的模型还纠正了与场景中动态对象的存在相关的区域,例如阴影或反射。我们引入了具有RGB-D图像,语义分段标签,摄像机的大型高估数据集,以及遮挡区域的地面RGB-D信息。广泛的定量和定性评估表明,即使在挑战天气条件下,我们的方法也能实现最先进的性能。此外,我们使用综合图像显示基于检索的视觉本地化的结果,该图像证明了我们方法的效用。
translated by 谷歌翻译
无监督的域适应(UDA)旨在使源域上培训的模型适应到新的目标域,其中没有可用标记的数据。在这项工作中,我们调查从合成计算机生成的域的UDA的问题,以用于学习语义分割的类似但实际的域。我们提出了一种与UDA的一致性正则化方法结合的语义一致的图像到图像转换方法。我们克服了将合成图像转移到真实的图像的先前限制。我们利用伪标签来学习生成的图像到图像转换模型,该图像到图像转换模型从两个域上的语义标签接收额外的反馈。我们的方法优于最先进的方法,将图像到图像转换和半监督学习与相关域适应基准,即Citycapes和Synthia上的CutyCapes和Synthia进行了全面的学习。
translated by 谷歌翻译