将带家具的房间图像转换为背景的任务 - 仅是非常具有挑战性,因为它需要在仍然保持整体布局和风格的同时进行大量变化。为了获得照片 - 现实和结构一致的背景,现有的深度学习方法使用图像修复方法或将场景布局的学习作为个人任务,以后在不完全可分辨率的语义区域自适应归一代化模块中利用它。为了解决这些缺点,我们将场景布局生成视为特征线性变换问题,并提出了一个简单但有效的调整后的完全可分辨率的软语义区域 - 自适应归一化模块(SoftSean)块。我们展示了现实和深度估计任务的缩短和深度估计任务中的适用性,在那里我们的方法除了减轻培训复杂性和不可差异性问题的优点,超越了定量和定性的比较方法。我们的SoftSean块可用作现有辨别和生成模型的液位模块。在vcl3d.github.io/panodr/上提供实现。
translated by 谷歌翻译
语义图像编辑利用本地语义标签图来生成所需的内容。最近的工作借用了Spade Block来实现语义图像编辑。但是,由于编辑区域和周围像素之间的样式差异,它无法产生令人愉悦的结果。我们将其归因于以下事实:Spade仅使用与图像无关的局部语义布局,但忽略了已知像素中包含的图像特定样式。为了解决此问题,我们提出了一个样式保存的调制(SPM),其中包括两个调制过程:第一个调制包含上下文样式和语义布局,然后生成两个融合的调制参数。第二次调制采用融合参数来调制特征图。通过使用这两种调制,SPM可以在保留特定图像的上下文样式的同时注入给定的语义布局。此外,我们设计了一种渐进式体系结构,以粗到精细的方式生成编辑的内容。提出的方法可以获得上下文一致的结果,并显着减轻生成区域和已知像素之间的不愉快边界。
translated by 谷歌翻译
动态对象对机器人对环境的看法产生了重大影响,这降低了本地化和映射等基本任务的性能。在这项工作中,我们通过在由动态对象封闭的区域中合成合理的颜色,纹理和几何形状来解决这个问题。我们提出了一种新的几何感知Dynafill架构,其遵循粗略拓扑,并将我们所通用的经常性反馈机制结合到自适应地融合来自之前的时间步来的信息。我们使用对抗性培训来优化架构,以综合精细的现实纹理,使其能够以空间和时间相干的方式在线在线遮挡地区的幻觉和深度结构,而不依赖于未来的帧信息。将我们的待遇问题作为图像到图像到图像的翻译任务,我们的模型还纠正了与场景中动态对象的存在相关的区域,例如阴影或反射。我们引入了具有RGB-D图像,语义分段标签,摄像机的大型高估数据集,以及遮挡区域的地面RGB-D信息。广泛的定量和定性评估表明,即使在挑战天气条件下,我们的方法也能实现最先进的性能。此外,我们使用综合图像显示基于检索的视觉本地化的结果,该图像证明了我们方法的效用。
translated by 谷歌翻译
图像合成的现有方法利用基于堆叠的堆叠和池层的样式编码器,以从输入图像生成样式代码。然而,编码的矢量不一定包含相应图像的本地信息,因为通过这种缩小程序往往将小规模对象倾向于“撤离”。在本文中,我们提出了基于Superpixel的式编码器的深度图像合成,名为SuperstyLeNet。首先,我们基于SuperPixels直接从原始图像中提取样式代码,以考虑本地对象。其次,基于图形分析,我们在矢量化风格代码中恢复空间关系。因此,所提出的网络通过将样式代码映射到语义标签来实现高质量的图像合成。实验结果表明,该方法在视觉质量和定量测量方面优于最先进的方法。此外,我们通过调整样式代码来实现精心制作的空间方式编辑。
translated by 谷歌翻译
在本文中,我们专注于人物图像的生成,即在各种条件下产生人物图像,例如腐败的纹理或不同的姿势。在此任务中解决纹理遮挡和大构成错位,以前的作品只使用相应的区域的风格来推断遮挡区域并依靠点明智的对齐来重新组织上下文纹理信息,缺乏全局关联地区的能力代码并保留源的局部结构。为了解决这些问题,我们提出了一种Glocal框架,通过全球推理不同语义区域之间的样式相互关系来改善遮挡感知纹理估计,这也可以用于恢复纹理染色中的损坏图像。对于本地结构信息保存,我们进一步提取了源图像的本地结构,并通过本地结构传输在所生成的图像中重新获得。我们基准测试我们的方法,以充分表征其对Deepfashion DataSet的性能,并显示出突出我们方法的新颖性的广泛消融研究。
translated by 谷歌翻译
提供和渲染室内场景一直是室内设计的一项长期任务,艺术家为空间创建概念设计,建立3D模型的空间,装饰,然后执行渲染。尽管任务很重要,但它很乏味,需要巨大的努力。在本文中,我们引入了一个特定领域的室内场景图像合成的新问题,即神经场景装饰。鉴于一张空的室内空间的照片以及用户确定的布局列表,我们旨在合成具有所需的家具和装饰的相同空间的新图像。神经场景装饰可用于以简单而有效的方式创建概念室内设计。我们解决这个研究问题的尝试是一种新颖的场景生成体系结构,它将空的场景和对象布局转化为现实的场景照片。我们通过将其与有条件图像合成基线进行比较,以定性和定量的方式将其进行比较,证明了我们提出的方法的性能。我们进行广泛的实验,以进一步验证我们生成的场景的合理性和美学。我们的实现可在\ url {https://github.com/hkust-vgd/neural_scene_decoration}获得。
translated by 谷歌翻译
We propose semantic region-adaptive normalization (SEAN), a simple but effective building block for Generative Adversarial Networks conditioned on segmentation masks that describe the semantic regions in the desired output image. Using SEAN normalization, we can build a network architecture that can control the style of each semantic region individually, e.g., we can specify one style reference image per region. SEAN is better suited to encode, transfer, and synthesize style than the best previous method in terms of reconstruction quality, variability, and visual quality. We evaluate SEAN on multiple datasets and report better quan-titative metrics (e.g. FID, PSNR) than the current state of the art. SEAN also pushes the frontier of interactive image editing. We can interactively edit images by changing segmentation masks or the style for any given region. We can also interpolate styles from two reference images per region. Code: https://github.com/ZPdesu/SEAN .
translated by 谷歌翻译
深度学习方法在图像染色中优于传统方法。为了生成上下文纹理,研究人员仍在努力改进现有方法,并提出可以提取,传播和重建类似于地面真实区域的特征的模型。此外,更深层的缺乏高质量的特征传递机制有助于对所产生的染色区域有助于持久的像差。为了解决这些限制,我们提出了V-Linknet跨空间学习策略网络。为了改善语境化功能的学习,我们设计了一种使用两个编码器的损失模型。此外,我们提出了递归残留过渡层(RSTL)。 RSTL提取高电平语义信息并将其传播为下层。最后,我们将在与不同面具的同一面孔和不同面部面上的相同面上进行了比较的措施。为了提高图像修复再现性,我们提出了一种标准协议来克服各种掩模和图像的偏差。我们使用实验方法调查V-LinkNet组件。当使用标准协议时,在Celeba-HQ上评估时,我们的结果超越了现有技术。此外,我们的模型可以在Paris Street View上评估时概括良好,以及具有标准协议的Parume2数据集。
translated by 谷歌翻译
基于补丁的方法和深度网络已经采用了解决图像染色问题,具有自己的优势和劣势。基于补丁的方法能够通过从未遮盖区域搜索最近的邻居修补程序来恢复具有高质量纹理的缺失区域。但是,这些方法在恢复大缺失区域时会带来问题内容。另一方面,深度网络显示有希望的成果完成大区域。尽管如此,结果往往缺乏类似周围地区的忠诚和尖锐的细节。通过汇集两个范式中,我们提出了一种新的深度染色框架,其中纹理生成是由从未掩蔽区域提取的补丁样本的纹理记忆引导的。该框架具有一种新颖的设计,允许使用深度修复网络训练纹理存储器检索。此外,我们还介绍了贴片分配损失,以鼓励高质量的贴片合成。所提出的方法在三个具有挑战性的图像基准测试中,即地位,Celeba-HQ和巴黎街道视图数据集来说,该方法显示出质量和定量的卓越性能。
translated by 谷歌翻译
面部图像中的对象删除和图像介绍是一项任务,其中遮挡面部图像的对象被专门针对,删除和替换为正确重建的面部图像。利用U-NET和调制发电机的两种不同的方法已被广泛认可了该任务的独特优势,但尽管每种方法的先天缺点。 u-net是一种有条件剂的常规方法,保留了未掩盖区域的精细细节,但是重建图像的样式与原始图像的其余部分不一致,并且只有在遮挡对象的大小足够小时才可以坚固。相比之下,调制生成方法可以处理图像中较大的阻塞区域,并提供{a}更一致的样式,但通常会错过大多数详细功能。这两种模型之间的这种权衡需要制定模型的发明,该模型可以应用于任何尺寸的面具,同时保持一致的样式并保留面部特征的细节细节。在这里,我们提出了语义引导的介绍网络(SGIN)本身是对调制发电机的修改,旨在利用其先进的生成能力并保留原始图像的高保真详细信息。通过使用语义图的指导,我们的模型能够操纵面部特征,这些特征将方向赋予了一对多问题,以进一步实用。
translated by 谷歌翻译
场景文本擦除,它在自然图像中替换了具有合理内容的文本区域,近年来在计算机视觉社区中造成了重大关注。场景文本删除中有两个潜在的子任务:文本检测和图像修复。两个子任务都需要相当多的数据来实现更好的性能;但是,缺乏大型现实世界场景文本删除数据集不允许现有方法实现其潜力。为了弥补缺乏成对的真实世界数据,我们在额外的增强后大大使用了合成文本,随后仅在改进的合成文本引擎生成的数据集上培训了我们的模型。我们所提出的网络包含一个笔划掩模预测模块和背景染色模块,可以从裁剪文本图像中提取文本笔划作为相对较小的孔,以维持更多的背景内容以获得更好的修复结果。该模型可以用边界框部分删除场景图像中的文本实例,或者使用现有场景文本检测器进行自动场景文本擦除。 SCUT-SYN,ICDAR2013和SCUT-ENSTEXT数据集的定性和定量评估的实验结果表明,即使在现实世界数据上培训,我们的方法也显着优于现有的最先进的方法。
translated by 谷歌翻译
图像介入寻求一种语义一致的方法,以根据其未掩盖的内容来恢复损坏的图像。以前的方法通常将训练有素的甘恩重复使用,然后在产生逼真的斑块中用于缺少GAN反转的孔。然而,在这些算法中对硬约束的无知可能会产生gan倒置和图像插入之间的差距。在解决这个问题的情况下,我们在本文中设计了一个新颖的GAN反转模型,用于图像插入,称为Interverfill,主要由带有预调制模块的编码器和具有F&W+潜在空间的GAN生成器组成。在编码器中,预调制网络利用多尺度结构将更多的歧视语义编码为样式向量。为了弥合GAN倒置和图像插入之间的缝隙,提出了F&W+潜在空间以消除巨大的颜色差异和语义不一致。为了重建忠实和逼真的图像,一个简单而有效的软上升平均潜在模块旨在捕获更多样化的内域模式,以合成大型腐败的高保真质地。在包括Ploce2,Celeba-HQ,Metfaces和Scenery在内的四个具有挑战性的数据集上进行的全面实验表明,我们的Intervill效果优于定性和定量的高级方法,并支持室外图像的完成。
translated by 谷歌翻译
强大的模拟器高度降低了在培训和评估自动车辆时对真实测试的需求。数据驱动的模拟器蓬勃发展,最近有条件生成对冲网络(CGANS)的进步,提供高保真图像。主要挑战是在施加约束之后的同时合成光量造型图像。在这项工作中,我们建议通过重新思考鉴别者架构来提高所生成的图像的质量。重点是在给定对语义输入生成图像的问题类上,例如场景分段图或人体姿势。我们建立成功的CGAN模型,提出了一种新的语义感知鉴别器,更好地指导发电机。我们的目标是学习一个共享的潜在表示,编码足够的信息,共同进行语义分割,内容重建以及粗糙的粒度的对抗性推理。实现的改进是通用的,并且可以应用于任何条件图像合成的任何架构。我们展示了我们在场景,建筑和人类综合任务上的方法,跨越三个不同的数据集。代码可在https://github.com/vita-epfl/semdisc上获得。
translated by 谷歌翻译
最近的图像入介方法取得了长足的进步,但在处理复杂图像中的大孔时,通常很难产生合理的图像结构。这部分是由于缺乏有效的网络结构可以捕获图像的远程依赖性和高级语义。我们提出了级联调制GAN(CM-GAN),这是一种新的网络设计,由编码器组成,该设计由带有傅立叶卷积块的编码器组成,该块从带有孔的输入图像中提取多尺度特征表示,并带有带有新型级联全球空间调制的双流式解码器在每个比例尺上块。在每个解码器块中,首先应用全局调制以执行粗糙和语义感知的结构合成,然后进行空间调制以进一步以空间自适应的方式调整特征图。此外,我们设计了一种对象感知的培训方案,以防止网络在孔内部幻觉,从而满足实际情况下对象删除任务的需求。进行了广泛的实验,以表明我们的方法在定量和定性评估中都显着优于现有方法。请参阅项目页面:\ url {https://github.com/htzheng/cm-gan-inpainting}。
translated by 谷歌翻译
尽管深度学习使图像介绍方面取得了巨大的飞跃,但当前的方法通常无法综合现实的高频细节。在本文中,我们建议将超分辨率应用于粗糙的重建输出,以高分辨率进行精炼,然后将输出降低到原始分辨率。通过将高分辨率图像引入改进网络,我们的框架能够重建更多的细节,这些细节通常由于光谱偏置而被平滑 - 神经网络倾向于比高频更好地重建低频。为了协助培训大型高度孔洞的改进网络,我们提出了一种渐进的学习技术,其中缺失区域的大小随着培训的进行而增加。我们的缩放,完善和缩放策略,结合了高分辨率的监督和渐进学习,构成了一种框架 - 不合时宜的方法,用于增强高频细节,可应用于任何基于CNN的涂层方法。我们提供定性和定量评估以及消融分析,以显示我们方法的有效性。这种看似简单但功能强大的方法优于最先进的介绍方法。我们的代码可在https://github.com/google/zoom-to-inpaint中找到
translated by 谷歌翻译
近年来,双相面孔皮草草图合成的显着进展随着生成的对抗性网络(GAN)的发展。双相面孔光学素材合成可以应用于数字娱乐和执法等宽范围的领域。然而,由于实际场景中的草图和复杂的照片变化,产生现实照片和不同的草图遭受了极大的挑战。为此,我们提出了一种新颖的语义驱动生成的对抗网络来解决上述问题,与图形表示学习合作。具体而言,我们将Class-Wise语义布局注入发电机以提供基于样式的空间监督,用于合成面部照片和草图。此外,为了提高生成的结果的保真度,我们利用语义布局来构造两种类型的代表性图,该图表示综合图像的类内语义特征和级别的结构特征。此外,我们基于所提出的代表性图设计了两种类型的约束,其便于保存生成的面部照片和草图中的细节。此外,为了进一步增强合成图像的感知质量,我们提出了一种新的双相培训策略,致力于通过迭代周期培训来细化所产生的结果。在CUFS和CUFSF数据集上进行了广泛的实验,以证明我们提出的方法实现了最先进的性能的突出能力。
translated by 谷歌翻译
深层图像介绍取得了令人印象深刻的进步,随着图像产生和处理算法的最新进展。我们声称,可以通过生成的结构和纹理更好地判断介入算法的性能。结构是指孔中生成的对象边界或新的几何结构,而纹理是指高频细节,尤其是在结构区域内填充的人造重复模式。我们认为,更好的结构通常是从基于粗糙的GAN的发电机网络中获得的,而如今重复模式可以通过最新的高频快速快速傅立叶卷积层进行更好的建模。在本文中,我们提出了一个新颖的介绍网络,结合了这两种设计的优势。因此,我们的模型具有出色的视觉质量,可以匹配结构生成和使用单个网络重复纹理合成的最新性能。广泛的实验证明了该方法的有效性,我们的结论进一步突出了图像覆盖质量,结构和纹理的两个关键因素,即未来的设计方向。
translated by 谷歌翻译
深度完成旨在预测从深度传感器(例如Lidars)中捕获的极稀疏图的密集像素深度。它在各种应用中起着至关重要的作用,例如自动驾驶,3D重建,增强现实和机器人导航。基于深度学习的解决方案已经证明了这项任务的最新成功。在本文中,我们首次提供了全面的文献综述,可帮助读者更好地掌握研究趋势并清楚地了解当前的进步。我们通过通过对现有方法进行分类的新型分类法提出建议,研究网络体系结构,损失功能,基准数据集和学习策略的设计方面的相关研究。此外,我们在包括室内和室外数据集(包括室内和室外数据集)上进行了三个广泛使用基准测试的模型性能进行定量比较。最后,我们讨论了先前作品的挑战,并为读者提供一些有关未来研究方向的见解。
translated by 谷歌翻译
大多数现代脸部完成方法采用AutoEncoder或其变体来恢复面部图像中缺失的区域。编码器通常用于学习强大的表现,在满足复杂的学习任务的挑战方面发挥着重要作用。具体地,各种掩模通常在野外的面部图像中呈现,形成复杂的图案,特别是在Covid-19的艰难时期。编码器很难在这种复杂的情况下捕捉如此强大的陈述。为了解决这一挑战,我们提出了一个自我监督的暹罗推论网络,以改善编码器的泛化和鲁棒性。它可以从全分辨率图像编码上下文语义并获得更多辨别性表示。为了处理面部图像的几何变型,将密集的对应字段集成到网络中。我们进一步提出了一种具有新型双重关注融合模块(DAF)的多尺度解码器,其可以以自适应方式将恢复和已知区域组合。这种多尺度架构有利于解码器利用从编码器学习到图像中的辨别性表示。广泛的实验清楚地表明,与最先进的方法相比,拟议的方法不仅可以实现更具吸引力的结果,而且还提高了蒙面的面部识别的性能。
translated by 谷歌翻译