当面对复杂的语义环境和各种孔模式时,现有的基于学习的图像介绍方法仍在挑战。从大规模培训数据中学到的先前信息仍然不足以解决这些情况。捕获的覆盖相同场景的参考图像与损坏的图像共享相似的纹理和结构先验,该图像为图像授课任务提供了新的前景。受此启发的启发,我们首先构建了一个基准数据集,其中包含10k对的输入和参考图像,以引入引导介绍。然后,我们采用编码器解码器结构来分别推断输入图像的纹理和结构特征,考虑其在indpaining期间的纹理和结构差异。进一步设计特征对齐模块,以通过参考图像的指导来完善输入图像的这些特征。定量和定性评估都证明了我们方法在完成复杂孔方面的优越性。
translated by 谷歌翻译
最近在图像染色的作品表明,结构信息在恢复视觉上令人愉悦的结果方面发挥着重要作用。在本文中,我们提出了由基于两个并行发射机的流组成的端到端架构:主流(MS)和结构流(SS)。在SS的帮助下,MS可以产生具有合理结构和现实细节的合理结果。具体地,MS通过同时推断丢失的结构和纹理来重建详细图像,并且SS仅通过从MS的编码器处理分层信息来恢复丢失的结构。通过在培训过程中与SS进行互动,可以暗示MS可以暗示利用结构性提示。为了帮助SS专注于结构并防止MS中的纹理受到影响,提出了一种门控单元来抑制MS和SS之间的信息流中的结构无关激活。此外,SS中的多尺度结构特征映射用于明确指导通过融合块的MS的解码器中的结构合理的图像重建。在Celeba,Paris Streetview和Parume2数据集上进行了广泛的实验表明我们所提出的方法优于最先进的方法。
translated by 谷歌翻译
通过最近使用深神经网络,图像纯洁方法显示出显着的改进。然而,许多这些技术经常产生与周围区域不一致的扭曲的结构或模糊纹理。该问题植根于编码器层的无效,在建立缺失地区的完全和忠实的嵌入时。为了解决这个问题,两阶段方法部署了两个单独的网络,用于对染色图像的粗略和精细估计。一些方法利用手工制作的特征,如边缘或轮廓,以指导重建过程。由于多个发电机网络,手工特征有限,并且在地面真理中存在的信息的次优,这些方法遭受巨大的计算开销。通过这些观察结果,我们提出了一种基于蒸馏的方法,用于以自适应方式为编码器层提供直接特征级监督。我们部署交叉和自蒸馏技术,并讨论了对编码器中专用完成块的需要,以实现蒸馏靶。我们对多个数据集进行广泛的评估以验证我们的方法。
translated by 谷歌翻译
基于补丁的方法和深度网络已经采用了解决图像染色问题,具有自己的优势和劣势。基于补丁的方法能够通过从未遮盖区域搜索最近的邻居修补程序来恢复具有高质量纹理的缺失区域。但是,这些方法在恢复大缺失区域时会带来问题内容。另一方面,深度网络显示有希望的成果完成大区域。尽管如此,结果往往缺乏类似周围地区的忠诚和尖锐的细节。通过汇集两个范式中,我们提出了一种新的深度染色框架,其中纹理生成是由从未掩蔽区域提取的补丁样本的纹理记忆引导的。该框架具有一种新颖的设计,允许使用深度修复网络训练纹理存储器检索。此外,我们还介绍了贴片分配损失,以鼓励高质量的贴片合成。所提出的方法在三个具有挑战性的图像基准测试中,即地位,Celeba-HQ和巴黎街道视图数据集来说,该方法显示出质量和定量的卓越性能。
translated by 谷歌翻译
Most existing image inpainting algorithms are based on a single view, struggling with large holes or the holes containing complicated scenes. Some reference-guided algorithms fill the hole by referring to another viewpoint image and use 2D image alignment. Due to the camera imaging process, simple 2D transformation is difficult to achieve a satisfactory result. In this paper, we propose 3DFill, a simple and efficient method for reference-guided image inpainting. Given a target image with arbitrary hole regions and a reference image from another viewpoint, the 3DFill first aligns the two images by a two-stage method: 3D projection + 2D transformation, which has better results than 2D image alignment. The 3D projection is an overall alignment between images and the 2D transformation is a local alignment focused on the hole region. The entire process of image alignment is self-supervised. We then fill the hole in the target image with the contents of the aligned image. Finally, we use a conditional generation network to refine the filled image to obtain the inpainting result. 3DFill achieves state-of-the-art performance on image inpainting across a variety of wide view shifts and has a faster inference speed than other inpainting models.
translated by 谷歌翻译
本文提出了一种新颖的视频介绍方法。我们做出了三个主要贡献:首先,我们通过引入基于贴片的同型(DEPTH)扩展了以前的变压器,以补丁的对齐方式扩展了贴片对齐,该均值(DEPTH)改善了补丁级的功能对齐,而没有其他有各种变形的监督和受益的挑战场景。其次,我们引入了基于面膜修剪的贴片注意力(MPPA),以通过修剪较少的基本功能和使用显着性图来改善贴合的功能匹配。MPPA用无效的像素增强了扭曲令牌之间的匹配精度。第三,我们引入了空间加权适配器(STA)模块,以在从深度中学到的变形因子的指导下,准确地关注空间代币,尤其是对于具有敏捷运动的视频。实验结果表明,我们的方法在定性和定量上优于最新方法,并实现了新的最新方法。
translated by 谷歌翻译
图像介入是一个不适的问题,可以基于带有遮罩的不完整图像来恢复缺失或损坏的图像内容。以前的作品通常可以预测辅助结构(例如边缘,分割和轮廓),以帮助以多阶段的方式填充视觉逼真的斑块。但是,不精确的辅助先验可能会产生有偏见的成分结果。此外,对于复杂的神经网络的多个阶段来实现的某些方法是耗时的。为了解决此问题,我们开发了一个端到端的多模式引导的变压器网络,包括一个镶嵌分支和两个用于语义分割和边缘纹理的辅助分支。在每个变压器块中,提出的多尺度空间感知注意模块可以通过辅助构成规范有效地学习多模式结构特征。与以前依赖于偏见先验的直接指导的方法不同,我们的方法基于来自多种模式的判别性相互作用信息,在图像中具有语义一致的上下文。关于几个具有挑战性的图像镶嵌数据集的全面实验表明,我们的方法实现了最先进的性能,以有效地处理各种常规/不规则面具。
translated by 谷歌翻译
场景文本擦除,它在自然图像中替换了具有合理内容的文本区域,近年来在计算机视觉社区中造成了重大关注。场景文本删除中有两个潜在的子任务:文本检测和图像修复。两个子任务都需要相当多的数据来实现更好的性能;但是,缺乏大型现实世界场景文本删除数据集不允许现有方法实现其潜力。为了弥补缺乏成对的真实世界数据,我们在额外的增强后大大使用了合成文本,随后仅在改进的合成文本引擎生成的数据集上培训了我们的模型。我们所提出的网络包含一个笔划掩模预测模块和背景染色模块,可以从裁剪文本图像中提取文本笔划作为相对较小的孔,以维持更多的背景内容以获得更好的修复结果。该模型可以用边界框部分删除场景图像中的文本实例,或者使用现有场景文本检测器进行自动场景文本擦除。 SCUT-SYN,ICDAR2013和SCUT-ENSTEXT数据集的定性和定量评估的实验结果表明,即使在现实世界数据上培训,我们的方法也显着优于现有的最先进的方法。
translated by 谷歌翻译
在图像中恢复任意缺失区域的合理和现实内容是一个重要而挑战性的任务。尽管最近的图像批量模型在生动的视觉细节方面取得了重大进展,但它们仍然可以导致纹理模糊或由于在处理更复杂的场景时由于上下文模糊而导致的结构扭曲。为了解决这个问题,我们提出了通过学习来自特定借口任务的多尺度语义代理的想法激励的语义金字塔网络(SPN)可以大大使图像中局部缺失内容的恢复极大地利益。 SPN由两个组件组成。首先,它将语义前视图从托管模型蒸馏到多尺度特征金字塔,实现对全局背景和局部结构的一致了解。在现有的学习者内,我们提供了一个可选模块,用于变分推理,以实现由各种学习的前沿驱动的概率图像染色。 SPN的第二组件是完全上下文感知的图像生成器,其在与(随机)先前金字塔一起自适应地和逐渐地改进低级视觉表示。我们将先前的学习者和图像发生器培训为统一模型,而无需任何后处理。我们的方法在多个数据集中实现了本领域的最先进,包括在确定性和概率的侵略设置下,包括Parket2,Paris Streetview,Celeba和Celeba-HQ。
translated by 谷歌翻译
深层图像介绍取得了令人印象深刻的进步,随着图像产生和处理算法的最新进展。我们声称,可以通过生成的结构和纹理更好地判断介入算法的性能。结构是指孔中生成的对象边界或新的几何结构,而纹理是指高频细节,尤其是在结构区域内填充的人造重复模式。我们认为,更好的结构通常是从基于粗糙的GAN的发电机网络中获得的,而如今重复模式可以通过最新的高频快速快速傅立叶卷积层进行更好的建模。在本文中,我们提出了一个新颖的介绍网络,结合了这两种设计的优势。因此,我们的模型具有出色的视觉质量,可以匹配结构生成和使用单个网络重复纹理合成的最新性能。广泛的实验证明了该方法的有效性,我们的结论进一步突出了图像覆盖质量,结构和纹理的两个关键因素,即未来的设计方向。
translated by 谷歌翻译
深度学习方法在图像染色中优于传统方法。为了生成上下文纹理,研究人员仍在努力改进现有方法,并提出可以提取,传播和重建类似于地面真实区域的特征的模型。此外,更深层的缺乏高质量的特征传递机制有助于对所产生的染色区域有助于持久的像差。为了解决这些限制,我们提出了V-Linknet跨空间学习策略网络。为了改善语境化功能的学习,我们设计了一种使用两个编码器的损失模型。此外,我们提出了递归残留过渡层(RSTL)。 RSTL提取高电平语义信息并将其传播为下层。最后,我们将在与不同面具的同一面孔和不同面部面上的相同面上进行了比较的措施。为了提高图像修复再现性,我们提出了一种标准协议来克服各种掩模和图像的偏差。我们使用实验方法调查V-LinkNet组件。当使用标准协议时,在Celeba-HQ上评估时,我们的结果超越了现有技术。此外,我们的模型可以在Paris Street View上评估时概括良好,以及具有标准协议的Parume2数据集。
translated by 谷歌翻译
图像缝线旨在缝合从不同的观点拍摄的图像到与更广泛的视野的图象。现有方法使用估计的扭曲函数将目标图像翘曲到参考图像,并且同情是最常用的翘曲功能之一。然而,当由于相机的非平面场景和平移运动导致图像具有大的视差时,同性特性不能完全描述两个图像之间的映射。基于全局或​​本地同类估计的现有方法不存在来自此问题的不含问题,并且由于视差而受到不期望的伪影。在本文中,而不是依赖于基于同位的扭曲,我们提出了一种新颖的深度图像拼接框架,利用像素 - 明智的横田来处理大视差问题。所提出的深度图像拼接框架由两个模块组成:像素 - 明智的翘曲模块(PWM)和缝合图像生成模块(SIGMO)。 PWM采用光学流量估计模型来获得整个图像的像素方面的翘曲,并通过所获得的跨场重新恢复目标图像的像素。 SIGMO将翘曲的目标图像和参考图像混合,同时消除了诸如损害缝合结果的合理性的未对准,接缝和孔的不需要的伪影。为了培训和评估所提出的框架,我们构建了一个大规模数据集,包括具有相应像素的图像对的图像对,该图像对进行映像对实际翘曲和样本缝合结果图像。我们表明,所提出的框架的结果与传统方法的结果优于常规方法,特别是当图像具有大视差时。代码和建议的数据集即将公开发布。
translated by 谷歌翻译
图像介入寻求一种语义一致的方法,以根据其未掩盖的内容来恢复损坏的图像。以前的方法通常将训练有素的甘恩重复使用,然后在产生逼真的斑块中用于缺少GAN反转的孔。然而,在这些算法中对硬约束的无知可能会产生gan倒置和图像插入之间的差距。在解决这个问题的情况下,我们在本文中设计了一个新颖的GAN反转模型,用于图像插入,称为Interverfill,主要由带有预调制模块的编码器和具有F&W+潜在空间的GAN生成器组成。在编码器中,预调制网络利用多尺度结构将更多的歧视语义编码为样式向量。为了弥合GAN倒置和图像插入之间的缝隙,提出了F&W+潜在空间以消除巨大的颜色差异和语义不一致。为了重建忠实和逼真的图像,一个简单而有效的软上升平均潜在模块旨在捕获更多样化的内域模式,以合成大型腐败的高保真质地。在包括Ploce2,Celeba-HQ,Metfaces和Scenery在内的四个具有挑战性的数据集上进行的全面实验表明,我们的Intervill效果优于定性和定量的高级方法,并支持室外图像的完成。
translated by 谷歌翻译
Figure 1: Example inpainting results of our method on images of natural scene, face and texture. Missing regions are shown in white. In each pair, the left is input image and right is the direct output of our trained generative neural networks without any post-processing.
translated by 谷歌翻译
图像介入是将图像的掩盖或未知区域填充具有视觉上现实内容的任务,最近,深层神经网络(DNNS)极大地改善了图像。从本质上讲,作为一个反问题,内部介绍面临着在没有纹理伪像的情况下重建语义相干结果的根本挑战。以前的许多努力是通过利用注意机制和先验知识(例如边缘和语义分割)做出的。但是,这些作品在实践中仍然受到可学习的先验参数和刺激性计算负担的限制。为此,我们提出了一个新颖的模型 - 轴向镶嵌网络(WAIN)中的小波事先注意学习,其发电机包含编码器,解码器以及小波图像的两个关键组件先验注意力(WPA)和堆叠的多层层轴向转化器(ATS)。特别是,WPA指导多尺度频域中的高级特征聚集,从而减轻了文本伪像。堆叠的ATS采用未掩盖的线索来帮助建模合理的功能以及水平和垂直轴的低级特征,从而提高语义连贯性。对Celeba-HQ和Place2数据集进行了广泛的定量和定性实验,以验证我们的Wain可以在竞争对手上实现最新的性能。代码和模型将发布。
translated by 谷歌翻译
大多数现代脸部完成方法采用AutoEncoder或其变体来恢复面部图像中缺失的区域。编码器通常用于学习强大的表现,在满足复杂的学习任务的挑战方面发挥着重要作用。具体地,各种掩模通常在野外的面部图像中呈现,形成复杂的图案,特别是在Covid-19的艰难时期。编码器很难在这种复杂的情况下捕捉如此强大的陈述。为了解决这一挑战,我们提出了一个自我监督的暹罗推论网络,以改善编码器的泛化和鲁棒性。它可以从全分辨率图像编码上下文语义并获得更多辨别性表示。为了处理面部图像的几何变型,将密集的对应字段集成到网络中。我们进一步提出了一种具有新型双重关注融合模块(DAF)的多尺度解码器,其可以以自适应方式将恢复和已知区域组合。这种多尺度架构有利于解码器利用从编码器学习到图像中的辨别性表示。广泛的实验清楚地表明,与最先进的方法相比,拟议的方法不仅可以实现更具吸引力的结果,而且还提高了蒙面的面部识别的性能。
translated by 谷歌翻译
最近的基于学习的初始化算法已经达到了在删除视频中的不期望的对象之后完成缺失区域的令人信服的结果。为了保持帧之间的时间一致性,3D空间和时间操作通常在深网络中使用。但是,这些方法通常遭受内存约束,只能处理低分辨率视频。我们提出了一种用于高分辨率视频侵略的新型空间剩余聚集框架。关键的想法是首先在下采样的低分辨率视频上学习和应用空间和时间内染色网络。然后,我们通过将学习的空间和时间图像残差(细节)聚合到上采样的染色帧来细化低分辨率结果。定量和定性评估都表明,我们可以生产出比确定高分辨率视频的最先进的方法产生更多的时间相干和视觉上吸引力。
translated by 谷歌翻译
Fig. 1. Masked images and corresponding inpainted results using our partialconvolution based network.
translated by 谷歌翻译
在过去十年中,深度学习的出现极大地帮助进步了图像。尽管实现了有希望的性能,但基于深度学习的载体算法仍然因结构和上下文特征的融合而造成的失真而挣扎,这些特征通常是从卷积编码器的深层和浅层层中获得的。在这一观察过程中,我们提出了一个新型的渐进式介绍网络,该网络维持了处理的图像的结构和上下文完整性。更具体地说,受高斯和拉普拉斯金字塔的启发,提出的网络的核心是一个名为GLE的特征提取模块。堆叠GLE模块使网络能够从不同的图像频率组件中提取图像特征。这种能力对于维持结构和上下文完整性很重要,对于高频组件对应于结构信息,而低频组件对应于上下文信息。提出的网络利用GLE功能以迭代方式逐渐以损坏的图像填充缺失区域。我们的基准测试实验表明,所提出的方法在许多最先进的介绍算法上取得了明显的改善。
translated by 谷歌翻译
由于波长依赖性的光衰减,折射和散射,水下图像通常遭受颜色变形和模糊的细节。然而,由于具有未变形图像的数量有限数量的图像作为参考,培训用于各种降解类型的深度增强模型非常困难。为了提高数据驱动方法的性能,必须建立更有效的学习机制,使得富裕监督来自有限培训的示例资源的信息。在本文中,我们提出了一种新的水下图像增强网络,称为Sguie-net,其中我们将语义信息引入了共享常见语义区域的不同图像的高级指导。因此,我们提出了语义区域 - 明智的增强模块,以感知不同语义区域从多个尺度的劣化,并将其送回从其原始比例提取的全局注意功能。该策略有助于实现不同的语义对象的强大和视觉上令人愉快的增强功能,这应该由于对差异化增强的语义信息的指导应该。更重要的是,对于在训练样本分布中不常见的那些劣化类型,指导根据其语义相关性与已经良好的学习类型连接。对公共数据集的广泛实验和我们拟议的数据集展示了Sguie-Net的令人印象深刻的表现。代码和建议的数据集可用于:https://trentqq.github.io/sguie-net.html
translated by 谷歌翻译