大多数现代脸部完成方法采用AutoEncoder或其变体来恢复面部图像中缺失的区域。编码器通常用于学习强大的表现,在满足复杂的学习任务的挑战方面发挥着重要作用。具体地,各种掩模通常在野外的面部图像中呈现,形成复杂的图案,特别是在Covid-19的艰难时期。编码器很难在这种复杂的情况下捕捉如此强大的陈述。为了解决这一挑战,我们提出了一个自我监督的暹罗推论网络,以改善编码器的泛化和鲁棒性。它可以从全分辨率图像编码上下文语义并获得更多辨别性表示。为了处理面部图像的几何变型,将密集的对应字段集成到网络中。我们进一步提出了一种具有新型双重关注融合模块(DAF)的多尺度解码器,其可以以自适应方式将恢复和已知区域组合。这种多尺度架构有利于解码器利用从编码器学习到图像中的辨别性表示。广泛的实验清楚地表明,与最先进的方法相比,拟议的方法不仅可以实现更具吸引力的结果,而且还提高了蒙面的面部识别的性能。
translated by 谷歌翻译
基于补丁的方法和深度网络已经采用了解决图像染色问题,具有自己的优势和劣势。基于补丁的方法能够通过从未遮盖区域搜索最近的邻居修补程序来恢复具有高质量纹理的缺失区域。但是,这些方法在恢复大缺失区域时会带来问题内容。另一方面,深度网络显示有希望的成果完成大区域。尽管如此,结果往往缺乏类似周围地区的忠诚和尖锐的细节。通过汇集两个范式中,我们提出了一种新的深度染色框架,其中纹理生成是由从未掩蔽区域提取的补丁样本的纹理记忆引导的。该框架具有一种新颖的设计,允许使用深度修复网络训练纹理存储器检索。此外,我们还介绍了贴片分配损失,以鼓励高质量的贴片合成。所提出的方法在三个具有挑战性的图像基准测试中,即地位,Celeba-HQ和巴黎街道视图数据集来说,该方法显示出质量和定量的卓越性能。
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译
深度学习方法在图像染色中优于传统方法。为了生成上下文纹理,研究人员仍在努力改进现有方法,并提出可以提取,传播和重建类似于地面真实区域的特征的模型。此外,更深层的缺乏高质量的特征传递机制有助于对所产生的染色区域有助于持久的像差。为了解决这些限制,我们提出了V-Linknet跨空间学习策略网络。为了改善语境化功能的学习,我们设计了一种使用两个编码器的损失模型。此外,我们提出了递归残留过渡层(RSTL)。 RSTL提取高电平语义信息并将其传播为下层。最后,我们将在与不同面具的同一面孔和不同面部面上的相同面上进行了比较的措施。为了提高图像修复再现性,我们提出了一种标准协议来克服各种掩模和图像的偏差。我们使用实验方法调查V-LinkNet组件。当使用标准协议时,在Celeba-HQ上评估时,我们的结果超越了现有技术。此外,我们的模型可以在Paris Street View上评估时概括良好,以及具有标准协议的Parume2数据集。
translated by 谷歌翻译
Figure 1: Example inpainting results of our method on images of natural scene, face and texture. Missing regions are shown in white. In each pair, the left is input image and right is the direct output of our trained generative neural networks without any post-processing.
translated by 谷歌翻译
面部超分辨率(FSR),也称为面部幻觉,其旨在增强低分辨率(LR)面部图像以产生高分辨率(HR)面部图像的分辨率,是特定于域的图像超分辨率问题。最近,FSR获得了相当大的关注,并目睹了深度学习技术的发展炫目。迄今为止,有很少有基于深入学习的FSR的研究摘要。在本次调查中,我们以系统的方式对基于深度学习的FSR方法进行了全面审查。首先,我们总结了FSR的问题制定,并引入了流行的评估度量和损失功能。其次,我们详细说明了FSR中使用的面部特征和流行数据集。第三,我们根据面部特征的利用大致分类了现有方法。在每个类别中,我们从设计原则的一般描述开始,然后概述代表方法,然后讨论其中的利弊。第四,我们评估了一些最先进的方法的表现。第五,联合FSR和其他任务以及与FSR相关的申请大致介绍。最后,我们设想了这一领域进一步的技术进步的前景。在\ URL {https://github.com/junjun-jiang/face-hallucination-benchmark}上有一个策划的文件和资源的策划文件和资源清单
translated by 谷歌翻译
我们提出了Exe-Gan,这是一种新型的使用生成对抗网络的典范引导的面部介绍框架。我们的方法不仅可以保留输入面部图像的质量,而且还可以使用类似示例性的面部属性来完成图像。我们通过同时利用输入图像的全局样式,从随机潜在代码生成的随机样式以及示例图像的示例样式来实现这一目标。我们介绍了一个新颖的属性相似性指标,以鼓励网络以一种自我监督的方式从示例中学习面部属性的风格。为了确保跨地区边界之间的自然过渡,我们引入了一种新型的空间变体梯度反向传播技术,以根据空间位置调整损耗梯度。关于公共Celeba-HQ和FFHQ数据集的广泛评估和实际应用,可以验证Exe-GAN的优越性,从面部镶嵌的视觉质量来看。
translated by 谷歌翻译
图像介入寻求一种语义一致的方法,以根据其未掩盖的内容来恢复损坏的图像。以前的方法通常将训练有素的甘恩重复使用,然后在产生逼真的斑块中用于缺少GAN反转的孔。然而,在这些算法中对硬约束的无知可能会产生gan倒置和图像插入之间的差距。在解决这个问题的情况下,我们在本文中设计了一个新颖的GAN反转模型,用于图像插入,称为Interverfill,主要由带有预调制模块的编码器和具有F&W+潜在空间的GAN生成器组成。在编码器中,预调制网络利用多尺度结构将更多的歧视语义编码为样式向量。为了弥合GAN倒置和图像插入之间的缝隙,提出了F&W+潜在空间以消除巨大的颜色差异和语义不一致。为了重建忠实和逼真的图像,一个简单而有效的软上升平均潜在模块旨在捕获更多样化的内域模式,以合成大型腐败的高保真质地。在包括Ploce2,Celeba-HQ,Metfaces和Scenery在内的四个具有挑战性的数据集上进行的全面实验表明,我们的Intervill效果优于定性和定量的高级方法,并支持室外图像的完成。
translated by 谷歌翻译
在图像中恢复任意缺失区域的合理和现实内容是一个重要而挑战性的任务。尽管最近的图像批量模型在生动的视觉细节方面取得了重大进展,但它们仍然可以导致纹理模糊或由于在处理更复杂的场景时由于上下文模糊而导致的结构扭曲。为了解决这个问题,我们提出了通过学习来自特定借口任务的多尺度语义代理的想法激励的语义金字塔网络(SPN)可以大大使图像中局部缺失内容的恢复极大地利益。 SPN由两个组件组成。首先,它将语义前视图从托管模型蒸馏到多尺度特征金字塔,实现对全局背景和局部结构的一致了解。在现有的学习者内,我们提供了一个可选模块,用于变分推理,以实现由各种学习的前沿驱动的概率图像染色。 SPN的第二组件是完全上下文感知的图像生成器,其在与(随机)先前金字塔一起自适应地和逐渐地改进低级视觉表示。我们将先前的学习者和图像发生器培训为统一模型,而无需任何后处理。我们的方法在多个数据集中实现了本领域的最先进,包括在确定性和概率的侵略设置下,包括Parket2,Paris Streetview,Celeba和Celeba-HQ。
translated by 谷歌翻译
本文的目标是对面部素描合成(FSS)问题进行全面的研究。然而,由于获得了手绘草图数据集的高成本,因此缺乏完整的基准,用于评估过去十年的FSS算法的开发。因此,我们首先向FSS引入高质量的数据集,名为FS2K,其中包括2,104个图像素描对,跨越三种类型的草图样式,图像背景,照明条件,肤色和面部属性。 FS2K与以前的FSS数据集不同于难度,多样性和可扩展性,因此应促进FSS研究的进展。其次,我们通过调查139种古典方法,包括34个手工特征的面部素描合成方法,37个一般的神经式传输方法,43个深映像到图像翻译方法,以及35个图像 - 素描方法。此外,我们详细说明了现有的19个尖端模型的综合实验。第三,我们为FSS提供了一个简单的基准,名为FSGAN。只有两个直截了当的组件,即面部感知屏蔽和风格矢量扩展,FSGAN将超越所提出的FS2K数据集的所有先前最先进模型的性能,通过大边距。最后,我们在过去几年中汲取的经验教训,并指出了几个未解决的挑战。我们的开源代码可在https://github.com/dengpingfan/fsgan中获得。
translated by 谷歌翻译
封闭在野外的脸部图像中非常常见,导致面部相关任务的性能劣化。虽然致力于从面部图像中去除闭塞的努力,但遮挡的不同形状和纹理仍然挑战当前方法的稳健性。结果,目前的方法依赖于手动遮挡掩模或仅适用于特定的闭塞。本文提出了一种基于面部分割和3D面重建的新型面部去遮挡模型,其自动除去甚至模糊边界,例如,毛发。,毛发。所提出的模型包括3D面部重建模块,面部分割模块和图像生成模块。对于前两者预测的面部和遮挡掩模,图像生成模块可以忠实地恢复缺失的面部纹理。为了监督培训,我们进一步构建了一个大型遮挡数据集,双手动标记和合成闭塞。定性和定量结果证明了该方法的有效性和稳健性。
translated by 谷歌翻译
生成对抗网络(GAN)的最近成功在面部动画任务方面取得了很大进展。然而,面部图像的复杂场景结构仍然使得产生具有显着偏离源图像的面部姿势的视频的挑战。一方面,在不知道面部几何结构的情况下,生成的面部图像可能被扭曲不当。另一方面,所生成的图像的一些区域可以在源图像中封闭,这使得GaN难以产生现实的外观。为了解决这些问题,我们提出了一种结构意识的面部动画(SAFA)方法,其构造特定的几何结构,以模拟面部图像的不同组件。在识别良好的基于​​运动的面部动画技术之后,我们使用3D可变模型(3dmm)来模拟面部,多个仿射变换,以模拟其他前景组件,如头发和胡须,以及模拟背景的身份变换。 3DMM几何嵌入不仅有助于为驾驶场景产生现实结构,而且有助于更好地感知所生成的图像中的遮挡区域。此外,我们进一步建议利用广泛研究的初探技术忠实地恢复封闭的图像区域。定量和定性实验结果都显示出我们方法的优越性。代码可在https://github.com/qiulin-w/safa获得。
translated by 谷歌翻译
Deep learning techniques have made considerable progress in image inpainting, restoration, and reconstruction in the last few years. Image outpainting, also known as image extrapolation, lacks attention and practical approaches to be fulfilled, owing to difficulties caused by large-scale area loss and less legitimate neighboring information. These difficulties have made outpainted images handled by most of the existing models unrealistic to human eyes and spatially inconsistent. When upsampling through deconvolution to generate fake content, the naive generation methods may lead to results lacking high-frequency details and structural authenticity. Therefore, as our novelties to handle image outpainting problems, we introduce structural prior as a condition to optimize the generation quality and a new semantic embedding term to enhance perceptual sanity. we propose a deep learning method based on Generative Adversarial Network (GAN) and condition edges as structural prior in order to assist the generation. We use a multi-phase adversarial training scheme that comprises edge inference training, contents inpainting training, and joint training. The newly added semantic embedding loss is proved effective in practice.
translated by 谷歌翻译
最近的研究表明,在介绍问题中建模长期相互作用的重要性。为了实现这一目标,现有方法利用独立的注意技术或变压器,但考虑到计算成本,通常在低分辨率下。在本文中,我们提出了一个基于变压器的新型模型,用于大孔介入,该模型统一了变压器和卷积的优点,以有效地处理高分辨率图像。我们仔细设计框架的每个组件,以确保恢复图像的高保真度和多样性。具体而言,我们自定义了一个面向内部的变压器块,其中注意模块仅从部分有效令牌中汇总非本地信息,该信息由动态掩码表示。广泛的实验证明了在多个基准数据集上新模型的最新性能。代码在https://github.com/fenglinglwb/mat上发布。
translated by 谷歌翻译
桥接全球上下文交互正确对大面具的高保真图像完成非常重要。先前的方法通过深或大的接收领域(RF)卷积无法逃离附近互动的主导地位,这可能是劣等的。在本文中,我们建议将图像完成视为无缝的序列到序列预测任务,并部署变压器以直接捕获编码器中的远程依赖性。至关重要,我们使用具有小而非重叠的RF的限制性CNN,用于加权令牌表示,这允许变压器明确地模拟所有层中的相同重要性,而在使用较大的RF时,没有隐含地混淆邻居令牌。为了改善可见区域之间的外观一致性,引入了一种新的注意力层(aal)以更好地利用远方相关的高频功能。总体而言,与若干数据集上的最先进方法相比,大量实验表现出卓越的性能。
translated by 谷歌翻译
横梁面部识别(CFR)旨在识别个体,其中比较面部图像源自不同的感测模式,例如红外与可见的。虽然CFR由于与模态差距相关的面部外观的显着变化,但CFR具有比经典的面部识别更具挑战性,但它在具有有限或挑战的照明的场景中,以及在呈现攻击的情况下,它是优越的。与卷积神经网络(CNNS)相关的人工智能最近的进展使CFR的显着性能提高了。由此激励,这项调查的贡献是三倍。我们提供CFR的概述,目标是通过首先正式化CFR然后呈现具体相关的应用来比较不同光谱中捕获的面部图像。其次,我们探索合适的谱带进行识别和讨论最近的CFR方法,重点放在神经网络上。特别是,我们提出了提取和比较异构特征以及数据集的重新访问技术。我们枚举不同光谱和相关算法的优势和局限性。最后,我们讨论了研究挑战和未来的研究线。
translated by 谷歌翻译
最近在图像染色的作品表明,结构信息在恢复视觉上令人愉悦的结果方面发挥着重要作用。在本文中,我们提出了由基于两个并行发射机的流组成的端到端架构:主流(MS)和结构流(SS)。在SS的帮助下,MS可以产生具有合理结构和现实细节的合理结果。具体地,MS通过同时推断丢失的结构和纹理来重建详细图像,并且SS仅通过从MS的编码器处理分层信息来恢复丢失的结构。通过在培训过程中与SS进行互动,可以暗示MS可以暗示利用结构性提示。为了帮助SS专注于结构并防止MS中的纹理受到影响,提出了一种门控单元来抑制MS和SS之间的信息流中的结构无关激活。此外,SS中的多尺度结构特征映射用于明确指导通过融合块的MS的解码器中的结构合理的图像重建。在Celeba,Paris Streetview和Parume2数据集上进行了广泛的实验表明我们所提出的方法优于最先进的方法。
translated by 谷歌翻译
从单个图像重建高保真3D面部纹理是一个具有挑战性的任务,因为缺乏完整的面部信息和3D面和2D图像之间的域间隙。最新作品通过应用基于代或基于重建的方法来解决面部纹理重建问题。尽管各种方法具有自身的优势,但它们不能恢复高保真和可重新可传送的面部纹理,其中术语“重新可调剂”要求面部质地在空间地完成和与环境照明中脱颖而出。在本文中,我们提出了一种新颖的自我监督学习框架,用于从野外的单视图重建高质量的3D面。我们的主要思想是首先利用先前的一代模块来生产先前的Albedo,然后利用细节细化模块来获得详细的Albedo。为了进一步使面部纹理解开照明,我们提出了一种新颖的详细的照明表示,该表现在一起与详细的Albedo一起重建。我们还在反照侧和照明方面设计了几种正规化损失功能,以便于解散这两个因素。最后,由于可怜的渲染技术,我们的神经网络可以以自我监督的方式有效地培训。关于具有挑战性的数据集的广泛实验表明,我们的框架在定性和定量比较方面显着优于最先进的方法。
translated by 谷歌翻译
图像介入是将图像的掩盖或未知区域填充具有视觉上现实内容的任务,最近,深层神经网络(DNNS)极大地改善了图像。从本质上讲,作为一个反问题,内部介绍面临着在没有纹理伪像的情况下重建语义相干结果的根本挑战。以前的许多努力是通过利用注意机制和先验知识(例如边缘和语义分割)做出的。但是,这些作品在实践中仍然受到可学习的先验参数和刺激性计算负担的限制。为此,我们提出了一个新颖的模型 - 轴向镶嵌网络(WAIN)中的小波事先注意学习,其发电机包含编码器,解码器以及小波图像的两个关键组件先验注意力(WPA)和堆叠的多层层轴向转化器(ATS)。特别是,WPA指导多尺度频域中的高级特征聚集,从而减轻了文本伪像。堆叠的ATS采用未掩盖的线索来帮助建模合理的功能以及水平和垂直轴的低级特征,从而提高语义连贯性。对Celeba-HQ和Place2数据集进行了广泛的定量和定性实验,以验证我们的Wain可以在竞争对手上实现最新的性能。代码和模型将发布。
translated by 谷歌翻译
盲面修复是一个高度不良的问题,通常需要辅助指导至1)改进从退化输入到所需输出的映射,或2)补充输入中丢失的高质量细节。在本文中,我们证明了在一个较小的代理空间中的一本学识渊博的代码书在很大程度上降低了恢复映射的不确定性和模棱两可,通过将盲面修复作为代码预测任务,同时为产生高质量的面孔提供丰富的视觉原子。在此范式下,我们提出了一个基于变压器的预测网络,名为CodeFormer,以模拟代码预测的低质量面孔的全局构图和上下文,从而使发现自然面,即使输入严重,也紧密近似目标面退化。为了增强不同降解的适应性,我们还提出了一个可控的特征转换模块,该模块可以在忠诚度和质量之间进行灵活的权衡。得益于表达的代码书的先验和全球建模,CodeFormer的质量和忠诚度都优于艺术状态,从而表现出优势的降级性。关于合成和现实世界数据集的广泛实验结果验证了我们方法的有效性。
translated by 谷歌翻译