盲面修复是从未知的降解中恢复高质量的面部图像。由于面部图像包含丰富的上下文信息,因此我们提出了一种方法,还可以修复器,该方法探讨了完全空间的关注,以模拟上下文信息并超越了使用本地运营商的现有作品。与先前的艺术相比,还原构造器具有多种好处。首先,与以前视觉变压器(VIT)中传统的多头自我发作不同,还原构图结合了多头跨注意层,以学习损坏的查询与高质量的键值对之间的完全空间相互作用。其次,从重建为导向的高质量词典中对Resotreformer中的钥匙值对进行采样,其元素具有富含高质量的面部特征,专门针对面部重建,从而导致出色的恢复结果。第三,RestoreFormer优于一个合成数据集和三个现实世界数据集上的先进的最新方法,并且可以产生具有更好视觉质量的图像。
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译
尽管最近的生成面部先验和几何事物最近证明了盲面修复的高质量结果,但忠实于投入的细粒度细节仍然是一个具有挑战性的问题。由基于经典词典的方法和最近的矢量量化(VQ)技术激励,我们提出了一种基于VQ的面部恢复方法-VQFR。 VQFR利用从高质量面孔中提取的高质量低级特征银行,因此可以帮助恢复现实的面部细节。但是,通过忠实的细节和身份保存,VQ代码簿的简单应用无法取得良好的结果。因此,我们进一步介绍了两个特殊的网络设计。 1)。我们首先研究了VQ代码簿中的压缩补丁大小,并发现使用适当的压缩补丁大小设计的VQ代码簿对于平衡质量和忠诚度至关重要。 2)。为了进一步融合来自输入的低级功能,而不是“污染” VQ代码簿中生成的现实细节,我们提出了一个由纹理解码器和主要解码器组成的并行解码器。然后,这两个解码器与具有变形卷积的纹理翘曲模块进行交互。拟议的VQFR配备了VQ Codebook作为面部细节词典和平行解码器设计,可以在很大程度上提高面部细节的恢复质量,同时保持对先前方法的保真度。
translated by 谷歌翻译
盲人恢复通常会遇到各种规模的面孔输入,尤其是在现实世界中。但是,当前的大多数作品都支持特定的规模面,这限制了其在现实情况下的应用能力。在这项工作中,我们提出了一个新颖的尺度感知盲人面部修复框架,名为FaceFormer,该框架将面部特征恢复作为比例感知转换。所提出的面部特征上采样(FFUP)模块基于原始的比例比例动态生成UPSMPLING滤波器,这有助于我们的网络适应任意面部尺度。此外,我们进一步提出了面部特征嵌入(FFE)模块,该模块利用变压器来层次提取面部潜在的多样性和鲁棒性。因此,我们的脸部形式实现了富裕性和稳健性,恢复了面部的面孔,对面部成分具有现实和对称的细节。广泛的实验表明,我们提出的使用合成数据集训练的方法比当前的最新图像更好地推广到天然低质量的图像。
translated by 谷歌翻译
盲面修复是一个高度不良的问题,通常需要辅助指导至1)改进从退化输入到所需输出的映射,或2)补充输入中丢失的高质量细节。在本文中,我们证明了在一个较小的代理空间中的一本学识渊博的代码书在很大程度上降低了恢复映射的不确定性和模棱两可,通过将盲面修复作为代码预测任务,同时为产生高质量的面孔提供丰富的视觉原子。在此范式下,我们提出了一个基于变压器的预测网络,名为CodeFormer,以模拟代码预测的低质量面孔的全局构图和上下文,从而使发现自然面,即使输入严重,也紧密近似目标面退化。为了增强不同降解的适应性,我们还提出了一个可控的特征转换模块,该模块可以在忠诚度和质量之间进行灵活的权衡。得益于表达的代码书的先验和全球建模,CodeFormer的质量和忠诚度都优于艺术状态,从而表现出优势的降级性。关于合成和现实世界数据集的广泛实验结果验证了我们方法的有效性。
translated by 谷歌翻译
近年来,面部语义指导(包括面部地标,面部热图和面部解析图)和面部生成对抗网络(GAN)近年来已广泛用于盲面修复(BFR)。尽管现有的BFR方法在普通案例中取得了良好的性能,但这些解决方案在面对严重降解和姿势变化的图像时具有有限的弹性(例如,在现实世界情景中看起来右,左看,笑等)。在这项工作中,我们提出了一个精心设计的盲人面部修复网络,具有生成性面部先验。所提出的网络主要由非对称编解码器和stylegan2先验网络组成。在非对称编解码器中,我们采用混合的多路残留块(MMRB)来逐渐提取输入图像的弱纹理特征,从而可以更好地保留原始面部特征并避免过多的幻想。 MMRB也可以在其他网络中插入插件。此外,多亏了StyleGAN2模型的富裕和多样化的面部先验,我们采用了微调的方法来灵活地恢复自然和现实的面部细节。此外,一种新颖的自我监督训练策略是专门设计用于面部修复任务的,以使分配更接近目标并保持训练稳定性。关于合成和现实世界数据集的广泛实验表明,我们的模型在面部恢复和面部超分辨率任务方面取得了卓越的表现。
translated by 谷歌翻译
盲人面部修复(BFR)旨在从低品质的图像中恢复高质量的面部图像,并通常求助于面部先验,以改善恢复性能。但是,当前的方法仍然遇到两个主要困难:1)如何在不进行大规模调整的情况下得出强大的网络体系结构; 2)如何从一个网络中的多个面部先验捕获互补信息以提高恢复性能。为此,我们提出了一个面部修复搜索网络(FRSNET),以适应我们指定的搜索空间内的合适特征提取体系结构,这可以直接有助于恢复质量。在FRSNET的基础上,我们通过多个学习方案进一步设计了多个面部先验搜索网络(MFPSNET)。 MFPSNET最佳地从不同的面部先验中提取信息,并将信息融合到图像特征中,以确保保留外部指导和内部特征。通过这种方式,MFPSNet充分利用了语义级别(解析图),几何级别(面部热图),参考级别(面部词典)和像素级(降级图像)信息,从而产生忠实且逼真的图像。定量和定性实验表明,MFPSNET在合成和现实世界数据集上对最先进的BFR方法表现出色。这些代码可公开可用:https://github.com/yyj1ang/mfpsnet。
translated by 谷歌翻译
面部超分辨率(FSR),也称为面部幻觉,其旨在增强低分辨率(LR)面部图像以产生高分辨率(HR)面部图像的分辨率,是特定于域的图像超分辨率问题。最近,FSR获得了相当大的关注,并目睹了深度学习技术的发展炫目。迄今为止,有很少有基于深入学习的FSR的研究摘要。在本次调查中,我们以系统的方式对基于深度学习的FSR方法进行了全面审查。首先,我们总结了FSR的问题制定,并引入了流行的评估度量和损失功能。其次,我们详细说明了FSR中使用的面部特征和流行数据集。第三,我们根据面部特征的利用大致分类了现有方法。在每个类别中,我们从设计原则的一般描述开始,然后概述代表方法,然后讨论其中的利弊。第四,我们评估了一些最先进的方法的表现。第五,联合FSR和其他任务以及与FSR相关的申请大致介绍。最后,我们设想了这一领域进一步的技术进步的前景。在\ URL {https://github.com/junjun-jiang/face-hallucination-benchmark}上有一个策划的文件和资源的策划文件和资源清单
translated by 谷歌翻译
盲面修复(BFR)旨在从相应的低质量(LQ)输入中构建高质量(HQ)面部图像。最近,已经提出了许多BFR方法,并取得了杰出的成功。但是,这些方法经过私人合成的数据集进行了培训或评估,这使得与后续方法相比的方法是不可行的。为了解决这个问题,我们首先合成两个称为EDFEACE-CELEB-1M(BFR128)和EDFACE-CELEB-150K(BFR512)的盲面恢复基准数据集。在五个设置下,将最先进的方法在它们的五个设置下进行了基准测试,包括模糊,噪声,低分辨率,JPEG压缩伪像及其组合(完全退化)。为了使比较更全面,应用了五个广泛使用的定量指标和两个任务驱动的指标,包括平均面部标志距离(AFLD)和平均面部ID余弦相似性(AFICS)。此外,我们开发了一个有效的基线模型,称为Swin Transformer U-NET(昏迷)。带有U-NET体系结构的昏迷器应用了注意机制和移动的窗口方案,以捕获远程像素相互作用,并更多地关注重要功能,同时仍受到有效训练。实验结果表明,所提出的基线方法对各种BFR任务的SOTA方法表现出色。
translated by 谷歌翻译
现实世界图像超分辨率(SR)的关键挑战是在低分辨率(LR)图像中恢复具有复杂未知降解(例如,下采样,噪声和压缩)的缺失细节。大多数以前的作品还原图像空间中的此类缺失细节。为了应对自然图像的高度多样性,他们要么依靠难以训练和容易训练和伪影的不稳定的甘体,要么诉诸于通常不可用的高分辨率(HR)图像中的明确参考。在这项工作中,我们提出了匹配SR(FEMASR)的功能,该功能在更紧凑的特征空间中恢复了现实的HR图像。与图像空间方法不同,我们的FEMASR通过将扭曲的LR图像{\ IT特征}与我们预读的HR先验中的无失真性HR对应物匹配来恢复HR图像,并解码匹配的功能以获得现实的HR图像。具体而言,我们的人力资源先验包含一个离散的特征代码簿及其相关的解码器,它们在使用量化的生成对抗网络(VQGAN)的HR图像上预估计。值得注意的是,我们在VQGAN中结合了一种新型的语义正则化,以提高重建图像的质量。对于功能匹配,我们首先提取由LR编码器组成的LR编码器的LR功能,然后遵循简单的最近邻居策略,将其与预读的代码簿匹配。特别是,我们为LR编码器配备了与解码器的残留快捷方式连接,这对于优化功能匹配损耗至关重要,还有助于补充可能的功能匹配错误。实验结果表明,我们的方法比以前的方法产生更现实的HR图像。代码以\ url {https://github.com/chaofengc/femasr}发布。
translated by 谷歌翻译
我们表明,诸如Stylegan和Biggan之类的预训练的生成对抗网络(GAN)可以用作潜在银行,以提高图像超分辨率的性能。尽管大多数现有面向感知的方法试图通过以对抗性损失学习来产生现实的产出,但我们的方法,即生成的潜在银行(GLEAN),通过直接利用预先训练的gan封装的丰富而多样的先验来超越现有实践。但是,与需要在运行时需要昂贵的图像特定优化的普遍的GAN反演方法不同,我们的方法只需要单个前向通行证才能修复。可以轻松地将Glean合并到具有多分辨率Skip连接的简单编码器银行decoder架构中。采用来自不同生成模型的先验,可以将收集到各种类别(例如人的面孔,猫,建筑物和汽车)。我们进一步提出了一个轻巧的Glean,名为Lightglean,该版本仅保留Glean中的关键组成部分。值得注意的是,Lightglean仅由21%的参数和35%的拖鞋组成,同时达到可比的图像质量。我们将方法扩展到不同的任务,包括图像着色和盲图恢复,广泛的实验表明,与现有方法相比,我们提出的模型表现出色。代码和模型可在https://github.com/open-mmlab/mmediting上找到。
translated by 谷歌翻译
尽管基准数据集的成功,但大多数先进的面部超分辨率模型在真实情况下表现不佳,因为真实图像与合成训练对之间的显着域间隙。为了解决这个问题,我们提出了一种用于野外面部超分辨率的新型域 - 自适应降级网络。该降级网络预测流场以及中间低分辨率图像。然后,通过翘曲中间图像来生成降级的对应物。利用捕获运动模糊的偏好,这种模型在保护原始图像和劣化之间保持身份一致性更好地执行。我们进一步提出了超分辨率网络的自我调节块。该块将输入图像作为条件术语,以有效地利用面部结构信息,从而消除了对显式前沿的依赖性,例如,面部地标或边界。我们的模型在Celeba和真实世界的面部数据集上实现了最先进的性能。前者展示了我们所提出的建筑的强大生成能力,而后者展示了现实世界中的良好的身份一致性和感知品质。
translated by 谷歌翻译
Automatic image colorization is a particularly challenging problem. Due to the high illness of the problem and multi-modal uncertainty, directly training a deep neural network usually leads to incorrect semantic colors and low color richness. Existing transformer-based methods can deliver better results but highly depend on hand-crafted dataset-level empirical distribution priors. In this work, we propose DDColor, a new end-to-end method with dual decoders, for image colorization. More specifically, we design a multi-scale image decoder and a transformer-based color decoder. The former manages to restore the spatial resolution of the image, while the latter establishes the correlation between semantic representations and color queries via cross-attention. The two decoders incorporate to learn semantic-aware color embedding by leveraging the multi-scale visual features. With the help of these two decoders, our method succeeds in producing semantically consistent and visually plausible colorization results without any additional priors. In addition, a simple but effective colorfulness loss is introduced to further improve the color richness of generated results. Our extensive experiments demonstrate that the proposed DDColor achieves significantly superior performance to existing state-of-the-art works both quantitatively and qualitatively. Codes will be made publicly available.
translated by 谷歌翻译
大多数现代脸部完成方法采用AutoEncoder或其变体来恢复面部图像中缺失的区域。编码器通常用于学习强大的表现,在满足复杂的学习任务的挑战方面发挥着重要作用。具体地,各种掩模通常在野外的面部图像中呈现,形成复杂的图案,特别是在Covid-19的艰难时期。编码器很难在这种复杂的情况下捕捉如此强大的陈述。为了解决这一挑战,我们提出了一个自我监督的暹罗推论网络,以改善编码器的泛化和鲁棒性。它可以从全分辨率图像编码上下文语义并获得更多辨别性表示。为了处理面部图像的几何变型,将密集的对应字段集成到网络中。我们进一步提出了一种具有新型双重关注融合模块(DAF)的多尺度解码器,其可以以自适应方式将恢复和已知区域组合。这种多尺度架构有利于解码器利用从编码器学习到图像中的辨别性表示。广泛的实验清楚地表明,与最先进的方法相比,拟议的方法不仅可以实现更具吸引力的结果,而且还提高了蒙面的面部识别的性能。
translated by 谷歌翻译
While deep learning-based methods for blind face restoration have achieved unprecedented success, they still suffer from two major limitations. First, most of them deteriorate when facing complex degradations out of their training data. Second, these methods require multiple constraints, e.g., fidelity, perceptual, and adversarial losses, which require laborious hyper-parameter tuning to stabilize and balance their influences. In this work, we propose a novel method named DifFace that is capable of coping with unseen and complex degradations more gracefully without complicated loss designs. The key of our method is to establish a posterior distribution from the observed low-quality (LQ) image to its high-quality (HQ) counterpart. In particular, we design a transition distribution from the LQ image to the intermediate state of a pre-trained diffusion model and then gradually transmit from this intermediate state to the HQ target by recursively applying a pre-trained diffusion model. The transition distribution only relies on a restoration backbone that is trained with $L_2$ loss on some synthetic data, which favorably avoids the cumbersome training process in existing methods. Moreover, the transition distribution can contract the error of the restoration backbone and thus makes our method more robust to unknown degradations. Comprehensive experiments show that DifFace is superior to current state-of-the-art methods, especially in cases with severe degradations. Our code and model are available at https://github.com/zsyOAOA/DifFace.
translated by 谷歌翻译
我们引入了一个新颖的框架,用于连续的面部运动脱毛,该框架通过矩控制因子恢复单个运动毛面脸部图像中潜在的连续锋利力矩。尽管动作毛刺图像是在曝光时间内连续锋利矩的累积信号,但大多数现有的单个图像脱毛方法旨在使用多个网络和训练阶段恢复固定数量的帧。为了解决这个问题,我们提出了一个基于GAN(CFMD-GAN)的连续面部运动脱毛网络,该网络是一个新颖的框架,用于恢复带有单个网络和单个训练阶段的单个运动型面部图像中潜在的连续力矩。为了稳定网络培训,我们训练发电机以通过面部特定于面部知识的面部基于面部运动的重新排序过程(FMR)确定的顺序恢复连续矩。此外,我们提出了一个辅助回归器,该回归器通过估计连续锋利的力矩来帮助我们的发电机产生更准确的图像。此外,我们引入了一个控制自适应(CONTADA)块,该块执行空间变形的卷积和频道的注意,作为控制因子的函数。 300VW数据集上的大量实验表明,所提出的框架通过改变力矩控制因子来生成各种连续的输出帧。与最近使用相同300VW训练集训练的最近的单一单击图像脱蓝色网络相比,提出的方法显示了在感知指标(包括LPIPS,FID和Arcface身份距离)方面恢复中央锋利框架的出色性能。该方法的表现优于现有的单一视频脱蓝和用于定性和定量比较的方法。
translated by 谷歌翻译
面部去夹旨在从模糊的输入图像恢复清晰的面部图像,具有更明确的结构和面部细节。然而,大多数传统的图像和面部去夹方法的重点是整个产生的图像分辨率,而不考虑特殊的面部纹理并且通常产生无充气的细节。考虑到面部和背景具有不同的分布信息,在本研究中,我们设计了一种基于可分离的归一化和自适应非规范化(SnAdnet)的有效面部去孔网络。首先,我们微调面部解析网络以获得精确的面部结构。然后,我们将脸部解析功能划分为面部前景和背景。此外,我们构建了一种新的特征自适应非规范化,以将FAYCIAL结构规则为辅助的条件,以产生更加和谐的面部结构。另外,我们提出了一种纹理提取器和多贴片鉴别器,以增强所生成的面部纹理信息。 Celeba和Celeba-HQ数据集的实验结果表明,所提出的面部去孔网络以更具面部细节恢复面部结构,并在结构相似性索引方法(SSIM),峰值信号方面对最先进的方法进行有利的方法。信噪比(PSNR),Frechet Inception距离(FID)和L1以及定性比较。
translated by 谷歌翻译
在许多远程成像的应用中,我们面临的情景,其中出现在捕获的图像中的人通常被大气湍流降级。然而,由于劣化使图像成为几何扭曲和模糊,因此恢复用于面部验证的这种降级的图像是困难的。为了减轻湍流效果,本文提出了第一种湍流缓解方法,该方法利用培训的GaN封装的视觉前沿。基于视觉前沿,我们建议学习在空间周期性上下文距离上保留恢复图像的身份。在考虑网络学习中的身份差异时,这种距离可以保持来自GaN的恢复图像的现实主义。另外,提出了通过在没有身份变化的情况下引入更多外观方差来促进身份保留学习的分层伪连接。广泛的实验表明,我们的方法在恢复结果的视觉质量和面部验证准确性中显着优于现有技术。
translated by 谷歌翻译
深度学习方法在图像染色中优于传统方法。为了生成上下文纹理,研究人员仍在努力改进现有方法,并提出可以提取,传播和重建类似于地面真实区域的特征的模型。此外,更深层的缺乏高质量的特征传递机制有助于对所产生的染色区域有助于持久的像差。为了解决这些限制,我们提出了V-Linknet跨空间学习策略网络。为了改善语境化功能的学习,我们设计了一种使用两个编码器的损失模型。此外,我们提出了递归残留过渡层(RSTL)。 RSTL提取高电平语义信息并将其传播为下层。最后,我们将在与不同面具的同一面孔和不同面部面上的相同面上进行了比较的措施。为了提高图像修复再现性,我们提出了一种标准协议来克服各种掩模和图像的偏差。我们使用实验方法调查V-LinkNet组件。当使用标准协议时,在Celeba-HQ上评估时,我们的结果超越了现有技术。此外,我们的模型可以在Paris Street View上评估时概括良好,以及具有标准协议的Parume2数据集。
translated by 谷歌翻译
我们提出了Exe-Gan,这是一种新型的使用生成对抗网络的典范引导的面部介绍框架。我们的方法不仅可以保留输入面部图像的质量,而且还可以使用类似示例性的面部属性来完成图像。我们通过同时利用输入图像的全局样式,从随机潜在代码生成的随机样式以及示例图像的示例样式来实现这一目标。我们介绍了一个新颖的属性相似性指标,以鼓励网络以一种自我监督的方式从示例中学习面部属性的风格。为了确保跨地区边界之间的自然过渡,我们引入了一种新型的空间变体梯度反向传播技术,以根据空间位置调整损耗梯度。关于公共Celeba-HQ和FFHQ数据集的广泛评估和实际应用,可以验证Exe-GAN的优越性,从面部镶嵌的视觉质量来看。
translated by 谷歌翻译