在本文中,我们探讨了一个有趣的问题,即从$ 8 \ times8 $ Pixel视频序列中获得什么。令人惊讶的是,事实证明很多。我们表明,当我们处理此$ 8 \ times8 $视频带有正确的音频和图像先验时,我们可以获得全长的256 \ times256 $视频。我们使用新颖的视听UPPRAPLING网络实现了极低分辨率输入的$ 32 \ times $缩放。音频先验有助于恢复元素面部细节和精确的唇形,而单个高分辨率目标身份图像先验为我们提供了丰富的外观细节。我们的方法是端到端的多阶段框架。第一阶段会产生一个粗糙的中间输出视频,然后可用于动画单个目标身份图像并生成逼真,准确和高质量的输出。我们的方法很简单,并且与以前的超分辨率方法相比,表现非常好($ 8 \ times $改善了FID得分)。我们还将模型扩展到了谈话视频压缩,并表明我们在以前的最新时间上获得了$ 3.5 \ times $的改进。通过广泛的消融实验(在论文和补充材料中)对我们网络的结果进行了彻底的分析。我们还在我们的网站上提供了演示视频以及代码和模型:\ url {http://cvit.iiit.ac.in/research/project/projects/cvit-projects/talking-face-vace-video-upsmpling}。
translated by 谷歌翻译
面部超分辨率(FSR),也称为面部幻觉,其旨在增强低分辨率(LR)面部图像以产生高分辨率(HR)面部图像的分辨率,是特定于域的图像超分辨率问题。最近,FSR获得了相当大的关注,并目睹了深度学习技术的发展炫目。迄今为止,有很少有基于深入学习的FSR的研究摘要。在本次调查中,我们以系统的方式对基于深度学习的FSR方法进行了全面审查。首先,我们总结了FSR的问题制定,并引入了流行的评估度量和损失功能。其次,我们详细说明了FSR中使用的面部特征和流行数据集。第三,我们根据面部特征的利用大致分类了现有方法。在每个类别中,我们从设计原则的一般描述开始,然后概述代表方法,然后讨论其中的利弊。第四,我们评估了一些最先进的方法的表现。第五,联合FSR和其他任务以及与FSR相关的申请大致介绍。最后,我们设想了这一领域进一步的技术进步的前景。在\ URL {https://github.com/junjun-jiang/face-hallucination-benchmark}上有一个策划的文件和资源的策划文件和资源清单
translated by 谷歌翻译
Animating portraits using speech has received growing attention in recent years, with various creative and practical use cases. An ideal generated video should have good lip sync with the audio, natural facial expressions and head motions, and high frame quality. In this work, we present SPACE, which uses speech and a single image to generate high-resolution, and expressive videos with realistic head pose, without requiring a driving video. It uses a multi-stage approach, combining the controllability of facial landmarks with the high-quality synthesis power of a pretrained face generator. SPACE also allows for the control of emotions and their intensities. Our method outperforms prior methods in objective metrics for image quality and facial motions and is strongly preferred by users in pair-wise comparisons. The project website is available at https://deepimagination.cc/SPACE/
translated by 谷歌翻译
在这项工作中,我们解决了为野外任何演讲者发出静音唇部视频演讲的问题。与以前的作品形成鲜明对比的是,我们的方法(i)不仅限于固定数量的扬声器,(ii)并未明确对域或词汇构成约束,并且(iii)涉及在野外记录的视频,反对实验室环境。该任务提出了许多挑战,关键是,所需的目标语音的许多功能(例如语音,音调和语言内容)不能完全从无声的面部视频中推断出来。为了处理这些随机变化,我们提出了一种新的VAE-GAN结构,该结构学会了将唇部和语音序列关联到变化中。在指导培训过程的多个强大的歧视者的帮助下,我们的发电机学会了以任何人的唇部运动中的任何声音综合语音序列。多个数据集上的广泛实验表明,我们的优于所有基线的差距很大。此外,我们的网络可以在特定身份的视频上进行微调,以实现与单扬声器模型相当的性能,该模型接受了$ 4 \ times $ $数据的培训。我们进行了大量的消融研究,以分析我们体系结构不同模块的效果。我们还提供了一个演示视频,该视频与我们的网站上的代码和经过训练的模型一起展示了几个定性结果: -合成}}
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译
我们提出了Styletalker,这是一种新颖的音频驱动的会说话的头部生成模型,可以从单个参考图像中综合一个会说话的人的视频,并具有准确的音频同步的唇形,逼真的头姿势和眼睛眨眼。具体而言,通过利用预验证的图像生成器和图像编码器,我们估计了会说话的头视频的潜在代码,这些代码忠实地反映了给定的音频。通过几个新设计的组件使这成为可能:1)一种用于准确唇部同步的对比性唇部同步鉴别剂,2)一种条件顺序的连续变异自动编码器,该差异自动编码器了解从唇部运动中解散的潜在运动空间,以便我们可以独立地操纵运动运动的运动。和唇部运动,同时保留身份。 3)自动回归事先增强,并通过标准化流量来学习复杂的音频到运动多模式潜在空间。配备了这些组件,Styletalker不仅可以在给出另一个运动源视频时以动作控制的方式生成说话的头视频,而且还可以通过从输入音频中推断出现实的动作,以完全由音频驱动的方式生成。通过广泛的实验和用户研究,我们表明我们的模型能够以令人印象深刻的感知质量合成会说话的头部视频,这些视频与输入音频相符,可以准确地唇部同步,这在很大程度上要优于先进的基线。
translated by 谷歌翻译
当网络条件恶化时,视频会议系统的用户体验差,因为当前的视频编解码器根本无法在极低的比特率下运行。最近,已经提出了几种神经替代方案,可以使用每个框架的稀疏表示,例如面部地标信息,以非常低的比特率重建说话的头视频。但是,这些方法在通话过程中具有重大运动或遮挡的情况下会产生不良的重建,并且不会扩展到更高的分辨率。我们设计了Gemino,这是一种基于新型高频条件超分辨率管道的新型神经压缩系统,用于视频会议。 Gemino根据从单个高分辨率参考图像中提取的信息来增强高频细节(例如,皮肤纹理,头发等),为每个目标框架的一个非常低分辨率的版本(例如,皮肤纹理,头发等)。我们使用多尺度体系结构,该体系结构在不同的分辨率下运行模型的不同组件,从而使其扩展到可与720p相当的分辨率,并且我们个性化模型以学习每个人的特定细节,在低比特率上实现了更好的保真度。我们在AIORTC上实施了Gemino,这是WEBRTC的开源Python实现,并表明它在A100 GPU上实时在1024x1024视频上运行,比比特率的比特率低于传统的视频Codecs,以相同的感知质量。
translated by 谷歌翻译
音频驱动的单次谈话脸生成方法通常培训各种人的视频资源。然而,他们创建的视频经常遭受不自然的口腔形状和异步嘴唇,因为这些方法努力学习来自不同扬声器的一致语音风格。我们观察到从特定扬声器学习一致的语音风格会更容易,这导致正宗的嘴巴运动。因此,我们通过从特定扬声器探讨音频和视觉运动之间的一致相关性,然后将音频驱动的运动场转移到参考图像来提出一种新颖的单次谈论的谈话脸。具体地,我们开发了一种视听相关变压器(AVCT),其旨在从输入音频推断由基于KeyPoint基的密集运动场表示的谈话运动。特别是,考虑到音频可能来自部署中的不同身份,我们将音素合并以表示音频信号。以这种方式,我们的AVCT可以本质地推广其他身份的音频。此外,由于面部键点用于表示扬声器,AVCT对训练扬声器的外观不可知,因此允许我们容易地操纵不同标识的面部图像。考虑到不同的面形状导致不同的运动,利用运动场传输模块来减少训练标识和一次性参考之间的音频驱动的密集运动场间隙。一旦我们获得了参考图像的密集运动场,我们就会使用图像渲染器从音频剪辑生成其谈话脸视频。由于我们学识到的一致口语风格,我们的方法会产生真正的口腔形状和生动的运动。广泛的实验表明,在视觉质量和唇部同步方面,我们的合成视频优于现有技术。
translated by 谷歌翻译
我们提出了一种新颖的方法,用于生成语音音频和单个“身份”图像的高分辨率视频。我们的方法基于卷积神经网络模型,该模型结合了预训练的样式Gener。我们将每个帧建模为Stylegan潜在空间中的一个点,以便视频对应于潜在空间的轨迹。培训网络分为两个阶段。第一阶段是根据语音话语调节潜在空间中的轨迹。为此,我们使用现有的编码器倒转发电机,将每个视频框架映射到潜在空间中。我们训练一个经常性的神经网络,以从语音话语绘制到图像发生器潜在空间中的位移。这些位移是相对于从训练数据集中所描绘的个体选择的身份图像的潜在空间的反向预测的。在第二阶段,我们通过在单个图像或任何选择的身份的简短视频上调整图像生成器来提高生成视频的视觉质量。我们对标准度量(PSNR,SSIM,FID和LMD)的模型进行评估,并表明它在两个常用数据集之一上的最新方法明显优于最新的最新方法,另一方面给出了可比的性能。最后,我们报告了验证模型组成部分的消融实验。可以在https://mohammedalghamdi.github.io/talking-heads-acm-mm上找到实验的代码和视频
translated by 谷歌翻译
最近,音频驱动的会说话的面部视频产生引起了广泛的关注。但是,很少有研究能够解决这些会说话的面部视频的情感编辑问题,并具有连续可控的表达式,这是行业中强烈的需求。面临的挑战是,与语音有关的表达和与情感有关的表达通常是高度耦合的。同时,由于表达式与其他属性(例如姿势)的耦合,即在每个框架中翻译角色的表达可能会同时改变头部姿势,因此传统的图像到图像翻译方法无法在我们的应用中很好地工作。培训数据分布。在本文中,我们提出了一种高质量的面部表达编辑方法,用于谈话面部视频,使用户可以连续控制编辑视频中的目标情感。我们为该任务提供了一个新的视角,作为运动信息编辑的特殊情况,我们使用3DMM捕获主要的面部运动和由StyleGAN模拟的相关纹理图,以捕获外观细节。两种表示(3DMM和纹理图)都包含情感信息,并且可以通过神经网络进行连续修改,并通过系数/潜在空间平均轻松平滑,从而使我们的方法变得简单而有效。我们还引入了口腔形状的保存损失,以控制唇部同步和编辑表达的夸张程度之间的权衡。广泛的实验和用户研究表明,我们的方法在各种评估标准中实现了最先进的表现。
translated by 谷歌翻译
虽然先前以语音为导向的说话面部生成方法在改善合成视频的视觉质量和唇部同步质量方面取得了重大进展,但它们对唇部运动的关注较少,从而极大地破坏了说话面部视频的真实性。是什么导致运动烦恼,以及如何减轻问题?在本文中,我们基于最先进的管道对运动抖动问题进行系统分析,该管道使用3D面表示桥接输入音频和输出视频,并通过一系列有效的设计来改善运动稳定性。我们发现,几个问题可能会导致综合说话的面部视频中的烦恼:1)输入3D脸部表示的烦恼; 2)训练推导不匹配; 3)视频帧之间缺乏依赖建模。因此,我们提出了三种有效的解决方案来解决此问题:1)我们提出了一个基于高斯的自适应平滑模块,以使3D面部表征平滑以消除输入中的抖动; 2)我们在训练中对神经渲染器的输入数据增加了增强的侵蚀,以模拟推理中的变形以减少不匹配; 3)我们开发了一个音频融合的变压器生成器,以模拟视频帧之间的依赖性。此外,考虑到没有现成的指标来测量说话面部视频中的运动抖动,我们设计了一个客观的度量标准(运动稳定性指数,MSI),可以通过计算方差加速度的倒数来量化运动抖动。广泛的实验结果表明,我们方法对运动稳定的面部视频生成的优越性,其质量比以前的系统更好。
translated by 谷歌翻译
在过去的几十年中,虚拟领域的许多方面都得到了增强,从亚马逊的Alexa和Apple的Siri等数字助手到出现到重新品牌的Meta的最新元元努力。这些趋势强调了产生对人类的影像性视觉描述的重要性。近年来,这导致了所谓的深层和说话的头部生成方法的快速增长。尽管它们令人印象深刻和受欢迎程度,但它们通常缺乏某些定性方面,例如纹理质量,嘴唇同步或解决方案以及实时运行的实用方面。为了允许虚拟人类化身在实际场景中使用,我们提出了一个端到端框架,用于合成能够语音的高质量虚拟人脸,并特别强调性能。我们介绍了一个新的网络,利用Visemes作为中间音频表示,并采用层次图像综合方法的新型数据增强策略,该方法允许解散用于控制全球头部运动的不同模态。我们的方法是实时运行的,与当前的最新技术相比,我们能够提供卓越的结果。
translated by 谷歌翻译
盲人恢复通常会遇到各种规模的面孔输入,尤其是在现实世界中。但是,当前的大多数作品都支持特定的规模面,这限制了其在现实情况下的应用能力。在这项工作中,我们提出了一个新颖的尺度感知盲人面部修复框架,名为FaceFormer,该框架将面部特征恢复作为比例感知转换。所提出的面部特征上采样(FFUP)模块基于原始的比例比例动态生成UPSMPLING滤波器,这有助于我们的网络适应任意面部尺度。此外,我们进一步提出了面部特征嵌入(FFE)模块,该模块利用变压器来层次提取面部潜在的多样性和鲁棒性。因此,我们的脸部形式实现了富裕性和稳健性,恢复了面部的面孔,对面部成分具有现实和对称的细节。广泛的实验表明,我们提出的使用合成数据集训练的方法比当前的最新图像更好地推广到天然低质量的图像。
translated by 谷歌翻译
生成对抗网络(GAN)的最近成功在面部动画任务方面取得了很大进展。然而,面部图像的复杂场景结构仍然使得产生具有显着偏离源图像的面部姿势的视频的挑战。一方面,在不知道面部几何结构的情况下,生成的面部图像可能被扭曲不当。另一方面,所生成的图像的一些区域可以在源图像中封闭,这使得GaN难以产生现实的外观。为了解决这些问题,我们提出了一种结构意识的面部动画(SAFA)方法,其构造特定的几何结构,以模拟面部图像的不同组件。在识别良好的基于​​运动的面部动画技术之后,我们使用3D可变模型(3dmm)来模拟面部,多个仿射变换,以模拟其他前景组件,如头发和胡须,以及模拟背景的身份变换。 3DMM几何嵌入不仅有助于为驾驶场景产生现实结构,而且有助于更好地感知所生成的图像中的遮挡区域。此外,我们进一步建议利用广泛研究的初探技术忠实地恢复封闭的图像区域。定量和定性实验结果都显示出我们方法的优越性。代码可在https://github.com/qiulin-w/safa获得。
translated by 谷歌翻译
尽管已经对音频驱动的说话的面部生成取得了重大进展,但现有方法要么忽略面部情绪,要么不能应用于任意主题。在本文中,我们提出了情感感知的运动模型(EAMM),以通过涉及情感源视频来产生一次性的情感谈话面孔。具体而言,我们首先提出了一个Audio2Facial-Dynamics模块,该模块从音频驱动的无监督零和一阶密钥点运动中进行说话。然后,通过探索运动模型的属性,我们进一步提出了一个隐性的情绪位移学习者,以表示与情绪相关的面部动力学作为对先前获得的运动表示形式的线性添加位移。全面的实验表明,通过纳入两个模块的结果,我们的方法可以在具有现实情感模式的任意主题上产生令人满意的说话面部结果。
translated by 谷歌翻译
尽管基准数据集的成功,但大多数先进的面部超分辨率模型在真实情况下表现不佳,因为真实图像与合成训练对之间的显着域间隙。为了解决这个问题,我们提出了一种用于野外面部超分辨率的新型域 - 自适应降级网络。该降级网络预测流场以及中间低分辨率图像。然后,通过翘曲中间图像来生成降级的对应物。利用捕获运动模糊的偏好,这种模型在保护原始图像和劣化之间保持身份一致性更好地执行。我们进一步提出了超分辨率网络的自我调节块。该块将输入图像作为条件术语,以有效地利用面部结构信息,从而消除了对显式前沿的依赖性,例如,面部地标或边界。我们的模型在Celeba和真实世界的面部数据集上实现了最先进的性能。前者展示了我们所提出的建筑的强大生成能力,而后者展示了现实世界中的良好的身份一致性和感知品质。
translated by 谷歌翻译
In this paper, we introduce a simple and novel framework for one-shot audio-driven talking head generation. Unlike prior works that require additional driving sources for controlled synthesis in a deterministic manner, we instead probabilistically sample all the holistic lip-irrelevant facial motions (i.e. pose, expression, blink, gaze, etc.) to semantically match the input audio while still maintaining both the photo-realism of audio-lip synchronization and the overall naturalness. This is achieved by our newly proposed audio-to-visual diffusion prior trained on top of the mapping between audio and disentangled non-lip facial representations. Thanks to the probabilistic nature of the diffusion prior, one big advantage of our framework is it can synthesize diverse facial motion sequences given the same audio clip, which is quite user-friendly for many real applications. Through comprehensive evaluations on public benchmarks, we conclude that (1) our diffusion prior outperforms auto-regressive prior significantly on almost all the concerned metrics; (2) our overall system is competitive with prior works in terms of audio-lip synchronization but can effectively sample rich and natural-looking lip-irrelevant facial motions while still semantically harmonized with the audio input.
translated by 谷歌翻译
通过利用预熟gan的潜在空间,已经提出了许多最近的作品来进行面部图像编辑。但是,很少有尝试将它们直接应用于视频,因为1)他们不能保证时间一致性,2)他们的应用受到视频的处理速度的限制,3)他们无法准确编码面部运动和表达的细节。为此,我们提出了一个新颖的网络,将面部视频编码到Stylegan的潜在空间中,以进行语义面部视频操纵。基于视觉变压器,我们的网络重复了潜在向量的高分辨率部分,以实现时间一致性。为了捕捉微妙的面部运动和表情,我们设计了涉及稀疏面部地标和密集的3D脸部网眼的新颖损失。我们已经彻底评估了我们的方法,并成功证明了其对各种面部视频操作的应用。特别是,我们提出了一个新型网络,用于3D坐标系中的姿势/表达控制。定性和定量结果都表明,我们的方法可以显着优于现有的单图方法,同时实现实时(66 fps)速度。
translated by 谷歌翻译
从单个图像的面部图像动画取得了显着的进展。然而,当只有稀疏的地标作为驱动信号时,它仍然具有挑战性。鉴于源人面部图像和一系列稀疏面部地标,我们的目标是生成模仿地标运动的脸部的视频。我们开发了一种高效有效的方法,用于从稀疏地标到面部图像的运动转移。然后,我们将全局和局部运动估计结合在统一的模型中以忠实地传输运动。该模型可以学习从背景中分割移动前景并不仅产生全局运动,例如面部的旋转和翻译,还可以微妙地进行诸如凝视变化的局部运动。我们进一步改善了视频的面部地标检测。随着时间上更好地对齐的训练的标志性序列,我们的方法可以产生具有更高视觉质量的时间相干视频。实验表明,我们实现了与最先进的图像驱动方法相当的结果,在相同的身份测试和交叉标识测试上的更好结果。
translated by 谷歌翻译
在这项工作中,我们将神经头部的头像技术推向百万像素分辨率,同时着重于跨驾驶合成的特别挑战性的任务,即,当驾驶图像的外观与动画源图像大不相同时。我们提出了一组新的神经体系结构和训练方法,这些方法可以利用中分辨率的视频数据和高分辨率图像数据,以达到所需的渲染图像质量和对新视图和运动的概括。我们证明,建议的架构和方法产生令人信服的高分辨率神经化身,在跨驾驶场景中表现优于竞争对手。最后,我们展示了如何将受过训练的高分辨率神经化身模型蒸馏成一个轻量级的学生模型,该模型是实时运行的,并将神经化身的身份锁定到数十个预定的源图像。实时操作和身份锁对于许多实际应用头像系统至关重要。
translated by 谷歌翻译