Animating portraits using speech has received growing attention in recent years, with various creative and practical use cases. An ideal generated video should have good lip sync with the audio, natural facial expressions and head motions, and high frame quality. In this work, we present SPACE, which uses speech and a single image to generate high-resolution, and expressive videos with realistic head pose, without requiring a driving video. It uses a multi-stage approach, combining the controllability of facial landmarks with the high-quality synthesis power of a pretrained face generator. SPACE also allows for the control of emotions and their intensities. Our method outperforms prior methods in objective metrics for image quality and facial motions and is strongly preferred by users in pair-wise comparisons. The project website is available at https://deepimagination.cc/SPACE/
translated by 谷歌翻译
尽管已经对音频驱动的说话的面部生成取得了重大进展,但现有方法要么忽略面部情绪,要么不能应用于任意主题。在本文中,我们提出了情感感知的运动模型(EAMM),以通过涉及情感源视频来产生一次性的情感谈话面孔。具体而言,我们首先提出了一个Audio2Facial-Dynamics模块,该模块从音频驱动的无监督零和一阶密钥点运动中进行说话。然后,通过探索运动模型的属性,我们进一步提出了一个隐性的情绪位移学习者,以表示与情绪相关的面部动力学作为对先前获得的运动表示形式的线性添加位移。全面的实验表明,通过纳入两个模块的结果,我们的方法可以在具有现实情感模式的任意主题上产生令人满意的说话面部结果。
translated by 谷歌翻译
音频驱动的单次谈话脸生成方法通常培训各种人的视频资源。然而,他们创建的视频经常遭受不自然的口腔形状和异步嘴唇,因为这些方法努力学习来自不同扬声器的一致语音风格。我们观察到从特定扬声器学习一致的语音风格会更容易,这导致正宗的嘴巴运动。因此,我们通过从特定扬声器探讨音频和视觉运动之间的一致相关性,然后将音频驱动的运动场转移到参考图像来提出一种新颖的单次谈论的谈话脸。具体地,我们开发了一种视听相关变压器(AVCT),其旨在从输入音频推断由基于KeyPoint基的密集运动场表示的谈话运动。特别是,考虑到音频可能来自部署中的不同身份,我们将音素合并以表示音频信号。以这种方式,我们的AVCT可以本质地推广其他身份的音频。此外,由于面部键点用于表示扬声器,AVCT对训练扬声器的外观不可知,因此允许我们容易地操纵不同标识的面部图像。考虑到不同的面形状导致不同的运动,利用运动场传输模块来减少训练标识和一次性参考之间的音频驱动的密集运动场间隙。一旦我们获得了参考图像的密集运动场,我们就会使用图像渲染器从音频剪辑生成其谈话脸视频。由于我们学识到的一致口语风格,我们的方法会产生真正的口腔形状和生动的运动。广泛的实验表明,在视觉质量和唇部同步方面,我们的合成视频优于现有技术。
translated by 谷歌翻译
在本文中,我们探讨了一个有趣的问题,即从$ 8 \ times8 $ Pixel视频序列中获得什么。令人惊讶的是,事实证明很多。我们表明,当我们处理此$ 8 \ times8 $视频带有正确的音频和图像先验时,我们可以获得全长的256 \ times256 $视频。我们使用新颖的视听UPPRAPLING网络实现了极低分辨率输入的$ 32 \ times $缩放。音频先验有助于恢复元素面部细节和精确的唇形,而单个高分辨率目标身份图像先验为我们提供了丰富的外观细节。我们的方法是端到端的多阶段框架。第一阶段会产生一个粗糙的中间输出视频,然后可用于动画单个目标身份图像并生成逼真,准确和高质量的输出。我们的方法很简单,并且与以前的超分辨率方法相比,表现非常好($ 8 \ times $改善了FID得分)。我们还将模型扩展到了谈话视频压缩,并表明我们在以前的最新时间上获得了$ 3.5 \ times $的改进。通过广泛的消融实验(在论文和补充材料中)对我们网络的结果进行了彻底的分析。我们还在我们的网站上提供了演示视频以及代码和模型:\ url {http://cvit.iiit.ac.in/research/project/projects/cvit-projects/talking-face-vace-video-upsmpling}。
translated by 谷歌翻译
我们提出了Styletalker,这是一种新颖的音频驱动的会说话的头部生成模型,可以从单个参考图像中综合一个会说话的人的视频,并具有准确的音频同步的唇形,逼真的头姿势和眼睛眨眼。具体而言,通过利用预验证的图像生成器和图像编码器,我们估计了会说话的头视频的潜在代码,这些代码忠实地反映了给定的音频。通过几个新设计的组件使这成为可能:1)一种用于准确唇部同步的对比性唇部同步鉴别剂,2)一种条件顺序的连续变异自动编码器,该差异自动编码器了解从唇部运动中解散的潜在运动空间,以便我们可以独立地操纵运动运动的运动。和唇部运动,同时保留身份。 3)自动回归事先增强,并通过标准化流量来学习复杂的音频到运动多模式潜在空间。配备了这些组件,Styletalker不仅可以在给出另一个运动源视频时以动作控制的方式生成说话的头视频,而且还可以通过从输入音频中推断出现实的动作,以完全由音频驱动的方式生成。通过广泛的实验和用户研究,我们表明我们的模型能够以令人印象深刻的感知质量合成会说话的头部视频,这些视频与输入音频相符,可以准确地唇部同步,这在很大程度上要优于先进的基线。
translated by 谷歌翻译
This work addresses the problem of generating 3D holistic body motions from human speech. Given a speech recording, we synthesize sequences of 3D body poses, hand gestures, and facial expressions that are realistic and diverse. To achieve this, we first build a high-quality dataset of 3D holistic body meshes with synchronous speech. We then define a novel speech-to-motion generation framework in which the face, body, and hands are modeled separately. The separated modeling stems from the fact that face articulation strongly correlates with human speech, while body poses and hand gestures are less correlated. Specifically, we employ an autoencoder for face motions, and a compositional vector-quantized variational autoencoder (VQ-VAE) for the body and hand motions. The compositional VQ-VAE is key to generating diverse results. Additionally, we propose a cross-conditional autoregressive model that generates body poses and hand gestures, leading to coherent and realistic motions. Extensive experiments and user studies demonstrate that our proposed approach achieves state-of-the-art performance both qualitatively and quantitatively. Our novel dataset and code will be released for research purposes at https://talkshow.is.tue.mpg.de.
translated by 谷歌翻译
在本文中,我们介绍了一种新颖的深入学习方法,用于“野外”视频中演员的情绪状态的光学逼真操纵。所提出的方法基于输入场景中的演员的参数3D面表示,其提供来自头部姿势和面部表达的面部身份的可靠性解剖。然后,它使用新的深度域翻译框架,以符合他们的动态,以一致而合理的方式改变面部表情。最后,改变改变的面部表情用于基于特别设计的神经面渲染器光实际地操纵输入场景中的面部区域。据我们所知,我们的方法是第一个能够通过唯一用作操纵情绪的语义标记来控制演员的面部表情,同时保持与语音相关的唇部运动。我们进行广泛的定性和定量评估和比较,展示了我们的方法的有效性以及我们获得的特别有希望的结果。我们的方法为神经渲染技术的有用应用开辟了一种新的可能性,从电影后生产和视频游戏到照片逼真的情感化身。
translated by 谷歌翻译
我们提出了一种新颖的方法,用于生成语音音频和单个“身份”图像的高分辨率视频。我们的方法基于卷积神经网络模型,该模型结合了预训练的样式Gener。我们将每个帧建模为Stylegan潜在空间中的一个点,以便视频对应于潜在空间的轨迹。培训网络分为两个阶段。第一阶段是根据语音话语调节潜在空间中的轨迹。为此,我们使用现有的编码器倒转发电机,将每个视频框架映射到潜在空间中。我们训练一个经常性的神经网络,以从语音话语绘制到图像发生器潜在空间中的位移。这些位移是相对于从训练数据集中所描绘的个体选择的身份图像的潜在空间的反向预测的。在第二阶段,我们通过在单个图像或任何选择的身份的简短视频上调整图像生成器来提高生成视频的视觉质量。我们对标准度量(PSNR,SSIM,FID和LMD)的模型进行评估,并表明它在两个常用数据集之一上的最新方法明显优于最新的最新方法,另一方面给出了可比的性能。最后,我们报告了验证模型组成部分的消融实验。可以在https://mohammedalghamdi.github.io/talking-heads-acm-mm上找到实验的代码和视频
translated by 谷歌翻译
In this paper, we introduce a simple and novel framework for one-shot audio-driven talking head generation. Unlike prior works that require additional driving sources for controlled synthesis in a deterministic manner, we instead probabilistically sample all the holistic lip-irrelevant facial motions (i.e. pose, expression, blink, gaze, etc.) to semantically match the input audio while still maintaining both the photo-realism of audio-lip synchronization and the overall naturalness. This is achieved by our newly proposed audio-to-visual diffusion prior trained on top of the mapping between audio and disentangled non-lip facial representations. Thanks to the probabilistic nature of the diffusion prior, one big advantage of our framework is it can synthesize diverse facial motion sequences given the same audio clip, which is quite user-friendly for many real applications. Through comprehensive evaluations on public benchmarks, we conclude that (1) our diffusion prior outperforms auto-regressive prior significantly on almost all the concerned metrics; (2) our overall system is competitive with prior works in terms of audio-lip synchronization but can effectively sample rich and natural-looking lip-irrelevant facial motions while still semantically harmonized with the audio input.
translated by 谷歌翻译
最近,音频驱动的会说话的面部视频产生引起了广泛的关注。但是,很少有研究能够解决这些会说话的面部视频的情感编辑问题,并具有连续可控的表达式,这是行业中强烈的需求。面临的挑战是,与语音有关的表达和与情感有关的表达通常是高度耦合的。同时,由于表达式与其他属性(例如姿势)的耦合,即在每个框架中翻译角色的表达可能会同时改变头部姿势,因此传统的图像到图像翻译方法无法在我们的应用中很好地工作。培训数据分布。在本文中,我们提出了一种高质量的面部表达编辑方法,用于谈话面部视频,使用户可以连续控制编辑视频中的目标情感。我们为该任务提供了一个新的视角,作为运动信息编辑的特殊情况,我们使用3DMM捕获主要的面部运动和由StyleGAN模拟的相关纹理图,以捕获外观细节。两种表示(3DMM和纹理图)都包含情感信息,并且可以通过神经网络进行连续修改,并通过系数/潜在空间平均轻松平滑,从而使我们的方法变得简单而有效。我们还引入了口腔形状的保存损失,以控制唇部同步和编辑表达的夸张程度之间的权衡。广泛的实验和用户研究表明,我们的方法在各种评估标准中实现了最先进的表现。
translated by 谷歌翻译
我们提出了自由式 - 人体神经通话的头部合成系统。我们表明,具有稀疏3D面部标志的建模面孔足以实现最先进的生成性能,而无需依赖诸如3D可变形模型之类的强统计学先验。除了3D姿势和面部表情外,我们的方法还能够将目光从驾驶演员转移到源身份。我们的完整管道由三个组件组成:一个规范的3D密钥估计器,可回归3D姿势和与表达相关的变形,凝视估计网络和建立在Headgan架构上的生成器。我们进一步实验发电机的扩展,以使用注意机制可容纳几次学习,以防万一可用多个源图像。与最新的重演和运动转移模型相比,我们的系统实现了更高的照片真实性与优越的身份保护,同时提供明确的注视控制。
translated by 谷歌翻译
在过去的几十年中,虚拟领域的许多方面都得到了增强,从亚马逊的Alexa和Apple的Siri等数字助手到出现到重新品牌的Meta的最新元元努力。这些趋势强调了产生对人类的影像性视觉描述的重要性。近年来,这导致了所谓的深层和说话的头部生成方法的快速增长。尽管它们令人印象深刻和受欢迎程度,但它们通常缺乏某些定性方面,例如纹理质量,嘴唇同步或解决方案以及实时运行的实用方面。为了允许虚拟人类化身在实际场景中使用,我们提出了一个端到端框架,用于合成能够语音的高质量虚拟人脸,并特别强调性能。我们介绍了一个新的网络,利用Visemes作为中间音频表示,并采用层次图像综合方法的新型数据增强策略,该方法允许解散用于控制全球头部运动的不同模态。我们的方法是实时运行的,与当前的最新技术相比,我们能够提供卓越的结果。
translated by 谷歌翻译
Different people speak with diverse personalized speaking styles. Although existing one-shot talking head methods have made significant progress in lip sync, natural facial expressions, and stable head motions, they still cannot generate diverse speaking styles in the final talking head videos. To tackle this problem, we propose a one-shot style-controllable talking face generation framework. In a nutshell, we aim to attain a speaking style from an arbitrary reference speaking video and then drive the one-shot portrait to speak with the reference speaking style and another piece of audio. Specifically, we first develop a style encoder to extract dynamic facial motion patterns of a style reference video and then encode them into a style code. Afterward, we introduce a style-controllable decoder to synthesize stylized facial animations from the speech content and style code. In order to integrate the reference speaking style into generated videos, we design a style-aware adaptive transformer, which enables the encoded style code to adjust the weights of the feed-forward layers accordingly. Thanks to the style-aware adaptation mechanism, the reference speaking style can be better embedded into synthesized videos during decoding. Extensive experiments demonstrate that our method is capable of generating talking head videos with diverse speaking styles from only one portrait image and an audio clip while achieving authentic visual effects. Project Page: https://github.com/FuxiVirtualHuman/styletalk.
translated by 谷歌翻译
这项研究旨在通过添加从野外视频中学到的唇部动画来使元角色更现实。为了实现这一目标,我们的方法是扩展Tacotron 2文本到语音合成器,以在一次通过时与MEL频谱一起生成唇部运动。编码器和栅极层的权重在LJ语音1.1数据集上进行了预训练,而解码器则在从LRS 3数据集中提取的93个TED谈话视频中重新训练。我们的新型解码器预测,使用OpenFace 2.0 Landmark预测器自动提取的标签,可以在时间上跨20个唇部标记位置位移。训练在7小时内使用不到5分钟的视频收敛。我们进行了前/后网络和预训练的编码器权重的消融研究,以证明音频和视觉语音数据之间传输学习的有效性。
translated by 谷歌翻译
已经普遍研究了具有精确唇部同步的语音驱动的3D面部动画。然而,在演讲中为整个面部的综合制造动作很少被探索。在这项工作中,我们介绍了一个联合音频文本模型,用于捕捉表达语音驱动的3D面部动画的上下文信息。收集现有数据集以覆盖尽可能多的不同音素而不是句子,从而限制了基于音频的模型的能力,以了解更多不同的上下文。为解决此问题,我们建议利用从强大的预先培训的语言模型中提取的上下文文本嵌入,该模型从大规模文本数据中学习了丰富的上下文表示。我们的假设是文本特征可以消除上面表达式的变化,这与音频没有强烈相关。与从文本中学习音素级别功能的先前方法相比,我们调查语音驱动3D面部动画的高级上下文文本特征。我们表明,组合的声学和文本方式可以在维持抖动同步的同时综合现实的面部表达式。我们进行定量和定性评估以及感知用户学习。结果展示了我们模型对现有最先进的方法的卓越表现。
translated by 谷歌翻译
在本文中,我们呈现VDTTS,一个视觉驱动的文本到语音模型。通过配音而激励,VDTTS利用视频帧作为伴随文本的附加输入,并生成与视频信号匹配的语音。我们展示了这允许VDTTS,与普通的TTS模型不同,产生不仅具有自然暂停和间距等韵律变化的语音,而且还与输入视频同步。实验,我们显示我们的模型产生良好的同步输出,接近地面真理的视频语音同步质量,在几个具有挑战性的基准中,包括来自VoxceleB2的“野外”内容。我们鼓励读者查看演示视频,演示视频语音同步,对扬声器ID交换和韵律的鲁棒性。
translated by 谷歌翻译
尽管基于深度学习的面部相关模型成功显着,但这些模型仍然仅限于真正人类面的领域。另一方面,由于缺乏组织良好的数据集,由于缺乏组织的数据集,动画面的域已经不太积极地研究。在本文中,我们通过可控的合成动画模型介绍了一个大规模动画CeleBfaces数据集(AnimeCeleb),以提高动画面域的研究。为了促进数据生成过程,我们基于开放式3D软件和开发的注释系统构建半自动管道。这导致构建大型动画面部数据集,包括具有丰富注释的多姿态和多样式动画面。实验表明,我们的数据集适用于各种动画相关的任务,如头部重新创建和着色。
translated by 谷歌翻译
编辑和操纵视频中的面部特征是一种有趣而重要的研究领域,具有夸张的应用,从电影生产和视觉效果到视频游戏和虚拟助手的现实头像。据我们所知,本文提出了第一种在视频中进行了对面部表情的照相型式操纵的方法。我们的方法支持基于神经渲染和基于3D的面部表情建模的语义视频操纵。我们专注于通过改变和控制面部表情来互动操纵视频,实现有前途的光电温度效果。该方法基于用于3D面部形状和活动的脱屑表示和估计,为用户提供对输入视频中的面部表情的直观且易于使用的控制。我们还介绍了一个用户友好的交互式AI工具,该工具处理有关输入视频的特定部分的所需情绪操纵的人类可读的语义标签,并合成光电环境拟人的操纵视频。我们通过将情绪标签映射到价值(VA)值来实现这一点,又通过特别设计和训练的表达式解码器网络映射到解开的3D面部表达式。本文提出了详细的定性和定量实验,展示了我们系统的有效性以及它实现的有希望的结果。可以在补充材料中找到其他结果和视频(https://github.com/girish-03/deepsemmanipulation)。
translated by 谷歌翻译
由于深度学习的出现,图像数据的最新技术对单眼3D面对重建的重建取得了令人印象深刻的进步。但是,它主要集中于来自单个RGB图像的输入,忽略以下重要因素:a)如今,感兴趣的绝大多数面部图像数据不是来自单个图像,而是来自包含丰富动态信息的视频。 。 b)此外,这些视频通常以某种形式的口头交流捕捉个人(公众对话,电视会议,视听人类计算机的互动,访谈,电影中的独白/对话等)。当在此类视频中应用现有的3D面部重建方法时,重建口腔区域的形状和运动中的伪影通常很严重,因为它们与语音音频不太匹配。为了克服上述局限性,我们提出了3D口表达的视觉语音感知重建的第一种方法。我们通过提出“口语”损失来做到这一点,该损失指导拟合过程,从而使3D重建的说话头的感知与原始录像相似。我们证明,有趣的是,与传统的具有里程碑意义的损失,甚至直接3D监督相比,口头损失更适合3D重建嘴运动。此外,设计的方法不依赖于任何文本转录或相应的音频,因此非常适合在未标记的数据集中培训。我们通过对三个大规模数据集的详尽客观评估以及通过两种基于网络的用户研究进行主观评估来验证方法的效率。
translated by 谷歌翻译
从单个图像的面部图像动画取得了显着的进展。然而,当只有稀疏的地标作为驱动信号时,它仍然具有挑战性。鉴于源人面部图像和一系列稀疏面部地标,我们的目标是生成模仿地标运动的脸部的视频。我们开发了一种高效有效的方法,用于从稀疏地标到面部图像的运动转移。然后,我们将全局和局部运动估计结合在统一的模型中以忠实地传输运动。该模型可以学习从背景中分割移动前景并不仅产生全局运动,例如面部的旋转和翻译,还可以微妙地进行诸如凝视变化的局部运动。我们进一步改善了视频的面部地标检测。随着时间上更好地对齐的训练的标志性序列,我们的方法可以产生具有更高视觉质量的时间相干视频。实验表明,我们实现了与最先进的图像驱动方法相当的结果,在相同的身份测试和交叉标识测试上的更好结果。
translated by 谷歌翻译