在这项工作中,我们解决了4D面部表情生成的问题。通常,通过对中性3D面动画来达到表达峰,然后回到中立状态来解决这一问题。但是,在现实世界中,人们表现出更复杂的表情,并从一个表达式转换为另一种表达。因此,我们提出了一个新模型,该模型在不同表达式之间产生过渡,并综合了长长的4D表达式。这涉及三个子问题:(i)建模表达式的时间动力学,(ii)它们之间的学习过渡,以及(iii)变形通用网格。我们建议使用一组3D地标的运动编码表达式的时间演变,我们学会通过训练一个具有歧管值的gan(Motion3dgan)来生成。为了允许生成组成的表达式,该模型接受两个编码起始和结尾表达式的标签。网格的最终顺序是由稀疏的2块网格解码器(S2D-DEC)生成的,该解码器将地标位移映射到已知网格拓扑的密集,每位vertex位移。通过明确处理运动轨迹,该模型完全独立于身份。五个公共数据集的广泛实验表明,我们提出的方法在以前的解决方案方面带来了重大改进,同时保留了良好的概括以看不见数据。
translated by 谷歌翻译
在本文中,我们展示了Facetunegan,一种新的3D面部模型表示分解和编码面部身份和面部表情。我们提出了对图像到图像翻译网络的第一次适应,该图像已经成功地用于2D域,到3D面几何。利用最近释放的大面扫描数据库,神经网络已经过培训,以便与面部更好的了解,使面部表情转移和中和富有效应面的变异因素。具体而言,我们设计了一种适应基础架构的对抗架构,并使用Spiralnet ++进行卷积和采样操作。使用两个公共数据集(FACESCAPE和COMA),Facetunegan具有比最先进的技术更好的身份分解和面部中和。它还通过预测较近地面真实数据的闪烁形状并且由于源极和目标之间的面部形态过于不同的面部形态而越来越多的不期望的伪像来优异。
translated by 谷歌翻译
Learned 3D representations of human faces are useful for computer vision problems such as 3D face tracking and reconstruction from images, as well as graphics applications such as character generation and animation. Traditional models learn a latent representation of a face using linear subspaces or higher-order tensor generalizations. Due to this linearity, they can not capture extreme deformations and nonlinear expressions. To address this, we introduce a versatile model that learns a non-linear representation of a face using spectral convolutions on a mesh surface. We introduce mesh sampling operations that enable a hierarchical mesh representation that captures non-linear variations in shape and expression at multiple scales within the model. In a variational setting, our model samples diverse realistic 3D faces from a multivariate Gaussian distribution. Our training data consists of 20,466 meshes of extreme expressions captured over 12 different subjects. Despite limited training data, our trained model outperforms state-of-the-art face models with 50% lower reconstruction error, while using 75% fewer parameters. We show that, replacing the expression space of an existing state-of-theart face model with our model, achieves a lower reconstruction error. Our data, model and code are available at http://coma.is.tue.mpg.de/.
translated by 谷歌翻译
我们提出了自由式 - 人体神经通话的头部合成系统。我们表明,具有稀疏3D面部标志的建模面孔足以实现最先进的生成性能,而无需依赖诸如3D可变形模型之类的强统计学先验。除了3D姿势和面部表情外,我们的方法还能够将目光从驾驶演员转移到源身份。我们的完整管道由三个组件组成:一个规范的3D密钥估计器,可回归3D姿势和与表达相关的变形,凝视估计网络和建立在Headgan架构上的生成器。我们进一步实验发电机的扩展,以使用注意机制可容纳几次学习,以防万一可用多个源图像。与最新的重演和运动转移模型相比,我们的系统实现了更高的照片真实性与优越的身份保护,同时提供明确的注视控制。
translated by 谷歌翻译
3D漫画是对人脸的夸张的3D描述。本文的目的是对紧凑的参数空间中的3D漫画的变化进行建模,以便我们可以为处理3D漫画变形提供有用的数据驱动工具包。为了实现目标,我们提出了一个基于MLP的框架,用于构建可变形的表面模型,该模型采用潜在代码并产生3D表面。在框架中,警笛MLP模拟了在固定模板表面上采用3D位置并返回输入位置的3D位移向量的函数。我们通过学习采用潜在代码并产生MLP参数的超网络来创建3D表面的变化。一旦了解到,我们的可变形模型为3D漫画提供了一个不错的编辑空间,支持基于标签的语义编辑和基于尖的基于尖的变形,这两者都产生了高度夸张和自然的3D讽刺形状。我们还展示了可变形模型的其他应用,例如自动3D漫画创建。
translated by 谷歌翻译
在本文中,我们提出了一个大型详细的3D面部数据集,FACESCAPE和相应的基准,以评估单视图面部3D重建。通过对FACESCAPE数据进行训练,提出了一种新的算法来预测从单个图像输入的精心索引3D面模型。 FACESCAPE DataSet提供18,760个纹理的3D面,从938个科目捕获,每个纹理和每个特定表达式。 3D模型包含孔径级面部几何形状,也被处理为拓扑均匀化。这些精细的3D面部模型可以表示为用于详细几何的粗糙形状和位移图的3D可线模型。利用大规模和高精度的数据集,进一步提出了一种使用深神经网络学习特定于表达式动态细节的新颖算法。学习的关系是从单个图像输入的3D面预测系统的基础。与以前的方法不同,我们的预测3D模型在不同表达式下具有高度详细的几何形状。我们还使用FACESCAPE数据来生成野外和实验室内基准,以评估最近的单视面重建方法。报告并分析了相机姿势和焦距的尺寸,并提供了忠诚和综合评估,并揭示了新的挑战。前所未有的数据集,基准和代码已被释放到公众以进行研究目的。
translated by 谷歌翻译
近年来,由于其在数字人物,角色产生和动画中的广泛应用,人们对3D人脸建模的兴趣越来越大。现有方法压倒性地强调了对面部的外部形状,质地和皮肤特性建模,而忽略了内部骨骼结构和外观之间的固有相关性。在本文中,我们使用学习的参数面部发电机提出了雕塑家,具有骨骼一致性的3D面部创作,旨在通过混合参数形态表示轻松地创建解剖上正确和视觉上令人信服的面部模型。雕塑家的核心是露西(Lucy),这是与整形外科医生合作的第一个大型形状面部脸部数据集。我们的Lucy数据集以最古老的人类祖先之一的化石命名,其中包含正牙手术前后全人头的高质量计算机断层扫描(CT)扫描,这对于评估手术结果至关重要。露西(Lucy)由144次扫描,分别对72名受试者(31名男性和41名女性)组成,其中每个受试者进行了两次CT扫描,并在恐惧后手术中进行了两次CT扫描。根据我们的Lucy数据集,我们学习了一个新颖的骨骼一致的参数面部发电机雕塑家,它可以创建独特而细微的面部特征,以帮助定义角色,同时保持生理声音。我们的雕塑家通过将3D脸的描绘成形状混合形状,姿势混合形状和面部表达混合形状,共同在统一数据驱动的框架下共同建模头骨,面部几何形状和面部外观。与现有方法相比,雕塑家在面部生成任务中保留了解剖学正确性和视觉现实主义。最后,我们展示了雕塑家在以前看不见的各种花式应用中的鲁棒性和有效性。
translated by 谷歌翻译
我们提出了一个框架来学习一个结构化的潜在空间来代表4D人体运动,其中每个潜在向量都编码整个3D人类形状的全部运动。一方面,存在一些数据驱动的骨骼动画模型,提出了时间密集运动信号的运动空间,但基于几何稀疏的运动学表示。另一方面,存在许多方法来构建密集的3D几何形状的形状空间,但对于静态帧。我们将两个概念汇总在一起,提出一个运动空间,该运动空间在时间和几何上都很密集。经过训练后,我们的模型将基于低维潜在空间中的单个点生成多帧序列。该潜在空间是构建为结构化的,因此类似的运动形成簇。它还嵌入了潜在矢量中的持续时间变化,允许语义上的接近序列,这些序列仅因时间展开而不同以共享相似的潜在矢量。我们通过实验证明了潜在空间的结构特性,并表明它可用于在不同动作之间生成合理的插值。我们还将模型应用于4D人类运动的完成,显示其有希望学习人类运动时空特征的能力。
translated by 谷歌翻译
我们认为人类变形转移问题,目标是在不同角色之间的零件姿势。解决此问题的传统方法需要清晰的姿势定义,并使用此定义在字符之间传输姿势。在这项工作中,我们采取了不同的方法,将角色的身份转换为新的身份,而无需修改角色的姿势。这提供了不必在3D人类姿势之间定义等效性的优点,这在姿势往往会根据执行它们的角色的身份而变化并不简单,并且由于它们的含义是高度上下文的。为了实现变形转移,我们提出了一种神经编码器 - 解码器架构,其中仅编码身份信息以及解码器在姿势上调节的位置。我们使用姿势独立表示,例如等距 - 不变形状特征,以表示身份特征。我们的模型使用这些功能来监督从变形姿势的偏移预测到转移结果。我们通过实验展示了我们的方法优于最先进的方法,定量和定性,并且更好地推广在训练期间没有看到。我们还介绍了一个微调步骤,可以为极端身份获得竞争力的结果,并允许转移简单的衣服。
translated by 谷歌翻译
我们提出了一种自动方法,以根据从视频中提取的面部标志来估算自我报告的疼痛。对于每个视频序列,我们将面部分解为四个不同的区域,并通过使用这些区域的地标对面部运动的动态进行建模来衡量疼痛强度。基于革兰氏矩阵的公式用于代表固定等级的对称正极半明确矩阵Riemannian歧管上的地标轨迹。曲线拟合算法用于平滑轨迹,并执行时间对齐以计算歧管上的轨迹之间的相似性。然后对支持矢量回归分类器进行训练,以编码与自我报告的疼痛强度测量一致的疼痛强度水平。最后,进行每个区域的估计后期融合以获得最终的预测疼痛水平。提出的方法将在两个公开可用的数据集上进行评估,即UNBCMCMASTER肩部疼痛档案和Biovid热疼痛数据集。我们使用不同的测试协议将我们的方法与两个数据集的最新方法进行了比较,以显示所提出的方法的竞争力。
translated by 谷歌翻译
3D可线模型(3DMMS)是面部形状和外观的生成模型。然而,传统3DMMS的形状参数满足多变量高斯分布,而嵌入式嵌入满足过边距分布,并且这种冲突使得面部重建模型同时保持忠诚度和形状一致性的挑战。为了解决这个问题,我们提出了一种用于单眼脸部重建的新型3DMM的球体面部模型(SFM),这可以保持既有忠诚度和身份一致性。我们的SFM的核心是可以用于重建3D面形状的基矩阵,并且通过采用在第一和第二阶段中使用3D和2D训练数据的两级训练方法来学习基本矩阵。为了解决分发不匹配,我们设计一种新的损失,使形状参数具有超球的潜在空间。广泛的实验表明,SFM具有高表示能力和形状参数空间的聚类性能。此外,它产生富翼面形状,并且形状在单眼性重建中的挑战条件下是一致的。
translated by 谷歌翻译
3D面部建模一直是计算机视觉和计算机图形学研究的活跃领域,从虚拟化身中的面部表达转移到合成数据生成,助长了应用。现有的3D深度学习生成模型(例如,VAE,gan)允许生成紧凑的面部表征(形状和纹理),可以在形状和外观空间中建模非线性(例如,散射效果,镜面等)。但是,他们缺乏控制微妙表达产生的能力。本文提出了一种新的3D面部生成模型,该模型可以使身份和表达不适,并提供对表达式的颗粒状控制。特别是,我们建议使用一对监督自动编码器和生成对抗网络来产生高质量的3D面,无论是外观和形状而言。实验结果是用整体表达标签或作用单元标签学到的3D面的产生结果表明,我们如何将身份和表达分离;在保留身份的同时,获得精细的表达方式。
translated by 谷歌翻译
我们提出了神经头头像,这是一种新型神经表示,其明确地模拟了可动画的人体化身的表面几何形状和外观,可用于在依赖数字人类的电影或游戏行业中的AR / VR或其他应用中的电话会议。我们的代表可以从单眼RGB肖像视频中学到,该视频具有一系列不同的表达和视图。具体地,我们提出了一种混合表示,其由面部的粗糙形状和表达式和两个前馈网络组成的混合表示,以及预测底层网格的顶点偏移以及视图和表达依赖性纹理。我们证明,该表示能够准确地外推到看不见的姿势和观点,并在提供尖锐的纹理细节的同时产生自然表达。与先前的磁头头像上的作品相比,我们的方法提供了与标准图形管道兼容的完整人体头(包括头发)的分解形状和外观模型。此外,就重建质量和新型观看合成而定量和定性地优于现有技术的当前状态。
translated by 谷歌翻译
面部额叶化包括从任意观看的脸部合成正面观看的脸部。本文的主要贡献是一种额叶化方法,该方法可以保留非刚性面部变形,以提高视觉辅助语音交流的性能。该方法在(i)〜刚性转换(刻度,旋转和翻译)和(ii)〜任意观看的面部和面部模型之间的非rigid变形之间交替交替。该方法具有两个重要的优点:它可以处理数据中的非高斯错误,并结合了动态的面部变形模型。为此,我们将广义的学生T-分布与线性动态系统结合使用,以说明僵化的头部运动和由语音产生引起的时变面部变形。我们建议使用零均值的归一化互相关(ZNCC)评分来评估该方法保留面部表情的能力。根据传统的几何模型或深度学习,对该方法进行了彻底评估并与几种最先进的方法进行了比较。此外,我们表明,当将这种方法纳入深度学习管道中时,即唇部阅读和语音增强,将单词识别和语音智能分数提高了相当大的差距。可以在https://team.inria.fr/robotlearn/research/facefrontalization-benchmark/上访问补充材料
translated by 谷歌翻译
可变形的模型对于3D面的统计建模至关重要。以前的可变形模型的作品主要集中在大规模的面部几何形状上,但忽略了面部细节。本文通过学习一种结构含义的可编辑形态模型(SEMM)来增强形象模型。 SEMM基于皱纹线的距离字段引入了细节结构表示,并以细节位移进行建模,以建立更好的对应关系并实现对皱纹结构的直观操纵。此外,SEMM还引入了两个转换模块,以将表达式的融合体权重和年龄值转化为潜在空间的变化,从而在维持身份的同时可以有效的语义细节编辑。广泛的实验表明,所提出的模型紧凑地表示面部细节,在定性和定量上表达动画中的先前方法,并实现了面部细节的有效年龄编辑和皱纹线编辑。代码和模型可在https://github.com/gerwang/facial-detail-manipulation上找到。
translated by 谷歌翻译
生产级别的工作流程用于产生令人信服的3D动态人体面孔长期以来依赖各种劳动密集型工具用于几何和纹理生成,运动捕获和索具以及表达合成。最近的神经方法可以使单个组件自动化,但是相应的潜在表示不能像常规工具一样为艺术家提供明确的控制。在本文中,我们提出了一种新的基于学习的,视频驱动的方法,用于生成具有高质量基于物理资产的动态面部几何形状。对于数据收集,我们构建了一个混合多视频测量捕获阶段,与超快速摄像机耦合以获得原始的3D面部资产。然后,我们着手使用单独的VAE对面部表达,几何形状和基于物理的纹理进行建模,我们在各个网络的潜在范围内强加了基于全局MLP的表达映射,以保留各个属性的特征。我们还将增量信息建模为基于物理的纹理的皱纹图,从而达到高质量的4K动态纹理。我们展示了我们在高保真表演者特异性面部捕获和跨认同面部运动重新定位中的方法。此外,我们的基于多VAE的神经资产以及快速适应方案也可以部署以处理内部视频。此外,我们通过提供具有较高现实主义的各种有希望的基于身体的编辑结果来激发我们明确的面部解散策略的实用性。综合实验表明,与以前的视频驱动的面部重建和动画方法相比,我们的技术提供了更高的准确性和视觉保真度。
translated by 谷歌翻译
我们建议使用单个图像进行面部表达到表达翻译的简单而强大的地标引导的生成对抗网络(Landmarkgan),这在计算机视觉中是一项重要且具有挑战性的任务,因为表达到表达的翻译是非 - 线性和非对准问题。此外,由于图像中的对象可以具有任意的姿势,大小,位置,背景和自我观念,因此需要在输入图像和输出图像之间有一个高级的语义理解。为了解决这个问题,我们建议明确利用面部地标信息。由于这是一个具有挑战性的问题,我们将其分为两个子任务,(i)类别引导的地标生成,以及(ii)具有里程碑意义的指导表达式对表达的翻译。两项子任务以端到端的方式进行了培训,旨在享受产生的地标和表情的相互改善的好处。与当前的按键指导的方法相比,提议的Landmarkgan只需要单个面部图像即可产生各种表达式。四个公共数据集的广泛实验结果表明,与仅使用单个图像的最先进方法相比,所提出的Landmarkgan获得了更好的结果。该代码可从https://github.com/ha0tang/landmarkgan获得。
translated by 谷歌翻译
传统的变形面模型提供了对表达的细粒度控制,但不能轻易捕获几何和外观细节。神经体积表示方法是光学 - 现实主义,但很难动画,并没有概括到看不见的表达。为了解决这个问题,我们提出了iMavatar(隐式的可变头像),这是一种从单眼视频学习隐含头头像的新方法。灵感来自传统3DMMS提供的细粒度控制机制,我们代表了通过学习的闪打和剥皮领域的表达和与姿势相关的变形。这些属性是姿势独立的,可用于使规范几何形状和纹理字段变成新颖的表达和姿势参数。我们使用射线跟踪和迭代根发现来定位每个像素的规范表面交叉点。关键贡献是我们的新型分析梯度制定,可实现来自视频的imavatars的端到端培训。我们的定量和定性地显示了我们的方法改善了几何形状,并与最先进的方法相比,涵盖了更完整的表达空间。
translated by 谷歌翻译
在面孔和机构的3D生成模型中学习解除一致,可解释和结构化的潜在代表仍然是一个开放的问题。当需要对身份特征的控制时,问题特别严重。在本文中,我们提出了一种直观但有效的自我监督方法来训练3D形变形自动化器(VAE),鼓励身份特征的解开潜在表示。通过在不同形状上交换任意特征来造成迷你批处理允许定义利用潜在表示中已知差异和相似性的损耗功能。在3D网眼上进行的实验结果表明,最先进的潜在解剖学方法无法解散面部和身体的身份特征。我们所提出的方法适当地解耦了这些特征的产生,同时保持了良好的表示和重建能力。
translated by 谷歌翻译
由于深度学习的出现,图像数据的最新技术对单眼3D面对重建的重建取得了令人印象深刻的进步。但是,它主要集中于来自单个RGB图像的输入,忽略以下重要因素:a)如今,感兴趣的绝大多数面部图像数据不是来自单个图像,而是来自包含丰富动态信息的视频。 。 b)此外,这些视频通常以某种形式的口头交流捕捉个人(公众对话,电视会议,视听人类计算机的互动,访谈,电影中的独白/对话等)。当在此类视频中应用现有的3D面部重建方法时,重建口腔区域的形状和运动中的伪影通常很严重,因为它们与语音音频不太匹配。为了克服上述局限性,我们提出了3D口表达的视觉语音感知重建的第一种方法。我们通过提出“口语”损失来做到这一点,该损失指导拟合过程,从而使3D重建的说话头的感知与原始录像相似。我们证明,有趣的是,与传统的具有里程碑意义的损失,甚至直接3D监督相比,口头损失更适合3D重建嘴运动。此外,设计的方法不依赖于任何文本转录或相应的音频,因此非常适合在未标记的数据集中培训。我们通过对三个大规模数据集的详尽客观评估以及通过两种基于网络的用户研究进行主观评估来验证方法的效率。
translated by 谷歌翻译