地标通常在面部分析中起关键作用,但是仅凭稀疏地标就不能代表身份或表达的许多方面。因此,为了更准确地重建面,地标通常与其他信号(如深度图像或技术)相结合,例如可区分渲染。我们可以通过使用更多地标使事情变得简单吗?在答案中,我们提出了第一种准确地预测10倍地标的方法,覆盖整个头部,包括眼睛和牙齿。这是使用合成培训数据来完成的,该数据保证了完美的地标注释。通过将可变形的模型拟合到这些密集的地标,我们可以在野外实现单眼3D面重建的最新结果。我们表明,密集的地标是通过在单眼和多视图方案中展示准确和表现力的面部绩效捕获来整合跨帧面部形状信息的理想信号。这种方法也非常有效:我们可以预测密集的地标,并在单个CPU线程上以超过150fps的速度适合我们的3D面模型。请参阅我们的网站:https://microsoft.github.io/denselandmarks/。
translated by 谷歌翻译
Recent work has shown the benefits of synthetic data for use in computer vision, with applications ranging from autonomous driving to face landmark detection and reconstruction. There are a number of benefits of using synthetic data from privacy preservation and bias elimination to quality and feasibility of annotation. Generating human-centered synthetic data is a particular challenge in terms of realism and domain-gap, though recent work has shown that effective machine learning models can be trained using synthetic face data alone. We show that this can be extended to include the full body by building on the pipeline of Wood et al. to generate synthetic images of humans in their entirety, with ground-truth annotations for computer vision applications. In this report we describe how we construct a parametric model of the face and body, including articulated hands; our rendering pipeline to generate realistic images of humans based on this body model; an approach for training DNNs to regress a dense set of landmarks covering the entire body; and a method for fitting our body model to dense landmarks predicted from multiple views.
translated by 谷歌翻译
在本文中,我们提出了一个大型详细的3D面部数据集,FACESCAPE和相应的基准,以评估单视图面部3D重建。通过对FACESCAPE数据进行训练,提出了一种新的算法来预测从单个图像输入的精心索引3D面模型。 FACESCAPE DataSet提供18,760个纹理的3D面,从938个科目捕获,每个纹理和每个特定表达式。 3D模型包含孔径级面部几何形状,也被处理为拓扑均匀化。这些精细的3D面部模型可以表示为用于详细几何的粗糙形状和位移图的3D可线模型。利用大规模和高精度的数据集,进一步提出了一种使用深神经网络学习特定于表达式动态细节的新颖算法。学习的关系是从单个图像输入的3D面预测系统的基础。与以前的方法不同,我们的预测3D模型在不同表达式下具有高度详细的几何形状。我们还使用FACESCAPE数据来生成野外和实验室内基准,以评估最近的单视面重建方法。报告并分析了相机姿势和焦距的尺寸,并提供了忠诚和综合评估,并揭示了新的挑战。前所未有的数据集,基准和代码已被释放到公众以进行研究目的。
translated by 谷歌翻译
人类性能捕获是一种非常重要的计算机视觉问题,在电影制作和虚拟/增强现实中具有许多应用。许多以前的性能捕获方法需要昂贵的多视图设置,或者没有恢复具有帧到帧对应关系的密集时空相干几何。我们提出了一种新颖的深度致密人体性能捕获的深层学习方法。我们的方法是基于多视图监督的弱监督方式培训,完全删除了使用3D地面真理注释的培训数据的需求。网络架构基于两个单独的网络,将任务解散为姿势估计和非刚性表面变形步骤。广泛的定性和定量评估表明,我们的方法在质量和稳健性方面优于现有技术。这项工作是DeepCAP的扩展版本,在那里我们提供更详细的解释,比较和结果以及应用程序。
translated by 谷歌翻译
一般照明条件中单眼图像的强大面部重建是具有挑战性的。用于使用微弱渲染的深度神经网络编码器结合的方法打开了几何,照明和反射的非常快速的单眼重建的路径。它们也可以通过自我监督的方式培训,以增加鲁棒性和更好的泛化。然而,基于光栅化的图像形成模型以及底层场景参数化,将它们限制在Lambertian的反射率和差的形状细节中。最近,在基于经典优化的框架内引入了用于单眼脸部重建的射线跟踪,并实现最先进的结果。然而,基于优化的方法本质上很慢,缺乏鲁棒性。在本文中,我们在上述方法上建立了我们的工作,并提出了一种新的方法,大大提高了一般场景中的重建质量和鲁棒性。我们通过将CNN编码器与可分散的射线示踪剂组合来实现这一点,这使得我们能够将重建基于更高级的个性化漫射和镜面,更复杂的照明模型和自阴影的合理表示。这使得即使在难以照明的场景中,也可以在重建的形状,外观和照明中进行大跃进。通过一致的面部属性重建,我们的方法导致实际应用,例如致密和自阴影去除。与最先进的方法相比,我们的结果表明了提高了方法的准确性和有效性。
translated by 谷歌翻译
3D面部重建是一个具有挑战性的问题,但也是计算机视觉和图形领域的重要任务。最近,许多研究人员对这个问题提请注意,并且已经发表了大量的文章。单个图像重建是3D面部重建的分支之一,在我们的生活中具有大量应用。本文是对从单个图像的3D面部重建最近的文献述评。
translated by 谷歌翻译
尽管3D面部重建取得了令人印象深刻的进步,但由于在透视图下,由于面部非常接近摄像机,因此大多数基于正交的脸部重建方法无法实现准确,一致的重建结果。在本文中,我们建议在世界空间中同时重建3D面部网格,并预测图像平面上的2D面部标志,以解决透视图3D面对重建问题。基于预测的3D顶点和2D地标,PNP求解器可以轻松估算6DOF(6个自由度)面姿势,以表示透视投影。我们的方法在ECCV 2022 WCPA挑战的Leading板上获得第一名,而我们的模型在不同的身份,表达和姿势下在视觉上具有健壮。释放培训代码和模型以促进未来的研究。
translated by 谷歌翻译
以准确的,稳健和快速的方式拟合人体,手或面对稀疏输入信号的参数模型,这具有重要的是在AR和VR场景中显着改善浸入。解决这些问题的系统中的一个常见的第一步是直接从输入数据重新分配参数模型的参数。这种方法是快速,稳健的,并且是迭代最小化算法的良好起点。后者搜索最小的能量函数,通常由编码关于问题的结构的知识的数据项和前沿组成。虽然这无疑是一个非常成功的食谱,但前锋往往是手工定义的启发式,发现不同术语之间的正确平衡,以实现高质量的结果是一个非琐碎的任务。此外,转换和优化这些系统以表现方式运行,需要定制实现,要求从工程师和域专家进行大量时间投资。在这项工作中,我们建立了近期学习优化的进步,并提出了由Classic Levenberg-Marquardt算法启发的更新规则。我们展示了所提出的神经优化器对从2D地标的头戴式装置和面部配件的3D体表估计问题的有效性。我们的方法可以很容易地应用于新的模型拟合问题,并提供竞争替代方案,在准确性和速度方面都提供了良好的调谐“传统”模型拟合管道。
translated by 谷歌翻译
Figure 1: Frankenstein (silver) and Adam (gold). This paper presents a 3D human model capable of concurrently tracking the large-scale posture of the body along with the smaller details of a persons facial expressions and hand gestures.
translated by 谷歌翻译
Proposed online reenactment setup: a monocular target video sequence (e.g., from Youtube) is reenacted based on the expressions of a source actor who is recorded live with a commodity webcam.
translated by 谷歌翻译
本文介绍了一个新的大型多视图数据集,称为Humbi的人体表达式,具有天然衣物。 HUMBI的目标是为了便于建模特异性的外观和五个主要身体信号的几何形状,包括来自各种各样的人的凝视,面部,手,身体和服装。 107同步高清摄像机用于捕获772个跨性别,种族,年龄和风格的独特科目。使用多视图图像流,我们使用3D网格模型重建高保真体表达式,允许表示特定于视图的外观。我们证明HUMBI在学习和重建完整的人体模型方面非常有效,并且与人体表达的现有数据集互补,具有有限的观点和主题,如MPII-Gaze,Multi-Pie,Human 3.6m和Panoptic Studio数据集。基于HUMBI,我们制定了一种展开的姿态引导外观渲染任务的新基准挑战,其旨在大大延长了在3D中建模的不同人类表达式中的光敏性,这是真实的社会远程存在的关键能力。 Humbi公开提供http://humbi-data.net
translated by 谷歌翻译
我们提出了神经头头像,这是一种新型神经表示,其明确地模拟了可动画的人体化身的表面几何形状和外观,可用于在依赖数字人类的电影或游戏行业中的AR / VR或其他应用中的电话会议。我们的代表可以从单眼RGB肖像视频中学到,该视频具有一系列不同的表达和视图。具体地,我们提出了一种混合表示,其由面部的粗糙形状和表达式和两个前馈网络组成的混合表示,以及预测底层网格的顶点偏移以及视图和表达依赖性纹理。我们证明,该表示能够准确地外推到看不见的姿势和观点,并在提供尖锐的纹理细节的同时产生自然表达。与先前的磁头头像上的作品相比,我们的方法提供了与标准图形管道兼容的完整人体头(包括头发)的分解形状和外观模型。此外,就重建质量和新型观看合成而定量和定性地优于现有技术的当前状态。
translated by 谷歌翻译
Recently, deep learning based 3D face reconstruction methods have shown promising results in both quality and efficiency. However, training deep neural networks typically requires a large volume of data, whereas face images with ground-truth 3D face shapes are scarce. In this paper, we propose a novel deep 3D face reconstruction approach that 1) leverages a robust, hybrid loss function for weakly-supervised learning which takes into account both low-level and perception-level information for supervision, and 2) performs multi-image face reconstruction by exploiting complementary information from different images for shape aggregation. Our method is fast, accurate, and robust to occlusion and large pose. We provide comprehensive experiments on three datasets, systematically comparing our method with fifteen recent methods and demonstrating its state-of-the-art performance. Code available at https://github.com/ Microsoft/Deep3DFaceReconstruction
translated by 谷歌翻译
在过去几年中,许多面部分析任务已经完成了惊人的性能,其中应用包括来自单个“野外”图像的面部生成和3D面重建。尽管如此,据我们所知,没有方法可以从“野外”图像中产生渲染的高分辨率3D面,并且这可以归因于:(a)可用数据的跨度进行培训(b)缺乏可以成功应用于非常高分辨率数据的强大方法。在这项工作中,我们介绍了一种能够从单个“野外”图像中重建光电型渲染3D面部几何和BRDF的第一种方法。我们捕获了一个大型的面部形状和反射率,我们已经公开了。我们用精确的面部皮肤漫射和镜面反射,自遮挡和地下散射近似来定义快速面部光电型拟型渲染方法。有了这一点,我们训练一个网络,将面部漫射和镜面BRDF组件与烘焙照明的形状和质地一起脱颖而出,以最先进的3DMM配件方法重建。我们的方法通过显着的余量优于现有技术,并从单个低分辨率图像重建高分辨率3D面,这可以在各种应用中呈现,并桥接不一体谷。
translated by 谷歌翻译
在本文中,我们考虑了同时找到和从单个2D图像中恢复多手的具有挑战性的任务。先前的研究要么关注单手重建,要么以多阶段的方式解决此问题。此外,常规的两阶段管道首先检测到手部区域,然后估计每个裁剪贴片的3D手姿势。为了减少预处理和特征提取中的计算冗余,我们提出了一条简洁但有效的单阶段管道。具体而言,我们为多手重建设计了多头自动编码器结构,每个HEAD网络分别共享相同的功能图并分别输出手动中心,姿势和纹理。此外,我们采用了一个弱监督的计划来减轻昂贵的3D现实世界数据注释的负担。为此,我们提出了一系列通过舞台训练方案优化的损失,其中根据公开可用的单手数据集生成具有2D注释的多手数据集。为了进一步提高弱监督模型的准确性,我们在单手和多个手设置中采用了几个功能一致性约束。具体而言,从本地功能估算的每只手的关键点应与全局功能预测的重新投影点一致。在包括Freihand,HO3D,Interhand 2.6M和RHD在内的公共基准测试的广泛实验表明,我们的方法在弱监督和完全监督的举止中优于基于最先进的模型方法。代码和模型可在{\ url {https://github.com/zijinxuxu/smhr}}上获得。
translated by 谷歌翻译
生产级别的工作流程用于产生令人信服的3D动态人体面孔长期以来依赖各种劳动密集型工具用于几何和纹理生成,运动捕获和索具以及表达合成。最近的神经方法可以使单个组件自动化,但是相应的潜在表示不能像常规工具一样为艺术家提供明确的控制。在本文中,我们提出了一种新的基于学习的,视频驱动的方法,用于生成具有高质量基于物理资产的动态面部几何形状。对于数据收集,我们构建了一个混合多视频测量捕获阶段,与超快速摄像机耦合以获得原始的3D面部资产。然后,我们着手使用单独的VAE对面部表达,几何形状和基于物理的纹理进行建模,我们在各个网络的潜在范围内强加了基于全局MLP的表达映射,以保留各个属性的特征。我们还将增量信息建模为基于物理的纹理的皱纹图,从而达到高质量的4K动态纹理。我们展示了我们在高保真表演者特异性面部捕获和跨认同面部运动重新定位中的方法。此外,我们的基于多VAE的神经资产以及快速适应方案也可以部署以处理内部视频。此外,我们通过提供具有较高现实主义的各种有希望的基于身体的编辑结果来激发我们明确的面部解散策略的实用性。综合实验表明,与以前的视频驱动的面部重建和动画方法相比,我们的技术提供了更高的准确性和视觉保真度。
translated by 谷歌翻译
虚拟网格是在线通信的未来。服装是一个人身份和自我表达的重要组成部分。然而,目前,在培训逼真的布置动画的远程介绍模型的必需分子和准确性中,目前无法使用注册衣服的地面真相数据。在这里,我们提出了一条端到端的管道,用于建造可驱动的服装代表。我们方法的核心是一种多视图图案的布跟踪算法,能够以高精度捕获变形。我们进一步依靠跟踪方法生产的高质量数据来构建服装头像:一件衣服的表达和完全驱动的几何模型。可以使用一组稀疏的视图来对所得模型进行动画,并产生高度逼真的重建,这些重建忠于驾驶信号。我们证明了管道对现实的虚拟电视应用程序的功效,在该应用程序中,从两种视图中重建了衣服,并且用户可以根据自己的意愿进行选择和交换服装设计。此外,当仅通过身体姿势驱动时,我们表现出一个具有挑战性的场景,我们可驾驶的服装Avatar能够生产出比最先进的面包质量明显更高的逼真的布几何形状。
translated by 谷歌翻译
对于场景重建和新型视图综合的数量表示形式的普及最近,人们的普及使重点放在以高视觉质量和实时为实时的体积内容动画上。尽管基于学习功能的隐性变形方法可以产生令人印象深刻的结果,但它们是艺术家和内容创建者的“黑匣子”,但它们需要大量的培训数据才能有意义地概括,并且在培训数据之外不会产生现实的外推。在这项工作中,我们通过引入实时的音量变形方法来解决这些问题,该方法是实时的,易于使用现成的软件编辑,并且可以令人信服地推断出来。为了证明我们方法的多功能性,我们将其应用于两种情况:基于物理的对象变形和触发性,其中使用Blendshapes控制着头像。我们还进行了彻底的实验,表明我们的方法与两种体积方法相比,结合了基于网格变形的隐式变形和方法。
translated by 谷歌翻译
近年来,由于其在数字人物,角色产生和动画中的广泛应用,人们对3D人脸建模的兴趣越来越大。现有方法压倒性地强调了对面部的外部形状,质地和皮肤特性建模,而忽略了内部骨骼结构和外观之间的固有相关性。在本文中,我们使用学习的参数面部发电机提出了雕塑家,具有骨骼一致性的3D面部创作,旨在通过混合参数形态表示轻松地创建解剖上正确和视觉上令人信服的面部模型。雕塑家的核心是露西(Lucy),这是与整形外科医生合作的第一个大型形状面部脸部数据集。我们的Lucy数据集以最古老的人类祖先之一的化石命名,其中包含正牙手术前后全人头的高质量计算机断层扫描(CT)扫描,这对于评估手术结果至关重要。露西(Lucy)由144次扫描,分别对72名受试者(31名男性和41名女性)组成,其中每个受试者进行了两次CT扫描,并在恐惧后手术中进行了两次CT扫描。根据我们的Lucy数据集,我们学习了一个新颖的骨骼一致的参数面部发电机雕塑家,它可以创建独特而细微的面部特征,以帮助定义角色,同时保持生理声音。我们的雕塑家通过将3D脸的描绘成形状混合形状,姿势混合形状和面部表达混合形状,共同在统一数据驱动的框架下共同建模头骨,面部几何形状和面部外观。与现有方法相比,雕塑家在面部生成任务中保留了解剖学正确性和视觉现实主义。最后,我们展示了雕塑家在以前看不见的各种花式应用中的鲁棒性和有效性。
translated by 谷歌翻译
许多最近的作品通过基于参数模型聚集了相同的身份的形状参数并将不同人的形状参数聚集在一起(例如,3D可变模型(3DMMS))来重建独特的3D面形状。然而,尽管使用这些形状参数的面部识别任务中的高精度,但是从那些参数重建的面部形状的视觉辨别是不令人满意的。以下研究尚未回答以下研究问题:做差异的形状参数保证所代表的3D面形状的视觉歧视吗?本文分析了形状参数与重建形状几何之间的关系,提出了一种新颖的形状相同感知正则化(SIR)损耗的形状参数,旨在增加形状参数和形状几何域中的辨别性。此外,为了应对包含地标和身份注释的缺乏培训数据,我们提出了一种网络结构和相关的培训策略,以利用包含身份或地标标签的混合数据。我们将我们的方法与现有方法进行比较重建误差,视觉区分性和形状参数的面部识别准确性。实验结果表明,我们的方法优于最先进的方法。
translated by 谷歌翻译