我们提出了一种参数模型,将自由视图图像映射到编码面部形状,表达和外观的矢量空间,即使用神经辐射场,即可变的面部nerf。具体地,MoFanerf将编码的面部形状,表达和外观以及空间坐标和视图方向作为输入,作为输入到MLP,并输出光学逼真图像合成的空间点的辐射。与传统的3D可变模型(3DMM)相比,MoFanerf在直接综合光学逼真的面部细节方面表现出优势,即使是眼睛,嘴巴和胡须也是如此。而且,通过插入输入形状,表达和外观码,可以容易地实现连续的面部。通过引入特定于特定于特定的调制和纹理编码器,我们的模型合成精确的光度测量细节并显示出强的表示能力。我们的模型显示了多种应用的强大能力,包括基于图像的拟合,随机产生,面部索具,面部编辑和新颖的视图合成。实验表明,我们的方法比以前的参数模型实现更高的表示能力,并在几种应用中实现了竞争性能。据我们所知,我们的作品是基于神经辐射场上的第一款,可用于配合,发电和操作。我们的代码和型号在https://github.com/zhuhao-nju/mofanerf中发布。
translated by 谷歌翻译
我们提出了一些动态神经辐射场(FDNERF),这是第一种基于NERF的方法,能够根据少量动态图像重建和表达3D面的表达编辑。与需要密集图像作为输入的现有动态NERF不同,并且只能为单个身份建模,我们的方法可以使跨不同人的不同人进行面对重建。与设计用于建模静态场景的最先进的几杆NERF相比,提出的FDNERF接受视图的动态输入,并支持任意的面部表达编辑,即产生具有输入超出输入的新表达式的面孔。为了处理动态输入之间的不一致之处,我们引入了精心设计的条件特征翘曲(CFW)模块,以在2D特征空间中执行表达条件的翘曲,这也是身份自适应和3D约束。结果,不同表达式的特征被转换为目标的特征。然后,我们根据这些视图一致的特征构建一个辐射场,并使用体积渲染来合成建模面的新型视图。进行定量和定性评估的广泛实验表明,我们的方法在3D面重建和表达编辑任务上都优于现有的动态和几乎没有射击的NERF。我们的代码和模型将在接受后提供。
translated by 谷歌翻译
在本文中,我们提出了一个大型详细的3D面部数据集,FACESCAPE和相应的基准,以评估单视图面部3D重建。通过对FACESCAPE数据进行训练,提出了一种新的算法来预测从单个图像输入的精心索引3D面模型。 FACESCAPE DataSet提供18,760个纹理的3D面,从938个科目捕获,每个纹理和每个特定表达式。 3D模型包含孔径级面部几何形状,也被处理为拓扑均匀化。这些精细的3D面部模型可以表示为用于详细几何的粗糙形状和位移图的3D可线模型。利用大规模和高精度的数据集,进一步提出了一种使用深神经网络学习特定于表达式动态细节的新颖算法。学习的关系是从单个图像输入的3D面预测系统的基础。与以前的方法不同,我们的预测3D模型在不同表达式下具有高度详细的几何形状。我们还使用FACESCAPE数据来生成野外和实验室内基准,以评估最近的单视面重建方法。报告并分析了相机姿势和焦距的尺寸,并提供了忠诚和综合评估,并揭示了新的挑战。前所未有的数据集,基准和代码已被释放到公众以进行研究目的。
translated by 谷歌翻译
隐式辐射功能作为重建和渲染3D场景的照片真实观点的强大场景表示形式出现。但是,这些表示的编辑性差。另一方面,诸如多边形网格之类的显式表示允许易于编辑,但不适合重建动态的人头中的准确细节,例如精细的面部特征,头发,牙齿,牙齿和眼睛。在这项工作中,我们提出了神经参数化(NEP),这是一种混合表示,提供了隐式和显式方法的优势。 NEP能够进行照片真实的渲染,同时允许对场景的几何形状和外观进行细粒度编辑。我们首先通过将3D几何形状参数化为2D纹理空间来解开几何形状和外观。我们通过引入显式线性变形层来启用几何编辑性。变形由一组稀疏的密钥点控制,可以明确和直观地移位以编辑几何形状。对于外观,我们开发了一个混合2D纹理,该纹理由明确的纹理图组成,以易于编辑和隐式视图以及时间相关的残差,以建模时间和视图变化。我们将我们的方法与几个重建和编辑基线进行比较。结果表明,NEP在保持高编辑性的同时达到了几乎相同的渲染精度。
translated by 谷歌翻译
在本文中,我们提出了一个新的基于NERF的参数头模型,该参数头模型集成了神经辐射场到人头的参数表示。它可以实时呈现高保真头图像,并直接控制生成的图像渲染姿势和各种语义属性。与现有相关参数模型不同,我们使用神经辐射字段作为新颖的3D代理而不是传统的3D纹理网格,这使得HeadnerF能够生成高保真图像。然而,原始NERF的计算昂贵的渲染过程阻碍了参数NERF模型的构造。为了解决这个问题,我们采用将2D神经渲染集成到NERF的渲染过程和设计新颖损失条款的策略。结果,可以显着加速头部的渲染速度,并且一帧的渲染时间从5s降至25ms。新颖的设计损失术语还提高了渲染精度,并且人体头部的细级细节,例如牙齿,皱纹和胡须之间的间隙,可以由Headnerf表示和合成。广泛的实验结果和一些应用展示了其有效性。我们将向公众推出代码和培训的模型。
translated by 谷歌翻译
体积神经渲染方法,例如神经辐射场(NERFS),已实现了光真实的新型视图合成。但是,以其标准形式,NERF不支持场景中的物体(例如人头)的编辑。在这项工作中,我们提出了Rignerf,该系统不仅仅是仅仅是新颖的视图综合,并且可以完全控制头姿势和从单个肖像视频中学到的面部表情。我们使用由3D可变形面模型(3DMM)引导的变形场对头姿势和面部表情的变化进行建模。 3DMM有效地充当了Rignerf的先验,该rignerf学会仅预测3DMM变形的残留物,并使我们能够在输入序列中呈现不存在的新颖(刚性)姿势和(非刚性)表达式。我们仅使用智能手机捕获的简短视频进行培训,我们证明了我们方法在自由视图合成肖像场景的有效性,并具有明确的头部姿势和表达控制。项目页面可以在此处找到:http://shahrukhathar.github.io/2022/06/06/rignerf.html
translated by 谷歌翻译
面部3D形态模型是无数应用程序的主要计算机视觉主题,并且在过去二十年中已得到高度优化。深层生成网络的巨大改进创造了改善此类模型的各种可能性,并引起了广泛的兴趣。此外,神经辐射领域的最新进展正在彻底改变已知场景的新颖视图综合。在这项工作中,我们提出了一个面部3D形态模型,该模型利用了上述两者,并且可以准确地对受试者的身份,姿势和表达进行建模,并以任意照明形式呈现。这是通过利用强大的基于风格的发电机来克服神经辐射场的两个主要弱点,即它们的刚度和渲染速度来实现的。我们介绍了一个基于样式的生成网络,该网络在一个通过中综合了全部,并且仅在神经辐射场的所需渲染样品中构成。我们创建了一个庞大的标记为面部渲染的合成数据集,并在这些数据上训练网络,以便它可以准确地建模并推广到面部身份,姿势和外观。最后,我们表明该模型可以准确地适合“野外”的任意姿势和照明的面部图像,提取面部特征,并用于在可控条件下重新呈现面部。
translated by 谷歌翻译
与传统的头像创建管道相反,这是一个昂贵的过程,现代生成方法直接从照片中学习数据分布,而艺术的状态现在可以产生高度的照片现实图像。尽管大量作品试图扩展无条件的生成模型并达到一定程度的可控性,但要确保多视图一致性,尤其是在大型姿势中,仍然具有挑战性。在这项工作中,我们提出了一个3D肖像生成网络,该网络可产生3D一致的肖像,同时根据有关姿势,身份,表达和照明的语义参数可控。生成网络使用神经场景表示在3D中建模肖像,其生成以支持明确控制的参数面模型为指导。尽管可以通过将图像与部分不同的属性进行对比,但可以进一步增强潜在的分离,但在非面积区域(例如,在动画表达式)时,仍然存在明显的不一致。我们通过提出一种体积混合策略来解决此问题,在该策略中,我们通过将动态和静态辐射场融合在一起,形成一个复合输出,并从共同学习的语义场中分割了两个部分。我们的方法在广泛的实验中优于先前的艺术,在自由视点中观看时,在自然照明中产生了逼真的肖像。所提出的方法还证明了真实图像以及室外卡通面孔的概括能力,在实际应用中显示出巨大的希望。其他视频结果和代码将在项目网页上提供。
translated by 谷歌翻译
对于场景重建和新型视图综合的数量表示形式的普及最近,人们的普及使重点放在以高视觉质量和实时为实时的体积内容动画上。尽管基于学习功能的隐性变形方法可以产生令人印象深刻的结果,但它们是艺术家和内容创建者的“黑匣子”,但它们需要大量的培训数据才能有意义地概括,并且在培训数据之外不会产生现实的外推。在这项工作中,我们通过引入实时的音量变形方法来解决这些问题,该方法是实时的,易于使用现成的软件编辑,并且可以令人信服地推断出来。为了证明我们方法的多功能性,我们将其应用于两种情况:基于物理的对象变形和触发性,其中使用Blendshapes控制着头像。我们还进行了彻底的实验,表明我们的方法与两种体积方法相比,结合了基于网格变形的隐式变形和方法。
translated by 谷歌翻译
Face Animation是计算机视觉中最热门的主题之一,在生成模型的帮助下取得了有希望的性能。但是,由于复杂的运动变形和复杂的面部细节建模,生成保留身份和光真实图像的身份仍然是一个关键的挑战。为了解决这些问题,我们提出了一个面部神经量渲染(FNEVR)网络,以充分探索在统一框架中2D运动翘曲和3D体积渲染的潜力。在FNEVR中,我们设计了一个3D面积渲染(FVR)模块,以增强图像渲染的面部细节。具体而言,我们首先使用精心设计的体系结构提取3D信息,然后引入一个正交自适应射线采样模块以进行有效的渲染。我们还设计了一个轻巧的姿势编辑器,使FNEVR能够以简单而有效的方式编辑面部姿势。广泛的实验表明,我们的FNEVR在广泛使用的说话头基准上获得了最佳的总体质量和性能。
translated by 谷歌翻译
我们提出了神经头头像,这是一种新型神经表示,其明确地模拟了可动画的人体化身的表面几何形状和外观,可用于在依赖数字人类的电影或游戏行业中的AR / VR或其他应用中的电话会议。我们的代表可以从单眼RGB肖像视频中学到,该视频具有一系列不同的表达和视图。具体地,我们提出了一种混合表示,其由面部的粗糙形状和表达式和两个前馈网络组成的混合表示,以及预测底层网格的顶点偏移以及视图和表达依赖性纹理。我们证明,该表示能够准确地外推到看不见的姿势和观点,并在提供尖锐的纹理细节的同时产生自然表达。与先前的磁头头像上的作品相比,我们的方法提供了与标准图形管道兼容的完整人体头(包括头发)的分解形状和外观模型。此外,就重建质量和新型观看合成而定量和定性地优于现有技术的当前状态。
translated by 谷歌翻译
最近,基于神经辐射场(NERF)的进步,在3D人类渲染方面取得了迅速的进展,包括新的视图合成和姿势动画。但是,大多数现有方法集中在特定于人的培训上,他们的培训通常需要多视频视频。本文涉及一项新的挑战性任务 - 为在培训中看不见的人提供新颖的观点和新颖的姿势,仅使用多视图图像作为输入。对于此任务,我们提出了一种简单而有效的方法,以训练具有多视图像作为条件输入的可推广的NERF。关键成分是结合规范NERF和体积变形方案的专用表示。使用规范空间使我们的方法能够学习人类的共享特性,并轻松地推广到不同的人。音量变形用于将规范空间与输入和目标图像以及查询图像特征连接起来,以进行辐射和密度预测。我们利用拟合在输入图像上的参数3D人类模型来得出变形,与我们的规范NERF结合使用,它在实践中效果很好。具有新的观点合成和构成动画任务的真实和合成数据的实验共同证明了我们方法的功效。
translated by 谷歌翻译
Figure 1: Given a monocular portrait video sequence of a person, we reconstruct a dynamic neural radiance field representing a 4D facial avatar, which allows us to synthesize novel head poses as well as changes in facial expressions.
translated by 谷歌翻译
我们提出了神经可变形场(NDF),这是一种从多视频视频中进行动态人类数字化的新表示形式。最近的作品提出,代表具有共同的规范神经辐射场的动态人体,该范围与变形场估计相结合了观察空间。但是,学到的规范表示是静态的,变形场的当前设计无法表示大型运动或详细的几何变化。在本文中,我们建议学习一个围绕合适的参数体模型包裹的神经可变形场,以代表动态人体。NDF通过基础参考表面在空间上对齐。然后,学会了神经网络将其映射到NDF的动力学。提出的NDF表示可以通过新颖的观点和新颖的姿势合成数字化的表演者,并具有详细且合理的动态外观。实验表明,我们的方法明显优于最近的人类合成方法。
translated by 谷歌翻译
利用图像生成模型的最新进展,现有的可控面图像合成方法能够生成具有某些可控性的高保真图像,例如控制生成的面部图像的形状,表达,纹理和姿势。但是,这些方法集中在2D图像生成模型上,这些模型容易在大表达和姿势变化下产生不一致的面部图像。在本文中,我们提出了一个新的基于NERF的条件3D面部合成框架,该框架可以通过从3D脸先进的3D面部施加显式3D条件来对生成的面部图像进行3D可控性。其核心是有条件的生成占用场(CGOF),可有效地强制生成的面部形状,以使其对给定的3D形态模型(3DMM)网格进行。为了准确控制合成图像的细粒3D面部形状,我们还将3D地标损耗以及体积翘曲损失纳入我们的合成算法中。实验验证了所提出的方法的有效性,该方法能够生成高保真的面部图像,并显示出比基于2D的最新可控制的面部合成方法更精确的3D可控性。在https://keqiangsun.github.io/projects/cgof上查找代码和演示。
translated by 谷歌翻译
High-fidelity facial avatar reconstruction from a monocular video is a significant research problem in computer graphics and computer vision. Recently, Neural Radiance Field (NeRF) has shown impressive novel view rendering results and has been considered for facial avatar reconstruction. However, the complex facial dynamics and missing 3D information in monocular videos raise significant challenges for faithful facial reconstruction. In this work, we propose a new method for NeRF-based facial avatar reconstruction that utilizes 3D-aware generative prior. Different from existing works that depend on a conditional deformation field for dynamic modeling, we propose to learn a personalized generative prior, which is formulated as a local and low dimensional subspace in the latent space of 3D-GAN. We propose an efficient method to construct the personalized generative prior based on a small set of facial images of a given individual. After learning, it allows for photo-realistic rendering with novel views and the face reenactment can be realized by performing navigation in the latent space. Our proposed method is applicable for different driven signals, including RGB images, 3DMM coefficients, and audios. Compared with existing works, we obtain superior novel view synthesis results and faithfully face reenactment performance.
translated by 谷歌翻译
综合照片 - 现实图像和视频是计算机图形的核心,并且是几十年的研究焦点。传统上,使用渲染算法(如光栅化或射线跟踪)生成场景的合成图像,其将几何形状和材料属性的表示为输入。统称,这些输入定义了实际场景和呈现的内容,并且被称为场景表示(其中场景由一个或多个对象组成)。示例场景表示是具有附带纹理的三角形网格(例如,由艺术家创建),点云(例如,来自深度传感器),体积网格(例如,来自CT扫描)或隐式曲面函数(例如,截短的符号距离)字段)。使用可分辨率渲染损耗的观察结果的这种场景表示的重建被称为逆图形或反向渲染。神经渲染密切相关,并将思想与经典计算机图形和机器学习中的思想相结合,以创建用于合成来自真实观察图像的图像的算法。神经渲染是朝向合成照片现实图像和视频内容的目标的跨越。近年来,我们通过数百个出版物显示了这一领域的巨大进展,这些出版物显示了将被动组件注入渲染管道的不同方式。这种最先进的神经渲染进步的报告侧重于将经典渲染原则与学习的3D场景表示结合的方法,通常现在被称为神经场景表示。这些方法的一个关键优势在于它们是通过设计的3D-一致,使诸如新颖的视点合成捕获场景的应用。除了处理静态场景的方法外,我们还涵盖了用于建模非刚性变形对象的神经场景表示...
translated by 谷歌翻译
在规范空间中对人体进行建模是捕捉和动画的常见实践。但是,当涉及神经辐射场(NERF)时,在规范空间中学习静态NERF是不够的,因为即使人体移动时,即使场景照明是恒定的,身体的照明也会变化。以前的方法通过学习人均嵌入来减轻照明的不一致,但是此操作并不能推广到看不见的姿势。鉴于照明条件在世界空间中是静态的,而人体在规范空间中是一致的,我们提出了一个双空间的nerf,该nerf在场景照明和人体中对两个单独空间的两个MLP进行建模。为了弥合这两个空间,以前的方法主要依赖于线性混合剥皮(LBS)算法。但是,动态神经场的LB的混合重量很难棘手,因此通常用另一个MLP记住,这不会推广到新型姿势。尽管可以借用参数网格(例如SMPL)的混合权重,但插值操作会引入更多的伪像。在本文中,我们建议使用Barycentric映射,该映射可以直接概括为看不见的姿势并出奇地取得了比具有神经混合重量的LB的优势。人类36M和ZJU-MOCAP数据集的定量和定性结果显示了我们方法的有效性。
translated by 谷歌翻译
我们向渲染和时间(4D)重建人类的渲染和时间(4D)重建的神经辐射场,通过稀疏的摄像机捕获或甚至来自单眼视频。我们的方法将思想与神经场景表示,新颖的综合合成和隐式统计几何人称的人类表示相结合,耦合使用新颖的损失功能。在先前使用符号距离功能表示的结构化隐式人体模型,而不是使用统一的占用率来学习具有统一占用的光域字段。这使我们能够从稀疏视图中稳健地融合信息,并概括超出在训练中观察到的姿势或视图。此外,我们应用几何限制以共同学习观察到的主题的结构 - 包括身体和衣服 - 并将辐射场正规化为几何合理的解决方案。在多个数据集上的广泛实验证明了我们方法的稳健性和准确性,其概括能力显着超出了一系列的姿势和视图,以及超出所观察到的形状的统计外推。
translated by 谷歌翻译
最近的神经人类表示可以产生高质量的多视图渲染,但需要使用密集的多视图输入和昂贵的培训。因此,它们在很大程度上仅限于静态模型,因为每个帧都是不可行的。我们展示了人类学 - 一种普遍的神经表示 - 用于高保真自由观察动态人类的合成。类似于IBRNET如何通过避免每场景训练来帮助NERF,Humannerf跨多视图输入采用聚合像素对准特征,以及用于解决动态运动的姿势嵌入的非刚性变形场。原始人物员已经可以在稀疏视频输入的稀疏视频输入上产生合理的渲染。为了进一步提高渲染质量,我们使用外观混合模块增强了我们的解决方案,用于组合神经体积渲染和神经纹理混合的益处。各种多视图动态人类数据集的广泛实验证明了我们在挑战运动中合成照片 - 现实自由观点的方法和非常稀疏的相机视图输入中的普遍性和有效性。
translated by 谷歌翻译