虚拟面部化身将在身临其境的沟通,游戏和元视频中发挥越来越重要的作用,因此至关重要的是包容性。这需要准确地恢复出现,无论年龄,性别或种族如何,都以反照率表示。尽管在估计3D面部几何形状方面取得了重大进展,但反照率估计受到较少的关注。该任务在根本上是模棱两可的,因为观察到的颜色是反照率和照明的函数,这两者都是未知的。我们发现,由于(1)偏爱较轻的色素沉着和(2)算法溶液,因此当前的方法偏向浅色肤色,而无视光/反照率的歧义。为了解决这个问题,我们提出了一个新的评估数据集(公平)和算法(Trust),以改善反照率估计以及公平性。具体而言,我们创建了第一个面部反照率评估基准,其中受试者在肤色方面保持平衡,并使用单个类型学角度(ITA)度量测量精度。然后,我们通过建立关键观察结果来解决光/反照率的歧义:与面部的裁剪图像相反,整个场景的图像包含有关照明的重要信息,可用于歧义。信任通过在面部区域和从场景图像中获得的全球照明信号进行调节来回归面部反照率。我们的实验结果表明,就准确性和公平性而言,与最先进的反照率估计方法相比,相比之下。评估基准和代码将用于研究目的,网址为https://trust.is.tue.mpg.de。
translated by 谷歌翻译
鉴于一个人的肖像图像和目标照明的环境图,肖像重新旨在重新刷新图像中的人,就好像该人出现在具有目标照明的环境中一样。为了获得高质量的结果,最近的方法依靠深度学习。一种有效的方法是用高保真输入输出对的高保真数据集监督对深神经网络的培训,并以光阶段捕获。但是,获取此类数据需要昂贵的特殊捕获钻机和耗时的工作,从而限制了对少数机智的实验室的访问。为了解决限制,我们提出了一种新方法,该方法可以与最新的(SOTA)重新确定方法相提并论,而无需光阶段。我们的方法基于这样的意识到,肖像图像的成功重新重新取决于两个条件。首先,该方法需要模仿基于物理的重新考虑的行为。其次,输出必须是逼真的。为了满足第一个条件,我们建议通过通过虚拟光阶段生成的训练数据来训练重新网络,该培训数据在不同的环境图下对各种3D合成人体进行了基于物理的渲染。为了满足第二种条件,我们开发了一种新型的合成对真实方法,以将光真实主义带入重新定向网络输出。除了获得SOTA结果外,我们的方法还提供了与先前方法相比的几个优点,包括可控的眼镜和更暂时的结果以重新欣赏视频。
translated by 谷歌翻译
在过去几年中,许多面部分析任务已经完成了惊人的性能,其中应用包括来自单个“野外”图像的面部生成和3D面重建。尽管如此,据我们所知,没有方法可以从“野外”图像中产生渲染的高分辨率3D面,并且这可以归因于:(a)可用数据的跨度进行培训(b)缺乏可以成功应用于非常高分辨率数据的强大方法。在这项工作中,我们介绍了一种能够从单个“野外”图像中重建光电型渲染3D面部几何和BRDF的第一种方法。我们捕获了一个大型的面部形状和反射率,我们已经公开了。我们用精确的面部皮肤漫射和镜面反射,自遮挡和地下散射近似来定义快速面部光电型拟型渲染方法。有了这一点,我们训练一个网络,将面部漫射和镜面BRDF组件与烘焙照明的形状和质地一起脱颖而出,以最先进的3DMM配件方法重建。我们的方法通过显着的余量优于现有技术,并从单个低分辨率图像重建高分辨率3D面,这可以在各种应用中呈现,并桥接不一体谷。
translated by 谷歌翻译
一般照明条件中单眼图像的强大面部重建是具有挑战性的。用于使用微弱渲染的深度神经网络编码器结合的方法打开了几何,照明和反射的非常快速的单眼重建的路径。它们也可以通过自我监督的方式培训,以增加鲁棒性和更好的泛化。然而,基于光栅化的图像形成模型以及底层场景参数化,将它们限制在Lambertian的反射率和差的形状细节中。最近,在基于经典优化的框架内引入了用于单眼脸部重建的射线跟踪,并实现最先进的结果。然而,基于优化的方法本质上很慢,缺乏鲁棒性。在本文中,我们在上述方法上建立了我们的工作,并提出了一种新的方法,大大提高了一般场景中的重建质量和鲁棒性。我们通过将CNN编码器与可分散的射线示踪剂组合来实现这一点,这使得我们能够将重建基于更高级的个性化漫射和镜面,更复杂的照明模型和自阴影的合理表示。这使得即使在难以照明的场景中,也可以在重建的形状,外观和照明中进行大跃进。通过一致的面部属性重建,我们的方法导致实际应用,例如致密和自阴影去除。与最先进的方法相比,我们的结果表明了提高了方法的准确性和有效性。
translated by 谷歌翻译
从单个图像重建高保真3D面部纹理是一个具有挑战性的任务,因为缺乏完整的面部信息和3D面和2D图像之间的域间隙。最新作品通过应用基于代或基于重建的方法来解决面部纹理重建问题。尽管各种方法具有自身的优势,但它们不能恢复高保真和可重新可传送的面部纹理,其中术语“重新可调剂”要求面部质地在空间地完成和与环境照明中脱颖而出。在本文中,我们提出了一种新颖的自我监督学习框架,用于从野外的单视图重建高质量的3D面。我们的主要思想是首先利用先前的一代模块来生产先前的Albedo,然后利用细节细化模块来获得详细的Albedo。为了进一步使面部纹理解开照明,我们提出了一种新颖的详细的照明表示,该表现在一起与详细的Albedo一起重建。我们还在反照侧和照明方面设计了几种正规化损失功能,以便于解散这两个因素。最后,由于可怜的渲染技术,我们的神经网络可以以自我监督的方式有效地培训。关于具有挑战性的数据集的广泛实验表明,我们的框架在定性和定量比较方面显着优于最先进的方法。
translated by 谷歌翻译
随着增强的焦点和虚拟现实应用(XR)来说,可以对可以将物体从图像和视频升力到适合各种相关3D任务的表示的算法。 XR设备和应用程序的大规模部署意味着我们不能仅仅依赖于监督学习,因为收集和注释现实世界中无限各种物体的数据是不可行的。我们提出了一种弱监督的方法,能够将物体的单个图像分解成形状(深度和正规),材料(反射率,反射率和发光)和全局照明参数。对于培训,该方法仅依赖于训练对象的粗略初始形状估计来引导学习过程。这种形状监督可以例如从预先预制的深度网络或 - 从传统的结构 - 来自运动管道中的普罗维尔或 - 更慷慨地实现。在我们的实验中,我们表明该方法可以将2D图像成功地将2D图像成功渲染为分解的3D表示并推广到未经证明的对象类别。由于缺乏频繁的评估因缺乏地面真理数据而困难,我们还介绍了一种允许定量评估的照片 - 现实的合成测试集。
translated by 谷歌翻译
我们提出了Boareskinnet,这是一种新颖的方法,可以同时去除面部图像的化妆和照明影响。我们的方法利用3D形态模型,不需要参考干净的面部图像或指定的光条件。通过结合3D面重建的过程,我们可以轻松获得3D几何和粗3D纹理。使用此信息,我们可以通过图像翻译网络推断出归一化的3D面纹理图(扩散,正常,粗糙和镜面)。因此,没有不良信息的重建3D面部纹理将显着受益于随后的过程,例如重新照明或重新制作。在实验中,我们表明Bareskinnet优于最先进的化妆方法。此外,我们的方法有助于卸妆以生成一致的高保真纹理图,这使其可扩展到许多现实的面部生成应用。它还可以在相应的3D数据之前和之后自动构建面部化妆图像的图形资产。这将有助于艺术家加速他们的作品,例如3D Makeup Avatar创作。
translated by 谷歌翻译
传统上,本征成像或内在图像分解被描述为将图像分解为两层:反射率,材料的反射率;和一个阴影,由光和几何之间的相互作用产生。近年来,深入学习技术已广泛应用,以提高这些分离的准确性。在本调查中,我们概述了那些在知名内在图像数据集和文献中使用的相关度量的结果,讨论了预测所需的内在图像分解的适用性。虽然Lambertian的假设仍然是许多方法的基础,但我们表明,对图像形成过程更复杂的物理原理组件的潜力越来越意识到,这是光学准确的材料模型和几何形状,更完整的逆轻型运输估计。考虑使用的前瞻和模型以及驾驶分解过程的学习架构和方法,我们将这些方法分类为分解的类型。考虑到最近神经,逆和可微分的渲染技术的进步,我们还提供了关于未来研究方向的见解。
translated by 谷歌翻译
3D面部重建是一个具有挑战性的问题,但也是计算机视觉和图形领域的重要任务。最近,许多研究人员对这个问题提请注意,并且已经发表了大量的文章。单个图像重建是3D面部重建的分支之一,在我们的生活中具有大量应用。本文是对从单个图像的3D面部重建最近的文献述评。
translated by 谷歌翻译
Recently, deep learning based 3D face reconstruction methods have shown promising results in both quality and efficiency. However, training deep neural networks typically requires a large volume of data, whereas face images with ground-truth 3D face shapes are scarce. In this paper, we propose a novel deep 3D face reconstruction approach that 1) leverages a robust, hybrid loss function for weakly-supervised learning which takes into account both low-level and perception-level information for supervision, and 2) performs multi-image face reconstruction by exploiting complementary information from different images for shape aggregation. Our method is fast, accurate, and robust to occlusion and large pose. We provide comprehensive experiments on three datasets, systematically comparing our method with fifteen recent methods and demonstrating its state-of-the-art performance. Code available at https://github.com/ Microsoft/Deep3DFaceReconstruction
translated by 谷歌翻译
我们提出了一个深层神经网络,用于从不受约束的肖像图像中删除不良阴影特征,从而恢复基础纹理。我们的培训计划纳入了三种正则化策略:蒙面损失,以强调高频阴影特征;软阴影损失,改善了对照明微妙变化的敏感性;和阴影偏移估计,以监督阴影和纹理的分离。与最先进的方法相比,我们的方法表明了质量和概括的改善。我们进一步展示了我们的愉悦方法如何增强光敏的计算机视觉任务任务(例如面部重新放置和语义解析)的性能,从而使它们能够处理极端的照明条件。
translated by 谷歌翻译
We propose a novel method for high-quality facial texture reconstruction from RGB images using a novel capturing routine based on a single smartphone which we equip with an inexpensive polarization foil. Specifically, we turn the flashlight into a polarized light source and add a polarization filter on top of the camera. Leveraging this setup, we capture the face of a subject with cross-polarized and parallel-polarized light. For each subject, we record two short sequences in a dark environment under flash illumination with different light polarization using the modified smartphone. Based on these observations, we reconstruct an explicit surface mesh of the face using structure from motion. We then exploit the camera and light co-location within a differentiable renderer to optimize the facial textures using an analysis-by-synthesis approach. Our method optimizes for high-resolution normal textures, diffuse albedo, and specular albedo using a coarse-to-fine optimization scheme. We show that the optimized textures can be used in a standard rendering pipeline to synthesize high-quality photo-realistic 3D digital humans in novel environments.
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
尽管最近从遮挡和嘈杂的面部图像中的3D面部重建的发展,但性能仍然不满意。主要挑战之一是在面部图像中处理中等至重闭塞。另外,面部图像中的噪声抑制了面部属性的正确捕获,从而需要可靠地解决。此外,大多数现有方法依赖于额外的依赖性,对培训过程构成了许多约束。因此,我们提出了一种自我监督的强制性指导(流氓)框架,以获得面部图像中的遮挡和噪声的鲁棒性。所提出的网络包含1)指导管线,用于获得清洁面的3D面系数,以及2)稳定流水线,以获取封闭或噪声图像的估计系数与清洁对应物之间的估计系数之间的一致性。所提出的图像和特征级损失功能有助于流氓学习过程而不会构成额外的依赖性。在Celeba的测试数据集的三种变化:理性闭塞,妄想闭塞和嘈杂的面部图像,我们的方法优于当前的最先进的方法(例如,基于形状的3D顶点错误,合理闭塞的0.146〜0.048的减少,从0.292〜0.061,妄想闭塞和面部图像中的噪声为0.269至0.053),展示了所提出的方法的有效性。
translated by 谷歌翻译
本文介绍了一个新的大型多视图数据集,称为Humbi的人体表达式,具有天然衣物。 HUMBI的目标是为了便于建模特异性的外观和五个主要身体信号的几何形状,包括来自各种各样的人的凝视,面部,手,身体和服装。 107同步高清摄像机用于捕获772个跨性别,种族,年龄和风格的独特科目。使用多视图图像流,我们使用3D网格模型重建高保真体表达式,允许表示特定于视图的外观。我们证明HUMBI在学习和重建完整的人体模型方面非常有效,并且与人体表达的现有数据集互补,具有有限的观点和主题,如MPII-Gaze,Multi-Pie,Human 3.6m和Panoptic Studio数据集。基于HUMBI,我们制定了一种展开的姿态引导外观渲染任务的新基准挑战,其旨在大大延长了在3D中建模的不同人类表达式中的光敏性,这是真实的社会远程存在的关键能力。 Humbi公开提供http://humbi-data.net
translated by 谷歌翻译
我们提出了一种新的方法来获取来自在线图像集合的对象表示,从具有不同摄像机,照明和背景的照片捕获任意物体的高质量几何形状和材料属性。这使得各种以各种对象渲染应用诸如新颖的综合,致密和协调的背景组合物,从疯狂的内部输入。使用多级方法延伸神经辐射场,首先推断表面几何形状并优化粗估计的初始相机参数,同时利用粗糙的前景对象掩模来提高训练效率和几何质量。我们还介绍了一种强大的正常估计技术,其消除了几何噪声的效果,同时保持了重要细节。最后,我们提取表面材料特性和环境照明,以球形谐波表示,具有处理瞬态元素的延伸部,例如,锋利的阴影。这些组件的结合导致高度模块化和有效的对象采集框架。广泛的评估和比较证明了我们在捕获高质量的几何形状和外观特性方面的方法,可用于渲染应用。
translated by 谷歌翻译
生成对抗性网络(GANS)的最新进展导致了面部图像合成的显着成果。虽然使用基于样式的GAN的方法可以产生尖锐的照片拟真的面部图像,但是通常难以以有意义和解开的方式控制所产生的面的特性。之前的方法旨在在先前培训的GaN的潜在空间内实现此类语义控制和解剖。相比之下,我们提出了一个框架,即明确地提出了诸如3D形状,反玻璃,姿势和照明的面部的身体属性,从而通过设计提供解剖。我们的方法,大多数GaN,与非线性3D可变模型的物理解剖和灵活性集成了基于风格的GAN的表现力和质感,我们与最先进的2D头发操纵网络相结合。大多数GaN通过完全解散的3D控制来实现肖像图像的照片拟理性操纵,从而实现了光线,面部表情和姿势变化的极端操作,直到完整的档案视图。
translated by 谷歌翻译
给定一组场景的图像,从新颖的观点和照明条件中重新渲染了这个场景是计算机视觉和图形中的一个重要且具有挑战性的问题。一方面,计算机视觉中的大多数现有作品通常对图像形成过程(例如直接照明和预定义的材料,以使场景参数估计可进行。另一方面,成熟的计算机图形工具允许对所有场景参数进行复杂的照片现实光传输的建模。结合了这些方法,我们通过学习神经预先计算的辐射转移功能,提出了一种在新观点下重新考虑的场景方法,该方法使用新颖的环境图隐含地处理全球照明效应。在单个未知的照明条件下,我们的方法可以仅在场景的一组真实图像上进行监督。为了消除训练期间的任务,我们在训练过程中紧密整合了可区分的路径示踪剂,并提出了合成的OLAT和真实图像丢失的组合。结果表明,场景参数的恢复分离在目前的现状,因此,我们的重新渲染结果也更加现实和准确。
translated by 谷歌翻译
创建高质量的动画和可重新可靠的3D人体化身的独特挑战是对人的眼睛进行建模。合成眼睛的挑战是多重的,因为它需要1)适当的表示眼和眼周区域的适当表示,以进行连贯的视点合成,能够表示弥漫性,折射和高度反射表面,2)2)脱离皮肤和眼睛外观这样的照明使其可以在新的照明条件下呈现,3)捕获眼球运动和周围皮肤的变形以使重新注视。传统上,这些挑战需要使用昂贵且繁琐的捕获设置来获得高质量的结果,即使那样,整体上的眼睛区域建模仍然难以捉摸。我们提出了一种新颖的几何形状和外观表示形式,该形式仅使用一组稀疏的灯光和摄像头,可以捕获高保真的捕获和感性动画,观察眼睛区域的综合和重新定位。我们的杂种表示将眼球的显式参数表面模型与眼周区域和眼内部的隐式变形体积表示结合在一起。这种新颖的混合模型旨在解决具有挑战性的面部面积的各个部分 - 明确的眼球表面允许在角膜处建模折射和高频镜面反射,而隐性表示非常适合通过模拟低频皮肤反射。球形谐波可以代表非表面结构,例如头发或弥漫性体积物体,这两者都是显式表面模型的挑战。我们表明,对于高分辨率的眼睛特写,我们的模型可以从看不见的照明条件下的新颖观点中综合高保真动画的目光。
translated by 谷歌翻译
生产级别的工作流程用于产生令人信服的3D动态人体面孔长期以来依赖各种劳动密集型工具用于几何和纹理生成,运动捕获和索具以及表达合成。最近的神经方法可以使单个组件自动化,但是相应的潜在表示不能像常规工具一样为艺术家提供明确的控制。在本文中,我们提出了一种新的基于学习的,视频驱动的方法,用于生成具有高质量基于物理资产的动态面部几何形状。对于数据收集,我们构建了一个混合多视频测量捕获阶段,与超快速摄像机耦合以获得原始的3D面部资产。然后,我们着手使用单独的VAE对面部表达,几何形状和基于物理的纹理进行建模,我们在各个网络的潜在范围内强加了基于全局MLP的表达映射,以保留各个属性的特征。我们还将增量信息建模为基于物理的纹理的皱纹图,从而达到高质量的4K动态纹理。我们展示了我们在高保真表演者特异性面部捕获和跨认同面部运动重新定位中的方法。此外,我们的基于多VAE的神经资产以及快速适应方案也可以部署以处理内部视频。此外,我们通过提供具有较高现实主义的各种有希望的基于身体的编辑结果来激发我们明确的面部解散策略的实用性。综合实验表明,与以前的视频驱动的面部重建和动画方法相比,我们的技术提供了更高的准确性和视觉保真度。
translated by 谷歌翻译