从单个图像中恢复人头的几何形状,同时对材料和照明进行分解是一个严重不良的问题,需要事先解决。基于3D形态模型(3DMM)及其与可区分渲染器的组合的方法已显示出令人鼓舞的结果。但是,3DMM的表现力受到限制,它们通常会产生过度平滑和身份敏捷的3D形状,仅限于面部区域。最近,使用多层感知器参数化几何形状的神经场获得了高度准确的全头部重建。这些表示形式的多功能性也已被证明可有效解开几何形状,材料和照明。但是,这些方法需要几十个输入图像。在本文中,我们介绍了Sira,该方法从单个图像中,从一个图像中重建了具有高保真度几何形状和分解的灯光和表面材料的人头头像。我们的关键成分是基于神经场的两个数据驱动的统计模型,这些模型可以解决单视3D表面重建和外观分解的歧义。实验表明,Sira获得了最新的状态导致3D头重建,同时它成功地解开了全局照明以及弥漫性和镜面反照率。此外,我们的重建适合基于物理的外观编辑和头部模型重新构建。
translated by 谷歌翻译
在这项工作中,我们为来自多视图RGB图像的3D面部重建提供了一种新方法。与以前的方法(3DMMS)构建的先前方法不同,我们的方法利用隐式表示来编码丰富的几何特征。我们的整体管道由两个主要组件组成,包括几何网络,它学习可变形的神经签名距离函数(SDF)作为3D面部表示,以及渲染网络,该渲染网络学会呈现神经SDF的面积点以匹配通过自我监督优化输入图像。要处理在测试时间的不同表达式的相同目标的野外稀疏视图输入,我们进一步提出了残余潜代码,以有效地扩展了学习的隐式面部表示的形状空间,以及新颖的视图开关丢失强制执行不同视图之间的一致性。我们在多个基准数据集上的实验结果表明,与最先进的方法相比,我们的方法优于替代基准,实现了优越的面部重建结果。
translated by 谷歌翻译
给定一组场景的图像,从新颖的观点和照明条件中重新渲染了这个场景是计算机视觉和图形中的一个重要且具有挑战性的问题。一方面,计算机视觉中的大多数现有作品通常对图像形成过程(例如直接照明和预定义的材料,以使场景参数估计可进行。另一方面,成熟的计算机图形工具允许对所有场景参数进行复杂的照片现实光传输的建模。结合了这些方法,我们通过学习神经预先计算的辐射转移功能,提出了一种在新观点下重新考虑的场景方法,该方法使用新颖的环境图隐含地处理全球照明效应。在单个未知的照明条件下,我们的方法可以仅在场景的一组真实图像上进行监督。为了消除训练期间的任务,我们在训练过程中紧密整合了可区分的路径示踪剂,并提出了合成的OLAT和真实图像丢失的组合。结果表明,场景参数的恢复分离在目前的现状,因此,我们的重新渲染结果也更加现实和准确。
translated by 谷歌翻译
一般照明条件中单眼图像的强大面部重建是具有挑战性的。用于使用微弱渲染的深度神经网络编码器结合的方法打开了几何,照明和反射的非常快速的单眼重建的路径。它们也可以通过自我监督的方式培训,以增加鲁棒性和更好的泛化。然而,基于光栅化的图像形成模型以及底层场景参数化,将它们限制在Lambertian的反射率和差的形状细节中。最近,在基于经典优化的框架内引入了用于单眼脸部重建的射线跟踪,并实现最先进的结果。然而,基于优化的方法本质上很慢,缺乏鲁棒性。在本文中,我们在上述方法上建立了我们的工作,并提出了一种新的方法,大大提高了一般场景中的重建质量和鲁棒性。我们通过将CNN编码器与可分散的射线示踪剂组合来实现这一点,这使得我们能够将重建基于更高级的个性化漫射和镜面,更复杂的照明模型和自阴影的合理表示。这使得即使在难以照明的场景中,也可以在重建的形状,外观和照明中进行大跃进。通过一致的面部属性重建,我们的方法导致实际应用,例如致密和自阴影去除。与最先进的方法相比,我们的结果表明了提高了方法的准确性和有效性。
translated by 谷歌翻译
我们提出了一种有效的方法,用于从多视图图像观察中联合优化拓扑,材料和照明。与最近的多视图重建方法不同,通常在神经网络中产生纠缠的3D表示,我们将三角形网格输出具有空间不同的材料和环境照明,这些方法可以在任何传统的图形引擎中未修改。我们利用近期工作在可差异化的渲染中,基于坐标的网络紧凑地代表体积纹理,以及可微分的游行四边形,以便直接在表面网上直接实现基于梯度的优化。最后,我们介绍了环境照明的分流和近似的可分辨率配方,以有效地回收全频照明。实验表明我们的提取模型用于高级场景编辑,材料分解和高质量的视图插值,全部以三角形的渲染器(光栅化器和路径示踪剂)的交互式速率运行。
translated by 谷歌翻译
In this work we address the challenging problem of multiview 3D surface reconstruction. We introduce a neural network architecture that simultaneously learns the unknown geometry, camera parameters, and a neural renderer that approximates the light reflected from the surface towards the camera. The geometry is represented as a zero level-set of a neural network, while the neural renderer, derived from the rendering equation, is capable of (implicitly) modeling a wide set of lighting conditions and materials. We trained our network on real world 2D images of objects with different material properties, lighting conditions, and noisy camera initializations from the DTU MVS dataset. We found our model to produce state of the art 3D surface reconstructions with high fidelity, resolution and detail.
translated by 谷歌翻译
我们向渲染和时间(4D)重建人类的渲染和时间(4D)重建的神经辐射场,通过稀疏的摄像机捕获或甚至来自单眼视频。我们的方法将思想与神经场景表示,新颖的综合合成和隐式统计几何人称的人类表示相结合,耦合使用新颖的损失功能。在先前使用符号距离功能表示的结构化隐式人体模型,而不是使用统一的占用率来学习具有统一占用的光域字段。这使我们能够从稀疏视图中稳健地融合信息,并概括超出在训练中观察到的姿势或视图。此外,我们应用几何限制以共同学习观察到的主题的结构 - 包括身体和衣服 - 并将辐射场正规化为几何合理的解决方案。在多个数据集上的广泛实验证明了我们方法的稳健性和准确性,其概括能力显着超出了一系列的姿势和视图,以及超出所观察到的形状的统计外推。
translated by 谷歌翻译
Google Research Basecolor Metallic Roughness Normal Multi-View Images NeRD Volume Decomposed BRDF Relighting & View synthesis Textured MeshFigure 1: Neural Reflectance Decomposition for Relighting. We encode multiple views of an object under varying or fixed illumination into the NeRD volume.We decompose each given image into geometry, spatially-varying BRDF parameters and a rough approximation of the incident illumination in a globally consistent manner. We then extract a relightable textured mesh that can be re-rendered under novel illumination conditions in real-time.
translated by 谷歌翻译
We introduce Structured 3D Features, a model based on a novel implicit 3D representation that pools pixel-aligned image features onto dense 3D points sampled from a parametric, statistical human mesh surface. The 3D points have associated semantics and can move freely in 3D space. This allows for optimal coverage of the person of interest, beyond just the body shape, which in turn, additionally helps modeling accessories, hair, and loose clothing. Owing to this, we present a complete 3D transformer-based attention framework which, given a single image of a person in an unconstrained pose, generates an animatable 3D reconstruction with albedo and illumination decomposition, as a result of a single end-to-end model, trained semi-supervised, and with no additional postprocessing. We show that our S3F model surpasses the previous state-of-the-art on various tasks, including monocular 3D reconstruction, as well as albedo and shading estimation. Moreover, we show that the proposed methodology allows novel view synthesis, relighting, and re-posing the reconstruction, and can naturally be extended to handle multiple input images (e.g. different views of a person, or the same view, in different poses, in video). Finally, we demonstrate the editing capabilities of our model for 3D virtual try-on applications.
translated by 谷歌翻译
最近的神经渲染方法通过用神经网络预测体积密度和颜色来证明了准确的视图插值。虽然可以在静态和动态场景上监督这种体积表示,但是现有方法隐含地将完整的场景光传输释放到一个神经网络中,用于给定场景,包括曲面建模,双向散射分布函数和间接照明效果。与传统的渲染管道相比,这禁止在场景中改变表面反射率,照明或构成其他物体。在这项工作中,我们明确地模拟了场景表面之间的光传输,我们依靠传统的集成方案和渲染方程来重建场景。所提出的方法允许BSDF恢复,具有未知的光条件和诸如路径传输的经典光传输。通过在传统渲染方法中建立的表面表示的分解传输,该方法自然促进了编辑形状,反射率,照明和场景组成。该方法优于神经,在已知的照明条件下可发光,并为refit和编辑场景产生现实的重建。我们验证了从综合和捕获的视图上了解的场景编辑,致密和反射率估算的建议方法,并捕获了神经数据集的子集。
translated by 谷歌翻译
综合照片 - 现实图像和视频是计算机图形的核心,并且是几十年的研究焦点。传统上,使用渲染算法(如光栅化或射线跟踪)生成场景的合成图像,其将几何形状和材料属性的表示为输入。统称,这些输入定义了实际场景和呈现的内容,并且被称为场景表示(其中场景由一个或多个对象组成)。示例场景表示是具有附带纹理的三角形网格(例如,由艺术家创建),点云(例如,来自深度传感器),体积网格(例如,来自CT扫描)或隐式曲面函数(例如,截短的符号距离)字段)。使用可分辨率渲染损耗的观察结果的这种场景表示的重建被称为逆图形或反向渲染。神经渲染密切相关,并将思想与经典计算机图形和机器学习中的思想相结合,以创建用于合成来自真实观察图像的图像的算法。神经渲染是朝向合成照片现实图像和视频内容的目标的跨越。近年来,我们通过数百个出版物显示了这一领域的巨大进展,这些出版物显示了将被动组件注入渲染管道的不同方式。这种最先进的神经渲染进步的报告侧重于将经典渲染原则与学习的3D场景表示结合的方法,通常现在被称为神经场景表示。这些方法的一个关键优势在于它们是通过设计的3D-一致,使诸如新颖的视点合成捕获场景的应用。除了处理静态场景的方法外,我们还涵盖了用于建模非刚性变形对象的神经场景表示...
translated by 谷歌翻译
Human modeling and relighting are two fundamental problems in computer vision and graphics, where high-quality datasets can largely facilitate related research. However, most existing human datasets only provide multi-view human images captured under the same illumination. Although valuable for modeling tasks, they are not readily used in relighting problems. To promote research in both fields, in this paper, we present UltraStage, a new 3D human dataset that contains more than 2K high-quality human assets captured under both multi-view and multi-illumination settings. Specifically, for each example, we provide 32 surrounding views illuminated with one white light and two gradient illuminations. In addition to regular multi-view images, gradient illuminations help recover detailed surface normal and spatially-varying material maps, enabling various relighting applications. Inspired by recent advances in neural representation, we further interpret each example into a neural human asset which allows novel view synthesis under arbitrary lighting conditions. We show our neural human assets can achieve extremely high capture performance and are capable of representing fine details such as facial wrinkles and cloth folds. We also validate UltraStage in single image relighting tasks, training neural networks with virtual relighted data from neural assets and demonstrating realistic rendering improvements over prior arts. UltraStage will be publicly available to the community to stimulate significant future developments in various human modeling and rendering tasks.
translated by 谷歌翻译
What is a rose, visually? A rose comprises its intrinsics, including the distribution of geometry, texture, and material specific to its object category. With knowledge of these intrinsic properties, we may render roses of different sizes and shapes, in different poses, and under different lighting conditions. In this work, we build a generative model that learns to capture such object intrinsics from a single image, such as a photo of a bouquet. Such an image includes multiple instances of an object type. These instances all share the same intrinsics, but appear different due to a combination of variance within these intrinsics and differences in extrinsic factors, such as pose and illumination. Experiments show that our model successfully learns object intrinsics (distribution of geometry, texture, and material) for a wide range of objects, each from a single Internet image. Our method achieves superior results on multiple downstream tasks, including intrinsic image decomposition, shape and image generation, view synthesis, and relighting.
translated by 谷歌翻译
We propose an end-to-end inverse rendering pipeline called SupeRVol that allows us to recover 3D shape and material parameters from a set of color images in a super-resolution manner. To this end, we represent both the bidirectional reflectance distribution function (BRDF) and the signed distance function (SDF) by multi-layer perceptrons. In order to obtain both the surface shape and its reflectance properties, we revert to a differentiable volume renderer with a physically based illumination model that allows us to decouple reflectance and lighting. This physical model takes into account the effect of the camera's point spread function thereby enabling a reconstruction of shape and material in a super-resolution quality. Experimental validation confirms that SupeRVol achieves state of the art performance in terms of inverse rendering quality. It generates reconstructions that are sharper than the individual input images, making this method ideally suited for 3D modeling from low-resolution imagery.
translated by 谷歌翻译
尽管通过自学意识到,基于多层感知的方法在形状和颜色恢复方面取得了令人鼓舞的结果,但在学习深层隐式表面表示方面通常会遭受沉重的计算成本。由于渲染每个像素需要一个向前的网络推断,因此合成整个图像是非常密集的。为了应对这些挑战,我们提出了一种有效的粗到精细方法,以从本文中从多视图中恢复纹理网格。具体而言,采用可区分的泊松求解器来表示对象的形状,该求解器能够产生拓扑 - 敏捷和水密表面。为了说明深度信息,我们通过最小化渲染网格与多视图立体声预测深度之间的差异来优化形状几何形状。与形状和颜色的隐式神经表示相反,我们引入了一种基于物理的逆渲染方案,以共同估计环境照明和对象的反射率,该方案能够实时呈现高分辨率图像。重建的网格的质地是从可学习的密集纹理网格中插值的。我们已经对几个多视图立体数据集进行了广泛的实验,其有希望的结果证明了我们提出的方法的功效。该代码可在https://github.com/l1346792580123/diff上找到。
translated by 谷歌翻译
我们提出了一种准确的3D重建方法的方法。我们基于神经重建和渲染(例如神经辐射场(NERF))的最新进展的优势。这种方法的一个主要缺点是,它们未能重建对象的任何部分,这些部分在训练图像中不明确可见,这通常是野外图像和视频的情况。当缺乏证据时,可以使用诸如对称的结构先验来完成缺失的信息。但是,在神经渲染中利用此类先验是高度不平凡的:虽然几何和非反射材料可能是对称的,但环境场景的阴影和反射通常不是对称的。为了解决这个问题,我们将软对称性约束应用于3D几何和材料特性,并将外观纳入照明,反照率和反射率。我们在最近引入的CO3D数据集上评估了我们的方法,这是由于重建高度反射材料的挑战,重点是汽车类别。我们表明,它可以用高保真度重建未观察到的区域,并渲染高质量的新型视图图像。
translated by 谷歌翻译
Reflections on glossy objects contain valuable and hidden information about the surrounding environment. By converting these objects into cameras, we can unlock exciting applications, including imaging beyond the camera's field-of-view and from seemingly impossible vantage points, e.g. from reflections on the human eye. However, this task is challenging because reflections depend jointly on object geometry, material properties, the 3D environment, and the observer viewing direction. Our approach converts glossy objects with unknown geometry into radiance-field cameras to image the world from the object's perspective. Our key insight is to convert the object surface into a virtual sensor that captures cast reflections as a 2D projection of the 5D environment radiance field visible to the object. We show that recovering the environment radiance fields enables depth and radiance estimation from the object to its surroundings in addition to beyond field-of-view novel-view synthesis, i.e. rendering of novel views that are only directly-visible to the glossy object present in the scene, but not the observer. Moreover, using the radiance field we can image around occluders caused by close-by objects in the scene. Our method is trained end-to-end on multi-view images of the object and jointly estimates object geometry, diffuse radiance, and the 5D environment radiance field.
translated by 谷歌翻译
我们解决了从由一个未知照明条件照射的物体的多视图图像(及其相机姿势)从多视图图像(和它们的相机姿势)恢复物体的形状和空间变化的空间变化的问题。这使得能够在任意环境照明下呈现对象的新颖视图和对象的材料属性的编辑。我们呼叫神经辐射分解(NERFVERTOR)的方法的关键是蒸馏神经辐射场(NERF)的体积几何形状[MILDENHALL等人。 2020]将物体表示为表面表示,然后在求解空间改变的反射率和环境照明时共同细化几何形状。具体而言,Nerfactor仅使用重新渲染丢失,简单的光滑度Provers以及从真实学中学到的数据驱动的BRDF而无任何监督的表面法线,光可视性,Albedo和双向反射率和双向反射分布函数(BRDF)的3D神经领域-world brdf测量。通过显式建模光可视性,心脏请能够将来自Albedo的阴影分离,并在任意照明条件下合成现实的软或硬阴影。 Nerfactor能够在这场具有挑战性和实际场景的挑战和捕获的捕获设置中恢复令人信服的3D模型进行令人满意的3D模型。定性和定量实验表明,在各种任务中,内容越优于基于经典和基于深度的学习状态。我们的视频,代码和数据可在peoptom.csail.mit.edu/xiuming/projects/nerfactor/上获得。
translated by 谷歌翻译
随着增强的焦点和虚拟现实应用(XR)来说,可以对可以将物体从图像和视频升力到适合各种相关3D任务的表示的算法。 XR设备和应用程序的大规模部署意味着我们不能仅仅依赖于监督学习,因为收集和注释现实世界中无限各种物体的数据是不可行的。我们提出了一种弱监督的方法,能够将物体的单个图像分解成形状(深度和正规),材料(反射率,反射率和发光)和全局照明参数。对于培训,该方法仅依赖于训练对象的粗略初始形状估计来引导学习过程。这种形状监督可以例如从预先预制的深度网络或 - 从传统的结构 - 来自运动管道中的普罗维尔或 - 更慷慨地实现。在我们的实验中,我们表明该方法可以将2D图像成功地将2D图像成功渲染为分解的3D表示并推广到未经证明的对象类别。由于缺乏频繁的评估因缺乏地面真理数据而困难,我们还介绍了一种允许定量评估的照片 - 现实的合成测试集。
translated by 谷歌翻译
可区分渲染的最新进展已实现了从多视图图像中对3D场景的高质量重建。大多数方法都依赖于简单渲染算法:预滤波的直接照明或学习的辐照度表示。我们表明,更现实的阴影模型,结合了射线追踪和蒙特卡洛整合,大大改善了形状,材料和照明的分解。不幸的是,即使在大型样本计数下,蒙特卡洛集成也能提供巨大的噪音,这使得基于梯度的逆渲染非常具有挑战性。为了解决这个问题,我们将多重重要性采样和降解纳入新的逆渲染管道中。这显着改善了收敛性,并在低样本计数下实现了基于梯度的优化。我们提出了一种有效的方法,可以共同重建几何形状(显式三角形网格),材料和照明,与以前的工作相比,它显着改善了材料和光分离。我们认为,Denoising可以成为高质量逆渲染管道的组成部分。
translated by 谷歌翻译