本文提出了一种接近光的光度立体声方法,该方法忠实地保留了3D重建中的尖锐深度边缘。与以前依靠有限分化来近似深度部分衍生物和表面正常的方法不同,我们在近光照度立体声中引入了一个分析上可区分的神经表面,以避免在尖锐的深度边缘下的分化误差,其中深度表示为表示深度的神经误差。图像坐标。通过进一步将兰伯特式反映物作为由表面正常和深度产生的因变量,我们的方法不准确地深度初始化。在合成场景和现实世界场景上进行的实验证明了我们方法在边缘保存中详细形状恢复的有效性。
translated by 谷歌翻译
Multispectral photometric stereo(MPS) aims at recovering the surface normal of a scene from a single-shot multispectral image captured under multispectral illuminations. Existing MPS methods adopt the Lambertian reflectance model to make the problem tractable, but it greatly limits their application to real-world surfaces. In this paper, we propose a deep neural network named NeuralMPS to solve the MPS problem under general non-Lambertian spectral reflectances. Specifically, we present a spectral reflectance decomposition(SRD) model to disentangle the spectral reflectance into geometric components and spectral components. With this decomposition, we show that the MPS problem for surfaces with a uniform material is equivalent to the conventional photometric stereo(CPS) with unknown light intensities. In this way, NeuralMPS reduces the difficulty of the non-Lambertian MPS problem by leveraging the well-studied non-Lambertian CPS methods. Experiments on both synthetic and real-world scenes demonstrate the effectiveness of our method.
translated by 谷歌翻译
我们介绍了一种新型的多视图立体声(MVS)方法,该方法不仅可以同时恢复每个像素深度,而且还可以恢复表面正常状态,以及在已知但自然照明下捕获的无纹理,复杂的非斜面表面的反射。我们的关键想法是将MVS作为端到端的可学习网络,我们称为NLMVS-NET,该网络无缝地集成了放射线线索,以利用表面正常状态作为视图的表面特征,以实现学习成本量的构建和过滤。它首先通过新颖的形状从阴影网络估算出每个视图的像素概率密度。然后,这些每个像素表面正常密度和输入多视图图像将输入到一个新颖的成本量滤波网络中,该网络学会恢复每个像素深度和表面正常。通过与几何重建交替进行交替估计反射率。对新建立的合成和现实世界数据集进行了广泛的定量评估表明,NLMVS-NET可以稳健而准确地恢复自然设置中复杂物体的形状和反射率。
translated by 谷歌翻译
传统的多视图光度立体声(MVP)方法通常由多个不相交阶段组成,从而导致明显的累积错误。在本文中,我们提出了一种基于隐式表示的MVP的神经反向渲染方法。给定通过多个未知方向灯照亮的非陆层物体的多视图图像,我们的方法共同估计几何形状,材料和灯光。我们的方法首先采用多光图像来估计每视图正常地图,这些图用于使从神经辐射场得出的正态定向。然后,它可以根据具有阴影可区分的渲染层共同优化表面正态,空间变化的BRDF和灯。优化后,重建的对象可用于新颖的视图渲染,重新定义和材料编辑。合成数据集和真实数据集的实验表明,与现有的MVP和神经渲染方法相比,我们的方法实现了更准确的形状重建。我们的代码和模型可以在https://ywq.github.io/psnerf上找到。
translated by 谷歌翻译
当前的极化3D重建方法,包括具有偏振文献的良好形状的方法,均在正交投影假设下开发。但是,在较大的视野中,此假设不存在,并且可能导致对此假设的方法发生重大的重建错误。为了解决此问题,我们介绍适用于透视摄像机的透视相位角(PPA)模型。与拼字法模型相比,提出的PPA模型准确地描述了在透视投影下极化相位角与表面正常之间的关系。此外,PPA模型使得仅从一个单视相位映射估算表面正态,并且不遭受所谓的{\ pi} - ambiguity问题。实际数据上的实验表明,PPA模型对于具有透视摄像机的表面正常估计比拼字法模型更准确。
translated by 谷歌翻译
本文解决了3D对象重建的未校准光度立体声的任务,其中对象形状,对象反射率和照明方向均未知。这是一项极其困难的任务,挑战与光度法立体声中众所周知的普遍浮雕(GBR)歧义的存在进一步更加复杂。解决这种歧义的先前方法要么依赖于过度简化的反射模型,要么假设特殊的光分布。我们提出了一种新方法,该方法在一般表面和灯光假设下共同优化对象形状,光方向和光强度。镜面可显式地通过神经反向渲染过程求解未校准的光度立体声。我们使用新型的进行性镜面底座逐渐拟合从闪亮到粗糙的镜面。我们的方法通过最大程度地减少对每个对象基础的重建误差来利用基于物理的渲染方程。我们的方法证明了在现实世界数据集上的光估计和形状恢复中的最新精度。
translated by 谷歌翻译
A polarization camera has great potential for 3D reconstruction since the angle of polarization (AoP) and the degree of polarization (DoP) of reflected light are related to an object's surface normal. In this paper, we propose a novel 3D reconstruction method called Polarimetric Multi-View Inverse Rendering (Polarimetric MVIR) that effectively exploits geometric, photometric, and polarimetric cues extracted from input multi-view color-polarization images. We first estimate camera poses and an initial 3D model by geometric reconstruction with a standard structure-from-motion and multi-view stereo pipeline. We then refine the initial model by optimizing photometric rendering errors and polarimetric errors using multi-view RGB, AoP, and DoP images, where we propose a novel polarimetric cost function that enables an effective constraint on the estimated surface normal of each vertex, while considering four possible ambiguous azimuth angles revealed from the AoP measurement. The weight for the polarimetric cost is effectively determined based on the DoP measurement, which is regarded as the reliability of polarimetric information. Experimental results using both synthetic and real data demonstrate that our Polarimetric MVIR can reconstruct a detailed 3D shape without assuming a specific surface material and lighting condition.
translated by 谷歌翻译
未校准的光度立体声(UPS)由于未知光带来的固有歧义而具有挑战性。现有的解决方案通过将反射率明确关联到光条件或以监督方式解决光条件来减轻歧义。本文建立了光线线索和光估计之间的隐含关系,并以无监督的方式解决了UPS。关键思想是将反射率表示为四个神经内在字段,即\ ie,位置,光,镜头和阴影,基于神经光场与镜面反射和铸造阴影的光线线索隐含相关联。神经内在字段的无监督,关节优化可以不受训练数据偏差和累积误差,并完全利用所有观察到的像素值的UPS值。我们的方法在常规和具有挑战性的设置下,在公共和自我收集的数据集上获得了优于最先进的UPS方法的优势。该代码将很快发布。
translated by 谷歌翻译
Photometric stereo recovers the surface normals of an object from multiple images with varying shading cues, i.e., modeling the relationship between surface orientation and intensity at each pixel. Photometric stereo prevails in superior per-pixel resolution and fine reconstruction details. However, it is a complicated problem because of the non-linear relationship caused by non-Lambertian surface reflectance. Recently, various deep learning methods have shown a powerful ability in the context of photometric stereo against non-Lambertian surfaces. This paper provides a comprehensive review of existing deep learning-based calibrated photometric stereo methods. We first analyze these methods from different perspectives, including input processing, supervision, and network architecture. We summarize the performance of deep learning photometric stereo models on the most widely-used benchmark data set. This demonstrates the advanced performance of deep learning-based photometric stereo methods. Finally, we give suggestions and propose future research trends based on the limitations of existing models.
translated by 谷歌翻译
尽管通过自学意识到,基于多层感知的方法在形状和颜色恢复方面取得了令人鼓舞的结果,但在学习深层隐式表面表示方面通常会遭受沉重的计算成本。由于渲染每个像素需要一个向前的网络推断,因此合成整个图像是非常密集的。为了应对这些挑战,我们提出了一种有效的粗到精细方法,以从本文中从多视图中恢复纹理网格。具体而言,采用可区分的泊松求解器来表示对象的形状,该求解器能够产生拓扑 - 敏捷和水密表面。为了说明深度信息,我们通过最小化渲染网格与多视图立体声预测深度之间的差异来优化形状几何形状。与形状和颜色的隐式神经表示相反,我们引入了一种基于物理的逆渲染方案,以共同估计环境照明和对象的反射率,该方案能够实时呈现高分辨率图像。重建的网格的质地是从可学习的密集纹理网格中插值的。我们已经对几个多视图立体数据集进行了广泛的实验,其有希望的结果证明了我们提出的方法的功效。该代码可在https://github.com/l1346792580123/diff上找到。
translated by 谷歌翻译
我们提出了一种从单个图像中编辑复杂室内照明的方法,其深度和光源分割掩码。这是一个极具挑战性的问题,需要对复杂的光传输进行建模,并仅通过对场景的部分LDR观察,将HDR照明从材料和几何形状中解散。我们使用两个新颖的组件解决了这个问题:1)一种整体场景重建方法,该方法估计场景反射率和参数3D照明,以及2)一个神经渲染框架,从我们的预测中重新呈现场景。我们使用基于物理的室内光表示,可以进行直观的编辑,并推断可见和看不见的光源。我们的神经渲染框架结合了基于物理的直接照明和阴影渲染,深层网络近似于全球照明。它可以捕获具有挑战性的照明效果,例如柔软的阴影,定向照明,镜面材料和反射。以前的单个图像逆渲染方法通常纠缠场景照明和几何形状,仅支持对象插入等应用程序。取而代之的是,通过将参数3D照明估计与神经场景渲染相结合,我们演示了从单个图像中实现完整场景重新确定(包括光源插入,删除和替换)的第一种自动方法。所有源代码和数据将公开发布。
translated by 谷歌翻译
传统上,本征成像或内在图像分解被描述为将图像分解为两层:反射率,材料的反射率;和一个阴影,由光和几何之间的相互作用产生。近年来,深入学习技术已广泛应用,以提高这些分离的准确性。在本调查中,我们概述了那些在知名内在图像数据集和文献中使用的相关度量的结果,讨论了预测所需的内在图像分解的适用性。虽然Lambertian的假设仍然是许多方法的基础,但我们表明,对图像形成过程更复杂的物理原理组件的潜力越来越意识到,这是光学准确的材料模型和几何形状,更完整的逆轻型运输估计。考虑使用的前瞻和模型以及驾驶分解过程的学习架构和方法,我们将这些方法分类为分解的类型。考虑到最近神经,逆和可微分的渲染技术的进步,我们还提供了关于未来研究方向的见解。
translated by 谷歌翻译
椭圆测量技术允许测量材料的极化信息,需要具有不同灯和传感器配置的光学组件的精确旋转。这会导致繁琐的捕获设备,在实验室条件下仔细校准,并且在很长的获取时间,通常按照每个物体几天的顺序。最近的技术允许捕获偏振偏光的反射率信息,但仅限于单个视图,或涵盖所有视图方向,但仅限于单个均匀材料制成的球形对象。我们提出了稀疏椭圆测量法,这是一种便携式偏光获取方法,同时同时捕获极化SVBRDF和3D形状。我们的手持设备由现成的固定光学组件组成。每个物体的总收购时间在二十分钟之间变化,而不是天数。我们开发了一个完整的极化SVBRDF模型,其中包括分散和镜面成分以及单个散射,并通过生成模型来设计一种新型的极化逆渲染算法,并通过数据增强镜面反射样品的数据增强。我们的结果表明,与现实世界对象捕获的极化BRDF的最新基础数据集有很强的一致性。
translated by 谷歌翻译
尽管在过去几年中取得了重大进展,但使用单眼图像进行深度估计仍然存在挑战。首先,训练度量深度预测模型的训练是不算气的,该预测模型可以很好地推广到主要由于训练数据有限的不同场景。因此,研究人员建立了大规模的相对深度数据集,这些数据集更容易收集。但是,由于使用相对深度数据训练引起的深度转移,现有的相对深度估计模型通常无法恢复准确的3D场景形状。我们在此处解决此问题,并尝试通过对大规模相对深度数据进行训练并估算深度转移来估计现场形状。为此,我们提出了一个两阶段的框架,该框架首先将深度预测到未知量表并从单眼图像转移,然后利用3D点云数据来预测深度​​移位和相机的焦距,使我们能够恢复恢复3D场景形状。由于两个模块是单独训练的,因此我们不需要严格配对的培训数据。此外,我们提出了图像级的归一化回归损失和基于正常的几何损失,以通过相对深度注释来改善训练。我们在九个看不见的数据集上测试我们的深度模型,并在零拍摄评估上实现最先进的性能。代码可用:https://git.io/depth
translated by 谷歌翻译
综合照片 - 现实图像和视频是计算机图形的核心,并且是几十年的研究焦点。传统上,使用渲染算法(如光栅化或射线跟踪)生成场景的合成图像,其将几何形状和材料属性的表示为输入。统称,这些输入定义了实际场景和呈现的内容,并且被称为场景表示(其中场景由一个或多个对象组成)。示例场景表示是具有附带纹理的三角形网格(例如,由艺术家创建),点云(例如,来自深度传感器),体积网格(例如,来自CT扫描)或隐式曲面函数(例如,截短的符号距离)字段)。使用可分辨率渲染损耗的观察结果的这种场景表示的重建被称为逆图形或反向渲染。神经渲染密切相关,并将思想与经典计算机图形和机器学习中的思想相结合,以创建用于合成来自真实观察图像的图像的算法。神经渲染是朝向合成照片现实图像和视频内容的目标的跨越。近年来,我们通过数百个出版物显示了这一领域的巨大进展,这些出版物显示了将被动组件注入渲染管道的不同方式。这种最先进的神经渲染进步的报告侧重于将经典渲染原则与学习的3D场景表示结合的方法,通常现在被称为神经场景表示。这些方法的一个关键优势在于它们是通过设计的3D-一致,使诸如新颖的视点合成捕获场景的应用。除了处理静态场景的方法外,我们还涵盖了用于建模非刚性变形对象的神经场景表示...
translated by 谷歌翻译
In this work we address the challenging problem of multiview 3D surface reconstruction. We introduce a neural network architecture that simultaneously learns the unknown geometry, camera parameters, and a neural renderer that approximates the light reflected from the surface towards the camera. The geometry is represented as a zero level-set of a neural network, while the neural renderer, derived from the rendering equation, is capable of (implicitly) modeling a wide set of lighting conditions and materials. We trained our network on real world 2D images of objects with different material properties, lighting conditions, and noisy camera initializations from the DTU MVS dataset. We found our model to produce state of the art 3D surface reconstructions with high fidelity, resolution and detail.
translated by 谷歌翻译
间接飞行时间(ITOF)相机是一个有希望的深度传感技术。然而,它们容易出现由多路径干扰(MPI)和低信噪比(SNR)引起的错误。传统方法,在去噪后,通过估计编码深度的瞬态图像来减轻MPI。最近,在不使用中间瞬态表示的情况下,共同去噪和减轻MPI的数据驱动方法已经成为最先进的。在本文中,我们建议重新审视瞬态代表。使用数据驱动的Priors,我们将其插入/推断ITOF频率并使用它们来估计瞬态图像。给定直接TOF(DTOF)传感器捕获瞬态图像,我们将我们的方法命名为ITOF2DTOF。瞬态表示是灵活的。它可以集成与基于规则的深度感测算法,对低SNR具有强大,并且可以处理实际上出现的模糊场景(例如,镜面MPI,光学串扰)。我们在真正深度传感方案中展示了先前方法上的ITOF2DTOF的好处。
translated by 谷歌翻译
我们建议使用以光源方向为条件的神经辐射场(NERF)的扩展来解决多视光度立体声问题。我们神经表示的几何部分预测表面正常方向,使我们能够理解局部表面反射率。我们的神经表示的外观部分被分解为神经双向反射率函数(BRDF),作为拟合过程的一部分学习,阴影预测网络(以光源方向为条件),使我们能够对明显的BRDF进行建模。基于物理图像形成模型的诱导偏差的学到的组件平衡使我们能够远离训练期间观察到的光源和查看器方向。我们证明了我们在多视光学立体基准基准上的方法,并表明可以通过NERF的神经密度表示可以获得竞争性能。
translated by 谷歌翻译
We propose a differentiable sphere tracing algorithm to bridge the gap between inverse graphics methods and the recently proposed deep learning based implicit signed distance function. Due to the nature of the implicit function, the rendering process requires tremendous function queries, which is particularly problematic when the function is represented as a neural network. We optimize both the forward and backward passes of our rendering layer to make it run efficiently with affordable memory consumption on a commodity graphics card. Our rendering method is fully differentiable such that losses can be directly computed on the rendered 2D observations, and the gradients can be propagated backwards to optimize the 3D geometry. We show that our rendering method can effectively reconstruct accurate 3D shapes from various inputs, such as sparse depth and multi-view images, through inverse optimization. With the geometry based reasoning, our 3D shape prediction methods show excellent generalization capability and robustness against various noises. * Work done while Shaohui Liu was an academic guest at ETH Zurich.
translated by 谷歌翻译
我们介绍了一种新的数据驱动方法,具有基于物理的前沿,从单个偏振图像到场景级正常估计。来自偏振(SFP)的现有形状主要专注于估计单个物体的正常,而不是野外的复杂场景。高质量场景级SFP的关键障碍是复杂场景中缺乏现实世界的SFP数据。因此,我们贡献了第一个现实世界场景级SFP数据集,具有配对输入偏振图像和地理正常映射。然后,我们提出了一种基于学习的框架,具有多头自我注意模块和观察编码,该框架被设计为处理由场景级SFP中的复杂材料和非正交投影引起的增加的偏振模糊。由于偏振光和表面法线之间的关系不受距离的影响,我们训练的模型可以广泛地展开到远场户外场景。实验结果表明,我们的方法在两个数据集中显着优于现有的SFP模型。我们的数据集和源代码将公开可用于\ url {https://github.com/chenyanglei/sfp-wild}。
translated by 谷歌翻译