神经隐式功能对于数据表示非常有效。但是,如果输入数据具有许多细节或含有低频和高频带宽,则神经网络学到的隐式功能通常包括意外的噪声或失去细节。在保留细尺度内容的同时,删除工件具有挑战性,通常会出现过度平滑或嘈杂的问题。为了解决这一难题,我们提出了一个新框架(FINN),该框架(FINN)将过滤模块集成到MLP中以执行数据重建,同时适应包含不同频率的区域。过滤模块的平滑操作员作用于网络的中间结果,鼓励结果是平滑的,并且恢复的操作员将高频带到区域过于光滑。两个反活性操作员在所有MLP层中连续播放,以适应重建。我们证明了Finn在几个任务上的优势,并与最新方法相比,展示了显着改善。此外,Finn在收敛速度和网络稳定性方面还能产生更好的性能。
translated by 谷歌翻译
我们提出了一个小说嵌入字段\ emph {pref}作为促进神经信号建模和重建任务的紧凑表示。基于纯的多层感知器(MLP)神经技术偏向低频信号,并依赖于深层或傅立叶编码以避免丢失细节。取而代之的是,基于傅立叶嵌入空间的相拟合公式,PREF采用了紧凑且物理上解释的编码场。我们进行全面的实验,以证明PERF比最新的空间嵌入技术的优势。然后,我们使用近似的逆傅里叶变换方案以及新型的parseval正常器来开发高效的频率学习框架。广泛的实验表明,我们的高效和紧凑的基于频率的神经信号处理技术与2D图像完成,3D SDF表面回归和5D辐射场现场重建相同,甚至比最新的。
translated by 谷歌翻译
We present a novel method to provide efficient and highly detailed reconstructions. Inspired by wavelets, our main idea is to learn a neural field that decompose the signal both spatially and frequency-wise. We follow the recent grid-based paradigm for spatial decomposition, but unlike existing work, encourage specific frequencies to be stored in each grid via Fourier features encodings. We then apply a multi-layer perceptron with sine activations, taking these Fourier encoded features in at appropriate layers so that higher-frequency components are accumulated on top of lower-frequency components sequentially, which we sum up to form the final output. We demonstrate that our method outperforms the state of the art regarding model compactness and efficiency on multiple tasks: 2D image fitting, 3D shape reconstruction, and neural radiance fields.
translated by 谷歌翻译
基于坐标的网络成为3D表示和场景重建的强大工具。这些网络训练以将连续输入坐标映射到每个点处的信号的值。尽管如此,当前的架构是黑色盒子:不能轻易分析它们的光谱特性,并且在无监督点处的行为难以预测。此外,这些网络通常接受训练以以单个刻度表示信号,并且如此天真的下采样或上采样导致伪像。我们引入带限量坐标网络(BACON),具有分析傅里叶谱的网络架构。培根在无监督点处具有可预测的行为,可以基于所代表信号的光谱特性设计,并且可以在没有明确的监督的情况下代表多个尺度的信号。我们向培根展示用于使用符号距离功能的图像,辐射字段和3D场景的多尺度神经表示的培根,并表明它在可解释性和质量方面优于传统的单尺度坐标网络。
translated by 谷歌翻译
神经渲染可用于在没有3D监督的情况下重建形状的隐式表示。然而,当前的神经表面重建方法难以学习形状的高频细节,因此经常过度厚度地呈现重建形状。我们提出了一种新的方法来提高神经渲染中表面重建的质量。我们遵循最近的工作,将表面模型为签名的距离字段。首先,我们提供了一个派生,以分析签名的距离函数,体积密度,透明度函数和体积渲染方程中使用的加权函数之间的关系。其次,我们观察到,试图在单个签名的距离函数中共同编码高频和低频组件会导致不稳定的优化。我们建议在基本函数和位移函数中分解签名的距离函数以及粗到最新的策略,以逐渐增加高频细节。最后,我们建议使用一种自适应策略,使优化能够专注于改善签名距离场具有伪影的表面附近的某些区域。我们的定性和定量结果表明,我们的方法可以重建高频表面细节,并获得比目前的现状更好的表面重建质量。代码将在https://github.com/yiqun-wang/hfs上发布。
translated by 谷歌翻译
We show that passing input points through a simple Fourier feature mapping enables a multilayer perceptron (MLP) to learn high-frequency functions in lowdimensional problem domains. These results shed light on recent advances in computer vision and graphics that achieve state-of-the-art results by using MLPs to represent complex 3D objects and scenes. Using tools from the neural tangent kernel (NTK) literature, we show that a standard MLP fails to learn high frequencies both in theory and in practice. To overcome this spectral bias, we use a Fourier feature mapping to transform the effective NTK into a stationary kernel with a tunable bandwidth. We suggest an approach for selecting problem-specific Fourier features that greatly improves the performance of MLPs for low-dimensional regression tasks relevant to the computer vision and graphics communities.
translated by 谷歌翻译
当与输入的高维投影结合使用时,多层感知器(MLP)已被证明是有效的场景编码器,通常称为\ textit {位置{位置编码}。但是,频谱频谱的场景仍然是一个挑战:选择高频进行位置编码会引入低结构区域中的噪声,而低频率则导致详细区域的拟合不佳。为了解决这个问题,我们提出了一个渐进的位置编码,将分层MLP结构暴露于频率编码的增量集。我们的模型可以准确地使用广泛的频带重建场景,并以细节的渐进级别学习场景表示形式\ textit {没有明确的每级监督}。该体系结构是模块化的:每个级别都编码一个连续的隐式表示,可以分别利用其各自的分辨率,这意味着一个较小的网络来进行更粗糙的重建。与基线相比,几个2D和3D数据集的实验显示了重建精度,代表性能力和训练速度的提高。
translated by 谷歌翻译
机器学习的最近进步已经创造了利用一类基于坐标的神经网络来解决视觉计算问题的兴趣,该基于坐标的神经网络在空间和时间跨空间和时间的场景或对象的物理属性。我们称之为神经领域的这些方法已经看到在3D形状和图像的合成中成功应用,人体的动画,3D重建和姿势估计。然而,由于在短时间内的快速进展,许多论文存在,但尚未出现全面的审查和制定问题。在本报告中,我们通过提供上下文,数学接地和对神经领域的文学进行广泛综述来解决这一限制。本报告涉及两种维度的研究。在第一部分中,我们通过识别神经字段方法的公共组件,包括不同的表示,架构,前向映射和泛化方法来专注于神经字段的技术。在第二部分中,我们专注于神经领域的应用在视觉计算中的不同问题,超越(例如,机器人,音频)。我们的评论显示了历史上和当前化身的视觉计算中已覆盖的主题的广度,展示了神经字段方法所带来的提高的质量,灵活性和能力。最后,我们展示了一个伴随着贡献本综述的生活版本,可以由社区不断更新。
translated by 谷歌翻译
神经表面重建旨在基于多视图图像重建准确的3D表面。基于神经量的先前方法主要训练完全隐式的模型,它们需要单个场景的数小时培训。最近的努力探讨了明确的体积表示,该表示通过记住可学习的素网格中的重要信息,从而大大加快了优化过程。但是,这些基于体素的方法通常在重建细粒几何形状方面遇到困难。通过实证研究,我们发现高质量的表面重建取决于两个关键因素:构建相干形状的能力和颜色几何依赖性的精确建模。特别是,后者是准确重建细节的关键。受这些发现的启发,我们开发了Voxurf,这是一种基于体素的方法,用于有效,准确的神经表面重建,该方法由两个阶段组成:1)利用可学习的特征网格来构建颜色场并获得连贯的粗糙形状,并且2)使用双色网络来完善详细的几何形状,可捕获精确的颜色几何依赖性。我们进一步引入了层次几何特征,以启用跨体素的信息共享。我们的实验表明,Voxurf同时达到了高效率和高质量。在DTU基准测试中,与最先进的方法相比,Voxurf获得了更高的重建质量,训练的加速度为20倍。
translated by 谷歌翻译
Multilayer perceptrons (MLPs) learn high frequencies slowly. Recent approaches encode features in spatial bins to improve speed of learning details, but at the cost of larger model size and loss of continuity. Instead, we propose to encode features in bins of Fourier features that are commonly used for positional encoding. We call these Quantized Fourier Features (QFF). As a naturally multiresolution and periodic representation, our experiments show that using QFF can result in smaller model size, faster training, and better quality outputs for several applications, including Neural Image Representations (NIR), Neural Radiance Field (NeRF) and Signed Distance Function (SDF) modeling. QFF are easy to code, fast to compute, and serve as a simple drop-in addition to many neural field representations.
translated by 谷歌翻译
We present a method that achieves state-of-the-art results for synthesizing novel views of complex scenes by optimizing an underlying continuous volumetric scene function using a sparse set of input views. Our algorithm represents a scene using a fully-connected (nonconvolutional) deep network, whose input is a single continuous 5D coordinate (spatial location (x, y, z) and viewing direction (θ, φ)) and whose output is the volume density and view-dependent emitted radiance at that spatial location. We synthesize views by querying 5D coordinates along camera rays and use classic volume rendering techniques to project the output colors and densities into an image. Because volume rendering is naturally differentiable, the only input required to optimize our representation is a set of images with known camera poses. We describe how to effectively optimize neural radiance fields to render photorealistic novel views of scenes with complicated geometry and appearance, and demonstrate results that outperform prior work on neural rendering and view synthesis. View synthesis results are best viewed as videos, so we urge readers to view our supplementary video for convincing comparisons.
translated by 谷歌翻译
综合照片 - 现实图像和视频是计算机图形的核心,并且是几十年的研究焦点。传统上,使用渲染算法(如光栅化或射线跟踪)生成场景的合成图像,其将几何形状和材料属性的表示为输入。统称,这些输入定义了实际场景和呈现的内容,并且被称为场景表示(其中场景由一个或多个对象组成)。示例场景表示是具有附带纹理的三角形网格(例如,由艺术家创建),点云(例如,来自深度传感器),体积网格(例如,来自CT扫描)或隐式曲面函数(例如,截短的符号距离)字段)。使用可分辨率渲染损耗的观察结果的这种场景表示的重建被称为逆图形或反向渲染。神经渲染密切相关,并将思想与经典计算机图形和机器学习中的思想相结合,以创建用于合成来自真实观察图像的图像的算法。神经渲染是朝向合成照片现实图像和视频内容的目标的跨越。近年来,我们通过数百个出版物显示了这一领域的巨大进展,这些出版物显示了将被动组件注入渲染管道的不同方式。这种最先进的神经渲染进步的报告侧重于将经典渲染原则与学习的3D场景表示结合的方法,通常现在被称为神经场景表示。这些方法的一个关键优势在于它们是通过设计的3D-一致,使诸如新颖的视点合成捕获场景的应用。除了处理静态场景的方法外,我们还涵盖了用于建模非刚性变形对象的神经场景表示...
translated by 谷歌翻译
Photo-realistic free-viewpoint rendering of real-world scenes using classical computer graphics techniques is challenging, because it requires the difficult step of capturing detailed appearance and geometry models. Recent studies have demonstrated promising results by learning scene representations that implicitly encode both geometry and appearance without 3D supervision. However, existing approaches in practice often show blurry renderings caused by the limited network capacity or the difficulty in finding accurate intersections of camera rays with the scene geometry. Synthesizing high-resolution imagery from these representations often requires time-consuming optical ray marching. In this work, we introduce Neural Sparse Voxel Fields (NSVF), a new neural scene representation for fast and high-quality free-viewpoint rendering. NSVF defines a set of voxel-bounded implicit fields organized in a sparse voxel octree to model local properties in each cell. We progressively learn the underlying voxel structures with a diffentiable ray-marching operation from only a set of posed RGB images. With the sparse voxel octree structure, rendering novel views can be accelerated by skipping the voxels containing no relevant scene content. Our method is typically over 10 times faster than the state-of-the-art (namely, NeRF (Mildenhall et al., 2020)) at inference time while achieving higher quality results. Furthermore, by utilizing an explicit sparse voxel representation, our method can easily be applied to scene editing and scene composition. We also demonstrate several challenging tasks, including multi-scene learning, free-viewpoint rendering of a moving human, and large-scale scene rendering. Code and data are available at our website: https://github.com/facebookresearch/NSVF.
translated by 谷歌翻译
我们介绍了Sparseneus,这是一种基于神经渲染的新方法,用于从多视图图像中进行表面重建的任务。当仅提供稀疏图像作为输入时,此任务变得更加困难,这种情况通常会产生不完整或失真的结果。此外,他们无法概括看不见的新场景会阻碍他们在实践中的应用。相反,Sparseneus可以概括为新场景,并与稀疏的图像(仅2或3)良好合作。 Sparseneus采用签名的距离函数(SDF)作为表面表示,并通过引入代码编码通用表面预测的几何形状来从图像特征中学习可概括的先验。此外,引入了几种策略,以有效利用稀疏视图来进行高质量重建,包括1)多层几何推理框架以粗略的方式恢复表面; 2)多尺度的颜色混合方案,以实现更可靠的颜色预测; 3)一种一致性意识的微调方案,以控制由遮挡和噪声引起的不一致区域。广泛的实验表明,我们的方法不仅胜过最先进的方法,而且表现出良好的效率,可推广性和灵活性。
translated by 谷歌翻译
神经领域已成为一种新的数据表示范式,并在各种信号表示中表现出了显着的成功。由于它们在网络参数中保留信号,因此通过发送和接收整个模型参数来传输数据传输,可以防止在许多实际情况下使用这种新兴技术。我们提出了流媒体神经场,这是一个由各种宽度的可执行子网络组成的单个模型。拟议的建筑和培训技术使一个网络能够随着时间的流逝而流式传输,并重建不同的素质和一部分信号。例如,较小的子网络会产生光滑和低频信号,而较大的子网络可以代表细节。实验结果显示了我们方法在各个域中的有效性,例如2D图像,视频和3D签名的距离函数。最后,我们证明我们提出的方法通过利用参数共享来提高培训稳定性。
translated by 谷歌翻译
Volumetric neural rendering methods like NeRF generate high-quality view synthesis results but are optimized per-scene leading to prohibitive reconstruction time. On the other hand, deep multi-view stereo methods can quickly reconstruct scene geometry via direct network inference. Point-NeRF combines the advantages of these two approaches by using neural 3D point clouds, with associated neural features, to model a radiance field. Point-NeRF can be rendered efficiently by aggregating neural point features near scene surfaces, in a ray marching-based rendering pipeline. Moreover, Point-NeRF can be initialized via direct inference of a pre-trained deep network to produce a neural point cloud; this point cloud can be finetuned to surpass the visual quality of NeRF with 30X faster training time. Point-NeRF can be combined with other 3D reconstruction methods and handles the errors and outliers in such methods via a novel pruning and growing mechanism. The experiments on the DTU, the NeRF Synthetics , the ScanNet and the Tanks and Temples datasets demonstrate Point-NeRF can surpass the existing methods and achieve the state-of-the-art results.
translated by 谷歌翻译
Neural basis functionsReflectance coefficients Figure 1: (a) Each pixel in NeX multiplane image consists of an alpha transparency value, base color k 0 , and view-dependent reflectance coefficients k 1 ...k n . A linear combination of these coefficients and basis functions learned from a neural network produces the final color value. (b, c) show our synthesized images that can be rendered in real time with view-dependent effects such as the reflection on the silver spoon.
translated by 谷歌翻译
我们介绍了一种新的神经表面重建方法,称为Neus,用于重建具有高保真的对象和场景,从2D图像输入。现有的神经表面重建方法,例如DVR和IDR,需要前景掩模作为监控,容易被捕获在局部最小值中,因此与具有严重自动遮挡或薄结构的物体的重建斗争。同时,新型观测合成的最近神经方法,例如Nerf及其变体,使用体积渲染来产生具有优化的稳健性的神经场景表示,即使对于高度复杂的物体。然而,从该学习的内隐式表示提取高质量表面是困难的,因为表示表示没有足够的表面约束。在Neus中,我们建议将表面代表为符号距离功能(SDF)的零级集,并开发一种新的卷渲染方法来训练神经SDF表示。我们观察到传统的体积渲染方法导致表面重建的固有的几何误差(即偏置),因此提出了一种新的制剂,其在第一阶的第一阶偏差中没有偏置,因此即使没有掩码监督,也导致更准确的表面重建。 DTU数据集的实验和BlendedMVS数据集显示,Neus在高质量的表面重建中优于最先进的,特别是对于具有复杂结构和自动闭塞的物体和场景。
translated by 谷歌翻译
高光谱图像(HSI)没有额外辅助图像的超分辨率仍然是由于其高维光谱图案的恒定挑战,其中学习有效的空间和光谱表示是基本问题。最近,隐式的神经表示(INR)正在进行进步,作为新颖且有效的代表,特别是在重建任务中。因此,在这项工作中,我们提出了一种基于INR的新颖的HSI重建模型,其通过将空间坐标映射到其对应的光谱辐射值值的连续函数来表示HSI。特别地,作为INR的特定实现,参数模型的参数是通过使用卷积网络在特征提取的超通知来预测的。它使连续功能以内容感知方式将空间坐标映射到像素值。此外,周期性空间编码与重建过程深度集成,这使得我们的模型能够恢复更高的频率细节。为了验证我们模型的功效,我们在三个HSI数据集(洞穴,NUS和NTIRE2018)上进行实验。实验结果表明,与最先进的方法相比,该建议的模型可以实现竞争重建性能。此外,我们提供了对我们模型各个组件的效果的消融研究。我们希望本文可以服务器作为未来研究的效率参考。
translated by 谷歌翻译
我们提出了GO-SURF,这是一种直接特征网格优化方法,可从RGB-D序列进行准确和快速的表面重建。我们用学习的分层特征素网格对基础场景进行建模,该网络封装了多级几何和外观本地信息。特征向量被直接优化,使得三线性插值后,由两个浅MLP解码为签名的距离和辐射度值,并通过表面体积渲染渲染,合成和观察到的RGB/DEPTH值之间的差异最小化。我们的监督信号-RGB,深度和近似SDF可以直接从输入图像中获得,而无需融合或后处理。我们制定了一种新型的SDF梯度正则化项,该项鼓励表面平滑度和孔填充,同时保持高频细节。 GO-SURF可以优化$ 1 $ - $ 2 $ K框架的序列,价格为$ 15 $ - $ 45 $分钟,$ \ times60 $的速度超过了NeuralRGB-D,这是基于MLP表示的最相关的方法,同时保持PAR性能在PAR上的性能标准基准。项目页面:https://jingwenwang95.github.io/go_surf/
translated by 谷歌翻译