当与输入的高维投影结合使用时,多层感知器(MLP)已被证明是有效的场景编码器,通常称为\ textit {位置{位置编码}。但是,频谱频谱的场景仍然是一个挑战:选择高频进行位置编码会引入低结构区域中的噪声,而低频率则导致详细区域的拟合不佳。为了解决这个问题,我们提出了一个渐进的位置编码,将分层MLP结构暴露于频率编码的增量集。我们的模型可以准确地使用广泛的频带重建场景,并以细节的渐进级别学习场景表示形式\ textit {没有明确的每级监督}。该体系结构是模块化的:每个级别都编码一个连续的隐式表示,可以分别利用其各自的分辨率,这意味着一个较小的网络来进行更粗糙的重建。与基线相比,几个2D和3D数据集的实验显示了重建精度,代表性能力和训练速度的提高。
translated by 谷歌翻译
We present a novel method to provide efficient and highly detailed reconstructions. Inspired by wavelets, our main idea is to learn a neural field that decompose the signal both spatially and frequency-wise. We follow the recent grid-based paradigm for spatial decomposition, but unlike existing work, encourage specific frequencies to be stored in each grid via Fourier features encodings. We then apply a multi-layer perceptron with sine activations, taking these Fourier encoded features in at appropriate layers so that higher-frequency components are accumulated on top of lower-frequency components sequentially, which we sum up to form the final output. We demonstrate that our method outperforms the state of the art regarding model compactness and efficiency on multiple tasks: 2D image fitting, 3D shape reconstruction, and neural radiance fields.
translated by 谷歌翻译
神经隐式功能对于数据表示非常有效。但是,如果输入数据具有许多细节或含有低频和高频带宽,则神经网络学到的隐式功能通常包括意外的噪声或失去细节。在保留细尺度内容的同时,删除工件具有挑战性,通常会出现过度平滑或嘈杂的问题。为了解决这一难题,我们提出了一个新框架(FINN),该框架(FINN)将过滤模块集成到MLP中以执行数据重建,同时适应包含不同频率的区域。过滤模块的平滑操作员作用于网络的中间结果,鼓励结果是平滑的,并且恢复的操作员将高频带到区域过于光滑。两个反活性操作员在所有MLP层中连续播放,以适应重建。我们证明了Finn在几个任务上的优势,并与最新方法相比,展示了显着改善。此外,Finn在收敛速度和网络稳定性方面还能产生更好的性能。
translated by 谷歌翻译
基于坐标的网络成为3D表示和场景重建的强大工具。这些网络训练以将连续输入坐标映射到每个点处的信号的值。尽管如此,当前的架构是黑色盒子:不能轻易分析它们的光谱特性,并且在无监督点处的行为难以预测。此外,这些网络通常接受训练以以单个刻度表示信号,并且如此天真的下采样或上采样导致伪像。我们引入带限量坐标网络(BACON),具有分析傅里叶谱的网络架构。培根在无监督点处具有可预测的行为,可以基于所代表信号的光谱特性设计,并且可以在没有明确的监督的情况下代表多个尺度的信号。我们向培根展示用于使用符号距离功能的图像,辐射字段和3D场景的多尺度神经表示的培根,并表明它在可解释性和质量方面优于传统的单尺度坐标网络。
translated by 谷歌翻译
Multilayer perceptrons (MLPs) learn high frequencies slowly. Recent approaches encode features in spatial bins to improve speed of learning details, but at the cost of larger model size and loss of continuity. Instead, we propose to encode features in bins of Fourier features that are commonly used for positional encoding. We call these Quantized Fourier Features (QFF). As a naturally multiresolution and periodic representation, our experiments show that using QFF can result in smaller model size, faster training, and better quality outputs for several applications, including Neural Image Representations (NIR), Neural Radiance Field (NeRF) and Signed Distance Function (SDF) modeling. QFF are easy to code, fast to compute, and serve as a simple drop-in addition to many neural field representations.
translated by 谷歌翻译
We show that passing input points through a simple Fourier feature mapping enables a multilayer perceptron (MLP) to learn high-frequency functions in lowdimensional problem domains. These results shed light on recent advances in computer vision and graphics that achieve state-of-the-art results by using MLPs to represent complex 3D objects and scenes. Using tools from the neural tangent kernel (NTK) literature, we show that a standard MLP fails to learn high frequencies both in theory and in practice. To overcome this spectral bias, we use a Fourier feature mapping to transform the effective NTK into a stationary kernel with a tunable bandwidth. We suggest an approach for selecting problem-specific Fourier features that greatly improves the performance of MLPs for low-dimensional regression tasks relevant to the computer vision and graphics communities.
translated by 谷歌翻译
隐式神经表示(INR)使用多层的感知来代表低维问题域中的高频函数。最近,这些表示在与复杂的3D对象和场景相关的任务上实现了最先进的结果。核心问题是高度详细信号的表示,其使用具有周期性激活功能(警报器)的网络来解决或将傅立叶映射应用于输入。这项工作分析了两种方法之间的连接,并表明傅里叶映射的Perceptron在结构上像一个隐藏层警报器。此外,我们确定先前提出的傅里叶映射与一般D维傅里叶系列之间的关系,导致整数晶格映射。此外,我们修改了渐进式培训策略,以便在任意傅里叶映射上工作,并表明它提高了插值任务的泛化。最后,我们比较图像回归和新颖观看综合任务的不同映射。我们确认前面发现映射性能的主要贡献者是其元素的嵌入和标准偏差的大小。
translated by 谷歌翻译
我们提出了一个小说嵌入字段\ emph {pref}作为促进神经信号建模和重建任务的紧凑表示。基于纯的多层感知器(MLP)神经技术偏向低频信号,并依赖于深层或傅立叶编码以避免丢失细节。取而代之的是,基于傅立叶嵌入空间的相拟合公式,PREF采用了紧凑且物理上解释的编码场。我们进行全面的实验,以证明PERF比最新的空间嵌入技术的优势。然后,我们使用近似的逆傅里叶变换方案以及新型的parseval正常器来开发高效的频率学习框架。广泛的实验表明,我们的高效和紧凑的基于频率的神经信号处理技术与2D图像完成,3D SDF表面回归和5D辐射场现场重建相同,甚至比最新的。
translated by 谷歌翻译
神经领域已成为一种新的数据表示范式,并在各种信号表示中表现出了显着的成功。由于它们在网络参数中保留信号,因此通过发送和接收整个模型参数来传输数据传输,可以防止在许多实际情况下使用这种新兴技术。我们提出了流媒体神经场,这是一个由各种宽度的可执行子网络组成的单个模型。拟议的建筑和培训技术使一个网络能够随着时间的流逝而流式传输,并重建不同的素质和一部分信号。例如,较小的子网络会产生光滑和低频信号,而较大的子网络可以代表细节。实验结果显示了我们方法在各个域中的有效性,例如2D图像,视频和3D签名的距离函数。最后,我们证明我们提出的方法通过利用参数共享来提高培训稳定性。
translated by 谷歌翻译
神经渲染可用于在没有3D监督的情况下重建形状的隐式表示。然而,当前的神经表面重建方法难以学习形状的高频细节,因此经常过度厚度地呈现重建形状。我们提出了一种新的方法来提高神经渲染中表面重建的质量。我们遵循最近的工作,将表面模型为签名的距离字段。首先,我们提供了一个派生,以分析签名的距离函数,体积密度,透明度函数和体积渲染方程中使用的加权函数之间的关系。其次,我们观察到,试图在单个签名的距离函数中共同编码高频和低频组件会导致不稳定的优化。我们建议在基本函数和位移函数中分解签名的距离函数以及粗到最新的策略,以逐渐增加高频细节。最后,我们建议使用一种自适应策略,使优化能够专注于改善签名距离场具有伪影的表面附近的某些区域。我们的定性和定量结果表明,我们的方法可以重建高频表面细节,并获得比目前的现状更好的表面重建质量。代码将在https://github.com/yiqun-wang/hfs上发布。
translated by 谷歌翻译
我们呈现Fouriermask,它采用傅立叶系列与隐式的神经表示结合起来,以产生实例分段掩模。我们将傅里叶映射(FM)应用于坐标位置,并利用映射特征作为隐式表示的输入(基于坐标的多层Perceptron(MLP))。 FouriMASK学习为特定实例预测FM的系数,因此将FM适应特定对象。这允许Fouriermask广泛化以预测来自自然图像的实例分段掩模。由于隐式功能在输入坐标的域中是连续的,因此我们说明通过对输入像素坐标进行分采样,因此我们可以在推理期间生成更高的分辨率掩码。此外,我们在Fourimask的不确定预测上培训渲染器MLP(Fourrierrend),并说明它显着提高了面具的质量。与在相同输出分辨率的基线掩模R-CNN相比,Fourimask在MS Coco DataSet上显示竞争结果,并在更高分辨率上超越它。
translated by 谷歌翻译
机器学习的最近进步已经创造了利用一类基于坐标的神经网络来解决视觉计算问题的兴趣,该基于坐标的神经网络在空间和时间跨空间和时间的场景或对象的物理属性。我们称之为神经领域的这些方法已经看到在3D形状和图像的合成中成功应用,人体的动画,3D重建和姿势估计。然而,由于在短时间内的快速进展,许多论文存在,但尚未出现全面的审查和制定问题。在本报告中,我们通过提供上下文,数学接地和对神经领域的文学进行广泛综述来解决这一限制。本报告涉及两种维度的研究。在第一部分中,我们通过识别神经字段方法的公共组件,包括不同的表示,架构,前向映射和泛化方法来专注于神经字段的技术。在第二部分中,我们专注于神经领域的应用在视觉计算中的不同问题,超越(例如,机器人,音频)。我们的评论显示了历史上和当前化身的视觉计算中已覆盖的主题的广度,展示了神经字段方法所带来的提高的质量,灵活性和能力。最后,我们展示了一个伴随着贡献本综述的生活版本,可以由社区不断更新。
translated by 谷歌翻译
We present a method that achieves state-of-the-art results for synthesizing novel views of complex scenes by optimizing an underlying continuous volumetric scene function using a sparse set of input views. Our algorithm represents a scene using a fully-connected (nonconvolutional) deep network, whose input is a single continuous 5D coordinate (spatial location (x, y, z) and viewing direction (θ, φ)) and whose output is the volume density and view-dependent emitted radiance at that spatial location. We synthesize views by querying 5D coordinates along camera rays and use classic volume rendering techniques to project the output colors and densities into an image. Because volume rendering is naturally differentiable, the only input required to optimize our representation is a set of images with known camera poses. We describe how to effectively optimize neural radiance fields to render photorealistic novel views of scenes with complicated geometry and appearance, and demonstrate results that outperform prior work on neural rendering and view synthesis. View synthesis results are best viewed as videos, so we urge readers to view our supplementary video for convincing comparisons.
translated by 谷歌翻译
神经场通过将坐标输入映射到采样值来模型信号。从视觉,图形到生物学和天文学的许多领域,它们正成为越来越重要的主链体系结构。在本文中,我们探讨了这些网络中常见的调理机制之间的差异,这是将神经场从信号的记忆转移到概括的基本要素,其中共同建模了位于歧管上的一组信号。特别是,我们对这些机制的缩放行为感兴趣,以对日益高维的调理变量感兴趣。正如我们在实验中显示的那样,高维条件是建模复杂数据分布的关键,因此,确定哪种体系结构在处理此类问题时最能实现哪种选择。为此,我们运行了使用串联,超网络和基于注意力的调理策略对2D,3D和4D信号进行建模的实验,这是文献中尚未进行的必要但费力的努力。我们发现,基于注意力的条件在各种环境中的其他方法都优于其他方法。
translated by 谷歌翻译
我们介绍MR-NET,这是一种用于多分辨率神经网络的一般体系结构,也是基于此体系结构进行成像应用的框架。我们的基于坐标的网络在空间和规模上都是连续的,因为它们由多个阶段组成,这些阶段逐渐增加了更细节。除此之外,它们是一个紧凑而有效的表示。我们展示了多分辨率图像表示以及用于纹理放大和缩小以及抗脉化的应用。
translated by 谷歌翻译
Implicitly defined, continuous, differentiable signal representations parameterized by neural networks have emerged as a powerful paradigm, offering many possible benefits over conventional representations. However, current network architectures for such implicit neural representations are incapable of modeling signals with fine detail, and fail to represent a signal's spatial and temporal derivatives, despite the fact that these are essential to many physical signals defined implicitly as the solution to partial differential equations. We propose to leverage periodic activation functions for implicit neural representations and demonstrate that these networks, dubbed sinusoidal representation networks or SIRENs, are ideally suited for representing complex natural signals and their derivatives. We analyze SIREN activation statistics to propose a principled initialization scheme and demonstrate the representation of images, wavefields, video, sound, and their derivatives. Further, we show how SIRENs can be leveraged to solve challenging boundary value problems, such as particular Eikonal equations (yielding signed distance functions), the Poisson equation, and the Helmholtz and wave equations. Lastly, we combine SIRENs with hypernetworks to learn priors over the space of SIREN functions. Please see the project website for a video overview of the proposed method and all applications.
translated by 谷歌翻译
高光谱图像(HSI)没有额外辅助图像的超分辨率仍然是由于其高维光谱图案的恒定挑战,其中学习有效的空间和光谱表示是基本问题。最近,隐式的神经表示(INR)正在进行进步,作为新颖且有效的代表,特别是在重建任务中。因此,在这项工作中,我们提出了一种基于INR的新颖的HSI重建模型,其通过将空间坐标映射到其对应的光谱辐射值值的连续函数来表示HSI。特别地,作为INR的特定实现,参数模型的参数是通过使用卷积网络在特征提取的超通知来预测的。它使连续功能以内容感知方式将空间坐标映射到像素值。此外,周期性空间编码与重建过程深度集成,这使得我们的模型能够恢复更高的频率细节。为了验证我们模型的功效,我们在三个HSI数据集(洞穴,NUS和NTIRE2018)上进行实验。实验结果表明,与最先进的方法相比,该建议的模型可以实现竞争重建性能。此外,我们提供了对我们模型各个组件的效果的消融研究。我们希望本文可以服务器作为未来研究的效率参考。
translated by 谷歌翻译
我们引入了一种新的神经信号模型,设计用于有效的大型信号的高分辨率表示。我们的多尺度隐式神经表示(矿工)中的关键创新是通过拉普拉斯金字塔的内部表示,它提供了信号的稀疏多尺度分解,可捕获跨尺度的信号的正交部分。我们通过用小型MLP在每个尺度上代表金字塔的小差异斑块来利用拉普拉斯金字塔的优势。这使网络能够适应从粗尺度到细尺度的能力增加,仅代表具有强信号能量的信号的一部分。每个MLP的参数是从粗到细节优化的,从而在更粗糙的尺度下更快地近似,从而最终是一个非常快速的训练过程。我们将矿工应用于一系列大规模信号表示任务,包括吉吉像素图像和非常大的点云,并证明它需要少于参数的25%,33%的内存足迹和10%的计算时间和10%竞争技术(例如橡子)达到相同的表示准确性。
translated by 谷歌翻译
最近隐含的神经表示(INRS)作为各种数据类型的新颖且有效的表现。到目前为止,事先工作主要集中在优化其重建性能。这项工作从新颖的角度来调查INRS,即作为图像压缩的工具。为此,我们提出了基于INR的第一综合压缩管线,包括量化,量化感知再培训和熵编码。使用INRS进行编码,即对数据示例的过度装备,通常是较慢的秩序。为缓解此缺点,我们基于MAML利用META学习初始化,以便在较少的渐变更新中达到编码,这也通常提高INR的速率失真性能。我们发现,我们对INR的源压缩方法非常优于类似的事先工作,具有专门针对图像专门设计的常见压缩算法,并将基于速率 - 失真自动分析器的差距缩小到最先进的学习方法。此外,我们提供了对我们希望促进这种新颖方法对图像压缩的未来研究的重要性的广泛消融研究。
translated by 谷歌翻译
通过新的设计推动,允许规避光谱偏差,隐式神经表示(INRS)最近被出现为具有古典离散化表示的有希望的替代方案。尽管如此,尽管他们的实际成功,我们仍然缺乏inrs代表信号的正确理论表征。在这项工作中,我们的目标是填补这一差距,我们提出了一种在理论上分析inrs的新颖统一视角。利用谐波分析和深度学习理论的结果,我们表明大多数INR系列类似于结构化信号词典,其原子是初始映射频率集的整数谐波。该结构允许INR使用只有许多只能与深度线性增长的参数表达频率支持的信号。之后,我们探讨了初步结果关于经验神经切线内核(NTK)的近期结果的归纳偏见。具体地,我们表明NTK的特征功能可以被视为其内部产品与目标信号的内部产品确定其重建的最终性能。在这方面,我们揭示了Meta学习初始化具有类似于字典学习的NTK的重塑效果,构建字典原子作为在Meta训练期间看到的例子的组合。我们的业绩允许设计和调整小说INR架构,但对更广泛的深度学习理论界也可能感兴趣。
translated by 谷歌翻译