与2D栅格图像不同,没有用于3D视觉数据处理的单个主导表示。点云,网格或隐式功能等不同格式都具有其优点和劣势。尽管如此,诸如签名距离函数之类的网格表示在3D中也具有吸引人的属性。特别是,它们提供恒定的随机访问,并且非常适合现代机器学习。不幸的是,网格的存储大小随其尺寸而呈指数增长。因此,即使在中等分辨率下,它们也经常超过内存限制。这项工作探讨了各种低量张量格式,包括Tucker,Tensor Train和Wartenics Tensor tensor tensor tensor tensor分解,以压缩时间变化的3D数据。我们的方法迭代地计算,体素化和压缩每个帧的截断符号距离函数,并将张量式截断施加到代表整个4D场景的单个压缩张量中,将所有框架凝结到一个单个压缩张量中。我们表明,低级张量压缩对于存储和查询时间变化的签名距离功能非常紧凑。它大大降低了4D场景的内存足迹,同时令人惊讶地保留了它们的几何质量。与现有的基于迭代学习的方法(如DEEPSDF和NERF)不同,我们的方法使用具有理论保证的封闭式算法。
translated by 谷歌翻译
A simple nonrecursive form of the tensor decomposition in d dimensions is presented. It does not inherently suffer from the curse of dimensionality, it has asymptotically the same number of parameters as the canonical decomposition, but it is stable and its computation is based on lowrank approximation of auxiliary unfolding matrices. The new form gives a clear and convenient way to implement all basic operations efficiently. A fast rounding procedure is presented, as well as basic linear algebra operations. Examples showing the benefits of the decomposition are given, and the efficiency is demonstrated by the computation of the smallest eigenvalue of a 19-dimensional operator.
translated by 谷歌翻译
我们提出了Tntorch,这是一个张量学习框架,该框架支持统一界面下的多个分解(包括CandeComp/Parafac,Tucker和Tensor Train)。借助我们的库,用户可以通过自动差异,无缝的GPU支持以及Pytorch的API的便利性学习和处理低排名的张量。除分解算法外,TNTORCH还实施可区分的张量代数,等级截断,交叉透视,批处理处理,全面的张量算术等。
translated by 谷歌翻译
我们提出了一个端到端的可训练框架,通过仅通过查看其条目的一小部分来处理大规模的视觉数据张量。我们的方法将神经网络编码器与张振火车分解组合以学习低级潜在编码,耦合与交叉近似(CA)耦合,以通过原始样本的子集学习表示。 CA是一种自适应采样算法,它是原产的张量分解,并避免明确地使用全高分辨率数据。相反,它主动选择我们获取核心和按需获取的本地代表性样本。所需数量的样本仅使用输入的大小对数进行对数。我们网络中的张量的隐式表示,可以处理在其未压缩形式中不能以其他方式丢失的大网格。所提出的方法对于大规模的多维网格数据(例如,3D断层扫描)以及需要在大型接收领域(例如,预测整个器官的医学条件)的任务,特别适用于需要上下文的任务。代码可在https://github.com/aelphy/c-pic中获得。
translated by 谷歌翻译
我们介绍了NeuralVDB,它通过利用机器学习的最新进步来提高现有的行业标准,以有效地存储稀疏体积数据,表示VDB。我们的新型混合数据结构可以通过数量级来减少VDB体积的内存足迹,同时保持其灵活性,并且只会产生一个小(用户控制的)压缩误差。具体而言,NeuralVDB用多个层次神经网络替换了浅和宽VDB树结构的下节点,这些神经网络分别通过神经分类器和回归器分别编码拓扑和价值信息。这种方法已证明可以最大化压缩比,同时保持高级VDB数据结构提供的空间适应性。对于稀疏的签名距离字段和密度量,我们已经观察到从已经压缩的VDB输入中的$ 10 \ times $ $ $ \ $ 100 \ $ 100 \ $ 100 \ $ 100 \ $ 100的压缩比,几乎没有可视化伪像。我们还展示了其在动画稀疏体积上的应用如何加速训练并产生时间连贯的神经网络。
translated by 谷歌翻译
标量和矢量场的神经近似(例如签名距离函数和辐射场)已成为准确的高质量表示。最先进的结果是通过从可训练的特征网格中进行查找的调节来获得的,这些近似是按照学习任务的一部分,并允许较小,更有效的神经网络。不幸的是,与独立的神经网络模型相比,这些特征网格通常以明显增加的记忆消耗成本。我们提出了一种词典方法,用于压缩此类特征网格,将其内存消耗降低至100倍,并允许多分辨率表示,这对于核心外流很有用。我们将词典优化作为矢量定量的自动码头问题提出,使我们能够在没有直接监督以及具有动态拓扑和结构的空间中学习端到端离散的神经表示。我们的源代码将在https://github.com/nv-tlabs/vqad上找到。
translated by 谷歌翻译
低秩张量压缩已被提议作为一个有前途的方法,以减少他们的边缘设备部署神经网络的存储和计算需求。张量压缩减少的通过假设网络的权重来表示神经网络权重所需的参数的数目具有一个粗糙的高级结构。此粗结构假设已经被应用到压缩大神经网络如VGG和RESNET。计算机视觉任务然而现代国家的最先进的神经网络(即MobileNet,EfficientNet)已经通过在深度方向上可分离卷积假定粗因式分解结构,使得纯张量分解较少有吸引力的方法。我们建议低张量分解稀疏修剪,以充分利用粗粒和细粒结构的压缩相结合。我们在压缩SOTA架构的权重(MobileNetv3,EfficientNet,视觉变压器),并比较这种方法来疏剪枝,独自张量分解。
translated by 谷歌翻译
我们呈现梯度-SDF,这是三维几何形象的新颖表示,这些表达结合了暗示和显式表示的优势。通过在符号距离字段以及其梯度向量字段中存储每个体素以及其梯度矢量字段,我们通过最初配制的显式表面的方法增强隐式表示的能力。作为具体示例,我们示出了(1)梯度-SDF允许我们使用像哈希映射等有效存储方案的深度图像执行直接SDF跟踪,并且(2)梯度-SDF表示使我们能够执行光度束调节直接在Voxel表示中(不转换为点云或网格),自然地是几何和相机的完全隐含的优化,易于几何上采样。实验结果证实,这导致重建明显更敏锐。由于仍然遵守整体SDF体素结构,所提出的梯度-SDF同样适用于(GPU)并行化作为相关方法。
translated by 谷歌翻译
Neural signed distance functions (SDFs) are emerging as an effective representation for 3D shapes. State-of-theart methods typically encode the SDF with a large, fixedsize neural network to approximate complex shapes with implicit surfaces. Rendering with these large networks is, however, computationally expensive since it requires many forward passes through the network for every pixel, making these representations impractical for real-time graphics. We introduce an efficient neural representation that, for the first time, enables real-time rendering of high-fidelity neural SDFs, while achieving state-of-the-art geometry reconstruction quality. We represent implicit surfaces using an octree-based feature volume which adaptively fits shapes with multiple discrete levels of detail (LODs), and enables continuous LOD with SDF interpolation. We further develop an efficient algorithm to directly render our novel neural SDF representation in real-time by querying only the necessary LODs with sparse octree traversal. We show that our representation is 2-3 orders of magnitude more efficient in terms of rendering speed compared to previous works. Furthermore, it produces state-of-the-art reconstruction quality for complex shapes under both 3D geometric and 2D image-space metrics.
translated by 谷歌翻译
最近,我们看到了照片真实的人类建模和渲染的神经进展取得的巨大进展。但是,将它们集成到现有的下游应用程序中的现有网络管道中仍然具有挑战性。在本文中,我们提出了一种全面的神经方法,用于从密集的多视频视频中对人类表演进行高质量重建,压缩和渲染。我们的核心直觉是用一系列高效的神经技术桥接传统的动画网格工作流程。我们首先引入一个神经表面重建器,以在几分钟内进行高质量的表面产生。它与多分辨率哈希编码的截短签名距离场(TSDF)的隐式体积渲染相结合。我们进一步提出了一个混合神经跟踪器来生成动画网格,该网格将明确的非刚性跟踪与自我监督框架中的隐式动态变形结合在一起。前者将粗糙的翘曲返回到规范空间中,而后者隐含的一个隐含物进一步预测了使用4D哈希编码的位移,如我们的重建器中。然后,我们使用获得的动画网格讨论渲染方案,从动态纹理到各种带宽设置下的Lumigraph渲染。为了在质量和带宽之间取得复杂的平衡,我们通过首先渲染6个虚拟视图来涵盖表演者,然后进行闭塞感知的神经纹理融合,提出一个分层解决方案。我们证明了我们方法在各种平台上的各种基于网格的应用程序和照片真实的自由观看体验中的功效,即,通过移动AR插入虚拟人类的表演,或通过移动AR插入真实环境,或带有VR头戴式的人才表演。
translated by 谷歌翻译
场景完成是从场景的部分扫描中完成缺失几何形状的任务。大多数以前的方法使用3D网格上的截断签名距离函数(T-SDF)计算出隐式表示,作为神经网络的输入。截断限制,但不会删除由非关闭表面符号引入的模棱两可的案例。作为替代方案,我们提出了一个未签名的距离函数(UDF),称为未签名的加权欧几里得距离(UWED)作为场景完成神经网络的输入表示。 UWED作为几何表示是简单而有效的,并且可以在任何点云上计算,而与通常的签名距离函数(SDF)相比,UWED不需要正常的计算。为了获得明确的几何形状,我们提出了一种从常规网格上离散的UDF值提取点云的方法。我们比较了从RGB-D和LIDAR传感器收集的室内和室外点云上的场景完成任务的不同SDF和UDFS,并使用建议的UWED功能显示了改进的完成。
translated by 谷歌翻译
在本文中,我们提出了一种基于量化的蒸馏式低级神经辐射场(QDLR-NERF)表示的新型光场压缩方法。当现有的压缩方法编码光场子孔径图像集时,我们提出的方法以神经辐射场(NERF)的形式学习了隐式场景表示,这也可以使视图合成。为了降低其大小,该模型首先是在低级(LR)约束下使用张量列(TT)分解以交替的乘数(ADMM)优化框架进行的。为了进一步降低模型尺寸,需要量化张量列车分解的组件。但是,通过同时考虑低等级约束并考虑到速率受限的权重量化来实现NERF模型的优化是具有挑战性的。为了解决这个困难,我们引入了一个网络蒸馏操作,该操作将低级近似值和网络训练中的权重量化分开。根据LR-NERF的TT分解,将初始LR约束NERF(LR-NERF)的信息提炼为较小尺寸(DLR-NERF)的模型。然后,学会了优化的全局代码簿来量化所有TT组件,从而产生最终的QDLRNERF。实验结果表明,与最先进的方法相比,我们所提出的方法具有更好的压缩效率,并且还具有允许允许具有高质量的任何光场视图的合成。
translated by 谷歌翻译
最先进的深神经网络(DNN)已广泛应用于各种现实世界应用,并实现了认知问题的显着性能。然而,架构中的DNNS宽度和深度的增量导致大量参数,以质询存储和内存成本,限制了DNN在资源受限平台上的使用,例如便携式设备。通过将冗余模型转换为紧凑的模型,压缩技术似乎是降低存储和存储器消耗的实用解决方案。在本文中,我们开发了一种非线性张量环网(NTRN),其中通过张量环分解压缩全连接和卷积层。此外,为了减轻压缩引起的精度损失,将非线性激活功能嵌入到压缩层内的张量收缩和卷积操作中。实验结果表明,使用两个基本神经网络,LENET-5和VGG-11在三个数据集,VIZ上使用两个基本的神经网络,LENET-5和VGG-11进行图像分类的有效性和优越性。 mnist,时尚mnist和cifar-10。
translated by 谷歌翻译
我们提出了一种从一个或几种视图中重建人头的纹理3D网眼的方法。由于如此少的重建​​缺乏约束,因此需要先验知识,这很难强加于传统的3D重建算法。在这项工作中,我们依靠最近引入的3D表示$ \ unicode {x2013} $ neural隐式函数$ \ unicode {x2013} $,它基于神经网络,允许自然地从数据中学习有关人类头的先验,并且直接转换为纹理网格。也就是说,我们扩展了Neus(一种最新的神经隐式函数公式),以同时代表类的多个对象(在我们的情况下)。潜在的神经网架构旨在学习这些物体之间的共同点,并概括地看不见。我们的模型仅在一百个智能手机视频上进行培训,不需要任何扫描的3D数据。之后,该模型可以以良好的效果以几种镜头或一次性模式适合新颖的头。
translated by 谷歌翻译
我们提出了GO-SURF,这是一种直接特征网格优化方法,可从RGB-D序列进行准确和快速的表面重建。我们用学习的分层特征素网格对基础场景进行建模,该网络封装了多级几何和外观本地信息。特征向量被直接优化,使得三线性插值后,由两个浅MLP解码为签名的距离和辐射度值,并通过表面体积渲染渲染,合成和观察到的RGB/DEPTH值之间的差异最小化。我们的监督信号-RGB,深度和近似SDF可以直接从输入图像中获得,而无需融合或后处理。我们制定了一种新型的SDF梯度正则化项,该项鼓励表面平滑度和孔填充,同时保持高频细节。 GO-SURF可以优化$ 1 $ - $ 2 $ K框架的序列,价格为$ 15 $ - $ 45 $分钟,$ \ times60 $的速度超过了NeuralRGB-D,这是基于MLP表示的最相关的方法,同时保持PAR性能在PAR上的性能标准基准。项目页面:https://jingwenwang95.github.io/go_surf/
translated by 谷歌翻译
We present TensoRF, a novel approach to model and reconstruct radiance fields. Unlike NeRF that purely uses MLPs, we model the radiance field of a scene as a 4D tensor, which represents a 3D voxel grid with per-voxel multi-channel features. Our central idea is to factorize the 4D scene tensor into multiple compact low-rank tensor components. We demonstrate that applying traditional CP decomposition -- that factorizes tensors into rank-one components with compact vectors -- in our framework leads to improvements over vanilla NeRF. To further boost performance, we introduce a novel vector-matrix (VM) decomposition that relaxes the low-rank constraints for two modes of a tensor and factorizes tensors into compact vector and matrix factors. Beyond superior rendering quality, our models with CP and VM decompositions lead to a significantly lower memory footprint in comparison to previous and concurrent works that directly optimize per-voxel features. Experimentally, we demonstrate that TensoRF with CP decomposition achieves fast reconstruction (<30 min) with better rendering quality and even a smaller model size (<4 MB) compared to NeRF. Moreover, TensoRF with VM decomposition further boosts rendering quality and outperforms previous state-of-the-art methods, while reducing the reconstruction time (<10 min) and retaining a compact model size (<75 MB).
translated by 谷歌翻译
获取房间规模场景的高质量3D重建对于即将到来的AR或VR应用是至关重要的。这些范围从混合现实应用程序进行电话会议,虚拟测量,虚拟房间刨,到机器人应用。虽然使用神经辐射场(NERF)的基于卷的视图合成方法显示有希望再现对象或场景的外观,但它们不会重建实际表面。基于密度的表面的体积表示在使用行进立方体提取表面时导致伪影,因为在优化期间,密度沿着射线累积,并且不在单个样本点处于隔离点。我们建议使用隐式函数(截短的签名距离函数)来代表表面来代表表面。我们展示了如何在NERF框架中纳入此表示,并将其扩展为使用来自商品RGB-D传感器的深度测量,例如Kinect。此外,我们提出了一种姿势和相机细化技术,可提高整体重建质量。相反,与集成NERF的深度前瞻性的并发工作,其专注于新型视图合成,我们的方法能够重建高质量的韵律3D重建。
translated by 谷歌翻译
机器学习的最近进步已经创造了利用一类基于坐标的神经网络来解决视觉计算问题的兴趣,该基于坐标的神经网络在空间和时间跨空间和时间的场景或对象的物理属性。我们称之为神经领域的这些方法已经看到在3D形状和图像的合成中成功应用,人体的动画,3D重建和姿势估计。然而,由于在短时间内的快速进展,许多论文存在,但尚未出现全面的审查和制定问题。在本报告中,我们通过提供上下文,数学接地和对神经领域的文学进行广泛综述来解决这一限制。本报告涉及两种维度的研究。在第一部分中,我们通过识别神经字段方法的公共组件,包括不同的表示,架构,前向映射和泛化方法来专注于神经字段的技术。在第二部分中,我们专注于神经领域的应用在视觉计算中的不同问题,超越(例如,机器人,音频)。我们的评论显示了历史上和当前化身的视觉计算中已覆盖的主题的广度,展示了神经字段方法所带来的提高的质量,灵活性和能力。最后,我们展示了一个伴随着贡献本综述的生活版本,可以由社区不断更新。
translated by 谷歌翻译
许多数值优化技术的收敛性对提供给求解器的初始猜测高度敏感。我们提出了一种基于张量方法的方法,以初始化靠近全局Optima的现有优化求解器。该方法仅使用成本函数的定义,不需要访问任何良好解决方案的数据库。我们首先将成本函数(这是任务参数和优化变量的函数)转换为概率密度函数。与将任务参数设置为常数的现有方法不同,我们将它们视为另一组随机变量,并使用替代概率模型近似任务参数的关节概率分布和优化变量。对于给定的任务,我们就给定的任务参数从条件分布中生成样本,并将其用作优化求解器的初始化。由于调节和来自任意密度函数的调节和采样具有挑战性,因此我们使用张量列车分解来获得替代概率模型,我们可以从中有效地获得条件模型和样品。该方法可以为给定任务产生来自不同模式的多个解决方案。我们首先通过将其应用于各种具有挑战性的基准函数来评估该方法以进行数值优化,这些功能很难使用基于梯度的优化求解器以幼稚的初始化来求解,这表明所提出的方法可以生成靠近全局优化的样品,并且来自多种模式。 。然后,我们通过将所提出的方法应用于7-DOF操纵器来证明框架的通用性及其与机器人技术的相关性。
translated by 谷歌翻译