从3D扫描获得的点云通常稀疏,嘈杂,不规则。为应对这些问题,最近的研究已经单独进行,以致密化,去噪和完全不准确的点云。在本文中,我们倡导联合解决这些任务导致点云重建的显着改进。为此,我们提出了一个由两个阶段组成的深点云重建网络:1)3D稀疏的堆积空间,如初始致密化和去噪,2)通过变压器将离散体素转换为3D点的改进。特别是,我们通过一种名为放大位置编码的新提出的模块进一步提高了变压器的性能。该模块旨在基于用于自适应改进的点距离来不同地放大位置编码矢量的大小。广泛的实验表明,我们的网络在Scannet,ICL-Nuim和Shapenetpart数据集最近的研究中实现了最先进的性能。此外,我们强调了我们网络拓展到现实世界和未满足的场景的能力。
translated by 谷歌翻译
MLP-MIXER新出现为反对CNNS和变压器领域的新挑战者。尽管与变压器相比,尽管其相比,频道混合MLP和令牌混合MLP的概念可以在视觉识别任务中实现明显的性能。与图像不同,点云本身稀疏,无序和不规则,这限制了MLP-MILER用于点云理解的直接使用。在本文中,我们提出了一种通用点集运算符,其促进非结构化3D点之间的信息共享。通过简单地用SoftMax函数替换令牌混合的MLP,PointMixer可以在点集之间“混合”功能。通过这样做,可以在网络中广泛地使用PointMixer作为设定间混合,内部混合和金字塔混合。广泛的实验表明了对基于变压器的方法的语义分割,分类和点重建中的引光器竞争或卓越的性能。
translated by 谷歌翻译
Point cloud completion is a generation and estimation issue derived from the partial point clouds, which plays a vital role in the applications in 3D computer vision. The progress of deep learning (DL) has impressively improved the capability and robustness of point cloud completion. However, the quality of completed point clouds is still needed to be further enhanced to meet the practical utilization. Therefore, this work aims to conduct a comprehensive survey on various methods, including point-based, convolution-based, graph-based, and generative model-based approaches, etc. And this survey summarizes the comparisons among these methods to provoke further research insights. Besides, this review sums up the commonly used datasets and illustrates the applications of point cloud completion. Eventually, we also discussed possible research trends in this promptly expanding field.
translated by 谷歌翻译
最近的进展表明,可以通过像欧妮线方程等物理限制来实现半监督隐式表示学习。然而,由于其空间不同的稀疏性,该方案尚未成功地用于LiDAR点云数据。在本文中,我们开发了一种新颖的制定,条件在局部形状嵌入上的半监督隐式功能。它利用稀疏卷积网络的强大表示力,以产生形状感知密集特征卷,同时仍允许半监控符号函数学习,而不知道自由空间的确切值。具有广泛的定量和定性结果,我们证明了这种新的学习系统的内在属性及其在现实世界道路场景中的用途。值得注意的是,我们在Semantickitti将iou从26.3%到51.0%。此外,我们探索了两个范式来集成语义标签预测,实现隐式语义完成。可以在https://github.com/open-air-sun/sisc访问代码和模型。
translated by 谷歌翻译
Photo-realistic free-viewpoint rendering of real-world scenes using classical computer graphics techniques is challenging, because it requires the difficult step of capturing detailed appearance and geometry models. Recent studies have demonstrated promising results by learning scene representations that implicitly encode both geometry and appearance without 3D supervision. However, existing approaches in practice often show blurry renderings caused by the limited network capacity or the difficulty in finding accurate intersections of camera rays with the scene geometry. Synthesizing high-resolution imagery from these representations often requires time-consuming optical ray marching. In this work, we introduce Neural Sparse Voxel Fields (NSVF), a new neural scene representation for fast and high-quality free-viewpoint rendering. NSVF defines a set of voxel-bounded implicit fields organized in a sparse voxel octree to model local properties in each cell. We progressively learn the underlying voxel structures with a diffentiable ray-marching operation from only a set of posed RGB images. With the sparse voxel octree structure, rendering novel views can be accelerated by skipping the voxels containing no relevant scene content. Our method is typically over 10 times faster than the state-of-the-art (namely, NeRF (Mildenhall et al., 2020)) at inference time while achieving higher quality results. Furthermore, by utilizing an explicit sparse voxel representation, our method can easily be applied to scene editing and scene composition. We also demonstrate several challenging tasks, including multi-scene learning, free-viewpoint rendering of a moving human, and large-scale scene rendering. Code and data are available at our website: https://github.com/facebookresearch/NSVF.
translated by 谷歌翻译
点云上采样是为了使从3D传感器获得的稀疏点集致密,从而为基础表面提供了密度的表示。现有方法将输入点划分为小贴片,并分别对每个贴片进行整理,但是,忽略了补丁之间的全局空间一致性。在本文中,我们提出了一种新颖的方法PC $^2 $ -PU,该方法探讨了贴片对点和点对点相关性,以实现更有效和强大的点云上采样。具体而言,我们的网络有两个吸引人的设计:(i)我们将相邻的补丁作为补充输入来补偿单个补丁中的损失结构信息,并引入一个补丁相关模块以捕获补丁之间的差异和相似性。 (ii)在增强每个贴片的几何形状后,我们进一步引入了一个点相关模块,以揭示每个贴片内部的关系以维持局部空间一致性。对合成和真实扫描数据集进行的广泛实验表明,我们的方法超过了以前的上采样方法,尤其是在嘈杂的输入中。代码和数据位于\ url {https://github.com/chenlongwhu/pc2-pu.git}。
translated by 谷歌翻译
您将如何通过一些错过来修复物理物体?您可能会想象它的原始形状从先前捕获的图像中,首先恢复其整体(全局)但粗大的形状,然后完善其本地细节。我们有动力模仿物理维修程序以解决点云完成。为此,我们提出了一个跨模式的形状转移双转化网络(称为CSDN),这是一种带有全循环参与图像的粗到精细范式,以完成优质的点云完成。 CSDN主要由“ Shape Fusion”和“ Dual-Refinect”模块组成,以应对跨模式挑战。第一个模块将固有的形状特性从单个图像传输,以指导点云缺失区域的几何形状生成,在其中,我们建议iPadain嵌入图像的全局特征和部分点云的完成。第二个模块通过调整生成点的位置来完善粗糙输出,其中本地改进单元通过图卷积利用了小说和输入点之间的几何关系,而全局约束单元则利用输入图像来微调生成的偏移。与大多数现有方法不同,CSDN不仅探讨了图像中的互补信息,而且还可以在整个粗到精细的完成过程中有效利用跨模式数据。实验结果表明,CSDN对十个跨模式基准的竞争对手表现出色。
translated by 谷歌翻译
我们呈现圆圈,基于本地隐式符号距离函数的大规模场景完成和几何精致的框架。它基于端到端的稀疏卷积网络,Circnet,共同模拟局部几何细节和全局场景结构背景,使其能够在传统3D场景数据中恢复通常产生的缺失区域的同时保留细粒度的对象细节。一种新颖的可分解渲染模块,可以进行测试时间精制以获得更好的重建质量。对现实世界和合成数据集的广泛实验表明,我们的简明框架是高效且有效的,实现比最接近竞争对手更好的重建质量,同时速度更快。
translated by 谷歌翻译
Volumetric neural rendering methods like NeRF generate high-quality view synthesis results but are optimized per-scene leading to prohibitive reconstruction time. On the other hand, deep multi-view stereo methods can quickly reconstruct scene geometry via direct network inference. Point-NeRF combines the advantages of these two approaches by using neural 3D point clouds, with associated neural features, to model a radiance field. Point-NeRF can be rendered efficiently by aggregating neural point features near scene surfaces, in a ray marching-based rendering pipeline. Moreover, Point-NeRF can be initialized via direct inference of a pre-trained deep network to produce a neural point cloud; this point cloud can be finetuned to surpass the visual quality of NeRF with 30X faster training time. Point-NeRF can be combined with other 3D reconstruction methods and handles the errors and outliers in such methods via a novel pruning and growing mechanism. The experiments on the DTU, the NeRF Synthetics , the ScanNet and the Tanks and Temples datasets demonstrate Point-NeRF can surpass the existing methods and achieve the state-of-the-art results.
translated by 谷歌翻译
从\ emph {nocedended}点云中重建3D几何形状可以使许多下游任务受益。最近的方法主要采用神经网络的神经形状表示,以代表签名的距离字段,并通过无签名的监督适应点云。但是,我们观察到,使用未签名的监督可能会导致严重的歧义,并且通常会导致\ emph {意外}故障,例如在重建复杂的结构并与重建准确的表面斗争时,在自由空间中产生不希望的表面。为了重建一个更好的距离距离场,我们提出了半签名的神经拟合(SSN拟合),该神经拟合(SSN拟合)由半签名的监督和基于损失的区域采样策略组成。我们的关键见解是,签名的监督更具信息性,显然可以轻松确定对象之外的区域。同时,提出了一种新颖的重要性抽样,以加速优化并更好地重建细节。具体而言,我们将对象空间弹并分配到\ emph {sign-newand}和\ emph {sign-unawern}区域,其中应用了不同的监督。此外,我们根据跟踪的重建损失自适应地调整每个体素的采样率,以便网络可以更多地关注复杂的拟合不足区域。我们进行了广泛的实验,以证明SSN拟合在多个数据集的不同设置下实现最新性能,包括清洁,密度变化和嘈杂的数据。
translated by 谷歌翻译
最近神经网络的成功使得能够更好地解释3D点云,但是处理大规模的3D场景仍然是一个具有挑战性的问题。大多数电流方法将大型场景划分为小区,并将当地预测组合在一起。然而,该方案不可避免地涉及预处理和后处理的附加阶段,并且由于局部视角下的预测也可能降低最终输出。本文介绍了由新的轻质自我关注层组成的快速点变压器。我们的方法编码连续的3D坐标,基于体素散列的架构提高了计算效率。所提出的方法用3D语义分割和3D检测进行了说明。我们的方法的准确性对基于最佳的体素的方法具有竞争力,我们的网络达到了比最先进的点变压器更快的推理时间速度更快的136倍,具有合理的准确性权衡。
translated by 谷歌翻译
变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性,变压器已被用作广泛使用的卷积运算符的替代品。事实证明,这种替代者在许多任务中都取得了成功,其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中,3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上,但由于与2D视觉相比,由于数据表示和处理的差异,3D视觉需要特别注意。在这项工作中,我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查,包括分类,细分,检测,完成,姿势估计等。我们在3D Vision中讨论了变形金刚的设计,该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序,我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力,我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外,我们的目标是频繁更新最新的相关论文及其相应的实现:https://github.com/lahoud/3d-vision-transformers。
translated by 谷歌翻译
在3D点云的一代任务中,点云完成越来越流行,因为从其部分观察结果中恢复了3D对象的完整形状是一个具有挑战性但必不可少的问题。在本文中,我们提出了一种新型的种子形式,以提高点云完成中细节保存和恢复的能力。与以前的基于全局特征向量的方法不同,我们引入了一种新的形状表示形式,即补丁种子,不仅可以从部分输入中捕获一般结构,而且还保留了本地模式的区域信息。然后,通过将种子特征集成到生成过程中,我们可以以粗到精细的方式恢复忠实的细节,以获取完整的点云。此外,我们通过将变压器结构扩展到点发生器的基本操作来设计上样本变压器,该结构有效地结合了相邻点之间的空间和语义关系。定性和定量评估表明,我们的方法在多个基准数据集上优于最先进的完成网络。我们的代码可从https://github.com/hrzhou2/seedformer获得。
translated by 谷歌翻译
在本文中,我们从功能学习的角度解决了点云完成的具有挑战性的问题。我们的主要观察结果是,要恢复基础结构以及表面细节,给定部分输入,基本组件是一个很好的特征表示,可以同时捕获全球结构和局部几何细节。因此,我们首先提出了FSNET,这是一个功能结构模块,可以通过从本地区域学习多个潜在图案来适应汇总点的点功能。然后,我们将FSNET集成到粗线管道中,以完成点云完成。具体而言,采用2D卷积神经网络将特征图从FSNET解码为粗且完整的点云。接下来,使用一个点云UP抽样网络来从部分输入和粗糙的中间输出中生成密集的点云。为了有效利用局部结构并增强点分布均匀性,我们提出了IFNET,该点具有自校正机制的点提升模块,该模块可以逐步完善生成的密集点云的细节。我们已经在Shapenet,MVP和Kitti数据集上进行了定性和定量实验,这些实验表明我们的方法优于最先进的点云完成方法。
translated by 谷歌翻译
场景完成是从场景的部分扫描中完成缺失几何形状的任务。大多数以前的方法使用3D网格上的截断签名距离函数(T-SDF)计算出隐式表示,作为神经网络的输入。截断限制,但不会删除由非关闭表面符号引入的模棱两可的案例。作为替代方案,我们提出了一个未签名的距离函数(UDF),称为未签名的加权欧几里得距离(UWED)作为场景完成神经网络的输入表示。 UWED作为几何表示是简单而有效的,并且可以在任何点云上计算,而与通常的签名距离函数(SDF)相比,UWED不需要正常的计算。为了获得明确的几何形状,我们提出了一种从常规网格上离散的UDF值提取点云的方法。我们比较了从RGB-D和LIDAR传感器收集的室内和室外点云上的场景完成任务的不同SDF和UDFS,并使用建议的UWED功能显示了改进的完成。
translated by 谷歌翻译
变压器一直是自然语言处理(NLP)和计算机视觉(CV)革命的核心。 NLP和CV的显着成功启发了探索变压器在点云处理中的使用。但是,变压器如何应对点云的不规则性和无序性质?变压器对于不同的3D表示(例如,基于点或体素)的合适性如何?各种3D处理任务的变压器有多大的能力?截至目前,仍然没有对这些问题的研究进行系统的调查。我们第一次为3D点云分析提供了越来越受欢迎的变压器的全面概述。我们首先介绍变压器体系结构的理论,并在2D/3D字段中审查其应用程序。然后,我们提出三种不同的分类法(即实现 - 数据表示和基于任务),它们可以从多个角度对当前的基于变压器的方法进行分类。此外,我们介绍了研究3D中自我注意机制的变异和改进的结果。为了证明变压器在点云分析中的优势,我们提供了基于各种变压器的分类,分割和对象检测方法的全面比较。最后,我们建议三个潜在的研究方向,为3D变压器的开发提供福利参考。
translated by 谷歌翻译
3D点云是捕获真实世界3D对象的重要3D表示。但是,真正扫描的3D点云通常不完整,并且对于恢复下游应用程序的完整点云非常重要。大多数现有点云完成方法使用倒角距离(CD)训练丢失。通过搜索最近的邻居,CD损耗估计两个点云之间的对应关系,该邻居不会捕获所生成的形状上的总点密度分布,因此可能导致非均匀的点云生成。为了解决这个问题,我们提出了一个新的点扩散细化(PDR)范例,用于点云完成。 PDR包括条件生成网络(CGNET)和细化网络(RFNET)。 CGNET使用称为去噪扩散概率模型(DDPM)的条件生成模型,以在部分观察中产生粗略完成。 DDPM在生成的点云和统一的地面真理之间建立一对一的映射,然后优化平均平方误差损耗以实现均匀生成。 RFNET精制CGNet的粗输出,并进一步提高完成点云的质量。此外,我们开发了两个网络的新型双路架构。该体系结构可以(1)有效且有效地从部分观察到的点云提取多级特征以指导完成,并且(2)精确地操纵3D点的空间位置以获得平滑的表面和尖锐的细节。各种基准数据集上的广泛实验结果表明,我们的PDR范例优于以前的最先进的方法,用于点云完成。值得注意的是,在RFNET的帮助下,我们可以在没有太多的性能下降的情况下加速DDPM的迭代生成过程。
translated by 谷歌翻译
我们引入了统一的单一和多视图神经隐式3D重建框架VPFusion。 VPFusion使用-3D功能卷获得高质量的重建,以捕获3D结构感知的上下文和像素对齐的图像特征,以捕获精细的本地细节。现有方法使用RNN,功能池或注意力在每个视图中独立计算以进行多视图融合。 RNN遭受长期记忆丧失和置换差异的困扰,而特征池或独立计算的注意力会导致每种视图中的表示形式在最后的合并步骤之前都不知道其他视图。相比之下,我们通过建立基于变压器的成对视图关联来显示改进的多视图融合。特别是,我们提出了一种新颖的交错3D推理和成对视图的关联结构,以跨不同视图的特征体积融合。使用此结构感知和多视图感知功能量,与现有方法相比,我们显示出改进的3D重建性能。 VPFusion还通过合并与像素一致的本地图像功能来进一步提高重建质量,以捕获细节。我们验证了VPFusion在Shapenet和ModelNet数据集上的有效性,在该数据集中,我们在该数据集中胜过或执行最先进的单个和多视图3D形状重建方法。
translated by 谷歌翻译
This work introduces alternating latent topologies (ALTO) for high-fidelity reconstruction of implicit 3D surfaces from noisy point clouds. Previous work identifies that the spatial arrangement of latent encodings is important to recover detail. One school of thought is to encode a latent vector for each point (point latents). Another school of thought is to project point latents into a grid (grid latents) which could be a voxel grid or triplane grid. Each school of thought has tradeoffs. Grid latents are coarse and lose high-frequency detail. In contrast, point latents preserve detail. However, point latents are more difficult to decode into a surface, and quality and runtime suffer. In this paper, we propose ALTO to sequentially alternate between geometric representations, before converging to an easy-to-decode latent. We find that this preserves spatial expressiveness and makes decoding lightweight. We validate ALTO on implicit 3D recovery and observe not only a performance improvement over the state-of-the-art, but a runtime improvement of 3-10$\times$. Project website at https://visual.ee.ucla.edu/alto.htm/.
translated by 谷歌翻译
深度完成旨在预测从深度传感器(例如Lidars)中捕获的极稀疏图的密集像素深度。它在各种应用中起着至关重要的作用,例如自动驾驶,3D重建,增强现实和机器人导航。基于深度学习的解决方案已经证明了这项任务的最新成功。在本文中,我们首次提供了全面的文献综述,可帮助读者更好地掌握研究趋势并清楚地了解当前的进步。我们通过通过对现有方法进行分类的新型分类法提出建议,研究网络体系结构,损失功能,基准数据集和学习策略的设计方面的相关研究。此外,我们在包括室内和室外数据集(包括室内和室外数据集)上进行了三个广泛使用基准测试的模型性能进行定量比较。最后,我们讨论了先前作品的挑战,并为读者提供一些有关未来研究方向的见解。
translated by 谷歌翻译