倒角距离(CD)和地球移动器的距离(EMD)是两个广泛采用的度量标准,用于测量两点集之间的相似性。然而,CD通常对不匹配的局部密度不敏感,EMD通常由全球分配主导,而忽略了详细结构的保真度。此外,他们的无限值范围从异常值引起沉重的影响。这些缺陷可防止它们提供一致的评估。为了解决这些问题,我们提出了一个名为密度感知倒角距离(DCD)的新的相似度量。它来自CD的源自来自若干所需性质的效果:1)它可以检测密度分布的差异,因此与CD相比更加强烈的相似性。 2)更严格,具有详细的结构,比EMD明显更加计算; 3)界限值范围促进整个测试集更稳定和合理的评估。我们采用DCD来评估点云完成任务,实验结果表明,DCD关注整体结构和本地几何细节,即使CD和EMD相互矛盾,也能提供更可靠的评估。我们还可以使用DCD作为培训损失,这胜过与所有三个指标上的CD损失培训的相同模型。此外,我们提出了一种新的点鉴别器模块,其估计另一个引导的下采样步骤的优先级,并且它在DCD下实现了明显的改进以及CD和EMD的竞争结果。我们希望我们的工作可以为更全面而实用的点云相似性评估铺平道路。我们的代码将可用:https://github.com/wutong16/dentions_aware_Chamfer_distance。
translated by 谷歌翻译
鉴于3D扫描仪的快速发展,Point云在AI驱动的机器中变得流行。但是,点云数据本质上是稀疏和不规则的,导致机器感知的主要困难。在这项工作中,我们专注于云上采样任务,该任务旨在从稀疏输入数据生成密集的高保真点云。具体而言,为了激活变压器在代表功能方面的强大功能,我们开发了多头自我关注结构的新变体,以增强特征图的点明智和渠道关系。此外,我们利用位置融合块来全面地捕获点云数据的本地背景,提供有关分散点的更多位置相关信息。由于第一变压器模型引入点云上采样,我们通过与定量和定性的不同基准的基于基准的方法相比,通过比较了我们的方法的出色性能。
translated by 谷歌翻译
我们提出了一种对类别级别的6D对象姿势和大小估计的新方法。为了解决类内的形状变化,我们学习规范形状空间(CASS),统一表示,用于某个对象类别的各种情况。特别地,CASS被建模为具有标准化姿势的规范3D形状深度生成模型的潜在空间。我们训练变形式自动编码器(VAE),用于从RGBD图像中的规范空间中生成3D点云。 VAE培训以跨类方式培训,利用公开的大型3D形状存储库。由于3D点云在归一化姿势(具有实际尺寸)中生成,因此VAE的编码器学习视图分解RGBD嵌入。它将RGBD图像映射到任意视图中以独立于姿势的3D形状表示。然后通过将对象姿势与用单独的深神经网络提取的输入RGBD的姿势相关的特征进行对比姿势估计。我们将CASS和姿势和大小估计的学习集成到最终的培训网络中,实现了最先进的性能。
translated by 谷歌翻译
在城市环境中导航时,许多需要跟踪和避免的对象严重封闭。使用这些部分扫描的规划和跟踪可能具有挑战性。这项工作的目的是学习完成这些部分点云,让我们仅仅使用部分观测全面了解对象的几何。以前的方法在目标对象的完整地面注释的帮助下实现了此目的,这些方法仅适用于模拟数据集。但是,真实的真相对于现实世界的LIDAR数据不可用。在这项工作中,我们介绍了一个自我监督的点云完成算法,Pointpncnet,仅在部分扫描上培训,而无需采取完整的地面说明注释。我们的方法通过修正来实现这一目标。我们删除了一部分输入数据并培训网络以完成丢失的区域。由于难以确定在初始云中被封闭的区域并且综合地删除了哪些区域,我们的网络了解完成完整的云,包括初始部分云中的缺失区域。我们展示我们的方法优于以前在合成数据集,ShoceEnet和现实世界Lidar DataSet,语义基提上的未经监督和弱监督的方法。
translated by 谷歌翻译
由于动态环境中LIDAR点的稀缺性,3D对象跟踪仍然是一个具有挑战性的问题。在这项工作中,我们提出了一个暹罗体素到BEV跟踪器,可以显着提高稀疏3D点云中的跟踪性能。具体地,它包括暹罗形状感知特征学习网络和体素到BEV目标本地化网络。暹罗形式感知特征学习网络可以捕获对象的3D形状信息以学习对象的辨别特征,使得可以识别来自稀疏点云中的背景的潜在目标。为此,我们首先执行模板特征嵌入以将模板的特征嵌入到电位目标中,然后生成密集的3D形状以表征潜在目标的形状信息。为了本地化跟踪目标,Voxel-to-BeV目标本地化网络以无密集的鸟瞰图(BEV)特征图,将目标的2D中心和$ Z $ -Axis中心以无锚的方式回归。具体地,我们通过MAX池沿Z $ -axis压缩了Voxelized Point云,以获得密集的BEV特征图,其中可以更有效地执行2D中心和$ Z $ -Axis中心的回归。对基蒂和NUSCENES数据集的广泛评估表明,我们的方法通过大边距显着优于当前最先进的方法。
translated by 谷歌翻译
本地化隐式功能的最新进展使神经隐式表示能够可扩展到大型场景。然而,这些方法采用的3D空间的定期细分未能考虑到表面占用的稀疏性和几何细节的变化粒度。结果,其内存占地面积与输入体积均别较大,即使在适度密集的分解中也导致禁止的计算成本。在这项工作中,我们为3D表面,编码OCTFIELD提供了一种学习的分层隐式表示,允许具有低内存和计算预算的复杂曲面的高精度编码。我们方法的关键是仅在感兴趣的表面周围分发本地隐式功能的3D场景的自适应分解。我们通过引入分层Octree结构来实现这一目标,以根据表面占用和部件几何形状的丰富度自适应地细分3D空间。随着八十六是离散和不可分辨性的,我们进一步提出了一种新颖的等级网络,其模拟八偏细胞的细分作为概率的过程,并以可差的方式递归地编码和解码八叠结构和表面几何形状。我们展示了Octfield的一系列形状建模和重建任务的价值,显示出在替代方法方面的优越性。
translated by 谷歌翻译
从单个视图中重建高质量的3D对象,从单个视图中的部分观测可能对计算机视觉,机器人和图形的各种应用来说至关重要。虽然最近的神经隐式建模方法显示了合成或密集数据的有希望的结果,但它们在稀疏和嘈杂的现实世界数据上表现不佳。我们发现流行的神经隐式模型的局限性是由于缺乏鲁棒形状的主管和缺乏适当的正则化。在这项工作中,我们展示了使用:(i)一个深度编码器作为形状潜在代码的鲁棒初始化器的深度编码器; (ii)正规化的测试时间优化潜在代码; (iii)以学习的高维形状为深度鉴别者; (iv)一种新颖的课程学习策略,允许模型学习合成数据的形状前瞻,并将其平稳地将它们转移到稀疏的现实世界数据。我们的方法更好地捕获了全局结构,在遮挡和稀疏观测上表现良好,并用地面真理形状良好寄存。我们在两个现实世界数据集上展示了最先进的3D对象重建方法的卓越性能。
translated by 谷歌翻译
大规模点云的注释仍然耗时,并且对于许多真实世界任务不可用。点云预训练是用于获得快速适配的可扩展模型的一个潜在解决方案。因此,在本文中,我们调查了一种新的自我监督学习方法,称为混合和解除戒(MD),用于点云预培训。顾名思义,我们探索如何将原始点云与混合点云分开,并利用这一具有挑战的任务作为模型培训的借口优化目标。考虑到原始数据集中的有限培训数据,这远低于普遍的想象,混合过程可以有效地产生更高质量的样本。我们构建一个基线网络以验证我们的直觉,只包含两个模块,编码器和解码器。给定混合点云,首先预先训练编码器以提取语义嵌入。然后,利用实例 - 自适应解码器根据嵌入来解除点云。尽管简单,编码器本质上是能够在训练后捕获点云关键点,并且可以快速适应下游任务,包括预先训练和微调范例的分类和分割。在两个数据集上的广泛实验表明编码器+我们的(MD)显着超越了从头划痕培训的编码器和快速收敛的编码器。在消融研究中,我们进一步研究了每个部件的效果,并讨论了拟议的自我监督学习策略的优势。我们希望这种自我监督的学习尝试点云可以铺平了减少对大规模标记数据的深度学习模型依赖的方式,并在将来节省了大量的注释成本。
translated by 谷歌翻译
最近对隐含形状表示的兴趣日益增长。与明确的陈述相反,他们没有解决局限性,他们很容易处理各种各样的表面拓扑。为了了解这些隐式表示,电流方法依赖于一定程度的形状监督(例如,内部/外部信息或距离形状知识),或者至少需要密集点云(以近似距离 - 到 - 到 - 形状)。相比之下,我们介绍{\方法},一种用于学习形状表示的自我监督方法,从可能极其稀疏的点云。就像在水牛的针问题一样,我们在点云上“掉落”(样本)针头,认为,静统计地靠近表面,针端点位于表面的相对侧。不需要形状知识,点云可以高稀疏,例如,作为车辆获取的Lidar点云。以前的自我监督形状表示方法未能在这种数据上产生良好的结果。我们获得定量结果与现有的形状重建数据集上现有的监督方法标准,并在Kitti等硬自动驾驶数据集中显示有前途的定性结果。
translated by 谷歌翻译
我们呈现圆圈,基于本地隐式符号距离函数的大规模场景完成和几何精致的框架。它基于端到端的稀疏卷积网络,Circnet,共同模拟局部几何细节和全局场景结构背景,使其能够在传统3D场景数据中恢复通常产生的缺失区域的同时保留细粒度的对象细节。一种新颖的可分解渲染模块,可以进行测试时间精制以获得更好的重建质量。对现实世界和合成数据集的广泛实验表明,我们的简明框架是高效且有效的,实现比最接近竞争对手更好的重建质量,同时速度更快。
translated by 谷歌翻译
本文提出了一种新颖的自我监督方法,可以从嘈杂的点云数据重建人类形状和姿势。依靠大量数据集与地面真实的注释,最近基于学习的方法预测点云上的每个顶点的对应关系;倒角距离通常用于最小化变形模板模型和输入点云之间的距离。然而,倒角距离对噪声和异常值非常敏感,因此可以不可靠地分配通信。为了解决这些问题,我们在高斯混合模型下从参数人模型产生的输入点云的概率分布。通过更新给定输入的模板模型的后验概率,我们通过更新模板模型的后视概率来代替明确地对准对应关系,而不是显式对准的对应关系。进一步推导出一种新颖的自我监督损失,这惩罚了变形模板和在后后概率上的输入点云之间的差异。我们的方法非常灵活,适用于完整点云和不完整的云,包括甚至是单个深度图像作为输入。与以前的自我监督方法相比,我们的方法显示了处理大量噪声和异常值的能力。在各种公共合成数据集以及非常嘈杂的真实数据集(即CMU Panoptic)上进行了广泛的实验,证明了我们对最先进的方法的方法的卓越性能。
translated by 谷歌翻译
我们介绍DMTET,深度3D条件生成模型,可以使用诸如粗体素的简单用户指南来合成高分辨率3D形状。它通过利用新型混合3D表示来结婚隐式和显式3D表示的优点。与当前隐含的方法相比,培训涉及符号距离值,DMTET直接针对重建的表面进行了优化,这使我们能够用更少的伪像来合成更精细的几何细节。与直接生成诸如网格之类的显式表示的深度3D生成模型不同,我们的模型可以合成具有任意拓扑的形状。 DMTET的核心包括可变形的四面体网格,其编码离散的符号距离函数和可分行的行进Tetrahedra层,其将隐式符号距离表示转换为显式谱图表示。这种组合允许使用在表面网格上明确定义的重建和对抗性损耗来联合优化表面几何形状和拓扑以及生成细分层次结构。我们的方法显着优于来自粗体素输入的条件形状合成的现有工作,培训在复杂的3D动物形状的数据集上。项目页面:https://nv-tlabs.github.io/dmtet/
translated by 谷歌翻译
通过扫描真实世界对象或场景采集的3D点云人已经发现了广泛的应用,包括融入式远程呈现,自动驾驶,监视等。它们通常是由噪声扰动或由低密度,这妨碍下游的任务,如表面重建遭受和理解。在本文中,我们提出了点集的二次采样恢复,这获知会聚点朝向下方的表面的点云的连续梯度场的新型范例。特别是,我们表示经由其梯度场点云 - 对数概率密度函数的梯度,和执行梯度场是连续的,这样就保证了模型可解优化的连续性。基于经由提出的神经网络估计出的连续梯度场,重新采样点云量对输入噪声或稀疏的点云执行基于梯度的马尔可夫链蒙特卡洛(MCMC)。此外,我们提出了点云恢复,基本上迭代地细化中间重采样点云,并在重采样过程容纳各种先验期间引入正则化到基于梯度的MCMC。大量的实验结果表明,该点集重采样实现了代表恢复工作,包括点云去噪和采样的国家的最先进的性能。
translated by 谷歌翻译
了解3D场景是自治代理的关键先决条件。最近,LIDAR和其他传感器已经以点云帧的时间序列形式提供了大量数据。在这项工作中,我们提出了一种新的问题 - 顺序场景流量估计(SSFE) - 该旨在预测给定序列中所有点云的3D场景流。这与先前研究的场景流程估计问题不同,这侧重于两个框架。我们介绍SPCM-NET架构,通过计算相邻点云之间的多尺度时空相关性,然后通过订单不变的复制单元计算多级时空相关性来解决这个问题。我们的实验评估证实,与仅使用两个框架相比,点云序列的复发处理导致SSFE明显更好。另外,我们证明可以有效地修改该方法,用于顺序点云预测(SPF),一种需要预测未来点云帧的相关问题。我们的实验结果是使用SSFE和SPF的新基准进行评估,包括合成和实时数据集。以前,场景流估计的数据集仅限于两个帧。我们为这些数据集提供非琐碎的扩展,用于多帧估计和预测。由于难以获得现实世界数据集的地面真理运动,我们使用自我监督的培训和评估指标。我们认为,该基准将在该领域的未来研究中关键。将可访问基准和型号的所有代码。
translated by 谷歌翻译
从3D扫描获得的点云通常稀疏,嘈杂,不规则。为应对这些问题,最近的研究已经单独进行,以致密化,去噪和完全不准确的点云。在本文中,我们倡导联合解决这些任务导致点云重建的显着改进。为此,我们提出了一个由两个阶段组成的深点云重建网络:1)3D稀疏的堆积空间,如初始致密化和去噪,2)通过变压器将离散体素转换为3D点的改进。特别是,我们通过一种名为放大位置编码的新提出的模块进一步提高了变压器的性能。该模块旨在基于用于自适应改进的点距离来不同地放大位置编码矢量的大小。广泛的实验表明,我们的网络在Scannet,ICL-Nuim和Shapenetpart数据集最近的研究中实现了最先进的性能。此外,我们强调了我们网络拓展到现实世界和未满足的场景的能力。
translated by 谷歌翻译
从杂乱场景跟踪和重建3D对象是计算机视觉,机器人和自主驾驶系统的关键组件。虽然最近隐含功能的进展(例如,Deepsdf)已经显示出令人鼓舞的高质量3D形状重建结果,但仍然非常具有挑战性,以概括为杂乱和部分可观察的LIDAR数据。在本文中,我们建议利用视频数据的连续性。我们介绍了一种新颖和统一的框架,它利用DeepsDF模型来同时跟踪和重建野外的3D对象。我们在线调整视频中的DeepsDF模型,迭代改善形状重建,同时在返回改进跟踪时,反之亦然。我们试验Waymo和Kitti数据集,并对跟踪和形状重建的最先进方法显着改进。
translated by 谷歌翻译
表面重建是3D图形的基本问题。在本文中,我们提出了一种基于学习的基于云层云层的隐式表面重建的方法,没有正常。我们的方法是在潜在的能源理论中受到高斯引理的启发,这为指标功能提供了明确的整体公式。我们设计一个新颖的深神经网络,以执行表面积分,并从未定向和嘈杂的点云学习修改的指示灯。我们连接具有不同尺度的特征,以便准确地对整数的贡献。此外,我们提出了一种新颖的表面元件特征提取器来学习局部形状特性。实验表明,我们的方法从具有不同噪声尺度的点云的点云产生具有高正常一致性的平滑表面,并与当前的数据驱动和非数据驱动的方法相比,实现了最先进的重建性能。
translated by 谷歌翻译
准确和高效的点云注册是一个挑战,因为噪音和大量积分影响了对应搜索。这一挑战仍然是一个剩余的研究问题,因为大多数现有方法都依赖于对应搜索。为了解决这一挑战,我们通过调查深生成的神经网络来点云注册来提出新的数据驱动登记算法。给定两个点云,动机是直接生成对齐的点云,这在许多应用中非常有用,如3D匹配和搜索。我们设计了一个端到端的生成神经网络,用于对齐点云生成以实现这种动机,包含三种新组件。首先,提出了一种点多感知层(MLP)混频器(PointMixer)网络以便在自点云中有效地维护全局和局部结构信息。其次,提出了一种特征交互模块来融合来自交叉点云的信息。第三,提出了一种并行和差分样本共识方法来基于所生成的登记结果计算输入点云的变换矩阵。所提出的生成神经网络通过维持数据分布和结构相似度,在GAN框架中训练。 ModelNet40和7Scene数据集的实验表明,所提出的算法实现了最先进的准确性和效率。值得注意的是,与基于最先进的对应的算法相比,我们的方法减少了注册错误(CD)的$ 2 \次数为$ 12 \倍运行时间。
translated by 谷歌翻译
我们呈现Point-Bert,一种用于学习变压器的新范式,以概括BERT对3D点云的概念。灵感来自BERT,我们将屏蔽点建模(MPM)任务设计为预列火车点云变压器。具体地,我们首先将点云划分为几个本地点修补程序,并且具有离散变化性AutoEncoder(DVAE)的点云标记器被设计为生成包含有意义的本地信息的离散点令牌。然后,我们随机掩盖了一些输入点云的补丁并将它们送入骨干变压器。预训练目标是在销售器获得的点代币的监督下恢复蒙面地点的原始点令牌。广泛的实验表明,拟议的BERT风格的预训练策略显着提高了标准点云变压器的性能。配备了我们的预培训策略,我们表明,纯变压器架构对ModelNet40的准确性为93.8%,在ScanObjectnn的最艰难的设置上的准确性为83.1%,超越精心设计的点云模型,手工制作的设计更少。我们还证明,Point-Bert从新的任务和域中获悉的表示,我们的模型在很大程度上推动了几个射击点云分类任务的最先进。代码和预先训练的型号可在https://github.com/lulutang0608/pint -bert上获得
translated by 谷歌翻译
如何提取重要点云特征并估计它们之间的姿势仍然是一个具有挑战性的问题,因为点云的固有缺乏结构和暧昧的顺序排列。尽管对大多数3D计算机视觉任务的基于深度学习的方法进行了重大改进,例如对象分类,对象分割和点云注册,但功能之间的一致性在现有的基于学习的流水线上仍然没有吸引力。在本文中,我们提出了一种用于复杂对准场景的新型学习的对齐网络,标题为深度特征一致性,并由三个主模块组成:多尺度图形特征合并网络,用于将几何对应集转换为高维特征,对应加权用于构建多个候选内部子集的模块,以及命名为深度特征匹配的Procrustes方法,用于给出闭合方案来估计相对姿势。作为深度特征匹配模块的最重要步骤,构造每个Inlier子集的特征一致性矩阵以获得其主要向量作为相应子集的含义似然性。我们全面地验证了我们在3DMATCH数据集和基提ODOMOTRY数据集中的方法的鲁棒性和有效性。对于大型室内场景,3DMATCH数据集上的注册结果表明,我们的方法优于最先进的传统和基于学习的方法。对于Kitti户外场景,我们的方法仍然能够降低转换错误。我们还在交叉数据集中探讨其强大的泛化能力。
translated by 谷歌翻译