基于学习的3D点云注册的任务已经取得了很大的进展,即使在部分到部分匹配方案中,现有方法也在ModelNET40等标准基准上产生未完成的结果。不幸的是,这些方法仍然在实际数据存在下挣扎。在这项工作中,我们确定了这些失败的来源,分析了它们背后的原因,并提出解决它们的解决方案。我们将我们的调查结果总结为一系列准则,并通过将它们应用于不同的基线方法,DCP和IDAM来证明其有效性。简而言之,我们的指导方针改善了它们的培训融合和测试准确性。最终,这转换为最佳实践的3D注册网络(BPNET),构成了一种能够在真实数据中处理先前未经操作的基于学习的方法。尽管仅对合成数据进行培训,但我们的模型将推广到实际数据,而无需任何微调,达到使用商业传感器获得的看不见物体的点云达到高达67%的准确性。
translated by 谷歌翻译
在这项工作中,我们解决了从点云数据估算对象的6D姿势的任务。尽管最近基于学习的方法解决此任务的方法在合成数据集上表现出了很大的成功,但我们观察到它们在存在现实世界数据的情况下失败了。因此,我们分析了这些故障的原因,我们将其追溯到源云和目标点云的特征分布之间的差,以及广泛使用的SVD损耗函数对两个点之间旋转范围的敏感性云。我们通过基于点对应的负模可能性引入损失函数来解决新的归一化策略,匹配归一化以及第二个挑战。我们的两个贡献是一般的,可以应用于许多现有的基于学习的3D对象注册框架,我们通过在其中两个DCP和IDAM中实现它们来说明它们。我们对现实的TUD-L,LineMod和canluded-LineMod数据集的实验证明了我们策略的好处。它们允许首次基于学习的3D对象注册方法在现实世界中获得有意义的结果。因此,我们希望它们是点云注册方法未来开发的关键。
translated by 谷歌翻译
通信搜索是刚性点云注册算法中的重要步骤。大多数方法在每个步骤都保持单个对应关系,并逐渐删除错误的通信。但是,建立一对一的对应关系非常困难,尤其是当将两个点云与许多本地功能匹配时。本文提出了一种优化方法,该方法在将部分点云与完整点云匹配时保留每个关键点的所有可能对应关系。然后,通过考虑匹配成本,这些不确定的对应关系通过估计的刚性转换逐渐更新。此外,我们提出了一个新的点功能描述符,该描述符衡量本地点云区域之间的相似性。广泛的实验表明,即使在同一类别中与不同对象匹配时,我们的方法也优于最先进的方法(SOTA)方法。值得注意的是,我们的方法在将真实世界的噪声深度图像注册为模板形状时的表现优于SOTA方法。
translated by 谷歌翻译
由于激光雷达扫描数据的大规模,噪音和数据不完整,注册Urban Point Clouds是一项艰巨的任务。在本文中,我们提出了SARNET,这是一个新型的语义增强注册网络,旨在在城市规模上实现有效的城市点云的注册。与以前仅在点级空间中构建对应关系的方法不同,我们的方法完全利用语义特征来提高注册精度。具体而言,我们提取具有高级语义分割网络的每点语义标签,并构建先前的语义零件到部分对应关系。然后,我们将语义信息纳入基于学习的注册管道中,该管道由三个核心模块组成:基于语义的最远点采样模块,以有效地滤除异常值和动态对象;一个语义增强的特征提取模块,用于学习更多的判别点描述符;语义改制的转换估计模块,该模块利用先前的语义匹配作为掩码,通过减少错误匹配以更好地收敛来完善点对应关系。我们通过使用来自城市场景的大区域的现实世界数据并将其与替代方法进行比较,从而广泛评估所提出的SARNET。该代码可在https://github.com/wintercodeforeverything/sarnet上找到。
translated by 谷歌翻译
3D point cloud registration is a fundamental problem in computer vision and robotics. Recently, learning-based point cloud registration methods have made great progress. However, these methods are sensitive to outliers, which lead to more incorrect correspondences. In this paper, we propose a novel deep graph matching-based framework for point cloud registration. Specifically, we first transform point clouds into graphs and extract deep features for each point. Then, we develop a module based on deep graph matching to calculate a soft correspondence matrix. By using graph matching, not only the local geometry of each point but also its structure and topology in a larger range are considered in establishing correspondences, so that more correct correspondences are found. We train the network with a loss directly defined on the correspondences, and in the test stage the soft correspondences are transformed into hard one-to-one correspondences so that registration can be performed by a correspondence-based solver. Furthermore, we introduce a transformer-based method to generate edges for graph construction, which further improves the quality of the correspondences. Extensive experiments on object-level and scene-level benchmark datasets show that the proposed method achieves state-of-the-art performance. The code is available at: \href{https://github.com/fukexue/RGM}{https://github.com/fukexue/RGM}.
translated by 谷歌翻译
估计看不见对象的6D姿势对许多现实世界应用非常有需求。但是,当前的最新姿势估计方法只能处理以前训练的对象。在本文中,我们提出了一项新任务,以使算法能够估计测试过程中新颖对象的6D姿势估计。我们收集一个具有真实图像和合成图像的数据集,并且在测试集中最多可见48个看不见的对象。同时,我们提出了一个名为infimum Add(IADD)的新指标,这是对具有不同类型姿势歧义的对象的不变测量。还提供了针对此任务的两个阶段基线解决方案。通过训练端到端的3D对应网络,我们的方法可以准确有效地找到看不见的对象和部分视图RGBD图像之间的相应点。然后,它使用算法鲁棒到对象对称性从对应关系中计算6D姿势。广泛的实验表明,我们的方法的表现优于几个直观基线,从而验证其有效性。所有数据,代码和模型都将公开可用。项目页面:www.graspnet.net/unseen6d
translated by 谷歌翻译
如何提取重要点云特征并估计它们之间的姿势仍然是一个具有挑战性的问题,因为点云的固有缺乏结构和暧昧的顺序排列。尽管对大多数3D计算机视觉任务的基于深度学习的方法进行了重大改进,例如对象分类,对象分割和点云注册,但功能之间的一致性在现有的基于学习的流水线上仍然没有吸引力。在本文中,我们提出了一种用于复杂对准场景的新型学习的对齐网络,标题为深度特征一致性,并由三个主模块组成:多尺度图形特征合并网络,用于将几何对应集转换为高维特征,对应加权用于构建多个候选内部子集的模块,以及命名为深度特征匹配的Procrustes方法,用于给出闭合方案来估计相对姿势。作为深度特征匹配模块的最重要步骤,构造每个Inlier子集的特征一致性矩阵以获得其主要向量作为相应子集的含义似然性。我们全面地验证了我们在3DMATCH数据集和基提ODOMOTRY数据集中的方法的鲁棒性和有效性。对于大型室内场景,3DMATCH数据集上的注册结果表明,我们的方法优于最先进的传统和基于学习的方法。对于Kitti户外场景,我们的方法仍然能够降低转换错误。我们还在交叉数据集中探讨其强大的泛化能力。
translated by 谷歌翻译
点云注册是许多任务的基本步骤。在本文中,我们提出了一个名为detarnet的神经网络,将$ t $和旋转降序,以克服Point云注册的相互干扰导致的性能下降。首先,提出了一种基于暹罗网络的渐进和相干特征漂移(PCFD)模块以对准高维特征空间中的源点和目标点,并准确地从对准过程恢复转换。然后,我们提出了一种共识编码单元(CEU),以构建一组推定的对应关系的更区别特征。之后,采用空间和信道注意力(SCA)块来构建用于寻找良好通信的分类网络。最后,通过奇异值分解(SVD)获得旋转。以这种方式,所提出的网络对翻译和旋转的估计进行了解耦,导致它们两个的更好的性能。实验结果表明,拟议的Detarnet在室内和室外场景中提高了登记性能。我们的代码将在\ url {https://github.com/zhichen902/detarnet}中获得。
translated by 谷歌翻译
姿势注册在视觉和机器人技术中至关重要。本文重点介绍了无初始化姿势注册的挑战性任务,最高为7DOF,用于均质和异质测量。虽然最近基于学习的方法显示了使用可区分求解器的希望,但它们要么依赖于启发式定义的对应关系,要么易于局部最小值。我们提出了一个可区分的相关(DPC)求解器,该求解器是全球收敛性且无对应的。当与简单的特征提取网络结合使用时,我们的一般框架DPCN ++允许使用任意初始化的多功能姿势注册。具体而言,特征提取网络首先从一对均质/异质测量值中学习致密特征网格。然后将这些特征网格转换为基于傅立叶变换和球形径向聚集的翻译和比例不变频谱表示形式,将翻译转换和从旋转中脱钩。接下来,使用DPC求解器在频谱中独立有效地估计旋转,比例和翻译。整个管道都是可区分和训练的端到端。我们评估了DCPN ++在多种注册任务上,以不同的输入方式,包括2D Bird的视图图像,3D对象和场景测量以及医疗图像。实验结果表明,DCPN ++的表现优于经典和基于学习的基础线,尤其是在部分观察到的异质测量方面。
translated by 谷歌翻译
循环闭合检测是同时定位和映射(SLAM)系统的重要组成部分,这减少了随时间累积的漂移。多年来,已经提出了一些深入的学习方法来解决这项任务,但是与手工制作技术相比,他们的表现一直是SubPar,特别是在处理反向环的同时。在本文中,我们通过同时识别先前访问的位置并估计当前扫描与地图之间的6-DOF相对变换,有效地检测LIDAR点云中的LINAS点云中的环闭环的新颖LCDNET。 LCDNET由共享编码器组成,一个地方识别头提取全局描述符,以及估计两个点云之间的变换的相对姿势头。我们基于不平衡的最佳运输理论介绍一种新颖的相对姿势,我们以可分散的方式实现,以便实现端到端训练。在多个现实世界自主驾驶数据集中的LCDNET广泛评估表明我们的方法优于最先进的环路闭合检测和点云登记技术,特别是在处理反向环的同时。此外,我们将所提出的循环闭合检测方法集成到LIDAR SLAM库中,以提供完整的映射系统,并在看不见的城市中使用不同的传感器设置展示泛化能力。
translated by 谷歌翻译
生成一组高质量的对应关系或匹配是点云注册中最关键的步骤之一。本文通过共同考虑点对立的结构匹配来提出学习框架COTREG,以预测3D点云登记的对应关系。具体地,我们将这两个匹配转换为基于Wasserstein距离和基于Gromov-Wasserstein距离的优化。因此,建立对应关系的任务可以自然地重塑成耦合的最佳运输问题。此外,我们设计一个网络,以预测点云的每个点的置信度,其提供重叠区域信息以产生对应关系。我们的对应预测管道可以很容易地集成到基于学习的特征,如FCGF或FPFH等传统描述符。我们在3DMATCH,KITTI,3DCSR和ModelNet40基准上进行了全面的实验,显示了所提出的方法的最先进的性能。
translated by 谷歌翻译
本文提出了一种可对应的点云旋转登记的方法。我们学习为每个点云嵌入保留所以(3)-equivariance属性的特征空间中的嵌入,通过最近的Quifariant神经网络的开发启用。所提出的形状登记方法通过用隐含形状模型结合等分性的特征学习来实现三个主要优点。首先,由于网络架构中类似于PointNet的网络体系结构中的置换不变性,因此删除了数据关联的必要性。其次,由于SO(3)的性能,可以使用喇叭的方法以闭合形式来解决特征空间中的注册。第三,由于注册和隐含形状重建的联合培训,注册对点云中的噪声强大。实验结果显示出优异的性能与现有的无对应的深层登记方法相比。
translated by 谷歌翻译
Estimating 6D poses of objects from images is an important problem in various applications such as robot manipulation and virtual reality. While direct regression of images to object poses has limited accuracy, matching rendered images of an object against the input image can produce accurate results. In this work, we propose a novel deep neural network for 6D pose matching named DeepIM. Given an initial pose estimation, our network is able to iteratively refine the pose by matching the rendered image against the observed image. The network is trained to predict a relative pose transformation using a disentangled representation of 3D location and 3D orientation and an iterative training process. Experiments on two commonly used benchmarks for 6D pose estimation demonstrate that DeepIM achieves large improvements over stateof-the-art methods. We furthermore show that DeepIM is able to match previously unseen objects.
translated by 谷歌翻译
配对点云之间的低空区域使被捕获的特征非常自信,导致尖端模型以质量较差的云登记。除了传统的智慧之外,我们还提出了一个有趣的问题:是否有可能在两个低重叠点云之间利用中间却又错位的图像来增强尖端注册模型的性能?为了回答它,我们提出了一个被称为Imlovenet的低重叠点云对的未对准图像支持的注册网络。 Imlovenet首先学习跨不同模态的三重深特征,然后将这些特征导出到两个阶段分类器中,以逐步获得两个点云之间的高信心重叠区域。因此,软对应关系在预测的重叠区域中得到了很好的确定,从而导致了准确的刚性转换。 Imlovenet易于实现,但有效,因为1)未对准的图像为两个低重叠点云提供了更清晰的重叠信息,以更好地定位重叠零件; 2)它包含某些几何知识,以提取更好的深度特征; 3)它不需要成像设备的外部参数,相对于3D点云的参考框架。对各种基准的广泛定性和定量评估证明了我们的iMlovenet比最新方法的有效性和优越性。
translated by 谷歌翻译
这项工作调查了鲁棒优化运输(OT)的形状匹配。具体而言,我们表明最近的OT溶解器改善了基于优化和深度学习方法的点云登记,以实惠的计算成本提高了准确性。此手稿从现代OT理论的实际概述开始。然后,我们为使用此框架进行形状匹配的主要困难提供解决方案。最后,我们展示了在广泛的具有挑战性任务上的运输增强的注册模型的性能:部分形状的刚性注册;基蒂数据集的场景流程估计;肺血管树的非参数和肺部血管树。我们基于OT的方法在准确性和可扩展性方面实现了基蒂的最先进的结果,并为挑战性的肺登记任务。我们还释放了PVT1010,这是一个新的公共数据集,1,010对肺血管树,具有密集的采样点。此数据集提供了具有高度复杂形状和变形的点云登记算法的具有挑战性用例。我们的工作表明,强大的OT可以为各种注册模型进行快速预订和微调,从而为计算机视觉工具箱提供新的键方法。我们的代码和数据集可在线提供:https://github.com/uncbiag/robot。
translated by 谷歌翻译
Shape completion, the problem of estimating the complete geometry of objects from partial observations, lies at the core of many vision and robotics applications. In this work, we propose Point Completion Network (PCN), a novel learning-based approach for shape completion. Unlike existing shape completion methods, PCN directly operates on raw point clouds without any structural assumption (e.g. symmetry) or annotation (e.g. semantic class) about the underlying shape. It features a decoder design that enables the generation of fine-grained completions while maintaining a small number of parameters. Our experiments show that PCN produces dense, complete point clouds with realistic structures in the missing regions on inputs with various levels of incompleteness and noise, including cars from LiDAR scans in the KITTI dataset. Code, data and trained models are available at https://wentaoyuan.github.io/pcn.
translated by 谷歌翻译
与最小化点对点距离的传统算法设置的注册最小化通常可以更好地估计刚性转换。然而,最近的基于深度学习的方法最大程度地减少了点对点距离。与这些方法相反,本文提出了第一种基于深度学习的方法来点对上注册的方法。该问题的一个具有挑战性的部分是,用于点对点注册的典型解决方案需要迭代的过程来累积通过最小化线性的能量函数获得的小型转换。迭代显着增加了反向传播所需的计算图的大小,并且可以放慢前进和后退网络评估。为了解决此问题,我们将估计的刚体转换视为输入点云的函数,并使用隐式函数定理得出其分析梯度。我们引入的分析梯度独立于如何获得误差最小化函数(即刚性变换),从而使我们能够有效地计算刚性变换及其梯度。我们在几种先前的方法上实现了所提出的点对平面注册模块,这些模块可以最大程度地减少点对点距离,并证明扩展名的表现超过了基本方法,即使具有噪声和低质量的点云的点云,也通过局部点分布估算了差异。
translated by 谷歌翻译
我们通过同步在点云上定义的学习函数的地图同步地图来共同寄存多种非刚性形状的新方法。尽管处理非刚性形状的能力在从计算机动画到3D数字化的各种应用中都是至关重要的,但文献仍然缺乏围绕闭塞观察到的真实,嘈杂的扫描的集合的稳健和灵活的框架。给定一组这样的点云,我们的方法首先计算通过功能映射参数化的成对对应关系。我们同时学习潜在的非正交基础函数,以有效地规范变形,同时以优雅的方式处理闭塞。为了最大限度地受益于推断成对变形字段提供的多向信息,我们通过我们的新颖和原则优化配方将成对功能映射与周期一致的整体同步。我们通过广泛的实验证明了我们的方法在注册准确性中实现了最先进的性能,同时可以灵活,高效,因为我们在统一框架中处理非刚性和多体案例并避免昂贵的优化优化通过使用基函数映射的置换。
translated by 谷歌翻译
在本文中,我们建议超越建立的基于视觉的本地化方法,该方法依赖于查询图像和3D点云之间的视觉描述符匹配。尽管通过视觉描述符匹配关键点使本地化高度准确,但它具有重大的存储需求,提出了隐私问题,并需要长期对描述符进行更新。为了优雅地应对大规模定位的实用挑战,我们提出了Gomatch,这是基于视觉的匹配的替代方法,仅依靠几何信息来匹配图像键点与地图的匹配,这是轴承矢量集。我们的新型轴承矢量表示3D点,可显着缓解基于几何的匹配中的跨模式挑战,这阻止了先前的工作在现实环境中解决本地化。凭借额外的仔细建筑设计,Gomatch在先前的基于几何的匹配工作中改善了(1067m,95.7升)和(1.43m,34.7摄氏度),平均中位数姿势错误,同时需要7个尺寸,同时需要7片。与最佳基于视觉的匹配方法相比,几乎1.5/1.7%的存储容量。这证实了其对现实世界本地化的潜力和可行性,并为不需要存储视觉描述符的城市规模的视觉定位方法打开了未来努力的大门。
translated by 谷歌翻译
本文介绍了一种新颖的体系结构,用于同时估算高度准确的光流和刚性场景转换,以实现困难的场景,在这种情况下,亮度假设因强烈的阴影变化而违反了亮度假设。如果是旋转物体或移动的光源(例如在黑暗中驾驶汽车遇到的光源),场景的外观通常从一个视图到下一个视图都发生了很大变化。不幸的是,用于计算光学流或姿势的标准方法是基于这样的期望,即场景中特征在视图之间保持恒定。在调查的情况下,这些方法可能经常失败。提出的方法通过组合图像,顶点和正常数据来融合纹理和几何信息,以计算照明不变的光流。通过使用粗到最新的策略,可以学习全球锚定的光流,从而减少了基于伪造的伪相应的影响。基于学习的光学流,提出了第二个体系结构,该体系结构可预测扭曲的顶点和正常地图的稳健刚性变换。特别注意具有强烈旋转的情况,这通常会导致这种阴影变化。因此,提出了一个三步程序,该程序可以利用正态和顶点之间的相关性。该方法已在新创建的数据集上进行了评估,该数据集包含具有强烈旋转和阴影效果的合成数据和真实数据。该数据代表了3D重建中的典型用例,其中该对象通常在部分重建之间以很大的步骤旋转。此外,我们将该方法应用于众所周知的Kitti Odometry数据集。即使由于实现了Brighness的假设,这不是该方法的典型用例,因此,还建立了对标准情况和与其他方法的关系的适用性。
translated by 谷歌翻译