我们提出了一种基于学习的刚性和可变形场景的基于学习方法的方法。LePard的关键特征是利用点云匹配的3D位置知识的以下方法:1)将点云表示分为特征空间和3D位置空间的架构。2)一种位置编码方法,其通过向量的点产品明确地明确地揭示了3D相对距离信息。3)修改交叉点云相对位置的重新定位技术。消融研究证明了上述技术的有效性。对于刚性点云匹配,Lepard在3DMatch / 3DLomatch基准上为93.6%/ 69.0%的注册召回设置了新的最先进的。在可变形的情况下,Lepard达到+ 27.1%/ + 34.8%的非刚性特征匹配召回,而不是我们新建的4dmatch / 4dlomatch基准测试的现有技术。
translated by 谷歌翻译
Point Cloud Registration is the problem of aligning the corresponding points of two 3D point clouds referring to the same object. The challenges include dealing with noise and partial match of real-world 3D scans. For non-rigid objects, there is an additional challenge of accounting for deformations in the object shape that happen to the object in between the two 3D scans. In this project, we study the problem of non-rigid point cloud registration for use cases in the Augmented/Mixed Reality domain. We focus our attention on a special class of non-rigid deformations that happen in rigid objects with parts that move relative to one another about joints, for example, robots with hands and machines with hinges. We propose an efficient and robust point-cloud registration workflow for such objects and evaluate it on real-world data collected using Microsoft Hololens 2, a leading Mixed Reality Platform.
translated by 谷歌翻译
非刚性点云注册是许多计算机视觉和计算机图形应用程序中的关键组件。未知的非刚性运动的高复杂性使这项任务成为一个具有挑战性的问题。在本文中,我们通过层次运动分解分解了这个问题。我们称为神经变形金字塔(NDP)的方法代表使用金字塔结构的非刚性运动。用多层感知表示的每个金字塔级别(MLP)表示为正弦编码的3D点,并从上一个级别输出其运动增量。正弦函数从低输入频率开始,当金字塔水平下降时逐渐增加。与现有的基于MLP的方法相比,这允许多层刚性进行非辅助运动分解,并加快求解的速度50倍。我们的方法在未经学习和监督的设置下,在4DMatch/4Dlomatch基准测试的4DMATCH/4DLOMATCH基准上实现了高级部分非刚性点云注册结果。
translated by 谷歌翻译
Purpose: In laparoscopic liver surgery (LLS), pre-operative information can be overlaid onto the intra-operative scene by registering a 3D pre-operative model to the intra-operative partial surface reconstructed from the laparoscopic video. To assist with this task, we explore the use of learning-based feature descriptors, which, to our best knowledge, have not been explored for use in laparoscopic liver registration. Furthermore, a dataset to train and evaluate the use of learning-based descriptors does not exist. Methods: We present the LiverMatch dataset consisting of 16 preoperative models and their simulated intra-operative 3D surfaces. We also propose the LiverMatch network designed for this task, which outputs per-point feature descriptors, visibility scores, and matched points. Results: We compare the proposed LiverMatch network with anetwork closest to LiverMatch, and a histogram-based 3D descriptor on the testing split of the LiverMatch dataset, which includes two unseen pre-operative models and 1400 intra-operative surfaces. Results suggest that our LiverMatch network can predict more accurate and dense matches than the other two methods and can be seamlessly integrated with a RANSAC-ICP-based registration algorithm to achieve an accurate initial alignment. Conclusion: The use of learning-based feature descriptors in LLR is promising, as it can help achieve an accurate initial rigid alignment, which, in turn, serves as an initialization for subsequent non-rigid registration. We will release the dataset and code upon acceptance.
translated by 谷歌翻译
3D point cloud registration is a fundamental problem in computer vision and robotics. Recently, learning-based point cloud registration methods have made great progress. However, these methods are sensitive to outliers, which lead to more incorrect correspondences. In this paper, we propose a novel deep graph matching-based framework for point cloud registration. Specifically, we first transform point clouds into graphs and extract deep features for each point. Then, we develop a module based on deep graph matching to calculate a soft correspondence matrix. By using graph matching, not only the local geometry of each point but also its structure and topology in a larger range are considered in establishing correspondences, so that more correct correspondences are found. We train the network with a loss directly defined on the correspondences, and in the test stage the soft correspondences are transformed into hard one-to-one correspondences so that registration can be performed by a correspondence-based solver. Furthermore, we introduce a transformer-based method to generate edges for graph construction, which further improves the quality of the correspondences. Extensive experiments on object-level and scene-level benchmark datasets show that the proposed method achieves state-of-the-art performance. The code is available at: \href{https://github.com/fukexue/RGM}{https://github.com/fukexue/RGM}.
translated by 谷歌翻译
成功的点云注册依赖于在强大的描述符上建立的准确对应关系。但是,现有的神经描述符要么利用旋转变化的主链,其性能在较大的旋转下下降,要么编码局部几何形状,而局部几何形状不太明显。为了解决这个问题,我们介绍Riga以学习由设计和全球了解的旋转不变的描述符。从稀疏局部区域的点对特征(PPF)中,旋转不变的局部几何形状被编码为几何描述符。随后,全球对3D结构和几何环境的认识都以旋转不变的方式合并。更具体地说,整个框架的3D结构首先由我们的全球PPF签名表示,从中学到了结构描述符,以帮助几何描述符感知本地区域以外的3D世界。然后将整个场景的几何上下文全局汇总到描述符中。最后,将稀疏区域的描述插值到密集的点描述符,从中提取对应关系进行注册。为了验证我们的方法,我们对对象和场景级数据进行了广泛的实验。在旋转较大的情况下,Riga就模型Net40的相对旋转误差而超过了最先进的方法8 \度,并将特征匹配的回忆提高了3DLOMATCH上的至少5个百分点。
translated by 谷歌翻译
高信心重叠的预测和准确的对应关系对于以部分到派对方式对齐成对点云至关重要。但是,重叠区域和非重叠区域之间存在固有的不确定性,这些区域一直被忽略并显着影响注册绩效。除了当前的智慧之外,我们提出了一种新颖的不确定性意识到的重叠预测网络,称为Utopic,以解决模棱两可的重叠预测问题。据我们所知,这是第一个明确引入重叠不确定性以指向云注册的人。此外,我们诱导特征提取器通过完成解码器隐式感知形状知识,并为变压器提供几何关系嵌入,以获得转换 - 不变性的几何形状感知特征表示。凭借更可靠的重叠得分和更精确的密度对应关系的优点,即使对于有限的重叠区域的输入,乌托邦也可以实现稳定而准确的注册结果。关于合成和实际基准的广泛定量和定性实验证明了我们的方法优于最先进的方法。代码可从https://github.com/zhileichen99/utopic获得。
translated by 谷歌翻译
由于激光雷达扫描数据的大规模,噪音和数据不完整,注册Urban Point Clouds是一项艰巨的任务。在本文中,我们提出了SARNET,这是一个新型的语义增强注册网络,旨在在城市规模上实现有效的城市点云的注册。与以前仅在点级空间中构建对应关系的方法不同,我们的方法完全利用语义特征来提高注册精度。具体而言,我们提取具有高级语义分割网络的每点语义标签,并构建先前的语义零件到部分对应关系。然后,我们将语义信息纳入基于学习的注册管道中,该管道由三个核心模块组成:基于语义的最远点采样模块,以有效地滤除异常值和动态对象;一个语义增强的特征提取模块,用于学习更多的判别点描述符;语义改制的转换估计模块,该模块利用先前的语义匹配作为掩码,通过减少错误匹配以更好地收敛来完善点对应关系。我们通过使用来自城市场景的大区域的现实世界数据并将其与替代方法进行比较,从而广泛评估所提出的SARNET。该代码可在https://github.com/wintercodeforeverything/sarnet上找到。
translated by 谷歌翻译
最近的3D注册方法可以有效处理大规模或部分重叠的点对。然而,尽管具有实用性,但在空间尺度和密度方面与不平衡对匹配。我们提出了一种新颖的3D注册方法,称为uppnet,用于不平衡点对。我们提出了一个层次结构框架,通过逐渐减少搜索空间,可以有效地找到近距离的对应关系。我们的方法预测目标点的子区域可能与查询点重叠。以下超点匹配模块和细粒度的细化模块估计两个点云之间的准确对应关系。此外,我们应用几何约束来完善满足空间兼容性的对应关系。对应性预测是对端到端训练的,我们的方法可以通过单个前向通行率预测适当的刚体转换,并给定点云对。为了验证提出方法的疗效,我们通过增强Kitti LiDAR数据集创建Kitti-UPP数据集。该数据集的实验表明,所提出的方法显着优于最先进的成对点云注册方法,而当目标点云大约为10 $ \ times $ higation时,注册召回率的提高了78%。比查询点云大约比查询点云更密集。
translated by 谷歌翻译
生成一组高质量的对应关系或匹配是点云注册中最关键的步骤之一。本文通过共同考虑点对立的结构匹配来提出学习框架COTREG,以预测3D点云登记的对应关系。具体地,我们将这两个匹配转换为基于Wasserstein距离和基于Gromov-Wasserstein距离的优化。因此,建立对应关系的任务可以自然地重塑成耦合的最佳运输问题。此外,我们设计一个网络,以预测点云的每个点的置信度,其提供重叠区域信息以产生对应关系。我们的对应预测管道可以很容易地集成到基于学习的特征,如FCGF或FPFH等传统描述符。我们在3DMATCH,KITTI,3DCSR和ModelNet40基准上进行了全面的实验,显示了所提出的方法的最先进的性能。
translated by 谷歌翻译
部分重叠点云的实时登记具有对自治车辆和多助手SLAM的合作看法的新兴应用。这些应用中点云之间的相对转换高于传统的SLAM和OCOMOTRY应用程序,这挑战了对应的识别和成功的注册。在本文中,我们提出了一种用于部分重叠点云的新颖注册方法,其中使用有效的点亮特征编码器学习对应关系,并使用基于图形的注意网络改进。这种注意网络利用关键点之间的几何关系,以改善点云中的匹配,低重叠。在推断时间下,通过通过样本共识稳健地拟合对应关系来获得相对姿态变换。在基蒂数据集和新的合成数据集上进行评估,包括低重叠点云,位移高达30米。所提出的方法在Kitti DataSet上使用最先进的方法实现了对映射性能,并且优于低重叠点云的现有方法。此外,所提出的方法可以比竞争方法更快地实现更快的推理时间,低至410ms,低至410ms。我们的代码和数据集可在https://github.com/eduardohenriquearnold/fastreg提供。
translated by 谷歌翻译
点云注册是许多任务的基本步骤。在本文中,我们提出了一个名为detarnet的神经网络,将$ t $和旋转降序,以克服Point云注册的相互干扰导致的性能下降。首先,提出了一种基于暹罗网络的渐进和相干特征漂移(PCFD)模块以对准高维特征空间中的源点和目标点,并准确地从对准过程恢复转换。然后,我们提出了一种共识编码单元(CEU),以构建一组推定的对应关系的更区别特征。之后,采用空间和信道注意力(SCA)块来构建用于寻找良好通信的分类网络。最后,通过奇异值分解(SVD)获得旋转。以这种方式,所提出的网络对翻译和旋转的估计进行了解耦,导致它们两个的更好的性能。实验结果表明,拟议的Detarnet在室内和室外场景中提高了登记性能。我们的代码将在\ url {https://github.com/zhichen902/detarnet}中获得。
translated by 谷歌翻译
如何提取重要点云特征并估计它们之间的姿势仍然是一个具有挑战性的问题,因为点云的固有缺乏结构和暧昧的顺序排列。尽管对大多数3D计算机视觉任务的基于深度学习的方法进行了重大改进,例如对象分类,对象分割和点云注册,但功能之间的一致性在现有的基于学习的流水线上仍然没有吸引力。在本文中,我们提出了一种用于复杂对准场景的新型学习的对齐网络,标题为深度特征一致性,并由三个主模块组成:多尺度图形特征合并网络,用于将几何对应集转换为高维特征,对应加权用于构建多个候选内部子集的模块,以及命名为深度特征匹配的Procrustes方法,用于给出闭合方案来估计相对姿势。作为深度特征匹配模块的最重要步骤,构造每个Inlier子集的特征一致性矩阵以获得其主要向量作为相应子集的含义似然性。我们全面地验证了我们在3DMATCH数据集和基提ODOMOTRY数据集中的方法的鲁棒性和有效性。对于大型室内场景,3DMATCH数据集上的注册结果表明,我们的方法优于最先进的传统和基于学习的方法。对于Kitti户外场景,我们的方法仍然能够降低转换错误。我们还在交叉数据集中探讨其强大的泛化能力。
translated by 谷歌翻译
本文提出了一种可对应的点云旋转登记的方法。我们学习为每个点云嵌入保留所以(3)-equivariance属性的特征空间中的嵌入,通过最近的Quifariant神经网络的开发启用。所提出的形状登记方法通过用隐含形状模型结合等分性的特征学习来实现三个主要优点。首先,由于网络架构中类似于PointNet的网络体系结构中的置换不变性,因此删除了数据关联的必要性。其次,由于SO(3)的性能,可以使用喇叭的方法以闭合形式来解决特征空间中的注册。第三,由于注册和隐含形状重建的联合培训,注册对点云中的噪声强大。实验结果显示出优异的性能与现有的无对应的深层登记方法相比。
translated by 谷歌翻译
这项工作调查了鲁棒优化运输(OT)的形状匹配。具体而言,我们表明最近的OT溶解器改善了基于优化和深度学习方法的点云登记,以实惠的计算成本提高了准确性。此手稿从现代OT理论的实际概述开始。然后,我们为使用此框架进行形状匹配的主要困难提供解决方案。最后,我们展示了在广泛的具有挑战性任务上的运输增强的注册模型的性能:部分形状的刚性注册;基蒂数据集的场景流程估计;肺血管树的非参数和肺部血管树。我们基于OT的方法在准确性和可扩展性方面实现了基蒂的最先进的结果,并为挑战性的肺登记任务。我们还释放了PVT1010,这是一个新的公共数据集,1,010对肺血管树,具有密集的采样点。此数据集提供了具有高度复杂形状和变形的点云登记算法的具有挑战性用例。我们的工作表明,强大的OT可以为各种注册模型进行快速预订和微调,从而为计算机视觉工具箱提供新的键方法。我们的代码和数据集可在线提供:https://github.com/uncbiag/robot。
translated by 谷歌翻译
我们通过同步在点云上定义的学习函数的地图同步地图来共同寄存多种非刚性形状的新方法。尽管处理非刚性形状的能力在从计算机动画到3D数字化的各种应用中都是至关重要的,但文献仍然缺乏围绕闭塞观察到的真实,嘈杂的扫描的集合的稳健和灵活的框架。给定一组这样的点云,我们的方法首先计算通过功能映射参数化的成对对应关系。我们同时学习潜在的非正交基础函数,以有效地规范变形,同时以优雅的方式处理闭塞。为了最大限度地受益于推断成对变形字段提供的多向信息,我们通过我们的新颖和原则优化配方将成对功能映射与周期一致的整体同步。我们通过广泛的实验证明了我们的方法在注册准确性中实现了最先进的性能,同时可以灵活,高效,因为我们在统一框架中处理非刚性和多体案例并避免昂贵的优化优化通过使用基函数映射的置换。
translated by 谷歌翻译
通常,非刚性登记的问题是匹配在两个不同点拍摄的动态对象的两个不同扫描。这些扫描可以进行刚性动作和非刚性变形。由于模型的新部分可能进入视图,而其他部件在两个扫描之间堵塞,则重叠区域是两个扫描的子集。在最常规的设置中,没有给出先前的模板形状,并且没有可用的标记或显式特征点对应关系。因此,这种情况是局部匹配问题,其考虑了随后的扫描在具有大量重叠区域的情况下进行的扫描经历的假设[28]。本文在环境中寻址的问题是同时在环境中映射变形对象和本地化摄像机。
translated by 谷歌翻译
在这项工作中,我们解决了从点云数据估算对象的6D姿势的任务。尽管最近基于学习的方法解决此任务的方法在合成数据集上表现出了很大的成功,但我们观察到它们在存在现实世界数据的情况下失败了。因此,我们分析了这些故障的原因,我们将其追溯到源云和目标点云的特征分布之间的差,以及广泛使用的SVD损耗函数对两个点之间旋转范围的敏感性云。我们通过基于点对应的负模可能性引入损失函数来解决新的归一化策略,匹配归一化以及第二个挑战。我们的两个贡献是一般的,可以应用于许多现有的基于学习的3D对象注册框架,我们通过在其中两个DCP和IDAM中实现它们来说明它们。我们对现实的TUD-L,LineMod和canluded-LineMod数据集的实验证明了我们策略的好处。它们允许首次基于学习的3D对象注册方法在现实世界中获得有意义的结果。因此,我们希望它们是点云注册方法未来开发的关键。
translated by 谷歌翻译
在本文中,我们提出了一个新颖的基于本地描述符的框架,称您仅假设一次(Yoho),以注册两个未对齐的点云。与大多数依赖脆弱的局部参考框架获得旋转不变性的现有局部描述符相反,拟议的描述符通过群体epoivariant特征学习的最新技术实现了旋转不变性,这为点密度和噪声带来了更大的鲁棒性。同时,Yoho中的描述符也有一个旋转模棱两可的部分,这使我们能够从仅一个对应假设估算注册。这样的属性减少了可行变换的搜索空间,因此大大提高了Yoho的准确性和效率。广泛的实验表明,Yoho在四个广泛使用的数据集(3DMATCH/3DLOMATCH数据集,ETH数据集和WHU-TLS数据集)上实现了卓越的性能。更多详细信息在我们的项目页面中显示:https://hpwang-whu.github.io/yoho/。
translated by 谷歌翻译
We present a novel method for local image feature matching. Instead of performing image feature detection, description, and matching sequentially, we propose to first establish pixel-wise dense matches at a coarse level and later refine the good matches at a fine level. In contrast to dense methods that use a cost volume to search correspondences, we use self and cross attention layers in Transformer to obtain feature descriptors that are conditioned on both images. The global receptive field provided by Transformer enables our method to produce dense matches in low-texture areas, where feature detectors usually struggle to produce repeatable interest points. The experiments on indoor and outdoor datasets show that LoFTR outperforms state-of-the-art methods by a large margin. LoFTR also ranks first on two public benchmarks of visual localization among the published methods. Code is available at our project page: https://zju3dv.github.io/loftr/.
translated by 谷歌翻译