这项工作调查了鲁棒优化运输(OT)的形状匹配。具体而言,我们表明最近的OT溶解器改善了基于优化和深度学习方法的点云登记,以实惠的计算成本提高了准确性。此手稿从现代OT理论的实际概述开始。然后,我们为使用此框架进行形状匹配的主要困难提供解决方案。最后,我们展示了在广泛的具有挑战性任务上的运输增强的注册模型的性能:部分形状的刚性注册;基蒂数据集的场景流程估计;肺血管树的非参数和肺部血管树。我们基于OT的方法在准确性和可扩展性方面实现了基蒂的最先进的结果,并为挑战性的肺登记任务。我们还释放了PVT1010,这是一个新的公共数据集,1,010对肺血管树,具有密集的采样点。此数据集提供了具有高度复杂形状和变形的点云登记算法的具有挑战性用例。我们的工作表明,强大的OT可以为各种注册模型进行快速预订和微调,从而为计算机视觉工具箱提供新的键方法。我们的代码和数据集可在线提供:https://github.com/uncbiag/robot。
translated by 谷歌翻译
我们通过同步在点云上定义的学习函数的地图同步地图来共同寄存多种非刚性形状的新方法。尽管处理非刚性形状的能力在从计算机动画到3D数字化的各种应用中都是至关重要的,但文献仍然缺乏围绕闭塞观察到的真实,嘈杂的扫描的集合的稳健和灵活的框架。给定一组这样的点云,我们的方法首先计算通过功能映射参数化的成对对应关系。我们同时学习潜在的非正交基础函数,以有效地规范变形,同时以优雅的方式处理闭塞。为了最大限度地受益于推断成对变形字段提供的多向信息,我们通过我们的新颖和原则优化配方将成对功能映射与周期一致的整体同步。我们通过广泛的实验证明了我们的方法在注册准确性中实现了最先进的性能,同时可以灵活,高效,因为我们在统一框架中处理非刚性和多体案例并避免昂贵的优化优化通过使用基函数映射的置换。
translated by 谷歌翻译
生成一组高质量的对应关系或匹配是点云注册中最关键的步骤之一。本文通过共同考虑点对立的结构匹配来提出学习框架COTREG,以预测3D点云登记的对应关系。具体地,我们将这两个匹配转换为基于Wasserstein距离和基于Gromov-Wasserstein距离的优化。因此,建立对应关系的任务可以自然地重塑成耦合的最佳运输问题。此外,我们设计一个网络,以预测点云的每个点的置信度,其提供重叠区域信息以产生对应关系。我们的对应预测管道可以很容易地集成到基于学习的特征,如FCGF或FPFH等传统描述符。我们在3DMATCH,KITTI,3DCSR和ModelNet40基准上进行了全面的实验,显示了所提出的方法的最先进的性能。
translated by 谷歌翻译
Point Cloud Registration is the problem of aligning the corresponding points of two 3D point clouds referring to the same object. The challenges include dealing with noise and partial match of real-world 3D scans. For non-rigid objects, there is an additional challenge of accounting for deformations in the object shape that happen to the object in between the two 3D scans. In this project, we study the problem of non-rigid point cloud registration for use cases in the Augmented/Mixed Reality domain. We focus our attention on a special class of non-rigid deformations that happen in rigid objects with parts that move relative to one another about joints, for example, robots with hands and machines with hinges. We propose an efficient and robust point-cloud registration workflow for such objects and evaluate it on real-world data collected using Microsoft Hololens 2, a leading Mixed Reality Platform.
translated by 谷歌翻译
通常,非刚性登记的问题是匹配在两个不同点拍摄的动态对象的两个不同扫描。这些扫描可以进行刚性动作和非刚性变形。由于模型的新部分可能进入视图,而其他部件在两个扫描之间堵塞,则重叠区域是两个扫描的子集。在最常规的设置中,没有给出先前的模板形状,并且没有可用的标记或显式特征点对应关系。因此,这种情况是局部匹配问题,其考虑了随后的扫描在具有大量重叠区域的情况下进行的扫描经历的假设[28]。本文在环境中寻址的问题是同时在环境中映射变形对象和本地化摄像机。
translated by 谷歌翻译
在两个非辅助变形形状之间建立对应关系是视觉计算中最根本的问题之一。当对现实世界中的挑战(例如噪声,异常值,自我结合等)挑战时,现有方法通常会显示出弱的弹性。另一方面,自动描述器在学习几何学上有意义的潜在嵌入方面表现出强大的表现力。但是,它们在\ emph {形状分析}中的使用受到限制。在本文中,我们介绍了一种基于自动码头框架的方法,该方法在固定模板上学习了一个连续形状的变形字段。通过监督点在表面上的变形场,并通过小说\ emph {签名距离正则化}(SDR)正规化点偏面的正规化,我们学习了模板和Shape \ Emph {卷}之间的对齐。经过干净的水密网眼培训,\ emph {没有}任何数据启发,我们证明了在受损的数据和现实世界扫描上表现出令人信服的性能。
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
我们提出了一种从一系列时间演化点云序列中对时间一致的表面序列的无监督重建的方法。它在帧之间产生了密集和语义有意义的对应关系。我们将重建的表面代表由神经网络计算的Atlases,这使我们能够在帧之间建立对应关系。使这些对应关系的关键是语义上有意义的是为了保证在相应点计算的度量张量和尽可能相似。我们设计了一种优化策略,使我们的方法能够强大地对噪声和全局动作,而无需先验的对应关系或预先对准步骤。结果,我们的方法在几个具有挑战性的数据集中占据了最先进的。该代码可在https://github.com/bednarikjan/temporally_coherent_surface_reconstruction附近获得。
translated by 谷歌翻译
我们提出了一种新的方法,可以在点云对之间进行无监督的形状对应学习。我们首次尝试适应经典的局部线性嵌入算法(LLE)(最初是为非线性维度降低)的形状对应关系的。关键思想是通过首先获得低维点云的高维邻域保护嵌入,然后使用局部线性转换对源和目标嵌入对齐,从而找到形状之间的密集对应。我们证明,使用新的LLE启发的点云重建目标学习嵌入会产生准确的形状对应关系。更具体地说,该方法包括一个端到端的可学习框架,该框架是提取高维邻域保护的嵌入,估算嵌入空间中的局部线性变换,以及通过基于差异测量的构建构建的概率密度函数的对准形状,并重建形状。目标形状。我们的方法强制将形状的嵌入在对应中,以放置在相同的通用/规范嵌入空间中,最终有助于正规化学习过程,并导致形状嵌入之间的简单最近的邻居接近以找到可靠的对应关系。全面的实验表明,新方法对涵盖人类和非人类形状的标准形状信号基准数据集进行了明显的改进。
translated by 谷歌翻译
许多注册方法都存在着早期工作,重点是基于优化的图像对方法。最近的工作着重于深度注册网络,以预测空间转换。在这两种情况下,通常使用的非参数登记模型,该模型估计转换功能而不是低维转换参数,都需要选择合适的正常器(鼓励平滑转换)及其参数。这使得模型难以调整,并将变形限制为所选正规器允许的变形空间。尽管存在不正常转换的光流的深度学习模型,而是完全依赖于数据,这些模型可能不会产生对医学图像注册期望的差异转换。因此,在这项工作中,我们在无监督的图标深度学习登记方法上开发了Gradicon,该方法仅使用逆矛盾进行正则化。但是,与图标相反,我们证明并从经验上验证,使用梯度反矛盾损失不仅显着改善了收敛性,而且还会导致所得转换图的类似隐式正则化。磁共振(MR)膝关节图像和计算机断层扫描(CT)肺图像的合成实验和实验表明Gradicon的表现出色。我们在保留简单的注册公式的同时,实现了最新的(SOTA)精度,这实际上很重要。
translated by 谷歌翻译
Point cloud completion is a generation and estimation issue derived from the partial point clouds, which plays a vital role in the applications in 3D computer vision. The progress of deep learning (DL) has impressively improved the capability and robustness of point cloud completion. However, the quality of completed point clouds is still needed to be further enhanced to meet the practical utilization. Therefore, this work aims to conduct a comprehensive survey on various methods, including point-based, convolution-based, graph-based, and generative model-based approaches, etc. And this survey summarizes the comparisons among these methods to provoke further research insights. Besides, this review sums up the commonly used datasets and illustrates the applications of point cloud completion. Eventually, we also discussed possible research trends in this promptly expanding field.
translated by 谷歌翻译
We present VoxelMorph, a fast learning-based framework for deformable, pairwise medical image registration. Traditional registration methods optimize an objective function for each pair of images, which can be time-consuming for large datasets or rich deformation models. In contrast to this approach, and building on recent learning-based methods, we formulate registration as a function that maps an input image pair to a deformation field that aligns these images. We parameterize the function via a convolutional neural network (CNN), and optimize the parameters of the neural network on a set of images. Given a new pair of scans, VoxelMorph rapidly computes a deformation field by directly evaluating the function. In this work, we explore two different training strategies. In the first (unsupervised) setting, we train the model to maximize standard image matching objective functions that are based on the image intensities. In the second setting, we leverage auxiliary segmentations available in the training data. We demonstrate that the unsupervised model's accuracy is comparable to state-of-the-art methods, while operating orders of magnitude faster. We also show that VoxelMorph trained with auxiliary data improves registration accuracy at test time, and evaluate the effect of training set size on registration. Our method promises to speed up medical image analysis and processing pipelines, while facilitating novel directions in learning-based registration and its applications. Our code is freely available at http://voxelmorph.csail.mit.edu.
translated by 谷歌翻译
非刚性注册以非刚性方式与目标形状保持一致的源形状变形,是计算机视觉中的经典问题。由于数据(噪声,离群值和部分重叠)和高度自由度,因此此类问题可能具有挑战性。现有方法通常采用$ \ ell_ {p} $键入鲁棒标准来测量对齐误差并规范变形的平滑度,并使用近端算法来解决所得的非平滑优化问题。但是,这种算法的缓慢收敛性限制了其广泛的应用。在本文中,我们提出了一种基于全球平稳的稳健标准进行对齐和正则化的稳健非刚性登记的公式,该规范可以有效地处理异常值和部分重叠。使用大型最小化算法解决了该问题,该算法将每次迭代减少到使用封闭形式的解决方案的凸二次问题。我们进一步应用安德森加速度以加快求解器的收敛性,使求解器能够在具有有限的计算能力的设备上有效运行。广泛的实验证明了我们方法在两种形状之间具有异常值和部分重叠的形状之间的非刚性比对的有效性,并进行定量评估表明,就注册准确性和计算速度而言,它的表现优于最先进的方法。源代码可从https://github.com/yaoyx689/amm_nrr获得。
translated by 谷歌翻译
了解3D场景是自治代理的关键先决条件。最近,LIDAR和其他传感器已经以点云帧的时间序列形式提供了大量数据。在这项工作中,我们提出了一种新的问题 - 顺序场景流量估计(SSFE) - 该旨在预测给定序列中所有点云的3D场景流。这与先前研究的场景流程估计问题不同,这侧重于两个框架。我们介绍SPCM-NET架构,通过计算相邻点云之间的多尺度时空相关性,然后通过订单不变的复制单元计算多级时空相关性来解决这个问题。我们的实验评估证实,与仅使用两个框架相比,点云序列的复发处理导致SSFE明显更好。另外,我们证明可以有效地修改该方法,用于顺序点云预测(SPF),一种需要预测未来点云帧的相关问题。我们的实验结果是使用SSFE和SPF的新基准进行评估,包括合成和实时数据集。以前,场景流估计的数据集仅限于两个帧。我们为这些数据集提供非琐碎的扩展,用于多帧估计和预测。由于难以获得现实世界数据集的地面真理运动,我们使用自我监督的培训和评估指标。我们认为,该基准将在该领域的未来研究中关键。将可访问基准和型号的所有代码。
translated by 谷歌翻译
迄今为止,迄今为止,众所周知,对广泛的互补临床相关任务进行了全面比较了医学图像登记方法。这限制了采用研究进展,以防止竞争方法的公平基准。在过去五年内已经探讨了许多新的学习方法,但优化,建筑或度量战略的问题非常适合仍然是开放的。 Learn2reg涵盖了广泛的解剖学:脑,腹部和胸部,方式:超声波,CT,MRI,群体:患者内部和患者内部和监督水平。我们为3D注册的培训和验证建立了较低的入境障碍,这帮助我们从20多个独特的团队中汇编了65多个单独的方法提交的结果。我们的互补度量集,包括稳健性,准确性,合理性和速度,使得能够独特地位了解当前的医学图像登记现状。进一步分析监督问题的转移性,偏见和重要性,主要是基于深度学习的方法的优越性,并将新的研究方向开放到利用GPU加速的常规优化的混合方法。
translated by 谷歌翻译
3D point cloud registration is a fundamental problem in computer vision and robotics. Recently, learning-based point cloud registration methods have made great progress. However, these methods are sensitive to outliers, which lead to more incorrect correspondences. In this paper, we propose a novel deep graph matching-based framework for point cloud registration. Specifically, we first transform point clouds into graphs and extract deep features for each point. Then, we develop a module based on deep graph matching to calculate a soft correspondence matrix. By using graph matching, not only the local geometry of each point but also its structure and topology in a larger range are considered in establishing correspondences, so that more correct correspondences are found. We train the network with a loss directly defined on the correspondences, and in the test stage the soft correspondences are transformed into hard one-to-one correspondences so that registration can be performed by a correspondence-based solver. Furthermore, we introduce a transformer-based method to generate edges for graph construction, which further improves the quality of the correspondences. Extensive experiments on object-level and scene-level benchmark datasets show that the proposed method achieves state-of-the-art performance. The code is available at: \href{https://github.com/fukexue/RGM}{https://github.com/fukexue/RGM}.
translated by 谷歌翻译
循环闭合检测是同时定位和映射(SLAM)系统的重要组成部分,这减少了随时间累积的漂移。多年来,已经提出了一些深入的学习方法来解决这项任务,但是与手工制作技术相比,他们的表现一直是SubPar,特别是在处理反向环的同时。在本文中,我们通过同时识别先前访问的位置并估计当前扫描与地图之间的6-DOF相对变换,有效地检测LIDAR点云中的LINAS点云中的环闭环的新颖LCDNET。 LCDNET由共享编码器组成,一个地方识别头提取全局描述符,以及估计两个点云之间的变换的相对姿势头。我们基于不平衡的最佳运输理论介绍一种新颖的相对姿势,我们以可分散的方式实现,以便实现端到端训练。在多个现实世界自主驾驶数据集中的LCDNET广泛评估表明我们的方法优于最先进的环路闭合检测和点云登记技术,特别是在处理反向环的同时。此外,我们将所提出的循环闭合检测方法集成到LIDAR SLAM库中,以提供完整的映射系统,并在看不见的城市中使用不同的传感器设置展示泛化能力。
translated by 谷歌翻译
我们提出了一种基于学习的刚性和可变形场景的基于学习方法的方法。LePard的关键特征是利用点云匹配的3D位置知识的以下方法:1)将点云表示分为特征空间和3D位置空间的架构。2)一种位置编码方法,其通过向量的点产品明确地明确地揭示了3D相对距离信息。3)修改交叉点云相对位置的重新定位技术。消融研究证明了上述技术的有效性。对于刚性点云匹配,Lepard在3DMatch / 3DLomatch基准上为93.6%/ 69.0%的注册召回设置了新的最先进的。在可变形的情况下,Lepard达到+ 27.1%/ + 34.8%的非刚性特征匹配召回,而不是我们新建的4dmatch / 4dlomatch基准测试的现有技术。
translated by 谷歌翻译
由于激光雷达扫描数据的大规模,噪音和数据不完整,注册Urban Point Clouds是一项艰巨的任务。在本文中,我们提出了SARNET,这是一个新型的语义增强注册网络,旨在在城市规模上实现有效的城市点云的注册。与以前仅在点级空间中构建对应关系的方法不同,我们的方法完全利用语义特征来提高注册精度。具体而言,我们提取具有高级语义分割网络的每点语义标签,并构建先前的语义零件到部分对应关系。然后,我们将语义信息纳入基于学习的注册管道中,该管道由三个核心模块组成:基于语义的最远点采样模块,以有效地滤除异常值和动态对象;一个语义增强的特征提取模块,用于学习更多的判别点描述符;语义改制的转换估计模块,该模块利用先前的语义匹配作为掩码,通过减少错误匹配以更好地收敛来完善点对应关系。我们通过使用来自城市场景的大区域的现实世界数据并将其与替代方法进行比较,从而广泛评估所提出的SARNET。该代码可在https://github.com/wintercodeforeverything/sarnet上找到。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译