Recent investigations on rotation invariance for 3D point clouds have been devoted to devising rotation-invariant feature descriptors or learning canonical spaces where objects are semantically aligned. Examinations of learning frameworks for invariance have seldom been looked into. In this work, we review rotation invariance in terms of point cloud registration and propose an effective framework for rotation invariance learning via three sequential stages, namely rotation-invariant shape encoding, aligned feature integration, and deep feature registration. We first encode shape descriptors constructed with respect to reference frames defined over different scales, e.g., local patches and global topology, to generate rotation-invariant latent shape codes. Within the integration stage, we propose Aligned Integration Transformer to produce a discriminative feature representation by integrating point-wise self- and cross-relations established within the shape codes. Meanwhile, we adopt rigid transformations between reference frames to align the shape codes for feature consistency across different scales. Finally, the deep integrated feature is registered to both rotation-invariant shape codes to maximize feature similarities, such that rotation invariance of the integrated feature is preserved and shared semantic information is implicitly extracted from shape codes. Experimental results on 3D shape classification, part segmentation, and retrieval tasks prove the feasibility of our work. Our project page is released at: https://rotation3d.github.io/.
translated by 谷歌翻译
由于激光雷达扫描数据的大规模,噪音和数据不完整,注册Urban Point Clouds是一项艰巨的任务。在本文中,我们提出了SARNET,这是一个新型的语义增强注册网络,旨在在城市规模上实现有效的城市点云的注册。与以前仅在点级空间中构建对应关系的方法不同,我们的方法完全利用语义特征来提高注册精度。具体而言,我们提取具有高级语义分割网络的每点语义标签,并构建先前的语义零件到部分对应关系。然后,我们将语义信息纳入基于学习的注册管道中,该管道由三个核心模块组成:基于语义的最远点采样模块,以有效地滤除异常值和动态对象;一个语义增强的特征提取模块,用于学习更多的判别点描述符;语义改制的转换估计模块,该模块利用先前的语义匹配作为掩码,通过减少错误匹配以更好地收敛来完善点对应关系。我们通过使用来自城市场景的大区域的现实世界数据并将其与替代方法进行比较,从而广泛评估所提出的SARNET。该代码可在https://github.com/wintercodeforeverything/sarnet上找到。
translated by 谷歌翻译
对于不同的任务,已经越来越多地研究了一般点云,并且提出了最近的基于变换器的网络,用于点云分析。然而,医疗点云几乎没有相关的作品,这对疾病检测和治疗很重要。在这项工作中,我们提出了专门用于医疗点云的关注模型,即3D医疗点变压器(3Dmedpt),以检查复杂的生物结构。通过增强上下文信息并在查询时总结本地响应,我们的注意模块可以捕获本地上下文和全局内容功能交互。然而,医疗数据的培训样本不足可能导致特征学习差,因此我们应用位置嵌入,以学习准确的局部几何和多图形推理(MGR)来检查通过通道图的全局知识传播,以丰富特征表示。在数据集内进行的实验证明了3DMedpt的优越性,在那里我们达到了最佳分类和分割结果。此外,我们的方法的有希望的泛化能力在一般的3D点云基准测试中验证:ModelNet40和ShapenetPart。代码即将发布。
translated by 谷歌翻译
点云的语义分割,旨在为每个点分配语义类别,对3D场景的理解至关重要。尽管近年来取得了重大进展,但大多数现有方法仍然遭受对象级别的错误分类或边界级别的歧义。在本文中,我们通过深入探索被称为Geosegnet的点云的几何形状来提出一个强大的语义分割网络。我们的Geosegnet由一个基于多几何的编码器和边界引导的解码器组成。在编码器中,我们从多几何的角度开发了一个新的残差几何模块,以提取对象级特征。在解码器中,我们引入了一个对比边界学习模块,以增强边界点的几何表示。从几何编码器模型中受益,我们的GEOSEGNET可以在使两个或多个对象的相交(边界)清晰地确定对象的分割。从总体分割精度和对象边界清除方面,实验显示了我们方法对竞争对手的明显改善。代码可在https://github.com/chen-yuiyui/geosegnet上找到。
translated by 谷歌翻译
成功的点云注册依赖于在强大的描述符上建立的准确对应关系。但是,现有的神经描述符要么利用旋转变化的主链,其性能在较大的旋转下下降,要么编码局部几何形状,而局部几何形状不太明显。为了解决这个问题,我们介绍Riga以学习由设计和全球了解的旋转不变的描述符。从稀疏局部区域的点对特征(PPF)中,旋转不变的局部几何形状被编码为几何描述符。随后,全球对3D结构和几何环境的认识都以旋转不变的方式合并。更具体地说,整个框架的3D结构首先由我们的全球PPF签名表示,从中学到了结构描述符,以帮助几何描述符感知本地区域以外的3D世界。然后将整个场景的几何上下文全局汇总到描述符中。最后,将稀疏区域的描述插值到密集的点描述符,从中提取对应关系进行注册。为了验证我们的方法,我们对对象和场景级数据进行了广泛的实验。在旋转较大的情况下,Riga就模型Net40的相对旋转误差而超过了最先进的方法8 \度,并将特征匹配的回忆提高了3DLOMATCH上的至少5个百分点。
translated by 谷歌翻译
点云识别是工业机器人和自主驾驶中的重要任务。最近,几个点云处理模型已经实现了最先进的表演。然而,这些方法缺乏旋转稳健性,并且它们的性能严重降低了随机旋转,未能扩展到具有不同方向的现实情景。为此,我们提出了一种名为基于自行轮廓的转换(SCT)的方法,该方法可以灵活地集成到针对任意旋转的各种现有点云识别模型中。 SCT通过引入轮廓感知的转换(CAT)提供有效的旋转和翻译不变性,该转换(CAT)线性地将点数的笛卡尔坐标转换为翻译和旋转 - 不变表示。我们证明猫是一种基于理论分析的旋转和翻译不变的转换。此外,提出了帧对准模块来增强通过捕获轮廓并将基于自平台的帧转换为帧内帧来增强鉴别特征提取。广泛的实验结果表明,SCT在合成和现实世界基准的有效性和效率的任意旋转下表现出最先进的方法。此外,稳健性和一般性评估表明SCT是稳健的,适用于各种点云处理模型,它突出了工业应用中SCT的优势。
translated by 谷歌翻译
点云分析没有姿势前导者在真实应用中非常具有挑战性,因为点云的方向往往是未知的。在本文中,我们提出了一个全新的点集学习框架prin,即点亮旋转不变网络,专注于点云分析中的旋转不变特征提取。我们通过密度意识的自适应采样构建球形信号,以处理球形空间中的扭曲点分布。提出了球形Voxel卷积和点重新采样以提取每个点的旋转不变特征。此外,我们将Prin扩展到称为Sprin的稀疏版本,直接在稀疏点云上运行。 Prin和Sprin都可以应用于从对象分类,部分分割到3D特征匹配和标签对齐的任务。结果表明,在随机旋转点云的数据集上,Sprin比无任何数据增强的最先进方法表现出更好的性能。我们还为我们的方法提供了彻底的理论证明和分析,以实现我们的方法实现的点明智的旋转不变性。我们的代码可在https://github.com/qq456cvb/sprin上找到。
translated by 谷歌翻译
Point cloud learning has lately attracted increasing attention due to its wide applications in many areas, such as computer vision, autonomous driving, and robotics. As a dominating technique in AI, deep learning has been successfully used to solve various 2D vision problems. However, deep learning on point clouds is still in its infancy due to the unique challenges faced by the processing of point clouds with deep neural networks. Recently, deep learning on point clouds has become even thriving, with numerous methods being proposed to address different problems in this area. To stimulate future research, this paper presents a comprehensive review of recent progress in deep learning methods for point clouds. It covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. It also presents comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions.
translated by 谷歌翻译
3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译
变压器一直是自然语言处理(NLP)和计算机视觉(CV)革命的核心。 NLP和CV的显着成功启发了探索变压器在点云处理中的使用。但是,变压器如何应对点云的不规则性和无序性质?变压器对于不同的3D表示(例如,基于点或体素)的合适性如何?各种3D处理任务的变压器有多大的能力?截至目前,仍然没有对这些问题的研究进行系统的调查。我们第一次为3D点云分析提供了越来越受欢迎的变压器的全面概述。我们首先介绍变压器体系结构的理论,并在2D/3D字段中审查其应用程序。然后,我们提出三种不同的分类法(即实现 - 数据表示和基于任务),它们可以从多个角度对当前的基于变压器的方法进行分类。此外,我们介绍了研究3D中自我注意机制的变异和改进的结果。为了证明变压器在点云分析中的优势,我们提供了基于各种变压器的分类,分割和对象检测方法的全面比较。最后,我们建议三个潜在的研究方向,为3D变压器的开发提供福利参考。
translated by 谷歌翻译
由于稀疏和嘈杂的测量,不完整的观察和大转化,3D对象的点云注册是非常具有挑战性的。在这项工作中,我们提出了匹配共识网络(GMCNet)的图表匹配,该网络估计了ultrange 1偏向部分点云注册(PPR)的姿势不变的对应关系。为了编码强大的点描述符,1)我们首先全面调查各种几何特征的变换 - 鲁棒性和远征性。 2)然后,我们采用新颖的转换 - 强大的点变换器(TPT)模块,以自适应地聚合有关结构关系的本地特征,其利用手工旋转 - 不变($ RI $)功能和噪声弹性空间坐标。 3)基于分层图网络网络和图形建模的协同作用,我们提出了编码由I)从$ RI $特征中汲取的一项机会学习的强大描述符的分层图形建模(HGM)架构;并且ii)通过我们的TPT模块以不同尺度的相邻点关系编码的多个平滑术语。此外,我们用虚拟扫描构建一个具有挑战性的PPR数据集(MVP-RG)。广泛的实验表明,GMCNet优于PPR以前的最先进方法。值得注意的是,GMCNET编码每个点云的点描述符,而不使用CrossContexual信息,或接地真理对应进行培训。我们的代码和数据集将在https://github.com/paul007pl/gmcnet上获得。
translated by 谷歌翻译
The irregular domain and lack of ordering make it challenging to design deep neural networks for point cloud processing. This paper presents a novel framework named Point Cloud Transformer(PCT) for point cloud learning. PCT is based on Transformer, which achieves huge success in natural language processing and displays great potential in image processing. It is inherently permutation invariant for processing a sequence of points, making it well-suited for point cloud learning. To better capture local context within the point cloud, we enhance input embedding with the support of farthest point sampling and nearest neighbor search. Extensive experiments demonstrate that the PCT achieves the state-of-the-art performance on shape classification, part segmentation, semantic segmentation and normal estimation tasks.
translated by 谷歌翻译
学习3D点云的新表示形式是3D视觉中的一个活跃研究领域,因为订单不变的点云结构仍然对神经网络体系结构的设计构成挑战。最近的作品探索了学习全球或本地功能或两者兼而有之,但是均未通过分析点的局部方向分布来捕获上下文形状信息的早期方法。在本文中,我们利用点附近的点方向分布,以获取点云的表现力局部邻里表示。我们通过将给定点的球形邻域分为预定义的锥体来实现这一目标,并将每个体积内部的统计数据用作点特征。这样,本地贴片不仅可以由所选点的最近邻居表示,还可以考虑沿该点周围多个方向定义的点密度分布。然后,我们能够构建涉及依赖MLP(多层感知器)层的Odfblock的方向分布函数(ODF)神经网络。新的ODFNET模型可实现ModelNet40和ScanObjectNN数据集的对象分类的最新精度,并在Shapenet S3DIS数据集上进行分割。
translated by 谷歌翻译
由于缺乏连接性信息,对局部表面几何形状进行建模在3D点云的理解中具有挑战性。大多数先前的作品使用各种卷积操作模拟本地几何形状。我们观察到,卷积可以等效地分解为局部和全球成分的加权组合。通过这种观察,我们明确地将这两个组件解散了,以便可以增强局部的组件并促进局部表面几何形状的学习。具体而言,我们提出了Laplacian单元(LU),这是一个简单而有效的建筑单元,可以增强局部几何学的学习。广泛的实验表明,配备有LU的网络在典型的云理解任务上实现了竞争性或卓越的性能。此外,通过建立平均曲率流之间的连接,基于曲率的LU进行了进一步研究,以解释LU的自适应平滑和锐化效果。代码将可用。
translated by 谷歌翻译
学习地区内部背景和区域间关系是加强点云分析的特征表示的两项有效策略。但是,在现有方法中没有完全强调的统一点云表示的两种策略。为此,我们提出了一种名为点关系感知网络(PRA-NET)的小说框架,其由区域内结构学习(ISL)模块和区域间关系学习(IRL)模块组成。ISL模块可以通过可差的区域分区方案和基于代表的基于点的策略自适应和有效地将本地结构信息动态地集成到点特征中,而IRL模块可自适应和有效地捕获区域间关系。在涵盖形状分类,关键点估计和部分分割的几个3D基准测试中的广泛实验已经验证了PRA-Net的有效性和泛化能力。代码将在https://github.com/xiwuchen/pra-net上获得。
translated by 谷歌翻译
Point cloud analysis is challenging due to irregularity and unordered data structure. To capture the 3D geometries, prior works mainly rely on exploring sophisticated local geometric extractors using convolution, graph, or attention mechanisms. These methods, however, incur unfavorable latency during inference, and the performance saturates over the past few years. In this paper, we present a novel perspective on this task. We notice that detailed local geometrical information probably is not the key to point cloud analysis -- we introduce a pure residual MLP network, called PointMLP, which integrates no sophisticated local geometrical extractors but still performs very competitively. Equipped with a proposed lightweight geometric affine module, PointMLP delivers the new state-of-the-art on multiple datasets. On the real-world ScanObjectNN dataset, our method even surpasses the prior best method by 3.3% accuracy. We emphasize that PointMLP achieves this strong performance without any sophisticated operations, hence leading to a superior inference speed. Compared to most recent CurveNet, PointMLP trains 2x faster, tests 7x faster, and is more accurate on ModelNet40 benchmark. We hope our PointMLP may help the community towards a better understanding of point cloud analysis. The code is available at https://github.com/ma-xu/pointMLP-pytorch.
translated by 谷歌翻译
变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性,变压器已被用作广泛使用的卷积运算符的替代品。事实证明,这种替代者在许多任务中都取得了成功,其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中,3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上,但由于与2D视觉相比,由于数据表示和处理的差异,3D视觉需要特别注意。在这项工作中,我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查,包括分类,细分,检测,完成,姿势估计等。我们在3D Vision中讨论了变形金刚的设计,该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序,我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力,我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外,我们的目标是频繁更新最新的相关论文及其相应的实现:https://github.com/lahoud/3d-vision-transformers。
translated by 谷歌翻译
我们为3D点云提出了一种自我监督的胶囊架构。我们通过置换等级的注意力计算对象的胶囊分解,并通过用对随机旋转对象的对进行自我监督处理。我们的主要思想是将注意力掩码汇总为语义关键点,并使用这些来监督满足胶囊不变性/设备的分解。这不仅能够培训语义一致的分解,而且还允许我们学习一个能够以对客观的推理的规范化操作。培训我们的神经网络,我们既不需要分类标签也没有手动对齐训练数据集。然而,通过以自我监督方式学习以对象形式的表示,我们的方法在3D点云重建,规范化和无监督的分类上表现出最先进的。
translated by 谷歌翻译
Point cloud completion is a generation and estimation issue derived from the partial point clouds, which plays a vital role in the applications in 3D computer vision. The progress of deep learning (DL) has impressively improved the capability and robustness of point cloud completion. However, the quality of completed point clouds is still needed to be further enhanced to meet the practical utilization. Therefore, this work aims to conduct a comprehensive survey on various methods, including point-based, convolution-based, graph-based, and generative model-based approaches, etc. And this survey summarizes the comparisons among these methods to provoke further research insights. Besides, this review sums up the commonly used datasets and illustrates the applications of point cloud completion. Eventually, we also discussed possible research trends in this promptly expanding field.
translated by 谷歌翻译
在本文中,我们提出了一个新颖的基于本地描述符的框架,称您仅假设一次(Yoho),以注册两个未对齐的点云。与大多数依赖脆弱的局部参考框架获得旋转不变性的现有局部描述符相反,拟议的描述符通过群体epoivariant特征学习的最新技术实现了旋转不变性,这为点密度和噪声带来了更大的鲁棒性。同时,Yoho中的描述符也有一个旋转模棱两可的部分,这使我们能够从仅一个对应假设估算注册。这样的属性减少了可行变换的搜索空间,因此大大提高了Yoho的准确性和效率。广泛的实验表明,Yoho在四个广泛使用的数据集(3DMATCH/3DLOMATCH数据集,ETH数据集和WHU-TLS数据集)上实现了卓越的性能。更多详细信息在我们的项目页面中显示:https://hpwang-whu.github.io/yoho/。
translated by 谷歌翻译