借助深度学习范式,许多点云网络已经发明了用于视觉分析。然而,由于点云数据的给定信息尚未完全利用,因此对这些网络的发展存在很大的潜力。为了提高现有网络在分析点云数据中的有效性,我们提出了一个即插即用模块,PNP-3D,旨在通过涉及更多来自显式3D空间的本地背景和全球双线性响应来改进基本点云特征表示隐含的功能空间。为了彻底评估我们的方法,我们对三个标准点云分析任务进行实验,包括分类,语义分割和对象检测,在那里我们从每个任务中选择三个最先进的网络进行评估。作为即插即用模块,PNP-3D可以显着提高已建立的网络的性能。除了在四个广泛使用的点云基准测试中实现最先进的结果,我们还提供了全面的消融研究和可视化,以展示我们的方法的优势。代码将在https://github.com/shiqiu0419/pnp-3d上获得。
translated by 谷歌翻译
鉴于3D扫描仪的快速发展,Point云在AI驱动的机器中变得流行。但是,点云数据本质上是稀疏和不规则的,导致机器感知的主要困难。在这项工作中,我们专注于云上采样任务,该任务旨在从稀疏输入数据生成密集的高保真点云。具体而言,为了激活变压器在代表功能方面的强大功能,我们开发了多头自我关注结构的新变体,以增强特征图的点明智和渠道关系。此外,我们利用位置融合块来全面地捕获点云数据的本地背景,提供有关分散点的更多位置相关信息。由于第一变压器模型引入点云上采样,我们通过与定量和定性的不同基准的基于基准的方法相比,通过比较了我们的方法的出色性能。
translated by 谷歌翻译
变压器一直是自然语言处理(NLP)和计算机视觉(CV)革命的核心。 NLP和CV的显着成功启发了探索变压器在点云处理中的使用。但是,变压器如何应对点云的不规则性和无序性质?变压器对于不同的3D表示(例如,基于点或体素)的合适性如何?各种3D处理任务的变压器有多大的能力?截至目前,仍然没有对这些问题的研究进行系统的调查。我们第一次为3D点云分析提供了越来越受欢迎的变压器的全面概述。我们首先介绍变压器体系结构的理论,并在2D/3D字段中审查其应用程序。然后,我们提出三种不同的分类法(即实现 - 数据表示和基于任务),它们可以从多个角度对当前的基于变压器的方法进行分类。此外,我们介绍了研究3D中自我注意机制的变异和改进的结果。为了证明变压器在点云分析中的优势,我们提供了基于各种变压器的分类,分割和对象检测方法的全面比较。最后,我们建议三个潜在的研究方向,为3D变压器的开发提供福利参考。
translated by 谷歌翻译
变压器在图像处理领域取得了显着的成就。受到这一巨大成功的启发,变形金刚在3D点云处理中的应用引起了越来越多的关注。本文提出了一个新颖的点云表示学习网络,具有双重自我注意的3D点云变压器(3DPCT)和一个编码器解码器结构。具体而言,3DPCT具有一个层次编码器,该编码器包含两个用于分类任务的局部全球双重注意模块(分段任务的三个模块),每个模块都包含一个局部特征聚合(LFA)块和全局特征学习( GFL)块。 GFL块是双重的自我注意事项,既有在点上的自我注意力,又可以提高特征提取。此外,在LFA中,为更好地利用了提取的本地信息,设计了一种新颖的点自我发明模型,称为点斑点自我注意力(PPSA)。在分类和分割数据集上都评估了性能,其中包含合成数据和现实世界数据。广泛的实验表明,所提出的方法在分类和分割任务上都达到了最新的结果。
translated by 谷歌翻译
3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译
通过当地地区的点特征聚合来捕获的细粒度几何是对象识别和场景理解在点云中的关键。然而,现有的卓越点云骨架通常包含最大/平均池用于局部特征聚集,这在很大程度上忽略了点的位置分布,导致细粒结构组装不足。为了缓解这一瓶颈,我们提出了一个有效的替代品,可以使用新颖的图形表示明确地模拟了本地点之间的空间关系,并以位置自适应方式聚合特征,从而实现位置敏感的表示聚合特征。具体而言,Papooling分别由两个关键步骤,图形结构和特征聚合组成,分别负责构造与将中心点连接的边缘与本地区域中的每个相邻点连接的曲线图组成,以将它们的相对位置信息映射到通道 - 明智的细心权重,以及基于通过图形卷积网络(GCN)的生成权重自适应地聚合局部点特征。 Papooling简单而且有效,并且足够灵活,可以随时为PointNet ++和DGCNN等不同的流行律源,作为即插即说运算符。关于各种任务的广泛实验,从3D形状分类,部分分段对场景分割良好的表明,伪装可以显着提高预测准确性,而具有最小的额外计算开销。代码将被释放。
translated by 谷歌翻译
Point cloud learning has lately attracted increasing attention due to its wide applications in many areas, such as computer vision, autonomous driving, and robotics. As a dominating technique in AI, deep learning has been successfully used to solve various 2D vision problems. However, deep learning on point clouds is still in its infancy due to the unique challenges faced by the processing of point clouds with deep neural networks. Recently, deep learning on point clouds has become even thriving, with numerous methods being proposed to address different problems in this area. To stimulate future research, this paper presents a comprehensive review of recent progress in deep learning methods for point clouds. It covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. It also presents comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions.
translated by 谷歌翻译
学习地区内部背景和区域间关系是加强点云分析的特征表示的两项有效策略。但是,在现有方法中没有完全强调的统一点云表示的两种策略。为此,我们提出了一种名为点关系感知网络(PRA-NET)的小说框架,其由区域内结构学习(ISL)模块和区域间关系学习(IRL)模块组成。ISL模块可以通过可差的区域分区方案和基于代表的基于点的策略自适应和有效地将本地结构信息动态地集成到点特征中,而IRL模块可自适应和有效地捕获区域间关系。在涵盖形状分类,关键点估计和部分分割的几个3D基准测试中的广泛实验已经验证了PRA-Net的有效性和泛化能力。代码将在https://github.com/xiwuchen/pra-net上获得。
translated by 谷歌翻译
变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性,变压器已被用作广泛使用的卷积运算符的替代品。事实证明,这种替代者在许多任务中都取得了成功,其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中,3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上,但由于与2D视觉相比,由于数据表示和处理的差异,3D视觉需要特别注意。在这项工作中,我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查,包括分类,细分,检测,完成,姿势估计等。我们在3D Vision中讨论了变形金刚的设计,该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序,我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力,我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外,我们的目标是频繁更新最新的相关论文及其相应的实现:https://github.com/lahoud/3d-vision-transformers。
translated by 谷歌翻译
随着激光雷达传感器和3D视觉摄像头的扩散,3D点云分析近年来引起了重大关注。经过先驱工作点的成功后,基于深度学习的方法越来越多地应用于各种任务,包括3D点云分段和3D对象分类。在本文中,我们提出了一种新颖的3D点云学习网络,通过选择性地执行具有动态池的邻域特征聚合和注意机制来提出作为动态点特征聚合网络(DPFA-NET)。 DPFA-Net有两个可用于三维云的语义分割和分类的变体。作为DPFA-NET的核心模块,我们提出了一个特征聚合层,其中每个点的动态邻域的特征通过自我注意机制聚合。与其他分割模型相比,来自固定邻域的聚合特征,我们的方法可以在不同层中聚合来自不同邻居的特征,在不同层中为查询点提供更具选择性和更广泛的视图,并更多地关注本地邻域中的相关特征。此外,为了进一步提高所提出的语义分割模型的性能,我们提出了两种新方法,即两级BF-Net和BF-Rengralization来利用背景前台信息。实验结果表明,所提出的DPFA-Net在S3DIS数据集上实现了最先进的整体精度分数,在S3DIS数据集上进行了语义分割,并在不同的语义分割,部分分割和3D对象分类中提供始终如一的令人满意的性能。与其他方法相比,它也在计算上更有效。
translated by 谷歌翻译
在本文中,我们提出了一个全面的点云语义分割网络,该网络汇总了本地和全球多尺度信息。首先,我们提出一个角度相关点卷积(ACPCONV)模块,以有效地了解点的局部形状。其次,基于ACPCONV,我们引入了局部多规模拆分(MSS)块,该块从一个单个块中连接到一个单个块中的特征,并逐渐扩大了接受场,这对利用本地上下文是有益的。第三,受HRNET的启发,在2D图像视觉任务上具有出色的性能,我们构建了一个针对Point Cloud的HRNET,以学习全局多尺度上下文。最后,我们介绍了一种融合多分辨率预测并进一步改善点云语义分割性能的点上的注意融合方法。我们在几个基准数据集上的实验结果和消融表明,与现有方法相比,我们提出的方法有效,能够实现最先进的性能。
translated by 谷歌翻译
The irregular domain and lack of ordering make it challenging to design deep neural networks for point cloud processing. This paper presents a novel framework named Point Cloud Transformer(PCT) for point cloud learning. PCT is based on Transformer, which achieves huge success in natural language processing and displays great potential in image processing. It is inherently permutation invariant for processing a sequence of points, making it well-suited for point cloud learning. To better capture local context within the point cloud, we enhance input embedding with the support of farthest point sampling and nearest neighbor search. Extensive experiments demonstrate that the PCT achieves the state-of-the-art performance on shape classification, part segmentation, semantic segmentation and normal estimation tasks.
translated by 谷歌翻译
捕获不规则点云的局部和全局特征对于3D对象检测(3OD)至关重要。但是,主流3D探测器,例如,投票机及其变体,要么放弃池操作过程中的大量本地功能,要么忽略整个场景中的许多全球功能。本文探讨了新的模块,以同时学习积极服务3OD的场景点云的局部全球特征。为此,我们通过同时局部全球特征学习(称为3DLG-detector)提出了一个有效的3OD网络。 3DLG检测器有两个关键贡献。首先,它会开发一个动态点交互(DPI)模块,该模块可在合并过程中保留有效的本地特征。此外,DPI是可拆卸的,可以将其合并到现有的3OD网络中以提高其性能。其次,它开发了一个全局上下文聚合模块,以汇总编码器不同层的多尺度特征,以实现场景上下文意识。我们的方法在SUN RGB-D和扫描仪数据集的检测准确性和鲁棒性方面显示了13个竞争对手的进步。源代码将在出版物时提供。
translated by 谷歌翻译
点云学习界见证了从CNN到变形金刚的模型转移,纯变压器架构在主要学习基准上实现了最高精度。然而,现有的点变压器是计算昂贵的,因为它们需要产生大的注意图,其相对于输入大小具有二次复杂度(空间和时间)。为了解决这种缺点,我们介绍补丁注意(PAT),以便自适应地学习计算注意力地图的更小的基础。通过对这些基础的加权求和,PAT仅捕获全局形状上下文,而且还可以实现输入大小的线性复杂性。此外,我们提出了一种轻量级的多尺度关注(MST)块来构建不同尺度特征的关注,提供具有多尺度特征的模型。我们配备了PAT和MST,我们构建了我们的神经结构,称为PatchFormer,将两个模块集成到Point云学习的联合框架中。广泛的实验表明,我们的网络对一般点云学习任务的可比准确性具有9.2倍的速度高于先前的点变压器。
translated by 谷歌翻译
与卷积神经网络相比,最近开发的纯变压器架构已经实现了对点云学习基准的有希望的准确性。然而,现有点云变压器是计算昂贵的,因为它们在构建不规则数据时浪费了大量时间。要解决此缺点,我们呈现稀疏窗口注意(SWA)模块,以收集非空体素的粗粒颗粒特征,不仅绕过昂贵的不规则数据结构和无效的空体素计算,还可以获得线性计算复杂性到体素分辨率。同时,要收集关于全球形状的细粒度特征,我们介绍了相对的注意(RA)模块,更强大的自我关注变体,用于对象的刚性变换。我们配备了SWA和RA,我们构建了我们的神经结构,称为PVT,将两个模块集成到Point云学习的联合框架中。与以前的变压器和关注的模型相比,我们的方法平均达到了分类基准和10x推理加速的最高精度为94.0%。广泛的实验还有效地验证了PVT在部分和语义分割基准上的有效性(分别为86.6%和69.2%Miou)。
translated by 谷歌翻译
我们提出了一种基于注意力的新型机制,可以学习用于点云处理任务的增强点特征,例如分类和分割。与先前的作品不同,该作品经过培训以优化预选的一组注意点的权重,我们的方法学会了找到最佳的注意点,以最大程度地提高特定任务的性能,例如点云分类。重要的是,我们主张使用单个注意点来促进语义理解在点特征学习中。具体而言,我们制定了一种新的简单卷积,该卷积结合了输入点及其相应学习的注意点或膝盖的卷积特征。我们的注意机制可以轻松地纳入最新的点云分类和分割网络中。对诸如ModelNet40,ShapenetPart和S3DIS之类的常见基准测试的广泛实验都表明,我们的支持LAP的网络始终优于各自的原始网络,以及其他竞争性替代方案,这些替代方案在我们的膝盖下采用了多个注意力框架。
translated by 谷歌翻译
Point cloud is an important type of geometric data structure. Due to its irregular format, most researchers transform such data to regular 3D voxel grids or collections of images. This, however, renders data unnecessarily voluminous and causes issues. In this paper, we design a novel type of neural network that directly consumes point clouds, which well respects the permutation invariance of points in the input. Our network, named PointNet, provides a unified architecture for applications ranging from object classification, part segmentation, to scene semantic parsing. Though simple, PointNet is highly efficient and effective. Empirically, it shows strong performance on par or even better than state of the art. Theoretically, we provide analysis towards understanding of what the network has learnt and why the network is robust with respect to input perturbation and corruption.
translated by 谷歌翻译
Current 3D object detection methods are heavily influenced by 2D detectors. In order to leverage architectures in 2D detectors, they often convert 3D point clouds to regular grids (i.e., to voxel grids or to bird's eye view images), or rely on detection in 2D images to propose 3D boxes. Few works have attempted to directly detect objects in point clouds. In this work, we return to first principles to construct a 3D detection pipeline for point cloud data and as generic as possible. However, due to the sparse nature of the data -samples from 2D manifolds in 3D space -we face a major challenge when directly predicting bounding box parameters from scene points: a 3D object centroid can be far from any surface point thus hard to regress accurately in one step. To address the challenge, we propose VoteNet, an end-to-end 3D object detection network based on a synergy of deep point set networks and Hough voting. Our model achieves state-of-the-art 3D detection on two large datasets of real 3D scans, ScanNet and SUN RGB-D with a simple design, compact model size and high efficiency. Remarkably, VoteNet outperforms previous methods by using purely geometric information without relying on color images.
translated by 谷歌翻译
Raw point clouds data inevitably contains outliers or noise through acquisition from 3D sensors or reconstruction algorithms. In this paper, we present a novel endto-end network for robust point clouds processing, named PointASNL, which can deal with point clouds with noise effectively. The key component in our approach is the adaptive sampling (AS) module. It first re-weights the neighbors around the initial sampled points from farthest point sampling (FPS), and then adaptively adjusts the sampled points beyond the entire point cloud. Our AS module can not only benefit the feature learning of point clouds, but also ease the biased effect of outliers. To further capture the neighbor and long-range dependencies of the sampled point, we proposed a local-nonlocal (L-NL) module inspired by the nonlocal operation. Such L-NL module enables the learning process insensitive to noise. Extensive experiments verify the robustness and superiority of our approach in point clouds processing tasks regardless of synthesis data, indoor data, and outdoor data with or without noise. Specifically, PointASNL achieves state-of-theart robust performance for classification and segmentation tasks on all datasets, and significantly outperforms previous methods on real-world outdoor SemanticKITTI dataset with considerate noise. Our code is released through https: //github.com/yanx27/PointASNL.
translated by 谷歌翻译
This paper presents PointWeb, a new approach to extract contextual features from local neighborhood in a point cloud. Unlike previous work, we densely connect each point with every other in a local neighborhood, aiming to specify feature of each point based on the local region characteristics for better representing the region. A novel module, namely Adaptive Feature Adjustment (AFA) module, is presented to find the interaction between points. For each local region, an impact map carrying element-wise impact between point pairs is applied to the feature difference map. Each feature is then pulled or pushed by other features in the same region according to the adaptively learned impact indicators. The adjusted features are well encoded with region information, and thus benefit the point cloud recognition tasks, such as point cloud segmentation and classification. Experimental results show that our model outperforms the state-of-the-arts on both semantic segmentation and shape classification datasets.
translated by 谷歌翻译