我们提出CPT:卷积点变压器 - 一种用于处理3D点云数据的非结构化性质的新型深度学习架构。 CPT是对现有关注的卷曲神经网络以及以前的3D点云处理变压器的改进。由于其在创建基于新颖的基于注意力的点集合嵌入通过制作用于处理动态局部点设定的邻域的卷积投影层的嵌入来实现这一壮举。结果点设置嵌入对输入点的排列是强大的。我们的小说CPT块在网络结构中通过动态图计算获得的本地邻居构建。它是完全可差异的,可以像卷积层一样堆叠,以学习点的全局属性。我们评估我们的模型在ModelNet40,ShapEnet​​部分分割和S3DIS 3D室内场景语义分割数据集等标准基准数据集上,以显示我们的模型可以用作各种点云处理任务的有效骨干,与现有状态相比 - 艺术方法。
translated by 谷歌翻译
变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性,变压器已被用作广泛使用的卷积运算符的替代品。事实证明,这种替代者在许多任务中都取得了成功,其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中,3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上,但由于与2D视觉相比,由于数据表示和处理的差异,3D视觉需要特别注意。在这项工作中,我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查,包括分类,细分,检测,完成,姿势估计等。我们在3D Vision中讨论了变形金刚的设计,该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序,我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力,我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外,我们的目标是频繁更新最新的相关论文及其相应的实现:https://github.com/lahoud/3d-vision-transformers。
translated by 谷歌翻译
3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译
变压器一直是自然语言处理(NLP)和计算机视觉(CV)革命的核心。 NLP和CV的显着成功启发了探索变压器在点云处理中的使用。但是,变压器如何应对点云的不规则性和无序性质?变压器对于不同的3D表示(例如,基于点或体素)的合适性如何?各种3D处理任务的变压器有多大的能力?截至目前,仍然没有对这些问题的研究进行系统的调查。我们第一次为3D点云分析提供了越来越受欢迎的变压器的全面概述。我们首先介绍变压器体系结构的理论,并在2D/3D字段中审查其应用程序。然后,我们提出三种不同的分类法(即实现 - 数据表示和基于任务),它们可以从多个角度对当前的基于变压器的方法进行分类。此外,我们介绍了研究3D中自我注意机制的变异和改进的结果。为了证明变压器在点云分析中的优势,我们提供了基于各种变压器的分类,分割和对象检测方法的全面比较。最后,我们建议三个潜在的研究方向,为3D变压器的开发提供福利参考。
translated by 谷歌翻译
与卷积神经网络相比,最近开发的纯变压器架构已经实现了对点云学习基准的有希望的准确性。然而,现有点云变压器是计算昂贵的,因为它们在构建不规则数据时浪费了大量时间。要解决此缺点,我们呈现稀疏窗口注意(SWA)模块,以收集非空体素的粗粒颗粒特征,不仅绕过昂贵的不规则数据结构和无效的空体素计算,还可以获得线性计算复杂性到体素分辨率。同时,要收集关于全球形状的细粒度特征,我们介绍了相对的注意(RA)模块,更强大的自我关注变体,用于对象的刚性变换。我们配备了SWA和RA,我们构建了我们的神经结构,称为PVT,将两个模块集成到Point云学习的联合框架中。与以前的变压器和关注的模型相比,我们的方法平均达到了分类基准和10x推理加速的最高精度为94.0%。广泛的实验还有效地验证了PVT在部分和语义分割基准上的有效性(分别为86.6%和69.2%Miou)。
translated by 谷歌翻译
The irregular domain and lack of ordering make it challenging to design deep neural networks for point cloud processing. This paper presents a novel framework named Point Cloud Transformer(PCT) for point cloud learning. PCT is based on Transformer, which achieves huge success in natural language processing and displays great potential in image processing. It is inherently permutation invariant for processing a sequence of points, making it well-suited for point cloud learning. To better capture local context within the point cloud, we enhance input embedding with the support of farthest point sampling and nearest neighbor search. Extensive experiments demonstrate that the PCT achieves the state-of-the-art performance on shape classification, part segmentation, semantic segmentation and normal estimation tasks.
translated by 谷歌翻译
点云学习界见证了从CNN到变形金刚的模型转移,纯变压器架构在主要学习基准上实现了最高精度。然而,现有的点变压器是计算昂贵的,因为它们需要产生大的注意图,其相对于输入大小具有二次复杂度(空间和时间)。为了解决这种缺点,我们介绍补丁注意(PAT),以便自适应地学习计算注意力地图的更小的基础。通过对这些基础的加权求和,PAT仅捕获全局形状上下文,而且还可以实现输入大小的线性复杂性。此外,我们提出了一种轻量级的多尺度关注(MST)块来构建不同尺度特征的关注,提供具有多尺度特征的模型。我们配备了PAT和MST,我们构建了我们的神经结构,称为PatchFormer,将两个模块集成到Point云学习的联合框架中。广泛的实验表明,我们的网络对一般点云学习任务的可比准确性具有9.2倍的速度高于先前的点变压器。
translated by 谷歌翻译
随着激光雷达传感器和3D视觉摄像头的扩散,3D点云分析近年来引起了重大关注。经过先驱工作点的成功后,基于深度学习的方法越来越多地应用于各种任务,包括3D点云分段和3D对象分类。在本文中,我们提出了一种新颖的3D点云学习网络,通过选择性地执行具有动态池的邻域特征聚合和注意机制来提出作为动态点特征聚合网络(DPFA-NET)。 DPFA-Net有两个可用于三维云的语义分割和分类的变体。作为DPFA-NET的核心模块,我们提出了一个特征聚合层,其中每个点的动态邻域的特征通过自我注意机制聚合。与其他分割模型相比,来自固定邻域的聚合特征,我们的方法可以在不同层中聚合来自不同邻居的特征,在不同层中为查询点提供更具选择性和更广泛的视图,并更多地关注本地邻域中的相关特征。此外,为了进一步提高所提出的语义分割模型的性能,我们提出了两种新方法,即两级BF-Net和BF-Rengralization来利用背景前台信息。实验结果表明,所提出的DPFA-Net在S3DIS数据集上实现了最先进的整体精度分数,在S3DIS数据集上进行了语义分割,并在不同的语义分割,部分分割和3D对象分类中提供始终如一的令人满意的性能。与其他方法相比,它也在计算上更有效。
translated by 谷歌翻译
对于不同的任务,已经越来越多地研究了一般点云,并且提出了最近的基于变换器的网络,用于点云分析。然而,医疗点云几乎没有相关的作品,这对疾病检测和治疗很重要。在这项工作中,我们提出了专门用于医疗点云的关注模型,即3D医疗点变压器(3Dmedpt),以检查复杂的生物结构。通过增强上下文信息并在查询时总结本地响应,我们的注意模块可以捕获本地上下文和全局内容功能交互。然而,医疗数据的培训样本不足可能导致特征学习差,因此我们应用位置嵌入,以学习准确的局部几何和多图形推理(MGR)来检查通过通道图的全局知识传播,以丰富特征表示。在数据集内进行的实验证明了3DMedpt的优越性,在那里我们达到了最佳分类和分割结果。此外,我们的方法的有希望的泛化能力在一般的3D点云基准测试中验证:ModelNet40和ShapenetPart。代码即将发布。
translated by 谷歌翻译
有效处理3D数据一直是一个挑战。大规模点云上的空间操作以稀疏数据存储,需要额外的成本。由于变形金刚的成功吸引,研究人员正在使用多头关注视力任务。但是,变压器中的注意力计算在输入数量和点云等集合的空间直觉中具有二次复杂性。我们重新设计了这项工作中的“变压器”,并将它们纳入形状分类以及部分和场景细分的层次结构框架中。我们建议我们的当地注意力单元,该单元捕获了空间社区的特征。我们还通过利用每次迭代的采样和分组来计算有效且动态的全局交叉注意。最后,为了减轻点云的非异质性,我们提出了一个有效的多尺度令牌化(MST),该标记(MST)提取了尺度不变的令牌以供注意操作。所提出的分层模型以平均准确性实现最新的形状分类,并以先前的分割方法的相同,同时需要更少的计算。我们提出的体系结构预测分割标签的标签约为以前最有效方法的延迟和参数计数的一半,具有可比的性能。该代码可从https://github.com/yigewang-whu/cloudattention获得。
translated by 谷歌翻译
变压器在图像处理领域取得了显着的成就。受到这一巨大成功的启发,变形金刚在3D点云处理中的应用引起了越来越多的关注。本文提出了一个新颖的点云表示学习网络,具有双重自我注意的3D点云变压器(3DPCT)和一个编码器解码器结构。具体而言,3DPCT具有一个层次编码器,该编码器包含两个用于分类任务的局部全球双重注意模块(分段任务的三个模块),每个模块都包含一个局部特征聚合(LFA)块和全局特征学习( GFL)块。 GFL块是双重的自我注意事项,既有在点上的自我注意力,又可以提高特征提取。此外,在LFA中,为更好地利用了提取的本地信息,设计了一种新颖的点自我发明模型,称为点斑点自我注意力(PPSA)。在分类和分割数据集上都评估了性能,其中包含合成数据和现实世界数据。广泛的实验表明,所提出的方法在分类和分割任务上都达到了最新的结果。
translated by 谷歌翻译
我们提出了一种基于注意力的新型机制,可以学习用于点云处理任务的增强点特征,例如分类和分割。与先前的作品不同,该作品经过培训以优化预选的一组注意点的权重,我们的方法学会了找到最佳的注意点,以最大程度地提高特定任务的性能,例如点云分类。重要的是,我们主张使用单个注意点来促进语义理解在点特征学习中。具体而言,我们制定了一种新的简单卷积,该卷积结合了输入点及其相应学习的注意点或膝盖的卷积特征。我们的注意机制可以轻松地纳入最新的点云分类和分割网络中。对诸如ModelNet40,ShapenetPart和S3DIS之类的常见基准测试的广泛实验都表明,我们的支持LAP的网络始终优于各自的原始网络,以及其他竞争性替代方案,这些替代方案在我们的膝盖下采用了多个注意力框架。
translated by 谷歌翻译
Raw point clouds data inevitably contains outliers or noise through acquisition from 3D sensors or reconstruction algorithms. In this paper, we present a novel endto-end network for robust point clouds processing, named PointASNL, which can deal with point clouds with noise effectively. The key component in our approach is the adaptive sampling (AS) module. It first re-weights the neighbors around the initial sampled points from farthest point sampling (FPS), and then adaptively adjusts the sampled points beyond the entire point cloud. Our AS module can not only benefit the feature learning of point clouds, but also ease the biased effect of outliers. To further capture the neighbor and long-range dependencies of the sampled point, we proposed a local-nonlocal (L-NL) module inspired by the nonlocal operation. Such L-NL module enables the learning process insensitive to noise. Extensive experiments verify the robustness and superiority of our approach in point clouds processing tasks regardless of synthesis data, indoor data, and outdoor data with or without noise. Specifically, PointASNL achieves state-of-theart robust performance for classification and segmentation tasks on all datasets, and significantly outperforms previous methods on real-world outdoor SemanticKITTI dataset with considerate noise. Our code is released through https: //github.com/yanx27/PointASNL.
translated by 谷歌翻译
Unlike images which are represented in regular dense grids, 3D point clouds are irregular and unordered, hence applying convolution on them can be difficult. In this paper, we extend the dynamic filter to a new convolution operation, named PointConv. PointConv can be applied on point clouds to build deep convolutional networks. We treat convolution kernels as nonlinear functions of the local coordinates of 3D points comprised of weight and density functions. With respect to a given point, the weight functions are learned with multi-layer perceptron networks and density functions through kernel density estimation. The most important contribution of this work is a novel reformulation proposed for efficiently computing the weight functions, which allowed us to dramatically scale up the network and significantly improve its performance. The learned convolution kernel can be used to compute translation-invariant and permutation-invariant convolution on any point set in the 3D space. Besides, PointConv can also be used as deconvolution operators to propagate features from a subsampled point cloud back to its original resolution. Experiments on ModelNet40, ShapeNet, and ScanNet show that deep convolutional neural networks built on PointConv are able to achieve state-of-the-art on challenging semantic segmentation benchmarks on 3D point clouds. Besides, our experiments converting CIFAR-10 into a point cloud showed that networks built on PointConv can match the performance of convolutional networks in 2D images of a similar structure.
translated by 谷歌翻译
我们介绍了PointConvormer,这是一个基于点云的深神经网络体系结构的新颖构建块。受到概括理论的启发,PointConvormer结合了点卷积的思想,其中滤波器权重仅基于相对位置,而变形金刚则利用了基于功能的注意力。在PointConvormer中,附近点之间的特征差异是重量重量卷积权重的指标。因此,我们从点卷积操作中保留了不变,而注意力被用来选择附近的相关点进行卷积。为了验证PointConvormer的有效性,我们在点云上进行了语义分割和场景流估计任务,其中包括扫描仪,Semantickitti,FlyingThings3D和Kitti。我们的结果表明,PointConvormer具有经典的卷积,常规变压器和Voxelized稀疏卷积方法的表现,具有较小,更高效的网络。可视化表明,PointConvormer的性能类似于在平面表面上的卷积,而邻域选择效果在物体边界上更强,表明它具有两全其美。
translated by 谷歌翻译
我们提出了一种新的注意机制,称为全球分层注意(GHA),用于3D点云分析。 GHA通过在多个层次结构上进行一系列粗化和插值操作,近似于常规的全局点产生关注。 GHA的优势是两个方面。首先,它相对于点数具有线性复杂性,从而使大点云的处理能够处理。其次,GHA固有地具有归纳性偏见,可以专注于空间接近点,同时保留所有点之间的全球连通性。与前馈网络相结合,可以将GHA插入许多现有的网络体系结构中。我们尝试多个基线网络,并表明添加GHA始终如一地提高不同任务和数据集的性能。对于语义分割的任务,GHA在扫描板上的Minkowskiengine基线增加了1.7%的MIOU。对于3D对象检测任务,GHA将CenterPoint基线提高了Nuscenes数据集上的 +0.5%地图,而3DETR基线将SCANNET上的基线提高到 +2.1%MAP25和 +1.5%MAP50。
translated by 谷歌翻译
MLP-MIXER新出现为反对CNNS和变压器领域的新挑战者。尽管与变压器相比,尽管其相比,频道混合MLP和令牌混合MLP的概念可以在视觉识别任务中实现明显的性能。与图像不同,点云本身稀疏,无序和不规则,这限制了MLP-MILER用于点云理解的直接使用。在本文中,我们提出了一种通用点集运算符,其促进非结构化3D点之间的信息共享。通过简单地用SoftMax函数替换令牌混合的MLP,PointMixer可以在点集之间“混合”功能。通过这样做,可以在网络中广泛地使用PointMixer作为设定间混合,内部混合和金字塔混合。广泛的实验表明了对基于变压器的方法的语义分割,分类和点重建中的引光器竞争或卓越的性能。
translated by 谷歌翻译
与卷积神经网络(CNN)相比,视觉变压器(VIT)正在变得越来越流行和主导技术。作为计算机视觉中苛刻的技术,VIT已成功解决了各种视觉问题,同时着眼于远程关系。在本文中,我们首先介绍自我注意机制的基本概念和背景。接下来,我们提供了最新表现最好的VIT方法的全面概述,该方法在强度和弱点,计算成本以及培训和测试数据集方面描述。我们彻底比较了流行基准数据集上各种VIT算法和大多数代表性CNN方法的性能。最后,我们通过有见地的观察来探索一些局限性,并提供进一步的研究方向。项目页面以及论文集可通过https://github.com/khawar512/vit-survey获得
translated by 谷歌翻译
深入学习云越来越发展。将点与其邻居分组并对它们进行卷积相同的操作可以了解点云的本地特征,但此方法薄弱以提取长距离全局功能。在整个点云上执行关注的变换器可以有效地学习它的全局特征,但此方法几乎不会提取本地详细功能。在本文中,我们提出了一种新颖的模块,可以同时提取和保险熔断本地和全局功能,该功能被命名为CT-Block。 CT-块由两个分支组成,其中字母C表示卷积分支,字母T表示变压器分支。卷积分支对分组邻点的卷积进行了卷积以提取本地功能。同时,变压器分支对整个点云执行偏移注意过程以提取全局功能。通过CT-块中的特征传输元件构造的桥梁,本地和全局特征在学习期间彼此引导并有效地融合。我们应用CT-Block构建点云分类和分段网络,并评估几个公共数据集的性能。实验结果表明,由于CT-Block学习的特征是多种表现力的,所以由CT-Block构成的网络的性能在点云分类和分割任务实现现有技术。
translated by 谷歌翻译