3D点云可以灵活地表示连续表面,可用于各种应用;但是,缺乏结构信息使点云识别具有挑战性。最近的边缘感知方法主要使用边缘信息作为描述局部结构以促进学习的额外功能。尽管这些方法表明,将边缘纳入网络设计是有益的,但它们通常缺乏解释性,使用户想知道边缘如何有所帮助。为了阐明这一问题,在这项研究中,我们提出了以可解释方式处理边缘的扩散单元(DU),同时提供了不错的改进。我们的方法可以通过三种方式解释。首先,我们从理论上表明,DU学会了执行任务呈纤维边缘的增强和抑制作用。其次,我们通过实验观察并验证边缘增强和抑制行为。第三,我们从经验上证明,这种行为有助于提高绩效。在具有挑战性的基准上进行的广泛实验验证了DU在可解释性和绩效增长方面的优势。具体而言,我们的方法使用S3DIS使用Shapenet零件和场景分割来实现对象零件分割的最新性能。我们的源代码将在https://github.com/martianxiu/diffusionunit上发布。
translated by 谷歌翻译
由于缺乏连接性信息,即边缘,学习点云是具有挑战性的。尽管现有的边缘感知方法可以通过建模边缘来改善性能,但边缘如何促进改进尚不清楚。在这项研究中,我们提出了一种自动学习以增强/抑制边缘的方法,同时保持其工作机制清晰。首先,我们从理论上弄清楚边缘增强/抑制作用是如何工作的。其次,我们通过实验验证边缘增强/抑制行为。第三,我们从经验上表明这种行为可以提高性能。通常,我们观察到所提出的方法在点云分类和细分任务中实现了竞争性能。
translated by 谷歌翻译
由于缺乏连接性信息,对局部表面几何形状进行建模在3D点云的理解中具有挑战性。大多数先前的作品使用各种卷积操作模拟本地几何形状。我们观察到,卷积可以等效地分解为局部和全球成分的加权组合。通过这种观察,我们明确地将这两个组件解散了,以便可以增强局部的组件并促进局部表面几何形状的学习。具体而言,我们提出了Laplacian单元(LU),这是一个简单而有效的建筑单元,可以增强局部几何学的学习。广泛的实验表明,配备有LU的网络在典型的云理解任务上实现了竞争性或卓越的性能。此外,通过建立平均曲率流之间的连接,基于曲率的LU进行了进一步研究,以解释LU的自适应平滑和锐化效果。代码将可用。
translated by 谷歌翻译
学习地区内部背景和区域间关系是加强点云分析的特征表示的两项有效策略。但是,在现有方法中没有完全强调的统一点云表示的两种策略。为此,我们提出了一种名为点关系感知网络(PRA-NET)的小说框架,其由区域内结构学习(ISL)模块和区域间关系学习(IRL)模块组成。ISL模块可以通过可差的区域分区方案和基于代表的基于点的策略自适应和有效地将本地结构信息动态地集成到点特征中,而IRL模块可自适应和有效地捕获区域间关系。在涵盖形状分类,关键点估计和部分分割的几个3D基准测试中的广泛实验已经验证了PRA-Net的有效性和泛化能力。代码将在https://github.com/xiwuchen/pra-net上获得。
translated by 谷歌翻译
Feedforward fully convolutional neural networks currently dominate in semantic segmentation of 3D point clouds. Despite their great success, they suffer from the loss of local information at low-level layers, posing significant challenges to accurate scene segmentation and precise object boundary delineation. Prior works either address this issue by post-processing or jointly learn object boundaries to implicitly improve feature encoding of the networks. These approaches often require additional modules which are difficult to integrate into the original architecture. To improve the segmentation near object boundaries, we propose a boundary-aware feature propagation mechanism. This mechanism is achieved by exploiting a multi-task learning framework that aims to explicitly guide the boundaries to their original locations. With one shared encoder, our network outputs (i) boundary localization, (ii) prediction of directions pointing to the object's interior, and (iii) semantic segmentation, in three parallel streams. The predicted boundaries and directions are fused to propagate the learned features to refine the segmentation. We conduct extensive experiments on the S3DIS and SensatUrban datasets against various baseline methods, demonstrating that our proposed approach yields consistent improvements by reducing boundary errors. Our code is available at https://github.com/shenglandu/PushBoundary.
translated by 谷歌翻译
3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译
借助深度学习范式,许多点云网络已经发明了用于视觉分析。然而,由于点云数据的给定信息尚未完全利用,因此对这些网络的发展存在很大的潜力。为了提高现有网络在分析点云数据中的有效性,我们提出了一个即插即用模块,PNP-3D,旨在通过涉及更多来自显式3D空间的本地背景和全球双线性响应来改进基本点云特征表示隐含的功能空间。为了彻底评估我们的方法,我们对三个标准点云分析任务进行实验,包括分类,语义分割和对象检测,在那里我们从每个任务中选择三个最先进的网络进行评估。作为即插即用模块,PNP-3D可以显着提高已建立的网络的性能。除了在四个广泛使用的点云基准测试中实现最先进的结果,我们还提供了全面的消融研究和可视化,以展示我们的方法的优势。代码将在https://github.com/shiqiu0419/pnp-3d上获得。
translated by 谷歌翻译
随着激光雷达传感器和3D视觉摄像头的扩散,3D点云分析近年来引起了重大关注。经过先驱工作点的成功后,基于深度学习的方法越来越多地应用于各种任务,包括3D点云分段和3D对象分类。在本文中,我们提出了一种新颖的3D点云学习网络,通过选择性地执行具有动态池的邻域特征聚合和注意机制来提出作为动态点特征聚合网络(DPFA-NET)。 DPFA-Net有两个可用于三维云的语义分割和分类的变体。作为DPFA-NET的核心模块,我们提出了一个特征聚合层,其中每个点的动态邻域的特征通过自我注意机制聚合。与其他分割模型相比,来自固定邻域的聚合特征,我们的方法可以在不同层中聚合来自不同邻居的特征,在不同层中为查询点提供更具选择性和更广泛的视图,并更多地关注本地邻域中的相关特征。此外,为了进一步提高所提出的语义分割模型的性能,我们提出了两种新方法,即两级BF-Net和BF-Rengralization来利用背景前台信息。实验结果表明,所提出的DPFA-Net在S3DIS数据集上实现了最先进的整体精度分数,在S3DIS数据集上进行了语义分割,并在不同的语义分割,部分分割和3D对象分类中提供始终如一的令人满意的性能。与其他方法相比,它也在计算上更有效。
translated by 谷歌翻译
Raw point clouds data inevitably contains outliers or noise through acquisition from 3D sensors or reconstruction algorithms. In this paper, we present a novel endto-end network for robust point clouds processing, named PointASNL, which can deal with point clouds with noise effectively. The key component in our approach is the adaptive sampling (AS) module. It first re-weights the neighbors around the initial sampled points from farthest point sampling (FPS), and then adaptively adjusts the sampled points beyond the entire point cloud. Our AS module can not only benefit the feature learning of point clouds, but also ease the biased effect of outliers. To further capture the neighbor and long-range dependencies of the sampled point, we proposed a local-nonlocal (L-NL) module inspired by the nonlocal operation. Such L-NL module enables the learning process insensitive to noise. Extensive experiments verify the robustness and superiority of our approach in point clouds processing tasks regardless of synthesis data, indoor data, and outdoor data with or without noise. Specifically, PointASNL achieves state-of-theart robust performance for classification and segmentation tasks on all datasets, and significantly outperforms previous methods on real-world outdoor SemanticKITTI dataset with considerate noise. Our code is released through https: //github.com/yanx27/PointASNL.
translated by 谷歌翻译
机载激光扫描(ALS)点云的分类是遥感和摄影测量场的关键任务。尽管最近基于深度学习的方法取得了令人满意的表现,但他们忽略了接受场的统一性,这使得ALS点云分类对于区分具有复杂结构和极端规模变化的区域仍然具有挑战性。在本文中,为了配置多受感受性的场特征,我们提出了一个新型的接受场融合和分层网络(RFFS-NET)。以新颖的扩张图卷积(DGCONV)及其扩展环形扩张卷积(ADCONV)作为基本的构建块,使用扩张和环形图融合(Dagfusion)模块实现了接受场融合过程,该模块获得了多受感染的场特征代表通过捕获带有各种接收区域的扩张和环形图。随着计算碱基的计算基础,使用嵌套在RFFS-NET中的多级解码器进行的接收场的分层,并由多层接受场聚集损失(MRFALOSS)驱动,以驱动网络驱动网络以学习在具有不同分辨率的监督标签的方向。通过接受场融合和分层,RFFS-NET更适应大型ALS点云中具有复杂结构和极端尺度变化区域的分类。在ISPRS Vaihingen 3D数据集上进行了评估,我们的RFFS-NET显着优于MF1的基线方法5.3%,而MIOU的基线方法的总体准确性为82.1%,MF1的总准确度为71.6%,MIOU的MF1和MIOU为58.2%。此外,LASDU数据集和2019 IEEE-GRSS数据融合竞赛数据集的实验显示,RFFS-NET可以实现新的最新分类性能。
translated by 谷歌翻译
变压器在图像处理领域取得了显着的成就。受到这一巨大成功的启发,变形金刚在3D点云处理中的应用引起了越来越多的关注。本文提出了一个新颖的点云表示学习网络,具有双重自我注意的3D点云变压器(3DPCT)和一个编码器解码器结构。具体而言,3DPCT具有一个层次编码器,该编码器包含两个用于分类任务的局部全球双重注意模块(分段任务的三个模块),每个模块都包含一个局部特征聚合(LFA)块和全局特征学习( GFL)块。 GFL块是双重的自我注意事项,既有在点上的自我注意力,又可以提高特征提取。此外,在LFA中,为更好地利用了提取的本地信息,设计了一种新颖的点自我发明模型,称为点斑点自我注意力(PPSA)。在分类和分割数据集上都评估了性能,其中包含合成数据和现实世界数据。广泛的实验表明,所提出的方法在分类和分割任务上都达到了最新的结果。
translated by 谷歌翻译
MLP-MIXER新出现为反对CNNS和变压器领域的新挑战者。尽管与变压器相比,尽管其相比,频道混合MLP和令牌混合MLP的概念可以在视觉识别任务中实现明显的性能。与图像不同,点云本身稀疏,无序和不规则,这限制了MLP-MILER用于点云理解的直接使用。在本文中,我们提出了一种通用点集运算符,其促进非结构化3D点之间的信息共享。通过简单地用SoftMax函数替换令牌混合的MLP,PointMixer可以在点集之间“混合”功能。通过这样做,可以在网络中广泛地使用PointMixer作为设定间混合,内部混合和金字塔混合。广泛的实验表明了对基于变压器的方法的语义分割,分类和点重建中的引光器竞争或卓越的性能。
translated by 谷歌翻译
变压器一直是自然语言处理(NLP)和计算机视觉(CV)革命的核心。 NLP和CV的显着成功启发了探索变压器在点云处理中的使用。但是,变压器如何应对点云的不规则性和无序性质?变压器对于不同的3D表示(例如,基于点或体素)的合适性如何?各种3D处理任务的变压器有多大的能力?截至目前,仍然没有对这些问题的研究进行系统的调查。我们第一次为3D点云分析提供了越来越受欢迎的变压器的全面概述。我们首先介绍变压器体系结构的理论,并在2D/3D字段中审查其应用程序。然后,我们提出三种不同的分类法(即实现 - 数据表示和基于任务),它们可以从多个角度对当前的基于变压器的方法进行分类。此外,我们介绍了研究3D中自我注意机制的变异和改进的结果。为了证明变压器在点云分析中的优势,我们提供了基于各种变压器的分类,分割和对象检测方法的全面比较。最后,我们建议三个潜在的研究方向,为3D变压器的开发提供福利参考。
translated by 谷歌翻译
通过当地地区的点特征聚合来捕获的细粒度几何是对象识别和场景理解在点云中的关键。然而,现有的卓越点云骨架通常包含最大/平均池用于局部特征聚集,这在很大程度上忽略了点的位置分布,导致细粒结构组装不足。为了缓解这一瓶颈,我们提出了一个有效的替代品,可以使用新颖的图形表示明确地模拟了本地点之间的空间关系,并以位置自适应方式聚合特征,从而实现位置敏感的表示聚合特征。具体而言,Papooling分别由两个关键步骤,图形结构和特征聚合组成,分别负责构造与将中心点连接的边缘与本地区域中的每个相邻点连接的曲线图组成,以将它们的相对位置信息映射到通道 - 明智的细心权重,以及基于通过图形卷积网络(GCN)的生成权重自适应地聚合局部点特征。 Papooling简单而且有效,并且足够灵活,可以随时为PointNet ++和DGCNN等不同的流行律源,作为即插即说运算符。关于各种任务的广泛实验,从3D形状分类,部分分段对场景分割良好的表明,伪装可以显着提高预测准确性,而具有最小的额外计算开销。代码将被释放。
translated by 谷歌翻译
与卷积神经网络相比,最近开发的纯变压器架构已经实现了对点云学习基准的有希望的准确性。然而,现有点云变压器是计算昂贵的,因为它们在构建不规则数据时浪费了大量时间。要解决此缺点,我们呈现稀疏窗口注意(SWA)模块,以收集非空体素的粗粒颗粒特征,不仅绕过昂贵的不规则数据结构和无效的空体素计算,还可以获得线性计算复杂性到体素分辨率。同时,要收集关于全球形状的细粒度特征,我们介绍了相对的注意(RA)模块,更强大的自我关注变体,用于对象的刚性变换。我们配备了SWA和RA,我们构建了我们的神经结构,称为PVT,将两个模块集成到Point云学习的联合框架中。与以前的变压器和关注的模型相比,我们的方法平均达到了分类基准和10x推理加速的最高精度为94.0%。广泛的实验还有效地验证了PVT在部分和语义分割基准上的有效性(分别为86.6%和69.2%Miou)。
translated by 谷歌翻译
PointNet ++是Point Cloud理解的最具影响力的神经体系结构之一。尽管PointNet ++的准确性在很大程度上已经超过了诸如PointMLP和Point Transformer之类的最近网络,但我们发现,大部分性能增益是由于改进的培训策略,即数据增强和优化技术,而不是架构大小,而不是架构的大小,而不是架构。创新。因此,PointNet ++的全部潜力尚未探索。在这项工作中,我们通过对模型培训和缩放策略进行系统的研究来重新审视经典的PointNet ++,并提供两个主要贡献。首先,我们提出了一组改进的培训策略,可显着提高PointNet ++的性能。例如,我们表明,如果没有任何架构的任何变化,则可以将ScanObjectnn对象分类的PointNet ++的总体准确性(OA)从77.9 \%\%提高到86.1 \%,即使超过了最先进的端点”。其次,我们将倒置的残留瓶颈设计和可分离的MLP引入到PointNet ++中,以实现高效且有效的模型缩放,并提出了PointNext,即PointNets的下一个版本。可以在3D分类和分割任务上灵活地扩展PointNext,并优于最先进的方法。对于分类,PointNext的总体准确度为ScanObjectnn $ 87.7 \%$,超过了PointMLP $ 2.3 \%$,而推断的$ 10 \ times $ $。对于语义细分,PointNext建立了新的最先进的性能,$ 74.9 \%$ MEAN IOU在S3DIS上(6倍交叉验证),优于最近的Point Transformer。代码和型号可在https://github.com/guochengqian/pointNext上获得。
translated by 谷歌翻译
在本文中,我们提出了一个全面的点云语义分割网络,该网络汇总了本地和全球多尺度信息。首先,我们提出一个角度相关点卷积(ACPCONV)模块,以有效地了解点的局部形状。其次,基于ACPCONV,我们引入了局部多规模拆分(MSS)块,该块从一个单个块中连接到一个单个块中的特征,并逐渐扩大了接受场,这对利用本地上下文是有益的。第三,受HRNET的启发,在2D图像视觉任务上具有出色的性能,我们构建了一个针对Point Cloud的HRNET,以学习全局多尺度上下文。最后,我们介绍了一种融合多分辨率预测并进一步改善点云语义分割性能的点上的注意融合方法。我们在几个基准数据集上的实验结果和消融表明,与现有方法相比,我们提出的方法有效,能够实现最先进的性能。
translated by 谷歌翻译
我们介绍了PointConvormer,这是一个基于点云的深神经网络体系结构的新颖构建块。受到概括理论的启发,PointConvormer结合了点卷积的思想,其中滤波器权重仅基于相对位置,而变形金刚则利用了基于功能的注意力。在PointConvormer中,附近点之间的特征差异是重量重量卷积权重的指标。因此,我们从点卷积操作中保留了不变,而注意力被用来选择附近的相关点进行卷积。为了验证PointConvormer的有效性,我们在点云上进行了语义分割和场景流估计任务,其中包括扫描仪,Semantickitti,FlyingThings3D和Kitti。我们的结果表明,PointConvormer具有经典的卷积,常规变压器和Voxelized稀疏卷积方法的表现,具有较小,更高效的网络。可视化表明,PointConvormer的性能类似于在平面表面上的卷积,而邻域选择效果在物体边界上更强,表明它具有两全其美。
translated by 谷歌翻译
点云的Panoptic分割是一种重要的任务,使自动车辆能够使用高精度可靠的激光雷达传感器来理解其附近。现有的自上而下方法通过将独立的任务特定网络或转换方法从图像域转换为忽略激光雷达数据的复杂性,因此通常会导致次优性性能来解决这个问题。在本文中,我们提出了新的自上而下的高效激光乐光线分割(有效的LID)架构,该架构解决了分段激光雷达云中的多种挑战,包括距离依赖性稀疏性,严重的闭塞,大规模变化和重新投影误差。高效地板包括一种新型共享骨干,可以通过加强的几何变换建模容量进行编码,并聚合语义丰富的范围感知多尺度特征。它结合了新的不变语义和实例分段头以及由我们提出的Panoptic外围损耗功能监督的Panoptic Fusion模块。此外,我们制定了正则化的伪标签框架,通过对未标记数据的培训进行进一步提高高效性的性能。我们在两个大型LIDAR数据集中建议模型基准:NUSCENES,我们还提供了地面真相注释和Semantickitti。值得注意的是,高效地将在两个数据集上设置新的最先进状态。
translated by 谷歌翻译
点云的语义分割,旨在为每个点分配语义类别,对3D场景的理解至关重要。尽管近年来取得了重大进展,但大多数现有方法仍然遭受对象级别的错误分类或边界级别的歧义。在本文中,我们通过深入探索被称为Geosegnet的点云的几何形状来提出一个强大的语义分割网络。我们的Geosegnet由一个基于多几何的编码器和边界引导的解码器组成。在编码器中,我们从多几何的角度开发了一个新的残差几何模块,以提取对象级特征。在解码器中,我们引入了一个对比边界学习模块,以增强边界点的几何表示。从几何编码器模型中受益,我们的GEOSEGNET可以在使两个或多个对象的相交(边界)清晰地确定对象的分割。从总体分割精度和对象边界清除方面,实验显示了我们方法对竞争对手的明显改善。代码可在https://github.com/chen-yuiyui/geosegnet上找到。
translated by 谷歌翻译