机载激光扫描(ALS)点云的分类是遥感和摄影测量场的关键任务。尽管最近基于深度学习的方法取得了令人满意的表现,但他们忽略了接受场的统一性,这使得ALS点云分类对于区分具有复杂结构和极端规模变化的区域仍然具有挑战性。在本文中,为了配置多受感受性的场特征,我们提出了一个新型的接受场融合和分层网络(RFFS-NET)。以新颖的扩张图卷积(DGCONV)及其扩展环形扩张卷积(ADCONV)作为基本的构建块,使用扩张和环形图融合(Dagfusion)模块实现了接受场融合过程,该模块获得了多受感染的场特征代表通过捕获带有各种接收区域的扩张和环形图。随着计算碱基的计算基础,使用嵌套在RFFS-NET中的多级解码器进行的接收场的分层,并由多层接受场聚集损失(MRFALOSS)驱动,以驱动网络驱动网络以学习在具有不同分辨率的监督标签的方向。通过接受场融合和分层,RFFS-NET更适应大型ALS点云中具有复杂结构和极端尺度变化区域的分类。在ISPRS Vaihingen 3D数据集上进行了评估,我们的RFFS-NET显着优于MF1的基线方法5.3%,而MIOU的基线方法的总体准确性为82.1%,MF1的总准确度为71.6%,MIOU的MF1和MIOU为58.2%。此外,LASDU数据集和2019 IEEE-GRSS数据融合竞赛数据集的实验显示,RFFS-NET可以实现新的最新分类性能。
translated by 谷歌翻译
点云的语义分割通过密集预测每个点的类别来产生对场景的全面理解。由于接收场的一致性,点云的语义分割对于多受感受性场特征的表达仍然具有挑战性,这会导致对具有相似空间结构的实例的错误分类。在本文中,我们提出了一个植根于扩张图特征聚集(DGFA)的图形卷积网络DGFA-NET,该图由通过金字塔解码器计算出的多基质聚集损失(Maloss)引导。为了配置多受感受性字段特征,将建议的扩张图卷积(DGCONV)作为其基本构建块,旨在通过捕获带有各种接收区域的扩张图来汇总多尺度特征表示。通过同时考虑用不同分辨率的点集作为计算碱基的点集惩罚接收场信息,我们引入了由Maloss驱动的金字塔解码器,以了解接受田间的多样性。结合这两个方面,DGFA-NET显着提高了具有相似空间结构的实例的分割性能。 S3DIS,ShapenetPart和Toronto-3D的实验表明,DGFA-NET优于基线方法,实现了新的最新细分性能。
translated by 谷歌翻译
在本文中,我们提出了一个全面的点云语义分割网络,该网络汇总了本地和全球多尺度信息。首先,我们提出一个角度相关点卷积(ACPCONV)模块,以有效地了解点的局部形状。其次,基于ACPCONV,我们引入了局部多规模拆分(MSS)块,该块从一个单个块中连接到一个单个块中的特征,并逐渐扩大了接受场,这对利用本地上下文是有益的。第三,受HRNET的启发,在2D图像视觉任务上具有出色的性能,我们构建了一个针对Point Cloud的HRNET,以学习全局多尺度上下文。最后,我们介绍了一种融合多分辨率预测并进一步改善点云语义分割性能的点上的注意融合方法。我们在几个基准数据集上的实验结果和消融表明,与现有方法相比,我们提出的方法有效,能够实现最先进的性能。
translated by 谷歌翻译
3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译
Point cloud learning has lately attracted increasing attention due to its wide applications in many areas, such as computer vision, autonomous driving, and robotics. As a dominating technique in AI, deep learning has been successfully used to solve various 2D vision problems. However, deep learning on point clouds is still in its infancy due to the unique challenges faced by the processing of point clouds with deep neural networks. Recently, deep learning on point clouds has become even thriving, with numerous methods being proposed to address different problems in this area. To stimulate future research, this paper presents a comprehensive review of recent progress in deep learning methods for point clouds. It covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. It also presents comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions.
translated by 谷歌翻译
变压器在图像处理领域取得了显着的成就。受到这一巨大成功的启发,变形金刚在3D点云处理中的应用引起了越来越多的关注。本文提出了一个新颖的点云表示学习网络,具有双重自我注意的3D点云变压器(3DPCT)和一个编码器解码器结构。具体而言,3DPCT具有一个层次编码器,该编码器包含两个用于分类任务的局部全球双重注意模块(分段任务的三个模块),每个模块都包含一个局部特征聚合(LFA)块和全局特征学习( GFL)块。 GFL块是双重的自我注意事项,既有在点上的自我注意力,又可以提高特征提取。此外,在LFA中,为更好地利用了提取的本地信息,设计了一种新颖的点自我发明模型,称为点斑点自我注意力(PPSA)。在分类和分割数据集上都评估了性能,其中包含合成数据和现实世界数据。广泛的实验表明,所提出的方法在分类和分割任务上都达到了最新的结果。
translated by 谷歌翻译
Downsampling and feature extraction are essential procedures for 3D point cloud understanding. Existing methods are limited by the inconsistent point densities of different parts in the point cloud. In this work, we analyze the limitation of the downsampling stage and propose the pre-abstraction group-wise window-normalization module. In particular, the window-normalization method is leveraged to unify the point densities in different parts. Furthermore, the group-wise strategy is proposed to obtain multi-type features, including texture and spatial information. We also propose the pre-abstraction module to balance local and global features. Extensive experiments show that our module performs better on several tasks. In segmentation tasks on S3DIS (Area 5), the proposed module performs better on small object recognition, and the results have more precise boundaries than others. The recognition of the sofa and the column is improved from 69.2% to 84.4% and from 42.7% to 48.7%, respectively. The benchmarks are improved from 71.7%/77.6%/91.9% (mIoU/mAcc/OA) to 72.2%/78.2%/91.4%. The accuracies of 6-fold cross-validation on S3DIS are 77.6%/85.8%/91.7%. It outperforms the best model PointNeXt-XL (74.9%/83.0%/90.3%) by 2.7% on mIoU and achieves state-of-the-art performance. The code and models are available at https://github.com/DBDXSS/Window-Normalization.git.
translated by 谷歌翻译
随着激光雷达传感器和3D视觉摄像头的扩散,3D点云分析近年来引起了重大关注。经过先驱工作点的成功后,基于深度学习的方法越来越多地应用于各种任务,包括3D点云分段和3D对象分类。在本文中,我们提出了一种新颖的3D点云学习网络,通过选择性地执行具有动态池的邻域特征聚合和注意机制来提出作为动态点特征聚合网络(DPFA-NET)。 DPFA-Net有两个可用于三维云的语义分割和分类的变体。作为DPFA-NET的核心模块,我们提出了一个特征聚合层,其中每个点的动态邻域的特征通过自我注意机制聚合。与其他分割模型相比,来自固定邻域的聚合特征,我们的方法可以在不同层中聚合来自不同邻居的特征,在不同层中为查询点提供更具选择性和更广泛的视图,并更多地关注本地邻域中的相关特征。此外,为了进一步提高所提出的语义分割模型的性能,我们提出了两种新方法,即两级BF-Net和BF-Rengralization来利用背景前台信息。实验结果表明,所提出的DPFA-Net在S3DIS数据集上实现了最先进的整体精度分数,在S3DIS数据集上进行了语义分割,并在不同的语义分割,部分分割和3D对象分类中提供始终如一的令人满意的性能。与其他方法相比,它也在计算上更有效。
translated by 谷歌翻译
变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性,变压器已被用作广泛使用的卷积运算符的替代品。事实证明,这种替代者在许多任务中都取得了成功,其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中,3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上,但由于与2D视觉相比,由于数据表示和处理的差异,3D视觉需要特别注意。在这项工作中,我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查,包括分类,细分,检测,完成,姿势估计等。我们在3D Vision中讨论了变形金刚的设计,该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序,我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力,我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外,我们的目标是频繁更新最新的相关论文及其相应的实现:https://github.com/lahoud/3d-vision-transformers。
translated by 谷歌翻译
点云的Panoptic分割是一种重要的任务,使自动车辆能够使用高精度可靠的激光雷达传感器来理解其附近。现有的自上而下方法通过将独立的任务特定网络或转换方法从图像域转换为忽略激光雷达数据的复杂性,因此通常会导致次优性性能来解决这个问题。在本文中,我们提出了新的自上而下的高效激光乐光线分割(有效的LID)架构,该架构解决了分段激光雷达云中的多种挑战,包括距离依赖性稀疏性,严重的闭塞,大规模变化和重新投影误差。高效地板包括一种新型共享骨干,可以通过加强的几何变换建模容量进行编码,并聚合语义丰富的范围感知多尺度特征。它结合了新的不变语义和实例分段头以及由我们提出的Panoptic外围损耗功能监督的Panoptic Fusion模块。此外,我们制定了正则化的伪标签框架,通过对未标记数据的培训进行进一步提高高效性的性能。我们在两个大型LIDAR数据集中建议模型基准:NUSCENES,我们还提供了地面真相注释和Semantickitti。值得注意的是,高效地将在两个数据集上设置新的最先进状态。
translated by 谷歌翻译
Semantic segmentation of UAV aerial remote sensing images provides a more efficient and convenient surveying and mapping method for traditional surveying and mapping. In order to make the model lightweight and improve a certain accuracy, this research developed a new lightweight and efficient network for the extraction of ground features from UAV aerial remote sensing images, called LDMCNet. Meanwhile, this research develops a powerful lightweight backbone network for the proposed semantic segmentation model. It is called LDCNet, and it is hoped that it can become the backbone network of a new generation of lightweight semantic segmentation algorithms. The proposed model uses dual multi-scale context modules, namely the Atrous Space Pyramid Pooling module (ASPP) and the Object Context Representation module (OCR). In addition, this research constructs a private dataset for semantic segmentation of aerial remote sensing images from drones. This data set contains 2431 training sets, 945 validation sets, and 475 test sets. The proposed model performs well on this dataset, with only 1.4M parameters and 5.48G floating-point operations (FLOPs), achieving an average intersection-over-union ratio (mIoU) of 71.12%. 7.88% higher than the baseline model. In order to verify the effectiveness of the proposed model, training on the public datasets "LoveDA" and "CITY-OSM" also achieved excellent results, achieving mIoU of 65.27% and 74.39%, respectively.
translated by 谷歌翻译
通过当地地区的点特征聚合来捕获的细粒度几何是对象识别和场景理解在点云中的关键。然而,现有的卓越点云骨架通常包含最大/平均池用于局部特征聚集,这在很大程度上忽略了点的位置分布,导致细粒结构组装不足。为了缓解这一瓶颈,我们提出了一个有效的替代品,可以使用新颖的图形表示明确地模拟了本地点之间的空间关系,并以位置自适应方式聚合特征,从而实现位置敏感的表示聚合特征。具体而言,Papooling分别由两个关键步骤,图形结构和特征聚合组成,分别负责构造与将中心点连接的边缘与本地区域中的每个相邻点连接的曲线图组成,以将它们的相对位置信息映射到通道 - 明智的细心权重,以及基于通过图形卷积网络(GCN)的生成权重自适应地聚合局部点特征。 Papooling简单而且有效,并且足够灵活,可以随时为PointNet ++和DGCNN等不同的流行律源,作为即插即说运算符。关于各种任务的广泛实验,从3D形状分类,部分分段对场景分割良好的表明,伪装可以显着提高预测准确性,而具有最小的额外计算开销。代码将被释放。
translated by 谷歌翻译
标准空间卷积假设具有常规邻域结构的输入数据。现有方法通常通过修复常规“视图”来概括对不规则点云域的卷积。固定的邻域大小,卷积内核大小对于每个点保持不变。然而,由于点云不是像图像的结构,所以固定邻权给出了不幸的感应偏压。我们提出了一个名为digress图卷积(diffconv)的新图表卷积,不依赖常规视图。DiffConv在空间 - 变化和密度扩张的邻域上操作,其进一步由学习屏蔽的注意机制进行了进一步调整。我们在ModelNet40点云分类基准测试中验证了我们的模型,获得最先进的性能和更稳健的噪声,以及更快的推广速度。
translated by 谷歌翻译
Point cloud completion is a generation and estimation issue derived from the partial point clouds, which plays a vital role in the applications in 3D computer vision. The progress of deep learning (DL) has impressively improved the capability and robustness of point cloud completion. However, the quality of completed point clouds is still needed to be further enhanced to meet the practical utilization. Therefore, this work aims to conduct a comprehensive survey on various methods, including point-based, convolution-based, graph-based, and generative model-based approaches, etc. And this survey summarizes the comparisons among these methods to provoke further research insights. Besides, this review sums up the commonly used datasets and illustrates the applications of point cloud completion. Eventually, we also discussed possible research trends in this promptly expanding field.
translated by 谷歌翻译
利用深度学习的水提取需要精确的像素级标签。然而,在像素级别标记高分辨率遥感图像非常困难。因此,我们研究如何利用点标签来提取水体并提出一种名为邻居特征聚合网络(NFANET)的新方法。与PixelLevel标签相比,Point标签更容易获得,但它们会失去许多信息。在本文中,我们利用了局部水体的相邻像素之间的相似性,并提出了邻居采样器来重塑遥感图像。然后,将采样的图像发送到网络以进行特征聚合。此外,我们使用改进的递归训练算法进一步提高提取精度,使水边界更加自然。此外,我们的方法利用相邻特征而不是全局或本地特征来学习更多代表性。实验结果表明,所提出的NFANET方法不仅优于其他研究的弱监管方法,而且还获得与最先进的结果相似。
translated by 谷歌翻译
由于其高质量的对象表示和有效的获取方法,3D点云吸引了越来越多的架构,工程和构建的关注。因此,文献中已经提出了许多点云特征检测方法来自动化一些工作流,例如它们的分类或部分分割。然而,点云自动化系统的性能显着落后于图像对应物。尽管这种故障的一部分源于云云的不规则性,非结构性和混乱,这使得云特征检测的任务比图像一项更具挑战性,但我们认为,图像域缺乏灵感可能是主要的。这种差距的原因。确实,鉴于图像特征检测中卷积神经网络(CNN)的压倒性成功,设计其点云对应物似乎是合理的,但是所提出的方法都不类似于它们。具体而言,即使许多方法概括了点云中的卷积操作,但它们也无法模仿CNN的多种功能检测和汇总操作。因此,我们提出了一个基于图卷积的单元,称为收缩单元,可以垂直和水平堆叠,以设计类似CNN的3D点云提取器。鉴于点云中点之间的自我,局部和全局相关性传达了至关重要的空间几何信息,因此我们在特征提取过程中还利用它们。我们通过为ModelNet-10基准数据集设计功能提取器模型来评估我们的建议,并达到90.64%的分类精度,表明我们的创新想法是有效的。我们的代码可在github.com/albertotamajo/shrinking-unit上获得。
translated by 谷歌翻译
准确的轨道位置是铁路支持驱动系统的重要组成部分,用于安全监控。激光雷达可以获得携带铁路环境的3D信息的点云,特别是在黑暗和可怕的天气条件下。在本文中,提出了一种基于3D点云的实时轨识别方法来解决挑战,如无序,不均匀的密度和大量点云的挑战。首先呈现Voxel Down-采样方法,用于铁路点云的密度平衡,并且金字塔分区旨在将3D扫描区域划分为具有不同卷的体素。然后,开发了一个特征编码模块以找到最近的邻点并聚合它们的局部几何特征。最后,提出了一种多尺度神经网络以产生每个体素和轨道位置的预测结果。该实验是在铁路的3D点云数据的9个序列下进行的。结果表明,该方法在检测直,弯曲和其他复杂的拓扑轨道方面具有良好的性能。
translated by 谷歌翻译
Raw point clouds data inevitably contains outliers or noise through acquisition from 3D sensors or reconstruction algorithms. In this paper, we present a novel endto-end network for robust point clouds processing, named PointASNL, which can deal with point clouds with noise effectively. The key component in our approach is the adaptive sampling (AS) module. It first re-weights the neighbors around the initial sampled points from farthest point sampling (FPS), and then adaptively adjusts the sampled points beyond the entire point cloud. Our AS module can not only benefit the feature learning of point clouds, but also ease the biased effect of outliers. To further capture the neighbor and long-range dependencies of the sampled point, we proposed a local-nonlocal (L-NL) module inspired by the nonlocal operation. Such L-NL module enables the learning process insensitive to noise. Extensive experiments verify the robustness and superiority of our approach in point clouds processing tasks regardless of synthesis data, indoor data, and outdoor data with or without noise. Specifically, PointASNL achieves state-of-theart robust performance for classification and segmentation tasks on all datasets, and significantly outperforms previous methods on real-world outdoor SemanticKITTI dataset with considerate noise. Our code is released through https: //github.com/yanx27/PointASNL.
translated by 谷歌翻译
学习地区内部背景和区域间关系是加强点云分析的特征表示的两项有效策略。但是,在现有方法中没有完全强调的统一点云表示的两种策略。为此,我们提出了一种名为点关系感知网络(PRA-NET)的小说框架,其由区域内结构学习(ISL)模块和区域间关系学习(IRL)模块组成。ISL模块可以通过可差的区域分区方案和基于代表的基于点的策略自适应和有效地将本地结构信息动态地集成到点特征中,而IRL模块可自适应和有效地捕获区域间关系。在涵盖形状分类,关键点估计和部分分割的几个3D基准测试中的广泛实验已经验证了PRA-Net的有效性和泛化能力。代码将在https://github.com/xiwuchen/pra-net上获得。
translated by 谷歌翻译
许多基于点的语义分割方法是为室内场景设计的,但如果它们被应用于户外环境中的LIDAR传感器捕获的点云,则他们挣扎。为了使这些方法更有效和坚固,使得它们可以处理LIDAR数据,我们介绍了重新建立基于3D点的操作的一般概念,使得它们可以在投影空间中运行。虽然我们通过三个基于点的方法显示了重新计算的版本速度快300到400倍,但实现了更高的准确性,但我们还证明了重新制定基于3D点的操作的概念允许设计统一益处的新架构基于点和基于图像的方法。作为示例,我们介绍一种网络,该网络将基于重新的3D点的操作集成到2D编码器 - 解码器架构中,该架构融合来自不同2D尺度的信息。我们评估了四个具有挑战性的语义LIDAR点云分割的方法,并显示利用基于2D图像的操作的重新推出的基于3D点的操作实现了所有四个数据集的非常好的结果。
translated by 谷歌翻译