可靠的点云数据对于机器人技术和自主驾驶应用程序中的感知任务\ textit {efextit {e.g。}至关重要。不利的天气会导致特定类型的噪声检测和范围(LIDAR)传感器数据,从而大大降低了点云的质量。为了解决这个问题,这封信提出了一种新颖的点云不利天气,使深度学习算法(4Denoisenet)。我们的算法利用了时间维度,与文献中深度学习不利的天气变质方法不同。与以前的工作相比,它的交集比联合度量的交点更好10 \%,并且在计算上更有效。这些结果是在我们的新型Snowkitti数据集上实现的,该数据集具有40000多个不良天气注释点云。此外,对加拿大不利驾驶条件数据集的强烈定性结果表明,对域移动和不同传感器内在的可推广性良好。
translated by 谷歌翻译
准确的移动对象细分是自动驾驶的重要任务。它可以为许多下游任务提供有效的信息,例如避免碰撞,路径计划和静态地图构建。如何有效利用时空信息是3D激光雷达移动对象分割(LIDAR-MOS)的关键问题。在这项工作中,我们提出了一个新型的深神经网络,利用了时空信息和不同的LiDAR扫描表示方式,以提高LIDAR-MOS性能。具体而言,我们首先使用基于图像图像的双分支结构来分别处理可以从顺序的LiDAR扫描获得的空间和时间信息,然后使用运动引导的注意模块组合它们。我们还通过3D稀疏卷积使用点完善模块来融合LIDAR范围图像和点云表示的信息,并减少对象边界上的伪像。我们验证了我们提出的方法对Semantickitti的LiDAR-MOS基准的有效性。我们的方法在LiDar-Mos IOU方面大大优于最先进的方法。从设计的粗到精细体系结构中受益,我们的方法以传感器框架速率在线运行。我们方法的实现可作为开源可用:https://github.com/haomo-ai/motionseg3d。
translated by 谷歌翻译
LIDAR传感器对于自动驾驶汽车和智能机器人的感知系统至关重要。为了满足现实世界应用程序中的实时要求,有必要有效地分割激光扫描。以前的大多数方法将3D点云直接投影到2D球形范围图像上,以便它们可以利用有效的2D卷积操作进行图像分割。尽管取得了令人鼓舞的结果,但在球形投影中,邻里信息尚未保存得很好。此外,在单个扫描分割任务中未考虑时间信息。为了解决这些问题,我们提出了一种新型的语义分割方法,用于元素rangeseg的激光雷达序列,其中引入了新的范围残差图像表示以捕获空间时间信息。具体而言,使用元内核来提取元特征,从而减少了2D范围图像坐标输入和3D笛卡尔坐标输出之间的不一致。有效的U-NET主链用于获得多尺度功能。此外,特征聚合模块(FAM)增强了范围通道的作用,并在不同级别上汇总特征。我们已经进行了广泛的实验,以评估semantickitti和semanticposs。有希望的结果表明,我们提出的元rangeseg方法比现有方法更有效。我们的完整实施可在https://github.com/songw-zju/meta-rangeseg上公开获得。
translated by 谷歌翻译
Perception in autonomous vehicles is often carried out through a suite of different sensing modalities. Given the massive amount of openly available labeled RGB data and the advent of high-quality deep learning algorithms for image-based recognition, high-level semantic perception tasks are pre-dominantly solved using high-resolution cameras. As a result of that, other sensor modalities potentially useful for this task are often ignored. In this paper, we push the state of the art in LiDAR-only semantic segmentation forward in order to provide another independent source of semantic information to the vehicle. Our approach can accurately perform full semantic segmentation of LiDAR point clouds at sensor frame rate. We exploit range images as an intermediate representation in combination with a Convolutional Neural Network (CNN) exploiting the rotating LiDAR sensor model. To obtain accurate results, we propose a novel postprocessing algorithm that deals with problems arising from this intermediate representation such as discretization errors and blurry CNN outputs. We implemented and thoroughly evaluated our approach including several comparisons to the state of the art. Our experiments show that our approach outperforms state-of-the-art approaches, while still running online on a single embedded GPU. The code can be accessed at https://github.com/PRBonn/lidar-bonnetal.
translated by 谷歌翻译
从预期的观点(例如范围视图(RV)和Bird's-eye-view(BEV))进行了云云语义细分。不同的视图捕获了点云的不同信息,因此彼此互补。但是,最近基于投影的点云语义分割方法通常会利用一种香草后期的融合策略来预测不同观点,因此未能从表示学习过程中从几何学角度探索互补信息。在本文中,我们引入了一个几何流动网络(GFNET),以探索以融合方式对准不同视图之间的几何对应关系。具体而言,我们设计了一个新颖的几何流量模块(GFM),以双向对齐并根据端到端学习方案下的几何关系跨不同观点传播互补信息。我们对两个广泛使用的基准数据集(Semantickitti和Nuscenes)进行了广泛的实验,以证明我们的GFNET对基于项目的点云语义分割的有效性。具体而言,GFNET不仅显着提高了每个单独观点的性能,而且还可以在所有基于投影的模型中取得最新的结果。代码可在\ url {https://github.com/haibo-qiu/gfnet}中获得。
translated by 谷歌翻译
点云的Panoptic分割是一种重要的任务,使自动车辆能够使用高精度可靠的激光雷达传感器来理解其附近。现有的自上而下方法通过将独立的任务特定网络或转换方法从图像域转换为忽略激光雷达数据的复杂性,因此通常会导致次优性性能来解决这个问题。在本文中,我们提出了新的自上而下的高效激光乐光线分割(有效的LID)架构,该架构解决了分段激光雷达云中的多种挑战,包括距离依赖性稀疏性,严重的闭塞,大规模变化和重新投影误差。高效地板包括一种新型共享骨干,可以通过加强的几何变换建模容量进行编码,并聚合语义丰富的范围感知多尺度特征。它结合了新的不变语义和实例分段头以及由我们提出的Panoptic外围损耗功能监督的Panoptic Fusion模块。此外,我们制定了正则化的伪标签框架,通过对未标记数据的培训进行进一步提高高效性的性能。我们在两个大型LIDAR数据集中建议模型基准:NUSCENES,我们还提供了地面真相注释和Semantickitti。值得注意的是,高效地将在两个数据集上设置新的最先进状态。
translated by 谷歌翻译
准确的轨道位置是铁路支持驱动系统的重要组成部分,用于安全监控。激光雷达可以获得携带铁路环境的3D信息的点云,特别是在黑暗和可怕的天气条件下。在本文中,提出了一种基于3D点云的实时轨识别方法来解决挑战,如无序,不均匀的密度和大量点云的挑战。首先呈现Voxel Down-采样方法,用于铁路点云的密度平衡,并且金字塔分区旨在将3D扫描区域划分为具有不同卷的体素。然后,开发了一个特征编码模块以找到最近的邻点并聚合它们的局部几何特征。最后,提出了一种多尺度神经网络以产生每个体素和轨道位置的预测结果。该实验是在铁路的3D点云数据的9个序列下进行的。结果表明,该方法在检测直,弯曲和其他复杂的拓扑轨道方面具有良好的性能。
translated by 谷歌翻译
基于激光雷达的3D场景感知是自动驾驶的基本和重要任务。大多数基于激光雷达的3D识别任务的最新方法都集中在单帧3D点云数据上,并且这些方法在这些方法中被忽略。我们认为,整个框架的时间信息为3D场景感知提供了重要的知识,尤其是在驾驶场景中。在本文中,我们专注于空间和时间变化,以更好地探索3D帧的时间信息。我们设计了一个时间变化 - 意识到的插值模块和时间体素点炼油厂,以捕获4D点云中的时间变化。时间变化 - 意识插值通过捕获空间连贯性和时间变化信息来生成从上一个和当前帧的局部特征。时间体素点炼油厂在3D点云序列上构建了时间图,并使用图形卷积模块捕获时间变化。时间体素点炼油厂还将粗素级预测转换为精细的点级预测。通过我们提出的模块,新的网络TVSN在Semantickitti和Semantiposs上实现了最先进的性能。具体而言,我们的方法在MIOU中达到52.5 \%(以前的最佳方法+5.5%)在Semantickitti的多个扫描细分任务上,semanticposs的多个扫描分段任务(63.0%)(以前的最佳方法+2.8%)。
translated by 谷歌翻译
When using LiDAR semantic segmentation models for safety-critical applications such as autonomous driving, it is essential to understand and improve their robustness with respect to a large range of LiDAR corruptions. In this paper, we aim to comprehensively analyze the robustness of LiDAR semantic segmentation models under various corruptions. To rigorously evaluate the robustness and generalizability of current approaches, we propose a new benchmark called SemanticKITTI-C, which features 16 out-of-domain LiDAR corruptions in three groups, namely adverse weather, measurement noise and cross-device discrepancy. Then, we systematically investigate 11 LiDAR semantic segmentation models, especially spanning different input representations (e.g., point clouds, voxels, projected images, and etc.), network architectures and training schemes. Through this study, we obtain two insights: 1) We find out that the input representation plays a crucial role in robustness. Specifically, under specific corruptions, different representations perform variously. 2) Although state-of-the-art methods on LiDAR semantic segmentation achieve promising results on clean data, they are less robust when dealing with noisy data. Finally, based on the above observations, we design a robust LiDAR segmentation model (RLSeg) which greatly boosts the robustness with simple but effective modifications. It is promising that our benchmark, comprehensive analysis, and observations can boost future research in robust LiDAR semantic segmentation for safety-critical applications.
translated by 谷歌翻译
许多基于点的语义分割方法是为室内场景设计的,但如果它们被应用于户外环境中的LIDAR传感器捕获的点云,则他们挣扎。为了使这些方法更有效和坚固,使得它们可以处理LIDAR数据,我们介绍了重新建立基于3D点的操作的一般概念,使得它们可以在投影空间中运行。虽然我们通过三个基于点的方法显示了重新计算的版本速度快300到400倍,但实现了更高的准确性,但我们还证明了重新制定基于3D点的操作的概念允许设计统一益处的新架构基于点和基于图像的方法。作为示例,我们介绍一种网络,该网络将基于重新的3D点的操作集成到2D编码器 - 解码器架构中,该架构融合来自不同2D尺度的信息。我们评估了四个具有挑战性的语义LIDAR点云分割的方法,并显示利用基于2D图像的操作的重新推出的基于3D点的操作实现了所有四个数据集的非常好的结果。
translated by 谷歌翻译
本文首先提出了一个有效的3D点云学习架构,名为PWCLO-NET的LIDAR ODOMORY。在该架构中,提出了3D点云的投影感知表示来将原始的3D点云组织成有序数据表单以实现效率。 LIDAR ODOMOMERY任务的金字塔,翘曲和成本量(PWC)结构是为估计和优化在分层和高效的粗良好方法中的姿势。建立一个投影感知的细心成本卷,以直接关联两个离散点云并获得嵌入运动模式。然后,提出了一种可训练的嵌入掩模来称量局部运动模式以回归整体姿势和过滤异常值点。可训练的姿势经线细化模块迭代地与嵌入式掩码进行分层优化,使姿势估计对异常值更加强大。整个架构是全能优化的端到端,实现成本和掩码的自适应学习,并且涉及点云采样和分组的所有操作都是通过投影感知的3D特征学习方法加速。在Kitti Ocomatry DataSet上证明了我们的激光乐队内径架构的卓越性能和有效性。我们的方法优于基于学习的所有基于学习的方法,甚至基于几何的方法,在大多数基于Kitti Odomatry数据集的序列上具有映射优化的遗传。
translated by 谷歌翻译
Scene understanding is crucial for autonomous robots in dynamic environments for making future state predictions, avoiding collisions, and path planning. Camera and LiDAR perception made tremendous progress in recent years, but face limitations under adverse weather conditions. To leverage the full potential of multi-modal sensor suites, radar sensors are essential for safety critical tasks and are already installed in most new vehicles today. In this paper, we address the problem of semantic segmentation of moving objects in radar point clouds to enhance the perception of the environment with another sensor modality. Instead of aggregating multiple scans to densify the point clouds, we propose a novel approach based on the self-attention mechanism to accurately perform sparse, single-scan segmentation. Our approach, called Gaussian Radar Transformer, includes the newly introduced Gaussian transformer layer, which replaces the softmax normalization by a Gaussian function to decouple the contribution of individual points. To tackle the challenge of the transformer to capture long-range dependencies, we propose our attentive up- and downsampling modules to enlarge the receptive field and capture strong spatial relations. We compare our approach to other state-of-the-art methods on the RadarScenes data set and show superior segmentation quality in diverse environments, even without exploiting temporal information.
translated by 谷歌翻译
大规模发光点云的快速有效语义分割是自主驾驶中的一个基本问题。为了实现这一目标,现有的基于点的方法主要选择采用随机抽样策略来处理大规模点云。但是,我们的数量和定性研究发现,随机抽样可能不适合自主驾驶场景,因为LiDAR点遵循整个空间的不均匀甚至长尾巴分布,这阻止了模型从从中捕获足够的信息,从而从中捕获了足够的信息不同的距离范围并降低了模型的学习能力。为了减轻这个问题,我们提出了一种新的极性缸平衡的随机抽样方法,该方法使下采样的点云能够保持更平衡的分布并改善不同空间分布下的分割性能。此外,引入了采样一致性损失,以进一步提高分割性能并降低模型在不同采样方法下的方差。广泛的实验证实,我们的方法在Semantickitti和Semanticposs基准测试中都产生了出色的性能,分别提高了2.8%和4.0%。
translated by 谷歌翻译
LIDAR广泛用于捕获准确的3D室外场景结构。但是,LiDAR在雪天气中产生许多不良的噪音点,这阻碍了有意义的3D场景结构。带有积雪标签的语义分割将是清除它们的简单解决方案,但需要艰苦的点注释。为了解决这个问题,我们提出了一个新颖的自我监督学习框架,用于在激光雷德点云中清除降雪点。我们的方法利用了噪声点的结构特征:与邻居的低空间相关性。我们的方法由两个深神经网络组成:点重建网络(PR-NET)从其邻居中重建每个点;重建难度网络(RD-NET)预测了PR-NET重建的重点难度,我们称之为重建难度。通过简单的后处理,我们的方法有效地检测了没有任何标签的雪点。我们的方法在无标签方法中实现了最新的性能,并且可以与完全监督的方法相媲美。此外,我们证明我们的方法可以被利用为提高监督登记培训的标签效率的借口。
translated by 谷歌翻译
Point cloud learning has lately attracted increasing attention due to its wide applications in many areas, such as computer vision, autonomous driving, and robotics. As a dominating technique in AI, deep learning has been successfully used to solve various 2D vision problems. However, deep learning on point clouds is still in its infancy due to the unique challenges faced by the processing of point clouds with deep neural networks. Recently, deep learning on point clouds has become even thriving, with numerous methods being proposed to address different problems in this area. To stimulate future research, this paper presents a comprehensive review of recent progress in deep learning methods for point clouds. It covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. It also presents comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions.
translated by 谷歌翻译
在鸟眼中学习强大的表现(BEV),以进行感知任务,这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测,细分,跟踪等。随着传感器配置变得越来越复杂,从不同的传感器中集成了多源信息,并在统一视图中代表功能至关重要。 BEV感知继承了几个优势,因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象,对于随后的模块,如计划和/或控制是最可取的。 BEV感知的核心问题在于(a)如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息; (b)如何在BEV网格中获取地面真理注释; (c)如何制定管道以合并来自不同来源和视图的特征; (d)如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中,我们回顾了有关BEV感知的最新工作,并对不同解决方案进行了深入的分析。此外,还描述了该行业的BEV方法的几种系统设计。此外,我们推出了一套完整的实用指南,以提高BEV感知任务的性能,包括相机,激光雷达和融合输入。最后,我们指出了该领域的未来研究指示。我们希望该报告能阐明社区,并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作,并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。
translated by 谷歌翻译
准确而快速的场景理解是自动驾驶的挑战性任务之一,它需要充分利用LiDar Point云进行语义细分。在本文中,我们提出了一个\ textbf {concise}和\ textbf {有效}基于图像的语义分割网络,名为\ textbf {cenet}。为了提高学习能力的描述能力并降低计算和时间复杂性,我们的CENET将卷积与较大的内核大小而不是MLP相结合。定量和定性实验是根据公开可用的基准测试和Semanticposs进行的,这表明我们的管道与最先进的模型相比,我们的管道取得了更好的MIOU和推理性能。该代码将在https://github.com/huixiancheng/cenet上找到。
translated by 谷歌翻译
In this paper, we address semantic segmentation of road-objects from 3D LiDAR point clouds. In particular, we wish to detect and categorize instances of interest, such as cars, pedestrians and cyclists. We formulate this problem as a pointwise classification problem, and propose an end-to-end pipeline called SqueezeSeg based on convolutional neural networks (CNN): the CNN takes a transformed LiDAR point cloud as input and directly outputs a point-wise label map, which is then refined by a conditional random field (CRF) implemented as a recurrent layer. Instance-level labels are then obtained by conventional clustering algorithms. Our CNN model is trained on LiDAR point clouds from the KITTI [1] dataset, and our point-wise segmentation labels are derived from 3D bounding boxes from KITTI. To obtain extra training data, we built a LiDAR simulator into Grand Theft Auto V (GTA-V), a popular video game, to synthesize large amounts of realistic training data. Our experiments show that SqueezeSeg achieves high accuracy with astonishingly fast and stable runtime (8.7 ± 0.5 ms per frame), highly desirable for autonomous driving applications. Furthermore, additionally training on synthesized data boosts validation accuracy on real-world data. Our source code and synthesized data will be open-sourced.
translated by 谷歌翻译
点云语义分段由于其对光线的稳健性而引起了注意。这使其成为自动驾驶的理想语义解决方案。但是,考虑到神经网络的巨大计算负担和带宽的要求,将所有计算都放入车辆电子控制单元(ECU)不高度或实用。在本文中,我们根据范围视图提出了一个轻巧的点云语义分割网络。由于其简单的预处理和标准卷积,在像DPU这样的深度学习加速器上运行时,它是有效的。此外,为自动驾驶汽车构建了近传感器计算系统。在该系统中,放置在LIDAR传感器旁边的基于FPGA的深度学习加速器核心(DPU),以执行点云预处理和分割神经网络。通过仅将后处理步骤留给ECU,该解决方案大大减轻了ECU的计算负担,因此缩短了决策和车辆反应潜伏期。我们的语义分割网络在Xilinx DPU上获得了10帧(FPS),其计算效率为42.5 GOP/w。
translated by 谷歌翻译
有希望的互补性存在着颜色图像的纹理特征和激光点云的几何信息。但是,在3D对象检测领域中,仍然存在许多挑战,以实现高效且可靠的特征融合。在本文中,首先,在2D平面中填充了非结构化的3D点云,并且使用投影感知的卷积层更快地提取3D点云特征。此外,在数据预处理中提前建立了不同传感器信号之间的相应索引,从而实现更快的交叉模式融合。为了解决LIDAR点和图像像素的未对准问题,提出了两个新的插件融合模块,即licamfuse和bilicamfuse。在Licamfuse中,提出了带有双峰特征的欧几里得距离的软查询权重。在Bilicamfuse中,提出了双重注意的融合模块,以深层关联场景的几何和纹理特征。 KITTI数据集上的定量结果表明,所提出的方法可以实现更好的特征级融合。此外,与现有方法相比,建议的网络显示出更短的运行时间。
translated by 谷歌翻译