强大而准确的本地化是移动自主系统的基本要求。类似杆状的物体,例如交通标志,杆子和灯,由于其局部独特性和长期稳定性,经常使用地标在城市环境中定位。在本文中,我们基于在线运行并且几乎没有计算需求的几何特征,提出了一种新颖,准确,快速的杆提取方法。我们的方法直接对3D LIDAR扫描生成的范围图像执行所有计算,该图像避免了显式处理3D点云,并为每次扫描启用快速的极点提取。我们进一步使用提取的杆子作为伪标签来训练深层神经网络,以基于图像的极点分割。我们测试了我们的几何和基于学习的极点提取方法,用于在不同的扫描仪,路线和季节性变化的不同数据集上定位。实验结果表明,我们的方法表现优于其他最先进的方法。此外,通过从多个数据集提取的伪极标签增强,我们基于学习的方法可以跨不同的数据集运行,并且与基于几何的方法相比,可以实现更好的本地化结果。我们向公众发布了杆数据集,以评估杆的性能以及我们的方法的实施。
translated by 谷歌翻译
了解场景是自主导航车辆的关键,以及在线将周围环境分段为移动和非移动物体的能力是这项任务的中央成分。通常,基于深度学习的方法用于执行移动对象分段(MOS)。然而,这些网络的性能强烈取决于标记培训数据的多样性和数量,可以获得昂贵的信息。在本文中,我们提出了一种自动数据标记管道,用于3D LIDAR数据,以节省广泛的手动标记工作,并通过自动生成标记的训练数据来提高现有的基于学习的MOS系统的性能。我们所提出的方法通过批量处理数据来实现数据。首先利用基于占用的动态对象拆除以粗略地检测可能的动态物体。其次,它提取了提案中的段,并使用卡尔曼滤波器跟踪它们。基于跟踪的轨迹,它标记了实际移动的物体,如驾驶汽车和行人。相反,非移动物体,例如,停放的汽车,灯,道路或建筑物被标记为静态。我们表明,这种方法允许我们高效地标记LIDAR数据,并将我们的结果与其他标签生成方法的结果进行比较。我们还使用自动生成的标签培训深度神经网络,并与在同一数据上的手动标签上接受过的手动标签的培训相比,实现了类似的性能,以及使用我们方法生成的标签的其他数据集时更好的性能。此外,我们使用不同的传感器评估我们在多个数据集上的方法,我们的实验表明我们的方法可以在各种环境中生成标签。
translated by 谷歌翻译
位置识别是自动驾驶汽车实现循环结束或全球本地化的重要组成部分。在本文中,我们根据机上激光雷达传感器获得的顺序3D激光扫描解决了位置识别问题。我们提出了一个名为SEQOT的基于变压器的网络,以利用由LIDAR数据生成的顺序范围图像提供的时间和空间信息。它使用多尺度变压器以端到端的方式为每一个LiDAR范围图像生成一个全局描述符。在线操作期间,我们的SEQOT通过在当前查询序列和地图中存储的描述符之间匹配此类描述符来找到相似的位置。我们在不同类型的不同环境中使用不同类型的LIDAR传感器收集的四个数据集评估了我们的方法。实验结果表明,我们的方法优于最新的基于激光痛的位置识别方法,并在不同环境中概括了。此外,我们的方法比传感器的帧速率更快地在线运行。我们的方法的实现以开放源形式发布,网址为:https://github.com/bit-mjy/seqot。
translated by 谷歌翻译
自动驾驶汽车的主要挑战是在看不见的动态环境中导航。将移动对象与静态对象分开对于导航,姿势估计以及了解其他交通参与者在不久的将来可能如何移动至关重要。在这项工作中,我们解决了区分当前移动物体(如行人行人或驾驶汽车)的3D激光雷达点的问题,从非移动物体(如墙壁)中获得的点,但还停放了汽车。我们的方法采用了一系列观察到的激光扫描,并将它们变成素化的稀疏4D点云。我们应用计算有效的稀疏4D旋转来共同提取空间和时间特征,并预测序列中所有点的移动对象置信得分。我们制定了一种退化的地平线策略,使我们能够在线预测移动对象,并根据新观察结果对GO进行预测。我们使用二进制贝叶斯过滤器递归整合了扫描的新预测,从而产生了更强的估计。我们在Semantickitti移动对象细分挑战中评估我们的方法,并显示出比现有方法更准确的预测。由于我们的方法仅在随着时间的推移随时间范围的几何信息上运行,因此它可以很好地概括为新的,看不见的环境,我们在阿波罗数据集中评估了这些环境。
translated by 谷歌翻译
Conventional sensor-based localization relies on high-precision maps, which are generally built using specialized mapping techniques involving high labor and computational costs. In the architectural, engineering and construction industry, Building Information Models (BIM) are available and can provide informative descriptions of environments. This paper explores an effective way to localize a mobile 3D LiDAR sensor on BIM-generated maps considering both geometric and semantic properties. First, original BIM elements are converted to semantically augmented point cloud maps using categories and locations. After that, a coarse-to-fine semantic localization is performed to align laser points to the map based on iterative closest point registration. The experimental results show that the semantic localization can track the pose successfully with only one LiDAR sensor, thus demonstrating the feasibility of the proposed mapping-free localization framework. The results also show that using semantic information can help reduce localization errors on BIM-generated maps.
translated by 谷歌翻译
在这项研究中,我们提出了一种新型的视觉定位方法,以根据RGB摄像机的可视数据准确估计机器人在3D激光镜头内的六个自由度(6-DOF)姿势。使用基于先进的激光雷达的同时定位和映射(SLAM)算法,可获得3D地图,能够收集精确的稀疏图。将从相机图像中提取的功能与3D地图的点进行了比较,然后解决了几何优化问题,以实现精确的视觉定位。我们的方法允许使用配备昂贵激光雷达的侦察兵机器人一次 - 用于映射环境,并且仅使用RGB摄像头的多个操作机器人 - 执行任务任务,其本地化精度高于常见的基于相机的解决方案。该方法在Skolkovo科学技术研究所(Skoltech)收集的自定义数据集上进行了测试。在评估本地化准确性的过程中,我们设法达到了厘米级的准确性;中间翻译误差高达1.3厘米。仅使用相机实现的确切定位使使用自动移动机器人可以解决需要高度本地化精度的最复杂的任务。
translated by 谷歌翻译
准确的移动对象细分是自动驾驶的重要任务。它可以为许多下游任务提供有效的信息,例如避免碰撞,路径计划和静态地图构建。如何有效利用时空信息是3D激光雷达移动对象分割(LIDAR-MOS)的关键问题。在这项工作中,我们提出了一个新型的深神经网络,利用了时空信息和不同的LiDAR扫描表示方式,以提高LIDAR-MOS性能。具体而言,我们首先使用基于图像图像的双分支结构来分别处理可以从顺序的LiDAR扫描获得的空间和时间信息,然后使用运动引导的注意模块组合它们。我们还通过3D稀疏卷积使用点完善模块来融合LIDAR范围图像和点云表示的信息,并减少对象边界上的伪像。我们验证了我们提出的方法对Semantickitti的LiDAR-MOS基准的有效性。我们的方法在LiDar-Mos IOU方面大大优于最先进的方法。从设计的粗到精细体系结构中受益,我们的方法以传感器框架速率在线运行。我们方法的实现可作为开源可用:https://github.com/haomo-ai/motionseg3d。
translated by 谷歌翻译
传统的LIDAR射测(LO)系统主要利用从经过的环境获得的几何信息来注册激光扫描并估算Lidar Ego-Motion,而在动态或非结构化环境中可能不可靠。本文提出了Inten-loam,一种低饮用和健壮的激光镜和映射方法,该方法完全利用激光扫描的隐式信息(即几何,强度和时间特征)。扫描点被投影到圆柱形图像上,这些图像有助于促进各种特征的有效和适应性提取,即地面,梁,立面和反射器。我们提出了一种新型基于强度的点登记算法,并将其纳入LIDAR的探光仪,从而使LO系统能够使用几何和强度特征点共同估计LIDAR EGO-MOTION。为了消除动态对象的干扰,我们提出了一种基于时间的动态对象删除方法,以在MAP更新之前过滤它们。此外,使用与时间相关的体素网格滤波器组织并缩减了本地地图,以维持当前扫描和静态局部图之间的相似性。在模拟和实际数据集上进行了广泛的实验。结果表明,所提出的方法在正常驾驶方案中实现了类似或更高的精度W.R.T,在非结构化环境中,最先进的方法优于基于几何的LO。
translated by 谷歌翻译
Perception in autonomous vehicles is often carried out through a suite of different sensing modalities. Given the massive amount of openly available labeled RGB data and the advent of high-quality deep learning algorithms for image-based recognition, high-level semantic perception tasks are pre-dominantly solved using high-resolution cameras. As a result of that, other sensor modalities potentially useful for this task are often ignored. In this paper, we push the state of the art in LiDAR-only semantic segmentation forward in order to provide another independent source of semantic information to the vehicle. Our approach can accurately perform full semantic segmentation of LiDAR point clouds at sensor frame rate. We exploit range images as an intermediate representation in combination with a Convolutional Neural Network (CNN) exploiting the rotating LiDAR sensor model. To obtain accurate results, we propose a novel postprocessing algorithm that deals with problems arising from this intermediate representation such as discretization errors and blurry CNN outputs. We implemented and thoroughly evaluated our approach including several comparisons to the state of the art. Our experiments show that our approach outperforms state-of-the-art approaches, while still running online on a single embedded GPU. The code can be accessed at https://github.com/PRBonn/lidar-bonnetal.
translated by 谷歌翻译
由于范围和几何形状的直接集成,基于激光雷达的本地化和映射是许多现代机器人系统中的核心组件之一,可以实时进行精确的运动估算和​​高质量的高质量图。然而,由于场景中存在不足的环境约束,这种对几何形状的依赖可能导致定位失败,发生在隧道等自对称环境中。这项工作通过提出一种基于神经网络的估计方法来检测机器人操作过程中的(非)本地化性,从而解决了此问题。特别注意扫描到扫描登记的可靠性,因为它是许多激光射击估计管道中的关键组成部分。与以前的主要检测方法相反,该方法通过估算原始传感器测量的可定位性而无需评估基本的注册优化,可以尽早检测失败。此外,由于需要启发式的脱落检测阈值,因此以前的方法在跨环境和传感器类型的概括能力上仍然有限。提出的方法通过从不同环境的集合中学习,从而避免了这个问题,从而使网络在各种情况下运行。此外,该网络专门针对模拟数据进行培训,避免了艰苦的数据收集,以挑战性和退化(通常难以访问)环境。在跨越具有挑战性的环境和两种不同的传感器类型上进行的现场实验中,对所提出的方法进行了测试。观察到的检测性能与特定环境特异性阈值调整后的最新方法相当。
translated by 谷歌翻译
本文介绍了使用腿收割机进行精密收集任务的集成系统。我们的收割机在狭窄的GPS拒绝了森林环境中的自主导航和树抓取了一项挑战性的任务。提出了映射,本地化,规划和控制的策略,并集成到完全自主系统中。任务从使用定制的传感器模块开始使用人员映射感兴趣区域。随后,人类专家选择树木进行收获。然后将传感器模块安装在机器上并用于给定地图内的本地化。规划算法在单路径规划问题中搜索一个方法姿势和路径。我们设计了一个路径,后面的控制器利用腿的收割机的谈判粗糙地形的能力。在达接近姿势时,机器用通用夹具抓住一棵树。此过程重复操作员选择的所有树。我们的系统已经在与树干和自然森林中的测试领域进行了测试。据我们所知,这是第一次在现实环境中运行的全尺寸液压机上显示了这一自主权。
translated by 谷歌翻译
随着自动驾驶行业正在缓慢成熟,视觉地图本地化正在迅速成为尽可能准确定位汽车的标准方法。由于相机或激光镜等视觉传感器返回的丰富数据,研究人员能够构建具有各种细节的不同类型的地图,并使用它们来实现高水平的车辆定位准确性和在城市环境中的稳定性。与流行的SLAM方法相反,视觉地图本地化依赖于预先构建的地图,并且仅通过避免误差积累或漂移来提高定位准确性。我们将视觉地图定位定义为两个阶段的过程。在位置识别的阶段,通过将视觉传感器输出与一组地理标记的地图区域进行比较,可以确定车辆在地图中的初始位置。随后,在MAP指标定位的阶段,通过连续将视觉传感器的输出与正在遍历的MAP的当前区域进行对齐,对车辆在地图上移动时进行了跟踪。在本文中,我们调查,讨论和比较两个阶段的基于激光雷达,基于摄像头和跨模式的视觉图本地化的最新方法,以突出每种方法的优势。
translated by 谷歌翻译
位置识别技术赋予了一种大满贯算法,具有消除累积错误并自身重新定位的能力。基于点云的位置识别的现有方法通常利用以激光雷达为中心的全局描述符的匹配。这些方法具有以下两个主要缺陷:当两个点云之间的距离很远时,不能执行位置识别,并且只能计算旋转角度,而无需在x和y方向上偏移。为了解决这两个问题,我们提出了一个新颖的全球描述符,该描述符围绕主要对象构建,以这种方式,描述符不再依赖于观察位置。我们分析了该方法可以完美地解决上述两个问题的理论,并在Kitti和一些极端情况下进行了许多实验,这表明我们的方法比传统方法具有明显的优势。
translated by 谷歌翻译
视觉径图旨在使用视觉传感器捕获的信息跟踪对象的增量运动。在这项工作中,我们研究了点云测量问题,其中仅使用LIDAR(光检测和测距)获得的点云扫描来估计对象的运动轨迹。提出了一种轻量点云测距溶液,并命名为绿点云机径(GPCO)方法。 GPCO是一种无监督的学习方法,可以通过匹配连续点云扫描的特征来预测对象运动。它由三个步骤组成。首先,使用几何特征感知点采样方案来选择来自大点云的判别点。其次,视图被划分为围绕对象的四个区域,并且尖端++方法用于提取点特征。第三,建立点对应,以估计两个连续扫描之间的对象运动。进行了基准数据集的实验,以证明GPCO方法的有效性。据观察,GPCO以准确性的准确性越优于深度学习方法,而模型规模明显较小,培训时间较少。
translated by 谷歌翻译
This paper presents an accurate, highly efficient, and learning-free method for large-scale odometry estimation using spinning radar, empirically found to generalize well across very diverse environments -- outdoors, from urban to woodland, and indoors in warehouses and mines - without changing parameters. Our method integrates motion compensation within a sweep with one-to-many scan registration that minimizes distances between nearby oriented surface points and mitigates outliers with a robust loss function. Extending our previous approach CFEAR, we present an in-depth investigation on a wider range of data sets, quantifying the importance of filtering, resolution, registration cost and loss functions, keyframe history, and motion compensation. We present a new solving strategy and configuration that overcomes previous issues with sparsity and bias, and improves our state-of-the-art by 38%, thus, surprisingly, outperforming radar SLAM and approaching lidar SLAM. The most accurate configuration achieves 1.09% error at 5Hz on the Oxford benchmark, and the fastest achieves 1.79% error at 160Hz.
translated by 谷歌翻译
本文报告了一个动态语义映射框架,该框架将3D场景流量测量纳入封闭形式的贝叶斯推理模型中。环境中动态对象的存在可能会导致当前映射算法中的伪影和痕迹,从而导致后方地图不一致。我们利用深度学习利用最新的语义细分和3D流量估计,以提供MAP推断的测量。我们开发了一个贝叶斯模型,该模型以流量传播,并渗透3D连续(即可以在任意分辨率下查询)语义占用率图优于其静态对应物的语义占用图。使用公开数据集的广泛实验表明,所提出的框架对其前身和深度神经网络的输入测量有所改善。
translated by 谷歌翻译
本文首先提出了一个有效的3D点云学习架构,名为PWCLO-NET的LIDAR ODOMORY。在该架构中,提出了3D点云的投影感知表示来将原始的3D点云组织成有序数据表单以实现效率。 LIDAR ODOMOMERY任务的金字塔,翘曲和成本量(PWC)结构是为估计和优化在分层和高效的粗良好方法中的姿势。建立一个投影感知的细心成本卷,以直接关联两个离散点云并获得嵌入运动模式。然后,提出了一种可训练的嵌入掩模来称量局部运动模式以回归整体姿势和过滤异常值点。可训练的姿势经线细化模块迭代地与嵌入式掩码进行分层优化,使姿势估计对异常值更加强大。整个架构是全能优化的端到端,实现成本和掩码的自适应学习,并且涉及点云采样和分组的所有操作都是通过投影感知的3D特征学习方法加速。在Kitti Ocomatry DataSet上证明了我们的激光乐队内径架构的卓越性能和有效性。我们的方法优于基于学习的所有基于学习的方法,甚至基于几何的方法,在大多数基于Kitti Odomatry数据集的序列上具有映射优化的遗传。
translated by 谷歌翻译
在给定地图中的强大定位是大多数自主机器人的关键组成部分。在本文中,我们解决了在室内环境中定位的问题,该问题在室内环境中发生了变化,而突出结构在不同时间点构建的地图中没有对应关系的问题。为了克服地图与由于这种变化引起的观察到的环境之间的差异,我们利用了人类可读的本地化提示来协助定位。这些提示很容易在大多数设施中获得,并且可以通过使用文本斑点来使用RGB摄像机图像来检测。我们使用在2D激光扫描和相机数据上运行的粒子过滤器将这些线索集成到蒙特卡洛本地化框架中。这样,我们为人类行走具有结构性变化和动态的环境提供了强大的本地化解决方案。我们在办公室环境中评估了有关多个挑战室内场景的本地化框架。实验表明,我们的方法对结构变化具有鲁棒性,并且可以在板载计算机上运行。我们(按照纸质接受)发布了方法的开源实现,该实现使用了现成的文本斑点,并用ROS包装器编写了C ++。
translated by 谷歌翻译
循环闭合检测是同时定位和映射(SLAM)系统的重要组成部分,这减少了随时间累积的漂移。多年来,已经提出了一些深入的学习方法来解决这项任务,但是与手工制作技术相比,他们的表现一直是SubPar,特别是在处理反向环的同时。在本文中,我们通过同时识别先前访问的位置并估计当前扫描与地图之间的6-DOF相对变换,有效地检测LIDAR点云中的LINAS点云中的环闭环的新颖LCDNET。 LCDNET由共享编码器组成,一个地方识别头提取全局描述符,以及估计两个点云之间的变换的相对姿势头。我们基于不平衡的最佳运输理论介绍一种新颖的相对姿势,我们以可分散的方式实现,以便实现端到端训练。在多个现实世界自主驾驶数据集中的LCDNET广泛评估表明我们的方法优于最先进的环路闭合检测和点云登记技术,特别是在处理反向环的同时。此外,我们将所提出的循环闭合检测方法集成到LIDAR SLAM库中,以提供完整的映射系统,并在看不见的城市中使用不同的传感器设置展示泛化能力。
translated by 谷歌翻译
视觉同时定位和映射(VSLAM)在计算机视觉和机器人社区中取得了巨大进展,并已成功用于许多领域,例如自主机器人导航和AR/VR。但是,VSLAM无法在动态和复杂的环境中实现良好的定位。许多出版物报告说,通过与VSLAM结合语义信息,语义VSLAM系统具有近年来解决上述问题的能力。然而,尚无关于语义VSLAM的全面调查。为了填补空白,本文首先回顾了语义VSLAM的发展,并明确着眼于其优势和差异。其次,我们探讨了语义VSLAM的三个主要问题:语义信息的提取和关联,语义信息的应用以及语义VSLAM的优势。然后,我们收集和分析已广泛用于语义VSLAM系统的当前最新SLAM数据集。最后,我们讨论未来的方向,该方向将为语义VSLAM的未来发展提供蓝图。
translated by 谷歌翻译