High-definition (HD) semantic map generation of the environment is an essential component of autonomous driving. Existing methods have achieved good performance in this task by fusing different sensor modalities, such as LiDAR and camera. However, current works are based on raw data or network feature-level fusion and only consider short-range HD map generation, limiting their deployment to realistic autonomous driving applications. In this paper, we focus on the task of building the HD maps in both short ranges, i.e., within 30 m, and also predicting long-range HD maps up to 90 m, which is required by downstream path planning and control tasks to improve the smoothness and safety of autonomous driving. To this end, we propose a novel network named SuperFusion, exploiting the fusion of LiDAR and camera data at multiple levels. We benchmark our SuperFusion on the nuScenes dataset and a self-recorded dataset and show that it outperforms the state-of-the-art baseline methods with large margins. Furthermore, we propose a new metric to evaluate the long-range HD map prediction and apply the generated HD map to a downstream path planning task. The results show that by using the long-range HD maps predicted by our method, we can make better path planning for autonomous vehicles. The code will be available at https://github.com/haomo-ai/SuperFusion.
translated by 谷歌翻译
特征形式的图像补丁的独特表示是许多计算机视觉和机器人任务的关键组成部分,例如图像匹配,图像检索和视觉定位。最先进的描述符,来自手工制作的描述符,例如SIFT到诸如HardNet之类的学习者,通常是高维的; 128个维度甚至更多。维度越高,使用此类描述符的方法的内存消耗和计算时间越大。在本文中,我们研究了多层感知器(MLP),以提取低维但高质量的描述符。我们在无监督,自我监督和监督的设置中彻底分析了我们的方法,并评估了四个代表性描述符的降维结果。我们考虑不同的应用程序,包括视觉定位,补丁验证,图像匹配和检索。实验表明,我们的轻量级MLP比PCA获得了更好的尺寸降低。我们的方法生成的较低维描述符在下游任务中的原始高维描述符,尤其是对于手工制作的任务。该代码将在https://github.com/prbonn/descriptor-dr上找到。
translated by 谷歌翻译
位置识别是自动驾驶汽车实现循环结束或全球本地化的重要组成部分。在本文中,我们根据机上激光雷达传感器获得的顺序3D激光扫描解决了位置识别问题。我们提出了一个名为SEQOT的基于变压器的网络,以利用由LIDAR数据生成的顺序范围图像提供的时间和空间信息。它使用多尺度变压器以端到端的方式为每一个LiDAR范围图像生成一个全局描述符。在线操作期间,我们的SEQOT通过在当前查询序列和地图中存储的描述符之间匹配此类描述符来找到相似的位置。我们在不同类型的不同环境中使用不同类型的LIDAR传感器收集的四个数据集评估了我们的方法。实验结果表明,我们的方法优于最新的基于激光痛的位置识别方法,并在不同环境中概括了。此外,我们的方法比传感器的帧速率更快地在线运行。我们的方法的实现以开放源形式发布,网址为:https://github.com/bit-mjy/seqot。
translated by 谷歌翻译
循环结束是自动移动系统同时本地化和映射(SLAM)的基本组成部分。在视觉大满贯领域,单词袋(弓)在循环封闭方面取得了巨大的成功。循环搜索的弓特征也可以在随后的6-DOF环校正中使用。但是,对于3D激光雷达的猛击,最新方法可能无法实时识别循环,并且通常无法纠正完整的6-DOF回路姿势。为了解决这一限制,我们呈现了一袋新颖的单词,以实时循环在3D LIDAR大满贯中关闭,称为Bow3D。我们方法的新颖性在于,它不仅有效地识别了重新审视的环路,而且还实时纠正了完整的6型循环姿势。 BOW3D根据3D功能link3D构建单词袋,该链接有效,姿势不变,可用于准确的点对点匹配。我们将我们提出的方法嵌入了3D激光射击系统中,以评估循环闭合性能。我们在公共数据集上测试我们的方法,并将其与其他最先进的算法进行比较。在大多数情况下,BOW3D在F1 MAX和扩展精度分数方面表现出更好的性能,并具有出色的实时性能。值得注意的是,BOW3D平均需要50毫秒才能识别和纠正Kitti 00中的循环(包括4K+ 64射线激光扫描),当在使用Intel Core i7 @2.2 GHz处理器的笔记本上执行时。
translated by 谷歌翻译
强大而准确的本地化是移动自主系统的基本要求。类似杆状的物体,例如交通标志,杆子和灯,由于其局部独特性和长期稳定性,经常使用地标在城市环境中定位。在本文中,我们基于在线运行并且几乎没有计算需求的几何特征,提出了一种新颖,准确,快速的杆提取方法。我们的方法直接对3D LIDAR扫描生成的范围图像执行所有计算,该图像避免了显式处理3D点云,并为每次扫描启用快速的极点提取。我们进一步使用提取的杆子作为伪标签来训练深层神经网络,以基于图像的极点分割。我们测试了我们的几何和基于学习的极点提取方法,用于在不同的扫描仪,路线和季节性变化的不同数据集上定位。实验结果表明,我们的方法表现优于其他最先进的方法。此外,通过从多个数据集提取的伪极标签增强,我们基于学习的方法可以跨不同的数据集运行,并且与基于几何的方法相比,可以实现更好的本地化结果。我们向公众发布了杆数据集,以评估杆的性能以及我们的方法的实施。
translated by 谷歌翻译
准确的移动对象细分是自动驾驶的重要任务。它可以为许多下游任务提供有效的信息,例如避免碰撞,路径计划和静态地图构建。如何有效利用时空信息是3D激光雷达移动对象分割(LIDAR-MOS)的关键问题。在这项工作中,我们提出了一个新型的深神经网络,利用了时空信息和不同的LiDAR扫描表示方式,以提高LIDAR-MOS性能。具体而言,我们首先使用基于图像图像的双分支结构来分别处理可以从顺序的LiDAR扫描获得的空间和时间信息,然后使用运动引导的注意模块组合它们。我们还通过3D稀疏卷积使用点完善模块来融合LIDAR范围图像和点云表示的信息,并减少对象边界上的伪像。我们验证了我们提出的方法对Semantickitti的LiDAR-MOS基准的有效性。我们的方法在LiDar-Mos IOU方面大大优于最先进的方法。从设计的粗到精细体系结构中受益,我们的方法以传感器框架速率在线运行。我们方法的实现可作为开源可用:https://github.com/haomo-ai/motionseg3d。
translated by 谷歌翻译
自动驾驶汽车的主要挑战是在看不见的动态环境中导航。将移动对象与静态对象分开对于导航,姿势估计以及了解其他交通参与者在不久的将来可能如何移动至关重要。在这项工作中,我们解决了区分当前移动物体(如行人行人或驾驶汽车)的3D激光雷达点的问题,从非移动物体(如墙壁)中获得的点,但还停放了汽车。我们的方法采用了一系列观察到的激光扫描,并将它们变成素化的稀疏4D点云。我们应用计算有效的稀疏4D旋转来共同提取空间和时间特征,并预测序列中所有点的移动对象置信得分。我们制定了一种退化的地平线策略,使我们能够在线预测移动对象,并根据新观察结果对GO进行预测。我们使用二进制贝叶斯过滤器递归整合了扫描的新预测,从而产生了更强的估计。我们在Semantickitti移动对象细分挑战中评估我们的方法,并显示出比现有方法更准确的预测。由于我们的方法仅在随着时间的推移随时间范围的几何信息上运行,因此它可以很好地概括为新的,看不见的环境,我们在阿波罗数据集中评估了这些环境。
translated by 谷歌翻译
了解场景是自主导航车辆的关键,以及在线将周围环境分段为移动和非移动物体的能力是这项任务的中央成分。通常,基于深度学习的方法用于执行移动对象分段(MOS)。然而,这些网络的性能强烈取决于标记培训数据的多样性和数量,可以获得昂贵的信息。在本文中,我们提出了一种自动数据标记管道,用于3D LIDAR数据,以节省广泛的手动标记工作,并通过自动生成标记的训练数据来提高现有的基于学习的MOS系统的性能。我们所提出的方法通过批量处理数据来实现数据。首先利用基于占用的动态对象拆除以粗略地检测可能的动态物体。其次,它提取了提案中的段,并使用卡尔曼滤波器跟踪它们。基于跟踪的轨迹,它标记了实际移动的物体,如驾驶汽车和行人。相反,非移动物体,例如,停放的汽车,灯,道路或建筑物被标记为静态。我们表明,这种方法允许我们高效地标记LIDAR数据,并将我们的结果与其他标签生成方法的结果进行比较。我们还使用自动生成的标签培训深度神经网络,并与在同一数据上的手动标签上接受过的手动标签的培训相比,实现了类似的性能,以及使用我们方法生成的标签的其他数据集时更好的性能。此外,我们使用不同的传感器评估我们在多个数据集上的方法,我们的实验表明我们的方法可以在各种环境中生成标签。
translated by 谷歌翻译
LIDAR数据的实时语义分割对于自动驾驶车辆至关重要,这通常配备有嵌入式平台并具有有限的计算资源。直接在点云上运行的方法使用复杂的空间聚合操作,这非常昂贵,难以优化嵌入式平台。因此,它们不适用于嵌入式系统的实时应用。作为替代方案,基于投影的方法更有效并且可以在嵌入式平台上运行。然而,目前基于最先进的投影的方法不会达到与基于点的方法相同的准确性并使用数百万个参数。因此,我们提出了一种基于投影的方法,称为多尺度交互网络(Minet),这是非常有效和准确的。该网络使用具有不同尺度的多个路径并余额尺度之间的计算资源。尺度之间的额外密集相互作用避免了冗余计算并使网络高效。在准确度,参数数量和运行时,所提出的网络以基于点为基础的基于图像和基于投影的方法。此外,网络处理在嵌入式平台上每秒超过24个扫描,该嵌入式平台高于激光雷达传感器的帧。因此,网络适用于自动车辆。
translated by 谷歌翻译
Deep learning models can achieve high accuracy when trained on large amounts of labeled data. However, real-world scenarios often involve several challenges: Training data may become available in installments, may originate from multiple different domains, and may not contain labels for training. Certain settings, for instance medical applications, often involve further restrictions that prohibit retention of previously seen data due to privacy regulations. In this work, to address such challenges, we study unsupervised segmentation in continual learning scenarios that involve domain shift. To that end, we introduce GarDA (Generative Appearance Replay for continual Domain Adaptation), a generative-replay based approach that can adapt a segmentation model sequentially to new domains with unlabeled data. In contrast to single-step unsupervised domain adaptation (UDA), continual adaptation to a sequence of domains enables leveraging and consolidation of information from multiple domains. Unlike previous approaches in incremental UDA, our method does not require access to previously seen data, making it applicable in many practical scenarios. We evaluate GarDA on two datasets with different organs and modalities, where it substantially outperforms existing techniques.
translated by 谷歌翻译