位置识别是自动驾驶汽车实现循环结束或全球本地化的重要组成部分。在本文中,我们根据机上激光雷达传感器获得的顺序3D激光扫描解决了位置识别问题。我们提出了一个名为SEQOT的基于变压器的网络,以利用由LIDAR数据生成的顺序范围图像提供的时间和空间信息。它使用多尺度变压器以端到端的方式为每一个LiDAR范围图像生成一个全局描述符。在线操作期间,我们的SEQOT通过在当前查询序列和地图中存储的描述符之间匹配此类描述符来找到相似的位置。我们在不同类型的不同环境中使用不同类型的LIDAR传感器收集的四个数据集评估了我们的方法。实验结果表明,我们的方法优于最新的基于激光痛的位置识别方法,并在不同环境中概括了。此外,我们的方法比传感器的帧速率更快地在线运行。我们的方法的实现以开放源形式发布,网址为:https://github.com/bit-mjy/seqot。
translated by 谷歌翻译
循环闭合检测是同时定位和映射(SLAM)系统的重要组成部分,这减少了随时间累积的漂移。多年来,已经提出了一些深入的学习方法来解决这项任务,但是与手工制作技术相比,他们的表现一直是SubPar,特别是在处理反向环的同时。在本文中,我们通过同时识别先前访问的位置并估计当前扫描与地图之间的6-DOF相对变换,有效地检测LIDAR点云中的LINAS点云中的环闭环的新颖LCDNET。 LCDNET由共享编码器组成,一个地方识别头提取全局描述符,以及估计两个点云之间的变换的相对姿势头。我们基于不平衡的最佳运输理论介绍一种新颖的相对姿势,我们以可分散的方式实现,以便实现端到端训练。在多个现实世界自主驾驶数据集中的LCDNET广泛评估表明我们的方法优于最先进的环路闭合检测和点云登记技术,特别是在处理反向环的同时。此外,我们将所提出的循环闭合检测方法集成到LIDAR SLAM库中,以提供完整的映射系统,并在看不见的城市中使用不同的传感器设置展示泛化能力。
translated by 谷歌翻译
强大而准确的本地化是移动自主系统的基本要求。类似杆状的物体,例如交通标志,杆子和灯,由于其局部独特性和长期稳定性,经常使用地标在城市环境中定位。在本文中,我们基于在线运行并且几乎没有计算需求的几何特征,提出了一种新颖,准确,快速的杆提取方法。我们的方法直接对3D LIDAR扫描生成的范围图像执行所有计算,该图像避免了显式处理3D点云,并为每次扫描启用快速的极点提取。我们进一步使用提取的杆子作为伪标签来训练深层神经网络,以基于图像的极点分割。我们测试了我们的几何和基于学习的极点提取方法,用于在不同的扫描仪,路线和季节性变化的不同数据集上定位。实验结果表明,我们的方法表现优于其他最先进的方法。此外,通过从多个数据集提取的伪极标签增强,我们基于学习的方法可以跨不同的数据集运行,并且与基于几何的方法相比,可以实现更好的本地化结果。我们向公众发布了杆数据集,以评估杆的性能以及我们的方法的实施。
translated by 谷歌翻译
基于激光雷达的本地化方法是用于大规模导航任务的基本模块,例如最后一英里交付和自动驾驶,并且本地化鲁棒性高度依赖于观点和3D功能提取。我们以前的工作提供了一个观点不变的描述符来处理观点差异;但是,全局描述符在无监督聚类中的信号噪声比率低,从而降低了可区分的特征提取能力。我们开发了SphereVlad ++,这是这项工作中一种引起注意的观点不变的位置识别方法。 SphereVlad ++在每个唯一区域的球形视角上投射点云,并通过全局3D几何分布捕获本地特征及其依赖关系之间的上下文连接。作为回报,全局描述符中的群集元素以本地和全球几何形式为条件,并支持SphereVlad的原始视点不变属性。在实验中,我们评估了SphereVlad ++在匹兹堡市的公共Kitti360数据集和自我生成的数据集上的本地化性能。实验结果表明,SphereVlad ++在小甚至完全逆转的视点差异下优于所有相对最新的3D位置识别方法,并显示0.69%和15.81%的成功检索率,比第二好的检索率更好。低计算要求和高时间效率也有助于其用于低成本机器人的应用。
translated by 谷歌翻译
基于图形的大量系统的关键组成部分是能够检测轨迹中的环闭合以减少从探视法累积的漂移。大多数基于激光雷达的方法仅通过仅使用几何信息来实现此目标,而无视场景的语义。在这项工作中,我们介绍了Padloc,这是一种基于激光雷达的环路闭合检测和注册体系结构,其中包括共享的3D卷积特征提取主链,用于环路闭合检测的全局描述符,以及用于点云匹配和注册的新型变压器头。我们提出了多种方法,用于估计基于多样性指数的点匹配置信度。此外,为了提高前向后的一致性,我们建议使用两个共享匹配和注册头,并通过利用估计的相对转换必须相互倒数来交换其源和目标输入。此外,我们以新颖的损失函数的形式利用综合信息在培训期间,将匹配问题折叠为语义标签的分类任务,并作为实例标签的图形连接分配。我们在多个现实世界数据集上对PADLOC进行了广泛的评估,证明它可以实现最新的性能。我们的工作代码可在http://padloc.cs.uni-freiburg.de上公开获得。
translated by 谷歌翻译
位置识别是可以协助同时定位和映射(SLAM)进行循环闭合检测和重新定位以进行长期导航的基本模块。在过去的20美元中,该地点认可社区取得了惊人的进步,这吸引了在计算机视觉和机器人技术等多个领域的广泛研究兴趣和应用。但是,在复杂的现实世界情景中,很少有方法显示出有希望的位置识别性能,在复杂的现实世界中,长期和大规模的外观变化通常会导致故障。此外,在最先进的方法之间缺乏集成框架,可以应对所有挑战,包括外观变化,观点差异,对未知区域的稳健性以及现实世界中的效率申请。在这项工作中,我们调查针对长期本地化并讨论未来方向和机会的最先进方法。首先,我们研究了长期自主权中的位置识别以及在现实环境中面临的主要挑战。然后,我们回顾了最新的作品,以应对各种位置识别挑战的不同传感器方式和当前的策略的认可。最后,我们回顾了现有的数据集以进行长期本地化,并为不同的方法介绍了我们的数据集和评估API。本文可以成为该地点识别界新手的研究人员以及关心长期机器人自主权的研究人员。我们还对机器人技术中的常见问题提供了意见:机器人是否需要准确的本地化来实现长期自治?这项工作以及我们的数据集和评估API的摘要可向机器人社区公开,网址为:https://github.com/metaslam/gprs。
translated by 谷歌翻译
准确的移动对象细分是自动驾驶的重要任务。它可以为许多下游任务提供有效的信息,例如避免碰撞,路径计划和静态地图构建。如何有效利用时空信息是3D激光雷达移动对象分割(LIDAR-MOS)的关键问题。在这项工作中,我们提出了一个新型的深神经网络,利用了时空信息和不同的LiDAR扫描表示方式,以提高LIDAR-MOS性能。具体而言,我们首先使用基于图像图像的双分支结构来分别处理可以从顺序的LiDAR扫描获得的空间和时间信息,然后使用运动引导的注意模块组合它们。我们还通过3D稀疏卷积使用点完善模块来融合LIDAR范围图像和点云表示的信息,并减少对象边界上的伪像。我们验证了我们提出的方法对Semantickitti的LiDAR-MOS基准的有效性。我们的方法在LiDar-Mos IOU方面大大优于最先进的方法。从设计的粗到精细体系结构中受益,我们的方法以传感器框架速率在线运行。我们方法的实现可作为开源可用:https://github.com/haomo-ai/motionseg3d。
translated by 谷歌翻译
位置识别技术赋予了一种大满贯算法,具有消除累积错误并自身重新定位的能力。基于点云的位置识别的现有方法通常利用以激光雷达为中心的全局描述符的匹配。这些方法具有以下两个主要缺陷:当两个点云之间的距离很远时,不能执行位置识别,并且只能计算旋转角度,而无需在x和y方向上偏移。为了解决这两个问题,我们提出了一个新颖的全球描述符,该描述符围绕主要对象构建,以这种方式,描述符不再依赖于观察位置。我们分析了该方法可以完美地解决上述两个问题的理论,并在Kitti和一些极端情况下进行了许多实验,这表明我们的方法比传统方法具有明显的优势。
translated by 谷歌翻译
循环结束是自动移动系统同时本地化和映射(SLAM)的基本组成部分。在视觉大满贯领域,单词袋(弓)在循环封闭方面取得了巨大的成功。循环搜索的弓特征也可以在随后的6-DOF环校正中使用。但是,对于3D激光雷达的猛击,最新方法可能无法实时识别循环,并且通常无法纠正完整的6-DOF回路姿势。为了解决这一限制,我们呈现了一袋新颖的单词,以实时循环在3D LIDAR大满贯中关闭,称为Bow3D。我们方法的新颖性在于,它不仅有效地识别了重新审视的环路,而且还实时纠正了完整的6型循环姿势。 BOW3D根据3D功能link3D构建单词袋,该链接有效,姿势不变,可用于准确的点对点匹配。我们将我们提出的方法嵌入了3D激光射击系统中,以评估循环闭合性能。我们在公共数据集上测试我们的方法,并将其与其他最先进的算法进行比较。在大多数情况下,BOW3D在F1 MAX和扩展精度分数方面表现出更好的性能,并具有出色的实时性能。值得注意的是,BOW3D平均需要50毫秒才能识别和纠正Kitti 00中的循环(包括4K+ 64射线激光扫描),当在使用Intel Core i7 @2.2 GHz处理器的笔记本上执行时。
translated by 谷歌翻译
基于LIDAR的位置识别是环路闭合检测和全局重川化的必要和具有挑战性的任务。我们提出了深度扫描上下文(DSC),一般和辨别的全局描述符,捕获点云的段之间的关系。与以前的方法或相邻点云的序列进行以获得更好的地方识别,我们只使用原始点云来获得竞争结果。具体而言,我们首先将点云分段为摄影云,以获取细分的质心和特征值。然后,我们介绍一个图形神经网络,将这些功能聚合到嵌入式表示中。在基提数据集上进行的广泛实验表明,DSC对场景变体具有强大,优于现有方法。
translated by 谷歌翻译
位置识别在机器人和车辆的重新定位和循环封闭检测任务中起着至关重要的作用。本文为基于激光雷达的位置识别寻求明确定义的全球描述符。与本地描述符相比,全球描述符在城市道路场景中表现出色,但通常依赖于观点。为此,我们提出了一个简单而坚固的全局描述符,称为壁画,通过利用傅立叶变换和圆形转移技术,可以分解重新访问期间的视点差异,并实现翻译和旋转不变性。此外,还提出了一种快速的两阶段姿势估计方法,以利用从场景中提取的紧凑型2D点云来估计位置回收后的相对姿势。实验表明,在来自多个数据集的不同场景的序列上,壁画表现出比同期方法表现出更好的性能。该代码将在https://github.com/soytony/fresco上公开获取。
translated by 谷歌翻译
我们提出Automerge,这是一种LIDAR数据处理框架,用于将大量地图段组装到完整的地图中。传统的大规模地图合并方法对于错误的数据关联是脆弱的,并且主要仅限于离线工作。 Automerge利用多观点的融合和自适应环路闭合检测来进行准确的数据关联,并且它使用增量合并来从随机顺序给出的单个轨迹段组装大图,没有初始估计。此外,在组装段后,自动制度可以执行良好的匹配和姿势图片优化,以在全球范围内平滑合并的地图。我们展示了城市规模合并(120公里)和校园规模重复合并(4.5公里x 8)的汽车。该实验表明,自动化(i)在段检索中超过了第二和第三最佳方法的14%和24%的召回,(ii)在120 km大尺度地图组件(III)中实现了可比较的3D映射精度,IT对于暂时的重新审视是强大的。据我们所知,Automerge是第一种映射方法,它可以在无GPS的帮助下合并数百公里的单个细分市场。
translated by 谷歌翻译
近年来,在各种环境中,在城市道路,大型建筑物等各种环境中越来越多的应用,以及室内和户外场所。然而,由于不同传感器的局限性和环境的外观变化,这项任务仍然仍然具有挑战性。目前的作用仅考虑使用各个传感器,或者只是结合不同的传感器,忽略不同传感器的重要性随着环境变化而变化的事实。本文提出了一种名为Adafusion的自适应加权视觉激光融合方法,以了解图像和点云特征的权重。因此,这两个模式的特征根据当前的环境情况不同地贡献。通过网络的注意分支实现权重的学习,然后与多模态特征提取分支融合。此外,为了更好地利用图像和点云之间的潜在关系,我们设计一个突变融合方法来组合2D和3D关注。我们的工作在两个公共数据集上进行了测试,实验表明,自适应权重有助于提高识别准确性和系统鲁棒性与不同的环境。
translated by 谷歌翻译
基于激光雷达的位置识别是自动驾驶汽车和机器人应用程序中全球本地化的关键组成部分之一。随着DL方法在从3D激光雷达的学习有用信息方面的成功中,Place识别也从这种方式中受益,这导致了更高的重新定位和循环闭合检测性能,尤其是在具有重大变化条件的环境中。尽管在该领域取得了进展,但从3D激光雷达数据中提取适当有效的描述符,这些数据不变,而不断变化的条件和方向仍然是未解决的挑战。为了解决这个问题,这项工作提出了一个基于3D激光雷达的新型深度学习网络(名为ATTDLNET),该网络使用基于范围的代理表示点云和具有堆叠注意力层的注意力网络,以选择性地专注于远程上下文和Inter Inter - 特征关系。在KITTI数据集中对拟议的网络进行了训练和验证,并提供了消融研究以评估新的注意力网络。结果表明,增加对网络的关注会提高性能,从而导致有效的循环封闭,并优于已建立的基于3D激光雷达的位置识别方法。从消融研究中,结果表明中间编码器层的平均性能最高,而更深的层对方向的变化更为强大。该代码可在https://github.com/cybonic/attdlnet上公开获取
translated by 谷歌翻译
Visual localization plays an important role for intelligent robots and autonomous driving, especially when the accuracy of GNSS is unreliable. Recently, camera localization in LiDAR maps has attracted more and more attention for its low cost and potential robustness to illumination and weather changes. However, the commonly used pinhole camera has a narrow Field-of-View, thus leading to limited information compared with the omni-directional LiDAR data. To overcome this limitation, we focus on correlating the information of 360 equirectangular images to point clouds, proposing an end-to-end learnable network to conduct cross-modal visual localization by establishing similarity in high-dimensional feature space. Inspired by the attention mechanism, we optimize the network to capture the salient feature for comparing images and point clouds. We construct several sequences containing 360 equirectangular images and corresponding point clouds based on the KITTI-360 dataset and conduct extensive experiments. The results demonstrate the effectiveness of our approach.
translated by 谷歌翻译
3D LIDAR地点识别旨在基于来自旋转3D LIDAR传感器的单个扫描来估计先前看到的环境中的粗糙定位。此问题的现有解决方案包括手工制作点云描述符(例如,Scancontext,M2DP,LIDAR IRIS)和基于深度学习的解决方案(例如,PointNetvlad,PCAN,LPDNET,DAGC,MinkLoC3D)通常仅在累积时进行评估2D来自牛津机器人数据集的扫描。我们介绍了Minkloc3d-Si,一种基于稀疏的基于卷积的解决方案,它利用3D点的球形坐标并处理3D LIDAR测量的强度,提高使用单个3D LIDAR扫描时的性能。我们的方法通过最有效的3D稀疏卷曲(MinkLoc3D)集成了用于手工制作描述符(如scancontext)的典型的改进。我们的实验表明,从3D Lidars(USYD校园数据集)和伟大的泛化能力(Kitti DataSet)的单次扫描的结果有所改善。在累积的2D扫描(RobotCar Intensity数据集)上使用强度信息提高了性能,即使球形表示不会产生明显的改进。结果,Minkloc3D-Si适用于从3D延迟的单次扫描,使其适用于自动车辆。
translated by 谷歌翻译
点云注册是许多应用程序(例如本地化,映射,跟踪和重建)的基本任务。成功的注册依赖于提取鲁棒和歧视性的几何特征。现有的基于学习的方法需要高计算能力来同时处理大量原始点。尽管这些方法取得了令人信服的结果,但由于高计算成本,它们很难在现实情况下应用。在本文中,我们介绍了一个框架,该框架使用图形注意网络有效地从经济上提取密集的特征,以进行点云匹配和注册(DFGAT)。 DFGAT的检测器负责在大型原始数据集中找到高度可靠的关键点。 DFGAT的描述符将这些关键点与邻居相结合,以提取不变的密度特征,以准备匹配。图形注意力网络使用了丰富点云之间关系的注意机制。最后,我们将其视为最佳运输问题,并使用Sinkhorn算法找到正匹配和负面匹配。我们对KITTI数据集进行了彻底的测试,并评估了该方法的有效性。结果表明,与其他最先进的方法相比,使用有效紧凑的关键点选择和描述可以实现最佳性能匹配指标,并达到99.88%注册的最高成功率。
translated by 谷歌翻译
由于点云数据的稀缺性质,在大规模环境中使用激光雷达识别使用激光雷达的地方是具有挑战性的。在本文中,我们提出了BVMATCH,基于LIDAR的帧到帧位置识别框架,其能够估计2D相对姿势。基于地面区域可以近似作为平面的假设,我们将地面区域统一地分散到网格和项目3D LIDAR扫描到鸟瞰图(BV)图像。我们进一步使用了一组Log-Gabor过滤器来构建一个最大索引图(MIM),用于编码图像中结构的方向信息。我们从理论上分析MIM的方向特征,并引入了一种名为鸟瞰图特征变换(BVFT)的新颖描述符。所提出的BVFT对BV图像的旋转和强度变化不敏感。利用BVFT描述符,统一LIDAR将识别和将估算任务统一到BVMATCT框架中。在三个大规模数据集上进行的实验表明,BVMATCH在召回的位置识别和姿势估计精度的召回速率方面优于最先进的方法。
translated by 谷歌翻译
LIDAR传感器对于自动驾驶汽车和智能机器人的感知系统至关重要。为了满足现实世界应用程序中的实时要求,有必要有效地分割激光扫描。以前的大多数方法将3D点云直接投影到2D球形范围图像上,以便它们可以利用有效的2D卷积操作进行图像分割。尽管取得了令人鼓舞的结果,但在球形投影中,邻里信息尚未保存得很好。此外,在单个扫描分割任务中未考虑时间信息。为了解决这些问题,我们提出了一种新型的语义分割方法,用于元素rangeseg的激光雷达序列,其中引入了新的范围残差图像表示以捕获空间时间信息。具体而言,使用元内核来提取元特征,从而减少了2D范围图像坐标输入和3D笛卡尔坐标输出之间的不一致。有效的U-NET主链用于获得多尺度功能。此外,特征聚合模块(FAM)增强了范围通道的作用,并在不同级别上汇总特征。我们已经进行了广泛的实验,以评估semantickitti和semanticposs。有希望的结果表明,我们提出的元rangeseg方法比现有方法更有效。我们的完整实施可在https://github.com/songw-zju/meta-rangeseg上公开获得。
translated by 谷歌翻译
在这项工作中,我们介绍了一个新颖的全球描述符,称为3D位置识别的稳定三角形描述符(STD)。对于一个三角形,其形状由侧面或包含角度的长度唯一决定。此外,三角形的形状对于刚性转换完全不变。基于此属性,我们首先设计了一种算法,以从3D点云中有效提取本地密钥点,并将这些关键点编码为三角形描述符。然后,通过匹配点云之间描述符的侧面长度(以及其他一些信息)来实现位置识别。从描述符匹配对获得的点对应关系可以在几何验证中进一步使用,从而大大提高了位置识别的准确性。在我们的实验中,我们将我们提出的系统与公共数据集(即Kitti,NCLT和Complex-ublan)和我们自我收集的数据集(即M2DP,扫描上下文)进行了广泛的比较(即M2DP,扫描上下文)(即带有非重复扫描固态激光雷达)。所有定量结果表明,性病具有更强的适应性,并且在其对应物方面的精度有了很大的提高。为了分享我们的发现并为社区做出贡献,我们在GitHub上开放代码:https://github.com/hku-mars/std。
translated by 谷歌翻译