3D LIDAR地点识别旨在基于来自旋转3D LIDAR传感器的单个扫描来估计先前看到的环境中的粗糙定位。此问题的现有解决方案包括手工制作点云描述符(例如,Scancontext,M2DP,LIDAR IRIS)和基于深度学习的解决方案(例如,PointNetvlad,PCAN,LPDNET,DAGC,MinkLoC3D)通常仅在累积时进行评估2D来自牛津机器人数据集的扫描。我们介绍了Minkloc3d-Si,一种基于稀疏的基于卷积的解决方案,它利用3D点的球形坐标并处理3D LIDAR测量的强度,提高使用单个3D LIDAR扫描时的性能。我们的方法通过最有效的3D稀疏卷曲(MinkLoc3D)集成了用于手工制作描述符(如scancontext)的典型的改进。我们的实验表明,从3D Lidars(USYD校园数据集)和伟大的泛化能力(Kitti DataSet)的单次扫描的结果有所改善。在累积的2D扫描(RobotCar Intensity数据集)上使用强度信息提高了性能,即使球形表示不会产生明显的改进。结果,Minkloc3D-Si适用于从3D延迟的单次扫描,使其适用于自动车辆。
translated by 谷歌翻译
循环闭合检测是同时定位和映射(SLAM)系统的重要组成部分,这减少了随时间累积的漂移。多年来,已经提出了一些深入的学习方法来解决这项任务,但是与手工制作技术相比,他们的表现一直是SubPar,特别是在处理反向环的同时。在本文中,我们通过同时识别先前访问的位置并估计当前扫描与地图之间的6-DOF相对变换,有效地检测LIDAR点云中的LINAS点云中的环闭环的新颖LCDNET。 LCDNET由共享编码器组成,一个地方识别头提取全局描述符,以及估计两个点云之间的变换的相对姿势头。我们基于不平衡的最佳运输理论介绍一种新颖的相对姿势,我们以可分散的方式实现,以便实现端到端训练。在多个现实世界自主驾驶数据集中的LCDNET广泛评估表明我们的方法优于最先进的环路闭合检测和点云登记技术,特别是在处理反向环的同时。此外,我们将所提出的循环闭合检测方法集成到LIDAR SLAM库中,以提供完整的映射系统,并在看不见的城市中使用不同的传感器设置展示泛化能力。
translated by 谷歌翻译
Visual localization plays an important role for intelligent robots and autonomous driving, especially when the accuracy of GNSS is unreliable. Recently, camera localization in LiDAR maps has attracted more and more attention for its low cost and potential robustness to illumination and weather changes. However, the commonly used pinhole camera has a narrow Field-of-View, thus leading to limited information compared with the omni-directional LiDAR data. To overcome this limitation, we focus on correlating the information of 360 equirectangular images to point clouds, proposing an end-to-end learnable network to conduct cross-modal visual localization by establishing similarity in high-dimensional feature space. Inspired by the attention mechanism, we optimize the network to capture the salient feature for comparing images and point clouds. We construct several sequences containing 360 equirectangular images and corresponding point clouds based on the KITTI-360 dataset and conduct extensive experiments. The results demonstrate the effectiveness of our approach.
translated by 谷歌翻译
在这项研究中,我们提出了一种新型的视觉定位方法,以根据RGB摄像机的可视数据准确估计机器人在3D激光镜头内的六个自由度(6-DOF)姿势。使用基于先进的激光雷达的同时定位和映射(SLAM)算法,可获得3D地图,能够收集精确的稀疏图。将从相机图像中提取的功能与3D地图的点进行了比较,然后解决了几何优化问题,以实现精确的视觉定位。我们的方法允许使用配备昂贵激光雷达的侦察兵机器人一次 - 用于映射环境,并且仅使用RGB摄像头的多个操作机器人 - 执行任务任务,其本地化精度高于常见的基于相机的解决方案。该方法在Skolkovo科学技术研究所(Skoltech)收集的自定义数据集上进行了测试。在评估本地化准确性的过程中,我们设法达到了厘米级的准确性;中间翻译误差高达1.3厘米。仅使用相机实现的确切定位使使用自动移动机器人可以解决需要高度本地化精度的最复杂的任务。
translated by 谷歌翻译
随着自动驾驶行业正在缓慢成熟,视觉地图本地化正在迅速成为尽可能准确定位汽车的标准方法。由于相机或激光镜等视觉传感器返回的丰富数据,研究人员能够构建具有各种细节的不同类型的地图,并使用它们来实现高水平的车辆定位准确性和在城市环境中的稳定性。与流行的SLAM方法相反,视觉地图本地化依赖于预先构建的地图,并且仅通过避免误差积累或漂移来提高定位准确性。我们将视觉地图定位定义为两个阶段的过程。在位置识别的阶段,通过将视觉传感器输出与一组地理标记的地图区域进行比较,可以确定车辆在地图中的初始位置。随后,在MAP指标定位的阶段,通过连续将视觉传感器的输出与正在遍历的MAP的当前区域进行对齐,对车辆在地图上移动时进行了跟踪。在本文中,我们调查,讨论和比较两个阶段的基于激光雷达,基于摄像头和跨模式的视觉图本地化的最新方法,以突出每种方法的优势。
translated by 谷歌翻译
位置识别是自动驾驶汽车实现循环结束或全球本地化的重要组成部分。在本文中,我们根据机上激光雷达传感器获得的顺序3D激光扫描解决了位置识别问题。我们提出了一个名为SEQOT的基于变压器的网络,以利用由LIDAR数据生成的顺序范围图像提供的时间和空间信息。它使用多尺度变压器以端到端的方式为每一个LiDAR范围图像生成一个全局描述符。在线操作期间,我们的SEQOT通过在当前查询序列和地图中存储的描述符之间匹配此类描述符来找到相似的位置。我们在不同类型的不同环境中使用不同类型的LIDAR传感器收集的四个数据集评估了我们的方法。实验结果表明,我们的方法优于最新的基于激光痛的位置识别方法,并在不同环境中概括了。此外,我们的方法比传感器的帧速率更快地在线运行。我们的方法的实现以开放源形式发布,网址为:https://github.com/bit-mjy/seqot。
translated by 谷歌翻译
基于图形的大量系统的关键组成部分是能够检测轨迹中的环闭合以减少从探视法累积的漂移。大多数基于激光雷达的方法仅通过仅使用几何信息来实现此目标,而无视场景的语义。在这项工作中,我们介绍了Padloc,这是一种基于激光雷达的环路闭合检测和注册体系结构,其中包括共享的3D卷积特征提取主链,用于环路闭合检测的全局描述符,以及用于点云匹配和注册的新型变压器头。我们提出了多种方法,用于估计基于多样性指数的点匹配置信度。此外,为了提高前向后的一致性,我们建议使用两个共享匹配和注册头,并通过利用估计的相对转换必须相互倒数来交换其源和目标输入。此外,我们以新颖的损失函数的形式利用综合信息在培训期间,将匹配问题折叠为语义标签的分类任务,并作为实例标签的图形连接分配。我们在多个现实世界数据集上对PADLOC进行了广泛的评估,证明它可以实现最新的性能。我们的工作代码可在http://padloc.cs.uni-freiburg.de上公开获得。
translated by 谷歌翻译
近年来,在各种环境中,在城市道路,大型建筑物等各种环境中越来越多的应用,以及室内和户外场所。然而,由于不同传感器的局限性和环境的外观变化,这项任务仍然仍然具有挑战性。目前的作用仅考虑使用各个传感器,或者只是结合不同的传感器,忽略不同传感器的重要性随着环境变化而变化的事实。本文提出了一种名为Adafusion的自适应加权视觉激光融合方法,以了解图像和点云特征的权重。因此,这两个模式的特征根据当前的环境情况不同地贡献。通过网络的注意分支实现权重的学习,然后与多模态特征提取分支融合。此外,为了更好地利用图像和点云之间的潜在关系,我们设计一个突变融合方法来组合2D和3D关注。我们的工作在两个公共数据集上进行了测试,实验表明,自适应权重有助于提高识别准确性和系统鲁棒性与不同的环境。
translated by 谷歌翻译
由于点云数据的稀缺性质,在大规模环境中使用激光雷达识别使用激光雷达的地方是具有挑战性的。在本文中,我们提出了BVMATCH,基于LIDAR的帧到帧位置识别框架,其能够估计2D相对姿势。基于地面区域可以近似作为平面的假设,我们将地面区域统一地分散到网格和项目3D LIDAR扫描到鸟瞰图(BV)图像。我们进一步使用了一组Log-Gabor过滤器来构建一个最大索引图(MIM),用于编码图像中结构的方向信息。我们从理论上分析MIM的方向特征,并引入了一种名为鸟瞰图特征变换(BVFT)的新颖描述符。所提出的BVFT对BV图像的旋转和强度变化不敏感。利用BVFT描述符,统一LIDAR将识别和将估算任务统一到BVMATCT框架中。在三个大规模数据集上进行的实验表明,BVMATCH在召回的位置识别和姿势估计精度的召回速率方面优于最先进的方法。
translated by 谷歌翻译
基于激光雷达的位置识别是自动驾驶汽车和机器人应用程序中全球本地化的关键组成部分之一。随着DL方法在从3D激光雷达的学习有用信息方面的成功中,Place识别也从这种方式中受益,这导致了更高的重新定位和循环闭合检测性能,尤其是在具有重大变化条件的环境中。尽管在该领域取得了进展,但从3D激光雷达数据中提取适当有效的描述符,这些数据不变,而不断变化的条件和方向仍然是未解决的挑战。为了解决这个问题,这项工作提出了一个基于3D激光雷达的新型深度学习网络(名为ATTDLNET),该网络使用基于范围的代理表示点云和具有堆叠注意力层的注意力网络,以选择性地专注于远程上下文和Inter Inter - 特征关系。在KITTI数据集中对拟议的网络进行了训练和验证,并提供了消融研究以评估新的注意力网络。结果表明,增加对网络的关注会提高性能,从而导致有效的循环封闭,并优于已建立的基于3D激光雷达的位置识别方法。从消融研究中,结果表明中间编码器层的平均性能最高,而更深的层对方向的变化更为强大。该代码可在https://github.com/cybonic/attdlnet上公开获取
translated by 谷歌翻译
基于LIDAR的位置识别是环路闭合检测和全局重川化的必要和具有挑战性的任务。我们提出了深度扫描上下文(DSC),一般和辨别的全局描述符,捕获点云的段之间的关系。与以前的方法或相邻点云的序列进行以获得更好的地方识别,我们只使用原始点云来获得竞争结果。具体而言,我们首先将点云分段为摄影云,以获取细分的质心和特征值。然后,我们介绍一个图形神经网络,将这些功能聚合到嵌入式表示中。在基提数据集上进行的广泛实验表明,DSC对场景变体具有强大,优于现有方法。
translated by 谷歌翻译
特征提取和匹配是许多计算机视觉任务的基本部分,例如2D或3D对象检测,识别和注册。众所周知,2D功能提取和匹配已经取得了巨大的成功。不幸的是,在3D领域,由于描述性和效率低下,目前的方法无法支持3D激光雷达传感器在视觉任务中的广泛应用。为了解决此限制,我们提出了一种新颖的3D特征表示方法:3D激光点云的线性关键点表示,称为link3d。 Link3D的新颖性在于它完全考虑了LiDar Point Cloud的特征(例如稀疏性,场景的复杂性),并用其强大的邻居键盘来表示当前关键点,从而对当前关键点的描述提供了强烈的约束。提出的链接3D已在两个公共数据集(即Kitti,Steven VLP16)上进行了评估,实验结果表明,我们的方法在匹配性能方面的最先进表现都大大优于最先进的方法。更重要的是,Link3D显示出出色的实时性能(基于LIDAR的频率10 Hz)。 Link3D平均仅需32毫秒即可从64射线激光束收集的点云中提取功能,并且仅需大约8毫秒即可匹配两次LIDAR扫描,当时用Intel Core i7 @2.2 GHz处理器执行笔记本。此外,我们的方法可以广泛扩展到各种3D视觉应用。在本文中,我们已将Link3D应用于3D注册,LiDAR ODOMETIRE和放置识别任务,并与最先进的方法相比实现了竞争成果。
translated by 谷歌翻译
循环结束是自动移动系统同时本地化和映射(SLAM)的基本组成部分。在视觉大满贯领域,单词袋(弓)在循环封闭方面取得了巨大的成功。循环搜索的弓特征也可以在随后的6-DOF环校正中使用。但是,对于3D激光雷达的猛击,最新方法可能无法实时识别循环,并且通常无法纠正完整的6-DOF回路姿势。为了解决这一限制,我们呈现了一袋新颖的单词,以实时循环在3D LIDAR大满贯中关闭,称为Bow3D。我们方法的新颖性在于,它不仅有效地识别了重新审视的环路,而且还实时纠正了完整的6型循环姿势。 BOW3D根据3D功能link3D构建单词袋,该链接有效,姿势不变,可用于准确的点对点匹配。我们将我们提出的方法嵌入了3D激光射击系统中,以评估循环闭合性能。我们在公共数据集上测试我们的方法,并将其与其他最先进的算法进行比较。在大多数情况下,BOW3D在F1 MAX和扩展精度分数方面表现出更好的性能,并具有出色的实时性能。值得注意的是,BOW3D平均需要50毫秒才能识别和纠正Kitti 00中的循环(包括4K+ 64射线激光扫描),当在使用Intel Core i7 @2.2 GHz处理器的笔记本上执行时。
translated by 谷歌翻译
位置识别在机器人和车辆的重新定位和循环封闭检测任务中起着至关重要的作用。本文为基于激光雷达的位置识别寻求明确定义的全球描述符。与本地描述符相比,全球描述符在城市道路场景中表现出色,但通常依赖于观点。为此,我们提出了一个简单而坚固的全局描述符,称为壁画,通过利用傅立叶变换和圆形转移技术,可以分解重新访问期间的视点差异,并实现翻译和旋转不变性。此外,还提出了一种快速的两阶段姿势估计方法,以利用从场景中提取的紧凑型2D点云来估计位置回收后的相对姿势。实验表明,在来自多个数据集的不同场景的序列上,壁画表现出比同期方法表现出更好的性能。该代码将在https://github.com/soytony/fresco上公开获取。
translated by 谷歌翻译
电线杆和建筑物边缘经常是城市道路上可观察到的对象,为各种计算机视觉任务提供了可靠的提示。为了重复提取它们作为特征并在离散激光镜头框架之间进行注册,我们提出了第一个基于学习的功能分割和LIDAR点云中3D线的描述模型。为了训练我们的模型,而无需耗时和乏味的数据标记过程,我们首先生成了目标线基本外观的合成原始图,并构建一个迭代线自动标记的过程,以逐步完善真实激光扫描的线路标签。我们的分割模型可以在任意规模的扰动下提取线,我们使用共享的EDGECONV编码层共同训练两个分割和描述符头。基于模型,我们可以在没有初始转换提示的情况下构建一个高度可用的全局注册模块,用于点云注册。实验表明,我们基于线的注册方法对基于最先进的方法的方法具有很高的竞争力。我们的代码可在https://github.com/zxrzju/superline3d.git上找到。
translated by 谷歌翻译
准确的移动对象细分是自动驾驶的重要任务。它可以为许多下游任务提供有效的信息,例如避免碰撞,路径计划和静态地图构建。如何有效利用时空信息是3D激光雷达移动对象分割(LIDAR-MOS)的关键问题。在这项工作中,我们提出了一个新型的深神经网络,利用了时空信息和不同的LiDAR扫描表示方式,以提高LIDAR-MOS性能。具体而言,我们首先使用基于图像图像的双分支结构来分别处理可以从顺序的LiDAR扫描获得的空间和时间信息,然后使用运动引导的注意模块组合它们。我们还通过3D稀疏卷积使用点完善模块来融合LIDAR范围图像和点云表示的信息,并减少对象边界上的伪像。我们验证了我们提出的方法对Semantickitti的LiDAR-MOS基准的有效性。我们的方法在LiDar-Mos IOU方面大大优于最先进的方法。从设计的粗到精细体系结构中受益,我们的方法以传感器框架速率在线运行。我们方法的实现可作为开源可用:https://github.com/haomo-ai/motionseg3d。
translated by 谷歌翻译
基于激光雷达的本地化方法是用于大规模导航任务的基本模块,例如最后一英里交付和自动驾驶,并且本地化鲁棒性高度依赖于观点和3D功能提取。我们以前的工作提供了一个观点不变的描述符来处理观点差异;但是,全局描述符在无监督聚类中的信号噪声比率低,从而降低了可区分的特征提取能力。我们开发了SphereVlad ++,这是这项工作中一种引起注意的观点不变的位置识别方法。 SphereVlad ++在每个唯一区域的球形视角上投射点云,并通过全局3D几何分布捕获本地特征及其依赖关系之间的上下文连接。作为回报,全局描述符中的群集元素以本地和全球几何形式为条件,并支持SphereVlad的原始视点不变属性。在实验中,我们评估了SphereVlad ++在匹兹堡市的公共Kitti360数据集和自我生成的数据集上的本地化性能。实验结果表明,SphereVlad ++在小甚至完全逆转的视点差异下优于所有相对最新的3D位置识别方法,并显示0.69%和15.81%的成功检索率,比第二好的检索率更好。低计算要求和高时间效率也有助于其用于低成本机器人的应用。
translated by 谷歌翻译
最近的3D注册方法可以有效处理大规模或部分重叠的点对。然而,尽管具有实用性,但在空间尺度和密度方面与不平衡对匹配。我们提出了一种新颖的3D注册方法,称为uppnet,用于不平衡点对。我们提出了一个层次结构框架,通过逐渐减少搜索空间,可以有效地找到近距离的对应关系。我们的方法预测目标点的子区域可能与查询点重叠。以下超点匹配模块和细粒度的细化模块估计两个点云之间的准确对应关系。此外,我们应用几何约束来完善满足空间兼容性的对应关系。对应性预测是对端到端训练的,我们的方法可以通过单个前向通行率预测适当的刚体转换,并给定点云对。为了验证提出方法的疗效,我们通过增强Kitti LiDAR数据集创建Kitti-UPP数据集。该数据集的实验表明,所提出的方法显着优于最先进的成对点云注册方法,而当目标点云大约为10 $ \ times $ higation时,注册召回率的提高了78%。比查询点云大约比查询点云更密集。
translated by 谷歌翻译
点云注册是许多应用程序(例如本地化,映射,跟踪和重建)的基本任务。成功的注册依赖于提取鲁棒和歧视性的几何特征。现有的基于学习的方法需要高计算能力来同时处理大量原始点。尽管这些方法取得了令人信服的结果,但由于高计算成本,它们很难在现实情况下应用。在本文中,我们介绍了一个框架,该框架使用图形注意网络有效地从经济上提取密集的特征,以进行点云匹配和注册(DFGAT)。 DFGAT的检测器负责在大型原始数据集中找到高度可靠的关键点。 DFGAT的描述符将这些关键点与邻居相结合,以提取不变的密度特征,以准备匹配。图形注意力网络使用了丰富点云之间关系的注意机制。最后,我们将其视为最佳运输问题,并使用Sinkhorn算法找到正匹配和负面匹配。我们对KITTI数据集进行了彻底的测试,并评估了该方法的有效性。结果表明,与其他最先进的方法相比,使用有效紧凑的关键点选择和描述可以实现最佳性能匹配指标,并达到99.88%注册的最高成功率。
translated by 谷歌翻译
我们介绍了一种简单而有效的方法,可以使用本地3D深度描述符(L3DS)同时定位和映射解决循环闭合检测。 L3DS正在采用深度学习算法从数据从数据中学到的点云提取的斑块的紧凑型表示。通过在通过其估计的相对姿势向循环候选点云登记之后计算对应于相互最近邻接描述符的点之间的度量误差,提出了一种用于循环检测的新颖重叠度量。这种新方法使我们能够在小重叠的情况下精确地检测环并估计六个自由度。我们将基于L3D的循环闭合方法与最近的LIDAR数据的方法进行比较,实现最先进的环路闭合检测精度。此外,我们嵌入了我们在最近的基于边缘的SLAM系统中的循环闭合方法,并对现实世界RGBD-TUM和合成ICL数据集进行了评估。与其原始环路闭合策略相比,我们的方法能够实现更好的本地化准确性。
translated by 谷歌翻译