位置识别是可以协助同时定位和映射(SLAM)进行循环闭合检测和重新定位以进行长期导航的基本模块。在过去的20美元中,该地点认可社区取得了惊人的进步,这吸引了在计算机视觉和机器人技术等多个领域的广泛研究兴趣和应用。但是,在复杂的现实世界情景中,很少有方法显示出有希望的位置识别性能,在复杂的现实世界中,长期和大规模的外观变化通常会导致故障。此外,在最先进的方法之间缺乏集成框架,可以应对所有挑战,包括外观变化,观点差异,对未知区域的稳健性以及现实世界中的效率申请。在这项工作中,我们调查针对长期本地化并讨论未来方向和机会的最先进方法。首先,我们研究了长期自主权中的位置识别以及在现实环境中面临的主要挑战。然后,我们回顾了最新的作品,以应对各种位置识别挑战的不同传感器方式和当前的策略的认可。最后,我们回顾了现有的数据集以进行长期本地化,并为不同的方法介绍了我们的数据集和评估API。本文可以成为该地点识别界新手的研究人员以及关心长期机器人自主权的研究人员。我们还对机器人技术中的常见问题提供了意见:机器人是否需要准确的本地化来实现长期自治?这项工作以及我们的数据集和评估API的摘要可向机器人社区公开,网址为:https://github.com/metaslam/gprs。
translated by 谷歌翻译
视觉摄像头是超越视觉线(B-VLOS)无人机操作的吸引人的设备,因为它们的尺寸,重量,功率和成本较低,并且可以为GPS失败提供多余的方式。但是,最新的视觉定位算法无法匹配由于照明或观点而导致外观明显不同的视觉数据。本文介绍了Isimloc,这是一种条件/观点一致的层次结构全局重新定位方法。 Isimloc的位置功能可用于在不断变化的外观和观点下搜索目标图像。此外,我们的分层全局重新定位模块以粗到精细的方式完善,使Isimloc可以执行快速准确的估计。我们在一个数据集上评估了我们的方法,其中具有外观变化和一个数据集,该数据集的重点是在复杂的环境中长期飞行进行大规模匹配。在我们的两个数据集中,Isimloc在1.5s推导时间的成功检索率达到88.7 \%和83.8 \%,而使用下一个最佳方法,为45.8%和39.7%。这些结果证明了在各种环境中的强大定位。
translated by 谷歌翻译
我们提出了BioSlam,这是一个终生的SLAM框架,用于逐步学习各种新出现,并在先前访问的地区保持准确的位置识别。与人类不同,人工神经网络遭受灾难性遗忘的困扰,并在接受新来者训练时可能会忘记先前访问的地区。对于人类而言,研究人员发现,大脑中存在一种记忆重播机制,可以使神经元保持活跃。受到这一发现的启发,Bioslam设计了一个封闭式的生成重播,以根据反馈奖励来控制机器人的学习行为。具体而言,BioSlam提供了一种新型的双记忆机制来维护:1)动态记忆有效地学习新观察结果,以及2)平衡新老知识的静态记忆。当与基于视觉/激光雷达的SLAM系统结合使用时,完整的处理管道可以帮助代理逐步更新位置识别能力,从而强大,从而增强长期位置识别的复杂性。我们在两个渐进式猛击场景中展示了Bioslam。在第一种情况下,基于激光雷达的特工不断穿越具有120公里轨迹的城市尺度环境,并遇到了不同类型的3D几何形状(开放街,住宅区,商业建筑)。我们表明,BioSlam可以逐步更新代理商的位置识别能力,并优于最先进的增量方法,即生成重播24%。在第二种情况下,基于激光镜的代理商在4.5公里的轨迹上反复穿越校园规模区域。 Bioslam可以保证在不同外观下的最先进方法上优于15%的地方识别精度。据我们所知,BioSlam是第一个具有记忆力增强的终身大满贯系统,可以帮助长期导航任务中的逐步识别。
translated by 谷歌翻译
我们提出Automerge,这是一种LIDAR数据处理框架,用于将大量地图段组装到完整的地图中。传统的大规模地图合并方法对于错误的数据关联是脆弱的,并且主要仅限于离线工作。 Automerge利用多观点的融合和自适应环路闭合检测来进行准确的数据关联,并且它使用增量合并来从随机顺序给出的单个轨迹段组装大图,没有初始估计。此外,在组装段后,自动制度可以执行良好的匹配和姿势图片优化,以在全球范围内平滑合并的地图。我们展示了城市规模合并(120公里)和校园规模重复合并(4.5公里x 8)的汽车。该实验表明,自动化(i)在段检索中超过了第二和第三最佳方法的14%和24%的召回,(ii)在120 km大尺度地图组件(III)中实现了可比较的3D映射精度,IT对于暂时的重新审视是强大的。据我们所知,Automerge是第一种映射方法,它可以在无GPS的帮助下合并数百公里的单个细分市场。
translated by 谷歌翻译
视觉同时定位和映射(VSLAM)在计算机视觉和机器人社区中取得了巨大进展,并已成功用于许多领域,例如自主机器人导航和AR/VR。但是,VSLAM无法在动态和复杂的环境中实现良好的定位。许多出版物报告说,通过与VSLAM结合语义信息,语义VSLAM系统具有近年来解决上述问题的能力。然而,尚无关于语义VSLAM的全面调查。为了填补空白,本文首先回顾了语义VSLAM的发展,并明确着眼于其优势和差异。其次,我们探讨了语义VSLAM的三个主要问题:语义信息的提取和关联,语义信息的应用以及语义VSLAM的优势。然后,我们收集和分析已广泛用于语义VSLAM系统的当前最新SLAM数据集。最后,我们讨论未来的方向,该方向将为语义VSLAM的未来发展提供蓝图。
translated by 谷歌翻译
尽管外观和观点的显着变化,视觉地点识别(VPR)通常是能够识别相同的地方。 VPR是空间人工智能的关键组成部分,使机器人平台和智能增强平台,例如增强现实设备,以察觉和理解物理世界。在本文中,我们观察到有三个“驱动程序”,它对空间智能代理有所要求,因此vpr系统:1)特定代理包括其传感器和计算资源,2)该代理的操作环境,以及3)人造工具执行的具体任务。在本文中,考虑到这些驱动因素,包括他们的位置代表和匹配选择,在VPR区域中表征和调查关键作品。我们还基于视觉重叠的VPR提供了一种新的VPR - 类似于大脑中的空间视图单元格 - 这使我们能够找到对机器人和计算机视觉领域的其他研究领域的相似之处和差异。我们确定了许多开放的挑战,并建议未来工作需要更深入的关注的领域。
translated by 谷歌翻译
本文通过讨论参加了为期三年的SubT竞赛的六支球队的不同大满贯策略和成果,报道了地下大满贯的现状。特别是,本文有四个主要目标。首先,我们审查团队采用的算法,架构和系统;特别重点是以激光雷达以激光雷达为中心的SLAM解决方案(几乎所有竞争中所有团队的首选方法),异质的多机器人操作(包括空中机器人和地面机器人)和现实世界的地下操作(从存在需要处理严格的计算约束的晦涩之处)。我们不会回避讨论不同SubT SLAM系统背后的肮脏细节,这些系统通常会从技术论文中省略。其次,我们通过强调当前的SLAM系统的可能性以及我们认为与一些良好的系统工程有关的范围来讨论该领域的成熟度。第三,我们概述了我们认为是基本的开放问题,这些问题可能需要进一步的研究才能突破。最后,我们提供了在SubT挑战和相关工作期间生产的开源SLAM实现和数据集的列表,并构成了研究人员和从业人员的有用资源。
translated by 谷歌翻译
The field of autonomous mobile robots has undergone dramatic advancements over the past decades. Despite achieving important milestones, several challenges are yet to be addressed. Aggregating the achievements of the robotic community as survey papers is vital to keep the track of current state-of-the-art and the challenges that must be tackled in the future. This paper tries to provide a comprehensive review of autonomous mobile robots covering topics such as sensor types, mobile robot platforms, simulation tools, path planning and following, sensor fusion methods, obstacle avoidance, and SLAM. The urge to present a survey paper is twofold. First, autonomous navigation field evolves fast so writing survey papers regularly is crucial to keep the research community well-aware of the current status of this field. Second, deep learning methods have revolutionized many fields including autonomous navigation. Therefore, it is necessary to give an appropriate treatment of the role of deep learning in autonomous navigation as well which is covered in this paper. Future works and research gaps will also be discussed.
translated by 谷歌翻译
近年来我们目睹了巨大进展的动机,本文提出了对协作同时定位和映射(C-SLAM)主题的科学文献的调查,也称为多机器人猛击。随着地平线上的自动驾驶车队和工业应用中的多机器人系统的兴起,我们相信合作猛击将很快成为未来机器人应用的基石。在本调查中,我们介绍了C-Slam的基本概念,并呈现了彻底的文献综述。我们还概述了C-Slam在鲁棒性,通信和资源管理方面的主要挑战和限制。我们通过探索该地区目前的趋势和有前途的研究途径得出结论。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
随着自动驾驶行业正在缓慢成熟,视觉地图本地化正在迅速成为尽可能准确定位汽车的标准方法。由于相机或激光镜等视觉传感器返回的丰富数据,研究人员能够构建具有各种细节的不同类型的地图,并使用它们来实现高水平的车辆定位准确性和在城市环境中的稳定性。与流行的SLAM方法相反,视觉地图本地化依赖于预先构建的地图,并且仅通过避免误差积累或漂移来提高定位准确性。我们将视觉地图定位定义为两个阶段的过程。在位置识别的阶段,通过将视觉传感器输出与一组地理标记的地图区域进行比较,可以确定车辆在地图中的初始位置。随后,在MAP指标定位的阶段,通过连续将视觉传感器的输出与正在遍历的MAP的当前区域进行对齐,对车辆在地图上移动时进行了跟踪。在本文中,我们调查,讨论和比较两个阶段的基于激光雷达,基于摄像头和跨模式的视觉图本地化的最新方法,以突出每种方法的优势。
translated by 谷歌翻译
对于长期自治,大多数位置识别方法主要在简化的方案或模拟数据集上进行评估,该数据集无法提供可靠的证据来评估当前同时定位和映射的准备就绪(SLAM)。在本文中,我们提出了一个长期的位置识别数据集,用于在大规模动态环境下用于移动定位。该数据集包括一个校园规模的轨道和城市规模的轨道:1)校园轨道重点关注长期财产,我们在10个轨迹上记录Lidar设备和一个全向相机,并且每个轨迹在变体下重复记录8次照明条件。 2)城市轨道聚焦大型物业,我们将激光雷达设备安装在车辆上,并穿过120公里种类在城市环境中。每个轨迹都提供了两个轨道的地面真实位置,这是从全球位置系统中获得的,具有额外的基于ICP的点云的细化。为了简化评估程序,我们还为Python-API提供了一组地点识别指标,以快速加载我们的数据集并根据不同方法评估识别性能。该数据集的目标是寻找具有高位置识别精度和鲁棒性的方法,并提供长期自治的真正机器人系统。可以从https://github.com/metaslam/alita访问数据集和提供的工具。
translated by 谷歌翻译
基于激光雷达的本地化方法是用于大规模导航任务的基本模块,例如最后一英里交付和自动驾驶,并且本地化鲁棒性高度依赖于观点和3D功能提取。我们以前的工作提供了一个观点不变的描述符来处理观点差异;但是,全局描述符在无监督聚类中的信号噪声比率低,从而降低了可区分的特征提取能力。我们开发了SphereVlad ++,这是这项工作中一种引起注意的观点不变的位置识别方法。 SphereVlad ++在每个唯一区域的球形视角上投射点云,并通过全局3D几何分布捕获本地特征及其依赖关系之间的上下文连接。作为回报,全局描述符中的群集元素以本地和全球几何形式为条件,并支持SphereVlad的原始视点不变属性。在实验中,我们评估了SphereVlad ++在匹兹堡市的公共Kitti360数据集和自我生成的数据集上的本地化性能。实验结果表明,SphereVlad ++在小甚至完全逆转的视点差异下优于所有相对最新的3D位置识别方法,并显示0.69%和15.81%的成功检索率,比第二好的检索率更好。低计算要求和高时间效率也有助于其用于低成本机器人的应用。
translated by 谷歌翻译
地理定位的概念是指确定地球上的某些“实体”的位置的过程,通常使用全球定位系统(GPS)坐标。感兴趣的实体可以是图像,图像序列,视频,卫星图像,甚至图像中可见的物体。由于GPS标记媒体的大规模数据集由于智能手机和互联网而迅速变得可用,而深入学习已经上升以提高机器学习模型的性能能力,因此由于其显着影响而出现了视觉和对象地理定位的领域广泛的应用,如增强现实,机器人,自驾驶车辆,道路维护和3D重建。本文提供了对涉及图像的地理定位的全面调查,其涉及从捕获图像(图像地理定位)或图像内的地理定位对象(对象地理定位)的地理定位的综合调查。我们将提供深入的研究,包括流行算法的摘要,对所提出的数据集的描述以及性能结果的分析来说明每个字段的当前状态。
translated by 谷歌翻译
Integration of multiple sensor modalities and deep learning into Simultaneous Localization And Mapping (SLAM) systems are areas of significant interest in current research. Multi-modality is a stepping stone towards achieving robustness in challenging environments and interoperability of heterogeneous multi-robot systems with varying sensor setups. With maplab 2.0, we provide a versatile open-source platform that facilitates developing, testing, and integrating new modules and features into a fully-fledged SLAM system. Through extensive experiments, we show that maplab 2.0's accuracy is comparable to the state-of-the-art on the HILTI 2021 benchmark. Additionally, we showcase the flexibility of our system with three use cases: i) large-scale (approx. 10 km) multi-robot multi-session (23 missions) mapping, ii) integration of non-visual landmarks, and iii) incorporating a semantic object-based loop closure module into the mapping framework. The code is available open-source at https://github.com/ethz-asl/maplab.
translated by 谷歌翻译
同时本地化和映射(SLAM)是自动移动机器人中的基本问题之一,在该机器人需要重建以前看不见的环境的同时,同时在地图上进行了本身。特别是,Visual-Slam使用移动机器人中的各种传感器来收集和感测地图的表示。传统上,基于几何模型的技术被用来解决大满贯问题,在充满挑战的环境下,该问题往往容易出错。诸如深度学习技术之类的计算机视觉方面的最新进展提供了一种数据驱动的方法来解决视觉范围问题。这篇综述总结了使用各种基于学习的方法的视觉 - 峰领域的最新进展。我们首先提供了基于几何模型的方法的简洁概述,然后进行有关SLAM当前范式的技术评论。然后,我们介绍了从移动机器人那里收集感官输入并执行场景理解的各种基于学习的方法。讨论并将基于深度学习的语义理解中的当前范式讨论并置于视觉峰的背景下。最后,我们讨论了在视觉 - 峰中基于学习的方法方向上的挑战和进一步的机会。
translated by 谷歌翻译
位置识别是自动驾驶汽车实现循环结束或全球本地化的重要组成部分。在本文中,我们根据机上激光雷达传感器获得的顺序3D激光扫描解决了位置识别问题。我们提出了一个名为SEQOT的基于变压器的网络,以利用由LIDAR数据生成的顺序范围图像提供的时间和空间信息。它使用多尺度变压器以端到端的方式为每一个LiDAR范围图像生成一个全局描述符。在线操作期间,我们的SEQOT通过在当前查询序列和地图中存储的描述符之间匹配此类描述符来找到相似的位置。我们在不同类型的不同环境中使用不同类型的LIDAR传感器收集的四个数据集评估了我们的方法。实验结果表明,我们的方法优于最新的基于激光痛的位置识别方法,并在不同环境中概括了。此外,我们的方法比传感器的帧速率更快地在线运行。我们的方法的实现以开放源形式发布,网址为:https://github.com/bit-mjy/seqot。
translated by 谷歌翻译
In recent decades, several assistive technologies for visually impaired and blind (VIB) people have been developed to improve their ability to navigate independently and safely. At the same time, simultaneous localization and mapping (SLAM) techniques have become sufficiently robust and efficient to be adopted in the development of assistive technologies. In this paper, we first report the results of an anonymous survey conducted with VIB people to understand their experience and needs; we focus on digital assistive technologies that help them with indoor and outdoor navigation. Then, we present a literature review of assistive technologies based on SLAM. We discuss proposed approaches and indicate their pros and cons. We conclude by presenting future opportunities and challenges in this domain.
translated by 谷歌翻译
摄像机是自动化驱动系统中的主要传感器。它们提供高信息密度,并对检测为人类视野提供的道路基础设施线索最优。环绕式摄像机系统通常包括具有190 {\ DEG} +视野的四个鱼眼相机,覆盖在车辆周围的整个360 {\ DEG}集中在近场传感上。它们是低速,高精度和近距离传感应用的主要传感器,如自动停车,交通堵塞援助和低速应急制动。在这项工作中,我们提供了对这种视觉系统的详细调查,在可以分解为四个模块化组件的架构中,设置调查即可识别,重建,重建和重组。我们共同称之为4R架构。我们讨论每个组件如何完成特定方面,并提供一个位置论证,即它们可以协同组织以形成用于低速自动化的完整感知系统。我们通过呈现来自以前的作品的结果,并通过向此类系统提出架构提案来支持此参数。定性结果在视频中呈现在HTTPS://youtu.be/ae8bcof7777uy中。
translated by 谷歌翻译
本文提出了一种新颖的方法,用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分,拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反,该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署,并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划,面向覆盖范围和压缩的拓扑范围的LTVMAP领域,以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用,以在一般的3D环境中可见性受限的知情搜索,而对环境结构没有任何假设,同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道,用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外,在定性和定量评估的各种环境中,在不同的环境中进行了广泛的实验验证,UAV系统的性能得到了支持。
translated by 谷歌翻译