我们提出了BioSlam,这是一个终生的SLAM框架,用于逐步学习各种新出现,并在先前访问的地区保持准确的位置识别。与人类不同,人工神经网络遭受灾难性遗忘的困扰,并在接受新来者训练时可能会忘记先前访问的地区。对于人类而言,研究人员发现,大脑中存在一种记忆重播机制,可以使神经元保持活跃。受到这一发现的启发,Bioslam设计了一个封闭式的生成重播,以根据反馈奖励来控制机器人的学习行为。具体而言,BioSlam提供了一种新型的双记忆机制来维护:1)动态记忆有效地学习新观察结果,以及2)平衡新老知识的静态记忆。当与基于视觉/激光雷达的SLAM系统结合使用时,完整的处理管道可以帮助代理逐步更新位置识别能力,从而强大,从而增强长期位置识别的复杂性。我们在两个渐进式猛击场景中展示了Bioslam。在第一种情况下,基于激光雷达的特工不断穿越具有120公里轨迹的城市尺度环境,并遇到了不同类型的3D几何形状(开放街,住宅区,商业建筑)。我们表明,BioSlam可以逐步更新代理商的位置识别能力,并优于最先进的增量方法,即生成重播24%。在第二种情况下,基于激光镜的代理商在4.5公里的轨迹上反复穿越校园规模区域。 Bioslam可以保证在不同外观下的最先进方法上优于15%的地方识别精度。据我们所知,BioSlam是第一个具有记忆力增强的终身大满贯系统,可以帮助长期导航任务中的逐步识别。
translated by 谷歌翻译
位置识别是可以协助同时定位和映射(SLAM)进行循环闭合检测和重新定位以进行长期导航的基本模块。在过去的20美元中,该地点认可社区取得了惊人的进步,这吸引了在计算机视觉和机器人技术等多个领域的广泛研究兴趣和应用。但是,在复杂的现实世界情景中,很少有方法显示出有希望的位置识别性能,在复杂的现实世界中,长期和大规模的外观变化通常会导致故障。此外,在最先进的方法之间缺乏集成框架,可以应对所有挑战,包括外观变化,观点差异,对未知区域的稳健性以及现实世界中的效率申请。在这项工作中,我们调查针对长期本地化并讨论未来方向和机会的最先进方法。首先,我们研究了长期自主权中的位置识别以及在现实环境中面临的主要挑战。然后,我们回顾了最新的作品,以应对各种位置识别挑战的不同传感器方式和当前的策略的认可。最后,我们回顾了现有的数据集以进行长期本地化,并为不同的方法介绍了我们的数据集和评估API。本文可以成为该地点识别界新手的研究人员以及关心长期机器人自主权的研究人员。我们还对机器人技术中的常见问题提供了意见:机器人是否需要准确的本地化来实现长期自治?这项工作以及我们的数据集和评估API的摘要可向机器人社区公开,网址为:https://github.com/metaslam/gprs。
translated by 谷歌翻译
我们提出Automerge,这是一种LIDAR数据处理框架,用于将大量地图段组装到完整的地图中。传统的大规模地图合并方法对于错误的数据关联是脆弱的,并且主要仅限于离线工作。 Automerge利用多观点的融合和自适应环路闭合检测来进行准确的数据关联,并且它使用增量合并来从随机顺序给出的单个轨迹段组装大图,没有初始估计。此外,在组装段后,自动制度可以执行良好的匹配和姿势图片优化,以在全球范围内平滑合并的地图。我们展示了城市规模合并(120公里)和校园规模重复合并(4.5公里x 8)的汽车。该实验表明,自动化(i)在段检索中超过了第二和第三最佳方法的14%和24%的召回,(ii)在120 km大尺度地图组件(III)中实现了可比较的3D映射精度,IT对于暂时的重新审视是强大的。据我们所知,Automerge是第一种映射方法,它可以在无GPS的帮助下合并数百公里的单个细分市场。
translated by 谷歌翻译
视觉摄像头是超越视觉线(B-VLOS)无人机操作的吸引人的设备,因为它们的尺寸,重量,功率和成本较低,并且可以为GPS失败提供多余的方式。但是,最新的视觉定位算法无法匹配由于照明或观点而导致外观明显不同的视觉数据。本文介绍了Isimloc,这是一种条件/观点一致的层次结构全局重新定位方法。 Isimloc的位置功能可用于在不断变化的外观和观点下搜索目标图像。此外,我们的分层全局重新定位模块以粗到精细的方式完善,使Isimloc可以执行快速准确的估计。我们在一个数据集上评估了我们的方法,其中具有外观变化和一个数据集,该数据集的重点是在复杂的环境中长期飞行进行大规模匹配。在我们的两个数据集中,Isimloc在1.5s推导时间的成功检索率达到88.7 \%和83.8 \%,而使用下一个最佳方法,为45.8%和39.7%。这些结果证明了在各种环境中的强大定位。
translated by 谷歌翻译
基于激光雷达的本地化方法是用于大规模导航任务的基本模块,例如最后一英里交付和自动驾驶,并且本地化鲁棒性高度依赖于观点和3D功能提取。我们以前的工作提供了一个观点不变的描述符来处理观点差异;但是,全局描述符在无监督聚类中的信号噪声比率低,从而降低了可区分的特征提取能力。我们开发了SphereVlad ++,这是这项工作中一种引起注意的观点不变的位置识别方法。 SphereVlad ++在每个唯一区域的球形视角上投射点云,并通过全局3D几何分布捕获本地特征及其依赖关系之间的上下文连接。作为回报,全局描述符中的群集元素以本地和全球几何形式为条件,并支持SphereVlad的原始视点不变属性。在实验中,我们评估了SphereVlad ++在匹兹堡市的公共Kitti360数据集和自我生成的数据集上的本地化性能。实验结果表明,SphereVlad ++在小甚至完全逆转的视点差异下优于所有相对最新的3D位置识别方法,并显示0.69%和15.81%的成功检索率,比第二好的检索率更好。低计算要求和高时间效率也有助于其用于低成本机器人的应用。
translated by 谷歌翻译
对于长期自治,大多数位置识别方法主要在简化的方案或模拟数据集上进行评估,该数据集无法提供可靠的证据来评估当前同时定位和映射的准备就绪(SLAM)。在本文中,我们提出了一个长期的位置识别数据集,用于在大规模动态环境下用于移动定位。该数据集包括一个校园规模的轨道和城市规模的轨道:1)校园轨道重点关注长期财产,我们在10个轨迹上记录Lidar设备和一个全向相机,并且每个轨迹在变体下重复记录8次照明条件。 2)城市轨道聚焦大型物业,我们将激光雷达设备安装在车辆上,并穿过120公里种类在城市环境中。每个轨迹都提供了两个轨道的地面真实位置,这是从全球位置系统中获得的,具有额外的基于ICP的点云的细化。为了简化评估程序,我们还为Python-API提供了一组地点识别指标,以快速加载我们的数据集并根据不同方法评估识别性能。该数据集的目标是寻找具有高位置识别精度和鲁棒性的方法,并提供长期自治的真正机器人系统。可以从https://github.com/metaslam/alita访问数据集和提供的工具。
translated by 谷歌翻译
Continual Learning (CL) is a field dedicated to devise algorithms able to achieve lifelong learning. Overcoming the knowledge disruption of previously acquired concepts, a drawback affecting deep learning models and that goes by the name of catastrophic forgetting, is a hard challenge. Currently, deep learning methods can attain impressive results when the data modeled does not undergo a considerable distributional shift in subsequent learning sessions, but whenever we expose such systems to this incremental setting, performance drop very quickly. Overcoming this limitation is fundamental as it would allow us to build truly intelligent systems showing stability and plasticity. Secondly, it would allow us to overcome the onerous limitation of retraining these architectures from scratch with the new updated data. In this thesis, we tackle the problem from multiple directions. In a first study, we show that in rehearsal-based techniques (systems that use memory buffer), the quantity of data stored in the rehearsal buffer is a more important factor over the quality of the data. Secondly, we propose one of the early works of incremental learning on ViTs architectures, comparing functional, weight and attention regularization approaches and propose effective novel a novel asymmetric loss. At the end we conclude with a study on pretraining and how it affects the performance in Continual Learning, raising some questions about the effective progression of the field. We then conclude with some future directions and closing remarks.
translated by 谷歌翻译
在开放世界中运行的机器人会遇到各种不同的环境,这些环境可能彼此之间有很大的不同。该域差距也对同时本地化和映射(SLAM)构成了挑战,它是导航的基本任务之一。尤其是,已知基于学习的大满贯方法概括地概括了看不见的环境,阻碍了其一般采用。在这项工作中,我们介绍了连续猛击的新任务,即从单个动态变化的环境扩展到终生的概念到几个截然不同的环境中的顺序部署。为了解决这一任务,我们提出了CL-SLAM利用双NETWORK体系结构来适应新环境,并保留有关先前访问的环境的知识。我们将CL-SLAM与基于学习的和经典的大满贯方法进行比较,并显示了利用在线数据的优势。我们在三个不同的数据集上广泛评估CL-SLAM,并证明它的表现优于几个受到现有基于基于学习的视觉探测方法的基准。我们在http://continual-slam.cs.uni-freiburg.de上公开提供工作代码。
translated by 谷歌翻译
Humans and animals have the ability to continually acquire, fine-tune, and transfer knowledge and skills throughout their lifespan. This ability, referred to as lifelong learning, is mediated by a rich set of neurocognitive mechanisms that together contribute to the development and specialization of our sensorimotor skills as well as to long-term memory consolidation and retrieval. Consequently, lifelong learning capabilities are crucial for computational systems and autonomous agents interacting in the real world and processing continuous streams of information. However, lifelong learning remains a long-standing challenge for machine learning and neural network models since the continual acquisition of incrementally available information from non-stationary data distributions generally leads to catastrophic forgetting or interference. This limitation represents a major drawback for state-of-the-art deep neural network models that typically learn representations from stationary batches of training data, thus without accounting for situations in which information becomes incrementally available over time. In this review, we critically summarize the main challenges linked to lifelong learning for artificial learning systems and compare existing neural network approaches that alleviate, to different extents, catastrophic forgetting. Although significant advances have been made in domain-specific learning with neural networks, extensive research efforts are required for the development of robust lifelong learning on autonomous agents and robots. We discuss well-established and emerging research motivated by lifelong learning factors in biological systems such as structural plasticity, memory replay, curriculum and transfer learning, intrinsic motivation, and multisensory integration.
translated by 谷歌翻译
自治机器人经常需要检测“有趣”的场景来决定进一步的探索,或决定哪些数据分享合作。这些方案通常需要快速部署,几乎没有培训数据。事先工作基于来自同一分配的数据考虑“有趣”。相反,我们建议开发一种方法,它在线自动适应环境,以便快速报告有趣的场景。要解决这个问题,我们开发了一种新的翻译不变的视觉记忆,并为长期,短期和在线学习设计了一个三级架构,这使得该系统能够学习人类的体验,环境知识和在线分别适应。借助该系统,我们在地下隧道环境中的最先进的无人监督方法平均达到高度高20%。我们对机器人勘探情景的监督方法表现出相当的性能,显示了我们的方法的功效。我们预计呈现的方法将在机器人有趣的识别勘探任务中发挥重要作用。
translated by 谷歌翻译
人类的持续学习(CL)能力与稳定性与可塑性困境密切相关,描述了人类如何实现持续的学习能力和保存的学习信息。自发育以来,CL的概念始终存在于人工智能(AI)中。本文提出了对CL的全面审查。与之前的评论不同,主要关注CL中的灾难性遗忘现象,本文根据稳定性与可塑性机制的宏观视角来调查CL。类似于生物对应物,“智能”AI代理商应该是I)记住以前学到的信息(信息回流); ii)不断推断新信息(信息浏览:); iii)转移有用的信息(信息转移),以实现高级CL。根据分类学,评估度量,算法,应用以及一些打开问题。我们的主要贡献涉及I)从人工综合情报层面重新检查CL; ii)在CL主题提供详细和广泛的概述; iii)提出一些关于CL潜在发展的新颖思路。
translated by 谷歌翻译
位置识别是自动驾驶汽车实现循环结束或全球本地化的重要组成部分。在本文中,我们根据机上激光雷达传感器获得的顺序3D激光扫描解决了位置识别问题。我们提出了一个名为SEQOT的基于变压器的网络,以利用由LIDAR数据生成的顺序范围图像提供的时间和空间信息。它使用多尺度变压器以端到端的方式为每一个LiDAR范围图像生成一个全局描述符。在线操作期间,我们的SEQOT通过在当前查询序列和地图中存储的描述符之间匹配此类描述符来找到相似的位置。我们在不同类型的不同环境中使用不同类型的LIDAR传感器收集的四个数据集评估了我们的方法。实验结果表明,我们的方法优于最新的基于激光痛的位置识别方法,并在不同环境中概括了。此外,我们的方法比传感器的帧速率更快地在线运行。我们的方法的实现以开放源形式发布,网址为:https://github.com/bit-mjy/seqot。
translated by 谷歌翻译
位置识别是机器人技术的基本组成部分,近年来通过使用深度学习模型看到了巨大的改进。当部署在看不见或高度动态的环境中时,网络可以体验到大幅下降,并且需要对收集的数据进行其他培训。但是,对新训练分布进行天真的微调会导致先前访问的域上的性能严重降解,这一现象被称为灾难性遗忘。在本文中,我们解决了点云识别的增量学习问题,并引入了基于结构感知蒸馏的方法,可保留网络嵌入空间的高阶结构。我们在四个流行和大规模的激光雷达数据集(牛津,木兰,内部和基蒂)上介绍了几个挑战性的新基准测试,在各种网络架构上显示了Point Cloud Plote识别性能的广泛改进。据我们所知,这项工作是第一个有效地将增量学习应用于Point Cloud Place识别的工作。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
循环闭合检测是同时定位和映射(SLAM)系统的重要组成部分,这减少了随时间累积的漂移。多年来,已经提出了一些深入的学习方法来解决这项任务,但是与手工制作技术相比,他们的表现一直是SubPar,特别是在处理反向环的同时。在本文中,我们通过同时识别先前访问的位置并估计当前扫描与地图之间的6-DOF相对变换,有效地检测LIDAR点云中的LINAS点云中的环闭环的新颖LCDNET。 LCDNET由共享编码器组成,一个地方识别头提取全局描述符,以及估计两个点云之间的变换的相对姿势头。我们基于不平衡的最佳运输理论介绍一种新颖的相对姿势,我们以可分散的方式实现,以便实现端到端训练。在多个现实世界自主驾驶数据集中的LCDNET广泛评估表明我们的方法优于最先进的环路闭合检测和点云登记技术,特别是在处理反向环的同时。此外,我们将所提出的循环闭合检测方法集成到LIDAR SLAM库中,以提供完整的映射系统,并在看不见的城市中使用不同的传感器设置展示泛化能力。
translated by 谷歌翻译
本文提出了一种新颖的方法,用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分,拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反,该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署,并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划,面向覆盖范围和压缩的拓扑范围的LTVMAP领域,以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用,以在一般的3D环境中可见性受限的知情搜索,而对环境结构没有任何假设,同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道,用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外,在定性和定量评估的各种环境中,在不同的环境中进行了广泛的实验验证,UAV系统的性能得到了支持。
translated by 谷歌翻译
In this paper, we present a novel visual SLAM and long-term localization benchmark for autonomous driving in challenging conditions based on the large-scale 4Seasons dataset. The proposed benchmark provides drastic appearance variations caused by seasonal changes and diverse weather and illumination conditions. While significant progress has been made in advancing visual SLAM on small-scale datasets with similar conditions, there is still a lack of unified benchmarks representative of real-world scenarios for autonomous driving. We introduce a new unified benchmark for jointly evaluating visual odometry, global place recognition, and map-based visual localization performance which is crucial to successfully enable autonomous driving in any condition. The data has been collected for more than one year, resulting in more than 300 km of recordings in nine different environments ranging from a multi-level parking garage to urban (including tunnels) to countryside and highway. We provide globally consistent reference poses with up to centimeter-level accuracy obtained from the fusion of direct stereo-inertial odometry with RTK GNSS. We evaluate the performance of several state-of-the-art visual odometry and visual localization baseline approaches on the benchmark and analyze their properties. The experimental results provide new insights into current approaches and show promising potential for future research. Our benchmark and evaluation protocols will be available at https://www.4seasons-dataset.com/.
translated by 谷歌翻译
地理定位的概念是指确定地球上的某些“实体”的位置的过程,通常使用全球定位系统(GPS)坐标。感兴趣的实体可以是图像,图像序列,视频,卫星图像,甚至图像中可见的物体。由于GPS标记媒体的大规模数据集由于智能手机和互联网而迅速变得可用,而深入学习已经上升以提高机器学习模型的性能能力,因此由于其显着影响而出现了视觉和对象地理定位的领域广泛的应用,如增强现实,机器人,自驾驶车辆,道路维护和3D重建。本文提供了对涉及图像的地理定位的全面调查,其涉及从捕获图像(图像地理定位)或图像内的地理定位对象(对象地理定位)的地理定位的综合调查。我们将提供深入的研究,包括流行算法的摘要,对所提出的数据集的描述以及性能结果的分析来说明每个字段的当前状态。
translated by 谷歌翻译
尽管外观和观点的显着变化,视觉地点识别(VPR)通常是能够识别相同的地方。 VPR是空间人工智能的关键组成部分,使机器人平台和智能增强平台,例如增强现实设备,以察觉和理解物理世界。在本文中,我们观察到有三个“驱动程序”,它对空间智能代理有所要求,因此vpr系统:1)特定代理包括其传感器和计算资源,2)该代理的操作环境,以及3)人造工具执行的具体任务。在本文中,考虑到这些驱动因素,包括他们的位置代表和匹配选择,在VPR区域中表征和调查关键作品。我们还基于视觉重叠的VPR提供了一种新的VPR - 类似于大脑中的空间视图单元格 - 这使我们能够找到对机器人和计算机视觉领域的其他研究领域的相似之处和差异。我们确定了许多开放的挑战,并建议未来工作需要更深入的关注的领域。
translated by 谷歌翻译
使用深网的Visual Place识别(VPR)已达到最先进的性能。但是,他们中的大多数都需要采用地面真相传感器姿势的培训,以获取每个观察的空间邻里的正面和负面样本,以进行监督学习。当不可用的信息不可用时,尽管我们发现其性能次优训练,但可以利用从顺序收集的数据流中的时间社区进行自我监督训练。受嘈杂的标签学习的启发,我们提出了一个名为\ textit {tf-vpr}的新颖的自我监督框架,该框架使用时间社区和可学习的特征邻域来发现未知的空间社区。我们的方法遵循一个迭代训练范式,该范式在以下方面交替:(1)与数据增强的表示学习,(2)正设置扩展以包括当前的特征空间邻居,以及(3)通过几何验证进行正面集合。我们在模拟数据集和真实数据集上进行了全面的实验,将RGB图像或点云作为输入进行。结果表明,我们的方法在召回率,稳健性和标题多样性方面优于我们的基准,这是我们为VPR提出的新型指标。可以在https://ai4ce.github.io/tf-vpr/上找到我们的代码和数据集。
translated by 谷歌翻译