来自运动(SFM)技术的结构越来越多地用于从包括环境监测的许多域中的图像中创建3D地图。然而,SFM技术通常在视觉重复环境中被混淆,因为它们依赖于全局不同的图像特征。同时定位和映射(SLAM)技术在视觉重复环境中提供了潜在的解决方案,因为它们使用本地特征匹配,但是SLAM接近最佳地用广角相机,通常不适合记录环境系统的环境系统。我们通过提出双摄像机SLAM方法来解决这个问题,该方法使用前向广角相机进行定位,以及用于文档的向下的面对较窄的角度,高分辨率相机。使用前向相机视频获取的视频帧使用标准的SLAM方法处理,该方法通过环境提供成像系统的轨迹,然后用于指导文档相机图像的登记。随后从文档摄像机图像由单眼摄像机图像产生的零碎地图随后缩放并与定位相机轨迹对齐,最后经过全局优化过程以产生统一的精细地图。具有多种最先进的SFM方法的实验比较显示了基于地面控制点标记的选择样本在重复环境系统中执行的双相机液化方法。
translated by 谷歌翻译
在这项工作中,我们探讨了对物体在看不见的世界中同时本地化和映射中的使用,并提出了一个对象辅助系统(OA-Slam)。更确切地说,我们表明,与低级点相比,物体的主要好处在于它们的高级语义和歧视力。相反,要点比代表对象(Cuboid或椭圆形)的通用粗模型具有更好的空间定位精度。我们表明,将点和对象组合非常有趣,可以解决相机姿势恢复的问题。我们的主要贡献是:(1)我们使用高级对象地标提高了SLAM系统的重新定位能力; (2)我们构建了一个能够使用3D椭圆形识别,跟踪和重建对象的自动系统; (3)我们表明,基于对象的本地化可用于重新初始化或恢复相机跟踪。我们的全自动系统允许对象映射和增强姿势跟踪恢复,我们认为这可以极大地受益于AR社区。我们的实验表明,可以从经典方法失败的视点重新定位相机。我们证明,尽管跟踪损失损失,但这种本地化使SLAM系统仍可以继续工作,而这种损失可能会经常发生在不理会的用户中。我们的代码和测试数据在gitlab.inria.fr/tangram/oa-slam上发布。
translated by 谷歌翻译
由于其许多潜在应用,从视频中估算人类运动是一个活跃的研究领域。大多数最先进的方法可以预测单个图像的人类形状和姿势估计,并且不利用视频中可用的时间信息。许多“野生”运动序列被移动的摄像机捕获,这为估计增加了混合的摄像头和人类运动的并发症。因此,我们介绍了Bodyslam,这是一种单眼大满贯系统,共同估计人体的位置,形状和姿势以及摄像机轨迹。我们还引入了一种新型的人类运动模型,以限制顺序身体姿势并观察场景的规模。通过通过移动的单眼相机捕获的人类运动的视频序列进行的一系列实验,我们证明了Bodyslam与单独估计这些估计相比,可以改善所有人体参数和相机的估计。
translated by 谷歌翻译
本文介绍了一种用于水下车辆机械手系统(UVMS)的新型视野映射方法,具有特定强调自然海底环境中的鲁棒映射。水下场景映射的先前方法通常会离线处理数据,而实时运行的现有水下SLAM方法通常会集中在本地化上而不是映射。我们的方法使用GPU加速SIFT功能在图形优化框架中构建一个特征映射。地图刻度由车辆安装的立体声相机的特征约束,我们通过将机械手系统的动态定位能力从手腕安装的Fisheye摄像机融合到地图中,以将其延伸到车辆安装摄像机的有限视点之外。我们的混合SLAM方法是在Costa rican Continental Shelf级别的自然深海环境中采用UVMS收集的挑战性图像序列,我们还在浅礁调查数据集中评估立体声的立体声。这些数据集的结果证明了我们的系统的高准确性,适合于在不同的自然海底环境中运营。
translated by 谷歌翻译
a) Stereo input: trajectory and sparse reconstruction of an urban environment with multiple loop closures. (b) RGB-D input: keyframes and dense pointcloud of a room scene with one loop closure. The pointcloud is rendered by backprojecting the sensor depth maps from estimated keyframe poses. No fusion is performed.
translated by 谷歌翻译
This paper presents ORB-SLAM, a feature-based monocular SLAM system that operates in real time, in small and large, indoor and outdoor environments. The system is robust to severe motion clutter, allows wide baseline loop closing and relocalization, and includes full automatic initialization. Building on excellent algorithms of recent years, we designed from scratch a novel system that uses the same features for all SLAM tasks: tracking, mapping, relocalization, and loop closing. A survival of the fittest strategy that selects the points and keyframes of the reconstruction leads to excellent robustness and generates a compact and trackable map that only grows if the scene content changes, allowing lifelong operation. We present an exhaustive evaluation in 27 sequences from the most popular datasets. ORB-SLAM achieves unprecedented performance with respect to other state-of-the-art monocular SLAM approaches. For the benefit of the community, we make the source code public.
translated by 谷歌翻译
The field of autonomous mobile robots has undergone dramatic advancements over the past decades. Despite achieving important milestones, several challenges are yet to be addressed. Aggregating the achievements of the robotic community as survey papers is vital to keep the track of current state-of-the-art and the challenges that must be tackled in the future. This paper tries to provide a comprehensive review of autonomous mobile robots covering topics such as sensor types, mobile robot platforms, simulation tools, path planning and following, sensor fusion methods, obstacle avoidance, and SLAM. The urge to present a survey paper is twofold. First, autonomous navigation field evolves fast so writing survey papers regularly is crucial to keep the research community well-aware of the current status of this field. Second, deep learning methods have revolutionized many fields including autonomous navigation. Therefore, it is necessary to give an appropriate treatment of the role of deep learning in autonomous navigation as well which is covered in this paper. Future works and research gaps will also be discussed.
translated by 谷歌翻译
同时定位和映射(SLAM)对于自主机器人(例如自动驾驶汽车,自动无人机),3D映射系统和AR/VR应用至关重要。这项工作提出了一个新颖的LIDAR惯性 - 视觉融合框架,称为R $^3 $ LIVE ++,以实现强大而准确的状态估计,同时可以随时重建光线体图。 R $^3 $ LIVE ++由LIDAR惯性探针(LIO)和视觉惯性探测器(VIO)组成,均为实时运行。 LIO子系统利用从激光雷达的测量值重建几何结构(即3D点的位置),而VIO子系统同时从输入图像中同时恢复了几何结构的辐射信息。 r $^3 $ live ++是基于r $^3 $ live开发的,并通过考虑相机光度校准(例如,非线性响应功能和镜头渐滴)和相机的在线估计,进一步提高了本地化和映射的准确性和映射接触时间。我们对公共和私人数据集进行了更广泛的实验,以将我们提出的系统与其他最先进的SLAM系统进行比较。定量和定性结果表明,我们所提出的系统在准确性和鲁棒性方面对其他系统具有显着改善。此外,为了证明我们的工作的可扩展性,{我们基于重建的辐射图开发了多个应用程序,例如高动态范围(HDR)成像,虚拟环境探索和3D视频游戏。}最后,分享我们的发现和我们的发现和为社区做出贡献,我们在GitHub上公开提供代码,硬件设计和数据集:github.com/hku-mars/r3live
translated by 谷歌翻译
高保真大满贯系统的开发过程取决于它们对可靠数据集的验证。为了实现这一目标,我们提出了IBiscape,这是一种模拟基准,其中包括来自异质传感器的数据同步和获取API:立体声 - RGB/DVS,深度,IMU和GPS,以及地面真相场景场景细分和车辆自我摄入量。我们的基准是建立在卡拉模拟器上的,后端是虚幻的引擎,呈现出模拟现实世界的高动态风景。此外,我们提供34个适用于自动驾驶汽车导航的多模式数据集,包括用于场景理解等情况,例如事故等,以及基于与API集成的动态天气模拟类别的广泛框架质量。我们还将第一个校准目标引入了Carla图,以解决CARLA模拟DVS和RGB摄像机的未知失真参数问题。最后,使用IBISCAPE序列,我们评估了四个ORB-SLAM 3系统(单眼RGB,立体RGB,立体声视觉惯性(SVI)和RGB-D)的性能和玄武岩视觉惯性轴测计(VIO)系统,这些系统在模拟的大型大型序列上收集的各种序列 - 规模动态环境。关键字:基准,多模式,数据集,探针,校准,DVS,SLAM
translated by 谷歌翻译
农业行业不断寻求农业生产中涉及的不同过程的自动化,例如播种,收获和杂草控制。使用移动自主机器人执行这些任务引起了极大的兴趣。耕地面向同时定位和映射(SLAM)系统(移动机器人技术的关键)面临着艰巨的挑战,这是由于视觉上的难度,这是由于高度重复的场景而引起的。近年来,已经开发了几种视觉惯性遗传(VIO)和SLAM系统。事实证明,它们在室内和室外城市环境中具有很高的准确性。但是,在农业领域未正确评估它们。在这项工作中,我们从可耕地上的准确性和处理时间方面评估了最相关的最新VIO系统,以便更好地了解它们在这些环境中的行为。特别是,该评估是在我们的车轮机器人记录的大豆领域记录的传感器数据集中进行的,该田间被公开发行为Rosario数据集。评估表明,环境的高度重复性外观,崎terrain的地形产生的强振动以及由风引起的叶子的运动,暴露了当前最新的VIO和SLAM系统的局限性。我们分析了系统故障并突出观察到的缺点,包括初始化故障,跟踪损失和对IMU饱和的敏感性。最后,我们得出的结论是,即使某些系统(例如Orb-Slam3和S-MSCKF)在其他系统方面表现出良好的结果,但应采取更多改进,以使其在某些申请中的农业领域可靠,例如作物行的土壤耕作和农药喷涂。 。
translated by 谷歌翻译
This work proposes a new method for real-time dense 3d reconstruction for common 360{\deg} action cams, which can be mounted on small scouting UAVs during USAR missions. The proposed method extends a feature based Visual monocular SLAM (OpenVSLAM, based on the popular ORB-SLAM) for robust long-term localization on equirectangular video input by adding an additional densification thread that computes dense correspondences for any given keyframe with respect to a local keyframe-neighboorhood using a PatchMatch-Stereo-approach. While PatchMatch-Stereo-types of algorithms are considered state of the art for large scale Mutli-View-Stereo they had not been adapted so far for real-time dense 3d reconstruction tasks. This work describes a new massively parallel variant of the PatchMatch-Stereo-algorithm that differs from current approaches in two ways: First it supports the equirectangular camera model while other solutions are limited to the pinhole camera model. Second it is optimized for low latency while keeping a high level of completeness and accuracy. To achieve this it operates only on small sequences of keyframes, but employs techniques to compensate for the potential loss of accuracy due to the limited number of frames. Results demonstrate that dense 3d reconstruction is possible on a consumer grade laptop with a recent mobile GPU and that it is possible with improved accuracy and completeness over common offline-MVS solutions with comparable quality settings.
translated by 谷歌翻译
We propose a direct (feature-less) monocular SLAM algorithm which, in contrast to current state-of-the-art regarding direct methods, allows to build large-scale, consistent maps of the environment. Along with highly accurate pose estimation based on direct image alignment, the 3D environment is reconstructed in real-time as pose-graph of keyframes with associated semi-dense depth maps. These are obtained by filtering over a large number of pixelwise small-baseline stereo comparisons. The explicitly scale-drift aware formulation allows the approach to operate on challenging sequences including large variations in scene scale. Major enablers are two key novelties: (1) a novel direct tracking method which operates on sim(3), thereby explicitly detecting scale-drift, and (2) an elegant probabilistic solution to include the effect of noisy depth values into tracking. The resulting direct monocular SLAM system runs in real-time on a CPU.
translated by 谷歌翻译
在本报告中,我们提出了在哥斯达黎加太平洋架子和圣托里尼 - Kolumbo Caldera Complex中,在寻找寿命中的寻找寿命任务中的自主海洋机器人技术协调,操作策略和结果。它作为可能存在于海洋超越地球的环境中的类似物。本报告侧重于ROV操纵器操作的自动化,用于从海底获取有针对性的生物样品收集和返回的。在未来的外星勘查任务到海洋世界的背景下,ROV是一个模拟的行星着陆器,必须能够有能力的高水平自主权。我们的田间试验涉及两个水下车辆,冰(Nui)杂交ROV的两个水下车辆(即,龙眼或自主)任务,都配备了7-DOF液压机械手。我们描述了一种适应性,硬件无关的计算机视觉架构,可实现高级自动化操作。 Vision系统提供了对工作空间的3D理解,以便在复杂的非结构化环境中通知操纵器运动计划。我们展示了视觉系统和控制框架通过越来越具有挑战性的环境中的现场试验的有效性,包括来自活性Undersea火山,Kolumbo内的自动收集和生物样品的回报。根据我们在该领域的经验,我们讨论了我们的系统的表现,并确定了未来研究的有希望的指示。
translated by 谷歌翻译
This paper presents a method of estimating camera pose in an unknown scene. While this has previously been attempted by adapting SLAM algorithms developed for robotic exploration, we propose a system specifically designed to track a hand-held camera in a small AR workspace. We propose to split tracking and mapping into two separate tasks, processed in parallel threads on a dual-core computer: one thread deals with the task of robustly tracking erratic hand-held motion, while the other produces a 3D map of point features from previously observed video frames. This allows the use of computationally expensive batch optimisation techniques not usually associated with real-time operation: The result is a system that produces detailed maps with thousands of landmarks which can be tracked at frame-rate, with an accuracy and robustness rivalling that of state-of-the-art model-based systems.
translated by 谷歌翻译
单眼语义同时定位和映射(SLAM)的有效对象级别表示仍然缺乏广泛接受的解决方案。在本文中,我们提出了基于结构点的有效表示的使用,以基于姿势格式的配方在单眼语义大满贯系统中用作地标的几何形状。特别是,为姿势图中的地标节点提出了一个反深度参数化,以存储对象位置,方向和大小/比例。所提出的配方是一般的,可以应用于不同的几何形状。在本文中,我们关注的是室内环境,其中人工制品通常具有平面矩形形状,例如窗户,门,橱柜等。模拟中的实验表现出良好的性能,尤其是在对象几何重建中。
translated by 谷歌翻译
本文通过讨论参加了为期三年的SubT竞赛的六支球队的不同大满贯策略和成果,报道了地下大满贯的现状。特别是,本文有四个主要目标。首先,我们审查团队采用的算法,架构和系统;特别重点是以激光雷达以激光雷达为中心的SLAM解决方案(几乎所有竞争中所有团队的首选方法),异质的多机器人操作(包括空中机器人和地面机器人)和现实世界的地下操作(从存在需要处理严格的计算约束的晦涩之处)。我们不会回避讨论不同SubT SLAM系统背后的肮脏细节,这些系统通常会从技术论文中省略。其次,我们通过强调当前的SLAM系统的可能性以及我们认为与一些良好的系统工程有关的范围来讨论该领域的成熟度。第三,我们概述了我们认为是基本的开放问题,这些问题可能需要进一步的研究才能突破。最后,我们提供了在SubT挑战和相关工作期间生产的开源SLAM实现和数据集的列表,并构成了研究人员和从业人员的有用资源。
translated by 谷歌翻译
在不同情况下,已经探索了相对旋转和翻译估计任务的最小解决方案,通常依赖于所谓的共同可见度图。但是,如何在没有重叠的两个框架之间建立直接旋转关系仍然是一个公开主题,如果解决了,它可以大大提高视觉尾声的准确性。在本文中,提出了一种新的最小解决方案,以通过利用新的图形结构来求解两个图像之间没有重叠区域的相对旋转估计,我们将其称为扩展性图(E-Graph)。与共同可见度图不同,高级标志(包括消失方向和平面正常)存储在我们的电子图纸中,这些图形在几何上可扩展。基于电子图表,旋转估计问题变得更简单,更优雅,因为它可以处理纯粹的旋转运动,并且需要更少的假设,例如曼哈顿/亚特兰大世界,平面/垂直运动。最后,我们将旋转估计策略嵌入完整的相机跟踪和映射系统中,该系统获得了6-DOF相机姿势和密集的3D网格模型。对公共基准测试的广泛实验表明,所提出的方法实现了最新的跟踪性能。
translated by 谷歌翻译
We propose AstroSLAM, a standalone vision-based solution for autonomous online navigation around an unknown target small celestial body. AstroSLAM is predicated on the formulation of the SLAM problem as an incrementally growing factor graph, facilitated by the use of the GTSAM library and the iSAM2 engine. By combining sensor fusion with orbital motion priors, we achieve improved performance over a baseline SLAM solution. We incorporate orbital motion constraints into the factor graph by devising a novel relative dynamics factor, which links the relative pose of the spacecraft to the problem of predicting trajectories stemming from the motion of the spacecraft in the vicinity of the small body. We demonstrate the excellent performance of AstroSLAM using both real legacy mission imagery and trajectory data courtesy of NASA's Planetary Data System, as well as real in-lab imagery data generated on a 3 degree-of-freedom spacecraft simulator test-bed.
translated by 谷歌翻译
我们提供了一种基于因子图优化的多摄像性视觉惯性内径系统,该系统通过同时使用所有相机估计运动,同时保留固定的整体特征预算。我们专注于在挑战环境中的运动跟踪,例如狭窄的走廊,具有侵略性动作的黑暗空间,突然的照明变化。这些方案导致传统的单眼或立体声测量失败。在理论上,使用额外的相机跟踪运动,但它会导致额外的复杂性和计算负担。为了克服这些挑战,我们介绍了两种新的方法来改善多相机特征跟踪。首先,除了从一体相机移动到另一个相机时,我们连续地跟踪特征的代替跟踪特征。这提高了准确性并实现了更紧凑的因子图表示。其次,我们选择跨摄像机的跟踪功能的固定预算,以降低反向结束优化时间。我们发现,使用较小的信息性功能可以保持相同的跟踪精度。我们所提出的方法使用由IMU和四个摄像机(前立体网和两个侧面)组成的硬件同步装置进行广泛测试,包括:地下矿,大型开放空间,以及带狭窄楼梯和走廊的建筑室内设计。与立体声最新的视觉惯性内径测量方法相比,我们的方法将漂移率,相对姿势误差,高达80%的翻译和旋转39%降低。
translated by 谷歌翻译
视觉同时定位和映射(VSLAM)在计算机视觉和机器人社区中取得了巨大进展,并已成功用于许多领域,例如自主机器人导航和AR/VR。但是,VSLAM无法在动态和复杂的环境中实现良好的定位。许多出版物报告说,通过与VSLAM结合语义信息,语义VSLAM系统具有近年来解决上述问题的能力。然而,尚无关于语义VSLAM的全面调查。为了填补空白,本文首先回顾了语义VSLAM的发展,并明确着眼于其优势和差异。其次,我们探讨了语义VSLAM的三个主要问题:语义信息的提取和关联,语义信息的应用以及语义VSLAM的优势。然后,我们收集和分析已广泛用于语义VSLAM系统的当前最新SLAM数据集。最后,我们讨论未来的方向,该方向将为语义VSLAM的未来发展提供蓝图。
translated by 谷歌翻译