In this paper, we present a novel benchmark for the evaluation of RGB-D SLAM systems. We recorded a large set of image sequences from a Microsoft Kinect with highly accurate and time-synchronized ground truth camera poses from a motion capture system. The sequences contain both the color and depth images in full sensor resolution (640 × 480) at video frame rate (30 Hz). The ground-truth trajectory was obtained from a motion-capture system with eight high-speed tracking cameras (100 Hz). The dataset consists of 39 sequences that were recorded in an office environment and an industrial hall. The dataset covers a large variety of scenes and camera motions. We provide sequences for debugging with slow motions as well as longer trajectories with and without loop closures. Most sequences were recorded from a handheld Kinect with unconstrained 6-DOF motions but we also provide sequences from a Kinect mounted on a Pioneer 3 robot that was manually navigated through a cluttered indoor environment. To stimulate the comparison of different approaches, we provide automatic evaluation tools both for the evaluation of drift of visual odometry systems and the global pose error of SLAM systems. The benchmark website [1] contains all data, detailed descriptions of the scenes, specifications of the data formats, sample code, and evaluation tools.
translated by 谷歌翻译
事件摄像机最近在高动力或具有挑战性的照明情况下具有强大的常规摄像头的潜力,因此摄影机最近变得越来越受欢迎。通过同时定位和映射(SLAM)给出了可能受益于事件摄像机的重要问题。但是,为了确保在包含事件的多传感器大满贯上进展,需要新颖的基准序列。我们的贡献是使用包含基于事件的立体声摄像机,常规立体声摄像机,多个深度传感器和惯性测量单元的多传感器设置捕获的第一组基准数据集。该设置是完全硬件同步的,并且经过了准确的外部校准。所有序列都均均均均由高度准确的外部参考设备(例如运动捕获系统)捕获的地面真相数据。各个序列都包括小型和大型环境,并涵盖动态视觉传感器针对的特定挑战。
translated by 谷歌翻译
我们介绍了棕色行人内径数据集(BPOD),用于在头部安装的行人设置中基准测试视觉内径算法。在布朗大学校园的12个不同室内和户外地点使用同步全球和滚动快门立体声相机捕获此数据集。与现有数据集相比,BPOD包含更多图像模糊和自动旋转,这在行人内径术中很常见,但罕见的其他地方。地面真理轨迹是从沿行人路径放置的粘贴标记产生的,并且使用第三人称视频记录行人的位置。我们在BPOD上评估代表性直接,特征和基于学习的VO方法的性能。我们的结果表明,需要显着的发展来成功捕获行人轨迹。数据集的链接在这里:\ url {https://doi.org/10.26300/c1n7-7p93
translated by 谷歌翻译
农业行业不断寻求农业生产中涉及的不同过程的自动化,例如播种,收获和杂草控制。使用移动自主机器人执行这些任务引起了极大的兴趣。耕地面向同时定位和映射(SLAM)系统(移动机器人技术的关键)面临着艰巨的挑战,这是由于视觉上的难度,这是由于高度重复的场景而引起的。近年来,已经开发了几种视觉惯性遗传(VIO)和SLAM系统。事实证明,它们在室内和室外城市环境中具有很高的准确性。但是,在农业领域未正确评估它们。在这项工作中,我们从可耕地上的准确性和处理时间方面评估了最相关的最新VIO系统,以便更好地了解它们在这些环境中的行为。特别是,该评估是在我们的车轮机器人记录的大豆领域记录的传感器数据集中进行的,该田间被公开发行为Rosario数据集。评估表明,环境的高度重复性外观,崎terrain的地形产生的强振动以及由风引起的叶子的运动,暴露了当前最新的VIO和SLAM系统的局限性。我们分析了系统故障并突出观察到的缺点,包括初始化故障,跟踪损失和对IMU饱和的敏感性。最后,我们得出的结论是,即使某些系统(例如Orb-Slam3和S-MSCKF)在其他系统方面表现出良好的结果,但应采取更多改进,以使其在某些申请中的农业领域可靠,例如作物行的土壤耕作和农药喷涂。 。
translated by 谷歌翻译
Various datasets have been proposed for simultaneous localization and mapping (SLAM) and related problems. Existing datasets often include small environments, have incomplete ground truth, or lack important sensor data, such as depth and infrared images. We propose an easy-to-use framework for acquiring building-scale 3D reconstruction using a consumer depth camera. Unlike complex and expensive acquisition setups, our system enables crowd-sourcing, which can greatly benefit data-hungry algorithms. Compared to similar systems, we utilize raw depth maps for odometry computation and loop closure refinement which results in better reconstructions. We acquire a building-scale 3D dataset (BS3D) and demonstrate its value by training an improved monocular depth estimation model. As a unique experiment, we benchmark visual-inertial odometry methods using both color and active infrared images.
translated by 谷歌翻译
a) Stereo input: trajectory and sparse reconstruction of an urban environment with multiple loop closures. (b) RGB-D input: keyframes and dense pointcloud of a room scene with one loop closure. The pointcloud is rendered by backprojecting the sensor depth maps from estimated keyframe poses. No fusion is performed.
translated by 谷歌翻译
We propose a 6D RGB-D odometry approach that finds the relative camera pose between consecutive RGB-D frames by keypoint extraction and feature matching both on the RGB and depth image planes. Furthermore, we feed the estimated pose to the highly accurate KinectFusion algorithm, which uses a fast ICP (Iterative Closest Point) to fine-tune the frame-to-frame relative pose and fuse the depth data into a global implicit surface. We evaluate our method on a publicly available RGB-D SLAM benchmark dataset by Sturm et al. The experimental results show that our proposed reconstruction method solely based on visual odometry and KinectFusion outperforms the state-of-the-art RGB-D SLAM system accuracy. Moreover, our algorithm outputs a ready-to-use polygon mesh (highly suitable for creating 3D virtual worlds) without any postprocessing steps.
translated by 谷歌翻译
高保真大满贯系统的开发过程取决于它们对可靠数据集的验证。为了实现这一目标,我们提出了IBiscape,这是一种模拟基准,其中包括来自异质传感器的数据同步和获取API:立体声 - RGB/DVS,深度,IMU和GPS,以及地面真相场景场景细分和车辆自我摄入量。我们的基准是建立在卡拉模拟器上的,后端是虚幻的引擎,呈现出模拟现实世界的高动态风景。此外,我们提供34个适用于自动驾驶汽车导航的多模式数据集,包括用于场景理解等情况,例如事故等,以及基于与API集成的动态天气模拟类别的广泛框架质量。我们还将第一个校准目标引入了Carla图,以解决CARLA模拟DVS和RGB摄像机的未知失真参数问题。最后,使用IBISCAPE序列,我们评估了四个ORB-SLAM 3系统(单眼RGB,立体RGB,立体声视觉惯性(SVI)和RGB-D)的性能和玄武岩视觉惯性轴测计(VIO)系统,这些系统在模拟的大型大型序列上收集的各种序列 - 规模动态环境。关键字:基准,多模式,数据集,探针,校准,DVS,SLAM
translated by 谷歌翻译
In this paper, we present a novel visual SLAM and long-term localization benchmark for autonomous driving in challenging conditions based on the large-scale 4Seasons dataset. The proposed benchmark provides drastic appearance variations caused by seasonal changes and diverse weather and illumination conditions. While significant progress has been made in advancing visual SLAM on small-scale datasets with similar conditions, there is still a lack of unified benchmarks representative of real-world scenarios for autonomous driving. We introduce a new unified benchmark for jointly evaluating visual odometry, global place recognition, and map-based visual localization performance which is crucial to successfully enable autonomous driving in any condition. The data has been collected for more than one year, resulting in more than 300 km of recordings in nine different environments ranging from a multi-level parking garage to urban (including tunnels) to countryside and highway. We provide globally consistent reference poses with up to centimeter-level accuracy obtained from the fusion of direct stereo-inertial odometry with RTK GNSS. We evaluate the performance of several state-of-the-art visual odometry and visual localization baseline approaches on the benchmark and analyze their properties. The experimental results provide new insights into current approaches and show promising potential for future research. Our benchmark and evaluation protocols will be available at https://www.4seasons-dataset.com/.
translated by 谷歌翻译
这项工作描述了使用配备有单个向上的鱼眼相机和背光的移动校准机器人,该机器人的自动注册(约40个)固定网络(约40个)的固定,天花板安装的环境相机(约800平方米)的自动注册(约800平方米) Aruco标记以容易检测。 Fisheye摄像头用于进行视觉进程(VO),Aruco标记有助于在环境摄像机中轻松检测校准机器人。此外,鱼眼摄像机还能够检测到环境相机。这个双向双向检测限制了环境摄像机的姿势以解决优化问题。这种方法可用于自动注册用于监视,自动停车或机器人应用的大型多摄像机系统。这种基于VO的多机登记方法是使用现实世界实验进行了广泛验证的,并且还与使用LIDAR的类似方法进行了比较,该方法使用LIDAR(一种昂贵,更重,更重,饥饿的传感器)。
translated by 谷歌翻译
通过移动激光扫描和图像构建有色点的云是测量和映射的基本工作。它也是为智能城市建造数字双胞胎的重要先决条件。但是,现有的公共数据集要么是相对较小的规模,要么缺乏准确的几何和彩色地面真理。本文记录了一个名为Polyu-BPComa的多功能数据集,该数据集可独特地定位于移动着色映射。该数据集在背包平台上包含3D激光雷达,球形成像,GNSS和IMU的资源。颜色检查器板在每个调查区域粘贴,因为目标和地面真相数据是由先进的陆地激光扫描仪(TLS)收集的。 3D几何信息和颜色信息可以分别在背包系统和TLS产生的有色点云中恢复。因此,我们提供了一个机会,可以同时为移动多感官系统对映射和着色精度进行基准测试。该数据集的尺寸约为800 GB,涵盖室内和室外环境。数据集和开发套件可在https://github.com/chenpengxin/polyu-bpcoma.git上找到。
translated by 谷歌翻译
组合多个传感器使机器人能够最大程度地提高其对环境的感知意识,并增强其对外部干扰的鲁棒性,对机器人导航至关重要。本文提出了可融合的基准测试,这是一个完整的多传感器数据集,具有多种移动机器人序列。本文提出了三项贡献。我们首先推进便携式和通用的多传感器套件,可提供丰富的感官测量值:10Hz激光镜点云,20Hz立体声框架图像,来自立体声事件相机的高速率和异步事件,来自IMU的200Hz惯性读数以及10Hz GPS信号。传感器已经在硬件中暂时同步。该设备轻巧,独立,并为移动机器人提供插件支持。其次,我们通过收集17个序列来构建数据集,该序列通过利用多个机器人平台进行数据收集来涵盖校园上各种环境。一些序列对现有的SLAM算法具有挑战性。第三,我们为将本地化和映射绩效评估提供了基础真理。我们还评估最新的大满贯方法并确定其局限性。该数据集将发布由原始传感器的设置,地面真相,校准数据和评估算法组成:https://ram-lab.com/file/site/site/multi-sensor-dataset。
translated by 谷歌翻译
在过去的几年中,同时定位和映射(SLAM)的研究取得了出色的进步。如今,SLAM系统正在从学术到现实世界的应用过渡。但是,这种过渡在准确性和鲁棒性方面提出了新的挑战。为了开发可以解决这些挑战的新的SLAM系统,需要新的包含尖端硬件和现实情况的数据集。我们提出了HILTI SLAM挑战数据集。我们的数据集包含室内序列,实验室,建筑环境以及建筑工地和停车区的室外序列。所有这些序列的特征是无特征区域和不同的照明条件,这些条件在现实世界中典型,并对在密封实验室环境中开发的算法构成了巨大的挑战。每个序列都提供了准确的稀疏地面真相,以毫米水平为毫米。用于记录数据的传感器平台包括许多视觉,激光雷达和惯性传感器,它们在空间和时间上进行了校准。该数据集的目的是促进传感器融合的研究,以开发可以在需要高准确性和鲁棒性(例如在施工环境中)部署的SLAM算法。许多学术和工业团体在HILTI SLAM挑战中的拟议数据集上测试了他们的SLAM系统。本文总结的挑战结果表明,拟议的数据集是准备在现实世界中部署的新SLAM算法开发的重要资产。
translated by 谷歌翻译
在本文中,我们介绍了一个大型数据集,其中包含各种移动映射传感器,该传感器使用以典型的步行速度携带的手持设备收集了近2.2公里,该设备通过牛津大学的新学院近2.2公里。该数据集包括来自两个市售设备的数据 - 立体惯性摄像头和一个多光束3D激光雷达,该镜头还提供惯性测量。此外,我们使用了三脚架安装的调查级LIDAR扫描仪来捕获测试位置的详细毫米准确的3D地图(包含$ \ sim $ \ sim $ 2.9亿点)。使用地图,我们推断出每次雷达扫描的设备位置的6度自由度(DOF)地面真理,以更好地评估LIDAR和视觉定位,映射和重建系统。这个基础真理是该数据集的特殊新颖贡献,我们认为它将实现许多类似数据集缺乏的系统评估。数据集结合了建筑环境,开放空间和植被区域,以测试本地化和映射系统,例如基于视觉的导航,视觉和激光雷达大满贯,3D激光雷达重建以及基于外观的位置识别。该数据集可在以下网址获得:ori.ox.ac.uk/datasets/newer-college-dataset
translated by 谷歌翻译
Today, visual recognition systems are still rarely employed in robotics applications. Perhaps one of the main reasons for this is the lack of demanding benchmarks that mimic such scenarios. In this paper, we take advantage of our autonomous driving platform to develop novel challenging benchmarks for the tasks of stereo, optical flow, visual odometry / SLAM and 3D object detection. Our recording platform is equipped with four high resolution video cameras, a Velodyne laser scanner and a state-of-the-art localization system. Our benchmarks comprise 389 stereo and optical flow image pairs, stereo visual odometry sequences of 39.2 km length, and more than 200k 3D object annotations captured in cluttered scenarios (up to 15 cars and 30 pedestrians are visible per image). Results from state-of-the-art algorithms reveal that methods ranking high on established datasets such as Middlebury perform below average when being moved outside the laboratory to the real world. Our goal is to reduce this bias by providing challenging benchmarks with novel difficulties to the computer vision community. Our benchmarks are available online at: www.cvlibs.net/datasets/kitti
translated by 谷歌翻译
同时本地化和映射(SLAM)正在现实世界应用中部署,但是在许多常见情况下,许多最先进的解决方案仍然在困难。进步的SLAM研究的关键是高质量数据集的可用性以及公平透明的基准测试。为此,我们创建了Hilti-Oxford数据集,以将最新的SLAM系统推向其极限。该数据集面临着各种挑战,从稀疏和常规的建筑工地到17世纪的新古典建筑,并具有细节和弯曲的表面。为了鼓励多模式的大满贯方法,我们设计了一个具有激光雷达,五个相机和IMU(惯性测量单元)的数据收集平台。为了对精度和鲁棒性至关重要的任务进行基准测试量算法,我们实施了一种新颖的地面真相收集方法,使我们的数据集能够以毫米精度准确地测量SLAM姿势错误。为了进一步确保准确性,我们平台的外部设备通过微米精确的扫描仪进行了验证,并使用硬件时间同步在线管理时间校准。我们数据集的多模式和多样性吸引了大量的学术和工业研究人员进入第二版《希尔蒂·斯拉姆挑战赛》,该挑战于2022年6月结束。挑战的结果表明,尽管前三名团队可以实现准确性在某些序列中的2厘米或更高的速度中,性能以更困难的序列下降。
translated by 谷歌翻译
This paper presents ORB-SLAM, a feature-based monocular SLAM system that operates in real time, in small and large, indoor and outdoor environments. The system is robust to severe motion clutter, allows wide baseline loop closing and relocalization, and includes full automatic initialization. Building on excellent algorithms of recent years, we designed from scratch a novel system that uses the same features for all SLAM tasks: tracking, mapping, relocalization, and loop closing. A survival of the fittest strategy that selects the points and keyframes of the reconstruction leads to excellent robustness and generates a compact and trackable map that only grows if the scene content changes, allowing lifelong operation. We present an exhaustive evaluation in 27 sequences from the most popular datasets. ORB-SLAM achieves unprecedented performance with respect to other state-of-the-art monocular SLAM approaches. For the benefit of the community, we make the source code public.
translated by 谷歌翻译
在本文中,我们评估了八种流行和开源的3D激光雷达和视觉大满贯(同时定位和映射)算法,即壤土,乐高壤土,lio sam,hdl graph,orb slam3,basalt vio和svo2。我们已经设计了室内和室外的实验,以研究以下项目的影响:i)传感器安装位置的影响,ii)地形类型和振动的影响,iii)运动的影响(线性和角速速度的变化)。我们根据相对和绝对姿势误差比较它们的性能。我们还提供了他们所需的计算资源的比较。我们通过我们的多摄像机和多大摄像机室内和室外数据集进行彻底分析和讨论结果,并确定环境案例的最佳性能系统。我们希望我们的发现可以帮助人们根据目标环境选择一个适合其需求的传感器和相应的SLAM算法组合。
translated by 谷歌翻译
我们介绍了DLR行星立体声,固态激光雷达,惯性(S3LI)数据集,记录在埃特纳山上,西西里山(Sicily),一种类似于月球和火星的环境,使用手持式传感器套件,适用于适用于空间上的属性 - 像移动漫游器。环境的特征是关于视觉和结构外观的具有挑战性的条件:严重的视觉混叠,对视觉大满贯系统执行位置识别的能力构成了重大限制,而缺乏出色的结构细节,与有​​限的视野相连在利用的固态激光雷达传感器中,仅使用点云就挑战了传统的激光雷达大满贯。借助此数据,涵盖了在软火山斜坡上超过4公里的旅行,我们的目标是:1)提供一种工具来揭示有关环境的最先进的大满贯系统的限制,而环境并未广泛存在可用的数据集和2)激励开发新颖的本地化和映射方法,这些方法有效地依赖于两个传感器的互补功能。数据集可在以下URL上访问:https://rmc.dlr.de/s3li_dataset
translated by 谷歌翻译
在这项研究中,我们提出了一种新型的视觉定位方法,以根据RGB摄像机的可视数据准确估计机器人在3D激光镜头内的六个自由度(6-DOF)姿势。使用基于先进的激光雷达的同时定位和映射(SLAM)算法,可获得3D地图,能够收集精确的稀疏图。将从相机图像中提取的功能与3D地图的点进行了比较,然后解决了几何优化问题,以实现精确的视觉定位。我们的方法允许使用配备昂贵激光雷达的侦察兵机器人一次 - 用于映射环境,并且仅使用RGB摄像头的多个操作机器人 - 执行任务任务,其本地化精度高于常见的基于相机的解决方案。该方法在Skolkovo科学技术研究所(Skoltech)收集的自定义数据集上进行了测试。在评估本地化准确性的过程中,我们设法达到了厘米级的准确性;中间翻译误差高达1.3厘米。仅使用相机实现的确切定位使使用自动移动机器人可以解决需要高度本地化精度的最复杂的任务。
translated by 谷歌翻译