在本文中,我们提出了用于滚动快门摄像机的概率连续时间视觉惯性频道(VIO)。连续的时轨迹公式自然促进异步高频IMU数据和运动延伸的滚动快门图像的融合。为了防止棘手的计算负载,提出的VIO是滑动窗口和基于密钥帧的。我们建议概率地将控制点边缘化,以保持滑动窗口中恒定的密钥帧数。此外,可以在我们的连续时间VIO中在线校准滚动快门相机的线曝光时间差(线延迟)。为了广泛检查我们的连续时间VIO的性能,对公共可用的WHU-RSVI,TUM-RSVI和Sensetime-RSVI Rolling快门数据集进行了实验。结果表明,提出的连续时间VIO显着优于现有的最新VIO方法。本文的代码库也将通过\ url {https://github.com/april-zju/ctrl-vio}开源。
translated by 谷歌翻译
近几十年来,Camera-IMU(惯性测量单元)传感器融合已经过度研究。已经提出了具有自校准的运动估计的许多可观察性分析和融合方案。然而,它一直不确定是否在一般运动下观察到相机和IMU内在参数。为了回答这个问题,我们首先证明,对于全球快门Camera-IMU系统,所有内在和外在参数都可以观察到未知的地标。鉴于此,滚动快门(RS)相机的时间偏移和读出时间也证明是可观察到的。接下来,为了验证该分析并解决静止期间结构无轨滤波器的漂移问题,我们开发了一种基于关键帧的滑动窗滤波器(KSWF),用于测量和自校准,它适用于单眼RS摄像机或立体声RS摄像机。虽然关键帧概念广泛用于基于视觉的传感器融合,但对于我们的知识,KSWF是支持自我校准的首先。我们的模拟和实际数据测试验证了,可以使用不同运动的机会主义地标的观察来完全校准相机-IMU系统。实际数据测试确认了先前的典故,即保持状态矢量的地标可以弥补静止漂移,并显示基于关键帧的方案是替代治疗方法。
translated by 谷歌翻译
A monocular visual-inertial system (VINS), consisting of a camera and a low-cost inertial measurement unit (IMU), forms the minimum sensor suite for metric six degreesof-freedom (DOF) state estimation. However, the lack of direct distance measurement poses significant challenges in terms of IMU processing, estimator initialization, extrinsic calibration, and nonlinear optimization. In this work, we present VINS-Mono: a robust and versatile monocular visual-inertial state estimator. Our approach starts with a robust procedure for estimator initialization and failure recovery. A tightly-coupled, nonlinear optimization-based method is used to obtain high accuracy visual-inertial odometry by fusing pre-integrated IMU measurements and feature observations. A loop detection module, in combination with our tightly-coupled formulation, enables relocalization with minimum computation overhead. We additionally perform four degrees-of-freedom pose graph optimization to enforce global consistency. We validate the performance of our system on public datasets and real-world experiments and compare against other state-of-the-art algorithms. We also perform onboard closed-loop autonomous flight on the MAV platform and port the algorithm to an iOS-based demonstration. We highlight that the proposed work is a reliable, complete, and versatile system that is applicable for different applications that require high accuracy localization. We open source our implementations for both PCs 1 and iOS mobile devices 2 .
translated by 谷歌翻译
对于大多数LIDAR惯性进程,精确的初始状态,包括LiDAR和6轴IMU之间的时间偏移和外部转换,起着重要作用,通常被视为先决条件。但是,这种信息可能不会始终在定制的激光惯性系统中获得。在本文中,我们提出了liinit:一个完整​​的实时激光惯性系统初始化过程,该过程校准了激光雷达和imus之间的时间偏移和外部参数,以及通过对齐从激光雷达估计的状态来校准重力矢量和IMU偏置通过IMU测量的测量。我们将提出的方法实现为初始化模块,如果启用了,该模块会自动检测到收集的数据的激发程度并校准,即直接偏移,外部偏移,外部,重力向量和IMU偏置,然后是这样的。用作实时激光惯性射测系统的高质量初始状态值。用不同类型的LIDAR和LIDAR惯性组合进行的实验表明我们初始化方法的鲁棒性,适应性和效率。我们的LIDAR惯性初始化过程LIINIT和测试数据的实现在GitHub上开源,并集成到最先进的激光辐射射击轨道测定系统FastLiO2中。
translated by 谷歌翻译
现代视觉惯性导航系统(VINS)面临着实际部署中的一个关键挑战:他们需要在高度动态的环境中可靠且强大地运行。当前最佳解决方案仅根据对象类别的语义将动态对象过滤为异常值。这样的方法不缩放,因为它需要语义分类器来包含所有可能移动的对象类;这很难定义,更不用说部署。另一方面,许多现实世界的环境以墙壁和地面等平面形式表现出强大的结构规律,这也是至关重要的。我们呈现RP-VIO,一种单眼视觉惯性内径系统,可以利用这些平面的简单几何形状,以改善充满活力环境的鲁棒性和准确性。由于现有数据集具有有限数量的动态元素,因此我们还提供了一种高动态的光致态度合成数据集,用于更有效地对现代VINS系统的功能的评估。我们评估我们在该数据集中的方法,以及来自标准数据集的三个不同序列,包括两个真实的动态序列,并在最先进的单眼视觉惯性内径系统上显示出鲁棒性和准确性的显着提高。我们还显示在模拟中,通过简单的动态特征掩蔽方法改进。我们的代码和数据集是公开可用的。
translated by 谷歌翻译
我们提供了一种基于因子图优化的多摄像性视觉惯性内径系统,该系统通过同时使用所有相机估计运动,同时保留固定的整体特征预算。我们专注于在挑战环境中的运动跟踪,例如狭窄的走廊,具有侵略性动作的黑暗空间,突然的照明变化。这些方案导致传统的单眼或立体声测量失败。在理论上,使用额外的相机跟踪运动,但它会导致额外的复杂性和计算负担。为了克服这些挑战,我们介绍了两种新的方法来改善多相机特征跟踪。首先,除了从一体相机移动到另一个相机时,我们连续地跟踪特征的代替跟踪特征。这提高了准确性并实现了更紧凑的因子图表示。其次,我们选择跨摄像机的跟踪功能的固定预算,以降低反向结束优化时间。我们发现,使用较小的信息性功能可以保持相同的跟踪精度。我们所提出的方法使用由IMU和四个摄像机(前立体网和两个侧面)组成的硬件同步装置进行广泛测试,包括:地下矿,大型开放空间,以及带狭窄楼梯和走廊的建筑室内设计。与立体声最新的视觉惯性内径测量方法相比,我们的方法将漂移率,相对姿势误差,高达80%的翻译和旋转39%降低。
translated by 谷歌翻译
尽管密集的视觉大满贯方法能够估计环境的密集重建,但它们的跟踪步骤缺乏稳健性,尤其是当优化初始化较差时。稀疏的视觉大满贯系统通过将惯性测量包括在紧密耦合的融合中,达到了高度的准确性和鲁棒性。受这一表演的启发,我们提出了第一个紧密耦合的密集RGB-D惯性大满贯系统。我们的系统在GPU上运行时具有实时功能。它共同优化了相机姿势,速度,IMU偏见和重力方向,同时建立了全球一致,完全密集的基于表面的3D重建环境。通过一系列关于合成和现实世界数据集的实验,我们表明我们密集的视觉惯性大满贯系统对于低纹理和低几何变化的快速运动和时期比仅相关的RGB-D仅相关的SLAM系统更强大。
translated by 谷歌翻译
视觉惯性化学测定法吸引了自主驾驶和机器人技术领域的广泛关注。视场(FOV)的大小在视觉播音(VO)和视觉惯性二次测量法(VO)中起着重要作用,作为大型FOV,可以感知各种周围的场景元素和特征。但是,当摄像机的字段到达负半平面时,就不能简单地使用[u,v,1]^t来表示图像特征点。为了解决这个问题,我们建议LF-VIO,这是一个具有极大FOV的相机的实时VIO框架。我们利用具有单位长度的三维矢量来表示特征点,并设计一系列算法来克服这一挑战。为了解决带有地位的位置和姿势的全景视觉探针数据集的稀缺性,我们介绍了Palvio数据集,该数据集用具有360 {\ deg} x的整个FOV的全景环形镜头(PAL)系统收集(40 {\ deg}) -120 {\ deg})和IMU传感器。有了全面的实验,在已建立的Palvio基准和公共Fisheye摄像机数据集上验证了建议的LF-VIO,其FOV为360 {\ deg} x(0 {\ deg} -93.5 {\ deg})。 LF-VIO优于最先进的视觉惯性 - 调节法。我们的数据集和代码可在https://github.com/flysoaryun/lf-vio上公开提供。
translated by 谷歌翻译
在这封信中,我们提出了一个可靠的实时,实时的,惯性导航系统(INS) - 中心的GNSS-视觉惯性导航系统(IC-GVIN),用于轮式机器人,其中在两个状态估计中都可以完全利用精确的INS和视觉过程。为了改善系统的鲁棒性,通过严格的离群策略,在整个基于关键帧的视觉过程中采用了INS信息。采用GNSS来执行IC-GVIN的准确和方便的初始化,并进一步用于在大规模环境中实现绝对定位。 IMU,Visual和GNSS测量值紧密地融合在因子图优化的框架内。进行了专用的实验,以评估轮式机器人上IC-GVIN的鲁棒性和准确性。 IC-GVIN在带有移动对象的各种视觉降低场景中表现出卓越的鲁棒性。与最先进的视觉惯性导航系统相比,所提出的方法在各种环境中都能提高鲁棒性和准确性。我们开源的代码与GitHub上的数据集结合在一起
translated by 谷歌翻译
我们提出了一个健壮而快速的捆绑调整解决方案,该解决方案估计了基于滚动快门(RS)摄像头的测量值的摄像机的6多杆姿势和环境的几何形状。这解决了现有作品中的挑战,即依靠其他传感器,高帧速率视频作为输入,对摄像机运动的限制性假设,读出方向和效率低下。为此,我们首先研究了标准化对图像点对RSBA性能的影响,并在建模真正的6-DOF相机运动时显示了更好的近似值。然后,我们为视觉残差协方差提出了一个新的分析模型,该模型可用于在优化过程中标准化再投影误差,从而提高了整体准确性。更重要的是,RSBA(NW-RSBA)中归一化和协方差标准化加权的组合可以避免常见的平面退化,而无需限制拍摄方式。此外,我们根据其Jacobian Matrix和Schur补充的稀疏性提出了NW-RSBA的加速策略。广泛的合成和真实数据实验验证了拟议解决方案对最新作品的有效性和效率。我们还证明了所提出的方法可以轻松实施,并作为已完成的RSSFM和RSSLAM解决方案插入著名的GSSFM和GSSLAM系统。
translated by 谷歌翻译
事件摄像机是运动激活的传感器,可捕获像素级照明的变化,而不是具有固定帧速率的强度图像。与标准摄像机相比,它可以在高速运动和高动态范围场景中提供可靠的视觉感知。但是,当相机和场景之间的相对运动受到限制时,例如在静态状态下,事件摄像机仅输出一点信息甚至噪音。尽管标准相机可以在大多数情况下,尤其是在良好的照明条件下提供丰富的感知信息。这两个相机完全是互补的。在本文中,我们提出了一种具有鲁棒性,高智能和实时优化的基于事件的视觉惯性镜(VIO)方法,具有事件角度,基于线的事件功能和基于点的图像功能。提出的方法旨在利用人为场景中的自然场景和基于线路的功能中的基于点的功能,以通过设计良好设计的功能管理提供更多其他结构或约束信息。公共基准数据集中的实验表明,与基于图像或基于事件的VIO相比,我们的方法可以实现卓越的性能。最后,我们使用我们的方法演示了机上闭环自动驾驶四极管飞行和大规模室外实验。评估的视频在我们的项目网站上介绍:https://b23.tv/oe3qm6j
translated by 谷歌翻译
我们提出了一种雷达惯性内径测量的方法,其使用连续时间框架来熔断来自多个汽车雷达的熔丝测量和惯性测量单元(IMU)。不利的天气条件对雷达传感器的操作性能不同,与相机和激光器传感器不同,对雷达传感器的操作性能没有显着影响。雷达在这种情况下的鲁棒性和乘客车辆雷达的普遍普遍激励我们来看看雷达用于自我运动估计。连续时间轨迹表示不仅应用于实现异构和异步多传感器融合的框架,还应用于通过能够计算封闭形式的姿势及其衍生物来实现高效优化,并且在任何特定时间沿着弹道。我们将我们的连续时间估计与来自离散时间雷达 - 惯性内径型方法的方法进行比较,并表明我们的连续时间方法优于离散时间方法。据我们所知,这是第一次将连续时间框架应用于雷达惯性内径术。
translated by 谷歌翻译
视觉惯性进程(VIO)是当今大多数AR/VR和自主机器人系统的姿势估计主链,无论是学术界和工业的。但是,这些系统对关键参数的初始化高度敏感,例如传感器偏见,重力方向和度量标准。在实际场景中,很少满足高parallax或可变加速度假设(例如,悬停空中机器人,智能手机AR用户不使用电话打手机的智能手机AR),经典的视觉惯性初始化配方通常会变得不良条件和/或未能有意义地融合。在本文中,我们专门针对这些低兴奋的场景针对野生用法至关重要的视觉惯性初始化。我们建议通过将新的基于学习的测量作为高级输入来规避经典视觉惯性结构(SFM)初始化的局限性。我们利用学到的单眼深度图像(单深度)来限制特征的相对深度,并通过共同优化其尺度和偏移来将单深度升级到度量标尺。我们的实验显示出与视觉惯性初始化的经典配方相比,问题条件有显着改善,并且相对于公共基准的最先进,尤其是在低兴奋的情况下,相对于最先进的表现,具有显着的准确性和鲁棒性提高。我们进一步将这种改进扩展到现有的探射系统中的实现,以说明我们改进的初始化方法对产生跟踪轨迹的影响。
translated by 谷歌翻译
同时定位和映射(SLAM)对于自主机器人(例如自动驾驶汽车,自动无人机),3D映射系统和AR/VR应用至关重要。这项工作提出了一个新颖的LIDAR惯性 - 视觉融合框架,称为R $^3 $ LIVE ++,以实现强大而准确的状态估计,同时可以随时重建光线体图。 R $^3 $ LIVE ++由LIDAR惯性探针(LIO)和视觉惯性探测器(VIO)组成,均为实时运行。 LIO子系统利用从激光雷达的测量值重建几何结构(即3D点的位置),而VIO子系统同时从输入图像中同时恢复了几何结构的辐射信息。 r $^3 $ live ++是基于r $^3 $ live开发的,并通过考虑相机光度校准(例如,非线性响应功能和镜头渐滴)和相机的在线估计,进一步提高了本地化和映射的准确性和映射接触时间。我们对公共和私人数据集进行了更广泛的实验,以将我们提出的系统与其他最先进的SLAM系统进行比较。定量和定性结果表明,我们所提出的系统在准确性和鲁棒性方面对其他系统具有显着改善。此外,为了证明我们的工作的可扩展性,{我们基于重建的辐射图开发了多个应用程序,例如高动态范围(HDR)成像,虚拟环境探索和3D视频游戏。}最后,分享我们的发现和我们的发现和为社区做出贡献,我们在GitHub上公开提供代码,硬件设计和数据集:github.com/hku-mars/r3live
translated by 谷歌翻译
This paper presents ORB-SLAM3, the first system able to perform visual, visual-inertial and multi-map SLAM with monocular, stereo and RGB-D cameras, using pin-hole and fisheye lens models.The first main novelty is a feature-based tightly-integrated visual-inertial SLAM system that fully relies on Maximum-a-Posteriori (MAP) estimation, even during the IMU initialization phase. The result is a system that operates robustly in real time, in small and large, indoor and outdoor environments, and is two to ten times more accurate than previous approaches.The second main novelty is a multiple map system that relies on a new place recognition method with improved recall. Thanks to it, ORB-SLAM3 is able to survive to long periods of poor visual information: when it gets lost, it starts a new map that will be seamlessly merged with previous maps when revisiting mapped areas. Compared with visual odometry systems that only use information from the last few seconds, ORB-SLAM3 is the first system able to reuse in all the algorithm stages all previous information. This allows to include in bundle adjustment co-visible keyframes, that provide high parallax observations boosting accuracy, even if they are widely separated in time or if they come from a previous mapping session.Our experiments show that, in all sensor configurations, ORB-SLAM3 is as robust as the best systems available in the literature, and significantly more accurate. Notably, our stereo-inertial SLAM achieves an average accuracy of 3.5 cm in the EuRoC drone and 9 mm under quick hand-held motions in the room of TUM-VI dataset, a setting representative of AR/VR scenarios. For the benefit of the community we make public the source code.
translated by 谷歌翻译
与单个IMU相比,多个刚性连接的惯性测量单元(IMU)传感器提供了更丰富的数据流。最先进的方法遵循IMU测量的概率模型,基于在贝叶斯框架下组合的错误的随机性质。但是,负担得起的低级IMU此外,由于其不受相应的概率模型所掩盖的缺陷而遭受了系统的错误。在本文中,我们提出了一种方法,即合并多个IMU(MIMU)传感器数据的最佳轴组成(BAC),以进行准确的3D置置估计,该数据通过从集合中动态选择最佳的IMU轴来考虑随机和系统误差所有可用的轴。我们在MIMU视觉惯性传感器上评估了我们的方法,并将方法的性能与MIMU数据融合的最新方法进行比较。我们表明,BAC的表现优于后者,并且在开放环路中的方向和位置估计都可以提高20%的精度,但需要适当的处理以保持获得的增益。
translated by 谷歌翻译
我们介绍了基于两种称为延迟边缘化的新技术的单眼视觉惯性径流系统和姿势图束调节。 DM-VIO使用动态重量进行光度束调节,可视于可视残留。我们采用边缘化,这是一种流行的策略,以保持更新时间约束,但它不易颠倒,连接变量的线性化点必须固定。为了克服这一点,我们提出了延迟边缘化:这个想法是维持第二个因素图,其中边缘化被延迟。这允许我们稍后再读这种延迟图,在新的和一致的线性化点之前产生更新的边缘化。此外,延迟边缘化使我们能够将IMU信息注入已经边缘化的状态。这是所提出的姿势图束调整的基础,我们用于IMU初始化。与先前的IMU初始化的工作相比,它能够捕获完整的光度不确定性,从而提高规模估计。为了应对最初的不可观察的规模,在IMU初始化完成后,我们将继续优化主系统中的比例和重力方向。我们在EUROC,TUM-VI和4SEASONS数据集中评估我们的系统,该数据集包括飞行无人机,大规模手持设备和汽车场景。由于建议的IMU初始化,我们的系统超过了视觉惯性内径测量仪的最新状态,即使仅使用单个摄像头和IMU的同时表现出立体惯性方法。该代码将在http://vision.in.tum.de/dm-vio发布
translated by 谷歌翻译
在本文中,我们提出了一个与RGB,深度,IMU和结构化平面信息融合的紧密耦合的大满贯系统。传统的基于稀疏点的大满贯系统始终保持大量地图点以建模环境。大量的地图点使我们具有很高的计算复杂性,因此很难在移动设备上部署。另一方面,平面是人造环境中的常见结构,尤其是在室内环境中。我们通常可以使用少量飞机代表大型场景。因此,本文的主要目的是降低基于稀疏点的大满贯的高复杂性。我们构建了一个轻巧的后端地图,该地图由几个平面和地图点组成,以相等或更高的精度实现有效的捆绑捆绑调整(BA)。我们使用统计约束来消除优化中众多平面点的参数,并降低BA的复杂性。我们将同构和点对平面约束的参数和测量分开,并压缩测量部分,以进一步有效地提高BA的速度。我们还将平面信息集成到整个系统中,以实现强大的平面特征提取,数据关联和全球一致的平面重建。最后,我们进行消融研究,并用模拟和真实环境数据中的类似方法比较我们的方法。我们的系统在准确性和效率方面具有明显的优势。即使平面参数参与了优化,我们也可以使用平面结构有效地简化后端图。全局捆绑捆绑调整的速度几乎是基于稀疏点的SLAM算法的2倍。
translated by 谷歌翻译
通过实现复杂场景实现长期漂移相机姿势估计的目标,我们提出了一种全球定位框架,融合了多层的视觉,惯性和全球导航卫星系统(GNSS)测量。不同于以前的松散和紧密耦合的方法,所提出的多层融合允许我们彻底校正视觉测量仪的漂移,并在GNSS降解时保持可靠的定位。特别地,通过融合GNSS的速度,在紧紧地集成的情况下,解决视觉测量测量测量测量率和偏差估计中的尺度漂移和偏差估计的问题的问题,惯性测量单元(IMU)的预集成以及紧密相机测量的情况下 - 耦合的方式。在外层中实现全局定位,其中局部运动进一步与GNSS位置和基于长期时期的过程以松散耦合的方式融合。此外,提出了一种专用的初始化方法,以保证所有状态变量和参数的快速准确估计。我们为室内和室外公共数据集提供了拟议框架的详尽测试。平均本地化误差减少了63%,而初始化精度与最先进的工程相比,促销率为69%。我们已将算法应用于增强现实(AR)导航,人群采购高精度地图更新等大型应用。
translated by 谷歌翻译
由于它们对运动模糊和在弱光和高动态范围条件下的高度鲁棒性的韧性,事件摄像机有望成为对未来火星直升机任务的基于视觉探索的传感器。但是,现有的基于事件的视觉惯性进程(VIO)算法要么患有高跟踪误差,要么是脆弱的,因为它们无法应对由于无法预料的跟踪损失或其他效果而导致的显着深度不确定性。在这项工作中,我们介绍了EKLT-VIO,该工作通过将基于事件的最新前端与基于过滤器的后端相结合来解决这两种限制。这使得不确定性的准确和强大,超过了基于事件和基于框架的VIO算法在挑战性基准上的算法32%。此外,我们在悬停的条件(胜过现有事件的方法)以及新近收集的类似火星和高动态范围的新序列中表现出准确的性能,而现有的基于框架的方法失败了。在此过程中,我们表明基于事件的VIO是基于视觉的火星探索的前进道路。
translated by 谷歌翻译