运动估计方法通常采用传感器融合技术(例如Kalman滤波器)来处理单个传感器故障。最近,已经提出了基于深度学习的融合方法,提高了性能并需要更少的模型特定实现。但是,当前的深融合方法通常认为传感器是同步的,这并不总是实用的,尤其是对于低成本硬件。为了解决这一局限性,在这项工作中,我们提出了AFT-VO,这是一种新型的基于变压器的传感器融合体系结构,以估算来自多个传感器的VO。我们的框架结合了异步多视觉摄像机的预测,并说明了来自不同来源的测量值的时间差异。我们的方法首先采用混合密度网络(MDN)来估计系统中每个相机的6-DOF姿势的概率分布。然后引入了一个新型的基于变压器的融合模块AFT-VO,该模块结合了这些异步姿势估计以及它们的信心。更具体地说,我们引入了离散器和源编码技术,该技术使多源异步信号的融合。我们在流行的Nuscenes和Kitti数据集上评估了我们的方法。我们的实验表明,用于VO估计的多视图融合提供了强大而准确的轨迹,在挑战性的天气和照明条件下都超过了艺术的表现。
translated by 谷歌翻译
视觉内径(VO)估计是车辆状态估计和自主驾驶的重要信息来源。最近,基于深度学习的方法已经开始出现在文献中。但是,在驾驶的背景下,由于环境因素,摄像机放置等因素而导致的图像质量降低,单个传感器的方法通常容易出现故障。要解决这个问题,我们提出了一个深度传感器融合框架,其使用两者估计车辆运动来自多个板上摄像头的姿势和不确定性估计。我们使用混合CNN - RNN模型从一组连续图像中提取短时间形特征表示。然后,我们利用混合密度网络(MDN)来估计作为分布的混合和融合模块的6-DOF姿势,以使用来自多摄像机的MDN输出来估计最终姿势。我们在公开的大规模自动车辆数据集,Nuscenes上评估我们的方法。结果表明,与基于相机的估计相比,所提出的融合方法超越了最先进的,并提供了坚固的估计和准确的轨迹。
translated by 谷歌翻译
可视化内径(VO)用于许多应用,包括机器人和自主系统。但是,基于特征匹配的传统方法是计算昂贵的,而不是直接解决故障情况,而是依赖于启发式方法来检测失败。在这项工作中,我们提出了一种基于深度学习的VO模型,以有效地估计6 DOF姿势,以及这些估计的置信模型。我们利用CNN - RNN混合模型从图像序列学习特征表示。然后,我们采用混合密度网络(MDN),其估计相机运动作为高斯的混合,基于提取的时空表示。我们的模型使用姿势标签作为监督源,但以无人监督的方式源性不确定性。我们评估基提和NUSCENES数据集的提出模型,并报告广泛的定量和定性结果,以分析姿势和不确定性估计的性能。我们的实验表明,除了使用预测的姿态不确定性检测故障情况之外,该建议的模型还超过了最先进的性能。
translated by 谷歌翻译
结合同时定位和映射(SLAM)估计和动态场景建模可以高效地在动态环境中获得机器人自主权。机器人路径规划和障碍避免任务依赖于场景中动态对象运动的准确估计。本文介绍了VDO-SLAM,这是一种强大的视觉动态对象感知SLAM系统,用于利用语义信息,使得能够在场景中进行准确的运动估计和跟踪动态刚性物体,而无需任何先前的物体形状或几何模型的知识。所提出的方法识别和跟踪环境中的动态对象和静态结构,并将这些信息集成到统一的SLAM框架中。这导致机器人轨迹的高度准确估计和对象的全部SE(3)运动以及环境的时空地图。该系统能够从对象的SE(3)运动中提取线性速度估计,为复杂的动态环境中的导航提供重要功能。我们展示了所提出的系统对许多真实室内和室外数据集的性能,结果表明了对最先进的算法的一致和实质性的改进。可以使用源代码的开源版本。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
近年来,尤其是在户外环境中,自我监督的单眼深度估计已取得了重大进展。但是,在大多数现有数据被手持设备捕获的室内场景中,深度预测结果无法满足。与室外环境相比,使用自我监督的方法估算室内环境的单眼视频深度,导致了两个额外的挑战:(i)室内视频序列的深度范围在不同的框架上有很大变化,使深度很难进行。网络以促进培训的一致深度线索; (ii)用手持设备记录的室内序列通常包含更多的旋转运动,这使姿势网络难以预测准确的相对摄像头姿势。在这项工作中,我们通过对这些挑战进行特殊考虑并巩固了一系列良好实践,以提高自我监督的单眼深度估计室内环境的表现,从而提出了一种新颖的框架单声道++。首先,提出了具有基于变压器的比例回归网络的深度分解模块,以明确估算全局深度尺度因子,预测的比例因子可以指示最大深度值。其次,我们不像以前的方法那样使用单阶段的姿势估计策略,而是建议利用残留姿势估计模块来估计相对摄像机在连续迭代的跨帧中构成。第三,为了为我们的残留姿势估计模块纳入广泛的坐标指南,我们建议直接在输入上执行坐标卷积编码,以实现姿势网络。提出的方法在各种基准室内数据集(即Euroc Mav,Nyuv2,扫描仪和7片)上进行了验证,证明了最先进的性能。
translated by 谷歌翻译
准确而健壮的本地化是移动代理的基本需求。视觉惯性进程(VIO)算法将信息从摄像机和惯性传感器中利用到估计位置和翻译。最近基于深度学习的VIO模型以数据驱动的方式提供姿势信息,而无需设计手工制作的算法,因此吸引了注意力。现有的基于学习的VIO模型依赖于经常性模型来融合多模式数据和过程传感器信号,这些模型很难训练并且不够有效。我们提出了一个基于学习的新型VIO框架,并有效地结合了视觉和惯性特征,以供各州估计。我们提出的模型也能够准确,稳健地估计,即使在具有挑战性的情况下,例如在阴天和充满水的地面上,对于传统的Vio算法而言,这很难提取视觉特征。实验验证了它在不同场景中的表现优于传统和基于学习的VIO基线。
translated by 谷歌翻译
在本文中,我们提出了一个旨在进行探测估计的学习动机方法的统一信息理论框架,这是许多机器人技术和视觉任务的关键组成部分,例如导航和虚拟现实,其中需要相对摄像头姿势。我们将此问题提出来优化变分信息瓶颈的目标函数,从而消除了潜在表示中的姿势 - 呈现信息。拟议的框架为信息理论语言中的性能评估和理解提供了优雅的工具。具体而言,我们绑定了深度信息瓶颈框架的概括错误和潜在表示的可预测性。这些不仅提供了绩效保证,还提供了模型设计,样本收集和传感器选择的实用指导。此外,随机潜在表示提供了一种自然的不确定性度量,而无需进行额外的结构或计算。在两个众所周知的探测数据集上进行的实验证明了我们方法的有效性。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译
同时本地化和映射(SLAM)是自动移动机器人中的基本问题之一,在该机器人需要重建以前看不见的环境的同时,同时在地图上进行了本身。特别是,Visual-Slam使用移动机器人中的各种传感器来收集和感测地图的表示。传统上,基于几何模型的技术被用来解决大满贯问题,在充满挑战的环境下,该问题往往容易出错。诸如深度学习技术之类的计算机视觉方面的最新进展提供了一种数据驱动的方法来解决视觉范围问题。这篇综述总结了使用各种基于学习的方法的视觉 - 峰领域的最新进展。我们首先提供了基于几何模型的方法的简洁概述,然后进行有关SLAM当前范式的技术评论。然后,我们介绍了从移动机器人那里收集感官输入并执行场景理解的各种基于学习的方法。讨论并将基于深度学习的语义理解中的当前范式讨论并置于视觉峰的背景下。最后,我们讨论了在视觉 - 峰中基于学习的方法方向上的挑战和进一步的机会。
translated by 谷歌翻译
a) Stereo input: trajectory and sparse reconstruction of an urban environment with multiple loop closures. (b) RGB-D input: keyframes and dense pointcloud of a room scene with one loop closure. The pointcloud is rendered by backprojecting the sensor depth maps from estimated keyframe poses. No fusion is performed.
translated by 谷歌翻译
机器人应用不断努力朝着更高的自主权努力。为了实现这一目标,高度健壮和准确的状态估计是必不可少的。事实证明,结合视觉和惯性传感器方式可以在短期应用中产生准确和局部一致的结果。不幸的是,视觉惯性状态估计器遭受长期轨迹漂移的积累。为了消除这种漂移,可以将全球测量值融合到状态估计管道中。全球测量的最著名和广泛可用的来源是全球定位系统(GPS)。在本文中,我们提出了一种新颖的方法,该方法完全结合了立体视觉惯性同时定位和映射(SLAM),包括视觉循环封闭,并在基于紧密耦合且基于优化的框架中融合了全球传感器模式。结合了测量不确定性,我们提供了一个可靠的标准来解决全球参考框架初始化问题。此外,我们提出了一个类似环路的优化方案,以补偿接收GPS信号中断电中累积的漂移。在数据集和现实世界中的实验验证表明,与现有的最新方法相比,与现有的最新方法相比,我们对GPS辍学方法的鲁棒性以及其能够估算高度准确且全球一致的轨迹的能力。
translated by 谷歌翻译
在本文中,我们串联串联一个实时单手抄语和密集的测绘框架。对于姿势估计,串联基于关键帧的滑动窗口执行光度束调整。为了增加稳健性,我们提出了一种新颖的跟踪前端,使用从全局模型中呈现的深度图来执行密集的直接图像对齐,该模型从密集的深度预测逐渐构建。为了预测密集的深度映射,我们提出了通过分层构造具有自适应视图聚合的3D成本卷来平衡关键帧之间的不同立体声基线的3D成本卷来使用整个活动密钥帧窗口的级联视图 - 聚合MVSNet(CVA-MVSNET)。最后,将预测的深度映射融合到表示为截短的符号距离函数(TSDF)体素网格的一致的全局映射中。我们的实验结果表明,在相机跟踪方面,串联优于其他最先进的传统和学习的单眼视觉径管(VO)方法。此外,串联示出了最先进的实时3D重建性能。
translated by 谷歌翻译
Visual Inertial Odometry (VIO) is one of the most established state estimation methods for mobile platforms. However, when visual tracking fails, VIO algorithms quickly diverge due to rapid error accumulation during inertial data integration. This error is typically modeled as a combination of additive Gaussian noise and a slowly changing bias which evolves as a random walk. In this work, we propose to train a neural network to learn the true bias evolution. We implement and compare two common sequential deep learning architectures: LSTMs and Transformers. Our approach follows from recent learning-based inertial estimators, but, instead of learning a motion model, we target IMU bias explicitly, which allows us to generalize to locomotion patterns unseen in training. We show that our proposed method improves state estimation in visually challenging situations across a wide range of motions by quadrupedal robots, walking humans, and drones. Our experiments show an average 15% reduction in drift rate, with much larger reductions when there is total vision failure. Importantly, we also demonstrate that models trained with one locomotion pattern (human walking) can be applied to another (quadruped robot trotting) without retraining.
translated by 谷歌翻译
Compared to regular cameras, Dynamic Vision Sensors or Event Cameras can output compact visual data based on a change in the intensity in each pixel location asynchronously. In this paper, we study the application of current image-based SLAM techniques to these novel sensors. To this end, the information in adaptively selected event windows is processed to form motion-compensated images. These images are then used to reconstruct the scene and estimate the 6-DOF pose of the camera. We also propose an inertial version of the event-only pipeline to assess its capabilities. We compare the results of different configurations of the proposed algorithm against the ground truth for sequences of two publicly available event datasets. We also compare the results of the proposed event-inertial pipeline with the state-of-the-art and show it can produce comparable or more accurate results provided the map estimate is reliable.
translated by 谷歌翻译
Event cameras that asynchronously output low-latency event streams provide great opportunities for state estimation under challenging situations. Despite event-based visual odometry having been extensively studied in recent years, most of them are based on monocular and few research on stereo event vision. In this paper, we present ESVIO, the first event-based stereo visual-inertial odometry, which leverages the complementary advantages of event streams, standard images and inertial measurements. Our proposed pipeline achieves temporal tracking and instantaneous matching between consecutive stereo event streams, thereby obtaining robust state estimation. In addition, the motion compensation method is designed to emphasize the edge of scenes by warping each event to reference moments with IMU and ESVIO back-end. We validate that both ESIO (purely event-based) and ESVIO (event with image-aided) have superior performance compared with other image-based and event-based baseline methods on public and self-collected datasets. Furthermore, we use our pipeline to perform onboard quadrotor flights under low-light environments. A real-world large-scale experiment is also conducted to demonstrate long-term effectiveness. We highlight that this work is a real-time, accurate system that is aimed at robust state estimation under challenging environments.
translated by 谷歌翻译
从单眼视频中估算移动摄像头的姿势是一个具有挑战性的问题,尤其是由于动态环境中移动对象的存在,在动态环境中,现有摄像头姿势估计方法的性能易于几何一致的像素。为了应对这一挑战,我们为视频提供了一种强大的密度间接结构,该结构是基于由成对光流初始化的致密对应的。我们的关键想法是将远程视频对应性优化为密集的点轨迹,并使用它来学习对运动分割的强大估计。提出了一种新型的神经网络结构来处理不规则的点轨迹数据。然后,在远程点轨迹的一部分中,通过全局捆绑式调整估算和优化摄像头姿势,这些轨迹被归类为静态。 MPI Sintel数据集的实验表明,与现有最新方法相比,我们的系统产生的相机轨迹明显更准确。此外,我们的方法能够在完全静态的场景上保留相机姿势的合理准确性,该场景始终优于端到端深度学习的强大最新密度对应方法,这证明了密集间接方法的潜力基于光流和点轨迹。由于点轨迹表示是通用的,因此我们进一步介绍了具有动态对象的复杂运动的野外单眼视频的比较。代码可在https://github.com/bytedance/particle-sfm上找到。
translated by 谷歌翻译
In this paper, we present a novel method for integrating 3D LiDAR depth measurements into the existing ORB-SLAM3 by building upon the RGB-D mode. We propose and compare two methods of depth map generation: conventional computer vision methods, namely an inverse dilation operation, and a supervised deep learning-based approach. We integrate the former directly into the ORB-SLAM3 framework by adding a so-called RGB-L (LiDAR) mode that directly reads LiDAR point clouds. The proposed methods are evaluated on the KITTI Odometry dataset and compared to each other and the standard ORB-SLAM3 stereo method. We demonstrate that, depending on the environment, advantages in trajectory accuracy and robustness can be achieved. Furthermore, we demonstrate that the runtime of the ORB-SLAM3 algorithm can be reduced by more than 40 % compared to the stereo mode. The related code for the ORB-SLAM3 RGB-L mode will be available as open-source software under https://github.com/TUMFTM/ORB SLAM3 RGBL.
translated by 谷歌翻译
Accurate localization ability is fundamental in autonomous driving. Traditional visual localization frameworks approach the semantic map-matching problem with geometric models, which rely on complex parameter tuning and thus hinder large-scale deployment. In this paper, we propose BEV-Locator: an end-to-end visual semantic localization neural network using multi-view camera images. Specifically, a visual BEV (Birds-Eye-View) encoder extracts and flattens the multi-view images into BEV space. While the semantic map features are structurally embedded as map queries sequence. Then a cross-model transformer associates the BEV features and semantic map queries. The localization information of ego-car is recursively queried out by cross-attention modules. Finally, the ego pose can be inferred by decoding the transformer outputs. We evaluate the proposed method in large-scale nuScenes and Qcraft datasets. The experimental results show that the BEV-locator is capable to estimate the vehicle poses under versatile scenarios, which effectively associates the cross-model information from multi-view images and global semantic maps. The experiments report satisfactory accuracy with mean absolute errors of 0.052m, 0.135m and 0.251$^\circ$ in lateral, longitudinal translation and heading angle degree.
translated by 谷歌翻译
近年来,无监督的单眼深度和自我运动估计引起了广泛的研究关注。尽管当前的方法达到了高度最高的准确性,但由于训练单眼序列的训练,由于固有的规模模棱两可,它们通常无法学习真实的度量标准。在这项工作中,我们解决了这个问题,并提出了Dynadepth,这是一个新颖的规模感知框架,该框架整合了Vision和IMU运动动力学的信息。具体而言,我们首先提出IMU光度损失和交叉传感器光度一致性损失,以提供密集的监督和绝对尺度。为了完全利用两个传感器的互补信息,我们进一步驱动以相机为中心的扩展Kalman滤波器(EKF),以更新IMU预先整合运动时,在观察视觉测量时。此外,EKF公式可以学习一种自我运动不确定性度量,这对于无监督方法是不平凡的。通过在训练过程中利用IMU,Dynadepth不仅学习了绝对规模,而且还提供了更好的概括能力和稳健性,以防止视力退化,例如照明变化和移动对象。我们通过对Kitti和Make3D数据集进行大量实验和模拟来验证Dynadepth的有效性。
translated by 谷歌翻译