准确而健壮的本地化是移动代理的基本需求。视觉惯性进程(VIO)算法将信息从摄像机和惯性传感器中利用到估计位置和翻译。最近基于深度学习的VIO模型以数据驱动的方式提供姿势信息,而无需设计手工制作的算法,因此吸引了注意力。现有的基于学习的VIO模型依赖于经常性模型来融合多模式数据和过程传感器信号,这些模型很难训练并且不够有效。我们提出了一个基于学习的新型VIO框架,并有效地结合了视觉和惯性特征,以供各州估计。我们提出的模型也能够准确,稳健地估计,即使在具有挑战性的情况下,例如在阴天和充满水的地面上,对于传统的Vio算法而言,这很难提取视觉特征。实验验证了它在不同场景中的表现优于传统和基于学习的VIO基线。
translated by 谷歌翻译
本文提出了一种轻巧,有效的校准神经网络模型,用于降低低成本微电力系统(MEMS)陀螺仪,并实时估算机器人的态度。关键思想是从惯性测量单元(IMU)测量的时间窗口中提取本地和全局特征,以动态地回归陀螺仪的输出补偿组件。遵循精心推导的数学校准模型,LGC-NET利用深度可分离的卷积捕获截面特征并减少网络模型参数。较大的内核注意力旨在更好地学习远程依赖性和特征表示。在EUROC和TUM-VI数据集中评估了所提出的算法,并在具有更轻巧模型结构的(看不见的)测试序列上实现了最先进的测试。尽管它不采用视觉传感器,但与我们的LGC-NET的估计取向与排名最高的视觉惯性探针系统相当。我们在:https://github.com/huazai665/lgc-net上进行开源方法
translated by 谷歌翻译
通过实现复杂场景实现长期漂移相机姿势估计的目标,我们提出了一种全球定位框架,融合了多层的视觉,惯性和全球导航卫星系统(GNSS)测量。不同于以前的松散和紧密耦合的方法,所提出的多层融合允许我们彻底校正视觉测量仪的漂移,并在GNSS降解时保持可靠的定位。特别地,通过融合GNSS的速度,在紧紧地集成的情况下,解决视觉测量测量测量测量率和偏差估计中的尺度漂移和偏差估计的问题的问题,惯性测量单元(IMU)的预集成以及紧密相机测量的情况下 - 耦合的方式。在外层中实现全局定位,其中局部运动进一步与GNSS位置和基于长期时期的过程以松散耦合的方式融合。此外,提出了一种专用的初始化方法,以保证所有状态变量和参数的快速准确估计。我们为室内和室外公共数据集提供了拟议框架的详尽测试。平均本地化误差减少了63%,而初始化精度与最先进的工程相比,促销率为69%。我们已将算法应用于增强现实(AR)导航,人群采购高精度地图更新等大型应用。
translated by 谷歌翻译
由于低成本的惯性传感器误差积累,行人死的估算是一项具有挑战性的任务。最近的研究表明,深度学习方法可以在处理此问题时获得令人印象深刻的性能。在这封信中,我们使用基于深度学习的速度估计方法提出了惯性的进程。基于RES2NET模块和两个卷积块注意模块的深神经网络被利用,以恢复智能手机的水平速度矢量与原始惯性数据之间的潜在连接。我们的网络仅使用百分之五十的公共惯性探子仪数据集(RONIN)数据进行培训。然后,在Ronin测试数据集和另一个公共惯性探针数据集(OXIOD)上进行了验证。与传统的阶梯长度和基于标题的基于系统的算法相比,我们的方法将绝对翻译误差(ATE)降低了76%-86%。此外,与最先进的深度学习方法(Ronin)相比,我们的方法将其ATE提高了6%-31.4%。
translated by 谷歌翻译
可视化内径(VO)用于许多应用,包括机器人和自主系统。但是,基于特征匹配的传统方法是计算昂贵的,而不是直接解决故障情况,而是依赖于启发式方法来检测失败。在这项工作中,我们提出了一种基于深度学习的VO模型,以有效地估计6 DOF姿势,以及这些估计的置信模型。我们利用CNN - RNN混合模型从图像序列学习特征表示。然后,我们采用混合密度网络(MDN),其估计相机运动作为高斯的混合,基于提取的时空表示。我们的模型使用姿势标签作为监督源,但以无人监督的方式源性不确定性。我们评估基提和NUSCENES数据集的提出模型,并报告广泛的定量和定性结果,以分析姿势和不确定性估计的性能。我们的实验表明,除了使用预测的姿态不确定性检测故障情况之外,该建议的模型还超过了最先进的性能。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
视觉内径(VO)估计是车辆状态估计和自主驾驶的重要信息来源。最近,基于深度学习的方法已经开始出现在文献中。但是,在驾驶的背景下,由于环境因素,摄像机放置等因素而导致的图像质量降低,单个传感器的方法通常容易出现故障。要解决这个问题,我们提出了一个深度传感器融合框架,其使用两者估计车辆运动来自多个板上摄像头的姿势和不确定性估计。我们使用混合CNN - RNN模型从一组连续图像中提取短时间形特征表示。然后,我们利用混合密度网络(MDN)来估计作为分布的混合和融合模块的6-DOF姿势,以使用来自多摄像机的MDN输出来估计最终姿势。我们在公开的大规模自动车辆数据集,Nuscenes上评估我们的方法。结果表明,与基于相机的估计相比,所提出的融合方法超越了最先进的,并提供了坚固的估计和准确的轨迹。
translated by 谷歌翻译
在本文中,我们介绍了一种新的端到端学习的LIDAR重新定位框架,被称为Pointloc,其仅使用单点云直接姿势作为输入,不需要预先构建的地图。与RGB基于图像的重建化相比,LIDAR帧可以提供有关场景的丰富和强大的几何信息。然而,LIDAR点云是无序的并且非结构化,使得难以为此任务应用传统的深度学习回归模型。我们通过提出一种具有自我关注的小说点风格架构来解决这个问题,从而有效地估计660 {\ DEG} LIDAR输入框架的6-DOF姿势。关于最近发布的巨大恐怖雷达机器人数据集和现实世界机器人实验的扩展实验表明ProposedMethod可以实现准确的重定位化性能。
translated by 谷歌翻译
Visual Inertial Odometry (VIO) is one of the most established state estimation methods for mobile platforms. However, when visual tracking fails, VIO algorithms quickly diverge due to rapid error accumulation during inertial data integration. This error is typically modeled as a combination of additive Gaussian noise and a slowly changing bias which evolves as a random walk. In this work, we propose to train a neural network to learn the true bias evolution. We implement and compare two common sequential deep learning architectures: LSTMs and Transformers. Our approach follows from recent learning-based inertial estimators, but, instead of learning a motion model, we target IMU bias explicitly, which allows us to generalize to locomotion patterns unseen in training. We show that our proposed method improves state estimation in visually challenging situations across a wide range of motions by quadrupedal robots, walking humans, and drones. Our experiments show an average 15% reduction in drift rate, with much larger reductions when there is total vision failure. Importantly, we also demonstrate that models trained with one locomotion pattern (human walking) can be applied to another (quadruped robot trotting) without retraining.
translated by 谷歌翻译
我们提出了一种准确而坚固的多模态传感器融合框架,Metroloc,朝着最极端的场景之一,大规模地铁车辆本地化和映射。 Metroloc在以IMU为中心的状态估计器上构建,以较轻耦合的方法紧密地耦合光检测和测距(LIDAR),视觉和惯性信息。所提出的框架由三个子模块组成:IMU Odometry,LiDar - 惯性内径术(LIO)和视觉惯性内径(VIO)。 IMU被视为主要传感器,从LIO和VIO实现了从LIO和VIO的观察,以限制加速度计和陀螺仪偏差。与以前的点LIO方法相比,我们的方法通过将线路和平面特征引入运动估计来利用更多几何信息。 VIO还通过使用两条线和点来利用环境结构信息。我们所提出的方法在具有维护车辆的长期地铁环境中广泛测试。实验结果表明,该系统比使用实时性能的最先进的方法更准确和强大。此外,我们开发了一系列虚拟现实(VR)应用,以实现高效,经济,互动的轨道车辆状态和轨道基础设施监控,已经部署到室外测试铁路。
translated by 谷歌翻译
运动估计方法通常采用传感器融合技术(例如Kalman滤波器)来处理单个传感器故障。最近,已经提出了基于深度学习的融合方法,提高了性能并需要更少的模型特定实现。但是,当前的深融合方法通常认为传感器是同步的,这并不总是实用的,尤其是对于低成本硬件。为了解决这一局限性,在这项工作中,我们提出了AFT-VO,这是一种新型的基于变压器的传感器融合体系结构,以估算来自多个传感器的VO。我们的框架结合了异步多视觉摄像机的预测,并说明了来自不同来源的测量值的时间差异。我们的方法首先采用混合密度网络(MDN)来估计系统中每个相机的6-DOF姿势的概率分布。然后引入了一个新型的基于变压器的融合模块AFT-VO,该模块结合了这些异步姿势估计以及它们的信心。更具体地说,我们引入了离散器和源编码技术,该技术使多源异步信号的融合。我们在流行的Nuscenes和Kitti数据集上评估了我们的方法。我们的实验表明,用于VO估计的多视图融合提供了强大而准确的轨迹,在挑战性的天气和照明条件下都超过了艺术的表现。
translated by 谷歌翻译
本文介绍了一个多模式的室内轨道图数据集,Odombeyondvision,具有不同频谱的多个传感器,并使用不同的移动平台收集。Odombeyondvision不仅包含传统的导航传感器,例如IMUS,机械激光镜,RGBD摄像头,还包括几个新兴传感器,例如单芯片MMWave Radar,LWIR热相机和固态激光雷达。在无人机,UGV和手持式平台上的上述传感器中,我们分别记录了各种室内场景和不同照明条件的多模式探光数据及其运动轨迹。我们释放了示例雷达,雷达惯性和热惯性循环仪的实现,以证明其未来工作的结果,以对其进行比较和改进。包括工具包和文档在内的完整数据集可公开可用:https://github.com/maps-lab/odombeyondvision。
translated by 谷歌翻译
视觉惯性化学测定法吸引了自主驾驶和机器人技术领域的广泛关注。视场(FOV)的大小在视觉播音(VO)和视觉惯性二次测量法(VO)中起着重要作用,作为大型FOV,可以感知各种周围的场景元素和特征。但是,当摄像机的字段到达负半平面时,就不能简单地使用[u,v,1]^t来表示图像特征点。为了解决这个问题,我们建议LF-VIO,这是一个具有极大FOV的相机的实时VIO框架。我们利用具有单位长度的三维矢量来表示特征点,并设计一系列算法来克服这一挑战。为了解决带有地位的位置和姿势的全景视觉探针数据集的稀缺性,我们介绍了Palvio数据集,该数据集用具有360 {\ deg} x的整个FOV的全景环形镜头(PAL)系统收集(40 {\ deg}) -120 {\ deg})和IMU传感器。有了全面的实验,在已建立的Palvio基准和公共Fisheye摄像机数据集上验证了建议的LF-VIO,其FOV为360 {\ deg} x(0 {\ deg} -93.5 {\ deg})。 LF-VIO优于最先进的视觉惯性 - 调节法。我们的数据集和代码可在https://github.com/flysoaryun/lf-vio上公开提供。
translated by 谷歌翻译
在本文中,引入了一种新颖的解决方案,用于由深度学习组件构建的视觉同时定位和映射(VSLAM)。所提出的体系结构是一个高度模块化的框架,在该框架中,每个组件在基于视觉的深度学习解决方案的领域中提供了最新的最新技术。该论文表明,通过这些单个构建基块的协同整合,可以创建一个功能高效,有效的全直神经(ATDN)VSLAM系统。引入了嵌入距离损耗函数并使用ATDN体系结构进行了训练。最终的系统在Kitti数据集的子集上设法实现了4.4%的翻译和0.0176 ver/m的旋转误差。所提出的体系结构可用于有效,低延迟的自主驾驶(AD)协助数据库创建以及自动驾驶汽车(AV)控制的基础。
translated by 谷歌翻译
Visual perception plays an important role in autonomous driving. One of the primary tasks is object detection and identification. Since the vision sensor is rich in color and texture information, it can quickly and accurately identify various road information. The commonly used technique is based on extracting and calculating various features of the image. The recent development of deep learning-based method has better reliability and processing speed and has a greater advantage in recognizing complex elements. For depth estimation, vision sensor is also used for ranging due to their small size and low cost. Monocular camera uses image data from a single viewpoint as input to estimate object depth. In contrast, stereo vision is based on parallax and matching feature points of different views, and the application of deep learning also further improves the accuracy. In addition, Simultaneous Location and Mapping (SLAM) can establish a model of the road environment, thus helping the vehicle perceive the surrounding environment and complete the tasks. In this paper, we introduce and compare various methods of object detection and identification, then explain the development of depth estimation and compare various methods based on monocular, stereo, and RDBG sensors, next review and compare various methods of SLAM, and finally summarize the current problems and present the future development trends of vision technologies.
translated by 谷歌翻译
本文首先提出了一个有效的3D点云学习架构,名为PWCLO-NET的LIDAR ODOMORY。在该架构中,提出了3D点云的投影感知表示来将原始的3D点云组织成有序数据表单以实现效率。 LIDAR ODOMOMERY任务的金字塔,翘曲和成本量(PWC)结构是为估计和优化在分层和高效的粗良好方法中的姿势。建立一个投影感知的细心成本卷,以直接关联两个离散点云并获得嵌入运动模式。然后,提出了一种可训练的嵌入掩模来称量局部运动模式以回归整体姿势和过滤异常值点。可训练的姿势经线细化模块迭代地与嵌入式掩码进行分层优化,使姿势估计对异常值更加强大。整个架构是全能优化的端到端,实现成本和掩码的自适应学习,并且涉及点云采样和分组的所有操作都是通过投影感知的3D特征学习方法加速。在Kitti Ocomatry DataSet上证明了我们的激光乐队内径架构的卓越性能和有效性。我们的方法优于基于学习的所有基于学习的方法,甚至基于几何的方法,在大多数基于Kitti Odomatry数据集的序列上具有映射优化的遗传。
translated by 谷歌翻译
单眼视觉惯性进程(VIO)是机器人和自主驾驶中的关键问题。传统方法基于过滤或优化解决了此问题。在完全可解释的同时,他们依靠手动干扰和经验参数调整。另一方面,基于学习的方法可以进行端到端的培训,但需要大量的培训数据来学习数百万个参数。但是,非解剖和重型模型阻碍了概括能力。在本文中,我们提出了一个完全可解释的,可解释的鸟眼视图(BEV),用于具有本地平面运动的机器人的VIO模型,可以在没有深神经网络的情况下进行训练。具体而言,我们首先采用无知的卡尔曼滤波器作为可区分的层来预测音高和滚动,其中学会了噪声的协方差矩阵以滤除IMU原始数据的噪声。其次,采用了精制的音高和滚动,以使用可区分的摄像头投影来检索每个帧的重力对齐的BEV图像。最后,利用可区分的姿势估计器来估计BEV框架之间的剩余3 DOF姿势:导致5 DOF姿势估计。我们的方法允许学习通过姿势估计损失监督的协方差矩阵,表现出优于经验基准的绩效。关于合成和现实世界数据集的实验结果表明,我们的简单方法与最先进的方法具有竞争力,并在看不见的场景上很好地概括了。
translated by 谷歌翻译
Accurate localization ability is fundamental in autonomous driving. Traditional visual localization frameworks approach the semantic map-matching problem with geometric models, which rely on complex parameter tuning and thus hinder large-scale deployment. In this paper, we propose BEV-Locator: an end-to-end visual semantic localization neural network using multi-view camera images. Specifically, a visual BEV (Birds-Eye-View) encoder extracts and flattens the multi-view images into BEV space. While the semantic map features are structurally embedded as map queries sequence. Then a cross-model transformer associates the BEV features and semantic map queries. The localization information of ego-car is recursively queried out by cross-attention modules. Finally, the ego pose can be inferred by decoding the transformer outputs. We evaluate the proposed method in large-scale nuScenes and Qcraft datasets. The experimental results show that the BEV-locator is capable to estimate the vehicle poses under versatile scenarios, which effectively associates the cross-model information from multi-view images and global semantic maps. The experiments report satisfactory accuracy with mean absolute errors of 0.052m, 0.135m and 0.251$^\circ$ in lateral, longitudinal translation and heading angle degree.
translated by 谷歌翻译
在本文中,我们提出了一个旨在进行探测估计的学习动机方法的统一信息理论框架,这是许多机器人技术和视觉任务的关键组成部分,例如导航和虚拟现实,其中需要相对摄像头姿势。我们将此问题提出来优化变分信息瓶颈的目标函数,从而消除了潜在表示中的姿势 - 呈现信息。拟议的框架为信息理论语言中的性能评估和理解提供了优雅的工具。具体而言,我们绑定了深度信息瓶颈框架的概括错误和潜在表示的可预测性。这些不仅提供了绩效保证,还提供了模型设计,样本收集和传感器选择的实用指导。此外,随机潜在表示提供了一种自然的不确定性度量,而无需进行额外的结构或计算。在两个众所周知的探测数据集上进行的实验证明了我们方法的有效性。
translated by 谷歌翻译
农业行业不断寻求农业生产中涉及的不同过程的自动化,例如播种,收获和杂草控制。使用移动自主机器人执行这些任务引起了极大的兴趣。耕地面向同时定位和映射(SLAM)系统(移动机器人技术的关键)面临着艰巨的挑战,这是由于视觉上的难度,这是由于高度重复的场景而引起的。近年来,已经开发了几种视觉惯性遗传(VIO)和SLAM系统。事实证明,它们在室内和室外城市环境中具有很高的准确性。但是,在农业领域未正确评估它们。在这项工作中,我们从可耕地上的准确性和处理时间方面评估了最相关的最新VIO系统,以便更好地了解它们在这些环境中的行为。特别是,该评估是在我们的车轮机器人记录的大豆领域记录的传感器数据集中进行的,该田间被公开发行为Rosario数据集。评估表明,环境的高度重复性外观,崎terrain的地形产生的强振动以及由风引起的叶子的运动,暴露了当前最新的VIO和SLAM系统的局限性。我们分析了系统故障并突出观察到的缺点,包括初始化故障,跟踪损失和对IMU饱和的敏感性。最后,我们得出的结论是,即使某些系统(例如Orb-Slam3和S-MSCKF)在其他系统方面表现出良好的结果,但应采取更多改进,以使其在某些申请中的农业领域可靠,例如作物行的土壤耕作和农药喷涂。 。
translated by 谷歌翻译