通过将从地面视图摄像头拍摄到从卫星或飞机上拍摄的架空图像的图像,通过将代理定位在搜索区域内,将代理定位在搜索区域内,将代理定位在搜索区域中。尽管地面图像和架空图像之间的观点差异使得跨视图地理定位具有挑战性,但假设地面代理可以使用全景相机,则取得了重大进展。例如,我们先前的工作(WAG)引入了搜索区域离散化,训练损失和粒子过滤器加权的变化,从而实现了城市规模的全景跨视图地理定位。但是,由于其复杂性和成本,全景相机并未在现有机器人平台中广泛使用。非Panoramic跨视图地理定位更适用于机器人技术,但也更具挑战性。本文介绍了受限的FOV广泛地理定位(Rewag),这是一种跨视图地理定位方法,通过创建姿势吸引的嵌入并提供将粒子姿势纳入暹罗网络,将其概括为与标准的非填充地面摄像机一起使用,以供与标准的非卧型地面摄像机一起使用。 Rewag是一种神经网络和粒子滤波器系统,能够在GPS下的环境中全球定位移动代理,仅具有探测仪和90度FOV摄像机,其本地化精度与使用全景相机实现并提高本地化精度相似的定位精度与基线视觉变压器(VIT)方法相比,100倍。一个视频亮点,该视频亮点在https://youtu.be/u_obqrt8qce上展示了几十公里的测试路径上的收敛。
translated by 谷歌翻译
跨视图图像地理位置化通过将本地地面图像与高架卫星图像匹配而无需GPS,从而提供了代理的全局位置的估计。可靠地将地面图像与正确的卫星图像相匹配是具有挑战性的,因为这些图像具有显着的视点差异。现有的作品已经证明了在小区域的限制情景中的本地化,但尚未证明更广泛的定位。我们的方法称为广域地理定位(WAG),将神经网络与粒子过滤器相结合,以实现在GPS污染环境中移动的代理的全局位置估计,从而有效地扩展到城市尺度区域。 WAG引入了暹罗网络的三项损失函数,以稳健地匹配非中心的图像对,从而使较小的卫星图像数据库生成,从而使搜索区域的离散化。还提出了一种修改的粒子滤波器加权方案,以提高定位精度和收敛性。综上所述,WAG的网络训练和粒子滤清器加权方法达到了20米的阶段估计精度,与基线训练和加权方法相比,降低了98%。与文献的最新基线相比,WAG应用于较小的测试区域,将最终位置估计误差降低了64%。 WAG的搜索空间离散化可显着减少存储和处理要求。
translated by 谷歌翻译
没有全球导航卫星系统(GNSS)的本地化是无人驾驶汽车(UAVS)自动操作中的关键功能。在已知地图上基于视觉的本地化可以是一个有效的解决方案,但是它受到两个主要问题的负担:根据天气和季节的不同,位置的外观不同,以及无人机相机图像和地图之间的透视差异使匹配变得难以匹配。在这项工作中,我们提出了一种本地化解决方案,该解决方案依靠无人机相机图像匹配,以与训练有素的卷积神经网络模型进行地理参与的正射击图,该模型与相机图像和地图之间的季节性外观差异(冬季夏季)不变。我们将解决方案的收敛速度和本地化精度与六种参考方法进行比较。结果表明,参考方法的重大改善,尤其是在较高的季节性变化下。我们最终证明了该方法成功本地无人机的能力,表明所提出的方法对透视变化是可靠的。
translated by 谷歌翻译
Localization of autonomous unmanned aerial vehicles (UAVs) relies heavily on Global Navigation Satellite Systems (GNSS), which are susceptible to interference. Especially in security applications, robust localization algorithms independent of GNSS are needed to provide dependable operations of autonomous UAVs also in interfered conditions. Typical non-GNSS visual localization approaches rely on known starting pose, work only on a small-sized map, or require known flight paths before a mission starts. We consider the problem of localization with no information on initial pose or planned flight path. We propose a solution for global visual localization on a map at scale up to 100 km2, based on matching orthoprojected UAV images to satellite imagery using learned season-invariant descriptors. We show that the method is able to determine heading, latitude and longitude of the UAV at 12.6-18.7 m lateral translation error in as few as 23.2-44.4 updates from an uninformed initialization, also in situations of significant seasonal appearance difference (winter-summer) between the UAV image and the map. We evaluate the characteristics of multiple neural network architectures for generating the descriptors, and likelihood estimation methods that are able to provide fast convergence and low localization error. We also evaluate the operation of the algorithm using real UAV data and evaluate running time on a real-time embedded platform. We believe this is the first work that is able to recover the pose of an UAV at this scale and rate of convergence, while allowing significant seasonal difference between camera observations and map.
translated by 谷歌翻译
随着自动驾驶行业正在缓慢成熟,视觉地图本地化正在迅速成为尽可能准确定位汽车的标准方法。由于相机或激光镜等视觉传感器返回的丰富数据,研究人员能够构建具有各种细节的不同类型的地图,并使用它们来实现高水平的车辆定位准确性和在城市环境中的稳定性。与流行的SLAM方法相反,视觉地图本地化依赖于预先构建的地图,并且仅通过避免误差积累或漂移来提高定位准确性。我们将视觉地图定位定义为两个阶段的过程。在位置识别的阶段,通过将视觉传感器输出与一组地理标记的地图区域进行比较,可以确定车辆在地图中的初始位置。随后,在MAP指标定位的阶段,通过连续将视觉传感器的输出与正在遍历的MAP的当前区域进行对齐,对车辆在地图上移动时进行了跟踪。在本文中,我们调查,讨论和比较两个阶段的基于激光雷达,基于摄像头和跨模式的视觉图本地化的最新方法,以突出每种方法的优势。
translated by 谷歌翻译
地理定位的概念是指确定地球上的某些“实体”的位置的过程,通常使用全球定位系统(GPS)坐标。感兴趣的实体可以是图像,图像序列,视频,卫星图像,甚至图像中可见的物体。由于GPS标记媒体的大规模数据集由于智能手机和互联网而迅速变得可用,而深入学习已经上升以提高机器学习模型的性能能力,因此由于其显着影响而出现了视觉和对象地理定位的领域广泛的应用,如增强现实,机器人,自驾驶车辆,道路维护和3D重建。本文提供了对涉及图像的地理定位的全面调查,其涉及从捕获图像(图像地理定位)或图像内的地理定位对象(对象地理定位)的地理定位的综合调查。我们将提供深入的研究,包括流行算法的摘要,对所提出的数据集的描述以及性能结果的分析来说明每个字段的当前状态。
translated by 谷歌翻译
这项工作介绍了用于户外机器人技术的视觉跨视图定位。给定一个地面颜色图像和包含本地周围环境的卫星贴片,任务是确定地面摄像头在卫星贴片中的位置。相关工作解决了用于射程传感器(LIDAR,RADAR)的此任务,但对于视觉,仅作为初始跨视图图像检索步骤之后的次要回归步骤。由于还可以通过任何粗糙的本地化(例如,从GPS/GNSS,时间过滤)检索局部卫星贴片,因此我们删除图像检索目标并仅关注度量定位。我们设计了一种具有密集的卫星描述符的新型网络体系结构,在瓶颈处与相似性匹配(而不是图像检索中的输出)以及一个密集的空间分布作为输出,以捕获多模式的定位歧义。我们将使用全局图像描述符的最新回归基线进行比较。关于最近提出的活力和牛津机器人数据集的定量和定性实验结果验证了我们的设计。产生的概率与定位精度相关,甚至可以在未知的方向时大致估计地面摄像头的标题。总体而言,与最先进的面积相比,我们的方法将中值度量定位误差降低了51%,37%和28%,而在同一区域,整个区域和整个时间之间分别概括。
translated by 谷歌翻译
本文解决了基于跨视频的相机本地化(CVL)的问题。任务是通过利用其过去观察结果的信息来定位查询摄像机,即在以前的时间邮票处观察到的图像连续序列,并将它们与大型开销视图卫星图像匹配。该任务的关键挑战是为顺序地面视图图像学习强大的全局功能描述符,同时考虑其与参考卫星图像的域对齐。为此,我们介绍了CVLNET,该CVLNET首先通过探索地面和开头几何对应关系,然后利用预测图像之间的照片一致性来形成全局表示,首先将顺序地面视图图像投射到高架视图中。这样,跨视图域的差异就被桥接了。由于参考卫星图像通常会预先编写并定期采样,因此查询相机位置与其匹配的卫星图像中心之间始终存在未对准。在此激励的情况下,我们建议在相似性匹配之前估算查询摄像机的相对位移对卫星图像。在此位移估计过程中,我们还考虑了相机位置的不确定性。例如,相机不太可能在树上。为了评估所提出方法的性能,我们从Google Map中为Kitti数据集收集卫星图像,并构建一个新的基于跨视频的本地化本地化基准数据集Kitti-CVL。广泛的实验证明了基于视频的本地化对基于单个图像的本地化的有效性以及每个提出的模块比其他替代方案的优越性。
translated by 谷歌翻译
视觉摄像头是超越视觉线(B-VLOS)无人机操作的吸引人的设备,因为它们的尺寸,重量,功率和成本较低,并且可以为GPS失败提供多余的方式。但是,最新的视觉定位算法无法匹配由于照明或观点而导致外观明显不同的视觉数据。本文介绍了Isimloc,这是一种条件/观点一致的层次结构全局重新定位方法。 Isimloc的位置功能可用于在不断变化的外观和观点下搜索目标图像。此外,我们的分层全局重新定位模块以粗到精细的方式完善,使Isimloc可以执行快速准确的估计。我们在一个数据集上评估了我们的方法,其中具有外观变化和一个数据集,该数据集的重点是在复杂的环境中长期飞行进行大规模匹配。在我们的两个数据集中,Isimloc在1.5s推导时间的成功检索率达到88.7 \%和83.8 \%,而使用下一个最佳方法,为45.8%和39.7%。这些结果证明了在各种环境中的强大定位。
translated by 谷歌翻译
本文通过将地面图像与高架视图卫星地图匹配,解决了车辆安装的相机本地化问题。现有方法通常将此问题视为跨视图图像检索,并使用学习的深度特征将地面查询图像与卫星图的分区(例如,小补丁)匹配。通过这些方法,定位准确性受卫星图的分配密度(通常是按数米的顺序)限制。本文偏离了图像检索的传统智慧,提出了一种新的解决方案,可以实现高度准确的本地化。关键思想是将任务提出为构成估计,并通过基于神经网络的优化解决。具体而言,我们设计了一个两分支{CNN},分别从地面和卫星图像中提取可靠的特征。为了弥合巨大的跨视界域间隙,我们求助于基于相对摄像头姿势的几何投影模块,该模块从卫星地图到地面视图。为了最大程度地减少投影功能和观察到的功能之间的差异,我们采用了可区分的Levenberg-Marquardt({lm})模块来迭代地搜索最佳相机。整个管道都是可区分的,并且端到端运行。关于标准自动驾驶汽车定位数据集的广泛实验已经证实了该方法的优越性。值得注意的是,例如,从40m x 40m的宽区域内的相机位置的粗略估计开始,我们的方法迅速降低了新的Kitti Cross-view数据集中的横向位置误差在5m之内。
translated by 谷歌翻译
This work addresses cross-view camera pose estimation, i.e., determining the 3-DoF camera pose of a given ground-level image w.r.t. an aerial image of the local area. We propose SliceMatch, which consists of ground and aerial feature extractors, feature aggregators, and a pose predictor. The feature extractors extract dense features from the ground and aerial images. Given a set of candidate camera poses, the feature aggregators construct a single ground descriptor and a set of rotational equivariant pose-dependent aerial descriptors. Notably, our novel aerial feature aggregator has a cross-view attention module for ground-view guided aerial feature selection, and utilizes the geometric projection of the ground camera's viewing frustum on the aerial image to pool features. The efficient construction of aerial descriptors is achieved by using precomputed masks and by re-assembling the aerial descriptors for rotated poses. SliceMatch is trained using contrastive learning and pose estimation is formulated as a similarity comparison between the ground descriptor and the aerial descriptors. SliceMatch outperforms the state-of-the-art by 19% and 62% in median localization error on the VIGOR and KITTI datasets, with 3x FPS of the fastest baseline.
translated by 谷歌翻译
过去,图像检索是用于跨视图地理位置和无人机视觉本地化任务的主流解决方案。简而言之,图像检索的方式是通过过渡角度获得最终所需的信息,例如GPS。但是,图像检索的方式并非完全端到端。并且有一些多余的操作,例如需要提前准备功能库以及画廊构造的抽样间隔问题,这使得很难实施大规模应用程序。在本文中,我们提出了一个端到端定位方案,使用图像(FPI)查找点,该方案旨在通过源A的图像(无人机 - - 看法)。为了验证我们的框架的可行性,我们构建了一个新的数据集(UL14),该数据集旨在解决无人机视觉自我定位任务。同时,我们还建立了一个基于变压器的基线以实现端到端培训。另外,先前的评估方法不再适用于FPI框架。因此,提出了米级准确性(MA)和相对距离评分(RDS)来评估无人机定位的准确性。同时,我们初步比较了FPI和图像检索方法,而FPI的结构在速度和效率方面都可以提高性能。特别是,由于不同观点与剧烈的空间量表转换之间的巨大差异,FPI的任务仍然是巨大的挑战。
translated by 谷歌翻译
本文提出了一种新颖的地理跟踪方法,即通过在室外环境中进行连续的度量自我定位,通过注册车辆的传感器信息,以看不见的目标区域的空中图像。地理跟踪方法为取代全球导航卫星系统(GNSS)的嘈杂信号提供了潜力,并且昂贵且难以维护通常用于此目的的先前地图。所提出的地理跟踪方法将来自板载摄像机和LiDAR传感器的数据与地理注册的正射击对准,以连续定位车辆。我们在公制学习环境中训练模型,以从地面和空中图像中提取视觉特征。地面特征通过激光雷达点投影到自上而下的视角,并与空中特征相匹配,以确定车辆和正射击之间的相对姿势。我们的方法是第一个在端到端可区分模型中使用板载摄像机在看不见的正射击上进行度量自定位。它表现出强烈的概括,对环境的变化是强大的,并且只需要地理姿势作为地面真理。我们在Kitti-360数据集上评估我们的方法,并达到平均绝对位置误差(APE)为0.94m。我们进一步与Kitti Odometry数据集的先前方法进行了比较,并在地理跟踪任务上实现了最新结果。
translated by 谷歌翻译
在这项工作中,我们提出了一个端到端的异质多机器人系统框架,地面机器人能够在高空四个四极管实时创建的语义图中进行本地化,计划和导航。地面机器人在没有任何外部干预的情况下独立选择并解散目标。此外,他们通过使用语义将其本地地图与高架图匹配,执行跨视图本地化。通信主链是机会主义的,并且可以分配,使整个系统除了四型四型GPS之外没有外部基础架构,没有外部基础架构。我们通过在不同环境中的多个实验上执行不同的任务,通过执行不同的任务,对系统进行了广泛的测试。我们的地面机器人在现实世界中最少的干预和96公里的模拟无需干预即可自主行驶以上超过6公里。
translated by 谷歌翻译
本文提出了一个新颖的框架,用于在参考图中对车辆的实时定位和自负跟踪。核心想法是映射车辆观察到的语义对象,并将其注册到参考图中的相应对象。尽管最近的几项作品利用语义信息进行了跨视图本地化,但这项工作的主要贡献是一种视图不变的公式,该方法使该方法直接适用于可检测到对象的任何观点配置。另一个独特的特征是,由于适用于极端异常相群方案的数据关联方案,环境/对象变化的鲁棒性(例如,关联离群值90%)。为了展示我们的框架,我们考虑了仅使用汽车作为对象将地面车辆定位在参考对象图中的示例。虽然仅使用立体声摄像头用于接地车辆,但我们考虑使用立体声摄像机和激光扫描从地面观点构建了先验地图,并在不同日期捕获的地理参与的空中图像以证明框架对不同方式,观点和观点和观点和观点,观点和观点的稳健性,环境变化。对Kitti数据集的评估表明,在3.7 km的轨迹上,本地化发生在36秒内,其次是在激光雷达参考图中的平均位置误差为8.5 m,在空中对象图中的平均位置误差为8.5 m,其中77%对象是离群值,在71秒内实现定位,平均位置误差为7.9 m。
translated by 谷歌翻译
自动驾驶汽车的现有空间定位技术主要使用预先建造的3D-HD地图,通常使用调查级3D映射车制造,这不仅昂贵,而且还费力。本文表明,通过使用现成的高清卫星图像作为现成的地图,我们能够实现跨视图的定位,直至令人满意的精度,从而提供了更便宜,更实用的方法本土化。尽管将卫星图像用于跨视图本地化的想法并不是什么新鲜事物,但以前的方法几乎只将任务视为图像检索,即将车辆捕获的地面视图与卫星图像匹配。本文提出了一种新颖的跨视图定位方法,该方法与图像检索的共同智慧背道而驰。具体而言,我们的方法开发(1)几何形状 - 分配特征提取器(GAFE),该提取器(GAFE)利用了3D点来弥合地面视图和高架视图之间的几何差距,(2)采用三重态分支,以鼓励姿势感知的特征提取,(3)使用Levenberg-Marquardt(LM)算法的递归姿势精炼分支(RPRB),将初始姿势与真实车辆的效果对齐。我们的方法在Kitti和Ford Multi-AV季节性数据集上被验证为地面视图和Google Maps作为卫星视图。结果表明,我们的方法在跨视图定位方面具有优势,分别在1米和$ 2^\ circ $之内与空间和角度误差。该代码将公开可用。
translated by 谷歌翻译
位置识别是可以协助同时定位和映射(SLAM)进行循环闭合检测和重新定位以进行长期导航的基本模块。在过去的20美元中,该地点认可社区取得了惊人的进步,这吸引了在计算机视觉和机器人技术等多个领域的广泛研究兴趣和应用。但是,在复杂的现实世界情景中,很少有方法显示出有希望的位置识别性能,在复杂的现实世界中,长期和大规模的外观变化通常会导致故障。此外,在最先进的方法之间缺乏集成框架,可以应对所有挑战,包括外观变化,观点差异,对未知区域的稳健性以及现实世界中的效率申请。在这项工作中,我们调查针对长期本地化并讨论未来方向和机会的最先进方法。首先,我们研究了长期自主权中的位置识别以及在现实环境中面临的主要挑战。然后,我们回顾了最新的作品,以应对各种位置识别挑战的不同传感器方式和当前的策略的认可。最后,我们回顾了现有的数据集以进行长期本地化,并为不同的方法介绍了我们的数据集和评估API。本文可以成为该地点识别界新手的研究人员以及关心长期机器人自主权的研究人员。我们还对机器人技术中的常见问题提供了意见:机器人是否需要准确的本地化来实现长期自治?这项工作以及我们的数据集和评估API的摘要可向机器人社区公开,网址为:https://github.com/metaslam/gprs。
translated by 谷歌翻译
The field of autonomous mobile robots has undergone dramatic advancements over the past decades. Despite achieving important milestones, several challenges are yet to be addressed. Aggregating the achievements of the robotic community as survey papers is vital to keep the track of current state-of-the-art and the challenges that must be tackled in the future. This paper tries to provide a comprehensive review of autonomous mobile robots covering topics such as sensor types, mobile robot platforms, simulation tools, path planning and following, sensor fusion methods, obstacle avoidance, and SLAM. The urge to present a survey paper is twofold. First, autonomous navigation field evolves fast so writing survey papers regularly is crucial to keep the research community well-aware of the current status of this field. Second, deep learning methods have revolutionized many fields including autonomous navigation. Therefore, it is necessary to give an appropriate treatment of the role of deep learning in autonomous navigation as well which is covered in this paper. Future works and research gaps will also be discussed.
translated by 谷歌翻译
准确的本地化是大多数机器人任务的关键要求。现有工作的主体集中在被动定位上,其中假定了机器人的动作,从而从对抽样信息性观察的影响中抽象出来。尽管最近的工作表明学习动作的好处是消除机器人的姿势,但这些方法仅限于颗粒状的离散动作,直接取决于全球地图的大小。我们提出了主动粒子滤网网络(APFN),这种方法仅依赖于本地信息来进行可能的评估以及决策。为此,我们将可区分的粒子过滤器与加固学习剂进行了介绍,该材料会参与地图中最相关的部分。最终的方法继承了粒子过滤器的计算益处,并且可以直接在连续的动作空间中起作用,同时保持完全可区分,从而端到端优化以及对输入模式的不可知。我们通过在现实世界3D扫描公寓建造的影像现实主义室内环境中进行广泛的实验来证明我们的方法的好处。视频和代码可在http://apfn.cs.uni-freiburg.de上找到。
translated by 谷歌翻译
深神经网络(DNNS)是在存在多路径和非线视线错误的情况下定位全局导航卫星系统(GNSS)的有前途的工具,这是由于它们使用数据建模复杂错误的能力。但是,为GNSS定位开发DNN提出了各种挑战,例如1)由于卫星可见性的变化和,在全球范围内测量和位置值的差异很大而导致的数值和位置值差异很大,数量和位置值差。 3)过度适合可用数据。在这项工作中,我们解决了上述挑战,并通过将基于DNN的校正应用于初始位置猜测,提出了GNSS定位的方法。我们的DNN学会了使用伪残留物和卫星视线向量作为输入来输出位置校正。这些输入和输出值的有限变化可改善我们DNN的数值条件。我们设计了DNN体系结构,以结合可用GNSS测量的信息,这些信息通过利用基于设定的深度学习方法的最新进步,在数量和顺序上不同。此外,我们提出了一种数据增强策略,用于通过随机将初始位置猜测随机减少DNN中的过度拟合。我们首先执行模拟,并在应用基于DNN的校正时显示出初始定位误差的改进。此后,我们证明我们的方法在现实世界数据上的表现优于WLS基线。我们的实施可在github.com/stanford-navlab/deep_gnss上获得。
translated by 谷歌翻译