我们提出了一种新颖的方法来重新定位或放置识别,这是许多机器人技术,自动化和AR应用中要解决的基本问题。我们不依靠通常不稳定的外观信息,而是考虑以局部对象形式给出参考图的情况。我们的本地化框架依赖于3D语义对象检测,然后与地图中的对象关联。可能的配对关联集是基于评估空间兼容性的合并度量的层次聚类而生长的。后者特别使用有关​​相对对象配置的信息,该信息相对于全局转换是不变的。随着相机逐步探索环境并检测更多对象,关联集将进行更新和扩展。我们在几种具有挑战性的情况下测试我们的算法,包括动态场景,大型视图变化以及具有重复实例的场景。我们的实验表明,我们的方法在鲁棒性和准确性方面都优于先前的艺术。
translated by 谷歌翻译
视觉同时定位和映射(VSLAM)在计算机视觉和机器人社区中取得了巨大进展,并已成功用于许多领域,例如自主机器人导航和AR/VR。但是,VSLAM无法在动态和复杂的环境中实现良好的定位。许多出版物报告说,通过与VSLAM结合语义信息,语义VSLAM系统具有近年来解决上述问题的能力。然而,尚无关于语义VSLAM的全面调查。为了填补空白,本文首先回顾了语义VSLAM的发展,并明确着眼于其优势和差异。其次,我们探讨了语义VSLAM的三个主要问题:语义信息的提取和关联,语义信息的应用以及语义VSLAM的优势。然后,我们收集和分析已广泛用于语义VSLAM系统的当前最新SLAM数据集。最后,我们讨论未来的方向,该方向将为语义VSLAM的未来发展提供蓝图。
translated by 谷歌翻译
当前的全球本地化描述符通常在巨大的观点或外观变化下挣扎。一种可能的改进是添加有关语义对象的拓扑信息。然而,手工制作的拓扑描述符很难调节,并且对环境噪音,剧烈的透视变化,对象阻塞或错误进行错误而不强大。为了解决这个问题,我们通过将语义有意义的对象星座建模为图形,并使用深图卷积网络将星座映射到描述符来制定基于学习的方法。我们证明了我们深知的星座描述符(描述)在两个现实世界数据集上的有效性。尽管对随机生成的仿真数据集进行了描述培训,但它在现实世界数据集上显示出良好的概括能力。描述还优于最先进的和手工制作的星座描述符在全球本地化上,并且对不同类型的噪声非常有力。该代码可在https://github.com/ethz-asl/descriptellation上公开获得。
translated by 谷歌翻译
在这项工作中,我们探讨了对物体在看不见的世界中同时本地化和映射中的使用,并提出了一个对象辅助系统(OA-Slam)。更确切地说,我们表明,与低级点相比,物体的主要好处在于它们的高级语义和歧视力。相反,要点比代表对象(Cuboid或椭圆形)的通用粗模型具有更好的空间定位精度。我们表明,将点和对象组合非常有趣,可以解决相机姿势恢复的问题。我们的主要贡献是:(1)我们使用高级对象地标提高了SLAM系统的重新定位能力; (2)我们构建了一个能够使用3D椭圆形识别,跟踪和重建对象的自动系统; (3)我们表明,基于对象的本地化可用于重新初始化或恢复相机跟踪。我们的全自动系统允许对象映射和增强姿势跟踪恢复,我们认为这可以极大地受益于AR社区。我们的实验表明,可以从经典方法失败的视点重新定位相机。我们证明,尽管跟踪损失损失,但这种本地化使SLAM系统仍可以继续工作,而这种损失可能会经常发生在不理会的用户中。我们的代码和测试数据在gitlab.inria.fr/tangram/oa-slam上发布。
translated by 谷歌翻译
Object SLAM使用其他语义信息来检测和映射场景中的对象,以提高系统的感知和地图表示功能。四边形和立方体通常用于表示对象,但是它们的单个形状限制了对象图的准确性,从而影响下游任务的应用。在本文中,我们将具有形状参数的超Quadicrics(SQ)引入猛击中以表示对象,并提出了一种单独的参数估计方法,该方法可以准确估算对象姿势并适应不同的形状。此外,我们提出了一种轻巧的数据关联策略,用于将多个视图中的语义观察与对象地标正确关联。我们通过实时性能实施一个单眼语义大满贯系统,并在公共数据集上进行全面的实验。结果表明,我们的方法能够构建准确的对象映射,并且在对象表示中具有优势。代码将在接受后发布。
translated by 谷歌翻译
位置识别是可以协助同时定位和映射(SLAM)进行循环闭合检测和重新定位以进行长期导航的基本模块。在过去的20美元中,该地点认可社区取得了惊人的进步,这吸引了在计算机视觉和机器人技术等多个领域的广泛研究兴趣和应用。但是,在复杂的现实世界情景中,很少有方法显示出有希望的位置识别性能,在复杂的现实世界中,长期和大规模的外观变化通常会导致故障。此外,在最先进的方法之间缺乏集成框架,可以应对所有挑战,包括外观变化,观点差异,对未知区域的稳健性以及现实世界中的效率申请。在这项工作中,我们调查针对长期本地化并讨论未来方向和机会的最先进方法。首先,我们研究了长期自主权中的位置识别以及在现实环境中面临的主要挑战。然后,我们回顾了最新的作品,以应对各种位置识别挑战的不同传感器方式和当前的策略的认可。最后,我们回顾了现有的数据集以进行长期本地化,并为不同的方法介绍了我们的数据集和评估API。本文可以成为该地点识别界新手的研究人员以及关心长期机器人自主权的研究人员。我们还对机器人技术中的常见问题提供了意见:机器人是否需要准确的本地化来实现长期自治?这项工作以及我们的数据集和评估API的摘要可向机器人社区公开,网址为:https://github.com/metaslam/gprs。
translated by 谷歌翻译
尽管外观和观点的显着变化,视觉地点识别(VPR)通常是能够识别相同的地方。 VPR是空间人工智能的关键组成部分,使机器人平台和智能增强平台,例如增强现实设备,以察觉和理解物理世界。在本文中,我们观察到有三个“驱动程序”,它对空间智能代理有所要求,因此vpr系统:1)特定代理包括其传感器和计算资源,2)该代理的操作环境,以及3)人造工具执行的具体任务。在本文中,考虑到这些驱动因素,包括他们的位置代表和匹配选择,在VPR区域中表征和调查关键作品。我们还基于视觉重叠的VPR提供了一种新的VPR - 类似于大脑中的空间视图单元格 - 这使我们能够找到对机器人和计算机视觉领域的其他研究领域的相似之处和差异。我们确定了许多开放的挑战,并建议未来工作需要更深入的关注的领域。
translated by 谷歌翻译
我们提出Automerge,这是一种LIDAR数据处理框架,用于将大量地图段组装到完整的地图中。传统的大规模地图合并方法对于错误的数据关联是脆弱的,并且主要仅限于离线工作。 Automerge利用多观点的融合和自适应环路闭合检测来进行准确的数据关联,并且它使用增量合并来从随机顺序给出的单个轨迹段组装大图,没有初始估计。此外,在组装段后,自动制度可以执行良好的匹配和姿势图片优化,以在全球范围内平滑合并的地图。我们展示了城市规模合并(120公里)和校园规模重复合并(4.5公里x 8)的汽车。该实验表明,自动化(i)在段检索中超过了第二和第三最佳方法的14%和24%的召回,(ii)在120 km大尺度地图组件(III)中实现了可比较的3D映射精度,IT对于暂时的重新审视是强大的。据我们所知,Automerge是第一种映射方法,它可以在无GPS的帮助下合并数百公里的单个细分市场。
translated by 谷歌翻译
This paper presents ORB-SLAM, a feature-based monocular SLAM system that operates in real time, in small and large, indoor and outdoor environments. The system is robust to severe motion clutter, allows wide baseline loop closing and relocalization, and includes full automatic initialization. Building on excellent algorithms of recent years, we designed from scratch a novel system that uses the same features for all SLAM tasks: tracking, mapping, relocalization, and loop closing. A survival of the fittest strategy that selects the points and keyframes of the reconstruction leads to excellent robustness and generates a compact and trackable map that only grows if the scene content changes, allowing lifelong operation. We present an exhaustive evaluation in 27 sequences from the most popular datasets. ORB-SLAM achieves unprecedented performance with respect to other state-of-the-art monocular SLAM approaches. For the benefit of the community, we make the source code public.
translated by 谷歌翻译
目前的大流行使医疗系统在高负荷下运行。为了减轻它,具有高自主权的机器人可用于有效地在医院中执行非接触式操作,并减少医务人员和患者之间的交叉感染。虽然语义同步定位和映射(SLAM)技术可以提高机器人的自主权,但语义对象关联仍然是一个值得研究的问题。解决这个问题的关键是通过使用语义信息来正确地将多个对象标志的对象测量相关联,并实时地改进对象地标的姿势。为此,我们提出了一个分层对象关联策略和姿势改进方法。前者由两个级别组成,即短期对象关联和全球性。在第一级,我们采用短期对象关联的多对象跟踪,通过该关联,可以避免其位置关闭的对象之间的不正确关联。此外,短期对象关联可以在第二级别为全局对象关联的对象姿势提供更丰富的对象外观和更强大的估计。为了在地图中优化对象姿势,我们开发一种方法来选择与对象地标相关联的所有对象测量的最佳对象姿势。该方法在七个模拟医院序列1,真正的医院环境和基蒂数据集中综合评估。实验结果表明,我们的方法在对象关联的鲁棒性和准确性方面显然有所改善,以及语义猛烈的轨迹估计。
translated by 谷歌翻译
本文使用基于实例分割和图形匹配的LIDAR点云进行了极强和轻量级的定位。我们将3D点云建模为在语义上识别的组件的完全连接图,每个顶点对应于对象实例并编码其形状。跨图的最佳顶点关联允许通过测量相似性进行完整的6度自由(DOF)姿势估计和放置识别。这种表示非常简洁,将地图的大小缩合为25倍,而最先进的图像仅需要3KB代表1.4MB激光扫描。我们验证了系统在Semantickitti数据集中的功效,在该数据集中,我们获得了新的最新识别,平均召回了88.4%的召回,而下一个最接近的竞争对手则为64.9%。我们还显示了准确的度量姿势估计性能 - 估计中位误差为10 cm和0.33度的6 -DOF姿势。
translated by 谷歌翻译
3D场景图最近已成为3D环境的强大高级表示。一个3D场景图将环境描述为一个分层图,其中节点在多个级别的抽象和边缘表示概念之间的关系。尽管3D场景图可以用作机器人的高级“心理模型”,但如何实时建立如此丰富的代表仍然是未知的领域。本文描述了一个实时空间感知系统,这是一套算法,可实时从传感器数据构建3D场景图。我们的第一个贡献是开发实时算法,以在机器人探索环境时逐步构建场景图的层。这些算法在当前机器人位置构建了本地欧几里得签名的距离功能(ESDF),从ESDF中提取位置的拓扑图,然后使用受社区检测技术启发的方法将其分为房间。我们的第二个贡献是研究3D场景图中的循环闭合检测和优化。我们表明,3D场景图允许定义层次描述符以进行循环闭合检测;我们的描述符捕获场景图中跨层的统计信息,从低级视觉外观到有关对象和位置的摘要统计信息。然后,我们提出了第一种算法来优化3D场景图,以响应循环封闭。我们的方法依靠嵌入式变形图同时校正场景图的所有层。我们将提出的空间感知系统实施到一个名为Hydra的体系结构中,该体系结合了快速的早期和中级感知过程与较慢的高级感知。我们在模拟和真实数据上评估了Hydra,并证明它能够以与批处理离线方法相当的准确性重建3D场景图,尽管在线运行。
translated by 谷歌翻译
结构从动作(SFM)旨在根据输入图像之间的对应关系恢复3D场景结构和相机姿势,因此,由重复结构(即具有强视觉相似的不同结构)引起的歧义始终导致摄像头的姿势和不正确的相机姿势3D结构。为了处理歧义,大多数现有研究通过分析两种观察几何或特征点来求助于其他约束信息或隐式推理。在本文中,我们建议利用场景中的高级信息,即本地区域的空间上下文信息,以指导重建。具体而言,提出了一种新颖的结构,即{\ textit {track-community}},其中每个社区由一组轨道组成,代表场景中的本地段。社区检测算法用于将场景分为几个部分。然后,通过分析轨道的邻域并通过检查姿势一致性来检测潜在的模棱两可的段。最后,我们对每个段进行部分重建,并将它们与新颖的双向一致性成本函数对齐,该函数考虑了3D-3D对应关系和成对相对摄像头的姿势。实验结果表明,我们的方法可以牢固地减轻视觉上无法区分的结构而导致的重建失败,并准确合并部分重建。
translated by 谷歌翻译
在本文中,我们建议超越建立的基于视觉的本地化方法,该方法依赖于查询图像和3D点云之间的视觉描述符匹配。尽管通过视觉描述符匹配关键点使本地化高度准确,但它具有重大的存储需求,提出了隐私问题,并需要长期对描述符进行更新。为了优雅地应对大规模定位的实用挑战,我们提出了Gomatch,这是基于视觉的匹配的替代方法,仅依靠几何信息来匹配图像键点与地图的匹配,这是轴承矢量集。我们的新型轴承矢量表示3D点,可显着缓解基于几何的匹配中的跨模式挑战,这阻止了先前的工作在现实环境中解决本地化。凭借额外的仔细建筑设计,Gomatch在先前的基于几何的匹配工作中改善了(1067m,95.7升)和(1.43m,34.7摄氏度),平均中位数姿势错误,同时需要7个尺寸,同时需要7片。与最佳基于视觉的匹配方法相比,几乎1.5/1.7%的存储容量。这证实了其对现实世界本地化的潜力和可行性,并为不需要存储视觉描述符的城市规模的视觉定位方法打开了未来努力的大门。
translated by 谷歌翻译
这项工作提出了一种基于场景架构的地点识别的新方法。从深度视频中,我们计算3D模型,我们派生和描述几何图中推导出场景描述符来构成所提出算法的核心的2D地图。所获得的结果表明,对场景外观变化和光变化的效率和鲁棒性。
translated by 谷歌翻译
近年来我们目睹了巨大进展的动机,本文提出了对协作同时定位和映射(C-SLAM)主题的科学文献的调查,也称为多机器人猛击。随着地平线上的自动驾驶车队和工业应用中的多机器人系统的兴起,我们相信合作猛击将很快成为未来机器人应用的基石。在本调查中,我们介绍了C-Slam的基本概念,并呈现了彻底的文献综述。我们还概述了C-Slam在鲁棒性,通信和资源管理方面的主要挑战和限制。我们通过探索该地区目前的趋势和有前途的研究途径得出结论。
translated by 谷歌翻译
地理定位的概念是指确定地球上的某些“实体”的位置的过程,通常使用全球定位系统(GPS)坐标。感兴趣的实体可以是图像,图像序列,视频,卫星图像,甚至图像中可见的物体。由于GPS标记媒体的大规模数据集由于智能手机和互联网而迅速变得可用,而深入学习已经上升以提高机器学习模型的性能能力,因此由于其显着影响而出现了视觉和对象地理定位的领域广泛的应用,如增强现实,机器人,自驾驶车辆,道路维护和3D重建。本文提供了对涉及图像的地理定位的全面调查,其涉及从捕获图像(图像地理定位)或图像内的地理定位对象(对象地理定位)的地理定位的综合调查。我们将提供深入的研究,包括流行算法的摘要,对所提出的数据集的描述以及性能结果的分析来说明每个字段的当前状态。
translated by 谷歌翻译
Using geometric landmarks like lines and planes can increase navigation accuracy and decrease map storage requirements compared to commonly-used LiDAR point cloud maps. However, landmark-based registration for applications like loop closure detection is challenging because a reliable initial guess is not available. Global landmark matching has been investigated in the literature, but these methods typically use ad hoc representations of 3D line and plane landmarks that are not invariant to large viewpoint changes, resulting in incorrect matches and high registration error. To address this issue, we adopt the affine Grassmannian manifold to represent 3D lines and planes and prove that the distance between two landmarks is invariant to rotation and translation if a shift operation is performed before applying the Grassmannian metric. This invariance property enables the use of our graph-based data association framework for identifying landmark matches that can subsequently be used for registration in the least-squares sense. Evaluated on a challenging landmark matching and registration task using publicly-available LiDAR datasets, our approach yields a 1.7x and 3.5x improvement in successful registrations compared to methods that use viewpoint-dependent centroid and "closest point" representations, respectively.
translated by 谷歌翻译
近年来,机器人社区已经广泛检查了关于同时定位和映射应用范围内的地点识别任务的方法。这篇文章提出了一种基于外观的循环闭合检测管道,命名为“fild ++”(快速和增量环闭合检测) .First,系统由连续图像馈送,并且通过通过单个卷积神经网络通过两次,通过单个卷积神经网络来提取全局和局部深度特征。灵活,分级导航的小世界图逐步构建表示机器人遍历路径的可视数据库基于计算的全局特征。最后,每个时间步骤抓取查询映像,被设置为在遍历的路线上检索类似的位置。遵循的图像到图像配对,它利用本地特征来评估空间信息。因此,在拟议的文章中,我们向全球和本地特征提取提出了一个网络与我们之前的一个网络工作(FILD),而在生成的深度本地特征上采用了彻底搜索验证过程,避免利用哈希代码。关于11个公共数据集的详尽实验表现出系统的高性能(实现其中八个的最高召回得分)和低执行时间(在新学院平均22.05毫秒,这是与其他国家相比包含52480图像的最大版本) - 最艺术方法。
translated by 谷歌翻译
保持最新的地图以反映现场的最新变化非常重要,尤其是在涉及在延长环境中操作的机器人重复遍历的情况。未发现的变化可能会导致地图质量恶化,导致本地化差,操作效率低下和机器人丢失。体积方法,例如截断的签名距离功能(TSDF),由于其实时生产致密而详细的地图,尽管在随着时间的推移随着时间的流逝而变化的地图更新仍然是一个挑战,但由于它们的实时生产而迅速获得了吸引力。我们提出了一个框架,该框架引入了一种新颖的概率对象状态表示,以跟踪对象在半静态场景中的姿势变化。该表示为每个对象共同对平稳性评分和TSDF变更度量进行建模。同时加入几何信息和语义信息的贝叶斯更新规则被得出以实现一致的在线地图维护。为了与最先进的方法一起广泛评估我们的方法,我们在仓库环境中发布了一个新颖的现实数据集。我们还评估了公共Toycar数据集。我们的方法优于半静态环境重建质量的最先进方法。
translated by 谷歌翻译