Visual Place识别(VPR)是机器人平台从其车载摄像机中正确解释视觉刺激的能力,以确定其当前是否位于先前访问的位置,尽管有不同的视点,照明和外观变化。 JPEG是一种广泛使用的图像压缩标准,能够以图像清晰度为代价显着降低图像的大小。对于同时部署多个机器人平台的应用程序,必须在每个机器人之间远程传输收集的视觉数据。因此,可以采用JPEG压缩来大大减少通信渠道传输的数据量,因为可以证明使用有限的带宽为有限的带宽是一项具有挑战性的任务。然而,以前尚未研究JPEG压缩对当前VPR技术性能的影响。因此,本文对与VPR相关方案中的JPEG压缩进行了深入研究。我们在8个数据集上使用一系列已建立的VPR技术,并应用了各种压缩。我们表明,通过引入压缩,VPR性能大大降低,尤其是在较高的压缩频谱中。为了克服JPEG压缩对VPR性能的负面影响,我们提出了一个微调的CNN,该CNN针对JPEG压缩数据进行了优化,并表明其在极度压缩的JPEG图像中检测到的图像转换更加一致。
translated by 谷歌翻译
事件摄像机由于理想的特征,例如高动态范围,低延迟,几乎没有运动模糊和高能量效率而继续引起兴趣。事件摄像机研究的潜在应用之一是在机器人本地化的视觉场所识别中,必须将查询观测值与数据库中的相应参考位置匹配。在这封信中,我们探讨了一小部分像素(在数十个或数百个)中的事件流的独特性。我们证明,当使用在参考集中显示大变化的像素时,积累到事件框架的那些像素位置的事件数量的绝对差异就足以足以进行位置识别任务。使用如此稀疏(图像坐标),但是(对于每个像素位置的事件数量)有变化,可以使位置估计值的频繁和计算廉价更新。此外,当事件帧包含恒定事件的数量时,我们的方法充分利用了感官流的事件驱动性质,并显示出对速度变化的有希望的鲁棒性。我们在户外驾驶场景中评估了布里斯班 - 事件-VPR数据集的建议方法,以及新贡献的室内QCR-Event-VPR数据集,该数据集用安装在移动机器人平台上的Davis346相机捕获。我们的结果表明,与这些数据集上的几种基线方法相比,我们的方法可实现竞争性能,并且特别适合于计算和能源约束的平台,例如星际漫游者。
translated by 谷歌翻译
位置识别是可以协助同时定位和映射(SLAM)进行循环闭合检测和重新定位以进行长期导航的基本模块。在过去的20美元中,该地点认可社区取得了惊人的进步,这吸引了在计算机视觉和机器人技术等多个领域的广泛研究兴趣和应用。但是,在复杂的现实世界情景中,很少有方法显示出有希望的位置识别性能,在复杂的现实世界中,长期和大规模的外观变化通常会导致故障。此外,在最先进的方法之间缺乏集成框架,可以应对所有挑战,包括外观变化,观点差异,对未知区域的稳健性以及现实世界中的效率申请。在这项工作中,我们调查针对长期本地化并讨论未来方向和机会的最先进方法。首先,我们研究了长期自主权中的位置识别以及在现实环境中面临的主要挑战。然后,我们回顾了最新的作品,以应对各种位置识别挑战的不同传感器方式和当前的策略的认可。最后,我们回顾了现有的数据集以进行长期本地化,并为不同的方法介绍了我们的数据集和评估API。本文可以成为该地点识别界新手的研究人员以及关心长期机器人自主权的研究人员。我们还对机器人技术中的常见问题提供了意见:机器人是否需要准确的本地化来实现长期自治?这项工作以及我们的数据集和评估API的摘要可向机器人社区公开,网址为:https://github.com/metaslam/gprs。
translated by 谷歌翻译
尽管外观和观点的显着变化,视觉地点识别(VPR)通常是能够识别相同的地方。 VPR是空间人工智能的关键组成部分,使机器人平台和智能增强平台,例如增强现实设备,以察觉和理解物理世界。在本文中,我们观察到有三个“驱动程序”,它对空间智能代理有所要求,因此vpr系统:1)特定代理包括其传感器和计算资源,2)该代理的操作环境,以及3)人造工具执行的具体任务。在本文中,考虑到这些驱动因素,包括他们的位置代表和匹配选择,在VPR区域中表征和调查关键作品。我们还基于视觉重叠的VPR提供了一种新的VPR - 类似于大脑中的空间视图单元格 - 这使我们能够找到对机器人和计算机视觉领域的其他研究领域的相似之处和差异。我们确定了许多开放的挑战,并建议未来工作需要更深入的关注的领域。
translated by 谷歌翻译
对象编码和识别对于许多机器人任务是至关重要的,例如自主探索和语义重建。现有的作品依赖于检测到的对象的跟踪,但难以准确调用重新审议的对象。在本文中,我们提出了一种新的对象编码方法,基于关键点的图表,该方法被命名为AirCode。为了强大到检测到的关键点的数量,我们提出了一个特征稀疏编码和对象密度编码方法,以确保每个关键点只能影响对象描述符的一小部分,导致对视点变化具有鲁棒性,缩放,闭塞,甚至物体变形。在实验中,我们表明它实现了比最先进的算法的对象识别的卓越性能,并且能够提供可靠的语义重定位化。它是一个即插即用模块,我们希望它将在各种应用中发挥重要作用。
translated by 谷歌翻译
视觉摄像头是超越视觉线(B-VLOS)无人机操作的吸引人的设备,因为它们的尺寸,重量,功率和成本较低,并且可以为GPS失败提供多余的方式。但是,最新的视觉定位算法无法匹配由于照明或观点而导致外观明显不同的视觉数据。本文介绍了Isimloc,这是一种条件/观点一致的层次结构全局重新定位方法。 Isimloc的位置功能可用于在不断变化的外观和观点下搜索目标图像。此外,我们的分层全局重新定位模块以粗到精细的方式完善,使Isimloc可以执行快速准确的估计。我们在一个数据集上评估了我们的方法,其中具有外观变化和一个数据集,该数据集的重点是在复杂的环境中长期飞行进行大规模匹配。在我们的两个数据集中,Isimloc在1.5s推导时间的成功检索率达到88.7 \%和83.8 \%,而使用下一个最佳方法,为45.8%和39.7%。这些结果证明了在各种环境中的强大定位。
translated by 谷歌翻译
近年来我们目睹了巨大进展的动机,本文提出了对协作同时定位和映射(C-SLAM)主题的科学文献的调查,也称为多机器人猛击。随着地平线上的自动驾驶车队和工业应用中的多机器人系统的兴起,我们相信合作猛击将很快成为未来机器人应用的基石。在本调查中,我们介绍了C-Slam的基本概念,并呈现了彻底的文献综述。我们还概述了C-Slam在鲁棒性,通信和资源管理方面的主要挑战和限制。我们通过探索该地区目前的趋势和有前途的研究途径得出结论。
translated by 谷歌翻译
对于仅使用摄像头导航的机器人,室内环境的照明变化可能会导致自动导航期间的重新定位故障。在本文中,我们提出了一种多课程视觉大满贯方法,以在不同的照明条件下创建由相同位置的多个变体制成的地图。然后,可以在一天中的任何小时使用多课程地图,以提高重新定位功能。提出的方法与所使用的视觉特征无关,这是通过比较使用RTAB-MAP库与Surf,Sift,Sift,Sift,Brisk,Brisk,Kaze,Daisy和Superpoint Visual Thristure进行比较的重新定位性能来证明的。该方法在日落期间使用Google Tango手机在真实公寓中以30分钟的时间间隔进行了六次映射和六个本地化课程测试。
translated by 谷歌翻译
近年来,机器人社区已经广泛检查了关于同时定位和映射应用范围内的地点识别任务的方法。这篇文章提出了一种基于外观的循环闭合检测管道,命名为“fild ++”(快速和增量环闭合检测) .First,系统由连续图像馈送,并且通过通过单个卷积神经网络通过两次,通过单个卷积神经网络来提取全局和局部深度特征。灵活,分级导航的小世界图逐步构建表示机器人遍历路径的可视数据库基于计算的全局特征。最后,每个时间步骤抓取查询映像,被设置为在遍历的路线上检索类似的位置。遵循的图像到图像配对,它利用本地特征来评估空间信息。因此,在拟议的文章中,我们向全球和本地特征提取提出了一个网络与我们之前的一个网络工作(FILD),而在生成的深度本地特征上采用了彻底搜索验证过程,避免利用哈希代码。关于11个公共数据集的详尽实验表现出系统的高性能(实现其中八个的最高召回得分)和低执行时间(在新学院平均22.05毫秒,这是与其他国家相比包含52480图像的最大版本) - 最艺术方法。
translated by 谷歌翻译
This paper presents ORB-SLAM, a feature-based monocular SLAM system that operates in real time, in small and large, indoor and outdoor environments. The system is robust to severe motion clutter, allows wide baseline loop closing and relocalization, and includes full automatic initialization. Building on excellent algorithms of recent years, we designed from scratch a novel system that uses the same features for all SLAM tasks: tracking, mapping, relocalization, and loop closing. A survival of the fittest strategy that selects the points and keyframes of the reconstruction leads to excellent robustness and generates a compact and trackable map that only grows if the scene content changes, allowing lifelong operation. We present an exhaustive evaluation in 27 sequences from the most popular datasets. ORB-SLAM achieves unprecedented performance with respect to other state-of-the-art monocular SLAM approaches. For the benefit of the community, we make the source code public.
translated by 谷歌翻译
识别以前访问的位置是自主导航中的一个重要而未解决的任务。当前视觉放置识别(VPR)基准通常挑战模型以从包括空间和时间分量的顺序数据集恢复查询图像(或图像)的位置。最近,回声状态网络(ESN)品种在解决需要时空建模的机器学习任务中被证明特别强大。这些网络是简单的,但功能强大的神经架构 - 在多个时间量表和非线性高维表示上展示内存 - 可以发现数据中的时间关系,同时仍然保持学习的线性。在本文中,我们提出了一系列ESN并分析了他们对VPR问题的适用性。我们报告说,与预处理的卷积神经网络一起添加ESNS导致了与六个标准基准(GardensPoints,Spedtest,Essex3in1,牛津机Robotcar和Nordland)中的五个中的非经常性网络的性能剧烈提升ESN能够捕获VPR问题中固有的时间结构。此外,我们表明包括ESN的模型可以胜过类领先的VPR模型,该模型也利用数据的顺序动态。最后,我们的结果表明ESN还提高了泛化能力,稳健性和准确性,进一步支持其对VPR应用的适用性。
translated by 谷歌翻译
Efficient detection and description of geometric regions in images is a prerequisite in visual systems for localization and mapping. Such systems still rely on traditional hand-crafted methods for efficient generation of lightweight descriptors, a common limitation of the more powerful neural network models that come with high compute and specific hardware requirements. In this paper, we focus on the adaptations required by detection and description neural networks to enable their use in computationally limited platforms such as robots, mobile, and augmented reality devices. To that end, we investigate and adapt network quantization techniques to accelerate inference and enable its use on compute limited platforms. In addition, we revisit common practices in descriptor quantization and propose the use of a binary descriptor normalization layer, enabling the generation of distinctive binary descriptors with a constant number of ones. ZippyPoint, our efficient quantized network with binary descriptors, improves the network runtime speed, the descriptor matching speed, and the 3D model size, by at least an order of magnitude when compared to full-precision counterparts. These improvements come at a minor performance degradation as evaluated on the tasks of homography estimation, visual localization, and map-free visual relocalization. Code and trained models will be released upon acceptance.
translated by 谷歌翻译
我们提出了BioSlam,这是一个终生的SLAM框架,用于逐步学习各种新出现,并在先前访问的地区保持准确的位置识别。与人类不同,人工神经网络遭受灾难性遗忘的困扰,并在接受新来者训练时可能会忘记先前访问的地区。对于人类而言,研究人员发现,大脑中存在一种记忆重播机制,可以使神经元保持活跃。受到这一发现的启发,Bioslam设计了一个封闭式的生成重播,以根据反馈奖励来控制机器人的学习行为。具体而言,BioSlam提供了一种新型的双记忆机制来维护:1)动态记忆有效地学习新观察结果,以及2)平衡新老知识的静态记忆。当与基于视觉/激光雷达的SLAM系统结合使用时,完整的处理管道可以帮助代理逐步更新位置识别能力,从而强大,从而增强长期位置识别的复杂性。我们在两个渐进式猛击场景中展示了Bioslam。在第一种情况下,基于激光雷达的特工不断穿越具有120公里轨迹的城市尺度环境,并遇到了不同类型的3D几何形状(开放街,住宅区,商业建筑)。我们表明,BioSlam可以逐步更新代理商的位置识别能力,并优于最先进的增量方法,即生成重播24%。在第二种情况下,基于激光镜的代理商在4.5公里的轨迹上反复穿越校园规模区域。 Bioslam可以保证在不同外观下的最先进方法上优于15%的地方识别精度。据我们所知,BioSlam是第一个具有记忆力增强的终身大满贯系统,可以帮助长期导航任务中的逐步识别。
translated by 谷歌翻译
本文通过讨论参加了为期三年的SubT竞赛的六支球队的不同大满贯策略和成果,报道了地下大满贯的现状。特别是,本文有四个主要目标。首先,我们审查团队采用的算法,架构和系统;特别重点是以激光雷达以激光雷达为中心的SLAM解决方案(几乎所有竞争中所有团队的首选方法),异质的多机器人操作(包括空中机器人和地面机器人)和现实世界的地下操作(从存在需要处理严格的计算约束的晦涩之处)。我们不会回避讨论不同SubT SLAM系统背后的肮脏细节,这些系统通常会从技术论文中省略。其次,我们通过强调当前的SLAM系统的可能性以及我们认为与一些良好的系统工程有关的范围来讨论该领域的成熟度。第三,我们概述了我们认为是基本的开放问题,这些问题可能需要进一步的研究才能突破。最后,我们提供了在SubT挑战和相关工作期间生产的开源SLAM实现和数据集的列表,并构成了研究人员和从业人员的有用资源。
translated by 谷歌翻译
视觉地点识别(VPR)是一个具有挑战性的任务,具有巨大的计算成本与高识别性能之间的不平衡。由于轻质卷积神经网络(CNNS)和局部聚合描述符(VLAD)层向量的火车能力的实用特征提取能力,我们提出了一种由前部组成的轻量级弱监管的端到端神经网络-anded的感知模型称为ghostcnn和学习的VLAD层作为后端。 Ghostcnn基于幽灵模块,这些模块是基于重量的CNN架构。它们可以使用线性操作而不是传统的卷积过程生成冗余特征映射,从而在计算资源和识别准确性之间进行良好的权衡。为了进一步增强我们提出的轻量级模型,我们将扩张的卷曲添加到Ghost模块中,以获取包含更多空间语义信息的功能,提高准确性。最后,在常用的公共基准和我们的私人数据集上进行的丰富实验验证了所提出的神经网络,分别将VGG16-NetVlad的拖鞋和参数减少了99.04%和80.16%。此外,两种模型都达到了类似的准确性。
translated by 谷歌翻译
兴趣点检测是计算机视觉和图像处理中最根本,最关键的问题之一。在本文中,我们对图像特征信息(IFI)提取技术进行了全面综述,以进行利益点检测。为了系统地介绍现有的兴趣点检测方法如何从输入图像中提取IFI,我们提出了IFI提取技术的分类学检测。根据该分类法,我们讨论了不同类型的IFI提取技术以进行兴趣点检测。此外,我们确定了与现有的IFI提取技术有关的主要未解决的问题,以及以前尚未讨论过的任何兴趣点检测方法。提供了现有的流行数据集和评估标准,并评估和讨论了18种最先进方法的性能。此外,还详细阐述了有关IFI提取技术的未来研究方向。
translated by 谷歌翻译
基于深度学习的视觉位置识别技术近年来将自己作为最先进的技术,并不能很好地概括与训练集在视觉上不同的环境。因此,为了达到最佳性能,有时有必要将网络调整到目标环境中。为此,我们根据同时定位和映射(SLAM)作为监督信号而不需要GPS或手动标记,提出了一个基于强大的姿势图优化的自我监督域校准程序。此外,我们利用该程序来改善在安全关键应用中很重要的位置识别匹配的不确定性估计。我们表明,我们的方法可以改善目标环境与训练集不同的最先进技术的性能,并且我们可以获得不确定性估计。我们认为,这种方法将帮助从业者在现实世界应用中部署健壮的位置识别解决方案。我们的代码公开可用:https://github.com/mistlab/vpr-calibration-and-uncrightity
translated by 谷歌翻译
尽管提取了通过手工制作和基于学习的描述符实现的本地特征的进步,但它们仍然受到不符合非刚性转换的不变性的限制。在本文中,我们提出了一种计算来自静止图像的特征的新方法,该特征对于非刚性变形稳健,以避免匹配可变形表面和物体的问题。我们的变形感知当地描述符,命名优惠,利用极性采样和空间变压器翘曲,以提供旋转,尺度和图像变形的不变性。我们通过将等距非刚性变形应用于模拟环境中的对象作为指导来提供高度辨别的本地特征来培训模型架构端到端。该实验表明,我们的方法优于静止图像中的实际和现实合成可变形对象的不同数据集中的最先进的手工制作,基于学习的图像和RGB-D描述符。描述符的源代码和培训模型在https://www.verlab.dcc.ufmg.br/descriptors/neUrips2021上公开可用。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
在这项研究中,我们提出了一种新型的视觉定位方法,以根据RGB摄像机的可视数据准确估计机器人在3D激光镜头内的六个自由度(6-DOF)姿势。使用基于先进的激光雷达的同时定位和映射(SLAM)算法,可获得3D地图,能够收集精确的稀疏图。将从相机图像中提取的功能与3D地图的点进行了比较,然后解决了几何优化问题,以实现精确的视觉定位。我们的方法允许使用配备昂贵激光雷达的侦察兵机器人一次 - 用于映射环境,并且仅使用RGB摄像头的多个操作机器人 - 执行任务任务,其本地化精度高于常见的基于相机的解决方案。该方法在Skolkovo科学技术研究所(Skoltech)收集的自定义数据集上进行了测试。在评估本地化准确性的过程中,我们设法达到了厘米级的准确性;中间翻译误差高达1.3厘米。仅使用相机实现的确切定位使使用自动移动机器人可以解决需要高度本地化精度的最复杂的任务。
translated by 谷歌翻译