Global localisation from visual data is a challenging problem applicable to many robotics domains. Prior works have shown that neural networks can be trained to map images of an environment to absolute camera pose within that environment, learning an implicit neural mapping in the process. In this work we evaluate the applicability of such an approach to real-world robotics scenarios, demonstrating that by constraining the problem to 2-dimensions and significantly increasing the quantity of training data, a compact model capable of real-time inference on embedded platforms can be used to achieve localisation accuracy of several centimetres. We deploy our trained model onboard a UGV platform, demonstrating its effectiveness in a waypoint navigation task. Along with this work we will release a novel localisation dataset comprising simulated and real environments, each with training samples numbering in the tens of thousands.
translated by 谷歌翻译
在这项研究中,我们提出了一种新型的视觉定位方法,以根据RGB摄像机的可视数据准确估计机器人在3D激光镜头内的六个自由度(6-DOF)姿势。使用基于先进的激光雷达的同时定位和映射(SLAM)算法,可获得3D地图,能够收集精确的稀疏图。将从相机图像中提取的功能与3D地图的点进行了比较,然后解决了几何优化问题,以实现精确的视觉定位。我们的方法允许使用配备昂贵激光雷达的侦察兵机器人一次 - 用于映射环境,并且仅使用RGB摄像头的多个操作机器人 - 执行任务任务,其本地化精度高于常见的基于相机的解决方案。该方法在Skolkovo科学技术研究所(Skoltech)收集的自定义数据集上进行了测试。在评估本地化准确性的过程中,我们设法达到了厘米级的准确性;中间翻译误差高达1.3厘米。仅使用相机实现的确切定位使使用自动移动机器人可以解决需要高度本地化精度的最复杂的任务。
translated by 谷歌翻译
我们考虑将移动机器人导航到具有视觉传感器的未知环境中的问题,在该环境中,机器人和传感器都无法访问全局定位信息,并且仅使用第一人称视图图像。虽然基于传感器网络的先前工作使用明确的映射和计划技术,并且经常得到外部定位系统的帮助,但我们提出了一种基于视觉的学习方法,该方法利用图形神经网络(GNN)来编码和传达相关的视点信息到移动机器人。在导航期间,机器人以模型为指导,我们通过模仿学习训练以近似最佳的运动原语,从而预测有效的成本(目标)。在我们的实验中,我们首先证明了具有各种传感器布局的以前看不见的环境的普遍性。仿真结果表明,通过利用传感器和机器人之间的通信,我们可以达到$ 18.1 \%$ $的成功率,同时将路径弯路的平均值降低$ 29.3 \%$,并且可变性降低了$ 48.4 \%$ $。这是在不需要全局地图,定位数据或传感器网络预校准的情况下完成的。其次,我们将模型从模拟到现实世界进行零拍传输。为此,我们训练一个“翻译器”模型,该模型在{}真实图像和模拟图像之间转换,以便可以直接在真实的机器人上使用导航策略(完全在模拟中训练),而无需其他微调。 。物理实验证明了我们在各种混乱的环境中的有效性。
translated by 谷歌翻译
The field of autonomous mobile robots has undergone dramatic advancements over the past decades. Despite achieving important milestones, several challenges are yet to be addressed. Aggregating the achievements of the robotic community as survey papers is vital to keep the track of current state-of-the-art and the challenges that must be tackled in the future. This paper tries to provide a comprehensive review of autonomous mobile robots covering topics such as sensor types, mobile robot platforms, simulation tools, path planning and following, sensor fusion methods, obstacle avoidance, and SLAM. The urge to present a survey paper is twofold. First, autonomous navigation field evolves fast so writing survey papers regularly is crucial to keep the research community well-aware of the current status of this field. Second, deep learning methods have revolutionized many fields including autonomous navigation. Therefore, it is necessary to give an appropriate treatment of the role of deep learning in autonomous navigation as well which is covered in this paper. Future works and research gaps will also be discussed.
translated by 谷歌翻译
自主场景的曝光和探索,尤其是在本地化或沟通有限的区域,对于在未知场景中寻找目标有用,仍然是计算机导航中的一个具有挑战性的问题。在这项工作中,我们提出了一种用于实时环境探索的新方法,其唯一的要求是一个视觉上相似的数据集,用于预训练,场景中足够的照明以及用于环境感应的机上前瞻性RGB摄像机。与现有方法相反,我们的方法只需要一个外观(图像)才能做出一个良好的战术决定,因此在非成长,恒定的时间内起作用。两个方向的预测以像素为特征,称为goto和lookat像素,包括我们方法的核心。这些像素通过以下方式编码建议的飞行指令:goto像素定义了代理应以一个距离单位移动的方向,而Lookat像素定义了相机应在下一步中指向的方向。这些飞行的指导像素经过优化,以揭示当前未开发的区域的最多数量。我们的方法提出了一种新型的基于深度学习的导航方法,能够解决此问题并在更复杂的设置中证明其能力,即计算能力有限。此外,我们提出了一种生成面向导航数据集的方法,从而可以使用RGB和深度图像对我们的方法有效培训。在模拟器中进行的测试,评估了稀疏像素的推断过程的协调,以及旨在揭示区域并降低目标距离的2D和3D测试飞行取得了令人鼓舞的结果。与最先进的算法的比较表明,我们的方法能够表现出色,在测量每个相机姿势的新体素,最小距离目标距离,所见表面素的百分比和计算时间指标。
translated by 谷歌翻译
昂贵的传感器和低效的算法管道显着影响自动机器的总成本。然而,实惠的机器人解决方案对于实际使用至关重要,其财务影响构成了在大多数申请领域采用服务机器人的基本要求。其中,精密农业领域的研究人员努力设计强大,经济高效的自主平台,以提供真正的大规模竞争解决方案。在本文中,我们提出了一个完整的算法管道,用于基于行的作物自主导航,专门设计用于应对低范围的传感器和季节性变化。首先,我们建立一个强大的数据驱动方法,为自主机器生成一个可行的路径,仅涵盖庄稼的占用网格信息的裁剪的完整扩展。此外,我们的解决方案利用了深入学习优化技术和综合生成数据的最新进步,以提供一种实惠的解决方案,可有效地解决由于植被生长在行的植被而有效地解决了众所周知的全球导航卫星系统不可靠性和降级。对计算机生成的环境和现实世界作物的广泛实验和模拟表明了我们的方法的稳健性和内在的完全平整性,其开辟了高度实惠和完全自主机器的可能性。
translated by 谷歌翻译
In recent decades, several assistive technologies for visually impaired and blind (VIB) people have been developed to improve their ability to navigate independently and safely. At the same time, simultaneous localization and mapping (SLAM) techniques have become sufficiently robust and efficient to be adopted in the development of assistive technologies. In this paper, we first report the results of an anonymous survey conducted with VIB people to understand their experience and needs; we focus on digital assistive technologies that help them with indoor and outdoor navigation. Then, we present a literature review of assistive technologies based on SLAM. We discuss proposed approaches and indicate their pros and cons. We conclude by presenting future opportunities and challenges in this domain.
translated by 谷歌翻译
Based on WHO statistics, many individuals are suffering from visual problems, and their number is increasing yearly. One of the most critical needs they have is the ability to navigate safely, which is why researchers are trying to create and improve various navigation systems. This paper provides a navigation concept based on the visual slam and Yolo concepts using monocular cameras. Using the ORB-SLAM algorithm, our concept creates a map from a predefined route that a blind person most uses. Since visually impaired people are curious about their environment and, of course, to guide them properly, obstacle detection has been added to the system. As mentioned earlier, safe navigation is vital for visually impaired people, so our concept has a path-following part. This part consists of three steps: obstacle distance estimation, path deviation detection, and next-step prediction, done by monocular cameras.
translated by 谷歌翻译
尽管腿部机器人运动取得了进展,但在未知环境中的自主导航仍然是一个空旷的问题。理想情况下,导航系统在不确定性下在安全限制内运行时,利用机器人的运动功能的全部潜力。机器人必须感知和分析周围地形的遍历性,这取决于硬件,运动控制和地形特性。它可能包含有关穿越地形所需的风险,能量或时间消耗的信息。为了避免手工制作的遍历成本功能,我们建议通过使用物理模拟器在随机生成的地形上模拟遍历的遍历策略,以收集有关机器人和运动策略的遍历性信息。在现实中使用的相同的运动策略并行控制了数千个机器人,以获得57年的现实运动体验。对于在Real机器人上的部署,培训了一个稀疏的卷积网络,以预测模拟的遍历性成本,该成本是根据已部署的运动策略量身定制的,它是从环境的完全几何表示,以3D素体占用图的形式。该表示避免了对常用的高程图的需求,在存在悬垂障碍物以及多层或低天花板方案的情况下,这些图形图很容易出错。在各种室内和自然环境中,为腿部机器人Anymal的路径计划证明了拟议的遍历性预测网络的有效性。
translated by 谷歌翻译
本文介绍了Cerberus机器人系统系统,该系统赢得了DARPA Subterranean挑战最终活动。出席机器人自主权。由于其几何复杂性,降解的感知条件以及缺乏GPS支持,严峻的导航条件和拒绝通信,地下设置使自动操作变得特别要求。为了应对这一挑战,我们开发了Cerberus系统,该系统利用了腿部和飞行机器人的协同作用,再加上可靠的控制,尤其是为了克服危险的地形,多模式和多机器人感知,以在传感器退化,以及在传感器退化的条件下进行映射以及映射通过统一的探索路径计划和本地运动计划,反映机器人特定限制的弹性自主权。 Cerberus基于其探索各种地下环境及其高级指挥和控制的能力,表现出有效的探索,对感兴趣的对象的可靠检测以及准确的映射。在本文中,我们报告了DARPA地下挑战赛的初步奔跑和最终奖项的结果,并讨论了为社区带来利益的教训所面临的亮点和挑战。
translated by 谷歌翻译
Camera relocalization involving a prior 3D reconstruction plays a crucial role in many mixed reality and robotics applications. Estimating the camera pose directly with respect to pre-built 3D models can be prohibitively expensive for several applications with limited storage and/or communication bandwidth. Although recent scene and absolute pose regression methods have become popular for efficient camera localization, most of them are computation-resource intensive and difficult to obtain a real-time inference with high accuracy constraints. This study proposes a simple scene regression method that requires only a multi-layer perceptron network for mapping scene coordinates to achieve accurate camera pose estimations. The proposed approach uses sparse descriptors to regress the scene coordinates, instead of a dense RGB image. The use of sparse features provides several advantages. First, the proposed regressor network is substantially smaller than those reported in previous studies. This makes our system highly efficient and scalable. Second, the pre-built 3D models provide the most reliable and robust 2D-3D matches. Therefore, learning from them can lead to an awareness of equivalent features and substantially improve the generalization performance. A detailed analysis of our approach and extensive evaluations using existing datasets are provided to support the proposed method. The implementation detail is available at https://github.com/aislab/feat2map
translated by 谷歌翻译
在本文中,我们介绍了一种新的端到端学习的LIDAR重新定位框架,被称为Pointloc,其仅使用单点云直接姿势作为输入,不需要预先构建的地图。与RGB基于图像的重建化相比,LIDAR帧可以提供有关场景的丰富和强大的几何信息。然而,LIDAR点云是无序的并且非结构化,使得难以为此任务应用传统的深度学习回归模型。我们通过提出一种具有自我关注的小说点风格架构来解决这个问题,从而有效地估计660 {\ DEG} LIDAR输入框架的6-DOF姿势。关于最近发布的巨大恐怖雷达机器人数据集和现实世界机器人实验的扩展实验表明ProposedMethod可以实现准确的重定位化性能。
translated by 谷歌翻译
这项工作研究了图像目标导航问题,需要通过真正拥挤的环境引导具有嘈杂传感器和控制的机器人。最近的富有成效的方法依赖于深度加强学习,并学习模拟环境中的导航政策,这些环境比真实环境更简单。直接将这些训练有素的策略转移到真正的环境可能非常具有挑战性甚至危险。我们用由四个解耦模块组成的分层导航方法来解决这个问题。第一模块在机器人导航期间维护障碍物映射。第二个将定期预测实时地图上的长期目标。第三个计划碰撞命令集以导航到长期目标,而最终模块将机器人正确靠近目标图像。四个模块是单独开发的,以适应真实拥挤的情景中的图像目标导航。此外,分层分解对导航目标规划,碰撞避免和导航结束预测的学习进行了解耦,这在导航训练期间减少了搜索空间,并有助于改善以前看不见的真实场景的概括。我们通过移动机器人评估模拟器和现实世界中的方法。结果表明,我们的方法优于多种导航基线,可以在这些方案中成功实现导航任务。
translated by 谷歌翻译
Figure 1: PoseNet: Convolutional neural network monocular camera relocalization. Relocalization results for an input image (top), the predicted camera pose of a visual reconstruction (middle), shown again overlaid in red on the original image (bottom). Our system relocalizes to within approximately 2m and 6 • for large outdoor scenes spanning 50, 000m 2 . For an online demonstration, please see our project webpage: mi.eng.cam.ac.uk/projects/relocalisation/
translated by 谷歌翻译
在拟议的研究中,我们描述了一种方法,可通过在摄像机和猛击管道之间实现中间层来提高具有多个相机的移动机器人的视觉猛击算法和有限的计算能力的方法。在此层中,图像是使用基于RESNET18的神经网络对机器人定位的适用性进行分类的。该网络接受了在Skolkovo科学技术学院(Skoltech)校园收集的六摄像机数据集培训。对于训练,我们使用与随后的同一相机(“良好”关键点或功能)成功匹配的图像和球形功能。结果表明,网络能够准确地确定Orb-Slam2的最佳图像,并在SLAM管道中实施拟议的方法可以显着增加SLAM算法可以定位的图像数量,并提高其整体鲁棒性,并提高其整体鲁棒性。视觉大满贯。与使用Orb提取器和在CPU操作时使用Orb提取器和功能匹配器相比,操作时间的实验表明,在GPU上运行时,提出的方法的速度至少要快6倍。该网络评估在识别具有大量“良好” ORB关键的图像时至少显示了90%的精度。提出的方法的使用允许通过从具有贫困流的相机切换来保持整个数据集的大量功能。
translated by 谷歌翻译
本文提出了一种新颖的方法,用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分,拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反,该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署,并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划,面向覆盖范围和压缩的拓扑范围的LTVMAP领域,以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用,以在一般的3D环境中可见性受限的知情搜索,而对环境结构没有任何假设,同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道,用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外,在定性和定量评估的各种环境中,在不同的环境中进行了广泛的实验验证,UAV系统的性能得到了支持。
translated by 谷歌翻译
深度学习的关键批评之一是,需要大量昂贵且难以获得的训练数据,以便培训具有高性能和良好的概率功能的模型。专注于通过场景坐标回归(SCR)的单眼摄像机姿势估计的任务,我们描述了一种新的方法,用于相机姿势估计(舞蹈)网络的域改编,这使得培训模型无需访问目标任务上的任何标签。舞蹈需要未标记的图像(没有已知的姿势,订购或场景坐标标签)和空间的3D表示(例如,扫描点云),这两者都可以使用现成的商品硬件最少的努力来捕获。舞蹈渲染从3D模型标记的合成图像,通过应用无监督的图像级域适应技术(未配对图像到图像转换)来桥接合成和实图像之间的不可避免的域间隙。在实际图像上进行测试时,舞蹈培训的SCR模型在成本的一小部分中对其完全监督的对应物(在两种情况下使用PNP-RANSAC进行最终姿势估算的情况下)进行了相当的性能。我们的代码和数据集可以在https://github.com/jacklangerman/dance获得
translated by 谷歌翻译
We present a retrospective on the state of Embodied AI research. Our analysis focuses on 13 challenges presented at the Embodied AI Workshop at CVPR. These challenges are grouped into three themes: (1) visual navigation, (2) rearrangement, and (3) embodied vision-and-language. We discuss the dominant datasets within each theme, evaluation metrics for the challenges, and the performance of state-of-the-art models. We highlight commonalities between top approaches to the challenges and identify potential future directions for Embodied AI research.
translated by 谷歌翻译
Mohamed Bin Zayed国际机器人挑战(MBZIRC)2020为无人机(无人机)构成了不同的挑战。我们提供了四个量身定制的无人机,专门为MBZIRC的单独空中机器人任务开发,包括自定义硬件和软件组件。在挑战1中,使用高效率,车载对象检测管道进行目标UAV,以捕获来自目标UAV的球。第二个UAV使用类似的检测方法来查找和流行散落在整个竞技场的气球。对于挑战2,我们展示了一种能够自主空中操作的更大的无人机:从相机图像找到并跟踪砖。随后,将它们接近,挑选,运输并放在墙上。最后,在挑战3中,我们的UAV自动发现使用LIDAR和热敏摄像机的火灾。它用船上灭火器熄灭火灾。虽然每个机器人都具有任务特定的子系统,但所有无人机都依赖于为该特定和未来竞争开发的标准软件堆栈。我们介绍了我们最开源的软件解决方案,包括系统配置,监控,强大无线通信,高级控制和敏捷轨迹生成的工具。为了解决MBZirc 2020任务,我们在多个研究领域提出了机器视觉和轨迹生成的多个研究领域。我们介绍了我们的科学贡献,这些贡献构成了我们的算法和系统的基础,并分析了在阿布扎比的MBZIRC竞赛2020年的结果,我们的系统在大挑战中达到了第二名。此外,我们讨论了我们参与这种复杂的机器人挑战的经验教训。
translated by 谷歌翻译
农业环境中的自主导航通常受到可能在耕地中可能出现的不同田间条件的挑战。在这些农业环境中自动导航的最新解决方案将需要昂贵的硬件,例如RTK-GPS。本文提出了一种强大的作物排检测算法,该算法可以承受这些变化,同时检测作物行进行视觉伺服。创建了一个糖图像的数据集,其中有43个组合在可耕地中发现的11个田间变化。新型的作物行检测算法既经过作物行检测性能,又要测试沿农作系的视觉伺服伺服的能力。该算法仅使用RGB图像作为输入,并且使用卷积神经网络来预测作物行面罩。我们的算法优于基线方法,该方法使用基于颜色的分割来实现场变化的所有组合。我们使用一个组合性能指标,该指标解释了作物行检测的角度和位移误差。我们的算法在作物的早期生长阶段表现出最差的表现。
translated by 谷歌翻译