本文介绍了一种新颖的端到端无人空中系统(UAS)导航方法,用于现实世界中的远程视觉导航。受到人类本能的双过程视觉导航系统的启发:环境理解和地标识别,我们将UAS导航任务分为两个相同的阶段。我们的系统结合了增强学习(RL)和图像匹配方法。首先,代理在指定环境中使用RL学习导航策略。为了实现这一目标,我们为培训过程设计了一个交互式的UASNAV环境。一旦代理商学习了导航政策,这意味着“熟悉环境”,我们就让UAS在现实世界中飞行,以使用图像匹配方法识别地标,并根据知识渊博的政策采取行动。在导航过程中,UAS嵌入单个相机作为唯一的视觉传感器。我们证明,UAS可以学习在现实世界中最短的道路上距离起点几百米的目的地。
translated by 谷歌翻译
Two less addressed issues of deep reinforcement learning are (1) lack of generalization capability to new target goals, and (2) data inefficiency i.e., the model requires several (and often costly) episodes of trial and error to converge, which makes it impractical to be applied to real-world scenarios. In this paper, we address these two issues and apply our model to the task of target-driven visual navigation. To address the first issue, we propose an actor-critic model whose policy is a function of the goal as well as the current state, which allows to better generalize. To address the second issue, we propose AI2-THOR framework, which provides an environment with highquality 3D scenes and physics engine. Our framework enables agents to take actions and interact with objects. Hence, we can collect a huge number of training samples efficiently.We show that our proposed method (1) converges faster than the state-of-the-art deep reinforcement learning methods, (2) generalizes across targets and across scenes, (3) generalizes to a real robot scenario with a small amount of fine-tuning (although the model is trained in simulation), ( 4) is end-to-end trainable and does not need feature engineering, feature matching between frames or 3D reconstruction of the environment.The supplementary video can be accessed at the following link: https://youtu.be/SmBxMDiOrvs.
translated by 谷歌翻译
提出了一个新颖的框架,以逐步收集基于标志的图形存储器,并使用收集的内存进行图像目标导航。给定目标图像搜索,具体的机器人利用语义内存在未知环境中找到目标。 %从RGB-D摄像机的全景观察中收集语义图存储器,而无需知道机器人的姿势。在本文中,我们提出了一个拓扑语义图存储(TSGM),该记忆由(1)一个图形构建器组成,该图将观察到的RGB-D图像构造拓扑语义图,(2)横图搅拌器模块,该模块采用该模块收集的节点以获取上下文信息,以及(3)将上下文内存作为输入的内存解码器,以找到对目标的操作。在图像目标导航的任务上,TSGM明显优于成功率的竞争基线,而SPL上的竞争性基线的表现为 +5.0-9.0%,这意味着TSGM可以找到有效的路径。此外,我们在现实世界图像目标方案中在移动机器人上演示了我们的方法。
translated by 谷歌翻译
视觉室内导航(VIN)任务已从数据驱动的机器学习社区中引起了人们的关注,尤其是在最近报告的基于学习方法的成功中。由于这项任务的先天复杂性,研究人员尝试从各种不同角度解决问题,其全部范围尚未在总体报告中捕获。这项调查首先总结了VIN任务的基于学习的方法的代表性工作,然后确定并讨论了阻碍VIN绩效的问题,并激发了值得探索社区的这些关键领域的未来研究。
translated by 谷歌翻译
全球定位系统(GPS)已成为我们日常生活的一部分,其主要目标是提供地理位置服务。对于无人驾驶系统(UAS),地理定位能力是极为重要的必要性,使用惯性导航系统(INS)伴随着GPS的心脏而实现。没有地理位置服务,UAS将无法飞往目的地或回家。不幸的是,GPS信号可能会被堵塞,并在Urban Canyons中遇到多路径问题。我们的目标是提出一种替代方法,以降级或拒绝GPS信号时地理位置化UA。考虑到UAS在其平台上具有下降摄像头,可以在平台飞行时获得实时图像,因此我们将现代深度学习技术应用于地理定位。特别是,我们执行图像匹配,以在UAS获得的图像和卫星正尾之间建立潜在特征共轭物。特征匹配的典型应用遭受高层建筑物和该领域的新结构的影响,这些建筑物将不确定性引入同型估算中,因此导致地理定位性能差。取而代之的是,我们将GIS信息从OpenStreetMap(OSM)提取到语义段匹配的功能中,以纳入建筑物和地形类。 GIS掩码在选择语义匹配的功能时可以作为过滤器,从而增强了Coplanarity条件和UAS地理定位精度。发表论文后,我们的代码将在https://github.com/osupcvlab/ubiheredrone2021上公开获得。
translated by 谷歌翻译
本文提出了一种使用信息理论成本来学习有效地标本地化和探索的连续控制政策的方法。我们考虑一个移动机器人在有限的传感范围内检测地标,并解决学习控制政策的问题,该控制政策最大程度地提高了地标状态与传感器观察之间的相互信息。我们采用Kalman过滤器将地标州的部分可观察到的问题转换为马尔可夫决策过程(MDP),这是一个可区分的视野来塑造奖励,以及基于注意力的神经网络来代表控制策略。除了具有里程碑意义的定位外,该方法通过主动容积映射进一步统一,以促进勘探。与基准方法相比,在几个模拟地标本地化任务中证明了该性能。
translated by 谷歌翻译
在现实世界中经营通常需要代理商来了解复杂的环境,并应用这种理解以实现一系列目标。这个问题被称为目标有条件的强化学习(GCRL),对长地平线的目标变得特别具有挑战性。目前的方法通过使用基于图形的规划算法增强目标条件的策略来解决这个问题。然而,他们努力缩放到大型高维状态空间,并采用用于有效地收集训练数据的探索机制。在这项工作中,我们介绍了继任者功能标志性(SFL),这是一种探索大型高维环境的框架,以获得熟练的政策熟练的策略。 SFL利用继承特性(SF)来捕获转换动态的能力,通过估计状态新颖性来驱动探索,并通过将状态空间作为基于非参数标志的图形来实现高级规划。我们进一步利用SF直接计算地标遍历的目标条件调节策略,我们用于在探索状态空间边缘执行计划“前沿”地标。我们在我们的Minigrid和VizDoom进行了实验,即SFL可以高效地探索大型高维状态空间和优于长地平线GCRL任务的最先进的基线。
translated by 谷歌翻译
实际上,寻求帮助通常比搜索整个空间更有效,以找到一个未知位置的对象。我们提出了一个学习框架,该框架使代理商能够在此类具体的视觉导航任务中积极寻求帮助,其中反馈将其视为目标的位置。为了模仿老师可能并不总是在场的现实情况,我们提出了一项培训课程,而反馈并不总是可用。我们制定了目标的不确定性度量,并使用经验结果表明,通过这种方法,代理商将在没有反馈时保持有效的帮助,同时保持强大的帮助。
translated by 谷歌翻译
目标条件的等级加强学习(HRL)显示了解决复杂和长地平线的rl任务的有希望的结果。然而,目标条件的HRL中高级政策的动作空间通常很大,因此它导致勘探差,导致培训效率低下。在本文中,我们呈现了地标(HIGL)指导的等级强化学习,这是一种培训高级政策的新框架,其具有划分的有希望的国家探索的有希望的国家。 HIGL的关键组成部分是双重的:(a)对勘探和(b)提供信息的采样标志性,鼓励高级政策为选定的地标产生子群。对于(a),我们考虑两个标准:覆盖整个访问的状态空间(即状态的分散)和状态的新颖(即,状态的预测误差)。 for(b),我们选择一个地标作为最短路径中的第一个地标,其节点是地标的图形。我们的实验表明,由于地标引导的有效探索,我们的框架占各种控制权的现有技术。
translated by 谷歌翻译
Development of navigation algorithms is essential for the successful deployment of robots in rapidly changing hazardous environments for which prior knowledge of configuration is often limited or unavailable. Use of traditional path-planning algorithms, which are based on localization and require detailed obstacle maps with goal locations, is not possible. In this regard, vision-based algorithms hold great promise, as visual information can be readily acquired by a robot's onboard sensors and provides a much richer source of information from which deep neural networks can extract complex patterns. Deep reinforcement learning has been used to achieve vision-based robot navigation. However, the efficacy of these algorithms in environments with dynamic obstacles and high variation in the configuration space has not been thoroughly investigated. In this paper, we employ a deep Dyna-Q learning algorithm for room evacuation and obstacle avoidance in partially observable environments based on low-resolution raw image data from an onboard camera. We explore the performance of a robotic agent in environments containing no obstacles, convex obstacles, and concave obstacles, both static and dynamic. Obstacles and the exit are initialized in random positions at the start of each episode of reinforcement learning. Overall, we show that our algorithm and training approach can generalize learning for collision-free evacuation of environments with complex obstacle configurations. It is evident that the agent can navigate to a goal location while avoiding multiple static and dynamic obstacles, and can escape from a concave obstacle while searching for and navigating to the exit.
translated by 谷歌翻译
为了基于深度加强学习(RL)来增强目标驱动的视觉导航的交叉目标和跨场景,我们将信息理论正则化术语引入RL目标。正则化最大化导航动作与代理的视觉观察变换之间的互信息,从而促进更明智的导航决策。这样,代理通过学习变分生成模型来模拟动作观察动态。基于该模型,代理生成(想象)从其当前观察和导航目标的下一次观察。这样,代理学会了解导航操作与其观察变化之间的因果关系,这允许代理通过比较当前和想象的下一个观察来预测导航的下一个动作。 AI2-Thor框架上的交叉目标和跨场景评估表明,我们的方法在某些最先进的模型上获得了平均成功率的10美元。我们进一步评估了我们的模型在两个现实世界中:来自离散的活动视觉数据集(AVD)和带有TurtleBot的连续现实世界环境中的看不见的室内场景导航。我们证明我们的导航模型能够成功实现导航任务这些情景。视频和型号可以在补充材料中找到。
translated by 谷歌翻译
精确农业正在迅速吸引研究,以有效地引入自动化和机器人解决方案,以支持农业活动。葡萄园和果园中的机器人导航在自主监控方面具有竞争优势,并轻松获取农作物来收集,喷涂和执行时必的耗时必要任务。如今,自主导航算法利用了昂贵的传感器,这也需要大量的数据处理计算成本。尽管如此,葡萄园行代表了一个具有挑战性的户外场景,在这种情况下,GPS和视觉进程技术通常难以提供可靠的定位信息。在这项工作中,我们将Edge AI与深度强化学习相结合,以提出一种尖端的轻质解决方案,以解决自主葡萄园导航的问题,而无需利用精确的本地化数据并通过基于灵活的学习方法来克服任务列出的算法。我们训练端到端的感觉运动剂,该端机直接映射嘈杂的深度图像和位置不可稳定的机器人状态信息到速度命令,并将机器人引导到一排的尽头,不断调整其标题以进行无碰撞的无碰撞中央轨迹。我们在现实的模拟葡萄园中进行的广泛实验证明了解决方案的有效性和代理的概括能力。
translated by 谷歌翻译
关键时期是阶段,其中幼儿的大脑在喷射中发展。为促进儿童认知发展,在本阶段至关重要。然而,目前尚不清楚是否存在对AI代理商的培训也存在这种关键时期。与人类幼儿相似,顺序引导和多模式相互作用可能显着提高AI代理的培训效率。为了验证这一假设,我们将此概念调整到AI代理商中学习的关键时期,并调查AI代理人的虚拟环境中的关键时期。我们在加固学习(RL)框架中正规化关键时期和幼儿指导学习。然后,我们建立了一个像veca工具包的幼儿环境,以模仿人类托儿的学习特征。我们研究三个离散的相互互动水平:弱导兵指导(稀疏奖励),中等导师指导(助手奖励)和导师演示(行为克隆)。我们还介绍了由30,000个现实世界图像组成的EAVE数据集,以完全反映幼儿的观点。我们从两个角度评估关键时期对AI代理商的影响:如何以及何时在统一和多式化学习中最佳。我们的实验结果表明,Uni-和多式联运剂,具有中等导师的指导和100万和200万次训练步骤的关键期显示出明显的改进。我们通过在EAVE数据集上传输学习来验证这些结果,并在同一关键时期和指导下找到性能进步。
translated by 谷歌翻译
在这项工作中,我们建立了对砂桩镶嵌的不均匀区域的解说中的自治控制的启发式和学习策略。我们将问题正式化为马尔可夫决策过程,设计了一个演示了代理环境交互的模拟,最后将我们的模拟器与真正的Dozer原型进行了比较。我们使用钢筋学习,行为克隆和对比学习的方法来培训混合政策。我们的培训代理AGPNET达到人力级性能,优于自主分级任务的当前最先进的机器学习方法。此外,我们的代理能够从随机情景中推广到看不见的世界问题。
translated by 谷歌翻译
深度加强学习(DEEPRL)方法已广泛用于机器人学,以了解环境,自主获取行为。深度互动强化学习(Deepirl)包括来自外部培训师或专家的互动反馈,提供建议,帮助学习者选择采取行动以加快学习过程。但是,目前的研究仅限于仅为特工现任提供可操作建议的互动。另外,在单个使用之后,代理丢弃该信息,该用途在为Revisit以相同状态引起重复过程。在本文中,我们提出了广泛的建议(BPA),这是一种广泛的持久的咨询方法,可以保留并重新使用加工信息。它不仅可以帮助培训师提供与类似状态相关的更一般性建议,而不是仅仅是当前状态,而且还允许代理加快学习过程。我们在两个连续机器人场景中测试提出的方法,即购物车极衡任务和模拟机器人导航任务。所得结果表明,使用BPA的代理的性能在于与深层方法相比保持培训师所需的相互作用的数量。
translated by 谷歌翻译
深度强化学习在基于激光的碰撞避免有效的情况下取得了巨大的成功,因为激光器可以感觉到准确的深度信息而无需太多冗余数据,这可以在算法从模拟环境迁移到现实世界时保持算法的稳健性。但是,高成本激光设备不仅很难为大型机器人部署,而且还表现出对复杂障碍的鲁棒性,包括不规则的障碍,例如桌子,桌子,椅子和架子,以及复杂的地面和特殊材料。在本文中,我们提出了一个新型的基于单眼相机的复杂障碍避免框架。特别是,我们创新地将捕获的RGB图像转换为伪激光测量,以进行有效的深度强化学习。与在一定高度捕获的传统激光测量相比,仅包含距离附近障碍的一维距离信息,我们提议的伪激光测量融合了捕获的RGB图像的深度和语义信息,这使我们的方法有效地有效障碍。我们还设计了一个功能提取引导模块,以加重输入伪激光测量,并且代理对当前状态具有更合理的关注,这有利于提高障碍避免政策的准确性和效率。
translated by 谷歌翻译
这项工作研究了图像目标导航问题,需要通过真正拥挤的环境引导具有嘈杂传感器和控制的机器人。最近的富有成效的方法依赖于深度加强学习,并学习模拟环境中的导航政策,这些环境比真实环境更简单。直接将这些训练有素的策略转移到真正的环境可能非常具有挑战性甚至危险。我们用由四个解耦模块组成的分层导航方法来解决这个问题。第一模块在机器人导航期间维护障碍物映射。第二个将定期预测实时地图上的长期目标。第三个计划碰撞命令集以导航到长期目标,而最终模块将机器人正确靠近目标图像。四个模块是单独开发的,以适应真实拥挤的情景中的图像目标导航。此外,分层分解对导航目标规划,碰撞避免和导航结束预测的学习进行了解耦,这在导航训练期间减少了搜索空间,并有助于改善以前看不见的真实场景的概括。我们通过移动机器人评估模拟器和现实世界中的方法。结果表明,我们的方法优于多种导航基线,可以在这些方案中成功实现导航任务。
translated by 谷歌翻译
超声(US)成像通常用于协助诊断和脊柱疾病的干预,而通过手动操作探针进行标准化美国收购需要大量的经验和超声检查的培训。在这项工作中,我们提出了一种新的双代理框架,集成了强化学习(RL)代理和深度学习(DL)代理,以共同确定基于实时超声图像美国探测器的移动,以模拟专家超声检查操作者的决策过程,以实现脊柱超声自主标准视图收购。此外,通过美国传播的性质和脊柱解剖的特性的启发,我们引入一个视图特定的声影奖励利用阴影信息来隐式地引导朝向脊柱的不同标准视图探针的导航。我们的方法在从$ $ 17名志愿者获得的美国经济数据建立了一个模拟环境的定量和定性实验验证。平均导航精度朝向不同的标准视图达到$5.18毫米/ 5.25 ^ \ CIRC $ $和12.87毫米/ 17.49 ^ \ CIRC $在分子内和主体间设置,分别。结果表明,我们的方法可以有效地解释美国的图像和导航探头获取脊柱多种标准的意见。
translated by 谷歌翻译
移动机器人的视觉导航经典通过SLAM加上最佳规划,最近通过实现作为深网络的端到端培训。虽然前者通常仅限于航点计划,但即使在真实的物理环境中已经证明了它们的效率,后一种解决方案最常用于模拟中,但已被证明能够学习更复杂的视觉推理,涉及复杂的语义规则。通过实际机器人在物理环境中导航仍然是一个开放问题。端到端的培训方法仅在模拟中进行了彻底测试,实验涉及实际机器人的实际机器人在简化的实验室条件下限制为罕见的性能评估。在这项工作中,我们对真实物理代理的性能和推理能力进行了深入研究,在模拟中培训并部署到两个不同的物理环境。除了基准测试之外,我们提供了对不同条件下不同代理商培训的泛化能力的见解。我们可视化传感器使用以及不同类型信号的重要性。我们展示了,对于Pointgoal Task,一个代理在各种任务上进行预先培训,并在目标环境的模拟版本上进行微调,可以达到竞争性能,而无需建模任何SIM2重传,即通过直接从仿真部署培训的代理即可一个真正的物理机器人。
translated by 谷歌翻译
The field of autonomous mobile robots has undergone dramatic advancements over the past decades. Despite achieving important milestones, several challenges are yet to be addressed. Aggregating the achievements of the robotic community as survey papers is vital to keep the track of current state-of-the-art and the challenges that must be tackled in the future. This paper tries to provide a comprehensive review of autonomous mobile robots covering topics such as sensor types, mobile robot platforms, simulation tools, path planning and following, sensor fusion methods, obstacle avoidance, and SLAM. The urge to present a survey paper is twofold. First, autonomous navigation field evolves fast so writing survey papers regularly is crucial to keep the research community well-aware of the current status of this field. Second, deep learning methods have revolutionized many fields including autonomous navigation. Therefore, it is necessary to give an appropriate treatment of the role of deep learning in autonomous navigation as well which is covered in this paper. Future works and research gaps will also be discussed.
translated by 谷歌翻译