我们提出了一种专注于水生导航的安全强化学习的新型基准环境。由于非静止的环境和机器人平台的不确定性,水生导航是一个极具挑战性的任务,因此通过分析训练有素的网络的行为来考虑问题的安全方面至关重要的问题,以避免危险情况(例如,碰撞)。为此,我们考虑基于价值和政策梯度的深度加强学习(DRL),我们提出了一种基于交叉的策略,将基于梯度和梯度的DRL结合以提高样品效率。此外,我们提出了一种基于间隔分析的验证策略,该验证策略检查培训模型在一组所需属性上的行为。我们的结果表明,基于交叉的培训优于先前的DRL方法,而我们的验证允许我们量化违反属性描述的行为的配置数。至关重要,这将作为该应用领域的未来研究的基准。
translated by 谷歌翻译
这项工作调查了基于课程学习(CL)对代理商的绩效的影响。特别是,我们专注于机器人毛美导航的安全方面,比较标准端到端(E2E)培训策略。为此,我们提出了一种方法,即利用学习(tol)和微调在基于团结的模拟中的微调,以及Robotnik Kairos作为机器人代理。对于公平的比较,我们的评估考虑了对每个学习方法的同等计算需求(即,相同的相互作用和环境的难度数),并确认我们基于CL的方法使用TOL优于E2E方法。特别是,我们提高了培训的政策的平均成功率和安全,导致看不见的测试方案中的碰撞减少了10%。为了进一步确认这些结果,我们采用正式的验证工具来量化加强学习政策的正确行为数量超过所需规范。
translated by 谷歌翻译
我们研究了流行的集中训练和分散执行(CTDE)范式中的多机器人发臭导航问题。当每个机器人考虑其路径而不明确地与其他机器人明确分享观察时,这一问题挑战了,可能导致深度加强学习(DRL)中的非静止问题。典型的CTDE算法将联合动作值函数分解为个别函数,以支持合作并实现分散的执行。这种分解涉及限制(例如,单调性),其限制在个体中的新行为的出现,因为从联合动作值开始训练。相比之下,我们为CTDE提出了一种新颖的架构,该架构使用集中式状态值网络来计算联合状态值,该值用于在代理的基于值的更新中注入全局状态信息。因此,考虑到环境的整体状态,每个模型计算其权重的梯度更新。我们的想法遵循Dueling Networks作为联合状态值的单独估计的独立估计,具有提高采样效率的优点,同时提供每个机器人信息,无论全局状态是否为(或不是)有价值的。具有2 4和8个机器人的机器人导航任务的实验,确认了我们对先前CTDE方法的方法的卓越性能(例如,VDN,QMIX)。
translated by 谷歌翻译
深厚的增强学习(DRL)在各种机器人应用中取得了突破性的成功。自然的结果是采用这种范式来进行关键的任务,其中可以涉及人类安全和昂贵的硬件。在这种情况下,至关重要的是优化基于DRL的代理的性能,同时提供其行为的保证。本文提出了一种新型技术,用于将域专家知识纳入受约束的DRL训练环中。我们的技术利用了基于方案的编程范式,该范式旨在以简单而直观的方式指定此类知识。我们验证了有关流行的机器人地图导航问题,模拟和实际平台的方法。我们的实验表明,使用我们的方法利用专家知识极大地提高了代理的安全性和性能。
translated by 谷歌翻译
在本文中,我们研究了DRL算法在本地导航问题的应用,其中机器人仅配备有限​​量距离的外部感受传感器(例如LIDAR),在未知和混乱的工作区中朝着目标位置移动。基于DRL的碰撞避免政策具有一些优势,但是一旦他们学习合适的动作的能力仅限于传感器范围,它们就非常容易受到本地最小值的影响。由于大多数机器人在非结构化环境中执行任务,因此寻求能够避免本地最小值的广义本地导航政策,尤其是在未经训练的情况下,这是非常兴趣的。为此,我们提出了一种新颖的奖励功能,该功能结合了在训练阶段获得的地图信息,从而提高了代理商故意最佳行动方案的能力。另外,我们使用SAC算法来训练我们的ANN,这表明在最先进的文献中比其他人更有效。一组SIM到SIM和SIM到现实的实验表明,我们提出的奖励与SAC相结合的表现优于比较局部最小值和避免碰撞的方法。
translated by 谷歌翻译
多机器人导航是一项具有挑战性的任务,其中必须在动态环境中同时协调多个机器人。我们应用深入的加固学习(DRL)来学习分散的端到端策略,该政策将原始传感器数据映射到代理的命令速度。为了使政策概括,培训是在不同的环境和场景中进行的。在常见的多机器人场景中测试和评估了学识渊博的政策,例如切换一个地方,交叉路口和瓶颈情况。此策略使代理可以从死端恢复并浏览复杂的环境。
translated by 谷歌翻译
精确农业正在迅速吸引研究,以有效地引入自动化和机器人解决方案,以支持农业活动。葡萄园和果园中的机器人导航在自主监控方面具有竞争优势,并轻松获取农作物来收集,喷涂和执行时必的耗时必要任务。如今,自主导航算法利用了昂贵的传感器,这也需要大量的数据处理计算成本。尽管如此,葡萄园行代表了一个具有挑战性的户外场景,在这种情况下,GPS和视觉进程技术通常难以提供可靠的定位信息。在这项工作中,我们将Edge AI与深度强化学习相结合,以提出一种尖端的轻质解决方案,以解决自主葡萄园导航的问题,而无需利用精确的本地化数据并通过基于灵活的学习方法来克服任务列出的算法。我们训练端到端的感觉运动剂,该端机直接映射嘈杂的深度图像和位置不可稳定的机器人状态信息到速度命令,并将机器人引导到一排的尽头,不断调整其标题以进行无碰撞的无碰撞中央轨迹。我们在现实的模拟葡萄园中进行的广泛实验证明了解决方案的有效性和代理的概括能力。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
我们提出了一种新的方法,以改善基于深入强化学习(DRL)的室外机器人导航系统的性能。大多数现有的DRL方法基于精心设计的密集奖励功能,这些功能可以学习环境中的有效行为。我们仅通过稀疏的奖励(易于设计)来解决这个问题,并提出了一种新颖的自适应重尾增强算法,用于户外导航,称为Htron。我们的主要思想是利用重尾政策参数化,这些参数隐含在稀疏的奖励环境中引起探索。我们在三种不同的室外场景中评估了针对钢琴,PPO和TRPO算法的htron的性能:进球,避免障碍和地形导航不均匀。我们平均观察到成功率的平均增加了34.41%,与其他方法相比,与其他方法获得的导航政策相比,为达到目标的平均时间步骤下降了15.15%,高程成本下降了24.9%。此外,我们证明我们的算法可以直接转移到Clearpath Husky机器人中,以在现实情况下进行户外地形导航。
translated by 谷歌翻译
通过直接将感知输入映射到机器人控制命令中,深入的强化学习(DRL)算法已被证明在机器人导航中有效,尤其是在未知环境中。但是,大多数现有方法忽略导航中的局部最小问题,从而无法处理复杂的未知环境。在本文中,我们提出了第一个基于DRL的导航方法,该方法由具有连续动作空间,自适应向前模拟时间(AFST)的SMDP建模,以克服此问题。具体而言,我们通过修改其GAE来更好地估计SMDP中的策略梯度,改善了指定SMDP问题的分布式近端策略优化(DPPO)算法。我们在模拟器和现实世界中评估了我们的方法。
translated by 谷歌翻译
模拟虚拟人群的轨迹是计算机图形中通常遇到的任务。最近的一些作品应用了强化学习方法来使虚拟代理动画,但是在基本模拟设置方面,它们通常会做出不同的设计选择。这些选择中的每一个都有合理的使用依据,因此并不明显其真正的影响是什么,以及它们如何影响结果。在这项工作中,我们从对学习绩效的影响以及根据能源效率测得的模拟的质量分析了其中一些任意选择。我们对奖励函数设计的性质进行理论分析,并经验评估使用某些观察和动作空间对各种情况的影响,并将奖励函数和能量使用作为指标。我们表明,直接使用相邻代理的信息作为观察,通常优于更广泛使用的射线播放。同样,与具有绝对观察结果的自动对照相比,使用具有以自我为中心的观察的非体力学对照倾向于产生更有效的行为。这些选择中的每一个都对结果产生重大且潜在的非平凡影响,因此研究人员应该注意选择和报告他们的工作。
translated by 谷歌翻译
在狭窄的空间中,基于传统层次自治系统的运动计划可能会导致映射,定位和控制噪声引起碰撞。此外,当无映射时,它将被禁用。为了解决这些问题,我们利用深厚的加强学习,可以证明可以有效地进行自我决策,从而在狭窄的空间中自探索而无需地图,同时避免碰撞。具体而言,基于我们的Ackermann-Steering矩形Zebrat机器人及其凉亭模拟器,我们建议矩形安全区域来表示状态并检测矩形形状的机器人的碰撞,以及无需精心制作的奖励功能,不需要增强功能。目的地信息。然后,我们在模拟的狭窄轨道中基准了五种增强学习算法,包括DDPG,DQN,SAC,PPO和PPO-DISCRETE。经过训练,良好的DDPG和DQN型号可以转移到三个全新的模拟轨道上,然后转移到三个现实世界中。
translated by 谷歌翻译
强化学习和最近的深度增强学习是解决如Markov决策过程建模的顺序决策问题的流行方法。问题和选择算法和超参数的RL建模需要仔细考虑,因为不同的配置可能需要完全不同的性能。这些考虑因素主要是RL专家的任务;然而,RL在研究人员和系统设计师不是RL专家的其他领域中逐渐变得流行。此外,许多建模决策,例如定义状态和动作空间,批次的大小和批量更新的频率以及时间戳的数量通常是手动进行的。由于这些原因,RL框架的自动化不同组成部分具有重要意义,近年来它引起了很多关注。自动RL提供了一个框架,其中RL的不同组件包括MDP建模,算法选择和超参数优化是自动建模和定义的。在本文中,我们探讨了可以在自动化RL中使用的文献和目前的工作。此外,我们讨论了Autorl中的挑战,打开问题和研究方向。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
Two less addressed issues of deep reinforcement learning are (1) lack of generalization capability to new target goals, and (2) data inefficiency i.e., the model requires several (and often costly) episodes of trial and error to converge, which makes it impractical to be applied to real-world scenarios. In this paper, we address these two issues and apply our model to the task of target-driven visual navigation. To address the first issue, we propose an actor-critic model whose policy is a function of the goal as well as the current state, which allows to better generalize. To address the second issue, we propose AI2-THOR framework, which provides an environment with highquality 3D scenes and physics engine. Our framework enables agents to take actions and interact with objects. Hence, we can collect a huge number of training samples efficiently.We show that our proposed method (1) converges faster than the state-of-the-art deep reinforcement learning methods, (2) generalizes across targets and across scenes, (3) generalizes to a real robot scenario with a small amount of fine-tuning (although the model is trained in simulation), ( 4) is end-to-end trainable and does not need feature engineering, feature matching between frames or 3D reconstruction of the environment.The supplementary video can be accessed at the following link: https://youtu.be/SmBxMDiOrvs.
translated by 谷歌翻译
尽管数十年的努力,但在真正的情景中的机器人导航具有波动性,不确定性,复杂性和歧义(vuca短暂),仍然是一个具有挑战性的话题。受到中枢神经系统(CNS)的启发,我们提出了一个在Vuca环境中的自主导航的分层多专家学习框架。通过考虑目标位置,路径成本和安全水平的启发式探索机制,上层执行同时映射探索和路线规划,以避免陷入盲巷,类似于CNS中的大脑。使用本地自适应模型融合多种差异策略,下层追求碰撞 - 避免和直接策略之间的平衡,作为CNS中的小脑。我们在多个平台上进行仿真和实际实验,包括腿部和轮式机器人。实验结果表明我们的算法在任务成就,时间效率和安全性方面优于现有方法。
translated by 谷歌翻译
Development of navigation algorithms is essential for the successful deployment of robots in rapidly changing hazardous environments for which prior knowledge of configuration is often limited or unavailable. Use of traditional path-planning algorithms, which are based on localization and require detailed obstacle maps with goal locations, is not possible. In this regard, vision-based algorithms hold great promise, as visual information can be readily acquired by a robot's onboard sensors and provides a much richer source of information from which deep neural networks can extract complex patterns. Deep reinforcement learning has been used to achieve vision-based robot navigation. However, the efficacy of these algorithms in environments with dynamic obstacles and high variation in the configuration space has not been thoroughly investigated. In this paper, we employ a deep Dyna-Q learning algorithm for room evacuation and obstacle avoidance in partially observable environments based on low-resolution raw image data from an onboard camera. We explore the performance of a robotic agent in environments containing no obstacles, convex obstacles, and concave obstacles, both static and dynamic. Obstacles and the exit are initialized in random positions at the start of each episode of reinforcement learning. Overall, we show that our algorithm and training approach can generalize learning for collision-free evacuation of environments with complex obstacle configurations. It is evident that the agent can navigate to a goal location while avoiding multiple static and dynamic obstacles, and can escape from a concave obstacle while searching for and navigating to the exit.
translated by 谷歌翻译
深度强化学习(DRL)的最新进步通过允许自动控制器设计促进了机器人技术。自动控制器设计是设计群体机器人系统的关键方法,与单个机器人系统相比,它需要更复杂的控制器来领导所需的集体行为。尽管基于DRL的控制器设计方法显示出其有效性,但对中央培训服务器的依赖是在机器人服务器通信不稳定或有限的现实环境中的关键问题。我们提出了一种新型联邦学习(FL)的DRL培训策略(FLDDPG),以用于群体机器人应用。通过在有限的通信带宽方案下与基线策略进行比较,可以证明,FLDDPG方法导致更高的鲁棒性和泛化能力进入不同的环境和真正的机器人,而基线策略则遭受了通信带宽的限制。该结果表明,所提出的方法可以使在通信带宽有限的环境中运行的群体机器人系统受益,例如在高辐射,水下或地下环境中。
translated by 谷歌翻译
本文研究了如何改善接受深入增强学习训练的导航剂的概括性能和学习速度(DRL)。尽管DRL在无机MAP导航中表现出巨大的潜力,但在训练场景中表现良好的DRL代理在不熟悉的情况下经常表现不佳。在这项工作中,我们建议LIDAR读数的表示是代理商效果退化的关键因素,并提出了一种强大的输入预处理(IP)方法来解决此问题。由于这种方法使用适应性的参数倒数函数来预处理激光雷达读数,因此我们将此方法称为IPAPREC及其归一化版本为IPAPRECN。 IPAPREC/IPAPRECN可以突出显示重要的短距离值,并压缩激光扫描中较重要的长距离值的范围,该值很好地解决了由激光扫描的常规表示引起的问题。通过广泛的模拟和现实世界实验来验证它们的高性能。结果表明,与常规方法相比,我们的方法可以大大改善导航剂的概括性能,并大大减少训练时间。
translated by 谷歌翻译
Underwater navigation presents several challenges, including unstructured unknown environments, lack of reliable localization systems (e.g., GPS), and poor visibility. Furthermore, good-quality obstacle detection sensors for underwater robots are scant and costly; and many sensors like RGB-D cameras and LiDAR only work in-air. To enable reliable mapless underwater navigation despite these challenges, we propose a low-cost end-to-end navigation system, based on a monocular camera and a fixed single-beam echo-sounder, that efficiently navigates an underwater robot to waypoints while avoiding nearby obstacles. Our proposed method is based on Proximal Policy Optimization (PPO), which takes as input current relative goal information, estimated depth images, echo-sounder readings, and previous executed actions, and outputs 3D robot actions in a normalized scale. End-to-end training was done in simulation, where we adopted domain randomization (varying underwater conditions and visibility) to learn a robust policy against noise and changes in visibility conditions. The experiments in simulation and real-world demonstrated that our proposed method is successful and resilient in navigating a low-cost underwater robot in unknown underwater environments. The implementation is made publicly available at https://github.com/dartmouthrobotics/deeprl-uw-robot-navigation.
translated by 谷歌翻译