在复杂环境中开发针对四足动物的强大视觉引导控制器,具有各种障碍,动力环境和不平坦的地形,这是非常具有挑战性的。尽管增强学习(RL)为敏捷的运动技能提供了有希望的范式,并在模拟中提供了视觉投入,但在现实世界中将RL政策部署仍然非常具有挑战性。我们的关键见解是,除了域间隙的差异,模拟和现实世界之间的视觉外观外,控制管道的延迟也是困难的主要原因。在本文中,我们建议在训练RL代理时解决此问题。具体而言,我们通过使用过去的观测值模拟真实硬件的延迟,并以随机时期进行采样,以进行本体感受和视觉。我们在没有任何预定义的控制器或参考运动的情况下训练RL策略在物理模拟器中以端到端的控制,并将其直接部署在野外运行的真实A1四倍的机器人上。我们在具有复杂地形和障碍的不同室外环境中评估我们的方法。我们证明机器人可以高速操纵,避免障碍物,并在基准方面显示出显着改善。我们的带有视频的项目页面位于https://mehooz.github.io/mmdr-wild/。
translated by 谷歌翻译
随着腿部机器人和嵌入式计算都变得越来越有能力,研究人员已经开始专注于这些机器人的现场部署。在非结构化环境中的强大自治需要对机器人周围的世界感知,以避免危害。但是,由于处理机车动力学所需的复杂规划人员和控制器,因此在网上合并在线的同时在线保持敏捷运动对腿部机器人更具挑战性。该报告将比较三种最新的感知运动方法,并讨论可以使用视觉来实现腿部自主权的不同方式。
translated by 谷歌翻译
惯性测量单元(IMU)在机器人研究中无处不在。它为机器人提供了姿势信息,以实现平衡和导航。但是,人类和动物可以在没有精确的方向或位置值的情况下感知其身体在环境中的运动。这种互动固有地涉及感知和动作之间的快速反馈回路。这项工作提出了一种端到端方法,该方法使用高维视觉观察和动作命令来训练视觉自模型进行腿部运动。视觉自模型学习机器人身体运动与地面纹理之间的空间关系从图像序列变化。我们证明机器人可以利用视觉自模型来实现机器人在训练过程中看不见的现实环境中的各种运动任务。通过我们提出的方法,机器人可以在没有IMU的情况下或在没有GPS或弱地磁场的环境中进行运动,例如该市的室内和Urban Canyons。
translated by 谷歌翻译
我们解决了动态环境中感知力的问题。在这个问题中,四足动物的机器人必须对环境混乱和移动的障碍物表现出强大而敏捷的步行行为。我们提出了一个名为Prelude的分层学习框架,该框架将感知力的问题分解为高级决策,以预测导航命令和低级步态生成以实现目标命令。在此框架中,我们通过在可进入手推车上收集的人类示范和使用加固学习(RL)的低级步态控制器(RL)上收集的人类示范中的模仿学习来训练高级导航控制器。因此,我们的方法可以从人类监督中获取复杂的导航行为,并从反复试验中发现多功能步态。我们证明了方法在模拟和硬件实验中的有效性。可以在https://ut-aut-autin-rpl.github.io/prelude上找到视频和代码。
translated by 谷歌翻译
In this work, we show how to learn a visual walking policy that only uses a monocular RGB camera and proprioception. Since simulating RGB is hard, we necessarily have to learn vision in the real world. We start with a blind walking policy trained in simulation. This policy can traverse some terrains in the real world but often struggles since it lacks knowledge of the upcoming geometry. This can be resolved with the use of vision. We train a visual module in the real world to predict the upcoming terrain with our proposed algorithm Cross-Modal Supervision (CMS). CMS uses time-shifted proprioception to supervise vision and allows the policy to continually improve with more real-world experience. We evaluate our vision-based walking policy over a diverse set of terrains including stairs (up to 19cm high), slippery slopes (inclination of 35 degrees), curbs and tall steps (up to 20cm), and complex discrete terrains. We achieve this performance with less than 30 minutes of real-world data. Finally, we show that our policy can adapt to shifts in the visual field with a limited amount of real-world experience. Video results and code at https://antonilo.github.io/vision_locomotion/.
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
我们利用了肢体机器人互动和预言的互补优势,实现了点球导航。腿系统能够穿过比轮式机器人更复杂的地形,而是为了充分利用这种能力,我们需要导航系统中的高级路径规划仪,了解在不同地形上的低级运动策略的步行能力。我们通过使用壁虎搜寻反馈来实现这一目标来估计行走政策的安全操作限制,并感知意外障碍和地形性质,如可能被视力错过的地面的平滑度或柔软度。导航系统使用车载相机来生成占用映射和相应的成本图以实现目标。然后,FMM(快速行进方法)规划器然后生成目标路径。速度命令生成器将此作为输入,以从安全顾问,意外障碍和地形速度限制生成作为输入附加约束的机车策略的所需速度。与轮式机器人(Logobot)基线(Logobot)基线和其他具有不相交的基调规划和低级控制的基线显示出卓越的性能。我们还在具有板载传感器和计算的Quadruped Robot上显示了我们系统的真实部署。 https://navigation-locomotion.github.io/camera-ready的视频
translated by 谷歌翻译
我们提出了一种新颖的户外导航算法,以生成稳定,有效的动作,以将机器人导航到目标。我们使用多阶段的训练管道,并表明我们的模型产生了政策,从而在复杂的地形上导致稳定且可靠的机器人导航。基于近端政策优化(PPO)算法,我们开发了一种新颖的方法来实现户外导航任务的多种功能,即:减轻机器人的漂移,使机器人在颠簸的地形上保持稳定,避免在山丘上攀登,并具有陡峭的山坡,并改变了山坡,并保持了陡峭的高度变化,并使机器人稳定在山坡上,并避免了攀岩地面上的攀登,并避免了机器人的攀岩地形,并避免了机器人的攀岩地形。避免碰撞。我们的培训过程通过引入更广泛的环境和机器人参数以及统一模拟器中LIDAR感知的丰富特征来减轻现实(SIM到现实)差距。我们使用Clearphith Husky和Jackal在模拟和现实世界中评估我们的方法。此外,我们将我们的方法与最先进的方法进行了比较,并表明在现实世界中,它在不平坦的地形上至少提高了30.7%通过防止机器人在高梯度的区域移动,机器人在每个运动步骤处的高程变化。
translated by 谷歌翻译
Learned locomotion policies can rapidly adapt to diverse environments similar to those experienced during training but lack a mechanism for fast tuning when they fail in an out-of-distribution test environment. This necessitates a slow and iterative cycle of reward and environment redesign to achieve good performance on a new task. As an alternative, we propose learning a single policy that encodes a structured family of locomotion strategies that solve training tasks in different ways, resulting in Multiplicity of Behavior (MoB). Different strategies generalize differently and can be chosen in real-time for new tasks or environments, bypassing the need for time-consuming retraining. We release a fast, robust open-source MoB locomotion controller, Walk These Ways, that can execute diverse gaits with variable footswing, posture, and speed, unlocking diverse downstream tasks: crouching, hopping, high-speed running, stair traversal, bracing against shoves, rhythmic dance, and more. Video and code release: https://gmargo11.github.io/walk-these-ways/
translated by 谷歌翻译
In this paper, we present a framework for learning quadruped navigation by integrating central pattern generators (CPGs), i.e. systems of coupled oscillators, into the deep reinforcement learning (DRL) framework. Through both exteroceptive and proprioceptive sensing, the agent learns to modulate the intrinsic oscillator setpoints (amplitude and frequency) and coordinate rhythmic behavior among different oscillators to track velocity commands while avoiding collisions with the environment. We compare different neural network architectures (i.e. memory-free and memory-enabled) which learn implicit interoscillator couplings, as well as varying the strength of the explicit coupling weights in the oscillator dynamics equations. We train our policies in simulation and perform a sim-to-real transfer to the Unitree Go1 quadruped, where we observe robust navigation in a variety of scenarios. Our results show that both memory-enabled policy representations and explicit interoscillator couplings are beneficial for a successful sim-to-real transfer for navigation tasks. Video results can be found at https://youtu.be/O_LX1oLZOe0.
translated by 谷歌翻译
进化策略(ES)算法由于其巨大的并行能力,简单的实现,有效的参数空间探索和快速训练时间,在训练复杂的机器人控制策略中显示出令人鼓舞的结果。但是,ES的关键限制是其对大容量模型(包括现代神经网络体系结构)的可扩展性。在这项工作中,我们开发了预测信息增强随机搜索(PI-ARS),以通过利用表示表示学习来减少ES的参数搜索空间来减轻这种限制。即,PI-ARS将基于梯度的表示技术,预测信息(PI)与无梯度ES算法,增强随机搜索(ARS)结合在一起,以训练可以处理复杂机器人感觉输入并处理高度非线性机器人的策略动力学。我们在一系列具有挑战性的视觉范围任务上评估了PI-ARS,四倍的机器人需要在不平坦的踏脚石,Quincuncial Pile和移动平台上行走,并完成室内导航任务。在所有任务中,与ARS基线相比,PI-ARS表现出明显更好的学习效率和表现。我们通过证明学识渊博的政策可以成功地转移到真正的四倍机器人的情况下,进一步验证我们的算法,例如,在现实世界中的垫脚石环境上取得了100%的成功率,从而显着提高了先前的结果,从而实现了40%的成功。
translated by 谷歌翻译
Underwater navigation presents several challenges, including unstructured unknown environments, lack of reliable localization systems (e.g., GPS), and poor visibility. Furthermore, good-quality obstacle detection sensors for underwater robots are scant and costly; and many sensors like RGB-D cameras and LiDAR only work in-air. To enable reliable mapless underwater navigation despite these challenges, we propose a low-cost end-to-end navigation system, based on a monocular camera and a fixed single-beam echo-sounder, that efficiently navigates an underwater robot to waypoints while avoiding nearby obstacles. Our proposed method is based on Proximal Policy Optimization (PPO), which takes as input current relative goal information, estimated depth images, echo-sounder readings, and previous executed actions, and outputs 3D robot actions in a normalized scale. End-to-end training was done in simulation, where we adopted domain randomization (varying underwater conditions and visibility) to learn a robust policy against noise and changes in visibility conditions. The experiments in simulation and real-world demonstrated that our proposed method is successful and resilient in navigating a low-cost underwater robot in unknown underwater environments. The implementation is made publicly available at https://github.com/dartmouthrobotics/deeprl-uw-robot-navigation.
translated by 谷歌翻译
我们解决了使四足机器人能够使用强化学习在现实世界中执行精确的射击技巧的问题。开发算法使腿部机器人能够向给定的目标射击足球,这是一个具有挑战性的问题,它将机器人运动控制和计划结合到一项任务中。为了解决这个问题,我们需要考虑控制动态腿部机器人期间的动态限制和运动稳定性。此外,我们需要考虑运动计划,以在地面上射击难以模拟的可变形球,并不确定摩擦到所需的位置。在本文中,我们提出了一个层次结构框架,该框架利用深厚的强化学习来训练(a)强大的运动控制政策,可以跟踪任意动议,以及(b)一项计划政策,以决定所需的踢球运动将足球射击到目标。我们将提议的框架部署在A1四足动物机器人上,使其能够将球准确地射击到现实世界中的随机目标。
translated by 谷歌翻译
腿部运动的最新进展使四足动物在具有挑战性的地形上行走。但是,两足机器人本质上更加不稳定,因此很难为其设计步行控制器。在这项工作中,我们利用了对机车控制的快速适应的最新进展,并将其扩展到双皮亚机器人。与现有作品类似,我们从基本策略开始,该策略在将适应模块的输入中作为输入作为输入。该外部媒介包含有关环境的信息,并使步行控制器能够快速在线适应。但是,外部估计器可能是不完善的,这可能导致基本政策的性能不佳,这预计是一个完美的估计器。在本文中,我们提出了A-RMA(Adapting RMA),该A-RMA(适应RMA)还通过使用无模型RL对其进行了鉴定,从而适应了不完美的外部外部估计器的基本策略。我们证明,A-RMA在仿真中胜过许多基于RL的基线控制器和基于模型的控制器,并显示了单个A-RMA策略的零拍摄部署,以使双皮德机器人Cassie能够在各种各样的现实世界中的不同场景超出了培训期间所见。 https://ashish-kmr.github.io/a-rma/的视频和结果
translated by 谷歌翻译
Legged robots pose one of the greatest challenges in robotics. Dynamic and agile maneuvers of animals cannot be imitated by existing methods that are crafted by humans. A compelling alternative is reinforcement learning, which requires minimal craftsmanship and promotes the natural evolution of a control policy. However, so far, reinforcement learning research for legged robots is mainly limited to simulation, and only few and comparably simple examples have been deployed on real systems. The primary reason is that training with real robots, particularly with dynamically balancing systems, is complicated and expensive. In the present work, we report a new method for training a neural network policy in simulation and transferring it to a state-of-the-art legged system, thereby we leverage fast, automated, and cost-effective data generation schemes. The approach is applied to the ANYmal robot, a sophisticated medium-dog-sized quadrupedal system. Using policies trained in simulation, the quadrupedal machine achieves locomotion skills that go beyond what had been achieved with prior methods: ANYmal is capable of precisely and energy-efficiently following high-level body velocity commands, running faster than ever before, and recovering from falling even in complex configurations.
translated by 谷歌翻译
通过腿部机器人在具有挑战性的环境上进行本地导航的通用方法需要路径计划,路径跟随和运动,这通常需要机动控制策略,以准确跟踪指挥速度。但是,通过将导航问题分解为这些子任务,我们限制了机器人的功能,因为各个任务不考虑完整的解决方案空间。在这项工作中,我们建议通过深入强化学习来训练端到端政策来解决完整的问题。机器人不必在提供的时间内到达目标位置,而不是不断跟踪预算的路径。该任务的成功仅在情节结束时进行评估,这意味着该策略不需要尽快到达目标。可以免费选择其路径和运动步态。以这种方式培训政策可以打开更多可能的解决方案,这使机器人能够学习更多复杂的行为。我们比较我们的速度跟踪方法,并表明任务奖励的时间依赖性对于成功学习这些新行为至关重要。最后,我们证明了在真正的四足动物机器人上成功部署政策。机器人能够跨越具有挑战性的地形,这是以前无法实现的,同时使用更节能的步态并达到更高的成功率。
translated by 谷歌翻译
基于腿部机器人的基于深的加固学习(RL)控制器表现出令人印象深刻的鲁棒性,可在不同的环境中为多个机器人平台行走。为了在现实世界中启用RL策略为类人类机器人应用,至关重要的是,建立一个可以在2D和3D地形上实现任何方向行走的系统,并由用户命令控制。在本文中,我们通过学习遵循给定步骤序列的政策来解决这个问题。该政策在一组程序生成的步骤序列(也称为脚步计划)的帮助下进行培训。我们表明,仅将即将到来的2个步骤喂入政策就足以实现全向步行,安装到位,站立和攀登楼梯。我们的方法采用课程学习对地形的复杂性,并规避了参考运动或预训练的权重的需求。我们证明了我们提出的方法在Mujoco仿真环境中学习2个新机器人平台的RL策略-HRP5P和JVRC -1-。可以在线获得培训和评估的代码。
translated by 谷歌翻译
通过直接将感知输入映射到机器人控制命令中,深入的强化学习(DRL)算法已被证明在机器人导航中有效,尤其是在未知环境中。但是,大多数现有方法忽略导航中的局部最小问题,从而无法处理复杂的未知环境。在本文中,我们提出了第一个基于DRL的导航方法,该方法由具有连续动作空间,自适应向前模拟时间(AFST)的SMDP建模,以克服此问题。具体而言,我们通过修改其GAE来更好地估计SMDP中的策略梯度,改善了指定SMDP问题的分布式近端策略优化(DPPO)算法。我们在模拟器和现实世界中评估了我们的方法。
translated by 谷歌翻译
这项工作研究了图像目标导航问题,需要通过真正拥挤的环境引导具有嘈杂传感器和控制的机器人。最近的富有成效的方法依赖于深度加强学习,并学习模拟环境中的导航政策,这些环境比真实环境更简单。直接将这些训练有素的策略转移到真正的环境可能非常具有挑战性甚至危险。我们用由四个解耦模块组成的分层导航方法来解决这个问题。第一模块在机器人导航期间维护障碍物映射。第二个将定期预测实时地图上的长期目标。第三个计划碰撞命令集以导航到长期目标,而最终模块将机器人正确靠近目标图像。四个模块是单独开发的,以适应真实拥挤的情景中的图像目标导航。此外,分层分解对导航目标规划,碰撞避免和导航结束预测的学习进行了解耦,这在导航训练期间减少了搜索空间,并有助于改善以前看不见的真实场景的概括。我们通过移动机器人评估模拟器和现实世界中的方法。结果表明,我们的方法优于多种导航基线,可以在这些方案中成功实现导航任务。
translated by 谷歌翻译
深度强化学习在基于激光的碰撞避免有效的情况下取得了巨大的成功,因为激光器可以感觉到准确的深度信息而无需太多冗余数据,这可以在算法从模拟环境迁移到现实世界时保持算法的稳健性。但是,高成本激光设备不仅很难为大型机器人部署,而且还表现出对复杂障碍的鲁棒性,包括不规则的障碍,例如桌子,桌子,椅子和架子,以及复杂的地面和特殊材料。在本文中,我们提出了一个新型的基于单眼相机的复杂障碍避免框架。特别是,我们创新地将捕获的RGB图像转换为伪激光测量,以进行有效的深度强化学习。与在一定高度捕获的传统激光测量相比,仅包含距离附近障碍的一维距离信息,我们提议的伪激光测量融合了捕获的RGB图像的深度和语义信息,这使我们的方法有效地有效障碍。我们还设计了一个功能提取引导模块,以加重输入伪激光测量,并且代理对当前状态具有更合理的关注,这有利于提高障碍避免政策的准确性和效率。
translated by 谷歌翻译