在这项工作中,我们介绍并研究了一种培训设置,该培训设置通过在单个工作站GPU上使用大量并行性来实现现实世界机器人任务的快速政策。我们分析和讨论不同培训算法组件在大规模平行制度中对最终政策绩效和培训时间的影响。此外,我们还提供了一种新颖的游戏启发课程,非常适合与数千个模拟机器人并行培训。我们通过训练四足机器人Anymal在具有挑战性的地形上行走来评估该方法。平行方法允许在不到四分钟的时间内对平坦地形进行培训政策,而在二十分钟内,地形不平衡。与以前的工作相比,这代表了多个数量级的加速。最后,我们将政策转移到真实的机器人中以验证该方法。我们开放培训代码,以帮助加速学习的腿部运动领域的进一步研究。
translated by 谷歌翻译
通过腿部机器人在具有挑战性的环境上进行本地导航的通用方法需要路径计划,路径跟随和运动,这通常需要机动控制策略,以准确跟踪指挥速度。但是,通过将导航问题分解为这些子任务,我们限制了机器人的功能,因为各个任务不考虑完整的解决方案空间。在这项工作中,我们建议通过深入强化学习来训练端到端政策来解决完整的问题。机器人不必在提供的时间内到达目标位置,而不是不断跟踪预算的路径。该任务的成功仅在情节结束时进行评估,这意味着该策略不需要尽快到达目标。可以免费选择其路径和运动步态。以这种方式培训政策可以打开更多可能的解决方案,这使机器人能够学习更多复杂的行为。我们比较我们的速度跟踪方法,并表明任务奖励的时间依赖性对于成功学习这些新行为至关重要。最后,我们证明了在真正的四足动物机器人上成功部署政策。机器人能够跨越具有挑战性的地形,这是以前无法实现的,同时使用更节能的步态并达到更高的成功率。
translated by 谷歌翻译
随着腿部机器人和嵌入式计算都变得越来越有能力,研究人员已经开始专注于这些机器人的现场部署。在非结构化环境中的强大自治需要对机器人周围的世界感知,以避免危害。但是,由于处理机车动力学所需的复杂规划人员和控制器,因此在网上合并在线的同时在线保持敏捷运动对腿部机器人更具挑战性。该报告将比较三种最新的感知运动方法,并讨论可以使用视觉来实现腿部自主权的不同方式。
translated by 谷歌翻译
Legged robots pose one of the greatest challenges in robotics. Dynamic and agile maneuvers of animals cannot be imitated by existing methods that are crafted by humans. A compelling alternative is reinforcement learning, which requires minimal craftsmanship and promotes the natural evolution of a control policy. However, so far, reinforcement learning research for legged robots is mainly limited to simulation, and only few and comparably simple examples have been deployed on real systems. The primary reason is that training with real robots, particularly with dynamically balancing systems, is complicated and expensive. In the present work, we report a new method for training a neural network policy in simulation and transferring it to a state-of-the-art legged system, thereby we leverage fast, automated, and cost-effective data generation schemes. The approach is applied to the ANYmal robot, a sophisticated medium-dog-sized quadrupedal system. Using policies trained in simulation, the quadrupedal machine achieves locomotion skills that go beyond what had been achieved with prior methods: ANYmal is capable of precisely and energy-efficiently following high-level body velocity commands, running faster than ever before, and recovering from falling even in complex configurations.
translated by 谷歌翻译
Some of the most challenging environments on our planet are accessible to quadrupedal animals but remain out of reach for autonomous machines. Legged locomotion can dramatically expand the operational domains of robotics. However, conventional controllers for legged locomotion are based on elaborate state machines that explicitly trigger the execution of motion primitives and reflexes. These designs have escalated in complexity while falling short of the generality and robustness of animal locomotion. Here we present a radically robust controller for legged locomotion in challenging natural environments. We present a novel solution to incorporating proprioceptive feedback in locomotion control and demonstrate remarkable zero-shot generalization from simulation to natural environments. The controller is trained by reinforcement learning in simulation. It is based on a neural network that acts on a stream of proprioceptive signals. The trained controller has taken two generations of quadrupedal ANYmal robots to a variety of natural environments that are beyond the reach of prior published work in legged locomotion. The controller retains its robustness under conditions that have never been encountered during training: deformable terrain such as mud and snow, dynamic footholds such as rubble, and overground impediments such as thick vegetation and gushing water. The presented work opens new frontiers for robotics and indicates that radical robustness in natural environments can be achieved by training in much simpler domains.
translated by 谷歌翻译
深度强化学习是在不需要领域知识的不受控制环境中学习政策的有前途的方法。不幸的是,由于样本效率低下,深度RL应用主要集中在模拟环境上。在这项工作中,我们证明了机器学习算法和库的最新进步与精心调整的机器人控制器相结合,导致在现实世界中仅20分钟内学习四倍的运动。我们在几个室内和室外地形上评估了我们的方法,这些室内和室外地形对基于古典模型的控制器来说是具有挑战性的。我们观察机器人能够在所有这些地形上始终如一地学习步态。最后,我们在模拟环境中评估我们的设计决策。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
In this paper, we present a framework for learning quadruped navigation by integrating central pattern generators (CPGs), i.e. systems of coupled oscillators, into the deep reinforcement learning (DRL) framework. Through both exteroceptive and proprioceptive sensing, the agent learns to modulate the intrinsic oscillator setpoints (amplitude and frequency) and coordinate rhythmic behavior among different oscillators to track velocity commands while avoiding collisions with the environment. We compare different neural network architectures (i.e. memory-free and memory-enabled) which learn implicit interoscillator couplings, as well as varying the strength of the explicit coupling weights in the oscillator dynamics equations. We train our policies in simulation and perform a sim-to-real transfer to the Unitree Go1 quadruped, where we observe robust navigation in a variety of scenarios. Our results show that both memory-enabled policy representations and explicit interoscillator couplings are beneficial for a successful sim-to-real transfer for navigation tasks. Video results can be found at https://youtu.be/O_LX1oLZOe0.
translated by 谷歌翻译
机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件,例如,感知算法感知环境,并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此,通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作,同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中,并通过传感器读数推断位置。在我们的工作中,我们开发了一种深度学习方法,以直接优化信标的放置和位置推断以达到本地化精度。然后,我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中,我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器,有效地直接优化了物理设计和控制参数,以直接优化任务性能。然后,我们对此进行跟进,以允许对离散形态参数(例如四肢的数字和配置)进行优化。最后,我们通过探索优化的软机器人的制造和部署来得出结论。
translated by 谷歌翻译
基于腿部机器人的基于深的加固学习(RL)控制器表现出令人印象深刻的鲁棒性,可在不同的环境中为多个机器人平台行走。为了在现实世界中启用RL策略为类人类机器人应用,至关重要的是,建立一个可以在2D和3D地形上实现任何方向行走的系统,并由用户命令控制。在本文中,我们通过学习遵循给定步骤序列的政策来解决这个问题。该政策在一组程序生成的步骤序列(也称为脚步计划)的帮助下进行培训。我们表明,仅将即将到来的2个步骤喂入政策就足以实现全向步行,安装到位,站立和攀登楼梯。我们的方法采用课程学习对地形的复杂性,并规避了参考运动或预训练的权重的需求。我们证明了我们提出的方法在Mujoco仿真环境中学习2个新机器人平台的RL策略-HRP5P和JVRC -1-。可以在线获得培训和评估的代码。
translated by 谷歌翻译
在本文中,我们提出了一个可靠的控制器,该控制器在真正的盲人四足机器人上实现了自然且稳定的快速运动。只有本体感受信息,四足机器人的身体长度最大速度可以移动10倍,并且具有通过各种复杂地形的能力。通过无模型的强化学习,在模拟环境中训练控制器。在本文中,拟议的宽松邻里控制体系结构不仅保证了学习率,而且还获得了一个易于转移到真正四倍的机器人的动作网络。我们的研究发现,训练过程中存在数据对称性损失的问题,这导致学习控制器在左右对称的四倍体机器人结构上的性能不平衡,并提出了一个镜像世界神经网络来解决性能问题。由Mirror-World网络组成的学习控制器可以使机器人具有出色的反扰动能力。训练架构中没有使用特定的人类知识,例如脚部轨迹发生器。学识渊博的控制器可以协调机器人的步态频率和运动速度,并且与人工设计的控制器相比,运动模式更自然,更合理。我们的控制器具有出色的抗扰动性能,并且具有良好的概括能力,可以达到从未学到的运动速度,并且从未见过的地形。
translated by 谷歌翻译
我们提出了一种新颖的户外导航算法,以生成稳定,有效的动作,以将机器人导航到目标。我们使用多阶段的训练管道,并表明我们的模型产生了政策,从而在复杂的地形上导致稳定且可靠的机器人导航。基于近端政策优化(PPO)算法,我们开发了一种新颖的方法来实现户外导航任务的多种功能,即:减轻机器人的漂移,使机器人在颠簸的地形上保持稳定,避免在山丘上攀登,并具有陡峭的山坡,并改变了山坡,并保持了陡峭的高度变化,并使机器人稳定在山坡上,并避免了攀岩地面上的攀登,并避免了机器人的攀岩地形,并避免了机器人的攀岩地形。避免碰撞。我们的培训过程通过引入更广泛的环境和机器人参数以及统一模拟器中LIDAR感知的丰富特征来减轻现实(SIM到现实)差距。我们使用Clearphith Husky和Jackal在模拟和现实世界中评估我们的方法。此外,我们将我们的方法与最先进的方法进行了比较,并表明在现实世界中,它在不平坦的地形上至少提高了30.7%通过防止机器人在高梯度的区域移动,机器人在每个运动步骤处的高程变化。
translated by 谷歌翻译
Learned locomotion policies can rapidly adapt to diverse environments similar to those experienced during training but lack a mechanism for fast tuning when they fail in an out-of-distribution test environment. This necessitates a slow and iterative cycle of reward and environment redesign to achieve good performance on a new task. As an alternative, we propose learning a single policy that encodes a structured family of locomotion strategies that solve training tasks in different ways, resulting in Multiplicity of Behavior (MoB). Different strategies generalize differently and can be chosen in real-time for new tasks or environments, bypassing the need for time-consuming retraining. We release a fast, robust open-source MoB locomotion controller, Walk These Ways, that can execute diverse gaits with variable footswing, posture, and speed, unlocking diverse downstream tasks: crouching, hopping, high-speed running, stair traversal, bracing against shoves, rhythmic dance, and more. Video and code release: https://gmargo11.github.io/walk-these-ways/
translated by 谷歌翻译
由于涉及的复杂动态和多标准优化,控制非静态双模型机器人具有挑战性。最近的作品已经证明了深度加强学习(DRL)的仿真和物理机器人的有效性。在这些方法中,通常总共总共汇总来自不同标准的奖励以学习单个值函数。但是,这可能导致混合奖励之间的依赖信息丢失并导致次优策略。在这项工作中,我们提出了一种新颖的奖励自适应加强学习,用于Biped运动,允许控制策略通过使用动态机制通过多标准同时优化。该方法应用多重批评,为每个奖励组件学习单独的值函数。这导致混合政策梯度。我们进一步提出了动态权重,允许每个组件以不同的优先级优化策略。这种混合动态和动态策略梯度(HDPG)设计使代理商更有效地学习。我们表明所提出的方法优于总结奖励方法,能够转移到物理机器人。 SIM-to-Real和Mujoco结果进一步证明了HDPG的有效性和泛化。
translated by 谷歌翻译
我们解决了动态环境中感知力的问题。在这个问题中,四足动物的机器人必须对环境混乱和移动的障碍物表现出强大而敏捷的步行行为。我们提出了一个名为Prelude的分层学习框架,该框架将感知力的问题分解为高级决策,以预测导航命令和低级步态生成以实现目标命令。在此框架中,我们通过在可进入手推车上收集的人类示范和使用加固学习(RL)的低级步态控制器(RL)上收集的人类示范中的模仿学习来训练高级导航控制器。因此,我们的方法可以从人类监督中获取复杂的导航行为,并从反复试验中发现多功能步态。我们证明了方法在模拟和硬件实验中的有效性。可以在https://ut-aut-autin-rpl.github.io/prelude上找到视频和代码。
translated by 谷歌翻译
深度加强学习为雄心机器人提供了坚定的地形的强大运动政策。迄今为止,很少有研究已经利用基于模型的方法来将这些运动技能与机械手的精确控制相结合。在这里,我们将外部动态计划纳入了基于学习的移动操纵的机置策略。我们通过在模拟中应用机器人基础上的随机扳手序列来培训基础政策,并将有无令的扳手序列预测添加到政策观察。然后,该政策学会抵消部分已知的未来干扰。随机扳手序列被使用与模型预测控制的动态计划生成的扳手预测替换为启用部署。在训练期间,我们向机械手显示零拍摄适应。在硬件上,我们展示了带有外部扳手的腿机器人的稳定运动。
translated by 谷歌翻译
Reinforcement learning holds the promise of enabling autonomous robots to learn large repertoires of behavioral skills with minimal human intervention. However, robotic applications of reinforcement learning often compromise the autonomy of the learning process in favor of achieving training times that are practical for real physical systems. This typically involves introducing hand-engineered policy representations and human-supplied demonstrations. Deep reinforcement learning alleviates this limitation by training general-purpose neural network policies, but applications of direct deep reinforcement learning algorithms have so far been restricted to simulated settings and relatively simple tasks, due to their apparent high sample complexity. In this paper, we demonstrate that a recent deep reinforcement learning algorithm based on offpolicy training of deep Q-functions can scale to complex 3D manipulation tasks and can learn deep neural network policies efficiently enough to train on real physical robots. We demonstrate that the training times can be further reduced by parallelizing the algorithm across multiple robots which pool their policy updates asynchronously. Our experimental evaluation shows that our method can learn a variety of 3D manipulation skills in simulation and a complex door opening skill on real robots without any prior demonstrations or manually designed representations.
translated by 谷歌翻译
强化学习(RL)是一种基于代理的方法,可以教机器人在物理世界中导航。已知收集RL的数据是一项费力的任务,现实世界实验可能会冒险。模拟器以更快,更具成本效益的方式促进培训数据的收集。但是,RL经常需要大量的仿真步骤才能使代理在简单任务上变得熟练。这是基于RL的视觉四面导航字段中普遍的问题,其中状态尺寸通常非常大,动态模型很复杂。此外,渲染图像和获得代理的物理特性在计算上可能很昂贵。为了解决这个问题,我们提出了一个基于Airsim的模拟框架,该框架提供了有效的并行训练。在此框架的基础上,APE-X经过修改,以结合空调环境的分散培训,以利用众多网络计算机。通过实验,我们能够使用上述框架将训练时间从3.9小时减少到11分钟,总共有74个代理和两台网络计算机。可以在https://sites.google.com/view/prl4airsim/home上找到有关我们项目Prl4airsim的更多详细信息和有关我们项目的视频。
translated by 谷歌翻译
In this work, we show how to learn a visual walking policy that only uses a monocular RGB camera and proprioception. Since simulating RGB is hard, we necessarily have to learn vision in the real world. We start with a blind walking policy trained in simulation. This policy can traverse some terrains in the real world but often struggles since it lacks knowledge of the upcoming geometry. This can be resolved with the use of vision. We train a visual module in the real world to predict the upcoming terrain with our proposed algorithm Cross-Modal Supervision (CMS). CMS uses time-shifted proprioception to supervise vision and allows the policy to continually improve with more real-world experience. We evaluate our vision-based walking policy over a diverse set of terrains including stairs (up to 19cm high), slippery slopes (inclination of 35 degrees), curbs and tall steps (up to 20cm), and complex discrete terrains. We achieve this performance with less than 30 minutes of real-world data. Finally, we show that our policy can adapt to shifts in the visual field with a limited amount of real-world experience. Video results and code at https://antonilo.github.io/vision_locomotion/.
translated by 谷歌翻译
为了使腿部机器人与人类和动物的运动能力相匹配,它们不仅必须产生强大的周期性步行和跑步,而且还必须在名义运动步态和更专业的瞬态操纵之间无缝切换。尽管最近在两足机器人的控制方面取得了进步,但几乎没有集中精力产生高度动态的行为。利用强化学习制定控制腿机器人的政策的最新工作表明,在产生强大的步行行为方面取得了成功。但是,这些学识渊博的政策难以在单个网络上表达多种不同行为。受腿部机器人的常规优化控制技术的启发,这项工作应用了一个经常性的策略来执行四步,90度转弯,使用从优化的单个刚体模型轨迹生成的参考数据进行了训练。我们提出了一个新型的培训框架,该培训框架使用结尾终端奖励从预先计算的轨迹数据中学习特定行为,并证明了双皮亚机器人Cassie上的硬件成功转移。
translated by 谷歌翻译