训练深度强化学习(DRL)运动策略通常需要大量数据以融合到所需的行为。在这方面,模拟器提供了便宜而丰富的来源。对于成功的SIM到现实转移,通常采用详尽的设计方法,例如系统识别,动态随机化和域的适应性。作为替代方案,我们研究了一种简单的随机力注射策略(RFI),以在训练过程中扰动系统动力学。我们表明,随机力的应用使我们能够模拟动力学随机化。这使我们能够获得对系统动力学变化的强大运动策略。我们通过引入情节驱动偏移,进一步扩展了RFI,称为延长的随机力注射(ERFI)。我们证明,ERFI为系统质量提供的变化提供了额外的鲁棒性,平均提供了比RFI的性能提高61%。我们还表明,ERFI足以在两个不同的四足动物平台(Anymal C和Unitree A1)上成功进行SIM到真实传输,即使在户外环境中对不均匀的地形上的感知运动也是如此。
translated by 谷歌翻译
Legged robots pose one of the greatest challenges in robotics. Dynamic and agile maneuvers of animals cannot be imitated by existing methods that are crafted by humans. A compelling alternative is reinforcement learning, which requires minimal craftsmanship and promotes the natural evolution of a control policy. However, so far, reinforcement learning research for legged robots is mainly limited to simulation, and only few and comparably simple examples have been deployed on real systems. The primary reason is that training with real robots, particularly with dynamically balancing systems, is complicated and expensive. In the present work, we report a new method for training a neural network policy in simulation and transferring it to a state-of-the-art legged system, thereby we leverage fast, automated, and cost-effective data generation schemes. The approach is applied to the ANYmal robot, a sophisticated medium-dog-sized quadrupedal system. Using policies trained in simulation, the quadrupedal machine achieves locomotion skills that go beyond what had been achieved with prior methods: ANYmal is capable of precisely and energy-efficiently following high-level body velocity commands, running faster than ever before, and recovering from falling even in complex configurations.
translated by 谷歌翻译
腿部运动的最新进展使四足动物在具有挑战性的地形上行走。但是,两足机器人本质上更加不稳定,因此很难为其设计步行控制器。在这项工作中,我们利用了对机车控制的快速适应的最新进展,并将其扩展到双皮亚机器人。与现有作品类似,我们从基本策略开始,该策略在将适应模块的输入中作为输入作为输入。该外部媒介包含有关环境的信息,并使步行控制器能够快速在线适应。但是,外部估计器可能是不完善的,这可能导致基本政策的性能不佳,这预计是一个完美的估计器。在本文中,我们提出了A-RMA(Adapting RMA),该A-RMA(适应RMA)还通过使用无模型RL对其进行了鉴定,从而适应了不完美的外部外部估计器的基本策略。我们证明,A-RMA在仿真中胜过许多基于RL的基线控制器和基于模型的控制器,并显示了单个A-RMA策略的零拍摄部署,以使双皮德机器人Cassie能够在各种各样的现实世界中的不同场景超出了培训期间所见。 https://ashish-kmr.github.io/a-rma/的视频和结果
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
Reinforcement Learning (RL) has seen many recent successes for quadruped robot control. The imitation of reference motions provides a simple and powerful prior for guiding solutions towards desired solutions without the need for meticulous reward design. While much work uses motion capture data or hand-crafted trajectories as the reference motion, relatively little work has explored the use of reference motions coming from model-based trajectory optimization. In this work, we investigate several design considerations that arise with such a framework, as demonstrated through four dynamic behaviours: trot, front hop, 180 backflip, and biped stepping. These are trained in simulation and transferred to a physical Solo 8 quadruped robot without further adaptation. In particular, we explore the space of feed-forward designs afforded by the trajectory optimizer to understand its impact on RL learning efficiency and sim-to-real transfer. These findings contribute to the long standing goal of producing robot controllers that combine the interpretability and precision of model-based optimization with the robustness that model-free RL-based controllers offer.
translated by 谷歌翻译
近年来,商业上可用和负担得起的四足动物机器人激增,其中许多平台在研究和行业中都被积极使用。随着腿部机器人的可用性的增长,对这些机器人能够执行有用技能的控制器的需求也是如此。但是,大多数用于控制器开发的基于学习的框架都集中在培训机器人特定的控制器上,该过程需要为每个新机器人重复。在这项工作中,我们引入了一个用于训练四足机器人的广义运动(Genloco)控制器的框架。我们的框架合成了可以部署在具有相似形态的各种四足动物的机器人上的通用运动控制器。我们提出了一种简单但有效的形态随机化方法,该方法在程序上生成了一组训练的模拟机器人。我们表明,通过对这套模拟机器人进行训练,我们的模型获得了更多的通用控制策略,这些策略可以直接转移到具有多种形态的新型模拟和真实世界机器人中,在训练过程中未观察到。
translated by 谷歌翻译
随着腿部机器人和嵌入式计算都变得越来越有能力,研究人员已经开始专注于这些机器人的现场部署。在非结构化环境中的强大自治需要对机器人周围的世界感知,以避免危害。但是,由于处理机车动力学所需的复杂规划人员和控制器,因此在网上合并在线的同时在线保持敏捷运动对腿部机器人更具挑战性。该报告将比较三种最新的感知运动方法,并讨论可以使用视觉来实现腿部自主权的不同方式。
translated by 谷歌翻译
Learned locomotion policies can rapidly adapt to diverse environments similar to those experienced during training but lack a mechanism for fast tuning when they fail in an out-of-distribution test environment. This necessitates a slow and iterative cycle of reward and environment redesign to achieve good performance on a new task. As an alternative, we propose learning a single policy that encodes a structured family of locomotion strategies that solve training tasks in different ways, resulting in Multiplicity of Behavior (MoB). Different strategies generalize differently and can be chosen in real-time for new tasks or environments, bypassing the need for time-consuming retraining. We release a fast, robust open-source MoB locomotion controller, Walk These Ways, that can execute diverse gaits with variable footswing, posture, and speed, unlocking diverse downstream tasks: crouching, hopping, high-speed running, stair traversal, bracing against shoves, rhythmic dance, and more. Video and code release: https://gmargo11.github.io/walk-these-ways/
translated by 谷歌翻译
我们解决了动态环境中感知力的问题。在这个问题中,四足动物的机器人必须对环境混乱和移动的障碍物表现出强大而敏捷的步行行为。我们提出了一个名为Prelude的分层学习框架,该框架将感知力的问题分解为高级决策,以预测导航命令和低级步态生成以实现目标命令。在此框架中,我们通过在可进入手推车上收集的人类示范和使用加固学习(RL)的低级步态控制器(RL)上收集的人类示范中的模仿学习来训练高级导航控制器。因此,我们的方法可以从人类监督中获取复杂的导航行为,并从反复试验中发现多功能步态。我们证明了方法在模拟和硬件实验中的有效性。可以在https://ut-aut-autin-rpl.github.io/prelude上找到视频和代码。
translated by 谷歌翻译
本文提出了针对四方的通用自适应控制器,可以将其部署为零射击到具有截然不同的质量,手臂长度和运动常数的四轮驱动器,并且还显示出对运行时未知干扰的快速适应。核心算法的想法是学习一个单一的策略,该策略不仅可以在测试时间在线适应无人机的干扰,还可以在同一框架中适用于机器人动力学和硬件。我们通过训练神经网络来估计机器人和环境参数的潜在表示,该参数用于调节控制器的行为,也表示为神经网络。我们专门训练两个网络进行模拟,目的是将四轮驱动器飞往目标位置并避免撞击地面。我们直接在模拟中训练了相同的控制器,而没有对两个四肢旋转器进行任何修改,其中质量,惯性差异差异,最大电动机速度最大为4次。此外,我们显示了四肢和惯性的突然和大型干扰(最高35.7%)的快速适应。我们在模拟和物理世界中进行了广泛的评估,在该评估中,我们的表现优于最先进的基于学习的自适应控制器和专门针对每个平台的传统PID控制器。视频结果可以在https://dz298.github.io/universal-drone-controller/上找到。
translated by 谷歌翻译
通过腿部机器人在具有挑战性的环境上进行本地导航的通用方法需要路径计划,路径跟随和运动,这通常需要机动控制策略,以准确跟踪指挥速度。但是,通过将导航问题分解为这些子任务,我们限制了机器人的功能,因为各个任务不考虑完整的解决方案空间。在这项工作中,我们建议通过深入强化学习来训练端到端政策来解决完整的问题。机器人不必在提供的时间内到达目标位置,而不是不断跟踪预算的路径。该任务的成功仅在情节结束时进行评估,这意味着该策略不需要尽快到达目标。可以免费选择其路径和运动步态。以这种方式培训政策可以打开更多可能的解决方案,这使机器人能够学习更多复杂的行为。我们比较我们的速度跟踪方法,并表明任务奖励的时间依赖性对于成功学习这些新行为至关重要。最后,我们证明了在真正的四足动物机器人上成功部署政策。机器人能够跨越具有挑战性的地形,这是以前无法实现的,同时使用更节能的步态并达到更高的成功率。
translated by 谷歌翻译
基于腿部机器人的基于深的加固学习(RL)控制器表现出令人印象深刻的鲁棒性,可在不同的环境中为多个机器人平台行走。为了在现实世界中启用RL策略为类人类机器人应用,至关重要的是,建立一个可以在2D和3D地形上实现任何方向行走的系统,并由用户命令控制。在本文中,我们通过学习遵循给定步骤序列的政策来解决这个问题。该政策在一组程序生成的步骤序列(也称为脚步计划)的帮助下进行培训。我们表明,仅将即将到来的2个步骤喂入政策就足以实现全向步行,安装到位,站立和攀登楼梯。我们的方法采用课程学习对地形的复杂性,并规避了参考运动或预训练的权重的需求。我们证明了我们提出的方法在Mujoco仿真环境中学习2个新机器人平台的RL策略-HRP5P和JVRC -1-。可以在线获得培训和评估的代码。
translated by 谷歌翻译
深度加强学习为雄心机器人提供了坚定的地形的强大运动政策。迄今为止,很少有研究已经利用基于模型的方法来将这些运动技能与机械手的精确控制相结合。在这里,我们将外部动态计划纳入了基于学习的移动操纵的机置策略。我们通过在模拟中应用机器人基础上的随机扳手序列来培训基础政策,并将有无令的扳手序列预测添加到政策观察。然后,该政策学会抵消部分已知的未来干扰。随机扳手序列被使用与模型预测控制的动态计划生成的扳手预测替换为启用部署。在训练期间,我们向机械手显示零拍摄适应。在硬件上,我们展示了带有外部扳手的腿机器人的稳定运动。
translated by 谷歌翻译
如果我们想在将它们部署在现实中之前在模拟中训练机器人,那么假定减少SIM2REAL差距的人似乎很自然,并且几乎是不言而喻的,涉及创建富裕性的模拟器(因为现实就是事实)。我们挑战了这一假设并提出了相反的假设-SIM2REAL转移机器人可以通过较低(不是更高)的保真度模拟来改善。我们使用3种不同的机器人(A1,Aliengo,Spot)对这一假设进行了系统的大规模评估 - 在现实世界中以及2个不同的模拟器(栖息地和Igibson)。我们的结果表明,与期望相反,增加忠诚无助于学习。由于模拟速度缓慢(防止大规模学习)和对模拟物理学不准确的过度拟合,因此性能较差。取而代之的是,使用现实世界数据构建机器人运动的简单模型可以改善学习和概括。
translated by 谷歌翻译
在腿部机器人的机车上,执行高度敏捷的动态动作,例如跳跃或跑步的踏板乐队,这仍然是一个挑战性的问题。本文提出了一个框架,该框架结合了轨迹优化和模型预测控制,以在踏脚石上执行强大的连续跳跃。在我们的方法中,我们首先利用基于机器人的全非线性动力学的轨迹优化来生成各种跳跃距离的周期性跳跃轨迹。然后,基于模型预测控制的跳跃控制器设计用于实现平滑的跳跃过渡,从而使机器人能够在步进石上实现连续跳跃。得益于将MPC作为实时反馈控制器的合并,该提议的框架也得到了验证,可以对机器人动力学上的高度扰动和模型不确定性具有不均匀的平台。
translated by 谷歌翻译
对于较高的自由度机器人,质量基质,科里奥利和离心力和重力矩阵在计算上很重,需要长时间执行。由于程序的顺序结构,多层处理器无法提高性能。需要高处理能力来维持更高的采样率。基于神经网络的控制是开发顺序模型的平行等效模型的绝佳方法。在本文中,基于深度学习算法的控制器设计为7度的自由外骨骼机器人。总共49个密集连接的神经元分为四层,以估计跟踪轨迹的关节扭矩要求。为了培训,提出了基于深度神经网络分析模型的数据生成技术。添加了PD控制器来处理预测错误。由于深度学习网络具有并行结构,因此使用多核CPU/GPU可以显着提高控制器的性能。仿真结果显示出非常高的轨迹跟踪精度。
translated by 谷歌翻译
深度强化学习(Deep RL)已成为开发腿部机器人控制器的有效工具。但是,香草深RL通常需要大量的训练样本,并且对于实现强大的行为不可行。取而代之的是,研究人员通过合并人类专家的知识来调查一种新颖的政策架构,例如调节轨迹发生器(PMTG)的政策。该体系结构通过组合参数轨迹生成器(TG)和反馈策略网络来构建一个经常性的控制循环,以实现更强大的行为。为了利用人类专家的知识,但消除了耗时的互动教学,研究人员调查了一种新颖的架构,策略调节轨迹发生器(PMTG),该建筑通过结合参数轨迹生成器(TG)和反馈策略来构建经常性的控制循环网络使用直观的先验知识来实现​​更强大的行为。在这项工作中,我们建议通过使用接触感知的有限状态机器(FSM)代替TG来调整有限状态机(PM-FSM),从而为每条腿提供更灵活的控制。与TGS相比,FSM在每个腿部运动生成器上提供高级管理,并实现灵活的状态安排,这使得学习的行为不那么容易受到看不见的扰动或具有挑战性的地形。本发明为政策提供了明确的联系事件的概念,以协商意外的扰动。我们证明,在模拟机器人和真实的机器人上,所提出的架构可以在各种情况下(例如具有挑战性的地形或外部扰动)实现更强大的行为。补充视频可以在以下网址找到:https://youtu.be/78cbomqtkjq。
translated by 谷歌翻译
在腿部机器人技术中,计划和执行敏捷的机动演习一直是一个长期的挑战。它需要实时得出运动计划和本地反馈政策,以处理动力学动量的非物质。为此,我们提出了一个混合预测控制器,该控制器考虑了机器人的致动界限和全身动力学。它将反馈政策与触觉信息相结合,以在本地预测未来的行动。由于采用可行性驱动的方法,它在几毫秒内收敛。我们的预测控制器使Anymal机器人能够在现实的场景中生成敏捷操作。关键要素是跟踪本地反馈策略,因为与全身控制相反,它们达到了所需的角动量。据我们所知,我们的预测控制器是第一个处理驱动限制,生成敏捷的机动操作以及执行低级扭矩控制的最佳反馈策略,而无需使用单独的全身控制器。
translated by 谷歌翻译
我们解决了使四足机器人能够使用强化学习在现实世界中执行精确的射击技巧的问题。开发算法使腿部机器人能够向给定的目标射击足球,这是一个具有挑战性的问题,它将机器人运动控制和计划结合到一项任务中。为了解决这个问题,我们需要考虑控制动态腿部机器人期间的动态限制和运动稳定性。此外,我们需要考虑运动计划,以在地面上射击难以模拟的可变形球,并不确定摩擦到所需的位置。在本文中,我们提出了一个层次结构框架,该框架利用深厚的强化学习来训练(a)强大的运动控制政策,可以跟踪任意动议,以及(b)一项计划政策,以决定所需的踢球运动将足球射击到目标。我们将提议的框架部署在A1四足动物机器人上,使其能够将球准确地射击到现实世界中的随机目标。
translated by 谷歌翻译
In this paper, we present a framework for learning quadruped navigation by integrating central pattern generators (CPGs), i.e. systems of coupled oscillators, into the deep reinforcement learning (DRL) framework. Through both exteroceptive and proprioceptive sensing, the agent learns to modulate the intrinsic oscillator setpoints (amplitude and frequency) and coordinate rhythmic behavior among different oscillators to track velocity commands while avoiding collisions with the environment. We compare different neural network architectures (i.e. memory-free and memory-enabled) which learn implicit interoscillator couplings, as well as varying the strength of the explicit coupling weights in the oscillator dynamics equations. We train our policies in simulation and perform a sim-to-real transfer to the Unitree Go1 quadruped, where we observe robust navigation in a variety of scenarios. Our results show that both memory-enabled policy representations and explicit interoscillator couplings are beneficial for a successful sim-to-real transfer for navigation tasks. Video results can be found at https://youtu.be/O_LX1oLZOe0.
translated by 谷歌翻译