在本文中,我们提出了一个可靠的控制器,该控制器在真正的盲人四足机器人上实现了自然且稳定的快速运动。只有本体感受信息,四足机器人的身体长度最大速度可以移动10倍,并且具有通过各种复杂地形的能力。通过无模型的强化学习,在模拟环境中训练控制器。在本文中,拟议的宽松邻里控制体系结构不仅保证了学习率,而且还获得了一个易于转移到真正四倍的机器人的动作网络。我们的研究发现,训练过程中存在数据对称性损失的问题,这导致学习控制器在左右对称的四倍体机器人结构上的性能不平衡,并提出了一个镜像世界神经网络来解决性能问题。由Mirror-World网络组成的学习控制器可以使机器人具有出色的反扰动能力。训练架构中没有使用特定的人类知识,例如脚部轨迹发生器。学识渊博的控制器可以协调机器人的步态频率和运动速度,并且与人工设计的控制器相比,运动模式更自然,更合理。我们的控制器具有出色的抗扰动性能,并且具有良好的概括能力,可以达到从未学到的运动速度,并且从未见过的地形。
translated by 谷歌翻译
Legged robots pose one of the greatest challenges in robotics. Dynamic and agile maneuvers of animals cannot be imitated by existing methods that are crafted by humans. A compelling alternative is reinforcement learning, which requires minimal craftsmanship and promotes the natural evolution of a control policy. However, so far, reinforcement learning research for legged robots is mainly limited to simulation, and only few and comparably simple examples have been deployed on real systems. The primary reason is that training with real robots, particularly with dynamically balancing systems, is complicated and expensive. In the present work, we report a new method for training a neural network policy in simulation and transferring it to a state-of-the-art legged system, thereby we leverage fast, automated, and cost-effective data generation schemes. The approach is applied to the ANYmal robot, a sophisticated medium-dog-sized quadrupedal system. Using policies trained in simulation, the quadrupedal machine achieves locomotion skills that go beyond what had been achieved with prior methods: ANYmal is capable of precisely and energy-efficiently following high-level body velocity commands, running faster than ever before, and recovering from falling even in complex configurations.
translated by 谷歌翻译
通过腿部机器人在具有挑战性的环境上进行本地导航的通用方法需要路径计划,路径跟随和运动,这通常需要机动控制策略,以准确跟踪指挥速度。但是,通过将导航问题分解为这些子任务,我们限制了机器人的功能,因为各个任务不考虑完整的解决方案空间。在这项工作中,我们建议通过深入强化学习来训练端到端政策来解决完整的问题。机器人不必在提供的时间内到达目标位置,而不是不断跟踪预算的路径。该任务的成功仅在情节结束时进行评估,这意味着该策略不需要尽快到达目标。可以免费选择其路径和运动步态。以这种方式培训政策可以打开更多可能的解决方案,这使机器人能够学习更多复杂的行为。我们比较我们的速度跟踪方法,并表明任务奖励的时间依赖性对于成功学习这些新行为至关重要。最后,我们证明了在真正的四足动物机器人上成功部署政策。机器人能够跨越具有挑战性的地形,这是以前无法实现的,同时使用更节能的步态并达到更高的成功率。
translated by 谷歌翻译
Some of the most challenging environments on our planet are accessible to quadrupedal animals but remain out of reach for autonomous machines. Legged locomotion can dramatically expand the operational domains of robotics. However, conventional controllers for legged locomotion are based on elaborate state machines that explicitly trigger the execution of motion primitives and reflexes. These designs have escalated in complexity while falling short of the generality and robustness of animal locomotion. Here we present a radically robust controller for legged locomotion in challenging natural environments. We present a novel solution to incorporating proprioceptive feedback in locomotion control and demonstrate remarkable zero-shot generalization from simulation to natural environments. The controller is trained by reinforcement learning in simulation. It is based on a neural network that acts on a stream of proprioceptive signals. The trained controller has taken two generations of quadrupedal ANYmal robots to a variety of natural environments that are beyond the reach of prior published work in legged locomotion. The controller retains its robustness under conditions that have never been encountered during training: deformable terrain such as mud and snow, dynamic footholds such as rubble, and overground impediments such as thick vegetation and gushing water. The presented work opens new frontiers for robotics and indicates that radical robustness in natural environments can be achieved by training in much simpler domains.
translated by 谷歌翻译
随着腿部机器人和嵌入式计算都变得越来越有能力,研究人员已经开始专注于这些机器人的现场部署。在非结构化环境中的强大自治需要对机器人周围的世界感知,以避免危害。但是,由于处理机车动力学所需的复杂规划人员和控制器,因此在网上合并在线的同时在线保持敏捷运动对腿部机器人更具挑战性。该报告将比较三种最新的感知运动方法,并讨论可以使用视觉来实现腿部自主权的不同方式。
translated by 谷歌翻译
基于腿部机器人的基于深的加固学习(RL)控制器表现出令人印象深刻的鲁棒性,可在不同的环境中为多个机器人平台行走。为了在现实世界中启用RL策略为类人类机器人应用,至关重要的是,建立一个可以在2D和3D地形上实现任何方向行走的系统,并由用户命令控制。在本文中,我们通过学习遵循给定步骤序列的政策来解决这个问题。该政策在一组程序生成的步骤序列(也称为脚步计划)的帮助下进行培训。我们表明,仅将即将到来的2个步骤喂入政策就足以实现全向步行,安装到位,站立和攀登楼梯。我们的方法采用课程学习对地形的复杂性,并规避了参考运动或预训练的权重的需求。我们证明了我们提出的方法在Mujoco仿真环境中学习2个新机器人平台的RL策略-HRP5P和JVRC -1-。可以在线获得培训和评估的代码。
translated by 谷歌翻译
我们专注于开发Quadrupedal机器人节能控制器的问题。动物可以以不同的速度积极切换Gaits以降低其能量消耗。在本文中,我们设计了一个分层学习框架,其中独特的运动遗传仪和自然步态过渡自动出现,其能量最小化的简单奖励。我们使用进化策略来培训一个高级步态政策,指定每只脚的步态图案,而低级凸MPC控制器优化电机命令,以便机器人可以使用该步态图案以所需的速度行走。我们在四足机器人上测试我们的学习框架,并展示了自动步态过渡,从步行到小跑和飞行,因为机器人增加了速度。我们表明学习的等级控制器在广泛的运动速度范围内消耗的能量要少于基线控制器。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
Learned locomotion policies can rapidly adapt to diverse environments similar to those experienced during training but lack a mechanism for fast tuning when they fail in an out-of-distribution test environment. This necessitates a slow and iterative cycle of reward and environment redesign to achieve good performance on a new task. As an alternative, we propose learning a single policy that encodes a structured family of locomotion strategies that solve training tasks in different ways, resulting in Multiplicity of Behavior (MoB). Different strategies generalize differently and can be chosen in real-time for new tasks or environments, bypassing the need for time-consuming retraining. We release a fast, robust open-source MoB locomotion controller, Walk These Ways, that can execute diverse gaits with variable footswing, posture, and speed, unlocking diverse downstream tasks: crouching, hopping, high-speed running, stair traversal, bracing against shoves, rhythmic dance, and more. Video and code release: https://gmargo11.github.io/walk-these-ways/
translated by 谷歌翻译
Gaits和Transitions是腿部运动的关键组件。对于腿机器人,描述和再现Gaits以及过渡仍然存在长期挑战。强化学习已成为制定腿机器人控制器的强大工具。然而,学习多次Gaits和Transitions,与多任务学习问题有关。在这项工作中,我们提出了一种新颖的框架,用于培训一个简单的控制策略,以便将四足机器人培训到各种GA足够的机器人。使用四个独立阶段作为步态发生器和控制策略之间的界面,其表征了四英尺的运动。由阶段引导,四叉机器人能够根据生成的遗传率,例如步行,小跑,起搏和边界,并在那些Gaits之间进行过渡。可以使用更多的一般阶段来产生复杂的Gaits,例如混合节奏跳舞。通过控制策略,黑豹机器人是一种中型狗大小的四足机器人,可以在自然环境中平滑且鲁棒地在速度和鲁棒方面进行速度下进行所有学习的电机技能。
translated by 谷歌翻译
深度加强学习为雄心机器人提供了坚定的地形的强大运动政策。迄今为止,很少有研究已经利用基于模型的方法来将这些运动技能与机械手的精确控制相结合。在这里,我们将外部动态计划纳入了基于学习的移动操纵的机置策略。我们通过在模拟中应用机器人基础上的随机扳手序列来培训基础政策,并将有无令的扳手序列预测添加到政策观察。然后,该政策学会抵消部分已知的未来干扰。随机扳手序列被使用与模型预测控制的动态计划生成的扳手预测替换为启用部署。在训练期间,我们向机械手显示零拍摄适应。在硬件上,我们展示了带有外部扳手的腿机器人的稳定运动。
translated by 谷歌翻译
在这项工作中,我们提出了一种方法,用于生成降低的模型参考轨迹,用于用于双皮亚机器人的高度动态操作的一般类别,用于SIM卡之间,用于SIM卡至现实的增强学习。我们的方法是利用单个刚体模型(SRBM)来优化轨迹的库库,以用作学习政策的奖励函数中的专家参考。该方法将模型的动态旋转和翻译行为转化为全阶机器人模型,并成功将其传输到真实硬件。 SRBM的简单性允许快速迭代和行为改进,而基于学习的控制器的鲁棒性则可以将高度动态的动作传输到硬件。 %在这项工作中,我们介绍了一套可转移性约束,将SRBM动态修改为实际的两足机器人硬件,这是我们为动态步进,转动操作和跳跃创建最佳轨迹的框架。在这项工作中,我们介绍了一套可转移性约束,将SRBM动力学修改为实际的双皮亚机器人硬件,我们为各种高度动态的操作创建最佳轨迹的框架,以及我们整合参考轨迹的高速强化跑步轨迹的方法学习政策。我们验证了在两足机器人Cassie上的方法,我们成功地展示了高达3.0 m/s的高度动态接地步态。
translated by 谷歌翻译
在这项工作中,我们为软机器人蛇提供了一种基于学习的目标跟踪控制方法。受到生物蛇的启发,我们的控制器由两个关键模块组成:用于学习靶向轨迹行为的增强学习(RL)模块,给出了软蛇机器人的随机动力学,以及带有Matsuoka振荡器的中央模式生成器(CPG)系统,用于产生稳定而多样的运动模式。基于提议的框架,我们全面讨论了软蛇机器人的可操作性,包括在其蛇形运动期间的转向和速度控制。可以将这种可操作性映射到CPG系统振荡模式的控制中。通过对Matsuoka CPG系统振荡性能的理论分析,这项工作表明,实现我们软蛇机器人的自由移动性的关键是正确限制和控制Matsuoka CpG系统的某些系数比率。基于此分析,我们系统地制定了CPG系统的可控系数,供RL代理运行。通过实验验证,我们表明,在模拟环境中学习的控制政策可以直接应用于控制我们的真正的蛇机器人以执行目标跟踪任务,而不管模拟与现实世界之间的物理环境差距如何。实验结果还表明,与我们先前的方法和基线RL方法(PPO)相比,我们的方法对SIM到现实过渡的适应性和鲁棒性得到了显着改善。
translated by 谷歌翻译
腿部运动的最新进展使四足动物在具有挑战性的地形上行走。但是,两足机器人本质上更加不稳定,因此很难为其设计步行控制器。在这项工作中,我们利用了对机车控制的快速适应的最新进展,并将其扩展到双皮亚机器人。与现有作品类似,我们从基本策略开始,该策略在将适应模块的输入中作为输入作为输入。该外部媒介包含有关环境的信息,并使步行控制器能够快速在线适应。但是,外部估计器可能是不完善的,这可能导致基本政策的性能不佳,这预计是一个完美的估计器。在本文中,我们提出了A-RMA(Adapting RMA),该A-RMA(适应RMA)还通过使用无模型RL对其进行了鉴定,从而适应了不完美的外部外部估计器的基本策略。我们证明,A-RMA在仿真中胜过许多基于RL的基线控制器和基于模型的控制器,并显示了单个A-RMA策略的零拍摄部署,以使双皮德机器人Cassie能够在各种各样的现实世界中的不同场景超出了培训期间所见。 https://ashish-kmr.github.io/a-rma/的视频和结果
translated by 谷歌翻译
在这项工作中,我们介绍并研究了一种培训设置,该培训设置通过在单个工作站GPU上使用大量并行性来实现现实世界机器人任务的快速政策。我们分析和讨论不同培训算法组件在大规模平行制度中对最终政策绩效和培训时间的影响。此外,我们还提供了一种新颖的游戏启发课程,非常适合与数千个模拟机器人并行培训。我们通过训练四足机器人Anymal在具有挑战性的地形上行走来评估该方法。平行方法允许在不到四分钟的时间内对平坦地形进行培训政策,而在二十分钟内,地形不平衡。与以前的工作相比,这代表了多个数量级的加速。最后,我们将政策转移到真实的机器人中以验证该方法。我们开放培训代码,以帮助加速学习的腿部运动领域的进一步研究。
translated by 谷歌翻译
深度强化学习(Deep RL)已成为开发腿部机器人控制器的有效工具。但是,香草深RL通常需要大量的训练样本,并且对于实现强大的行为不可行。取而代之的是,研究人员通过合并人类专家的知识来调查一种新颖的政策架构,例如调节轨迹发生器(PMTG)的政策。该体系结构通过组合参数轨迹生成器(TG)和反馈策略网络来构建一个经常性的控制循环,以实现更强大的行为。为了利用人类专家的知识,但消除了耗时的互动教学,研究人员调查了一种新颖的架构,策略调节轨迹发生器(PMTG),该建筑通过结合参数轨迹生成器(TG)和反馈策略来构建经常性的控制循环网络使用直观的先验知识来实现​​更强大的行为。在这项工作中,我们建议通过使用接触感知的有限状态机器(FSM)代替TG来调整有限状态机(PM-FSM),从而为每条腿提供更灵活的控制。与TGS相比,FSM在每个腿部运动生成器上提供高级管理,并实现灵活的状态安排,这使得学习的行为不那么容易受到看不见的扰动或具有挑战性的地形。本发明为政策提供了明确的联系事件的概念,以协商意外的扰动。我们证明,在模拟机器人和真实的机器人上,所提出的架构可以在各种情况下(例如具有挑战性的地形或外部扰动)实现更强大的行为。补充视频可以在以下网址找到:https://youtu.be/78cbomqtkjq。
translated by 谷歌翻译
现在,最先进的强化学习能够在模拟中学习双皮亚机器人的多功能运动,平衡和推送能力。然而,现实差距大多被忽略了,模拟结果几乎不会转移到真实硬件上。在实践中,它是不成功的,因为物理学过度简化,硬件限制被忽略,或者不能保证规律性,并且可能会发生意外的危险运动。本文提出了一个强化学习框架,该框架能够学习以平稳的开箱即用向现实的转移,仅需要瞬时的本体感受观察,可以学习强大的站立式恢复。通过结合原始的终止条件和政策平滑度调节,我们使用没有记忆力或观察历史的政策实现了稳定的学习,SIM转移和安全性。然后使用奖励成型来提供有关如何保持平衡的见解。我们展示了其在下LIMB医学外骨骼Atalante中的现实表现。
translated by 谷歌翻译
惯性测量单元(IMU)在机器人研究中无处不在。它为机器人提供了姿势信息,以实现平衡和导航。但是,人类和动物可以在没有精确的方向或位置值的情况下感知其身体在环境中的运动。这种互动固有地涉及感知和动作之间的快速反馈回路。这项工作提出了一种端到端方法,该方法使用高维视觉观察和动作命令来训练视觉自模型进行腿部运动。视觉自模型学习机器人身体运动与地面纹理之间的空间关系从图像序列变化。我们证明机器人可以利用视觉自模型来实现机器人在训练过程中看不见的现实环境中的各种运动任务。通过我们提出的方法,机器人可以在没有IMU的情况下或在没有GPS或弱地磁场的环境中进行运动,例如该市的室内和Urban Canyons。
translated by 谷歌翻译
我们解决了动态环境中感知力的问题。在这个问题中,四足动物的机器人必须对环境混乱和移动的障碍物表现出强大而敏捷的步行行为。我们提出了一个名为Prelude的分层学习框架,该框架将感知力的问题分解为高级决策,以预测导航命令和低级步态生成以实现目标命令。在此框架中,我们通过在可进入手推车上收集的人类示范和使用加固学习(RL)的低级步态控制器(RL)上收集的人类示范中的模仿学习来训练高级导航控制器。因此,我们的方法可以从人类监督中获取复杂的导航行为,并从反复试验中发现多功能步态。我们证明了方法在模拟和硬件实验中的有效性。可以在https://ut-aut-autin-rpl.github.io/prelude上找到视频和代码。
translated by 谷歌翻译
能够与环境进行物理相互作用的新型航空车的最新发展导致了新的应用,例如基于接触的检查。这些任务要求机器人系统将力与部分知名的环境交换,这可能包含不确定性,包括未知的空间变化摩擦特性和表面几何形状的不连续变化。找到对这些环境不确定性的强大控制策略仍然是一个公开挑战。本文提出了一种基于学习的自适应控制策略,用于航空滑动任务。特别是,基于当前控制信号,本体感受测量和触觉感应的策略,实时调整了标准阻抗控制器的收益。在学生教师学习设置中,该策略通过简化执行器动力进行了模拟培训。使用倾斜臂全向飞行器验证了所提出方法的现实性能。所提出的控制器结构结合了数据驱动和基于模型的控制方法,使我们的方法能够直接转移并不从模拟转移到真实平台。与微调状态的相互作用控制方法相比,我们达到了减少的跟踪误差和改善的干扰排斥反应。
translated by 谷歌翻译