强化学习(RL)见证了四足动物的大步进展,在可靠的SIM转移到现实的政策转移方面持续进展。但是,重用另一个机器人的政策仍然是一个挑战,这可以节省重新培训的时间。在这项工作中,我们提出了一个用于零射击政策重新定位的框架,其中可以在不同形状和尺寸的机器人之间转移多种运动技能。新框架以系统整合RL和模型预测控制(MPC)的计划和控制管道为中心。计划阶段采用RL来生成动态合理的轨迹以及联系时间表,避免了接触序列优化的组合复杂性。然后,将这些信息用于播种MPC,以通过新的混合运动动力学(HKD)模型稳定和鲁棒性地推出策略,该模型隐含地优化了立足点位置。硬件结果表明能够将政策从A1和Laikago机器人转移到MIT MIT MINI CHEETAH机器人,而无需重新调整政策。
translated by 谷歌翻译
通常,通过解决轨迹优化问题并使用跟踪控制器来执行轨迹,通常在四足机器人上实现了专业运动。这种方法与通常通过在线重新计划控制常规步态的模型预测控制(MPC)策略平行。在这项工作中,我们提出了一种非线性MPC(NMPC)技术,该技术可以在统一框架内自然地重新计划专门运动技能和常规运动。 NMPC有关混合动力学模型的原因,并使用约束差分动态编程(DDP)求解器的变体来解决。拟议的NMPC使机器人能够发挥各种敏捷技能,例如跳跃,边界和小跑,以及这些技能之间的快速过渡。我们通过三个具有挑战性的运动序列评估了提出的算法,这些算法将多个敏捷技能结合在两个四倍的平台,即Unitree A1和MIT Mini Cheetah上,显示了其有效性和通用性。
translated by 谷歌翻译
在这封信中,我们提出了一种多功能的层次离线计划算法,以及用于敏捷四足球运动的在线控制管道。我们的离线规划师在优化降低阶模型和全身轨迹优化的质心动力学之间进行交替,以实现动力学共识。我们使用等椭圆形参数化的新型动量惰性质地优化能够通过``惯性塑造''来产生高度的杂技运动。我们的全身优化方法可显着改善基于标准DDP的方法的质量从质心层中利用反馈。对于在线控制,我们通过完整的质心动力学的线性转换开发了一种新颖的凸模型预测控制方案。我们的控制器可以在单个优化中有效地对接触力和关节加速度有效地优化,从而实现更直接的加速度,从而实现更直接的优化与现有四倍体MPC控制器相比,跟踪动量丰富的动作。我们在四个不同的动态操作中证明了我们的轨迹计划者的能力和通用性。然后,我们在MIT MINI Cheetah平台上展示了​​一个硬件实验,以证明整个计划的性能和整个计划的性能和性能扭曲的控制管道跳动。
translated by 谷歌翻译
我们解决了使四足机器人能够使用强化学习在现实世界中执行精确的射击技巧的问题。开发算法使腿部机器人能够向给定的目标射击足球,这是一个具有挑战性的问题,它将机器人运动控制和计划结合到一项任务中。为了解决这个问题,我们需要考虑控制动态腿部机器人期间的动态限制和运动稳定性。此外,我们需要考虑运动计划,以在地面上射击难以模拟的可变形球,并不确定摩擦到所需的位置。在本文中,我们提出了一个层次结构框架,该框架利用深厚的强化学习来训练(a)强大的运动控制政策,可以跟踪任意动议,以及(b)一项计划政策,以决定所需的踢球运动将足球射击到目标。我们将提议的框架部署在A1四足动物机器人上,使其能够将球准确地射击到现实世界中的随机目标。
translated by 谷歌翻译
为了使腿部机器人与人类和动物的运动能力相匹配,它们不仅必须产生强大的周期性步行和跑步,而且还必须在名义运动步态和更专业的瞬态操纵之间无缝切换。尽管最近在两足机器人的控制方面取得了进步,但几乎没有集中精力产生高度动态的行为。利用强化学习制定控制腿机器人的政策的最新工作表明,在产生强大的步行行为方面取得了成功。但是,这些学识渊博的政策难以在单个网络上表达多种不同行为。受腿部机器人的常规优化控制技术的启发,这项工作应用了一个经常性的策略来执行四步,90度转弯,使用从优化的单个刚体模型轨迹生成的参考数据进行了训练。我们提出了一个新型的培训框架,该培训框架使用结尾终端奖励从预先计算的轨迹数据中学习特定行为,并证明了双皮亚机器人Cassie上的硬件成功转移。
translated by 谷歌翻译
具有长飞行阶段的高度敏捷杂技动作需要完美的时机,高精度,以及整个身体运动的协调。为了解决这些挑战,本文提出了一个统一的时序和轨迹优化框架,可用于执行激进的3D跳跃的腿机器人。在我们的方法中,我们首先利用了有效的优化框架,使用简化的刚体动力学来解决机器人身体的接触时间和参考轨迹。然后使用该模块的解决方案基于机器人的全部非线性动力学制定全身轨迹优化。这种组合允许我们有效地优化接触定时,同时保证可以在硬件中实现的跳跃轨迹的准确性。我们在A1机器人模型上验证了所提出的框架,以获得各种3D跳跃任务,如双后跳和双桶分别从2M和0.8米的高海拔滚动。对于不同的3D跳跃动作,还成功地进行了实验验证,例如来自盒子或对角线跳转的桶卷。
translated by 谷歌翻译
Reinforcement Learning (RL) has seen many recent successes for quadruped robot control. The imitation of reference motions provides a simple and powerful prior for guiding solutions towards desired solutions without the need for meticulous reward design. While much work uses motion capture data or hand-crafted trajectories as the reference motion, relatively little work has explored the use of reference motions coming from model-based trajectory optimization. In this work, we investigate several design considerations that arise with such a framework, as demonstrated through four dynamic behaviours: trot, front hop, 180 backflip, and biped stepping. These are trained in simulation and transferred to a physical Solo 8 quadruped robot without further adaptation. In particular, we explore the space of feed-forward designs afforded by the trajectory optimizer to understand its impact on RL learning efficiency and sim-to-real transfer. These findings contribute to the long standing goal of producing robot controllers that combine the interpretability and precision of model-based optimization with the robustness that model-free RL-based controllers offer.
translated by 谷歌翻译
在腿部机器人技术中,计划和执行敏捷的机动演习一直是一个长期的挑战。它需要实时得出运动计划和本地反馈政策,以处理动力学动量的非物质。为此,我们提出了一个混合预测控制器,该控制器考虑了机器人的致动界限和全身动力学。它将反馈政策与触觉信息相结合,以在本地预测未来的行动。由于采用可行性驱动的方法,它在几毫秒内收敛。我们的预测控制器使Anymal机器人能够在现实的场景中生成敏捷操作。关键要素是跟踪本地反馈策略,因为与全身控制相反,它们达到了所需的角动量。据我们所知,我们的预测控制器是第一个处理驱动限制,生成敏捷的机动操作以及执行低级扭矩控制的最佳反馈策略,而无需使用单独的全身控制器。
translated by 谷歌翻译
我们专注于开发Quadrupedal机器人节能控制器的问题。动物可以以不同的速度积极切换Gaits以降低其能量消耗。在本文中,我们设计了一个分层学习框架,其中独特的运动遗传仪和自然步态过渡自动出现,其能量最小化的简单奖励。我们使用进化策略来培训一个高级步态政策,指定每只脚的步态图案,而低级凸MPC控制器优化电机命令,以便机器人可以使用该步态图案以所需的速度行走。我们在四足机器人上测试我们的学习框架,并展示了自动步态过渡,从步行到小跑和飞行,因为机器人增加了速度。我们表明学习的等级控制器在广泛的运动速度范围内消耗的能量要少于基线控制器。
translated by 谷歌翻译
在腿的运动中重新规划对于追踪所需的用户速度,在适应地形并拒绝外部干扰的同时至关重要。在这项工作中,我们提出并测试了实验中的实时非线性模型预测控制(NMPC),用于腿部机器人,以实现各种地形上的动态运动。我们引入了一种基于移动性的标准来定义NMPC成本,增强了二次机器人的运动,同时最大化腿部移动性并提高对地形特征的适应。我们的NMPC基于实时迭代方案,使我们能够以25美元的价格重新计划在线,\ Mathrm {Hz} $ 2 $ 2 $ 2美元的预测地平线。我们使用在质量框架中心中定义的单个刚体动态模型,以提高计算效率。在仿真中,测试NMPC以横穿一组不同尺寸的托盘,走进V形烟囱,并在崎岖的地形上招揽。在真实实验中,我们展示了我们的NMPC与移动功能的有效性,使IIT为87美元\,\ Mathrm {kg} $四分之一的机器人HIQ,以实现平坦地形上的全方位步行,横穿静态托盘,并适应在散步期间重新定位托盘。
translated by 谷歌翻译
This paper presents a state-of-the-art optimal controller for quadruped locomotion. The robot dynamics is represented using a single rigid body (SRB) model. A linear time-varying model predictive controller (LTV MPC) is proposed by using linearization schemes. Simulation results show that the LTV MPC can execute various gaits, such as trot and crawl, and is capable of tracking desired reference trajectories even under unknown external disturbances. The LTV MPC is implemented as a quadratic program using qpOASES through the CasADi interface at 50 Hz. The proposed MPC can reach up to 1 m/s top speed with an acceleration of 0.5 m/s2 executing a trot gait. The implementation is available at https:// github.com/AndrewZheng-1011/Quad_ConvexMPC
translated by 谷歌翻译
在粗糙的地形上的动态运动需要准确的脚部放置,避免碰撞以及系统的动态不足的计划。在存在不完美且常常不完整的感知信息的情况下,可靠地优化此类动作和互动是具有挑战性的。我们提出了一个完整的感知,计划和控制管道,可以实时优化机器人所有自由度的动作。为了减轻地形所带来的数值挑战,凸出不平等约束的顺序被提取为立足性可行性的局部近似值,并嵌入到在线模型预测控制器中。每个高程映射预先计算了步骤性分类,平面分割和签名的距离场,以最大程度地减少优化过程中的计算工作。多次射击,实时迭代和基于滤波器的线路搜索的组合用于可靠地以高速率解决该法式问题。我们在模拟中的间隙,斜率和踏上石头的情况下验证了所提出的方法,并在Anymal四倍的平台上进行实验,从而实现了最新的动态攀登。
translated by 谷歌翻译
Legged robots pose one of the greatest challenges in robotics. Dynamic and agile maneuvers of animals cannot be imitated by existing methods that are crafted by humans. A compelling alternative is reinforcement learning, which requires minimal craftsmanship and promotes the natural evolution of a control policy. However, so far, reinforcement learning research for legged robots is mainly limited to simulation, and only few and comparably simple examples have been deployed on real systems. The primary reason is that training with real robots, particularly with dynamically balancing systems, is complicated and expensive. In the present work, we report a new method for training a neural network policy in simulation and transferring it to a state-of-the-art legged system, thereby we leverage fast, automated, and cost-effective data generation schemes. The approach is applied to the ANYmal robot, a sophisticated medium-dog-sized quadrupedal system. Using policies trained in simulation, the quadrupedal machine achieves locomotion skills that go beyond what had been achieved with prior methods: ANYmal is capable of precisely and energy-efficiently following high-level body velocity commands, running faster than ever before, and recovering from falling even in complex configurations.
translated by 谷歌翻译
在这项工作中,我们提出了一种方法,用于生成降低的模型参考轨迹,用于用于双皮亚机器人的高度动态操作的一般类别,用于SIM卡之间,用于SIM卡至现实的增强学习。我们的方法是利用单个刚体模型(SRBM)来优化轨迹的库库,以用作学习政策的奖励函数中的专家参考。该方法将模型的动态旋转和翻译行为转化为全阶机器人模型,并成功将其传输到真实硬件。 SRBM的简单性允许快速迭代和行为改进,而基于学习的控制器的鲁棒性则可以将高度动态的动作传输到硬件。 %在这项工作中,我们介绍了一套可转移性约束,将SRBM动态修改为实际的两足机器人硬件,这是我们为动态步进,转动操作和跳跃创建最佳轨迹的框架。在这项工作中,我们介绍了一套可转移性约束,将SRBM动力学修改为实际的双皮亚机器人硬件,我们为各种高度动态的操作创建最佳轨迹的框架,以及我们整合参考轨迹的高速强化跑步轨迹的方法学习政策。我们验证了在两足机器人Cassie上的方法,我们成功地展示了高达3.0 m/s的高度动态接地步态。
translated by 谷歌翻译
深度加强学习为雄心机器人提供了坚定的地形的强大运动政策。迄今为止,很少有研究已经利用基于模型的方法来将这些运动技能与机械手的精确控制相结合。在这里,我们将外部动态计划纳入了基于学习的移动操纵的机置策略。我们通过在模拟中应用机器人基础上的随机扳手序列来培训基础政策,并将有无令的扳手序列预测添加到政策观察。然后,该政策学会抵消部分已知的未来干扰。随机扳手序列被使用与模型预测控制的动态计划生成的扳手预测替换为启用部署。在训练期间,我们向机械手显示零拍摄适应。在硬件上,我们展示了带有外部扳手的腿机器人的稳定运动。
translated by 谷歌翻译
随着腿部机器人和嵌入式计算都变得越来越有能力,研究人员已经开始专注于这些机器人的现场部署。在非结构化环境中的强大自治需要对机器人周围的世界感知,以避免危害。但是,由于处理机车动力学所需的复杂规划人员和控制器,因此在网上合并在线的同时在线保持敏捷运动对腿部机器人更具挑战性。该报告将比较三种最新的感知运动方法,并讨论可以使用视觉来实现腿部自主权的不同方式。
translated by 谷歌翻译
由于机器人动力学中的固有非线性,腿部机器人全身动作的在线计划具有挑战性。在这项工作中,我们提出了一个非线性MPC框架,该框架可以通过有效利用机器人动力学结构来在线生成全身轨迹。Biconmp用于在真正的四倍机器人上生成各种环状步态,其性能在不同的地形上进行了评估,对抗不同步态之间的不可预见的推动力并在线过渡。此外,提出了双孔在机器人上产生非平凡无环的全身动态运动的能力。同样的方法也被用来在人体机器人(TALOS)上产生MPC的各种动态运动,并在模拟中产生另一个四倍的机器人(Anymal)。最后,报告并讨论了对计划范围和频率对非线性MPC框架的影响的广泛经验分析。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
这项研究介绍了具有刚性接触的机器人系统的全身模型预测控制(MPC),使用在线切换时间优化(STO)的给定接触序列下。我们将机器人动力学用刚性接触视为开关系统,并制定开关系统的最佳控制问题以实现MPC。我们为MPC问题使用有效的解决方案算法,该算法同时优化了切换时间和轨迹。与现有的现有方法不同,目前的有效算法可以在线优化和切换时间。通过在传统的MPC上比较了在线STO的提议的MPC,并通过固定的切换时间,通过数值模拟四倍的机器人的动态跳跃运动。在模拟比较中,提出的MPC成功控制了动态跳跃运动的两倍,这是常规MPC的两倍,这表明所提出的方法扩展了整体MPC的能力。我们进一步在四足机器人单位A1上进行硬件实验,并证明所提出的方法在实际机器人上实现了动态运动。
translated by 谷歌翻译
在腿部机器人的机车上,执行高度敏捷的动态动作,例如跳跃或跑步的踏板乐队,这仍然是一个挑战性的问题。本文提出了一个框架,该框架结合了轨迹优化和模型预测控制,以在踏脚石上执行强大的连续跳跃。在我们的方法中,我们首先利用基于机器人的全非线性动力学的轨迹优化来生成各种跳跃距离的周期性跳跃轨迹。然后,基于模型预测控制的跳跃控制器设计用于实现平滑的跳跃过渡,从而使机器人能够在步进石上实现连续跳跃。得益于将MPC作为实时反馈控制器的合并,该提议的框架也得到了验证,可以对机器人动力学上的高度扰动和模型不确定性具有不均匀的平台。
translated by 谷歌翻译