鉴于存在复杂的动力学和大量DOF,由刚性杆和柔性电缆组成的紧张机器人难以准确地建模和控制。最近已经提出了可微分的物理发动机作为数据驱动的方法,用于模型识别此类复杂的机器人系统。这些发动机通常以高频执行以实现准确的模拟。但是,由于现实世界传感器的局限性,通常在如此高的频率下,通常无法在训练可区分发动机的地面真相轨迹。目前的工作着重于此频率不匹配,这会影响建模准确性。我们为紧张的机器人的可区分物理发动机提出了一个经常性结构,即使使用低频轨迹也可以有效地训练。为了以强大的方式训练这款新的经常性引擎,这项工作相对于先前的工作介绍:(i)一种新的隐式集成方案,(ii)渐进式培训管道,以及(iii)可区分的碰撞检查器。 NASA在Mujoco上的Icosahedron Superballbot的模型被用作收集培训数据的地面真实系统。模拟实验表明,一旦对Mujoco的低频轨迹进行了训练,对复发性可区分发动机进行了训练,它就可以匹配Mujoco系统的行为。成功的标准是,是否可以将使用可区分发动机的运动策略传递回地面真相系统,并导致类似的运动。值得注意的是,训练可区分发动机所需的地面真相数据数量,使该政策可以转移到地面真实系统中,是直接在地面真相系统上训练政策所需的数据的1%。
translated by 谷歌翻译
紧张的机器人由刚性杆和柔性电缆组成,表现出高强度对重的比率和极端变形,使它们能够驾驭非结构化的地形,甚至可以在严酷的冲击力上生存。但是,由于其高维,复杂的动态和耦合体系结构,它们很难控制。基于物理学的仿真是制定运动策略的途径,然后可以将其转移到真实的机器人中,但是建模时态机器人是一项复杂的任务,因此模拟会经历大量的SIM2REAL间隙。为了解决这个问题,本文介绍了台词机器人的真实2SIM2REAL策略。该策略是基于差异物理引擎的,可以在真正的机器人(即离线测量和一个随机轨迹)中进行有限的数据进行训练,并达到足够高的精度以发现可转移的运动策略。除了整体管道之外,这项工作的主要贡献包括在接触点处计算非零梯度,损失函数和轨迹分割技术,该技术避免了训练期间梯度评估的冲突。在实际的3杆张力机器人上证明并评估了所提出的管道。
translated by 谷歌翻译
准确地对现实世界进行建模接触行为,对于现有的刚体物理模拟器而言,近刚毛的材料仍然是一个巨大的挑战。本文介绍了一个数据增强的接触模型,该模型将分析解决方案与观察到的数据结合在一起,以预测3D接触脉冲,这可能会导致刚体在各个方向上弹跳,滑动或旋转。我们的方法通过从观察到的数据中学习接触行为来增强标准库仑接触模型的表现力,同时尽可能保留基本的接触约束。例如,对分类器进行了训练,以近似静态摩擦和动态摩擦之间的过渡,而在碰撞过程中的非渗透约束在分析中执行。我们的方法计算整个刚体的触点的汇总效果,而不是分别预测每个接触点的接触力,而保持相同的模拟速度,而与接触点的数量增加了详细的几何形状。补充视频:https://shorturl.at/eilwx关键字:物理模拟算法,动态学习,联系人学习
translated by 谷歌翻译
Legged robots pose one of the greatest challenges in robotics. Dynamic and agile maneuvers of animals cannot be imitated by existing methods that are crafted by humans. A compelling alternative is reinforcement learning, which requires minimal craftsmanship and promotes the natural evolution of a control policy. However, so far, reinforcement learning research for legged robots is mainly limited to simulation, and only few and comparably simple examples have been deployed on real systems. The primary reason is that training with real robots, particularly with dynamically balancing systems, is complicated and expensive. In the present work, we report a new method for training a neural network policy in simulation and transferring it to a state-of-the-art legged system, thereby we leverage fast, automated, and cost-effective data generation schemes. The approach is applied to the ANYmal robot, a sophisticated medium-dog-sized quadrupedal system. Using policies trained in simulation, the quadrupedal machine achieves locomotion skills that go beyond what had been achieved with prior methods: ANYmal is capable of precisely and energy-efficiently following high-level body velocity commands, running faster than ever before, and recovering from falling even in complex configurations.
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
我们提出了Dojo,这是一种用于机器人技术的可区分物理引擎,优先考虑稳定的模拟,准确的接触物理学以及相对于状态,动作和系统参数的可不同性。Dojo在低样本速率下实现稳定的模拟,并通过使用变异积分器来节省能量和动量。非线性互补性问题,具有用于摩擦的二阶锥体,模型硬接触,并使用自定义的Primal Dual内部点法可靠地解决。使用隐式功能定理利用内点方法的特殊属性,以有效计算通过接触事件提供有用信息的光滑梯度。我们展示了Dojo独特的模拟紧密接触能力,同时提供了许多示例,包括轨迹优化,强化学习和系统识别。
translated by 谷歌翻译
随着腿部机器人和嵌入式计算都变得越来越有能力,研究人员已经开始专注于这些机器人的现场部署。在非结构化环境中的强大自治需要对机器人周围的世界感知,以避免危害。但是,由于处理机车动力学所需的复杂规划人员和控制器,因此在网上合并在线的同时在线保持敏捷运动对腿部机器人更具挑战性。该报告将比较三种最新的感知运动方法,并讨论可以使用视觉来实现腿部自主权的不同方式。
translated by 谷歌翻译
逼真的模拟环境是每个机器人工具包中必不可少的工具,其用途从计划和控制到加强学习的培训政策不等。尽管模拟在现代机器人技术中的中心地位,但几乎没有做过将机器人模拟器的性能与现实世界数据进行比较的工作,尤其是对于涉及具有高速影响事件的动态运动的场景。处理动态接触是大多数模拟的计算瓶颈,因此围绕影响和摩擦的建模和算法选择构成了流行工具之间最大的区别。在这里,我们评估了几个模拟器重现涉及影响的现实世界轨迹的能力。使用实验数据,我们确定流行模拟器Drake,Mujoco和Bullet的系统特定接触参数,分析围绕这些参数进行建模选择的效果。对于扔到桌子上的立方体的简单示例,模拟器捕获了无弹性的影响,同时未能捕获弹性影响。对于跳跃Cassie Biped Landing的较高维度,模拟器可以很好地捕获散装运动,但是精度受到真实机器人和模拟器之间许多模型差异的限制。
translated by 谷歌翻译
Force modulation of robotic manipulators has been extensively studied for several decades. However, it is not yet commonly used in safety-critical applications due to a lack of accurate interaction contact modeling and weak performance guarantees - a large proportion of them concerning the modulation of interaction forces. This study presents a high-level framework for simultaneous trajectory optimization and force control of the interaction between a manipulator and soft environments, which is prone to external disturbances. Sliding friction and normal contact force are taken into account. The dynamics of the soft contact model and the manipulator are simultaneously incorporated in a trajectory optimizer to generate desired motion and force profiles. A constrained optimization framework based on Alternative Direction Method of Multipliers (ADMM) has been employed to efficiently generate real-time optimal control inputs and high-dimensional state trajectories in a Model Predictive Control fashion. Experimental validation of the model performance is conducted on a soft substrate with known material properties using a Cartesian space force control mode. Results show a comparison of ground truth and real-time model-based contact force and motion tracking for multiple Cartesian motions in the valid range of the friction model. It is shown that a contact model-based motion planner can compensate for frictional forces and motion disturbances and improve the overall motion and force tracking accuracy. The proposed high-level planner has the potential to facilitate the automation of medical tasks involving the manipulation of compliant, delicate, and deformable tissues.
translated by 谷歌翻译
合并适当的归纳偏差在从数据的学习动态中发挥着关键作用。通过将拉格朗日或哈密顿的动态编码到神经网络架构中,越来越多的工作已经探索了在学习动态中实施节能的方法。这些现有方法基于微分方程,其不允许州中的不连续性,从而限制了一个人可以学习的系统。然而,实际上,大多数物理系统,例如腿机器人和机器人操纵器,涉及联系和碰撞,这在各州引入了不连续性。在本文中,我们介绍了一种可微分的接触型号,可以捕获接触机械:无摩擦/摩擦,以及弹性/无弹性。该模型还可以适应不等式约束,例如关节角度的限制。拟议的联系模式通过允许同时学习联系和系统性质来扩展拉格朗日和哈密顿神经网络的范围。我们在具有不同恢复系数和摩擦系数的一系列具有挑战性的2D和3D物理系统上展示了这一框架。学习的动态可以用作用于下游梯度的优化任务的可分解物理模拟器,例如规划和控制。
translated by 谷歌翻译
布模拟在计算机动画,服装设计和机器人辅助敷料中具有广泛的应用。这项工作提出了一个可区分的布模拟器,其附加梯度信息促进了与布相关的应用。我们可区分的模拟器扩展了基于投影动力学(PD)和干摩擦接触的最先进的布模拟器。我们从以前的工作中汲取灵感,提出了一种快速新颖的方法,用于通过干摩擦接触在基于PD的布模拟中得出梯度。此外,我们对富含接触的布模拟中梯度的实用性进行了全面的分析和评估。最后,我们证明了模拟器在许多下游应用中的功效,包括系统识别,辅助调味料的轨迹优化,闭环控制,逆设计和实际降低SIM转移。我们观察到通过使用我们的梯度信息来求解大多数这些应用程序获得的大幅加速。
translated by 谷歌翻译
我们描述了更改 - 联系机器人操作任务的框架,要求机器人与对象和表面打破触点。这种任务的不连续交互动态使得难以构建和使用单个动力学模型或控制策略,并且接触变化期间动态的高度非线性性质可能对机器人和物体造成损害。我们提出了一种自适应控制框架,使机器人能够逐步学习以预测更改联系人任务中的接触变化,从而了解了碎片连续系统的交互动态,并使用任务空间可变阻抗控制器提供平滑且精确的轨迹跟踪。我们通过实验比较我们框架的表现,以确定所需的代表性控制方法,以确定我们框架的自适应控制和增量学习组件需要在变化 - 联系机器人操纵任务中存在不连续动态的平稳控制。
translated by 谷歌翻译
机器人布操作是自动机器人系统的相关挑战性问题。高度可变形的对象,因为纺织品在操纵过程中可以采用多种配置和形状。因此,机器人不仅应该了解当前的布料配置,还应能够预测布的未来行为。本文通过使用模型预测控制(MPC)策略在对象的其他部分应用动作,从而解决了间接控制纺织对象某些点的配置的问题,该策略还允许间接控制的行为点。设计的控制器找到了最佳控制信号,以实现所需的未来目标配置。本文中的探索场景考虑了通过抓住其上角,以平方布的下角跟踪参考轨迹。为此,我们提出并验证线性布模型,该模型允许实时解决与MPC相关的优化问题。增强学习(RL)技术用于学习所提出的布模型的最佳参数,并调整所得的MPC。在模拟中获得准确的跟踪结果后,在真实的机器人中实现并执行了完整的控制方案,即使在不利条件下也可以获得准确的跟踪。尽管总观察到的误差达到5 cm标记,但对于30x30 cm的布,分析表明,MPC对该值的贡献少于30%。
translated by 谷歌翻译
在腿部机器人技术中,计划和执行敏捷的机动演习一直是一个长期的挑战。它需要实时得出运动计划和本地反馈政策,以处理动力学动量的非物质。为此,我们提出了一个混合预测控制器,该控制器考虑了机器人的致动界限和全身动力学。它将反馈政策与触觉信息相结合,以在本地预测未来的行动。由于采用可行性驱动的方法,它在几毫秒内收敛。我们的预测控制器使Anymal机器人能够在现实的场景中生成敏捷操作。关键要素是跟踪本地反馈策略,因为与全身控制相反,它们达到了所需的角动量。据我们所知,我们的预测控制器是第一个处理驱动限制,生成敏捷的机动操作以及执行低级扭矩控制的最佳反馈策略,而无需使用单独的全身控制器。
translated by 谷歌翻译
接触式轨迹优化提供了一种具有吸引力的方法,可以自动生成用于机器人操纵和运动的复杂和接触型行为。但是,由于确保数值可靠性和物理现实主义的挑战,这种技术的可伸缩性受到限制。在本文中,我们提出了初步结果,表明迭代线性二次调节器(ILQR)算法以及最近提出的基于压力场的水力弹性接触模型可以通过接触实现可靠和物理上现实的轨迹优化。我们使用这种方法来合成富含接触的行为,例如四足动物和全臂操纵。此外,Kinova Gen3机器人臂上的开环播放证明了全臂操纵轨迹的身体精度。代码可在https://bit.ly/ilqr_hc上找到,可以在https://youtu.be/iqxjkbm8_ms上找到视频。
translated by 谷歌翻译
在这项工作中,我们为软机器人蛇提供了一种基于学习的目标跟踪控制方法。受到生物蛇的启发,我们的控制器由两个关键模块组成:用于学习靶向轨迹行为的增强学习(RL)模块,给出了软蛇机器人的随机动力学,以及带有Matsuoka振荡器的中央模式生成器(CPG)系统,用于产生稳定而多样的运动模式。基于提议的框架,我们全面讨论了软蛇机器人的可操作性,包括在其蛇形运动期间的转向和速度控制。可以将这种可操作性映射到CPG系统振荡模式的控制中。通过对Matsuoka CPG系统振荡性能的理论分析,这项工作表明,实现我们软蛇机器人的自由移动性的关键是正确限制和控制Matsuoka CpG系统的某些系数比率。基于此分析,我们系统地制定了CPG系统的可控系数,供RL代理运行。通过实验验证,我们表明,在模拟环境中学习的控制政策可以直接应用于控制我们的真正的蛇机器人以执行目标跟踪任务,而不管模拟与现实世界之间的物理环境差距如何。实验结果还表明,与我们先前的方法和基线RL方法(PPO)相比,我们的方法对SIM到现实过渡的适应性和鲁棒性得到了显着改善。
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
强化学习(RL)见证了四足动物的大步进展,在可靠的SIM转移到现实的政策转移方面持续进展。但是,重用另一个机器人的政策仍然是一个挑战,这可以节省重新培训的时间。在这项工作中,我们提出了一个用于零射击政策重新定位的框架,其中可以在不同形状和尺寸的机器人之间转移多种运动技能。新框架以系统整合RL和模型预测控制(MPC)的计划和控制管道为中心。计划阶段采用RL来生成动态合理的轨迹以及联系时间表,避免了接触序列优化的组合复杂性。然后,将这些信息用于播种MPC,以通过新的混合运动动力学(HKD)模型稳定和鲁棒性地推出策略,该模型隐含地优化了立足点位置。硬件结果表明能够将政策从A1和Laikago机器人转移到MIT MIT MINI CHEETAH机器人,而无需重新调整政策。
translated by 谷歌翻译
模块化机器人可以在每天重新排列到新设计中,通过为每项新任务形成定制机器人来处理各种各样的任务。但是,重新配置的机制是不够的:每个设计还需要自己独特的控制策略。人们可以从头开始为每个新设计制作一个政策,但这种方法不可扩展,特别是给出了甚至一小组模块可以生成的大量设计。相反,我们创建了一个模块化策略框架,策略结构在硬件排列上有调节,并仅使用一个培训过程来创建控制各种设计的策略。我们的方法利用了模块化机器人的运动学可以表示为设计图,其中节点作为模块和边缘作为它们之间的连接。给定机器人,它的设计图用于创建具有相同结构的策略图,其中每个节点包含一个深神经网络,以及通过共享参数的相同类型共享知识的模块(例如,Hexapod上的所有腿都相同网络参数)。我们开发了一种基于模型的强化学习算法,交织模型学习和轨迹优化,以培训策略。我们展示了模块化政策推广到培训期间没有看到的大量设计,没有任何额外的学习。最后,我们展示了与模拟和真实机器人一起控制各种设计的政策。
translated by 谷歌翻译
机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件,例如,感知算法感知环境,并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此,通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作,同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中,并通过传感器读数推断位置。在我们的工作中,我们开发了一种深度学习方法,以直接优化信标的放置和位置推断以达到本地化精度。然后,我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中,我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器,有效地直接优化了物理设计和控制参数,以直接优化任务性能。然后,我们对此进行跟进,以允许对离散形态参数(例如四肢的数字和配置)进行优化。最后,我们通过探索优化的软机器人的制造和部署来得出结论。
translated by 谷歌翻译