紧张的机器人由刚性杆和柔性电缆组成,表现出高强度对重的比率和极端变形,使它们能够驾驭非结构化的地形,甚至可以在严酷的冲击力上生存。但是,由于其高维,复杂的动态和耦合体系结构,它们很难控制。基于物理学的仿真是制定运动策略的途径,然后可以将其转移到真实的机器人中,但是建模时态机器人是一项复杂的任务,因此模拟会经历大量的SIM2REAL间隙。为了解决这个问题,本文介绍了台词机器人的真实2SIM2REAL策略。该策略是基于差异物理引擎的,可以在真正的机器人(即离线测量和一个随机轨迹)中进行有限的数据进行训练,并达到足够高的精度以发现可转移的运动策略。除了整体管道之外,这项工作的主要贡献包括在接触点处计算非零梯度,损失函数和轨迹分割技术,该技术避免了训练期间梯度评估的冲突。在实际的3杆张力机器人上证明并评估了所提出的管道。
translated by 谷歌翻译
鉴于存在复杂的动力学和大量DOF,由刚性杆和柔性电缆组成的紧张机器人难以准确地建模和控制。最近已经提出了可微分的物理发动机作为数据驱动的方法,用于模型识别此类复杂的机器人系统。这些发动机通常以高频执行以实现准确的模拟。但是,由于现实世界传感器的局限性,通常在如此高的频率下,通常无法在训练可区分发动机的地面真相轨迹。目前的工作着重于此频率不匹配,这会影响建模准确性。我们为紧张的机器人的可区分物理发动机提出了一个经常性结构,即使使用低频轨迹也可以有效地训练。为了以强大的方式训练这款新的经常性引擎,这项工作相对于先前的工作介绍:(i)一种新的隐式集成方案,(ii)渐进式培训管道,以及(iii)可区分的碰撞检查器。 NASA在Mujoco上的Icosahedron Superballbot的模型被用作收集培训数据的地面真实系统。模拟实验表明,一旦对Mujoco的低频轨迹进行了训练,对复发性可区分发动机进行了训练,它就可以匹配Mujoco系统的行为。成功的标准是,是否可以将使用可区分发动机的运动策略传递回地面真相系统,并导致类似的运动。值得注意的是,训练可区分发动机所需的地面真相数据数量,使该政策可以转移到地面真实系统中,是直接在地面真相系统上训练政策所需的数据的1%。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
Legged robots pose one of the greatest challenges in robotics. Dynamic and agile maneuvers of animals cannot be imitated by existing methods that are crafted by humans. A compelling alternative is reinforcement learning, which requires minimal craftsmanship and promotes the natural evolution of a control policy. However, so far, reinforcement learning research for legged robots is mainly limited to simulation, and only few and comparably simple examples have been deployed on real systems. The primary reason is that training with real robots, particularly with dynamically balancing systems, is complicated and expensive. In the present work, we report a new method for training a neural network policy in simulation and transferring it to a state-of-the-art legged system, thereby we leverage fast, automated, and cost-effective data generation schemes. The approach is applied to the ANYmal robot, a sophisticated medium-dog-sized quadrupedal system. Using policies trained in simulation, the quadrupedal machine achieves locomotion skills that go beyond what had been achieved with prior methods: ANYmal is capable of precisely and energy-efficiently following high-level body velocity commands, running faster than ever before, and recovering from falling even in complex configurations.
translated by 谷歌翻译
接触式轨迹优化提供了一种具有吸引力的方法,可以自动生成用于机器人操纵和运动的复杂和接触型行为。但是,由于确保数值可靠性和物理现实主义的挑战,这种技术的可伸缩性受到限制。在本文中,我们提出了初步结果,表明迭代线性二次调节器(ILQR)算法以及最近提出的基于压力场的水力弹性接触模型可以通过接触实现可靠和物理上现实的轨迹优化。我们使用这种方法来合成富含接触的行为,例如四足动物和全臂操纵。此外,Kinova Gen3机器人臂上的开环播放证明了全臂操纵轨迹的身体精度。代码可在https://bit.ly/ilqr_hc上找到,可以在https://youtu.be/iqxjkbm8_ms上找到视频。
translated by 谷歌翻译
机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件,例如,感知算法感知环境,并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此,通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作,同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中,并通过传感器读数推断位置。在我们的工作中,我们开发了一种深度学习方法,以直接优化信标的放置和位置推断以达到本地化精度。然后,我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中,我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器,有效地直接优化了物理设计和控制参数,以直接优化任务性能。然后,我们对此进行跟进,以允许对离散形态参数(例如四肢的数字和配置)进行优化。最后,我们通过探索优化的软机器人的制造和部署来得出结论。
translated by 谷歌翻译
使用单个参数化动态动作操纵可变形物体对蝇钓,宽毯和播放洗牌板等任务非常有用。此类任务作为输入所需的最终状态并输出一个参数化的开环动态机器人动作,它向最终状态产生轨迹。这对于具有涉及摩擦力的复杂动态的长地平轨迹尤其具有挑战性。本文探讨了平面机器人铸造的任务(PRC):其中握住电缆一端的机器人手腕的一个平面运动使另一端朝向所需的目标滑过平面。 PRC允许电缆达到机器人工作区以外的点,并在家庭,仓库和工厂中具有电缆管理的应用。为了有效地学习给定电缆的PRC策略,我们提出了Real2Sim2Real,一个自动收集物理轨迹示例的自我监督框架,以使用差分演进调谐动态模拟器的参数,生成许多模拟示例,然后使用加权学习策略模拟和物理数据的组合。我们使用三种模拟器,ISAAC健身房分段,ISAAC健身房 - 混合动力和Pybullet,两个功能近似器,高斯工艺和神经网络(NNS),以及具有不同刚度,扭转和摩擦的三个电缆。结果每条电缆的16个举出的测试目标表明,使用ISAAC健身房分段的NN PRC策略达到中位误差距离(电缆长度的百分比),范围为8%至14%,表现优于真实或仅培训的基线和政策。只有模拟的例子。 https://tinyurl.com/robotcast可以使用代码,数据和视频。
translated by 谷歌翻译
在粗糙的地形上的动态运动需要准确的脚部放置,避免碰撞以及系统的动态不足的计划。在存在不完美且常常不完整的感知信息的情况下,可靠地优化此类动作和互动是具有挑战性的。我们提出了一个完整的感知,计划和控制管道,可以实时优化机器人所有自由度的动作。为了减轻地形所带来的数值挑战,凸出不平等约束的顺序被提取为立足性可行性的局部近似值,并嵌入到在线模型预测控制器中。每个高程映射预先计算了步骤性分类,平面分割和签名的距离场,以最大程度地减少优化过程中的计算工作。多次射击,实时迭代和基于滤波器的线路搜索的组合用于可靠地以高速率解决该法式问题。我们在模拟中的间隙,斜率和踏上石头的情况下验证了所提出的方法,并在Anymal四倍的平台上进行实验,从而实现了最新的动态攀登。
translated by 谷歌翻译
微弱的物理是计算机视觉和机器人的强大工具,用于了解互动的场景理解和推理。现有方法经常被限于具有预先已知的简单形状或形状的物体。在本文中,我们提出了一种新的方法来具有摩擦触点的可分解物理学,其利用符号距离场(SDF)隐含地表示物理形状。我们的模拟即使涉及的形状为非凸形表示,也支持接触点计算。此外,我们提出了区分对象形状的动力学来利用基于梯度的方法来促进形状优化。在我们的实验中,我们证明我们的方法允许从轨迹和深度图像观察的诸如摩擦系数,质量,力或形状参数的物理参数的基于模型的推断,并且在几个具有挑战性的合成场景和真实图像序列中。
translated by 谷歌翻译
Figure 1: A five-fingered humanoid hand trained with reinforcement learning manipulating a block from an initial configuration to a goal configuration using vision for sensing.
translated by 谷歌翻译
我们解决了使四足机器人能够使用强化学习在现实世界中执行精确的射击技巧的问题。开发算法使腿部机器人能够向给定的目标射击足球,这是一个具有挑战性的问题,它将机器人运动控制和计划结合到一项任务中。为了解决这个问题,我们需要考虑控制动态腿部机器人期间的动态限制和运动稳定性。此外,我们需要考虑运动计划,以在地面上射击难以模拟的可变形球,并不确定摩擦到所需的位置。在本文中,我们提出了一个层次结构框架,该框架利用深厚的强化学习来训练(a)强大的运动控制政策,可以跟踪任意动议,以及(b)一项计划政策,以决定所需的踢球运动将足球射击到目标。我们将提议的框架部署在A1四足动物机器人上,使其能够将球准确地射击到现实世界中的随机目标。
translated by 谷歌翻译
准确地对现实世界进行建模接触行为,对于现有的刚体物理模拟器而言,近刚毛的材料仍然是一个巨大的挑战。本文介绍了一个数据增强的接触模型,该模型将分析解决方案与观察到的数据结合在一起,以预测3D接触脉冲,这可能会导致刚体在各个方向上弹跳,滑动或旋转。我们的方法通过从观察到的数据中学习接触行为来增强标准库仑接触模型的表现力,同时尽可能保留基本的接触约束。例如,对分类器进行了训练,以近似静态摩擦和动态摩擦之间的过渡,而在碰撞过程中的非渗透约束在分析中执行。我们的方法计算整个刚体的触点的汇总效果,而不是分别预测每个接触点的接触力,而保持相同的模拟速度,而与接触点的数量增加了详细的几何形状。补充视频:https://shorturl.at/eilwx关键字:物理模拟算法,动态学习,联系人学习
translated by 谷歌翻译
逼真的模拟环境是每个机器人工具包中必不可少的工具,其用途从计划和控制到加强学习的培训政策不等。尽管模拟在现代机器人技术中的中心地位,但几乎没有做过将机器人模拟器的性能与现实世界数据进行比较的工作,尤其是对于涉及具有高速影响事件的动态运动的场景。处理动态接触是大多数模拟的计算瓶颈,因此围绕影响和摩擦的建模和算法选择构成了流行工具之间最大的区别。在这里,我们评估了几个模拟器重现涉及影响的现实世界轨迹的能力。使用实验数据,我们确定流行模拟器Drake,Mujoco和Bullet的系统特定接触参数,分析围绕这些参数进行建模选择的效果。对于扔到桌子上的立方体的简单示例,模拟器捕获了无弹性的影响,同时未能捕获弹性影响。对于跳跃Cassie Biped Landing的较高维度,模拟器可以很好地捕获散装运动,但是精度受到真实机器人和模拟器之间许多模型差异的限制。
translated by 谷歌翻译
模块化机器人可以在每天重新排列到新设计中,通过为每项新任务形成定制机器人来处理各种各样的任务。但是,重新配置的机制是不够的:每个设计还需要自己独特的控制策略。人们可以从头开始为每个新设计制作一个政策,但这种方法不可扩展,特别是给出了甚至一小组模块可以生成的大量设计。相反,我们创建了一个模块化策略框架,策略结构在硬件排列上有调节,并仅使用一个培训过程来创建控制各种设计的策略。我们的方法利用了模块化机器人的运动学可以表示为设计图,其中节点作为模块和边缘作为它们之间的连接。给定机器人,它的设计图用于创建具有相同结构的策略图,其中每个节点包含一个深神经网络,以及通过共享参数的相同类型共享知识的模块(例如,Hexapod上的所有腿都相同网络参数)。我们开发了一种基于模型的强化学习算法,交织模型学习和轨迹优化,以培训策略。我们展示了模块化政策推广到培训期间没有看到的大量设计,没有任何额外的学习。最后,我们展示了与模拟和真实机器人一起控制各种设计的政策。
translated by 谷歌翻译
能够重现从光相互作用到接触力学的物理现象,模拟器在越来越多的应用程序域变得越来越有用,而现实世界中的相互作用或标记数据很难获得。尽管最近取得了进展,但仍需要大量的人为努力来配置模拟器以准确地再现现实世界的行为。我们介绍了一条管道,将反向渲染与可区分的模拟相结合,从而从深度或RGB视频中创建数字双铰接式机制。我们的方法自动发现关节类型并估算其运动学参数,而整体机制的动态特性则调整为实现物理准确的模拟。正如我们在模拟系统上所证明的那样,在我们的派生模拟传输中优化的控制策略成功地回到了原始系统。此外,我们的方法准确地重建了由机器人操纵的铰接机制的运动学树,以及现实世界中耦合的摆机制的高度非线性动力学。网站:https://Eric-heiden.github.io/video2sim
translated by 谷歌翻译
机器人布操作是自动机器人系统的相关挑战性问题。高度可变形的对象,因为纺织品在操纵过程中可以采用多种配置和形状。因此,机器人不仅应该了解当前的布料配置,还应能够预测布的未来行为。本文通过使用模型预测控制(MPC)策略在对象的其他部分应用动作,从而解决了间接控制纺织对象某些点的配置的问题,该策略还允许间接控制的行为点。设计的控制器找到了最佳控制信号,以实现所需的未来目标配置。本文中的探索场景考虑了通过抓住其上角,以平方布的下角跟踪参考轨迹。为此,我们提出并验证线性布模型,该模型允许实时解决与MPC相关的优化问题。增强学习(RL)技术用于学习所提出的布模型的最佳参数,并调整所得的MPC。在模拟中获得准确的跟踪结果后,在真实的机器人中实现并执行了完整的控制方案,即使在不利条件下也可以获得准确的跟踪。尽管总观察到的误差达到5 cm标记,但对于30x30 cm的布,分析表明,MPC对该值的贡献少于30%。
translated by 谷歌翻译
机器人将机器人的无缝集成到人类环境需要机器人来学习如何使用现有的人类工具。学习工具操纵技能的目前方法主要依赖于目标机器人环境中提供的专家演示,例如,通过手动引导机器人操纵器或通过远程操作。在这项工作中,我们介绍了一种自动化方法,取代了一个专家演示,用YouTube视频来学习工具操纵策略。主要贡献是双重的。首先,我们设计一个对齐过程,使模拟环境与视频中观察到的真实世界。这是作为优化问题,找到刀具轨迹的空间对齐,以最大化环境给出的稀疏目标奖励。其次,我们描述了一种专注于工具的轨迹而不是人类的运动的模仿学习方法。为此,我们将加强学习与优化过程相结合,以基于对准环境中的工具运动来找到控制策略和机器人的放置。我们展示了仿真中的铲子,镰刀和锤子工具的建议方法,并展示了训练有素的政策对真正的弗兰卡·埃米卡熊猫机器人示范的卫生政策的有效性。
translated by 谷歌翻译
Learned locomotion policies can rapidly adapt to diverse environments similar to those experienced during training but lack a mechanism for fast tuning when they fail in an out-of-distribution test environment. This necessitates a slow and iterative cycle of reward and environment redesign to achieve good performance on a new task. As an alternative, we propose learning a single policy that encodes a structured family of locomotion strategies that solve training tasks in different ways, resulting in Multiplicity of Behavior (MoB). Different strategies generalize differently and can be chosen in real-time for new tasks or environments, bypassing the need for time-consuming retraining. We release a fast, robust open-source MoB locomotion controller, Walk These Ways, that can execute diverse gaits with variable footswing, posture, and speed, unlocking diverse downstream tasks: crouching, hopping, high-speed running, stair traversal, bracing against shoves, rhythmic dance, and more. Video and code release: https://gmargo11.github.io/walk-these-ways/
translated by 谷歌翻译
布模拟在计算机动画,服装设计和机器人辅助敷料中具有广泛的应用。这项工作提出了一个可区分的布模拟器,其附加梯度信息促进了与布相关的应用。我们可区分的模拟器扩展了基于投影动力学(PD)和干摩擦接触的最先进的布模拟器。我们从以前的工作中汲取灵感,提出了一种快速新颖的方法,用于通过干摩擦接触在基于PD的布模拟中得出梯度。此外,我们对富含接触的布模拟中梯度的实用性进行了全面的分析和评估。最后,我们证明了模拟器在许多下游应用中的功效,包括系统识别,辅助调味料的轨迹优化,闭环控制,逆设计和实际降低SIM转移。我们观察到通过使用我们的梯度信息来求解大多数这些应用程序获得的大幅加速。
translated by 谷歌翻译
我们描述了更改 - 联系机器人操作任务的框架,要求机器人与对象和表面打破触点。这种任务的不连续交互动态使得难以构建和使用单个动力学模型或控制策略,并且接触变化期间动态的高度非线性性质可能对机器人和物体造成损害。我们提出了一种自适应控制框架,使机器人能够逐步学习以预测更改联系人任务中的接触变化,从而了解了碎片连续系统的交互动态,并使用任务空间可变阻抗控制器提供平滑且精确的轨迹跟踪。我们通过实验比较我们框架的表现,以确定所需的代表性控制方法,以确定我们框架的自适应控制和增量学习组件需要在变化 - 联系机器人操纵任务中存在不连续动态的平稳控制。
translated by 谷歌翻译