我们为物理模拟字符进行了简单而直观的互动控制方法。我们的工作在生成的对抗网络(GAN)和加强学习时构建,并介绍了一个模仿学习框架,其中分类器的集合和仿制策略训练在给定预处理的参考剪辑中训练。分类器受过培训,以区分从模仿政策产生的运动中的参考运动,而策略是为了欺骗歧视者而获得奖励。使用我们的GaN的方法,可以单独培训多个电机控制策略以模仿不同的行为。在运行时,我们的系统可以响应用户提供的外部控制信号,并在不同策略之间交互式切换。与现有方法相比,我们所提出的方法具有以下有吸引力的特性:1)在不手动设计和微调奖励功能的情况下实现最先进的模仿性能; 2)直接控制字符,而无需明确地或隐含地通过相位状态跟踪任何目标参考姿势; 3)支持交互式策略切换,而无需任何运动生成或运动匹配机制。我们突出了我们在一系列模仿和互动控制任务中的方法的适用性,同时还证明了其抵御外部扰动以及恢复平衡的能力。总的来说,我们的方法产生高保真运动,运行时的运行时间低,并且可以轻松地集成到交互式应用程序和游戏中。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
从任意堕落状态中起床是一种基本的人类技能。现有的学习这种技能的方法通常会产生高度动态和不稳定的起床动作,这不像人类的起床策略,或者基于跟踪记录的人类起床运动。在本文中,我们提出了一种使用强化学习的分阶段方法,而无需求助于运动捕获数据。该方法首先利用了强大的字符模型,从而有助于发现解决方案模式。然后,第二阶段学会了调整控制策略,以逐步与角色的较弱版本一起使用。最后,第三阶段学习控制政策,这些政策可以以较慢的速度重现较弱的起床动作。我们表明,在多个运行中,该方法可以发现各种各样的起床策略,并以各种速度执行它们。结果通常会产生采用最终站立策略的策略,这些策略是从所有初始状态中看到的恢复动作所共有的。但是,我们还发现了对俯卧和仰卧初始堕落状态的不同策略的政策。学识渊博的起床控制策略通常具有明显的静态稳定性,即,在起床运动过程中,它们可以在各个点停下来。我们进一步测试了新的限制场景的方法,例如在演员表中有一条腿和手臂。
translated by 谷歌翻译
学习敏捷技能是机器人技术的主要挑战之一。为此,加强学习方法取得了令人印象深刻的结果。这些方法需要根据奖励功能或可以在模拟中查询的专家来提供明确的任务信息,以提供目标控制输出,从而限制其适用性。在这项工作中,我们提出了一种生成的对抗方法,用于从部分和潜在的物理不兼容的演示中推断出奖励功能,以成功地获得参考或专家演示的成功技能。此外,我们表明,通过使用Wasserstein gan公式和从以粗糙和部分信息为输入的示范中进行过渡,我们能够提取强大的策略并能够模仿证明的行为。最后,在一个名为Solo 8的敏捷四倍的机器人上测试了所获得的技能,例如后空飞弹,并对手持人类示范的忠实复制进行了测试。
translated by 谷歌翻译
人体运动的实时跟踪对于AR/VR中的互动和沉浸式体验至关重要。但是,有关人体的传感器数据非常有限,可以从独立的可穿戴设备(例如HMD(头部安装设备)或AR眼镜)获得。在这项工作中,我们提出了一个强化学习框架,该框架从HMD和两个控制器中获取稀疏信号,并模拟合理且身体上有效的全身运动。在训练过程中,使用高质量的全身运动作为密集的监督,一个简单的策略网络可以学会为角色,步行和慢跑的角色输出适当的扭矩,同时紧随输入信号。我们的结果表明,即使输入仅是HMD的6D变换,也没有对下半身进行任何观察到的地面真理的惊人相似的腿部运动。我们还表明,单一政策可以对各种运动风格,不同的身体尺寸和新颖的环境都有坚固的态度。
translated by 谷歌翻译
自动设计虚拟人和类人动物在帮助游戏,电影和机器人中的角色创作过程中具有巨大的潜力。在某些情况下,角色创建者可能希望设计针对某些动作(例如空手道踢和跑酷跳跃)定制的类人体身体。在这项工作中,我们提出了一个人形设计框架,以自动生成以预先指定的人体运动为条件的身体有效的人形体。首先,我们学习了一个广义的类人动物控制器,该控制器在大型人体运动数据集上进行了训练,该数据集具有多样化的人体运动和身体形状。其次,我们使用设计与控制框架来优化类人动物的物理属性,以找到可以更好地模仿预先指定的人类运动序列的身体设计。我们的方法利用预先训练的类人动物控制器和物理模拟作为指导,能够发现经过定制以执行预先指定的人类运动的新类型类人体设计。
translated by 谷歌翻译
学习灵巧的操纵技巧是计算机图形和机器人技术的长期挑战,尤其是当任务涉及手,工具和物体之间的复杂而微妙的互动时。在本文中,我们专注于基于筷子的对象搬迁任务,这些任务很常见却又要求。成功的筷子技巧的关键是稳定地抓住棍棒,这也支持精致的演习。我们会自动发现贝叶斯优化(BO)和深钢筋学习(DRL)的身体有效的筷子姿势,它适用于多种握把的样式和手工形态,而无需示例数据。作为输入,我们要移动发现的抓紧姿势和所需的对象,我们构建了基于物理的手部控制器,以在两个阶段完成重定位任务。首先,运动轨迹是为筷子合成的,并处于运动计划阶段。我们运动策划者的关键组件包括一个握把模型,以选择用于抓住对象的合适筷子配置,以及一个轨迹优化模块,以生成无碰撞的筷子轨迹。然后,我们再次通过DRL训练基于物理的手部控制器,以跟踪运动计划者产生的所需运动轨迹。我们通过重新定位各种形状和尺寸的对象,以多种诱人的样式和多种手工形态的位置来展示框架的功能。与试图学习基于筷子的技能的香草系统相比,我们的系统实现了更快的学习速度和更好的控制鲁棒性,而无需抓紧姿势优化模块和/或没有运动学运动计划者。
translated by 谷歌翻译
我们提出了一种对象感知的3D自我监测姿势估计方法,其紧密地集成了运动学建模,动力学建模和场景对象信息。与使用两种组件的现有运动学或基于动态的方法不同,我们通过动态调节培训协同两种方法。在每个时间步骤中,用于使用视频证据和仿真状态提供目标姿势的运动模型。然后,预先注释的动力学模型试图模拟物理模拟器中的运动姿势。通过比较由动态模型对动态模型产生的姿势指示的姿势,我们可以使用它们的未对准来进一步改善运动模型。通过在场景中的6DOF姿势(例如,椅子,盒子)中,我们首次展示了使用单个可佩戴相机估计物理合理的3D人体相互作用的能力。我们在受控实验室设置和现实世界场景中评估我们的Egentric姿势估计方法。
translated by 谷歌翻译
机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件,例如,感知算法感知环境,并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此,通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作,同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中,并通过传感器读数推断位置。在我们的工作中,我们开发了一种深度学习方法,以直接优化信标的放置和位置推断以达到本地化精度。然后,我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中,我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器,有效地直接优化了物理设计和控制参数,以直接优化任务性能。然后,我们对此进行跟进,以允许对离散形态参数(例如四肢的数字和配置)进行优化。最后,我们通过探索优化的软机器人的制造和部署来得出结论。
translated by 谷歌翻译
Reinforcement Learning (RL) has seen many recent successes for quadruped robot control. The imitation of reference motions provides a simple and powerful prior for guiding solutions towards desired solutions without the need for meticulous reward design. While much work uses motion capture data or hand-crafted trajectories as the reference motion, relatively little work has explored the use of reference motions coming from model-based trajectory optimization. In this work, we investigate several design considerations that arise with such a framework, as demonstrated through four dynamic behaviours: trot, front hop, 180 backflip, and biped stepping. These are trained in simulation and transferred to a physical Solo 8 quadruped robot without further adaptation. In particular, we explore the space of feed-forward designs afforded by the trajectory optimizer to understand its impact on RL learning efficiency and sim-to-real transfer. These findings contribute to the long standing goal of producing robot controllers that combine the interpretability and precision of model-based optimization with the robustness that model-free RL-based controllers offer.
translated by 谷歌翻译
现在,最先进的强化学习能够在模拟中学习双皮亚机器人的多功能运动,平衡和推送能力。然而,现实差距大多被忽略了,模拟结果几乎不会转移到真实硬件上。在实践中,它是不成功的,因为物理学过度简化,硬件限制被忽略,或者不能保证规律性,并且可能会发生意外的危险运动。本文提出了一个强化学习框架,该框架能够学习以平稳的开箱即用向现实的转移,仅需要瞬时的本体感受观察,可以学习强大的站立式恢复。通过结合原始的终止条件和政策平滑度调节,我们使用没有记忆力或观察历史的政策实现了稳定的学习,SIM转移和安全性。然后使用奖励成型来提供有关如何保持平衡的见解。我们展示了其在下LIMB医学外骨骼Atalante中的现实表现。
translated by 谷歌翻译
Legged robots pose one of the greatest challenges in robotics. Dynamic and agile maneuvers of animals cannot be imitated by existing methods that are crafted by humans. A compelling alternative is reinforcement learning, which requires minimal craftsmanship and promotes the natural evolution of a control policy. However, so far, reinforcement learning research for legged robots is mainly limited to simulation, and only few and comparably simple examples have been deployed on real systems. The primary reason is that training with real robots, particularly with dynamically balancing systems, is complicated and expensive. In the present work, we report a new method for training a neural network policy in simulation and transferring it to a state-of-the-art legged system, thereby we leverage fast, automated, and cost-effective data generation schemes. The approach is applied to the ANYmal robot, a sophisticated medium-dog-sized quadrupedal system. Using policies trained in simulation, the quadrupedal machine achieves locomotion skills that go beyond what had been achieved with prior methods: ANYmal is capable of precisely and energy-efficiently following high-level body velocity commands, running faster than ever before, and recovering from falling even in complex configurations.
translated by 谷歌翻译
Imitation learning techniques aim to mimic human behavior in a given task. An agent (a learning machine) is trained to perform a task from demonstrations by learning a mapping between observations and actions. The idea of teaching by imitation has been around for many years, however, the field is gaining attention recently due to advances in computing and sensing as well as rising demand for intelligent applications. The paradigm of learning by imitation is gaining popularity because it facilitates teaching complex tasks with minimal expert knowledge of the tasks. Generic imitation learning methods could potentially reduce the problem of teaching a task to that of providing demonstrations; without the need for explicit programming or designing reward functions specific to the task. Modern sensors are able to collect and transmit high volumes of data rapidly, and processors with high computational power allow fast processing that maps the sensory data to actions in a timely manner. This opens the door for many potential AI applications that require real-time perception and reaction such as humanoid robots, self-driving vehicles, human computer interaction and computer games to name a few. However, specialized algorithms are needed to effectively and robustly learn models as learning by imitation poses its own set of challenges. In this paper, we survey imitation learning methods and present design options in different steps of the learning process. We introduce a background and motivation for the field as well as highlight challenges specific to the imitation problem. Methods for designing and evaluating imitation learning tasks are categorized and reviewed. Special attention is given to learning methods in robotics and games as these domains are the most popular in the literature and provide a wide array of problems and methodologies. We extensively discuss combining imitation learning approaches using different sources and methods, as well as incorporating other motion learning methods to enhance imitation. We also discuss the potential impact on industry, present major applications and highlight current and future research directions.
translated by 谷歌翻译
由于其物理能力,模拟的类人动物是一个吸引人的研究领域。尽管如此,他们也在控制方面具有挑战性,因为政策必须推动不稳定,不连续和高维物理系统。一种经过广泛研究的方法是利用运动捕获(MOCAP)数据来教授类人动物的低水平技能(例如,站立,步行和跑步),然后可以重新使用以综合高级行为。但是,即使使用MOCAP数据,控制模拟的类人动物仍然非常困难,因为MOCAP数据仅提供运动学信息。寻找物理控制输入以实现所示动作需要计算密集型方法,例如增强学习。因此,尽管有公开可用的MOCAP数据,但其效用仍限于具有大规模计算的机构。在这项工作中,我们通过训练和释放高质量的代理,可以大大降低有关该主题的生产研究的障碍,这些代理可以在基于DM_Control物理学的环境中跟踪三个小时的MOCAP数据以上的MOCAP数据。我们释放Mocapact(动作动作捕获),这些专家代理的数据集及其推出,其中包含本体感受观察和动作。我们通过使用它来训练单个层次结构策略来证明MOCAPACT的实用性,该策略能够跟踪DM_Control中的整个MOCAP数据集并显示学习学到的低级组件可以被重新使用以有效地学习下游高级任务。最后,我们使用MoCapact训练自动回旋GPT模型,并表明它可以控制模拟的类人动物以在运动提示下执行自然运动完成。结果和指向代码和数据集的链接的视频可在https://microsoft.github.io/mocapact上获得。
translated by 谷歌翻译
为了使腿部机器人与人类和动物的运动能力相匹配,它们不仅必须产生强大的周期性步行和跑步,而且还必须在名义运动步态和更专业的瞬态操纵之间无缝切换。尽管最近在两足机器人的控制方面取得了进步,但几乎没有集中精力产生高度动态的行为。利用强化学习制定控制腿机器人的政策的最新工作表明,在产生强大的步行行为方面取得了成功。但是,这些学识渊博的政策难以在单个网络上表达多种不同行为。受腿部机器人的常规优化控制技术的启发,这项工作应用了一个经常性的策略来执行四步,90度转弯,使用从优化的单个刚体模型轨迹生成的参考数据进行了训练。我们提出了一个新型的培训框架,该培训框架使用结尾终端奖励从预先计算的轨迹数据中学习特定行为,并证明了双皮亚机器人Cassie上的硬件成功转移。
translated by 谷歌翻译
基于腿部机器人的基于深的加固学习(RL)控制器表现出令人印象深刻的鲁棒性,可在不同的环境中为多个机器人平台行走。为了在现实世界中启用RL策略为类人类机器人应用,至关重要的是,建立一个可以在2D和3D地形上实现任何方向行走的系统,并由用户命令控制。在本文中,我们通过学习遵循给定步骤序列的政策来解决这个问题。该政策在一组程序生成的步骤序列(也称为脚步计划)的帮助下进行培训。我们表明,仅将即将到来的2个步骤喂入政策就足以实现全向步行,安装到位,站立和攀登楼梯。我们的方法采用课程学习对地形的复杂性,并规避了参考运动或预训练的权重的需求。我们证明了我们提出的方法在Mujoco仿真环境中学习2个新机器人平台的RL策略-HRP5P和JVRC -1-。可以在线获得培训和评估的代码。
translated by 谷歌翻译
We present a new method for generating controllable, dynamically responsive, and photorealistic human animations. Given an image of a person, our system allows the user to generate Physically plausible Upper Body Animation (PUBA) using interaction in the image space, such as dragging their hand to various locations. We formulate a reinforcement learning problem to train a dynamic model that predicts the person's next 2D state (i.e., keypoints on the image) conditioned on a 3D action (i.e., joint torque), and a policy that outputs optimal actions to control the person to achieve desired goals. The dynamic model leverages the expressiveness of 3D simulation and the visual realism of 2D videos. PUBA generates 2D keypoint sequences that achieve task goals while being responsive to forceful perturbation. The sequences of keypoints are then translated by a pose-to-image generator to produce the final photorealistic video.
translated by 谷歌翻译
我们专注于开发Quadrupedal机器人节能控制器的问题。动物可以以不同的速度积极切换Gaits以降低其能量消耗。在本文中,我们设计了一个分层学习框架,其中独特的运动遗传仪和自然步态过渡自动出现,其能量最小化的简单奖励。我们使用进化策略来培训一个高级步态政策,指定每只脚的步态图案,而低级凸MPC控制器优化电机命令,以便机器人可以使用该步态图案以所需的速度行走。我们在四足机器人上测试我们的学习框架,并展示了自动步态过渡,从步行到小跑和飞行,因为机器人增加了速度。我们表明学习的等级控制器在广泛的运动速度范围内消耗的能量要少于基线控制器。
translated by 谷歌翻译
随着腿部机器人和嵌入式计算都变得越来越有能力,研究人员已经开始专注于这些机器人的现场部署。在非结构化环境中的强大自治需要对机器人周围的世界感知,以避免危害。但是,由于处理机车动力学所需的复杂规划人员和控制器,因此在网上合并在线的同时在线保持敏捷运动对腿部机器人更具挑战性。该报告将比较三种最新的感知运动方法,并讨论可以使用视觉来实现腿部自主权的不同方式。
translated by 谷歌翻译