机器人完成任务的能力在很大程度上取决于其物理设计。但是,确定最佳的物理设计及其相应的控制策略本质上是具有挑战性的。选择链接的数量,类型以及如何在组合设计空间中结果产生的自由,以及对该空间中任何设计的评估都需要得出其最佳控制器。在这项工作中,我们提出了N-LIMB,这是一种在大量形态上优化机器人设计和控制的有效方法。我们框架的核心是一种通用设计条件的控制策略,能够控制各种设计集。这项政策通过允许在设计中转移经验并降低评估新设计的成本,从而大大提高了我们方法的样本效率。我们训练这项政策,以最大程度地提高预期回报,而在设计的分布中,该政策同时更新为普遍政策下的高性能设计。通过这种方式,我们的方法收敛于设计分布,围绕高性能设计和控制器的控制器有效地进行了微调。我们在各种地形的一系列运动任务上展示了我们方法的潜力,并展示了发现小说和高性能的设计控制对。
translated by 谷歌翻译
机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件,例如,感知算法感知环境,并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此,通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作,同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中,并通过传感器读数推断位置。在我们的工作中,我们开发了一种深度学习方法,以直接优化信标的放置和位置推断以达到本地化精度。然后,我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中,我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器,有效地直接优化了物理设计和控制参数,以直接优化任务性能。然后,我们对此进行跟进,以允许对离散形态参数(例如四肢的数字和配置)进行优化。最后,我们通过探索优化的软机器人的制造和部署来得出结论。
translated by 谷歌翻译
机器人的形态和行为的互相适应变得与快速的3D-制造方法和高效的深强化学习算法的出现越来越重要。对于互相适应的方法应用到真实世界的一个主要挑战是由于模型和仿真不准确的模拟到现实的差距。然而,以前的工作主要集中在形态开发的分析模型,并用大量的用户群(微)模拟器的进化适应的研究,忽视的模拟到现实差距的存在和在现实世界中制造周期的成本。本文提出了一种新的办法,结合经典的高频率计算昂贵的图形神经网络的代理数据高效互相适应深层神经网络具有不同度的自由度数。在仿真结果表明,新方法可以通过有效的设计优化与离线强化学习相结合共同适应的生产周期这样一个有限的数量中的代理程序,它允许在今后的工作中直接应用到真实世界的互相适应任务评估
translated by 谷歌翻译
Robots are traditionally bounded by a fixed embodiment during their operational lifetime, which limits their ability to adapt to their surroundings. Co-optimizing control and morphology of a robot, however, is often inefficient due to the complex interplay between the controller and morphology. In this paper, we propose a learning-based control method that can inherently take morphology into consideration such that once the control policy is trained in the simulator, it can be easily deployed to robots with different embodiments in the real world. In particular, we present the Embodiment-aware Transformer (EAT), an architecture that casts this control problem as conditional sequence modeling. EAT outputs the optimal actions by leveraging a causally masked Transformer. By conditioning an autoregressive model on the desired robot embodiment, past states, and actions, our EAT model can generate future actions that best fit the current robot embodiment. Experimental results show that EAT can outperform all other alternatives in embodiment-varying tasks, and succeed in an example of real-world evolution tasks: stepping down a stair through updating the morphology alone. We hope that EAT will inspire a new push toward real-world evolution across many domains, where algorithms like EAT can blaze a trail by bridging the field of evolutionary robotics and big data sequence modeling.
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
模块化机器人可以在每天重新排列到新设计中,通过为每项新任务形成定制机器人来处理各种各样的任务。但是,重新配置的机制是不够的:每个设计还需要自己独特的控制策略。人们可以从头开始为每个新设计制作一个政策,但这种方法不可扩展,特别是给出了甚至一小组模块可以生成的大量设计。相反,我们创建了一个模块化策略框架,策略结构在硬件排列上有调节,并仅使用一个培训过程来创建控制各种设计的策略。我们的方法利用了模块化机器人的运动学可以表示为设计图,其中节点作为模块和边缘作为它们之间的连接。给定机器人,它的设计图用于创建具有相同结构的策略图,其中每个节点包含一个深神经网络,以及通过共享参数的相同类型共享知识的模块(例如,Hexapod上的所有腿都相同网络参数)。我们开发了一种基于模型的强化学习算法,交织模型学习和轨迹优化,以培训策略。我们展示了模块化政策推广到培训期间没有看到的大量设计,没有任何额外的学习。最后,我们展示了与模拟和真实机器人一起控制各种设计的政策。
translated by 谷歌翻译
机器人已用于各种自动化,但机器人的设计仍然主要是手动任务。我们试图提供设计工具来自动化机器人自己的设计。机器人设计自动化中的一个重要挑战是,大型且复杂的设计搜索空间随着组件的数量成倍增长,从而使优化难度和样本效率低下。在这项工作中,我们介绍了语法引导潜在空间优化(GLSO),该框架通过训练图形变量自动编码器(VAE)将设计自动化转换为低维连续优化问题,以学习图形结构的设计空间之间的映射和一个连续的潜在空间。这种转换允许在连续的潜在空间中进行优化,在这种情况下,通过应用诸如贝叶斯优化等算法,可以显着提高样品效率。 GLSO使用图形语法规则和机器人世界空间特征指导VAE训练VAE,从而使学习的潜在空间专注于有效的机器人,并且更容易探索优化算法。重要的是,可以重复使用训练有素的VAE来搜索专门针对多个不同任务的设计,而无需再培训。我们通过为模拟中的一组运动任务设计机器人来评估GLSO,并证明我们的方法优于相关的最新机器人设计自动化方法。
translated by 谷歌翻译
深度强化学习是在不需要领域知识的不受控制环境中学习政策的有前途的方法。不幸的是,由于样本效率低下,深度RL应用主要集中在模拟环境上。在这项工作中,我们证明了机器学习算法和库的最新进步与精心调整的机器人控制器相结合,导致在现实世界中仅20分钟内学习四倍的运动。我们在几个室内和室外地形上评估了我们的方法,这些室内和室外地形对基于古典模型的控制器来说是具有挑战性的。我们观察机器人能够在所有这些地形上始终如一地学习步态。最后,我们在模拟环境中评估我们的设计决策。
translated by 谷歌翻译
由于涉及的复杂动态和多标准优化,控制非静态双模型机器人具有挑战性。最近的作品已经证明了深度加强学习(DRL)的仿真和物理机器人的有效性。在这些方法中,通常总共总共汇总来自不同标准的奖励以学习单个值函数。但是,这可能导致混合奖励之间的依赖信息丢失并导致次优策略。在这项工作中,我们提出了一种新颖的奖励自适应加强学习,用于Biped运动,允许控制策略通过使用动态机制通过多标准同时优化。该方法应用多重批评,为每个奖励组件学习单独的值函数。这导致混合政策梯度。我们进一步提出了动态权重,允许每个组件以不同的优先级优化策略。这种混合动态和动态策略梯度(HDPG)设计使代理商更有效地学习。我们表明所提出的方法优于总结奖励方法,能够转移到物理机器人。 SIM-to-Real和Mujoco结果进一步证明了HDPG的有效性和泛化。
translated by 谷歌翻译
机器人学习中流行的范式是为每个新机器人从头开始训练一项政策。这不仅效率低下,而且对于复杂的机器人而言通常不切实际。在这项工作中,我们考虑了将政策转移到具有显着不同参数(例如运动学和形态)的两个不同机器人中的问题。通过匹配动作或状态过渡分布(包括模仿学习方法)来训练新政策的现有方法,由于最佳动作和/或状态分布在不同的机器人中不匹配而失败。在本文中,我们提出了一种名为$ Revolver $的新方法,该方法使用连续进化模型用于物理模拟器中实现的机器人政策转移。我们通过找到机器人参数的连续进化变化,在源机器人和目标机器人之间进行了插值。源机器人的专家政策是通过逐渐发展为目标机器人的一系列中间机器人的训练来转移的。物理模拟器上的实验表明,所提出的连续进化模型可以有效地跨机器人转移策略,并在新机器人上实现卓越的样品效率。在稀疏的奖励环境中,提出的方法尤其有利,在稀疏奖励环境中,探索可以大大减少。代码在https://github.com/xingyul/revolver上发布。
translated by 谷歌翻译
Legged robots pose one of the greatest challenges in robotics. Dynamic and agile maneuvers of animals cannot be imitated by existing methods that are crafted by humans. A compelling alternative is reinforcement learning, which requires minimal craftsmanship and promotes the natural evolution of a control policy. However, so far, reinforcement learning research for legged robots is mainly limited to simulation, and only few and comparably simple examples have been deployed on real systems. The primary reason is that training with real robots, particularly with dynamically balancing systems, is complicated and expensive. In the present work, we report a new method for training a neural network policy in simulation and transferring it to a state-of-the-art legged system, thereby we leverage fast, automated, and cost-effective data generation schemes. The approach is applied to the ANYmal robot, a sophisticated medium-dog-sized quadrupedal system. Using policies trained in simulation, the quadrupedal machine achieves locomotion skills that go beyond what had been achieved with prior methods: ANYmal is capable of precisely and energy-efficiently following high-level body velocity commands, running faster than ever before, and recovering from falling even in complex configurations.
translated by 谷歌翻译
深度加强学习(RL)最近在机器人连续控制任务中表现出很大的承诺。尽管如此,在该静脉中心围绕集中式学习设置的研究,这在很大程度上依赖于机器人的所有组件之间的通信可用性。然而,现实世界中的代理商经常以分散的方式运作,由于潜伏期要求,有限的电力预算和安全问题。通过将机器人组件作为分​​散剂的系统配制,这项工作提出了一种用于连续控制的分散的多效增强学习框架。为此,我们首先开发一个合作的多眼PPO框架,允许在执行期间训练和分散的操作期间集中优化。但是,该系统仅接收全局奖励信号,该信号不会归因于每个代理。为了解决这一挑战,我们进一步提出了一个通用的游戏理论信用分配框架,它计算特定于代理的奖励信号。最后但并非最不重要的是,我们还将基于模型的RL模块纳入了我们的信用分配框架,这导致采样效率的显着提高。我们展示了我们对Mujoco机器人控制任务的实验结果框架的有效性。对于演示视频,请访问:https://youtu.be/gfyvpm4svey。
translated by 谷歌翻译
最近的研究表明,图形神经网络(GNNS)可以学习适用于典型的多层Perceptron(MLP)的运动控制的政策,具有卓越的转移和多任务性能(Wang等,2018; Huang Et al。,2020)。到目前为止,由于传感器和致动器的数量增长,GNN的性能随着传感器和执行器的数量而迅速变化,结果已经限于对小剂量的训练。在监督学习环境中使用GNN的关键动机是它们对大图的适用性,但尚未实现这种益处用于运动控制。我们将宽松的GNN架构中的弱点识别出导致这种较差的缩放:在网络中的MLP中过度拟合,用于编码,解码和传播消息。为了打击这一点,我们引入了雪花,一种用于高维连续控制的GNN训练方法,可以冻结受影响的网络部分中的参数。雪花显着提高了GNN在大型代理上的运动控制的性能,现在与MLP的性能相匹配,以及具有卓越的转移性能。
translated by 谷歌翻译
随着计算能力的兴起,使用数据驱动的方法来共同设计机器人的形态和控制器已成为一种可行的方法。然而,评估每个形态下控制器的适应性是耗时的。作为开创性数据驱动的方法,共同适应利用了双NETWORK机制,目的是学习以形态学参数为条件的Q功能,以取代对各种候选者的传统评估,从而加快优化的速度。在本文中,我们发现共同适应在参数传输期间训练和状态行动分布变化期间的勘探误差的存在,这损害了性能。我们提出了在线和离线RL方法的并发网络的框架。通过灵活地利用行为克隆术语,我们可以减轻上述问题对结果的影响。进行仿真和物理实验以证明我们所提出的方法优于基线算法,这说明了所提出的方法是发现形态和控制器的最佳组合的有效方法。
translated by 谷歌翻译
进化策略(ES)算法由于其巨大的并行能力,简单的实现,有效的参数空间探索和快速训练时间,在训练复杂的机器人控制策略中显示出令人鼓舞的结果。但是,ES的关键限制是其对大容量模型(包括现代神经网络体系结构)的可扩展性。在这项工作中,我们开发了预测信息增强随机搜索(PI-ARS),以通过利用表示表示学习来减少ES的参数搜索空间来减轻这种限制。即,PI-ARS将基于梯度的表示技术,预测信息(PI)与无梯度ES算法,增强随机搜索(ARS)结合在一起,以训练可以处理复杂机器人感觉输入并处理高度非线性机器人的策略动力学。我们在一系列具有挑战性的视觉范围任务上评估了PI-ARS,四倍的机器人需要在不平坦的踏脚石,Quincuncial Pile和移动平台上行走,并完成室内导航任务。在所有任务中,与ARS基线相比,PI-ARS表现出明显更好的学习效率和表现。我们通过证明学识渊博的政策可以成功地转移到真正的四倍机器人的情况下,进一步验证我们的算法,例如,在现实世界中的垫脚石环境上取得了100%的成功率,从而显着提高了先前的结果,从而实现了40%的成功。
translated by 谷歌翻译
深度强化学习(DRL)赋予了各种人工智能领域,包括模式识别,机器人技术,推荐系统和游戏。同样,图神经网络(GNN)也证明了它们在图形结构数据的监督学习方面的出色表现。最近,GNN与DRL用于图形结构环境的融合引起了很多关注。本文对这些混合动力作品进行了全面评论。这些作品可以分为两类:(1)算法增强,其中DRL和GNN相互补充以获得更好的实用性; (2)特定于应用程序的增强,其中DRL和GNN相互支持。这种融合有效地解决了工程和生命科学方面的各种复杂问题。基于审查,我们进一步分析了融合这两个领域的适用性和好处,尤其是在提高通用性和降低计算复杂性方面。最后,集成DRL和GNN的关键挑战以及潜在的未来研究方向被突出显示,这将引起更广泛的机器学习社区的关注。
translated by 谷歌翻译
Deep reinforcement learning has recently emerged as an appealing alternative for legged locomotion over multiple terrains by training a policy in physical simulation and then transferring it to the real world (i.e., sim-to-real transfer). Despite considerable progress, the capacity and scalability of traditional neural networks are still limited, which may hinder their applications in more complex environments. In contrast, the Transformer architecture has shown its superiority in a wide range of large-scale sequence modeling tasks, including natural language processing and decision-making problems. In this paper, we propose Terrain Transformer (TERT), a high-capacity Transformer model for quadrupedal locomotion control on various terrains. Furthermore, to better leverage Transformer in sim-to-real scenarios, we present a novel two-stage training framework consisting of an offline pretraining stage and an online correction stage, which can naturally integrate Transformer with privileged training. Extensive experiments in simulation demonstrate that TERT outperforms state-of-the-art baselines on different terrains in terms of return, energy consumption and control smoothness. In further real-world validation, TERT successfully traverses nine challenging terrains, including sand pit and stair down, which can not be accomplished by strong baselines.
translated by 谷歌翻译
Deep reinforcement learning is poised to revolutionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policybased methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
Meta强化学习(META-RL)旨在学习一项政策,同时并迅速适应新任务。它需要大量从培训任务中汲取的数据,以推断任务之间共享的共同结构。如果没有沉重的奖励工程,长期任务中的稀疏奖励加剧了元RL样品效率的问题。 Meta-RL中的另一个挑战是任务之间难度级别的差异,这可能会导致一个简单的任务主导共享策略的学习,从而排除政策适应新任务。这项工作介绍了一个新颖的目标功能,可以在培训任务中学习动作翻译。从理论上讲,我们可以验证带有操作转换器的传输策略的值可以接近源策略的值和我们的目标函数(大约)上限的值差。我们建议将动作转换器与基于上下文的元元算法相结合,以更好地收集数据,并在元训练期间更有效地探索。我们的方法从经验上提高了稀疏奖励任务上元RL算法的样本效率和性能。
translated by 谷歌翻译