为了解决复杂环境中的任务,机器人需要从经验中学习。深度强化学习是一种常见的机器人学习方法,但需要大量的反复试验才能学习,从而限制了其在物理世界中的部署。结果,机器人学习的许多进步都取决于模拟器。另一方面,模拟器内部的学习无法捕获现实世界的复杂性,很容易模拟器不准确,并且由此产生的行为并不适应世界上的变化。 Dreamer算法最近通过在学习的世界模型中进行计划,表现出巨大的希望,可以从少量互动中学习,从而超过了视频游戏中的纯强化学习。学习一个世界模型来预测潜在行动的结果,使计划可以在想象中进行计划,从而减少了真实环境中所需的反复试验量。但是,尚不清楚梦想家是否可以促进更快地学习物理机器人。在本文中,我们将Dreamer应用于4个机器人,以直接在网上学习,直接在现实世界中,而无需模拟器。 Dreamer训练一个四倍的机器人,从头开始,站起来,站起来,仅在1小时内就没有重置。然后,我们推动机器人,发现Dreamer在10分钟内适应以承受扰动或迅速翻身并站起来。在两个不同的机器人臂上,Dreamer学会了直接从相机图像和稀疏的奖励中挑选和放置多个物体,从而接近人类的性能。在轮式机器人上,Dreamer学会了纯粹从相机图像导航到目标位置,从而自动解决有关机器人方向的歧义。在所有实验中使用相同的超参数,我们发现Dreamer能够在现实世界中在线学习,建立强大的基线。我们释放我们的基础架构,用于世界模型在机器人学习中的未来应用。
translated by 谷歌翻译
深度强化学习是在不需要领域知识的不受控制环境中学习政策的有前途的方法。不幸的是,由于样本效率低下,深度RL应用主要集中在模拟环境上。在这项工作中,我们证明了机器学习算法和库的最新进步与精心调整的机器人控制器相结合,导致在现实世界中仅20分钟内学习四倍的运动。我们在几个室内和室外地形上评估了我们的方法,这些室内和室外地形对基于古典模型的控制器来说是具有挑战性的。我们观察机器人能够在所有这些地形上始终如一地学习步态。最后,我们在模拟环境中评估我们的设计决策。
translated by 谷歌翻译
我们研究机器人如何自主学习需要联合导航和抓握的技能。虽然原则上的加固学习提供自动机器人技能学习,但在实践中,在现实世界中的加固学习是挑战性的,并且往往需要大量的仪器和监督。我们的宗旨是以无论没有人为干预的自主方式,设计用于学习导航和操纵的机器人强化学习系统,在没有人为干预的情况下,在现实的假设下实现持续学习。我们建议的系统relmm,可以在没有任何环境仪器的现实世界平台上不断学习,没有人为干预,而无需访问特权信息,例如地图,对象位置或环境的全局视图。我们的方法采用模块化策略与组件进行操纵和导航,其中操纵政策不确定性驱动导航控制器的探索,操作模块为导航提供奖励。我们在房间清理任务上评估我们的方法,机器人必须导航到并拾取散落在地板上的物品。在掌握课程训练阶段之后,relmm可以在自动真实培训的大约40小时内自动学习导航并完全抓住。
translated by 谷歌翻译
Learned world models summarize an agent's experience to facilitate learning complex behaviors. While learning world models from high-dimensional sensory inputs is becoming feasible through deep learning, there are many potential ways for deriving behaviors from them. We present Dreamer, a reinforcement learning agent that solves long-horizon tasks from images purely by latent imagination. We efficiently learn behaviors by propagating analytic gradients of learned state values back through trajectories imagined in the compact state space of a learned world model. On 20 challenging visual control tasks, Dreamer exceeds existing approaches in data-efficiency, computation time, and final performance.
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
智能代理需要选择长时间的动作序列来解决复杂的任务。尽管人类很容易将任务分解为子目标,并通过数百万的肌肉命令将其纳入子目标,但尽管预算很大,但当前的人工智能仅限于具有数百个决策的任务。对层次强化学习的研究旨在克服这一局限性,但事实证明是具有挑战性的,当前的方法依赖于手动指定的目标空间或子任务,并且不存在一般解决方案。我们介绍了导演,这是一种实用方法,可以通过在学习世界模型的潜在空间内部计划直接从像素中学习层次行为。高级政策通过选择潜在目标,而低级政策学会实现目标,从而最大程度地提高了任务和探索奖励。尽管在潜在空间中运行,但这些决策还是可以解释的,因为世界模型可以将目标解码为图像以进行可视化。导演在具有稀疏奖励的任务上的探索方法(包括3D迷宫遍历,以及来自以自我为中心的相机和本体感受的四倍机器人,无需访问先前工作使用的全球位置或自上而下的视图。导演还学习各种环境的成功行为,包括视觉控制,Atari游戏和DMLAB级别。
translated by 谷歌翻译
Reinforcement learning holds the promise of enabling autonomous robots to learn large repertoires of behavioral skills with minimal human intervention. However, robotic applications of reinforcement learning often compromise the autonomy of the learning process in favor of achieving training times that are practical for real physical systems. This typically involves introducing hand-engineered policy representations and human-supplied demonstrations. Deep reinforcement learning alleviates this limitation by training general-purpose neural network policies, but applications of direct deep reinforcement learning algorithms have so far been restricted to simulated settings and relatively simple tasks, due to their apparent high sample complexity. In this paper, we demonstrate that a recent deep reinforcement learning algorithm based on offpolicy training of deep Q-functions can scale to complex 3D manipulation tasks and can learn deep neural network policies efficiently enough to train on real physical robots. We demonstrate that the training times can be further reduced by parallelizing the algorithm across multiple robots which pool their policy updates asynchronously. Our experimental evaluation shows that our method can learn a variety of 3D manipulation skills in simulation and a complex door opening skill on real robots without any prior demonstrations or manually designed representations.
translated by 谷歌翻译
无监督的表示学习的最新进展显着提高了模拟环境中培训强化学习政策的样本效率。但是,尚未看到针对实体强化学习的类似收益。在这项工作中,我们专注于从像素中启用数据有效的实体机器人学习。我们提出了有效的机器人学习(编码器)的对比前训练和数据增强,该方法利用数据增强和无监督的学习来从稀疏奖励中实现对实体ARM策略的样本效率培训。虽然对比预训练,数据增强,演示和强化学习不足以进行有效学习,但我们的主要贡献表明,这些不同技术的组合导致了一种简单而数据效率的方法。我们表明,只有10个示范,一个机器人手臂可以从像素中学习稀疏的奖励操纵策略,例如到达,拾取,移动,拉动大物体,翻转开关并在短短30分钟内打开抽屉现实世界训练时间。我们在项目网站上包括视频和代码:https://sites.google.com/view/felfficited-robotic-manipulation/home
translated by 谷歌翻译
For an autonomous agent to fulfill a wide range of user-specified goals at test time, it must be able to learn broadly applicable and general-purpose skill repertoires. Furthermore, to provide the requisite level of generality, these skills must handle raw sensory input such as images. In this paper, we propose an algorithm that acquires such general-purpose skills by combining unsupervised representation learning and reinforcement learning of goal-conditioned policies. Since the particular goals that might be required at test-time are not known in advance, the agent performs a self-supervised "practice" phase where it imagines goals and attempts to achieve them. We learn a visual representation with three distinct purposes: sampling goals for self-supervised practice, providing a structured transformation of raw sensory inputs, and computing a reward signal for goal reaching. We also propose a retroactive goal relabeling scheme to further improve the sample-efficiency of our method. Our off-policy algorithm is efficient enough to learn policies that operate on raw image observations and goals for a real-world robotic system, and substantially outperforms prior techniques. * Equal contribution. Order was determined by coin flip.
translated by 谷歌翻译
We adapt the ideas underlying the success of Deep Q-Learning to the continuous action domain. We present an actor-critic, model-free algorithm based on the deterministic policy gradient that can operate over continuous action spaces. Using the same learning algorithm, network architecture and hyper-parameters, our algorithm robustly solves more than 20 simulated physics tasks, including classic problems such as cartpole swing-up, dexterous manipulation, legged locomotion and car driving. Our algorithm is able to find policies whose performance is competitive with those found by a planning algorithm with full access to the dynamics of the domain and its derivatives. We further demonstrate that for many of the tasks the algorithm can learn policies "end-to-end": directly from raw pixel inputs.
translated by 谷歌翻译
最近,已证明模型的神经网络模型可以提高计算机视觉和增强学习任务的样本效率。本文在机器人策略学习的背景下探讨了这一想法,在这种情况下,必须完全在物理机器人系统上学习策略,而无需参考模型,模拟器或离线数据集。我们专注于模棱两可的SAC在机器人操作中的应用,并探索算法的许多变化。最终,我们证明了通过在不到一小时或两个小时的壁时钟时间内的机上体验完全学习几项非平凡操纵任务的能力。
translated by 谷歌翻译
Poor sample efficiency continues to be the primary challenge for deployment of deep Reinforcement Learning (RL) algorithms for real-world applications, and in particular for visuo-motor control. Model-based RL has the potential to be highly sample efficient by concurrently learning a world model and using synthetic rollouts for planning and policy improvement. However, in practice, sample-efficient learning with model-based RL is bottlenecked by the exploration challenge. In this work, we find that leveraging just a handful of demonstrations can dramatically improve the sample-efficiency of model-based RL. Simply appending demonstrations to the interaction dataset, however, does not suffice. We identify key ingredients for leveraging demonstrations in model learning -- policy pretraining, targeted exploration, and oversampling of demonstration data -- which forms the three phases of our model-based RL framework. We empirically study three complex visuo-motor control domains and find that our method is 150%-250% more successful in completing sparse reward tasks compared to prior approaches in the low data regime (100K interaction steps, 5 demonstrations). Code and videos are available at: https://nicklashansen.github.io/modemrl
translated by 谷歌翻译
强化学习是机器人抓握的一种有前途的方法,因为它可以在困难的情况下学习有效的掌握和掌握政策。但是,由于问题的高维度,用精致的机器人手来实现类似人类的操纵能力是具有挑战性的。尽管可以采用奖励成型或专家示范等补救措施来克服这个问题,但它们通常导致过分简化和有偏见的政策。我们介绍了Dext-Gen,这是一种在稀疏奖励环境中灵巧抓握的强化学习框架,适用于各种抓手,并学习无偏见和复杂的政策。通过平滑方向表示实现了抓地力和物体的完全方向控制。我们的方法具有合理的培训时间,并提供了包括所需先验知识的选项。模拟实验证明了框架对不同方案的有效性和适应性。
translated by 谷歌翻译
进化策略(ES)算法由于其巨大的并行能力,简单的实现,有效的参数空间探索和快速训练时间,在训练复杂的机器人控制策略中显示出令人鼓舞的结果。但是,ES的关键限制是其对大容量模型(包括现代神经网络体系结构)的可扩展性。在这项工作中,我们开发了预测信息增强随机搜索(PI-ARS),以通过利用表示表示学习来减少ES的参数搜索空间来减轻这种限制。即,PI-ARS将基于梯度的表示技术,预测信息(PI)与无梯度ES算法,增强随机搜索(ARS)结合在一起,以训练可以处理复杂机器人感觉输入并处理高度非线性机器人的策略动力学。我们在一系列具有挑战性的视觉范围任务上评估了PI-ARS,四倍的机器人需要在不平坦的踏脚石,Quincuncial Pile和移动平台上行走,并完成室内导航任务。在所有任务中,与ARS基线相比,PI-ARS表现出明显更好的学习效率和表现。我们通过证明学识渊博的政策可以成功地转移到真正的四倍机器人的情况下,进一步验证我们的算法,例如,在现实世界中的垫脚石环境上取得了100%的成功率,从而显着提高了先前的结果,从而实现了40%的成功。
translated by 谷歌翻译
强化学习(RL)算法有望为机器人系统实现自主技能获取。但是,实际上,现实世界中的机器人RL通常需要耗时的数据收集和频繁的人类干预来重置环境。此外,当部署超出知识的设置超出其学习的设置时,使用RL学到的机器人政策通常会失败。在这项工作中,我们研究了如何通过从先前看到的任务中收集的各种离线数据集的有效利用来应对这些挑战。当面对一项新任务时,我们的系统会适应以前学习的技能,以快速学习执行新任务并将环境返回到初始状态,从而有效地执行自己的环境重置。我们的经验结果表明,将先前的数据纳入机器人增强学习中可以实现自主学习,从而大大提高了学习的样本效率,并可以更好地概括。
translated by 谷歌翻译
有效的探索是深度强化学习的关键挑战。几种方法,例如行为先验,能够利用离线数据,以便在复杂任务上有效加速加强学习。但是,如果手动的任务与所证明的任务过度偏离,则此类方法的有效性是有限的。在我们的工作中,我们建议从离线数据中学习功能,这些功能由更加多样化的任务共享,例如动作与定向之间的相关性。因此,我们介绍了无国有先验,该先验直接在显示的轨迹中直接建模时间一致性,并且即使在对简单任务收集的数据进行培训时,也能够在复杂的任务中推动探索。此外,我们通过从政策和行动之前的概率混合物中动态采样动作,引入了一种新颖的集成方案,用于非政策强化学习中的动作研究。我们将我们的方法与强大的基线相提并论,并提供了经验证据,表明它可以在稀疏奖励环境下的长途持续控制任务中加速加强学习。
translated by 谷歌翻译
基于模型的增强学习(RL)是一种通过利用学习的单步动力学模型来计划想象中的动作来学习复杂行为的样本效率方法。但是,计划为长马操作计划的每项行动都是不切实际的,类似于每个肌肉运动的人类计划。相反,人类有效地计划具有高级技能来解决复杂的任务。从这种直觉中,我们提出了一个基于技能的RL框架(SKIMO),该框架能够使用技能动力学模型在技能空间中进行计划,该模型直接预测技能成果,而不是预测中级状态中的所有小细节,逐步。为了准确有效的长期计划,我们共同学习了先前经验的技能动力学模型和技能曲目。然后,我们利用学到的技能动力学模型准确模拟和计划技能空间中的长范围,这可以有效地学习长摩盛,稀疏的奖励任务。导航和操纵域中的实验结果表明,Skimo扩展了基于模型的方法的时间范围,并提高了基于模型的RL和基于技能的RL的样品效率。代码和视频可在\ url {https://clvrai.com/skimo}上找到
translated by 谷歌翻译
现实的操纵任务要求机器人与具有长时间运动动作序列的环境相互作用。尽管最近出现了深厚的强化学习方法,这是自动化操作行为的有希望的范式,但由于勘探负担,它们通常在长途任务中缺乏。这项工作介绍了操纵原始增强的强化学习(Maple),这是一个学习框架,可通过预定的行为原始库来增强标准强化学习算法。这些行为原始素是专门实现操纵目标(例如抓住和推动)的强大功能模块。为了使用这些异质原始素,我们制定了涉及原语的层次结构策略,并使用输入参数实例化执行。我们证明,枫树的表现优于基线方法,通过一系列模拟的操纵任务的大幅度。我们还量化了学习行为的组成结构,并突出了我们方法将策略转移到新任务变体和物理硬件的能力。视频和代码可从https://ut-aut-autin-rpl.github.io/maple获得
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
Exploration in environments with sparse rewards has been a persistent problem in reinforcement learning (RL). Many tasks are natural to specify with a sparse reward, and manually shaping a reward function can result in suboptimal performance. However, finding a non-zero reward is exponentially more difficult with increasing task horizon or action dimensionality. This puts many real-world tasks out of practical reach of RL methods. In this work, we use demonstrations to overcome the exploration problem and successfully learn to perform long-horizon, multi-step robotics tasks with continuous control such as stacking blocks with a robot arm. Our method, which builds on top of Deep Deterministic Policy Gradients and Hindsight Experience Replay, provides an order of magnitude of speedup over RL on simulated robotics tasks. It is simple to implement and makes only the additional assumption that we can collect a small set of demonstrations. Furthermore, our method is able to solve tasks not solvable by either RL or behavior cloning alone, and often ends up outperforming the demonstrator policy.
translated by 谷歌翻译