对于自主代理人来说,要达到广泛的用户指定目标,它必须能够学习广泛适用的和通用的技能目录。此外,为了提供必要的通用性,这些技能必须处理诸如图像之类的原始感官输入。在本文中,我们提出了一种算法,通过结合非监督表征学习和强化条件策略的强化学习来获得这种通用技能。由于事先不知道可能需要证明的特定目标,因此代理人会执行自我监督的“实践”阶段,在此阶段,它会想象目标并尝试实现这些目标。我们学习具有三个不同目的的视觉表现:抽样目标自我监督实践,提供原始感知输入的结构化转换,以及计算目标到达的奖励信号。我们还提出了反应性目标重新标记方案,以进一步提高我们的方法的样本效率。我们的非策略算法足够有效,可以学习对原始图像观察和现实世界机器人系统目标进行操作的策略,并且大大优于现有技术。
translated by 谷歌翻译
处理稀疏奖励是强化学习(RL)中最大的挑战之一。我们提出了一种名为Hindsight Experience Replay的新技术,它允许从稀疏和二元化的奖励中进行样本有效学习,因此避免了复杂奖励工程的需要。它可以与任意的非策略RL算法结合,并且可以被视为一种隐含的课程形式。我们展示了我们在使用机械臂操纵物体的任务方法。特别是,我们在三个不同的任务上进行实验:推动,滑动和拾取和放置,在每种情况下仅使用二进制奖励来表明任务是否完成。我们的消融研究表明,后视体验重播是一项关键因素,可以在这些充满挑战的环境中进行训练。我们表明,我们在物理模拟中训练的策略可以部署在物理机器人上并成功完成任务。
translated by 谷歌翻译
人类是高保真模仿的专家 - 通常在一次尝试中非常模仿演示。人类使用此功能快速解决atask实例,并引导学习新任务。在自主代理中实现这些可能性是一个悬而未决的问题。在本文中,我们介绍了非政策RL算法(MetaMimic)来缩小这一差距。 MetaMimic可以学习(i)高保真一次性模仿各种新技能的政策,以及(ii)使代理人能够更有效地解决任务的政策。 MetaMimic依赖于将所有经验存储在存储器中并重放这些经验以通过非策略RL学习大规模深度神经网络策略的原理。在我们所知的情况下,本文介绍了用于深度RL的最大现有神经网络,并且表明需要具有归一化的较大网络来实现对于具有挑战性的操纵任务的一次性高保真模仿。结果还表明,尽管任务奖励稀少,并且无法访问示威者行动,但可以从愿景中学习这两种类型的政策。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolu-tionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policy-based methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
Exploration in environments with sparse rewards has been a persistent problem in reinforcement learning (RL). Many tasks are natural to specify with a sparse reward, and manually shaping a reward function can result in suboptimal performance. However, finding a non-zero reward is exponentially more difficult with increasing task horizon or action dimensionality. This puts many real-world tasks out of practical reach of RL methods. In this work, we use demonstrations to overcome the exploration problem and successfully learn to perform long-horizon, multi-step robotics tasks with continuous control such as stacking blocks with a robot arm. Our method, which builds on top of Deep Deterministic Policy Gradients and Hindsight Experience Replay, provides an order of magnitude of speedup over RL on simulated robotics tasks. It is simple to implement and makes only the additional assumption that we can collect a small set of demonstrations. Furthermore, our method is able to solve tasks not solvable by either RL or behavior cloning alone, and often ends up outperforming the demonstrator policy.
translated by 谷歌翻译
我们基于AdversarialImitation Learning框架确定了算法族的两个问题。第一个问题是在这些算法中使用的向前函数中存在隐式偏差。虽然这些偏差可能适用于某些环境,但它们也可能导致其他环境中的次优行为。其次,尽管这些算法可以从少数专家演示中学习,但它们需要与环境进行过多的交互才能模仿专家许多现实世界的应用。为了解决这些问题,我们提出了一种新的算法,称为Discriminator-Actor-Critic,它使用非政策强化学习,以平均因子10来减少政策 - 环境交互样本的复杂性。此外,由于我们的奖励功能是无偏见的,我们可以将我们的算法应用于许多问题,而不进行任何特定于任务的调整。
translated by 谷歌翻译
translated by 谷歌翻译
We propose Scheduled Auxiliary Control (SAC-X), a new learning paradigm in the context of Reinforcement Learning (RL). SAC-X enables learning of complex behaviors-from scratch-in the presence of multiple sparse reward signals. To this end, the agent is equipped with a set of general auxiliary tasks, that it attempts to learn simultaneously via off-policy RL. The key idea behind our method is that active (learned) scheduling and execution of auxiliary policies allows the agent to efficiently explore its environment-enabling it to excel at sparse reward RL. Our experiments in several challenging robotic manipulation settings demonstrate the power of our approach. A video of the rich set of learned behaviours can be found at https://youtu.be/mPKyvocNe M.
translated by 谷歌翻译
学习如何在没有手工制作的奖励或专家数据的情况下控制环境仍然具有挑战性,并且处于强化学习研究的前沿。我们提出了一种无监督的学习算法来训练代理人仅使用观察和反应流来达到感知指定的目标。我们的经纪人同时学习目标条件政策和goalachievement奖励功能,衡量一个国家与目标国家的相似程度。这种双重优化导致合作游戏,产生了奖励的奖励函数,其反映了环境的可控方面的相似性而不是观察空间中的距离。我们展示了我们的代理人以无人监督的方式学习在三个领域--Atari,DeepMind Control Suite和DeepMind Lab实现目标的目标。
translated by 谷歌翻译
A key challenge in complex visuomotor control is learning abstract representations that are effective for specifying goals, planning, and generalization. To this end, we introduce universal planning networks (UPN). UPNs embed differen-tiable planning within a goal-directed policy. This planning computation unrolls a forward model in a latent space and infers an optimal action plan through gradient descent trajectory optimization. The plan-by-gradient-descent process and its underlying representations are learned end-to-end to directly optimize a supervised imitation learning objective. We find that the representations learned are not only effective for goal-directed visual imitation via gradient-based trajectory optimization, but can also provide a metric for specifying goals using images. The learned representations can be leveraged to specify distance-based rewards to reach new target states for model-free reinforcement learning, resulting in substantially more effective learning when solving new tasks described via image-based goals. We were able to achieve successful transfer of visuomotor planning strategies across robots with significantly different morphologies and actuation capabilities.
translated by 谷歌翻译
We propose a model-free deep reinforcement learning method that leverages a small amount of demonstration data to assist a reinforcement learning agent. We apply this approach to robotic manipulation tasks and train end-to-end visuomotor policies that map directly from RGB camera inputs to joint velocities. We demonstrate that our approach can solve a wide variety of visuomotor tasks, for which engineering a scripted controller would be laborious. In experiments, our reinforcement and imitation agent achieves significantly better performances than agents trained with reinforcement learning or imitation learning alone. We also illustrate that these policies, trained with large visual and dynamics variations, can achieve preliminary successes in zero-shot sim2real transfer. A brief visual description of this work can be viewed in this video.
translated by 谷歌翻译
强化学习是训练代理执行任务的强大技术。但是,使用强化学习训练的代理只能实现通过其奖励函数指定的单个任务。这种方法无法很好地扩展到代理需要执行各种任务的设置,例如导航到在不同的位置改变位置或将物体移动到不同的位置。相反,我们提出了一种方法,允许代理自动发现它能够执行的任务范围。我们使用生成器网络来建议代理尝试实现的任务,指定为目标状态。使用对抗训练优化发电机网络,以产生始终处于代理的适当难度级别的任务。因此,我们的方法自动生成代理学习的任务课程。我们表明,通过使用此框架,代理可以高效且自动地学习执行大量任务,而无需事先了解其环境。我们的方法也可以学习如何通过稀疏奖励来完成任务,这些任务传统上都是重大挑战。
translated by 谷歌翻译
无模型强化学习(RL)中一个长期存在的问题是,它需要大量的试验来学习一个好的政策,特别是那些奖励稀疏的环境。我们探索了一种方法,可以在我们访问演示时提高RL的样本效率。我们的方法Backplay使用单个演示来为给定任务构建课程。 Ratherthan在环境固定的初始状态下开始每个训练集,我们在演示结束时启动代理并在训练过程中向后移动起点直到我们达到初始状态。我们在竞争激烈的四人游戏中进行实验( Pommerman)和apath-finding迷宫游戏。我们发现Backplay在稀疏奖励设置方面具有明显的优势,可以显着提高复杂性。在某些情况下,它的成功率大于50,并推广到无意义的条件,而标准RL没有产生任何改善。
translated by 谷歌翻译
体验重放是深度强化学习(RL)中解决样本效率低下的重要技术,但由于重放缓冲区中不成比例的少量成功经验,因此难以学习二进制和稀疏奖励。最近提出后见之明经验重播(HER)通过操纵不成功的翻译来解决这一困难,但是在这样做时,HER在重放缓冲体验中引入了显着的偏差,因此实现了样本效率的次优改进。在本文中,我们对HER中的偏差来源进行了分析,并提出了一种简单有效的方法来对抗偏差,从而有效地利用HER提供的样本效率。我们的方法,以反事实推理为动机,并称为ARCHER,通过atrade-off扩展HER,以便为事后体验计算奖励,而不是真正的奖励。我们在DeepMind Control Suite中的两个连续控制环境中验证我们的算法 - Reacher和Finger,它使用机械臂模拟操作任务 - 结合各种奖励功能,任务复杂性和目标抽样策略。我们的实验一致地证明,使用更积极的hindsightrewards来抵消偏差可以提高样本效率,从而在计算预算有限的RL应用中建立ARCHER的更大优势。
translated by 谷歌翻译
直接从原始的高维感应输入(如图像)操作对机器人控制来说是一个挑战。最近,已经提出了强化学习方法来解决从像素到扭矩的端到端的特定任务。然而,这些方法假设访问可能需要专门的环境仪器的特定奖励。此外,获得的政策和陈述往往是特定于任务的,并且可能无法很好地传递。在这项工作中,我们研究了一般图像嵌入和控制原语的完全自我监督学习,基于找到到达任何状态的最短时间。我们还为状态动作值函数引入了一种新结构,该结构在无模型和基于模型的方法之间建立连接,并提高了学习算法的性能。我们在三个模拟机器人任务中实验证明了这些发现。
translated by 谷歌翻译
在线,非政策强化学习算法能够使用经验记忆来记忆和重放过去的经历。在以前的工作中,这种方法被用来通过打破更新的时间相关性来避免可能罕见的经验的快速遗忘来稳定训练。在这项工作中,我们提出了一个概念上简单的框架,它使用经验记忆通过优先考虑起始状态来帮助探索。代理开始在环境中起作用,重要的是,它还与策略上的算法兼容。鉴于能够在与过去观察相对应的状态下重新启动代理人,我们通过以下方式实现了这一目标:(i)使代理人能够在属于过去经验的状态(例如,附近的目标)中重新开始,以及(ii)通过以下方式促进更快地覆盖状态空间从一组更多样化的国家开始。虽然使用一个很好的优先级来确定重要的过去转移,但我们期望案例(i)更有助于探索某些问题(例如,稀疏奖励任务),我们假设案例(ii)即使没有任何优先次序,通常也会有益。我们通过证明,我们的方法可以提高非政策性和政策性深层强化学习方法的学习成绩,并且在一项非常稀疏的奖励任务中最显着的改进。
translated by 谷歌翻译
强化学习传统上考虑了平衡探索和开发的任务。这项工作考察了批量强化学习 - 最大限度地利用给定批次的非政策数据的任务,无需进一步收集数据。我们证明,由于外推引入的误差,标准的非策略深度强化学习算法,如DQN和DDPG,只能学习与当前政策相关的数据,使其对大多数非政策性应用无效。我们介绍一种新颖的一类非策略算法,批量约束的执行学习,它限制动作空间以强制代理人相对于给定数据的子集在策略上行为。我们将这一概念扩展到深度强化学习,并且尽我们所知,提出了第一个可以从不相关的非政策数据中有效学习的连续控制深度强化学习算法。
translated by 谷歌翻译
虽然强化学习(RL)具有使机器人能够自主获取各种技能的潜力,但在实践中,RL通常需要对奖励函数进行手动,按任务设计,特别是在实际环境中,计算进度所需的环境方面并非直接无障碍。为了使机器人能够自主学习技能,我们反而考虑强化学习的问题,而无需获得奖励。 Weaim要学习一个无人监督的嵌入空间,机器人可以在该空间内测量自己的目标。我们的方法明确地优化了对称空间,当目标达到最终状态时,达到特定状态的动作序列是最佳的。这使得学习有效和以控制为中心的表示能够导致更多的自主强化学习算法。我们在三个模拟环境和两个真实操作问题上的实验表明,我们的方法可以从未标记的交互中学习有效的目标指标,并使用学习目标指标进行自主强化学习。
translated by 谷歌翻译
我们提出了一种通用且无模型的方法,用于对具有稀疏奖励的真实机器人进行强化学习(RL)。我们基于Deep DeterministicPolicy Gradient(DDPG)算法来使用演示。演示和实际交互都用于填充重放缓冲区,演示和转换之间的采样比例通过优先级重放机制自动调整。通常,需要精心设计的整形奖励以使代理能够有效地探索诸如机器人之类的高维控制问题。它们也是基于模型的加速方法所必需的,这些方法依赖于诸如iLQG之类的本地求解器(例如,引导策略搜索和规范化优势函数)。这些演示取代了对精心设计的奖励的需求,并减少了这些领域中经典RL方法遇到的探索问题。示威活动是由一名人类示威者动力控制的机器人收集的。关于模拟插入任务的结果表明,来自示范的DDPG优于DDPG,并且不需要工程奖励。最后,我们演示了一个真正的机器人任务的方法,包括将一个剪辑(灵活的对象)插入到刚体对象中。
translated by 谷歌翻译
分层强化学习(HRL)是一种有前途的方法,可以扩展传统强化学习(RL)方法来解决更复杂的任务。但是,目前大多数HRL方法需要仔细的任务特定设计和政策培训,这使得它们难以应用于实际在本文中,我们研究如何开发一般的HRL算法,它们不会在标准RL算法之外做出繁重的附加假设,并且在它们可以与模式交互样本一起使用的意义上是有效的,它们适用于现实世界的问题,如机器人控制。为了通用性,我们开发了一种方案,其中低级控制器受到上级控制器自动学习和提出的目标的监督。为了提高效率,我们建议在高层和低层培训中使用非政策经验。这构成了相当大的挑战,因为对较低层次行为的改变改变了更高层次政策的行动空间,我们引入了一项政策。纠正以弥补这一挑战。这使我们能够利用非策略模型免费RL的最新进展来学习更高级别和更低级别的策略,使用比政策算法更少的环境交互。我们将所得到的HRL代理HIRO称为并且发现它通常适用且具有高样本效率。我们的实验表明,HIRO可用于学习模拟机器人的高度复杂行为,例如推动物体并利用它们到达目标位置,仅从几百万个样本中学习,相当于几天的实时交互。通过与许多先前的HRL方法的比较,我们发现我们的方法基本上优于以前的最先进技术。
translated by 谷歌翻译