对于自主代理人来说,要达到广泛的用户指定目标,它必须能够学习广泛适用的和通用的技能目录。此外,为了提供必要的通用性,这些技能必须处理诸如图像之类的原始感官输入。在本文中,我们提出了一种算法,通过结合非监督表征学习和强化条件策略的强化学习来获得这种通用技能。由于事先不知道可能需要证明的特定目标,因此代理人会执行自我监督的“实践”阶段,在此阶段,它会想象目标并尝试实现这些目标。我们学习具有三个不同目的的视觉表现:抽样目标自我监督实践,提供原始感知输入的结构化转换,以及计算目标到达的奖励信号。我们还提出了反应性目标重新标记方案,以进一步提高我们的方法的样本效率。我们的非策略算法足够有效,可以学习对原始图像观察和现实世界机器人系统目标进行操作的策略,并且大大优于现有技术。
translated by 谷歌翻译
处理稀疏奖励是强化学习(RL)中最大的挑战之一。我们提出了一种名为Hindsight Experience Replay的新技术,它允许从稀疏和二元化的奖励中进行样本有效学习,因此避免了复杂奖励工程的需要。它可以与任意的非策略RL算法结合,并且可以被视为一种隐含的课程形式。我们展示了我们在使用机械臂操纵物体的任务方法。特别是,我们在三个不同的任务上进行实验:推动,滑动和拾取和放置,在每种情况下仅使用二进制奖励来表明任务是否完成。我们的消融研究表明,后视体验重播是一项关键因素,可以在这些充满挑战的环境中进行训练。我们表明,我们在物理模拟中训练的策略可以部署在物理机器人上并成功完成任务。
translated by 谷歌翻译
人类是高保真模仿的专家 - 通常在一次尝试中非常模仿演示。人类使用此功能快速解决atask实例,并引导学习新任务。在自主代理中实现这些可能性是一个悬而未决的问题。在本文中,我们介绍了非政策RL算法(MetaMimic)来缩小这一差距。 MetaMimic可以学习(i)高保真一次性模仿各种新技能的政策,以及(ii)使代理人能够更有效地解决任务的政策。 MetaMimic依赖于将所有经验存储在存储器中并重放这些经验以通过非策略RL学习大规模深度神经网络策略的原理。在我们所知的情况下,本文介绍了用于深度RL的最大现有神经网络,并且表明需要具有归一化的较大网络来实现对于具有挑战性的操纵任务的一次性高保真模仿。结果还表明,尽管任务奖励稀少,并且无法访问示威者行动,但可以从愿景中学习这两种类型的政策。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolu-tionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policy-based methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
在过去五年中,强化学习取得了很大的进步。深度学习的成功引入代替了更传统的方法,使得强化学习能够扩展到非常复杂的领域,在Go ornumerous视频游戏的游戏环境中实现超人类的表现。尽管在多个领域取得了巨大成功,但这些新方法仍然存在着自身问题,这些问题使得它们经常不适用于世界上的问题。极其缺乏数据效率,加上执行安全限制的巨大差异和困难,是该领域三个突出问题之一。通常,从环境中采样的数百万个数据点对于这些算法收敛到可接受的策略是必要的。本文提出了一种新颖的生成对抗想象强化学习算法。它利用了最近引入的高效生成对抗模型,以及支持强化学习设置的马尔可夫属性,在内部想象模块中模拟真实环境的动态。然后使用想象中的推出来人工模拟标准强化学习过程中的真实环境,以避免在真实环境中经常是昂贵且危险的试验和错误。实验结果表明,所提出的算法经济地利用了现实环境中的经验而不是当前最先进的Rainbow DQN算法,从而为样本有效的深度强化学习提供了重要的步骤。
translated by 谷歌翻译
学习如何在没有手工制作的奖励或专家数据的情况下控制环境仍然具有挑战性,并且处于强化学习研究的前沿。我们提出了一种无监督的学习算法来训练代理人仅使用观察和反应流来达到感知指定的目标。我们的经纪人同时学习目标条件政策和goalachievement奖励功能,衡量一个国家与目标国家的相似程度。这种双重优化导致合作游戏,产生了奖励的奖励函数,其反映了环境的可控方面的相似性而不是观察空间中的距离。我们展示了我们的代理人以无人监督的方式学习在三个领域--Atari,DeepMind Control Suite和DeepMind Lab实现目标的目标。
translated by 谷歌翻译
强化学习是训练代理执行任务的强大技术。但是,使用强化学习训练的代理只能实现通过其奖励函数指定的单个任务。这种方法无法很好地扩展到代理需要执行各种任务的设置,例如导航到在不同的位置改变位置或将物体移动到不同的位置。相反,我们提出了一种方法,允许代理自动发现它能够执行的任务范围。我们使用生成器网络来建议代理尝试实现的任务,指定为目标状态。使用对抗训练优化发电机网络,以产生始终处于代理的适当难度级别的任务。因此,我们的方法自动生成代理学习的任务课程。我们表明,通过使用此框架,代理可以高效且自动地学习执行大量任务,而无需事先了解其环境。我们的方法也可以学习如何通过稀疏奖励来完成任务,这些任务传统上都是重大挑战。
translated by 谷歌翻译
Exploration in environments with sparse rewards has been a persistent problem in reinforcement learning (RL). Many tasks are natural to specify with a sparse reward, and manually shaping a reward function can result in suboptimal performance. However, finding a non-zero reward is exponentially more difficult with increasing task horizon or action dimensionality. This puts many real-world tasks out of practical reach of RL methods. In this work, we use demonstrations to overcome the exploration problem and successfully learn to perform long-horizon, multi-step robotics tasks with continuous control such as stacking blocks with a robot arm. Our method, which builds on top of Deep Deterministic Policy Gradients and Hindsight Experience Replay, provides an order of magnitude of speedup over RL on simulated robotics tasks. It is simple to implement and makes only the additional assumption that we can collect a small set of demonstrations. Furthermore, our method is able to solve tasks not solvable by either RL or behavior cloning alone, and often ends up outperforming the demonstrator policy.
translated by 谷歌翻译
直接从原始的高维感应输入(如图像)操作对机器人控制来说是一个挑战。最近,已经提出了强化学习方法来解决从像素到扭矩的端到端的特定任务。然而,这些方法假设访问可能需要专门的环境仪器的特定奖励。此外,获得的政策和陈述往往是特定于任务的,并且可能无法很好地传递。在这项工作中,我们研究了一般图像嵌入和控制原语的完全自我监督学习,基于找到到达任何状态的最短时间。我们还为状态动作值函数引入了一种新结构,该结构在无模型和基于模型的方法之间建立连接,并提高了学习算法的性能。我们在三个模拟机器人任务中实验证明了这些发现。
translated by 谷歌翻译
深度神经网络模型和强化学习算法的结合可以使得学习机器人行为的策略成为可能,这些机器人行为直接读取原始感觉输入,例如相机图像,有效地将估计和控制都假设为一个模型。然而,强化学习的现实应用必须通过手动编程的奖励函数来指定任务的目标,这实际上要求设计与端到端执行学习有望避免的完全相同的感知管道,或者用额外的方式检测环境。用于确定任务是否已成功执行的传感器。在本文中,我们提出了一种方法,通过使机器人从成功结果的实例数量中学习,然后是主动询问,机器人向用户显示状态并要求标签,从而消除对奖励规范的手动工程的需要。确定该状态是否代表任务的成功完成。虽然为每个单一状态请求标签将等于要求用户手动提供奖励信号,但我们的方法仅需要在训练期间看到的状态的一小部分标签,使其成为有效且实用的学习技能的方法,无需人工设计的奖励。我们在真实世界的机器人操作任务上评估我们的方法,其中观察包括由机器人的相机观察的图像。在实验中,我们的方法有效地学习直接从图像中排列对象,放置书籍和布料,并且没有任何手动指定的奖励功能,并且与现实世界仅有1-4小时的交互。
translated by 谷歌翻译
体验重放是深度强化学习(RL)中解决样本效率低下的重要技术,但由于重放缓冲区中不成比例的少量成功经验,因此难以学习二进制和稀疏奖励。最近提出后见之明经验重播(HER)通过操纵不成功的翻译来解决这一困难,但是在这样做时,HER在重放缓冲体验中引入了显着的偏差,因此实现了样本效率的次优改进。在本文中,我们对HER中的偏差来源进行了分析,并提出了一种简单有效的方法来对抗偏差,从而有效地利用HER提供的样本效率。我们的方法,以反事实推理为动机,并称为ARCHER,通过atrade-off扩展HER,以便为事后体验计算奖励,而不是真正的奖励。我们在DeepMind Control Suite中的两个连续控制环境中验证我们的算法 - Reacher和Finger,它使用机械臂模拟操作任务 - 结合各种奖励功能,任务复杂性和目标抽样策略。我们的实验一致地证明,使用更积极的hindsightrewards来抵消偏差可以提高样本效率,从而在计算预算有限的RL应用中建立ARCHER的更大优势。
translated by 谷歌翻译
在线,非政策强化学习算法能够使用经验记忆来记忆和重放过去的经历。在以前的工作中,这种方法被用来通过打破更新的时间相关性来避免可能罕见的经验的快速遗忘来稳定训练。在这项工作中,我们提出了一个概念上简单的框架,它使用经验记忆通过优先考虑起始状态来帮助探索。代理开始在环境中起作用,重要的是,它还与策略上的算法兼容。鉴于能够在与过去观察相对应的状态下重新启动代理人,我们通过以下方式实现了这一目标:(i)使代理人能够在属于过去经验的状态(例如,附近的目标)中重新开始,以及(ii)通过以下方式促进更快地覆盖状态空间从一组更多样化的国家开始。虽然使用一个很好的优先级来确定重要的过去转移,但我们期望案例(i)更有助于探索某些问题(例如,稀疏奖励任务),我们假设案例(ii)即使没有任何优先次序,通常也会有益。我们通过证明,我们的方法可以提高非政策性和政策性深层强化学习方法的学习成绩,并且在一项非常稀疏的奖励任务中最显着的改进。
translated by 谷歌翻译
我们基于AdversarialImitation Learning框架确定了算法族的两个问题。第一个问题是在这些算法中使用的向前函数中存在隐式偏差。虽然这些偏差可能适用于某些环境,但它们也可能导致其他环境中的次优行为。其次,尽管这些算法可以从少数专家演示中学习,但它们需要与环境进行过多的交互才能模仿专家许多现实世界的应用。为了解决这些问题,我们提出了一种新的算法,称为Discriminator-Actor-Critic,它使用非政策强化学习,以平均因子10来减少政策 - 环境交互样本的复杂性。此外,由于我们的奖励功能是无偏见的,我们可以将我们的算法应用于许多问题,而不进行任何特定于任务的调整。
translated by 谷歌翻译
translated by 谷歌翻译
强化学习传统上考虑了平衡探索和开发的任务。这项工作考察了批量强化学习 - 最大限度地利用给定批次的非政策数据的任务,无需进一步收集数据。我们证明,由于外推引入的误差,标准的非策略深度强化学习算法,如DQN和DDPG,只能学习与当前政策相关的数据,使其对大多数非政策性应用无效。我们介绍一种新颖的一类非策略算法,批量约束的执行学习,它限制动作空间以强制代理人相对于给定数据的子集在策略上行为。我们将这一概念扩展到深度强化学习,并且尽我们所知,提出了第一个可以从不相关的非政策数据中有效学习的连续控制深度强化学习算法。
translated by 谷歌翻译
We propose Scheduled Auxiliary Control (SAC-X), a new learning paradigm in the context of Reinforcement Learning (RL). SAC-X enables learning of complex behaviors-from scratch-in the presence of multiple sparse reward signals. To this end, the agent is equipped with a set of general auxiliary tasks, that it attempts to learn simultaneously via off-policy RL. The key idea behind our method is that active (learned) scheduling and execution of auxiliary policies allows the agent to efficiently explore its environment-enabling it to excel at sparse reward RL. Our experiments in several challenging robotic manipulation settings demonstrate the power of our approach. A video of the rich set of learned behaviours can be found at https://youtu.be/mPKyvocNe M.
translated by 谷歌翻译
A key challenge in complex visuomotor control is learning abstract representations that are effective for specifying goals, planning, and generalization. To this end, we introduce universal planning networks (UPN). UPNs embed differen-tiable planning within a goal-directed policy. This planning computation unrolls a forward model in a latent space and infers an optimal action plan through gradient descent trajectory optimization. The plan-by-gradient-descent process and its underlying representations are learned end-to-end to directly optimize a supervised imitation learning objective. We find that the representations learned are not only effective for goal-directed visual imitation via gradient-based trajectory optimization, but can also provide a metric for specifying goals using images. The learned representations can be leveraged to specify distance-based rewards to reach new target states for model-free reinforcement learning, resulting in substantially more effective learning when solving new tasks described via image-based goals. We were able to achieve successful transfer of visuomotor planning strategies across robots with significantly different morphologies and actuation capabilities.
translated by 谷歌翻译
我们提出了一种通用且无模型的方法,用于对具有稀疏奖励的真实机器人进行强化学习(RL)。我们基于Deep DeterministicPolicy Gradient(DDPG)算法来使用演示。演示和实际交互都用于填充重放缓冲区,演示和转换之间的采样比例通过优先级重放机制自动调整。通常,需要精心设计的整形奖励以使代理能够有效地探索诸如机器人之类的高维控制问题。它们也是基于模型的加速方法所必需的,这些方法依赖于诸如iLQG之类的本地求解器(例如,引导策略搜索和规范化优势函数)。这些演示取代了对精心设计的奖励的需求,并减少了这些领域中经典RL方法遇到的探索问题。示威活动是由一名人类示威者动力控制的机器人收集的。关于模拟插入任务的结果表明,来自示范的DDPG优于DDPG,并且不需要工程奖励。最后,我们演示了一个真正的机器人任务的方法,包括将一个剪辑(灵活的对象)插入到刚体对象中。
translated by 谷歌翻译
分层强化学习(HRL)是一种有前途的方法,可以扩展传统强化学习(RL)方法来解决更复杂的任务。但是,目前大多数HRL方法需要仔细的任务特定设计和政策培训,这使得它们难以应用于实际在本文中,我们研究如何开发一般的HRL算法,它们不会在标准RL算法之外做出繁重的附加假设,并且在它们可以与模式交互样本一起使用的意义上是有效的,它们适用于现实世界的问题,如机器人控制。为了通用性,我们开发了一种方案,其中低级控制器受到上级控制器自动学习和提出的目标的监督。为了提高效率,我们建议在高层和低层培训中使用非政策经验。这构成了相当大的挑战,因为对较低层次行为的改变改变了更高层次政策的行动空间,我们引入了一项政策。纠正以弥补这一挑战。这使我们能够利用非策略模型免费RL的最新进展来学习更高级别和更低级别的策略,使用比政策算法更少的环境交互。我们将所得到的HRL代理HIRO称为并且发现它通常适用且具有高样本效率。我们的实验表明,HIRO可用于学习模拟机器人的高度复杂行为,例如推动物体并利用它们到达目标位置,仅从几百万个样本中学习,相当于几天的实时交互。通过与许多先前的HRL方法的比较,我们发现我们的方法基本上优于以前的最先进技术。
translated by 谷歌翻译
Domain adaptation is an important open problem in deep reinforcement learning (RL). In many scenarios of interest data is hard to obtain , so agents may learn a source policy in a setting where data is readily available, with the hope that it generalises well to the target domain. We propose a new multi-stage RL agent, DARLA (DisentAngled Representation Learning Agent), which learns to see before learning to act. DARLA's vision is based on learning a disentangled representation of the observed environment. Once DARLA can see, it is able to acquire source policies that are robust to many domain shifts-even with no access to the target domain. DARLA significantly outperforms conventional baselines in zero-shot domain adaptation scenarios , an effect that holds across a variety of RL environments (Jaco arm, DeepMind Lab) and base RL algorithms (DQN, A3C and EC).
translated by 谷歌翻译