对于自主代理人来说,要达到广泛的用户指定目标,它必须能够学习广泛适用的和通用的技能目录。此外,为了提供必要的通用性,这些技能必须处理诸如图像之类的原始感官输入。在本文中,我们提出了一种算法,通过结合非监督表征学习和强化条件策略的强化学习来获得这种通用技能。由于事先不知道可能需要证明的特定目标,因此代理人会执行自我监督的“实践”阶段,在此阶段,它会想象目标并尝试实现这些目标。我们学习具有三个不同目的的视觉表现:抽样目标自我监督实践,提供原始感知输入的结构化转换,以及计算目标到达的奖励信号。我们还提出了反应性目标重新标记方案,以进一步提高我们的方法的样本效率。我们的非策略算法足够有效,可以学习对原始图像观察和现实世界机器人系统目标进行操作的策略,并且大大优于现有技术。
translated by 谷歌翻译
处理稀疏奖励是强化学习(RL)中最大的挑战之一。我们提出了一种名为Hindsight Experience Replay的新技术,它允许从稀疏和二元化的奖励中进行样本有效学习,因此避免了复杂奖励工程的需要。它可以与任意的非策略RL算法结合,并且可以被视为一种隐含的课程形式。我们展示了我们在使用机械臂操纵物体的任务方法。特别是,我们在三个不同的任务上进行实验:推动,滑动和拾取和放置,在每种情况下仅使用二进制奖励来表明任务是否完成。我们的消融研究表明,后视体验重播是一项关键因素,可以在这些充满挑战的环境中进行训练。我们表明,我们在物理模拟中训练的策略可以部署在物理机器人上并成功完成任务。
translated by 谷歌翻译
人类是高保真模仿的专家 - 通常在一次尝试中非常模仿演示。人类使用此功能快速解决atask实例,并引导学习新任务。在自主代理中实现这些可能性是一个悬而未决的问题。在本文中,我们介绍了非政策RL算法(MetaMimic)来缩小这一差距。 MetaMimic可以学习(i)高保真一次性模仿各种新技能的政策,以及(ii)使代理人能够更有效地解决任务的政策。 MetaMimic依赖于将所有经验存储在存储器中并重放这些经验以通过非策略RL学习大规模深度神经网络策略的原理。在我们所知的情况下,本文介绍了用于深度RL的最大现有神经网络,并且表明需要具有归一化的较大网络来实现对于具有挑战性的操纵任务的一次性高保真模仿。结果还表明,尽管任务奖励稀少,并且无法访问示威者行动,但可以从愿景中学习这两种类型的政策。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolu-tionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policy-based methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
学习如何在没有手工制作的奖励或专家数据的情况下控制环境仍然具有挑战性,并且处于强化学习研究的前沿。我们提出了一种无监督的学习算法来训练代理人仅使用观察和反应流来达到感知指定的目标。我们的经纪人同时学习目标条件政策和goalachievement奖励功能,衡量一个国家与目标国家的相似程度。这种双重优化导致合作游戏,产生了奖励的奖励函数,其反映了环境的可控方面的相似性而不是观察空间中的距离。我们展示了我们的代理人以无人监督的方式学习在三个领域--Atari,DeepMind Control Suite和DeepMind Lab实现目标的目标。
translated by 谷歌翻译
直接从原始的高维感应输入(如图像)操作对机器人控制来说是一个挑战。最近,已经提出了强化学习方法来解决从像素到扭矩的端到端的特定任务。然而,这些方法假设访问可能需要专门的环境仪器的特定奖励。此外,获得的政策和陈述往往是特定于任务的,并且可能无法很好地传递。在这项工作中,我们研究了一般图像嵌入和控制原语的完全自我监督学习,基于找到到达任何状态的最短时间。我们还为状态动作值函数引入了一种新结构,该结构在无模型和基于模型的方法之间建立连接,并提高了学习算法的性能。我们在三个模拟机器人任务中实验证明了这些发现。
translated by 谷歌翻译
体验重放是深度强化学习(RL)中解决样本效率低下的重要技术,但由于重放缓冲区中不成比例的少量成功经验,因此难以学习二进制和稀疏奖励。最近提出后见之明经验重播(HER)通过操纵不成功的翻译来解决这一困难,但是在这样做时,HER在重放缓冲体验中引入了显着的偏差,因此实现了样本效率的次优改进。在本文中,我们对HER中的偏差来源进行了分析,并提出了一种简单有效的方法来对抗偏差,从而有效地利用HER提供的样本效率。我们的方法,以反事实推理为动机,并称为ARCHER,通过atrade-off扩展HER,以便为事后体验计算奖励,而不是真正的奖励。我们在DeepMind Control Suite中的两个连续控制环境中验证我们的算法 - Reacher和Finger,它使用机械臂模拟操作任务 - 结合各种奖励功能,任务复杂性和目标抽样策略。我们的实验一致地证明,使用更积极的hindsightrewards来抵消偏差可以提高样本效率,从而在计算预算有限的RL应用中建立ARCHER的更大优势。
translated by 谷歌翻译
Exploration in environments with sparse rewards has been a persistent problem in reinforcement learning (RL). Many tasks are natural to specify with a sparse reward, and manually shaping a reward function can result in suboptimal performance. However, finding a non-zero reward is exponentially more difficult with increasing task horizon or action dimensionality. This puts many real-world tasks out of practical reach of RL methods. In this work, we use demonstrations to overcome the exploration problem and successfully learn to perform long-horizon, multi-step robotics tasks with continuous control such as stacking blocks with a robot arm. Our method, which builds on top of Deep Deterministic Policy Gradients and Hindsight Experience Replay, provides an order of magnitude of speedup over RL on simulated robotics tasks. It is simple to implement and makes only the additional assumption that we can collect a small set of demonstrations. Furthermore, our method is able to solve tasks not solvable by either RL or behavior cloning alone, and often ends up outperforming the demonstrator policy.
translated by 谷歌翻译
强化学习是训练代理执行任务的强大技术。但是,使用强化学习训练的代理只能实现通过其奖励函数指定的单个任务。这种方法无法很好地扩展到代理需要执行各种任务的设置,例如导航到在不同的位置改变位置或将物体移动到不同的位置。相反,我们提出了一种方法,允许代理自动发现它能够执行的任务范围。我们使用生成器网络来建议代理尝试实现的任务,指定为目标状态。使用对抗训练优化发电机网络,以产生始终处于代理的适当难度级别的任务。因此,我们的方法自动生成代理学习的任务课程。我们表明,通过使用此框架,代理可以高效且自动地学习执行大量任务,而无需事先了解其环境。我们的方法也可以学习如何通过稀疏奖励来完成任务,这些任务传统上都是重大挑战。
translated by 谷歌翻译
We propose Scheduled Auxiliary Control (SAC-X), a new learning paradigm in the context of Reinforcement Learning (RL). SAC-X enables learning of complex behaviors-from scratch-in the presence of multiple sparse reward signals. To this end, the agent is equipped with a set of general auxiliary tasks, that it attempts to learn simultaneously via off-policy RL. The key idea behind our method is that active (learned) scheduling and execution of auxiliary policies allows the agent to efficiently explore its environment-enabling it to excel at sparse reward RL. Our experiments in several challenging robotic manipulation settings demonstrate the power of our approach. A video of the rich set of learned behaviours can be found at https://youtu.be/mPKyvocNe M.
translated by 谷歌翻译
在线,非政策强化学习算法能够使用经验记忆来记忆和重放过去的经历。在以前的工作中,这种方法被用来通过打破更新的时间相关性来避免可能罕见的经验的快速遗忘来稳定训练。在这项工作中,我们提出了一个概念上简单的框架,它使用经验记忆通过优先考虑起始状态来帮助探索。代理开始在环境中起作用,重要的是,它还与策略上的算法兼容。鉴于能够在与过去观察相对应的状态下重新启动代理人,我们通过以下方式实现了这一目标:(i)使代理人能够在属于过去经验的状态(例如,附近的目标)中重新开始,以及(ii)通过以下方式促进更快地覆盖状态空间从一组更多样化的国家开始。虽然使用一个很好的优先级来确定重要的过去转移,但我们期望案例(i)更有助于探索某些问题(例如,稀疏奖励任务),我们假设案例(ii)即使没有任何优先次序,通常也会有益。我们通过证明,我们的方法可以提高非政策性和政策性深层强化学习方法的学习成绩,并且在一项非常稀疏的奖励任务中最显着的改进。
translated by 谷歌翻译
translated by 谷歌翻译
我们基于AdversarialImitation Learning框架确定了算法族的两个问题。第一个问题是在这些算法中使用的向前函数中存在隐式偏差。虽然这些偏差可能适用于某些环境,但它们也可能导致其他环境中的次优行为。其次,尽管这些算法可以从少数专家演示中学习,但它们需要与环境进行过多的交互才能模仿专家许多现实世界的应用。为了解决这些问题,我们提出了一种新的算法,称为Discriminator-Actor-Critic,它使用非政策强化学习,以平均因子10来减少政策 - 环境交互样本的复杂性。此外,由于我们的奖励功能是无偏见的,我们可以将我们的算法应用于许多问题,而不进行任何特定于任务的调整。
translated by 谷歌翻译
Deep reinforcement learning algorithms have been shown to learn complex tasksusing highly general policy classes. However, sparse reward problems remain asignificant challenge. Exploration methods based on novelty detection have beenparticularly successful in such settings but typically require generative orpredictive models of the observations, which can be difficult to train when theobservations are very high-dimensional and complex, as in the case of rawimages. We propose a novelty detection algorithm for exploration that is basedentirely on discriminatively trained exemplar models, where classifiers aretrained to discriminate each visited state against all others. Intuitively,novel states are easier to distinguish against other states seen duringtraining. We show that this kind of discriminative modeling corresponds toimplicit density estimation, and that it can be combined with count-basedexploration to produce competitive results on a range of popular benchmarktasks, including state-of-the-art results on challenging egocentricobservations in the vizDoom benchmark.
translated by 谷歌翻译
分层强化学习(HRL)是一种有前途的方法,可以扩展传统强化学习(RL)方法来解决更复杂的任务。但是,目前大多数HRL方法需要仔细的任务特定设计和政策培训,这使得它们难以应用于实际在本文中,我们研究如何开发一般的HRL算法,它们不会在标准RL算法之外做出繁重的附加假设,并且在它们可以与模式交互样本一起使用的意义上是有效的,它们适用于现实世界的问题,如机器人控制。为了通用性,我们开发了一种方案,其中低级控制器受到上级控制器自动学习和提出的目标的监督。为了提高效率,我们建议在高层和低层培训中使用非政策经验。这构成了相当大的挑战,因为对较低层次行为的改变改变了更高层次政策的行动空间,我们引入了一项政策。纠正以弥补这一挑战。这使我们能够利用非策略模型免费RL的最新进展来学习更高级别和更低级别的策略,使用比政策算法更少的环境交互。我们将所得到的HRL代理HIRO称为并且发现它通常适用且具有高样本效率。我们的实验表明,HIRO可用于学习模拟机器人的高度复杂行为,例如推动物体并利用它们到达目标位置,仅从几百万个样本中学习,相当于几天的实时交互。通过与许多先前的HRL方法的比较,我们发现我们的方法基本上优于以前的最先进技术。
translated by 谷歌翻译
强化学习传统上考虑了平衡探索和开发的任务。这项工作考察了批量强化学习 - 最大限度地利用给定批次的非政策数据的任务,无需进一步收集数据。我们证明,由于外推引入的误差,标准的非策略深度强化学习算法,如DQN和DDPG,只能学习与当前政策相关的数据,使其对大多数非政策性应用无效。我们介绍一种新颖的一类非策略算法,批量约束的执行学习,它限制动作空间以强制代理人相对于给定数据的子集在策略上行为。我们将这一概念扩展到深度强化学习,并且尽我们所知,提出了第一个可以从不相关的非政策数据中有效学习的连续控制深度强化学习算法。
translated by 谷歌翻译
稀疏奖励强化学习的探索仍然是一个难以接受的挑战。许多最先进的方法使用内在动机来补充稀疏的外在奖励信号,使代理人有更多机会在探索过程中接收反馈。最常见的是,这些信号被添加为asbonus奖励,这导致混合策略忠实地进行探索或任务履行延长的时间。在本文中,我们学习单独的内在和外在任务政策,并在这些不同的驱动之间进行计划,以加速探索和稳定学习。此外,我们引入了一种新类型的内在奖励,表示为安装或特征控制(SFC),它是一般的而不是任务特定的。它考虑了完整轨迹的统计数据,因此不同的方法仅仅使用本地信息来评估内在动机。我们使用纯视觉输入评估我们提出的计划内在驱动器(SID)代理程序:VizDoom,DeepMindLab和OpenAI Gym经典控件。结果表明,SFC的探索效率和内在驱动器的分层使用得到了极大的提高。我们的实验结果视频可以在http://youtu.be/4ZHcBo7006Y找到。
translated by 谷歌翻译
我们提出了残余政策学习(RPL):一种使用无模型深度强化学习来改进不可分辨政策的简单方法。 RPL在复杂的机器人操作任务中发挥作用,其中可以获得良好但不完美的控制器。在这些任务中,从零开始的强化学习是数据无效或难以处理的,但在初始控制器之上学习残差可以产生实质性的改进。我们在五个具有挑战性的MuJoCo任务中研究RPL,包括部分可观察性,传感器噪声,模型确定和控制器误校准。通过将学习与控制算法相结合,RPL可以执行长期,稀疏奖励任务,而单独执行学习失败。此外,我们发现RPL在初始控制器上始终如一地大幅改进。我们认为RPL是结合深度增强学习和机器人控制的互补优势的一种前景方法,推动了可以独立实现的边界。
translated by 谷歌翻译
我们将深度Q学习成功的思想适应于连续行动领域。我们提出了一个演员评论家,无模型算法基于确定性政策梯度,可以在连续作用空间上运作。使用相同的学习算法,网络架构和超参数,我们的算法可以有力地解决20多个模拟物理任务,包括经典问题,如推车摆动,灵巧操作,腿式运动和汽车驾驶。我们的算法能够找到性能与计划算法所发现的竞争对手的策略,这些策略可以完全访问域及其衍生物的动态。我们进一步证明,对于许多任务,算法可以直接从端到端学习策略:原始像素输入。
translated by 谷歌翻译
Domain adaptation is an important open problem in deep reinforcement learning (RL). In many scenarios of interest data is hard to obtain , so agents may learn a source policy in a setting where data is readily available, with the hope that it generalises well to the target domain. We propose a new multi-stage RL agent, DARLA (DisentAngled Representation Learning Agent), which learns to see before learning to act. DARLA's vision is based on learning a disentangled representation of the observed environment. Once DARLA can see, it is able to acquire source policies that are robust to many domain shifts-even with no access to the target domain. DARLA significantly outperforms conventional baselines in zero-shot domain adaptation scenarios , an effect that holds across a variety of RL environments (Jaco arm, DeepMind Lab) and base RL algorithms (DQN, A3C and EC).
translated by 谷歌翻译