许多现实世界的任务表现出丰富的结构,在州空间的不同部分或时间上重复。在这项工作中,我们研究了利用这种重复结构加速和规范学习的可能性。我们从KL正规化的预期奖励目标开始,该目标引入了一个额外的组件,即默认策略。我们不是依赖于固定的默认策略,而是从数据中学习它。但至关重要的是,我们限制默认策略接收的信息量,迫使其学习可重用行为,以帮助策略更快地学习。我们正式化了这一策略,并讨论了与信息瓶颈方法和变分EM算法的联系。我们在离散和连续作用域中提供实证结果,并证明,对于某些任务,在策略旁边学习默认策略可以显着加快和改善学习。
translated by 谷歌翻译
学习如何在没有手工制作的奖励或专家数据的情况下控制环境仍然具有挑战性,并且处于强化学习研究的前沿。我们提出了一种无监督的学习算法来训练代理人仅使用观察和反应流来达到感知指定的目标。我们的经纪人同时学习目标条件政策和goalachievement奖励功能,衡量一个国家与目标国家的相似程度。这种双重优化导致合作游戏,产生了奖励的奖励函数,其反映了环境的可控方面的相似性而不是观察空间中的距离。我们展示了我们的代理人以无人监督的方式学习在三个领域--Atari,DeepMind Control Suite和DeepMind Lab实现目标的目标。
translated by 谷歌翻译
多代理方案中的强化学习对于实际应用非常重要,但却带来了超出单一代理设置的挑战。我们提出了一种演员 - 评论家算法,它在多智能体设置中训练分散的政策,使用集中计算的批评者,这些批评者共享注意机制,每个时间步长为每个代理选择相关信息。与最近的方法相比,这种注意机制可以在复杂的多代理环境中实现更有效和可扩展的学习。我们的方法不仅适用于具有共享奖励的合作设置,还适用于个性化奖励设置,包括对抗设置,并且不对代理的动作空间做出任何假设。因此,它足够灵活,可以应用于大多数多智能体学习问题。
translated by 谷歌翻译
We introduce Imagination-Augmented Agents (I2As), a novel architecture for deep reinforcement learning combining model-free and model-based aspects. In contrast to most existing model-based reinforcement learning and planning methods, which prescribe how a model should be used to arrive at a policy, I2As learn to interpret predictions from a learned environment model to construct implicit plans in arbitrary ways, by using the predictions as additional context in deep policy networks. I2As show improved data efficiency, performance, and robustness to model misspecification compared to several baselines.
translated by 谷歌翻译
最近的工作表明,深层强化学习代理可以从不常见的环境奖励中学习类似语言的指令。然而,这给环境设计者带来了设计语言 - 条件向前功能的责任,这些功能可能不容易或易于实现,因为环境的复杂性和语言规模。为了克服这种限制,我们提出了一个框架,在该框架内,使用不是从环境获得的奖励来训练指令条件的RLagents,而是使用从专家示例联合训练的奖励模型。随着奖励模式的改进,他们学会准确地奖励代理人完成任务前环境配置 - 以及指令 - 在专家数据中不存在。该框架有效地将指令所需的表示与它们的执行方式分开。在一个简单的网格世界中,它使代理能够学习一系列需要与块交互并了解空间关系和未指定抽象布置的命令。我们进一步展示了该方法允许我们的代理适应环境中的变化,而无需新的专家示例。
translated by 谷歌翻译
强化学习(RL)是机器学习的一个分支,用于解决各种顺序决策问题而无需预先监督。由于最近深度学习的进步,新提出的Deep-RL算法已经能够在复杂的高维环境中表现得非常好。然而,即使在许多领域取得成功之后,这些方法的主要挑战之一是与高效决策所需的环境的高度相互作用。从大脑中寻求灵感,这个问题可以通过偏置决策来结合基于实例的学习来解决。记录高级经验。本文回顾了各种最近的强化学习方法,它们结合了外部记忆来解决决策问题,并对它们进行了调查。我们概述了不同的方法 - 以及它们的优点和缺点,应用以及用于基于内存的模型的标准实验设置。该评论希望成为有用的资源,以提供该领域最新进展的关键见解,并为其未来的进一步发展提供帮助。
translated by 谷歌翻译
我们提出CM3,一种新的深层强化学习方法,用于合作多代理问题,代理人必须协调共同成功实现不同的个人目标。我们将多智能体学习重组为两阶段课程,包括学习完成单个任务的单一代理阶段,然后是在其他代理存在的情况下学习操作的多智能体阶段。这两个阶段通过神经网络策略和价值函数的模块化扩充来桥接。我们通过制定政策梯度的本地和全球观点以及通过双重评论家学习,从分散的价值功能和集中的行动价值功能组成,进一步将行为者 - 批评者框架纳入该课程。我们在具有稀疏奖励的新的高维多智能体环境中评估CM3:在城市交通仿真(SUMO)交通模拟器中协商多个自主车辆之间的车道变化。详细消解实验显示了CM3中每个组分的积极贡献,并且整体合成比现有的合作多智能体方法明显更快地收敛到更高性能的策略。
translated by 谷歌翻译
The interpretation of spatial references is highly contextual, requiring joint inference over both language and the environment. We consider the task of spatial reasoning in a simulated environment, where an agent can act and receive rewards. The proposed model learns a representation of the world steered by instruction text. This design allows for precise alignment of local neighborhoods with corresponding verbalizations, while also handling global references in the instructions. We train our model with reinforcement learning using a variant of generalized value iteration. The model outperforms state-of-the-art approaches on several metrics, yielding a 45% reduction in goal localization error. 1
translated by 谷歌翻译
大多数深度强化学习算法在复杂和丰富的环境中数据效率低,限制了它们在许多场景中的适用性。用于提高数据效率的唯一方向是使用共享神经网络参数的多任务学习,其中可以通过跨交叉相关任务来提高效率。然而,在实践中,通常不会观察到这种情况,因为来自不同任务的渐变可能会产生负面干扰,导致学习不稳定,有时甚至会降低数据效率。另一个问题是任务之间的不同奖励方案,这很容易导致一个任务确定共享模型的学习。我们提出了一种新的联合训练方法,我们称之为Distral(Distill&transferlearning)。我们建议分享一个捕获常见行为的“蒸馏”策略,而不是在不同的工作者之间共享参数。每个工人都经过培训,可以解决自己的任务,同时受限于保持对共享政策的控制,而共享政策则通过蒸馏培训成为所有任务政策的质心。学习过程的两个方面都是通过优化联合目标函数得出的。我们表明,我们的方法支持在复杂的3D环境中进行有效传输,优于多个相关方法。此外,所提出的学习过程更加健壮且更加稳定 - 这些属性在深层强化学习中至关重要。
translated by 谷歌翻译
智能生物可以在没有监督的情况下探索环境并学习有用的技能。在本文中,我们提出了DIAYN('Diversity is All YouNeed'),这是一种在没有奖励功能的情况下学习有用技能的方法。我们提出的方法通过使用最大熵策略最大化信息理论目标来学习技能。在各种模拟机器人任务中,weshow表明这个简单的目标导致了无人监督的多种技能的出现,例如步行和跳跃。在许多强化学习基准测试环境中,我们的方法能够学习一项能够解决基准测试任务的技能,尽管从未收到真正的任务奖励。我们展示了预训练技能可以为下游任务提供良好的参数初始化,并且可以分层次地组合以解决复杂的,稀疏的任务。我们的研究结果表明,无监督的技能发现可以作为克服强化学习中探索和数据效率挑战的有效预训练机制。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolu-tionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policy-based methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
We describe a simple scheme that allows an agent to learn about its environment in an unsupervised manner. Our scheme pits two versions of the same agent, Al-ice and Bob, against one another. Alice proposes a task for Bob to complete; and then Bob attempts to complete the task. In this work we will focus on two kinds of environments: (nearly) reversible environments and environments that can be reset. Alice will "propose" the task by doing a sequence of actions and then Bob must undo or repeat them, respectively. Via an appropriate reward structure, Alice and Bob automatically generate a curriculum of exploration, enabling unsuper-vised training of the agent. When Bob is deployed on an RL task within the environment , this unsupervised training reduces the number of supervised episodes needed to learn, and in some cases converges to a higher reward.
translated by 谷歌翻译
当奖励函数稀疏时,模仿学习是学习策略的有效替代方法。在本文中,我们考虑一个具有挑战性的设置,即代理人和专家使用彼此不同的行为。我们假设代理可以访问稀疏奖励函数和仅状态专家观察。我们提出了一种在模仿学习成本和强化学习目标之间逐步平衡的方法。此外,该方法基于模仿专家行为或最大化稀疏奖励来调整代理的策略。我们通过导航场景表明,(i)anagent能够有效地利用稀疏奖励优于仅标准状态的模仿学习,(ii)即使其行为与专家不同,也可以学习策略,以及(iii)表现由于稀疏奖励的优化使用,代理的范围不受专家的限制。
translated by 谷歌翻译
在许多顺序决策制定任务中,设计奖励功能是有挑战性的,这有助于RL代理有效地学习代理设计者认为良好的行为。在文献中已经提出了许多不同的向外设计问题的公式或其近似变体。在本文中,我们建立了Singhet.al的最佳奖励框架。将最优内在奖励函数定义为当RL代理使用时实现优化任务指定的内部奖励函数的行为。此框架中的先前工作已经显示了如何为基于前瞻性搜索的规划者学习良好的内在奖励功能。是否有可能学习学习者的内在奖励功能仍然是一个悬而未决的问题。在本文中,我们推导出一种新的算法,用于学习基于策略梯度的学习代理的内在奖励。我们将使用我们的算法的增强代理的性能与基于A2C的策略学习器(针对Atarigames)和基于PPO的策略学习器(针对Mujoco域)提供额外的内在奖励,其中基线代理使用相同的策略学习者但仅使用外在奖励。我们的结果显示大多数但不是所有领域的性能都有所提高。
translated by 谷歌翻译
While model-based deep reinforcement learning (RL) holds great promise for sample efficiency and generalization, learning an accurate dynamics model is often challenging and requires substantial interaction with the environment. A wide variety of domains have dynamics that share common foundations like the laws of classical mechanics , which are rarely exploited by existing algorithms. In fact, humans continuously acquire and use such dynamics priors to easily adapt to operating in new environments. In this work, we propose an approach to learn task-agnostic dynamics priors from videos and incorporate them into an RL agent. Our method involves pre-training a frame predictor on task-agnostic physics videos to initialize dynamics models (and fine-tune them) for unseen target environments. Our frame prediction architecture, SpatialNet, is designed specifically to capture localized physical phenomena and interactions. Our approach allows for both faster policy learning and convergence to better policies, outperforming competitive approaches on several different environments. We also demonstrate that incorporating this prior allows for more effective transfer between environments.
translated by 谷歌翻译
translated by 谷歌翻译
多智能体强化学习系统旨在为交互动物提供协作学习和适应其他行为的能力。在许多现实世界的应用程序中,代理商只能获得对世界的部分视图。在这里,我们考虑一个设置,大多数代理人的观察也非常嘈杂,因此只与环境的真实状态微弱相关。在这种情况下,学习最优政策变得特别具有挑战性,即使在不切实际的情况下,代理人的政策可以以所有其他代理人的观察为条件。为了克服这些困难,我们提出了一种通过通信介质(MADDPG-M)增强的多智能体深度确定性策略梯度算法,它实现了两级并发学习机制。代理人的政策取决于其自身的私人观察以及其他人通过交流媒介明确分享的观察结果。在任何给定的时间点,代理人必须决定私人观察是否足够信息以便与他人共享。但是,我们的环境没有提供明确的反馈,告知代理通信行为是否有益,而且通信策略也必须通过经验同时学习主要政策。实验结果表明,该算法在六个高度非平稳的环境中表现良好,复杂程度越来越高,与基线相比,性能得到了显着提高。
translated by 谷歌翻译
深层强化学习代理通过直接最大化累积奖励来实现最先进的结果。但是,环境包含各种各样的可能的训练信号。在本文中,我们介绍了通过执行学习同时最大化许多其他伪奖励功能的anagent。所有这些任务都有一个共同的表现形式,就像无监督学习一样,在没有外在学习者的情况下继续发展。我们还引入了一种新的机制,用于将这种表示集中在外在奖励上,以便学习可以快速适应实际任务的最相关方面。我们的经纪人明显优于以前最先进的Atari,平均880%专家的人类表现,以及具有挑战性的第一人称,三维\ emph {Labyrinth}任务套件,平均加速学习10美元在迷宫中获得$和平均87%的专家表现。
translated by 谷歌翻译
We present Value Propagation (VProp), a set of parameter-efficient differen-tiable planning modules built on Value Iteration which can successfully be trained using reinforcement learning to solve unseen tasks, has the capability to generalize to larger map sizes, and can learn to navigate in dynamic environments. We show that the modules enable learning to plan when the environment also includes stochastic elements, providing a cost-efficient learning system to build low-level size-invariant planners for a variety of interactive navigation problems. We evaluate on static and dynamic configurations of MazeBase grid-worlds, with randomly generated environments of several different sizes, and on a StarCraft navigation scenario, with more complex dynamics, and pixels as input.
translated by 谷歌翻译
Learning to navigate in complex environments with dynamic elements is animportant milestone in developing AI agents. In this work we formulate thenavigation question as a reinforcement learning problem and show that dataefficiency and task performance can be dramatically improved by relying onadditional auxiliary tasks leveraging multimodal sensory inputs. In particularwe consider jointly learning the goal-driven reinforcement learning problemwith auxiliary depth prediction and loop closure classification tasks. Thisapproach can learn to navigate from raw sensory input in complicated 3D mazes,approaching human-level performance even under conditions where the goallocation changes frequently. We provide detailed analysis of the agentbehaviour, its ability to localise, and its network activity dynamics, showingthat the agent implicitly learns key navigation abilities.
translated by 谷歌翻译