强化学习(RL)代理同时学习许多奖励功能的能力具有许多潜在的好处,例如将复杂任务分解为更简单的任务,任务之间的信息交换以及技能的重用。我们特别关注一个方面,即能够推广到看不见的任务。参数泛化依赖于函数逼近器的插值功率,该函数逼近器被赋予任务描述作为输入;其最常见的形式之一是通用值函数逼近器(UVFA)。推广到新任务的另一种方法是在RL问题本身中开发结构。广义策略改进(GPI)将先前任务的解决方案组合到针对看不见的任务的策略中;这依赖于新向下功能下的旧策略的即时策略评估,这通过后继特征(SF)实现。我们提出的通用后继特征近似器(USFAs)结合了所有这些的优点,即UVFAs的可扩展性,SF的即时参考,以及GPI的强大推广。我们讨论了培训USFA所涉及的挑战,其泛化属性,并证明其实际利益和转移能力在一个大规模的领域,其中代理人必须在第一人称视角三维环境中导航。
translated by 谷歌翻译
我们从强化学习理论中知道,在某些情况下,时间差异学习会失败。 Sutton和Barto(2018)确定了致命的三元组功能近似,自举和非政策学习。当这三个属性组合在一起时,学习可能会与价值估计结果不一致。然而,几种算法成功地结合了这三种属性,这表明我们的理解至少存在部分差距。在这项工作中,我们研究了致命三元组在实践中的影响,在一系列流行的深层强化学习模型的背景下 - 深度Q网络训练经验重放 - 分析该系统的组成部分如何在致命的出现中发挥作用三合会,以及代理人的表现
translated by 谷歌翻译
我们希望在人工一般情报方面取得进展,即通用目的代理人自主学习如何胜任不完整的环境。本报告的目的是勾勒出研究热线,分享我们面临的一些最重要的公开问题,并在社区中激发进一步的讨论。该内容基于2018年2月在巴巴多斯举行的为期一周的研讨会期间的一些讨论。
translated by 谷歌翻译
强化学习社区在设计能够超越特定任务的人类表现的算法方面取得了很大进展。这些算法大多是当时训练的一项任务,每项新任务都需要一个全新的代理实例。这意味着学习算法是通用的,但每个解决方案都不是;每个代理只能解决它所训练的一项任务。在这项工作中,我们研究了学习掌握不是一个而是多个顺序决策任务的问题。多任务学习中的一个普遍问题是,必须在多个任务的需求之间找到平衡,以满足单个学习系统的有限资源。许多学习算法可能会被要解决的任务集中的某些任务分散注意力。这些任务对于学习过程似乎更为突出,例如由于任务内奖励的密度或大小。这导致算法以牺牲普遍性为代价专注于那些突出的任务。我们建议自动调整每个任务对代理更新的贡献,使所有任务对学习动态产生类似的影响。这导致学习在一系列57diverse Atari游戏中玩所有游戏的艺术表现。令人兴奋的是,我们的方法学会了一套训练有素的政策 - 只有一套权重 - 超过了人类的中等绩效。据我们所知,这是单个代理首次超越此多任务域的人员级别性能。同样的方法还证明了3D加强学习平台DeepMind Lab中30项任务的艺术表现。
translated by 谷歌翻译
We propose a distributed architecture for deep reinforcement learning atscale, that enables agents to learn effectively from orders of magnitude moredata than previously possible. The algorithm decouples acting from learning:the actors interact with their own instances of the environment by selectingactions according to a shared neural network, and accumulate the resultingexperience in a shared experience replay memory; the learner replays samples ofexperience and updates the neural network. The architecture relies onprioritized experience replay to focus only on the most significant datagenerated by the actors. Our architecture substantially improves the state ofthe art on the Arcade Learning Environment, achieving better final performancein a fraction of the wall-clock training time.
translated by 谷歌翻译
一些真实世界的域名最好被描述为单一任务,但对于其他人而言,这种观点是有限的。相反,一些任务不断增加不复杂性,与代理人的能力相结合。在不断学习中,也被认为是终身学习,没有明确的任务边界或课程。随着学习代理变得越来越强大,持续学习仍然是阻碍快速进步的前沿之一。为了测试连续学习能力,我们考虑具有明确的任务序列和稀疏奖励的具有挑战性的3D域。我们提出了一种名为Unicorn的新型代理体系结构,它展示了强大的持续学习能力,并在拟议的领域中表现出优秀的几个基线代理。代理通过使用并行的非策略学习设置,有效地共同表示和学习多个策略来实现这一目标。
translated by 谷歌翻译
The deep reinforcement learning community has made several independentimprovements to the DQN algorithm. However, it is unclear which of theseextensions are complementary and can be fruitfully combined. This paperexamines six extensions to the DQN algorithm and empirically studies theircombination. Our experiments show that the combination providesstate-of-the-art performance on the Atari 2600 benchmark, both in terms of dataefficiency and final performance. We also provide results from a detailedablation study that shows the contribution of each component to overallperformance.
translated by 谷歌翻译
强化学习中的转移是指概念不仅应发生在任务中,还应发生在任务之间。我们提出了转移框架,用于奖励函数改变的场景,但环境的动态保持不变。我们的方法依赖于两个关键思想:“后继特征”,一种将环境动态与奖励分离的价值函数表示,以及“广义政策改进”,即动态规划的政策改进操作的概括,它考虑一组政策而不是单一政策。 。总而言之,这两个想法导致了一种方法,可以与强化学习框架无缝集成,并允许跨任务自由交换信息。即使在任何学习过程之前,所提出的方法也为转移的政策提供了保证。我们推导出两个定理,将我们的方法设置在坚实的理论基础和现有的实验中,表明它成功地促进了实践中的转移,在一系列导航任务中明显优于替代方法。并控制模拟机器人手臂。
translated by 谷歌翻译
近年来,在强化学习中使用深度表示已经取得了很多成功。尽管如此,这些应用程序中的许多仍然使用常规架构,例如卷积网络,LSTM或自动编码器。在本文中,我们提出了一种新的神经网络架构,用于无模型增强学习。我们的决斗网络代表两个独立的估算器:一个用于状态值函数,一个用于状态依赖的动作优势函数。这种因子分解的主要好处是可以在不对基础强化学习算法进行任何改变的情况下概括整个行动。我们的结果表明,这种架构可以在存在许多类似值的行为的情况下进行更好的策略评估。此外,决斗架构使我们的RL代理能够超越Atari 2600域的最新技术。
translated by 谷歌翻译
众所周知,流行的Q学习算法会高估某些条件下的动作值。以前不知道在实践中,这种估计是否常见,是否会损害表现,以及是否可以一般地预防这些表现。在本文中,我们肯定地回答了所有这些问题。特别是,我们首先表明,最近的DQN算法将Q-learning与深度神经网络相结合,在Atari 2600域的一些游戏中遭受了大量的估计。然后,我们展示了双Q学习算法背后的原理,它是在一个表格中引入的,可以推广到大规模函数逼近。我们提出了对DQN算法的特定修改,并表明所得到的算法不仅可以减少观察到的高估,如假设的那样,但这也可以在几个游戏中获得更好的性能。
translated by 谷歌翻译