跨任务转移技能的能力有可能将增强型学习(RL)代理扩展到目前无法实现的环境。最近,基于两个概念,后继特征(SF)和广泛策略改进(GPI)的框架已被引入转移技能的原则性方式。在本文中,我们在两个方面扩展了SF和GPI框架。 SFs和GPI原始公式的基本假设之一是,所有感兴趣的任务的奖励可以计算为固定特征集的线性组合。我们放松了这个约束,并表明支持框架的理论保证可以扩展到只有奖励函数不同的任何一组任务。我们的第二个贡献是,可以使用奖励函数本身作为未来任务的特征,而不会损失任何表现力,从而无需事先指定一组特征。这使得可以以更稳定的方式将SF和GPI与深度学习相结合。我们在acomplex 3D环境中凭经验验证了这一主张,其中观察是来自第一人称视角的图像。我们表明,SF和GPI推动的转移几乎可以立即实现看不见任务的非常好的政策。我们还描述了如何以一种允许将它们添加到代理的技能集中的方式学习专门用于新任务的策略,从而在将来重用。
translated by 谷歌翻译
目前,共享深度学习模式的唯一技术是同态加密和安全多方计算。遗憾的是,由于其大量的计算和通信开销,这些技术都不适用于大型神经网络的训练。作为共享模型治理的可扩展技术,我们建议在多方之间拆分加深学习模型。本文实证研究了该技术的安全保障,该技术作为模型完成问题引入:给定整个训练数据集或环境模拟器,以及训练深度学习模型的参数子集,需要多少训练来恢复模型原创表现?我们定义了一个评估模型完成问题硬度的指标,并在ImageNet的监督学习和Atari和DeepMind~Lab的强化学习中进行了实证研究。我们的实验表明:(1)模型完成问题在强化学习中比在受监督学习中更难,因为训练有素的轨迹不可用,(2)其硬度主要不取决于射击部分的参数数量,而是更多他们的类型和位置。我们的结果表明,模型拆分对于共享模型治理可能是一种可行的技术,因为培训非常昂贵。
translated by 谷歌翻译
我们从强化学习理论中知道,在某些情况下,时间差异学习会失败。 Sutton和Barto(2018)确定了致命的三元组功能近似,自举和非政策学习。当这三个属性组合在一起时,学习可能会与价值估计结果不一致。然而,几种算法成功地结合了这三种属性,这表明我们的理解至少存在部分差距。在这项工作中,我们研究了致命三元组在实践中的影响,在一系列流行的深层强化学习模型的背景下 - 深度Q网络训练经验重放 - 分析该系统的组成部分如何在致命的出现中发挥作用三合会,以及代理人的表现
translated by 谷歌翻译
强化学习社区在设计能够超越特定任务的人类表现的算法方面取得了很大进展。这些算法大多是当时训练的一项任务,每项新任务都需要一个全新的代理实例。这意味着学习算法是通用的,但每个解决方案都不是;每个代理只能解决它所训练的一项任务。在这项工作中,我们研究了学习掌握不是一个而是多个顺序决策任务的问题。多任务学习中的一个普遍问题是,必须在多个任务的需求之间找到平衡,以满足单个学习系统的有限资源。许多学习算法可能会被要解决的任务集中的某些任务分散注意力。这些任务对于学习过程似乎更为突出,例如由于任务内奖励的密度或大小。这导致算法以牺牲普遍性为代价专注于那些突出的任务。我们建议自动调整每个任务对代理更新的贡献,使所有任务对学习动态产生类似的影响。这导致学习在一系列57diverse Atari游戏中玩所有游戏的艺术表现。令人兴奋的是,我们的方法学会了一套训练有素的政策 - 只有一套权重 - 超过了人类的中等绩效。据我们所知,这是单个代理首次超越此多任务域的人员级别性能。同样的方法还证明了3D加强学习平台DeepMind Lab中30项任务的艺术表现。
translated by 谷歌翻译
We propose a distributed architecture for deep reinforcement learning atscale, that enables agents to learn effectively from orders of magnitude moredata than previously possible. The algorithm decouples acting from learning:the actors interact with their own instances of the environment by selectingactions according to a shared neural network, and accumulate the resultingexperience in a shared experience replay memory; the learner replays samples ofexperience and updates the neural network. The architecture relies onprioritized experience replay to focus only on the most significant datagenerated by the actors. Our architecture substantially improves the state ofthe art on the Arcade Learning Environment, achieving better final performancein a fraction of the wall-clock training time.
translated by 谷歌翻译
一些真实世界的域名最好被描述为单一任务,但对于其他人而言,这种观点是有限的。相反,一些任务不断增加不复杂性,与代理人的能力相结合。在不断学习中,也被认为是终身学习,没有明确的任务边界或课程。随着学习代理变得越来越强大,持续学习仍然是阻碍快速进步的前沿之一。为了测试连续学习能力,我们考虑具有明确的任务序列和稀疏奖励的具有挑战性的3D域。我们提出了一种名为Unicorn的新型代理体系结构,它展示了强大的持续学习能力,并在拟议的领域中表现出优秀的几个基线代理。代理通过使用并行的非策略学习设置,有效地共同表示和学习多个策略来实现这一目标。
translated by 谷歌翻译
The deep reinforcement learning community has made several independentimprovements to the DQN algorithm. However, it is unclear which of theseextensions are complementary and can be fruitfully combined. This paperexamines six extensions to the DQN algorithm and empirically studies theircombination. Our experiments show that the combination providesstate-of-the-art performance on the Atari 2600 benchmark, both in terms of dataefficiency and final performance. We also provide results from a detailedablation study that shows the contribution of each component to overallperformance.
translated by 谷歌翻译
近年来,在强化学习中使用深度表示已经取得了很多成功。尽管如此,这些应用程序中的许多仍然使用常规架构,例如卷积网络,LSTM或自动编码器。在本文中,我们提出了一种新的神经网络架构,用于无模型增强学习。我们的决斗网络代表两个独立的估算器:一个用于状态值函数,一个用于状态依赖的动作优势函数。这种因子分解的主要好处是可以在不对基础强化学习算法进行任何改变的情况下概括整个行动。我们的结果表明,这种架构可以在存在许多类似值的行为的情况下进行更好的策略评估。此外,决斗架构使我们的RL代理能够超越Atari 2600域的最新技术。
translated by 谷歌翻译
杂波中基于物理的操作涉及多个对象之间的复杂交互。在本文中,我们考虑学习的问题,从物理模拟器中的交互,操作技巧来解决现实世界中的这个多步骤顺序决策问题。我们的方法有两个关键属性:(i)使用基于图像的抽象表示来概括(在场景中的对象的形状和数量上),这使得神经网络能够学习有用的特征; (ii)使用物理模拟器进行前瞻计划的能力,这是多步骤问题的必要条件。我们通过模拟和真实的实验(在https://youtu.be/EmkUQfyvwkY上可用的视频)展示,通过学习评估真实世界的基于图像的抽象表示中的动作,机器人可以概括和适应在具有挑战性的现实环境中的物体形状。
translated by 谷歌翻译
这是一份正在进行的工作报告,旨在分享依赖于解析的新的序列到序列模式的初步结果,该模式依赖于BiLSTM和两个指针网络的组合(Vinyals等,2015),其中最后一个softmax函数已被logisticregression取代。通过分别学习“选择”的词汇属性和“可选择性”的词汇属性,两个指针网络合作开发潜在的句法识别。目前并且没有精细调整,解析器实现在EnglishPenn-treebank上获得93.14%的UAS(Marcus等人,1993),注释了斯坦福依赖性:SOTA下2-3%但是作为基线做法。
translated by 谷歌翻译