跨任务转移技能的能力有可能将增强型学习(RL)代理扩展到目前无法实现的环境。最近,基于两个概念,后继特征(SF)和广泛策略改进(GPI)的框架已被引入转移技能的原则性方式。在本文中,我们在两个方面扩展了SF和GPI框架。 SFs和GPI原始公式的基本假设之一是,所有感兴趣的任务的奖励可以计算为固定特征集的线性组合。我们放松了这个约束,并表明支持框架的理论保证可以扩展到只有奖励函数不同的任何一组任务。我们的第二个贡献是,可以使用奖励函数本身作为未来任务的特征,而不会损失任何表现力,从而无需事先指定一组特征。这使得可以以更稳定的方式将SF和GPI与深度学习相结合。我们在acomplex 3D环境中凭经验验证了这一主张,其中观察是来自第一人称视角的图像。我们表明,SF和GPI推动的转移几乎可以立即实现看不见任务的非常好的政策。我们还描述了如何以一种允许将它们添加到代理的技能集中的方式学习专门用于新任务的策略,从而在将来重用。
translated by 谷歌翻译
强化学习领域(RL)面临着越来越具有组合复杂性的挑战性领域。对于RL代理来解决这些挑战,它必须能够有效地进行规划。先前的工作通常结合非特定的计划算法(例如树搜索)来利用环境的显式模型。最近,已经提出了一种新的方法家族,通过在函数逼近器(例如树形结构神经网络)中通过归纳偏差提供结构来学习如何规划,通过无模型RL算法进行端到端训练。 。在本文中,我们更进一步,并且凭经验证明,除了卷积网络和LSTM之类的标准神经网络组件之外没有特殊结构的完全无模型方法,可以学习展示通常与基于模型的计划器相关的许多特征。我们衡量我们的代理人在规划方面的有效性,以便在组合和不可逆转的状态空间,其数据效率以及利用额外思考时间的能力方面进行推广。我们发现我们的代理具有许多人可能期望在规划算法中找到的特征。此外,它超越了最先进的组合领域,如推箱子,并且优于其他无模型方法,利用强大的归纳偏向规划。
translated by 谷歌翻译
随机计算图(SCG)提供了一种形式化来表示人工智能中出现的结构优化问题,包括监督,无监督和强化学习。以前的工作表明,SCG预期损失梯度的无偏估计可以从单一原则得出。然而,该估计器通常具有高方差并且需要对每个数据点进行完整的模型评估,使得该算法在大图中成本高昂。在这项工作中,我们通过从强化学习文献中概括概念来解决这些问题。我们介绍了任意SCG的价值函数,基线和批评的概念,并展示了如何使用它们从部分模型评估中推导出低方差梯度估计,为基于梯度的优化的一般和有效信用分配铺平了道路。在这样做的过程中,我们展示了我们的结果如何统一概率推理和强化学习文献的最新进展。
translated by 谷歌翻译
强化学习(RL)代理同时学习许多奖励功能的能力具有许多潜在的好处,例如将复杂任务分解为更简单的任务,任务之间的信息交换以及技能的重用。我们特别关注一个方面,即能够推广到看不见的任务。参数泛化依赖于函数逼近器的插值功率,该函数逼近器被赋予任务描述作为输入;其最常见的形式之一是通用值函数逼近器(UVFA)。推广到新任务的另一种方法是在RL问题本身中开发结构。广义策略改进(GPI)将先前任务的解决方案组合到针对看不见的任务的策略中;这依赖于新向下功能下的旧策略的即时策略评估,这通过后继特征(SF)实现。我们提出的通用后继特征近似器(USFAs)结合了所有这些的优点,即UVFAs的可扩展性,SF的即时参考,以及GPI的强大推广。我们讨论了培训USFA所涉及的挑战,其泛化属性,并证明其实际利益和转移能力在一个大规模的领域,其中代理人必须在第一人称视角三维环境中导航。
translated by 谷歌翻译
在AlphaGo的开发过程中,它的许多超参数都经过多次贝叶斯优化调整。这种自动调整过程导致了游戏强度的非实质性改善。例如,在与Lee Sedol比赛之前,我们调整了最新的AlphaGo代理商,并在自玩游戏中将其率从50%提高到66.5%。这个调整版本在最后一场比赛中得到了部署。当然,由于我们在其开发周期中多次调整AlphaGo,因此复合贡献甚至高于此百分比。我们希望Gofans能够对这个简短的案例研究感兴趣,并为贝叶斯优化从业者提供一些见解和灵感。
translated by 谷歌翻译
通过强化学习(RL)在人工智能方面的最新进展已经在日益复杂的单一代理环境和双人回合制游戏中取得了巨大成功。然而,真实世界包含多个代理,每个代理都独立学习和行动以与其他代理进行合作和竞争,反映这种复杂程度的环境仍然是一个难题。在这项工作中,我们首次演示了一个代理可以在一个流行的3D多人第一人称视频游戏Quake III Arena夺旗中实现人类级别,仅使用像素和游戏点作为输入。这些结果是通过一个新颖的两层优化过程,其中独立RL代理的人口从数千个并行匹配中同时训练,其中代理一起玩并且在随机生成的环境中彼此相对。群体中的每个代理人学习其自己的内部奖励信号以补充来自获胜的稀疏延迟奖励,并且使用新颖的时间分层表示来选择动作,该代表可以使代理在多个时间尺度下进行推理。在游戏过程中,这些代理人基于丰富的学习表示来显示类似人的行为,例如导航,跟随和保护,该学习表示被示出为编码高级游戏知识。在广泛的锦标赛风格评估中,训练有素的球员超过了作为队友和对手的强大的人类球员的胜利率,并且证明远比现有的最先进的特工更强。这些结果表明人工智能的能力显着提升,让我们更接近人类智慧的目标。
translated by 谷歌翻译
在这项工作中,我们建立在分布式强化学习的最新进展基础上,以提供一种普遍适用的,灵活的,最先进的DQN分布式变体。我们通过使用分位数回归来逼近状态 - 动作回归分配的完全分位数函数来实现这一点。通过重新参数化样本空间上的分布,这会产生一个隐式定义的回报分布,并产生一大类风险敏感策略。我们展示了ALE中57Atari 2600游戏的改进性能,并使用我们的算法隐式定义的分布来研究风险敏感策略在Atari游戏中的影响。
translated by 谷歌翻译
We propose a distributed architecture for deep reinforcement learning atscale, that enables agents to learn effectively from orders of magnitude moredata than previously possible. The algorithm decouples acting from learning:the actors interact with their own instances of the environment by selectingactions according to a shared neural network, and accumulate the resultingexperience in a shared experience replay memory; the learner replays samples ofexperience and updates the neural network. The architecture relies onprioritized experience replay to focus only on the most significant datagenerated by the actors. Our architecture substantially improves the state ofthe art on the Arcade Learning Environment, achieving better final performancein a fraction of the wall-clock training time.
translated by 谷歌翻译
一些真实世界的域名最好被描述为单一任务,但对于其他人而言,这种观点是有限的。相反,一些任务不断增加不复杂性,与代理人的能力相结合。在不断学习中,也被认为是终身学习,没有明确的任务边界或课程。随着学习代理变得越来越强大,持续学习仍然是阻碍快速进步的前沿之一。为了测试连续学习能力,我们考虑具有明确的任务序列和稀疏奖励的具有挑战性的3D域。我们提出了一种名为Unicorn的新型代理体系结构,它展示了强大的持续学习能力,并在拟议的领域中表现出优秀的几个基线代理。代理通过使用并行的非策略学习设置,有效地共同表示和学习多个策略来实现这一目标。
translated by 谷歌翻译
规划问题是人工智能中最重要和最充分研究的问题之一。它们通常通过树搜索算法来解决,这些算法可以模拟未来的状态,评估未来的状态,并将这些评估备份到搜索树的根。在这些算法中,蒙特卡罗树搜索(MCTS)是最通用,最强大且最广泛使用的算法之一。 MCTS的典型实现使用巧妙设计的规则,针对域的特定特征进行了优化。这些规则控制模拟遍历的位置,在达到的状态中评估的内容以及如何备份这些评估。在本文中,我们将学习搜索的位置,内容和方式。我们的架构,我们称之为MCTSnet,通过扩展,评估和备份矢量嵌入,将基于仿真的搜索结合到神经网络中。使用基于梯度的优化,网络的参数是trainedend-end。当应用于众所周知的规划问题Sokoban中的小搜索时,学习的搜索算法显着优于MCTS基线。
translated by 谷歌翻译