估计值函数是增强学习算法的核心组件。时间差异(TD)学习算法使用自引导,即,它们在随后的时间步骤中使用值估计更新朝向学习目标的值函数。或者,可以朝着通过单独预测继承人特征(SF)构成的学习目标来更新值函数 - 依赖于策略的模型 - 并将它们与瞬时奖励相结合。我们专注于在估计值函数时使用的自举目标,并提出新的备份目标,它是\ eta $ -return混合的混合,它隐含地结合了价值预测知识(由TD方法使用)与(继承人)特征预测知识 - 使用参数$ \ eta $捕获每个依赖的多少。我们说明通过$ \ eta \ gamma $ -dicounted sf模型结合了预测知识使得更有效地利用采样体验,而不是完全在价值函数估计上,或者在单独估计的继承功能的乘积上启动。和瞬时奖励模型。我们经验显示这种方法导致更快的政策评估和更好的控制性能,用于表格和非线性函数近似,指示可扩展性和一般性。
translated by 谷歌翻译
政策梯度定理(Sutton等,2000)规定了目标政策下的累积折扣国家分配以近似梯度。实际上,基于该定理的大多数算法都打破了这一假设,引入了分布转移,该分配转移可能导致逆转溶液的收敛性。在本文中,我们提出了一种新的方法,可以从开始状态重建政策梯度,而无需采取特定的采样策略。可以根据梯度评论家来简化此形式的策略梯度计算,由于梯度的新钟声方程式,可以递归估算。通过使用来自差异数据流的梯度评论家的时间差异更新,我们开发了第一个以无模型方式避开分布变化问题的估计器。我们证明,在某些可实现的条件下,无论采样策略如何,我们的估计器都是公正的。我们从经验上表明,我们的技术在存在非政策样品的情况下实现了卓越的偏见变化权衡和性能。
translated by 谷歌翻译
本文研究了一种使用背景计划的新方法,用于基于模型的增强学习:混合(近似)动态编程更新和无模型更新,类似于DYNA体系结构。通过学习模型的背景计划通常比无模型替代方案(例如Double DQN)差,尽管前者使用了更多的内存和计算。基本问题是,学到的模型可能是不准确的,并且经常会产生无效的状态,尤其是在迭代许多步骤时。在本文中,我们通过将背景规划限制为一组(抽象)子目标并仅学习本地,子观念模型来避免这种限制。这种目标空间计划(GSP)方法更有效地是在计算上,自然地纳入了时间抽象,以进行更快的长胜压计划,并避免完全学习过渡动态。我们表明,在各种情况下,我们的GSP算法比双DQN基线要快得多。
translated by 谷歌翻译
动物和人工代理商都受益于支持跨任务的快速学习的国家表示,使他们能够有效地遍历其环境以获得奖励状态。在固定政策下衡量预期累积,贴现国家占用的后续代表(SR),可以在否则的马尔可维亚环境中有效地转移到不同的奖励结构,并假设生物行为和神经活动的基础方面。然而,在现实世界中,奖励可能会移动或仅用于消费一次,可能只是将位置或者代理可以简单地旨在尽可能快地到达目标状态,而不会产生人工强加的任务视野的约束。在这种情况下,最具行为相关的代表将携带有关代理人可能首先达到兴趣国的信息的信息,而不是在可能的无限时间跨度访问它们的频率。为了反映此类需求,我们介绍了第一次占用代表(FR),该代表(FR),该代表(FR)衡量预期的时间折扣首次访问状态。我们证明FR有助于探索,选择有效的路径到所需状态,允许代理在某些条件下规划由一系列子板定义的可透明的最佳轨迹,并引起避免威胁刺激的动物类似的行为。
translated by 谷歌翻译
我们研究了分销RL的多步非政策学习方法。尽管基于价值的RL和分布RL之间的相似性明显相似,但我们的研究揭示了多步环境中两种情况之间的有趣和根本差异。我们确定了依赖路径依赖性分布TD误差的新颖概念,这对于原则上的多步分布RL是必不可少的。基于价值的情况的区别对诸如后视算法等概念的重要含义具有重要意义。我们的工作提供了多步非政策分布RL算法的第一个理论保证,包括适用于多步分配RL现有方法的结果。此外,我们得出了一种新颖的算法,即分位数回归 - 逆转录,该算法导致了深度RL QR QR-DQN-RETRACE,显示出对Atari-57基准上QR-DQN的经验改进。总的来说,我们阐明了多步分布RL中如何在理论和实践中解决多个独特的挑战。
translated by 谷歌翻译
我们介绍了一种改进政策改进的方法,该方法在基于价值的强化学习(RL)的贪婪方法与基于模型的RL的典型计划方法之间进行了插值。新方法建立在几何视野模型(GHM,也称为伽马模型)的概念上,该模型对给定策略的折现状态验证分布进行了建模。我们表明,我们可以通过仔细的基本策略GHM的仔细组成,而无需任何其他学习,可以评估任何非马尔科夫策略,以固定的概率在一组基本马尔可夫策略之间切换。然后,我们可以将广义政策改进(GPI)应用于此类非马尔科夫政策的收集,以获得新的马尔可夫政策,通常将其表现优于其先驱。我们对这种方法提供了彻底的理论分析,开发了转移和标准RL的应用,并在经验上证明了其对标准GPI的有效性,对充满挑战的深度RL连续控制任务。我们还提供了GHM培训方法的分析,证明了关于先前提出的方法的新型收敛结果,并显示了如何在深度RL设置中稳定训练这些模型。
translated by 谷歌翻译
强化学习的主要方法是根据预期的回报将信贷分配给行动。但是,我们表明回报可能取决于政策,这可能会导致价值估计的过度差异和减慢学习的速度。取而代之的是,我们证明了优势函数可以解释为因果效应,并与因果关系共享相似的属性。基于此洞察力,我们提出了直接优势估计(DAE),这是一种可以对优势函数进行建模并直接从政策数据进行估算的新方法,同时同时最大程度地减少了返回的方差而无需(操作 - )值函数。我们还通过显示如何无缝整合到DAE中来将我们的方法与时间差异方法联系起来。所提出的方法易于实施,并且可以通过现代参与者批评的方法很容易适应。我们对三个离散控制域进行经验评估DAE,并表明它可以超过广义优势估计(GAE),这是优势估计的强大基线,当将大多数环境应用于策略优化时。
translated by 谷歌翻译
强化学习的最新出现为使用这些算法计算的参数估计值创造了强大的统计推断方法的需求。现有的在线学习中统计推断的方法仅限于涉及独立采样观察的设置,而现有的强化学习中统计推断方法(RL)仅限于批处理设置。在线引导程序是一种灵活,有效的方法,用于线性随机近似算法中的统计推断,但在涉及Markov噪声(例如RL)的设置中,其功效尚未探索。在本文中,我们研究了在线引导方法在RL中的统计推断的使用。特别是,我们专注于时间差异(TD)学习和梯度TD(GTD)学习算法,它们本身就是马尔可夫噪声下线性随机近似的特殊实例。该方法在策略评估中的统计推断上表明该方法在分布上是一致的,并且包括数值实验,以证明该算法在跨一系列实际RL环境中在统计推断任务上的有效性。
translated by 谷歌翻译
Transfer in Reinforcement Learning aims to improve learning performance on target tasks using knowledge from experienced source tasks. Successor Representations (SR) and their extension Successor Features (SF) are prominent transfer mechanisms in domains where reward functions change between tasks. They reevaluate the expected return of previously learned policies in a new target task to transfer their knowledge. The SF framework extended SR by linearly decomposing rewards into successor features and a reward weight vector allowing their application in high-dimensional tasks. But this came with the cost of having a linear relationship between reward functions and successor features, limiting its application to such tasks. We propose a novel formulation of SR based on learning the cumulative discounted probability of successor features, called Successor Feature Representations (SFR). Crucially, SFR allows to reevaluate the expected return of policies for general reward functions. We introduce different SFR variations, prove its convergence, and provide a guarantee on its transfer performance. Experimental evaluations based on SFR with function approximation demonstrate its advantage over SF not only for general reward functions but also in the case of linearly decomposable reward functions.
translated by 谷歌翻译
Atari games have been a long-standing benchmark in the reinforcement learning (RL) community for the past decade. This benchmark was proposed to test general competency of RL algorithms. Previous work has achieved good average performance by doing outstandingly well on many games of the set, but very poorly in several of the most challenging games. We propose Agent57, the first deep RL agent that outperforms the standard human benchmark on all 57 Atari games. To achieve this result, we train a neural network which parameterizes a family of policies ranging from very exploratory to purely exploitative. We propose an adaptive mechanism to choose which policy to prioritize throughout the training process. Additionally, we utilize a novel parameterization of the architecture that allows for more consistent and stable learning.
translated by 谷歌翻译
In reinforcement learning an agent interacts with the environment by taking actions and observing the next state and reward. When sampled probabilistically, these state transitions, rewards, and actions can all induce randomness in the observed long-term return. Traditionally, reinforcement learning algorithms average over this randomness to estimate the value function. In this paper, we build on recent work advocating a distributional approach to reinforcement learning in which the distribution over returns is modeled explicitly instead of only estimating the mean. That is, we examine methods of learning the value distribution instead of the value function. We give results that close a number of gaps between the theoretical and algorithmic results given by Bellemare, . First, we extend existing results to the approximate distribution setting. Second, we present a novel distributional reinforcement learning algorithm consistent with our theoretical formulation. Finally, we evaluate this new algorithm on the Atari 2600 games, observing that it significantly outperforms many of the recent improvements on DQN, including the related distributional algorithm C51.
translated by 谷歌翻译
自成立以来,建立在广泛任务中表现出色的普通代理的任务一直是强化学习的重要目标。这个问题一直是对Alarge工作体系的研究的主题,并且经常通过观察Atari 57基准中包含的广泛范围环境的分数来衡量的性能。 Agent57是所有57场比赛中第一个超过人类基准的代理商,但这是以数据效率差的代价,需要实现近800亿帧的经验。以Agent57为起点,我们采用了各种各样的形式,以降低超过人类基线所需的经验200倍。在减少数据制度和Propose有效的解决方案时,我们遇到了一系列不稳定性和瓶颈,以构建更强大,更有效的代理。我们还使用诸如Muesli和Muzero之类的高性能方法证明了竞争性的性能。 TOOUR方法的四个关键组成部分是(1)近似信任区域方法,该方法可以从TheOnline网络中稳定引导,(2)损失和优先级的归一化方案,在学习具有广泛量表的一组值函数时,可以提高鲁棒性, (3)改进的体系结构采用了NFNET的技术技术来利用更深的网络而无需标准化层,并且(4)政策蒸馏方法可使瞬时贪婪的策略加班。
translated by 谷歌翻译
钢筋学习的长期目标是建立智能代理,表现出快速学习,灵活地转移适于人类和动物的技能。本文调查了两个框架来解决这些目标的框架:情节控制和继承功能。epiSodic控制是一种认知的灵感方法,依赖于情节内存,是代理经历的基于实例的内存模型。同时,继承者功能和广义政策改进(SF&GPI)是一个元和传输学习框架,允许学习可以有效地重复使用不同奖励功能的稍后任务的任务的策略。单独地,这两种技术表明令人印象深刻的结果,从而大大提高了样本效率和优雅的重复使用了先前学习的政策。因此,我们概述了两种方法中的两种方法的组合,并经验证明其益处。
translated by 谷歌翻译
我们确定和研究政策流失的现象,即基于价值的强化学习中贪婪政策的快速变化。政策流失以惊人的快速步伐运作,改变了少数学习更新(在Atari上的DQN等典型的深层RL设置中)中大量州的贪婪行动。我们从经验上表征了现象,验证它不限于特定算法或环境特性。许多消融有助于削弱关于为什么流失仅与深度学习有关的少数相关的合理解释。最后,我们假设政策流失是一种有益但被忽视的隐性探索形式,它以新鲜的方式铸造了$ \ epsilon $ greedy探索,即$ \ epsilon $ - noise的作用比预期的要小得多。
translated by 谷歌翻译
Q学习目标的乐观性质导致高度估计偏差,这是与标准$ Q-$学习相关的固有问题。这种偏差未能考虑低返回的可能性,特别是在风险方案中。然而,偏差的存在,无论是高估还是低估,不一定都不需要不可取。在本文中,我们分析了偏见学习的效用,并表明具体类型的偏差可能是优选的,这取决于场景。基于这一发现,我们设计了一种新颖的加强学习算法,平衡Q学习,其中将目标被修改为悲观和乐观术语的凸起组合,其相关权重分析地确定在线确定。我们在表格设置中证明了该算法的收敛,并经验证明了其在各种环境中的优越学习性能。
translated by 谷歌翻译
使用环境模型和值函数,代理可以通过向不同长度展开模型来构造状态值的许多估计,并使用其值函数引导。我们的关键识别是,人们可以将这组价值估计视为一类合奏,我们称之为\ eNPH {隐式值合奏}(IVE)。因此,这些估计之间的差异可用作代理人的认知不确定性的代理;我们将此信号术语\ EMPH {Model-Value不一致}或\ EMPH {自给智而不一致。与先前的工作不同,该工作估计通过培训许多模型和/或价值函数的集合来估计不确定性,这种方法只需要在大多数基于模型的加强学习算法中学习的单一模型和价值函数。我们在单板和函数近似设置中提供了从像素的表格和函数近似设置中的经验证据是有用的(i)作为探索的信号,(ii)在分发班次下安全地行动,(iii),用于使用基于价值的规划模型。
translated by 谷歌翻译
我们在马尔可夫决策过程的状态空间上提出了一种新的行为距离,并展示使用该距离作为塑造深度加强学习代理的学习言论的有效手段。虽然由于高计算成本和基于样本的算法缺乏缺乏样本的距离,但是,虽然现有的国家相似性通常难以在规模上学习,但我们的新距离解决了这两个问题。除了提供详细的理论分析外,我们还提供了学习该距离的经验证据,与价值函数产生的结构化和信息化表示,包括对街机学习环境基准的强劲结果。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
任何强化学习系统都必须能够确定过去的事件导致观察到的结果,这是一个称为信用分配的问题。解决此问题的一个常见解决方案是使用资格跟踪将信贷分配给一组经验丰富的事件集。但是,在许多现实的任务中,最近经验丰富的事件集只是可能先于当前结果之前的许多可能的动作事件之一。这表明,通过允许信贷分配到任何可行的前面状态,而不仅仅是最近经历的国家,可以提高强化学习的效率。因此,我们研究了``前身功能'',这是van Hasselt的“预期跟踪”的完全引导版本,这是一种实现这种更丰富形式的信贷分配的算法。通过保持近似于过去占领的预期总和的表示形式,该算法可以将时间差异(TD)错误准确地传播到比常规方法的大量前一个状态,从而极大地提高了学习速度。该算法也可以自然地从表格状态表示形式延伸到特征表示,从而可以在各种环境中提高性能。我们演示了几种用例,用于前身功能,并将其性能与其他方法进行比较。
translated by 谷歌翻译
由于策略梯度定理导致的策略设置存在各种理论上 - 声音策略梯度算法,其为梯度提供了简化的形式。然而,由于存在多重目标和缺乏明确的脱助政策政策梯度定理,截止策略设置不太明确。在这项工作中,我们将这些目标统一到一个违规目标,并为此统一目标提供了政策梯度定理。推导涉及强调的权重和利息职能。我们显示多种策略来近似梯度,以识别权重(ACE)称为Actor评论家的算法。我们证明了以前(半梯度)脱离政策演员 - 评论家 - 特别是offpac和DPG - 收敛到错误的解决方案,而Ace找到最佳解决方案。我们还强调为什么这些半梯度方法仍然可以在实践中表现良好,表明ace中的方差策略。我们经验研究了两个经典控制环境的若干ACE变体和基于图像的环境,旨在说明每个梯度近似的权衡。我们发现,通过直接逼近强调权重,ACE在所有测试的所有设置中执行或优于offpac。
translated by 谷歌翻译