我们研究了分销RL的多步非政策学习方法。尽管基于价值的RL和分布RL之间的相似性明显相似,但我们的研究揭示了多步环境中两种情况之间的有趣和根本差异。我们确定了依赖路径依赖性分布TD误差的新颖概念,这对于原则上的多步分布RL是必不可少的。基于价值的情况的区别对诸如后视算法等概念的重要含义具有重要意义。我们的工作提供了多步非政策分布RL算法的第一个理论保证,包括适用于多步分配RL现有方法的结果。此外,我们得出了一种新颖的算法,即分位数回归 - 逆转录,该算法导致了深度RL QR QR-DQN-RETRACE,显示出对Atari-57基准上QR-DQN的经验改进。总的来说,我们阐明了多步分布RL中如何在理论和实践中解决多个独特的挑战。
translated by 谷歌翻译
In reinforcement learning an agent interacts with the environment by taking actions and observing the next state and reward. When sampled probabilistically, these state transitions, rewards, and actions can all induce randomness in the observed long-term return. Traditionally, reinforcement learning algorithms average over this randomness to estimate the value function. In this paper, we build on recent work advocating a distributional approach to reinforcement learning in which the distribution over returns is modeled explicitly instead of only estimating the mean. That is, we examine methods of learning the value distribution instead of the value function. We give results that close a number of gaps between the theoretical and algorithmic results given by Bellemare, . First, we extend existing results to the approximate distribution setting. Second, we present a novel distributional reinforcement learning algorithm consistent with our theoretical formulation. Finally, we evaluate this new algorithm on the Atari 2600 games, observing that it significantly outperforms many of the recent improvements on DQN, including the related distributional algorithm C51.
translated by 谷歌翻译
在这项工作中,我们继续建立最近有限马尔可夫进程的钢筋学习的进步。以前现有的算法中的一种共同方法,包括单个演员和分布式,都是剪辑奖励,也可以在Q函数上应用转换方法,以处理真正的折扣回报中的各种大小。理论上我们展示了如果我们有非确定性过程,最成功的方法可能不会产生最佳政策。作为一种解决方案,我们认为分布加强学习借给自己完全解决这种情况。通过引入共轭分布运营商,我们可以处理大量转换,以获得有保证的理论融合。我们提出了一种基于该操作员的近似单录像机算法,该操作员使用Cram \'ER距离给出的适当分布度量直接在不妨碍的奖励上培养代理。在使用粘性动作的35个Atari 2600游戏套件中培训代理的随机环境中的表现,与多巴胺框架中的其他众所周知的算法相比,获得最先进的绩效。
translated by 谷歌翻译
In this paper we argue for the fundamental importance of the value distribution: the distribution of the random return received by a reinforcement learning agent. This is in contrast to the common approach to reinforcement learning which models the expectation of this return, or value. Although there is an established body of literature studying the value distribution, thus far it has always been used for a specific purpose such as implementing risk-aware behaviour. We begin with theoretical results in both the policy evaluation and control settings, exposing a significant distributional instability in the latter. We then use the distributional perspective to design a new algorithm which applies Bellman's equation to the learning of approximate value distributions. We evaluate our algorithm using the suite of games from the Arcade Learning Environment. We obtain both state-of-the-art results and anecdotal evidence demonstrating the importance of the value distribution in approximate reinforcement learning. Finally, we combine theoretical and empirical evidence to highlight the ways in which the value distribution impacts learning in the approximate setting.
translated by 谷歌翻译
我们在马尔可夫决策过程的状态空间上提出了一种新的行为距离,并展示使用该距离作为塑造深度加强学习代理的学习言论的有效手段。虽然由于高计算成本和基于样本的算法缺乏缺乏样本的距离,但是,虽然现有的国家相似性通常难以在规模上学习,但我们的新距离解决了这两个问题。除了提供详细的理论分析外,我们还提供了学习该距离的经验证据,与价值函数产生的结构化和信息化表示,包括对街机学习环境基准的强劲结果。
translated by 谷歌翻译
政策梯度定理(Sutton等,2000)规定了目标政策下的累积折扣国家分配以近似梯度。实际上,基于该定理的大多数算法都打破了这一假设,引入了分布转移,该分配转移可能导致逆转溶液的收敛性。在本文中,我们提出了一种新的方法,可以从开始状态重建政策梯度,而无需采取特定的采样策略。可以根据梯度评论家来简化此形式的策略梯度计算,由于梯度的新钟声方程式,可以递归估算。通过使用来自差异数据流的梯度评论家的时间差异更新,我们开发了第一个以无模型方式避开分布变化问题的估计器。我们证明,在某些可实现的条件下,无论采样策略如何,我们的估计器都是公正的。我们从经验上表明,我们的技术在存在非政策样品的情况下实现了卓越的偏见变化权衡和性能。
translated by 谷歌翻译
我们介绍了一种改进政策改进的方法,该方法在基于价值的强化学习(RL)的贪婪方法与基于模型的RL的典型计划方法之间进行了插值。新方法建立在几何视野模型(GHM,也称为伽马模型)的概念上,该模型对给定策略的折现状态验证分布进行了建模。我们表明,我们可以通过仔细的基本策略GHM的仔细组成,而无需任何其他学习,可以评估任何非马尔科夫策略,以固定的概率在一组基本马尔可夫策略之间切换。然后,我们可以将广义政策改进(GPI)应用于此类非马尔科夫政策的收集,以获得新的马尔可夫政策,通常将其表现优于其先驱。我们对这种方法提供了彻底的理论分析,开发了转移和标准RL的应用,并在经验上证明了其对标准GPI的有效性,对充满挑战的深度RL连续控制任务。我们还提供了GHM培训方法的分析,证明了关于先前提出的方法的新型收敛结果,并显示了如何在深度RL设置中稳定训练这些模型。
translated by 谷歌翻译
具有很多玩家的非合作和合作游戏具有许多应用程序,但是当玩家数量增加时,通常仍然很棘手。由Lasry和Lions以及Huang,Caines和Malham \'E引入的,平均野外运动会(MFGS)依靠平均场外近似值,以使玩家数量可以成长为无穷大。解决这些游戏的传统方法通常依赖于以完全了解模型的了解来求解部分或随机微分方程。最近,增强学习(RL)似乎有望解决复杂问题。通过组合MFGS和RL,我们希望在人口规模和环境复杂性方面能够大规模解决游戏。在这项调查中,我们回顾了有关学习MFG中NASH均衡的最新文献。我们首先确定最常见的设置(静态,固定和进化)。然后,我们为经典迭代方法(基于最佳响应计算或策略评估)提供了一个通用框架,以确切的方式解决MFG。在这些算法和与马尔可夫决策过程的联系的基础上,我们解释了如何使用RL以无模型的方式学习MFG解决方案。最后,我们在基准问题上介绍了数值插图,并以某些视角得出结论。
translated by 谷歌翻译
在实际情况下,代理观察的状态观察可能含有测量误差或对抗性噪音,误导代理人在训练时采取次优行动甚至崩溃。在本文中,我们研究了分布加固学习的培训稳健性〜(RL),一类最先进的方法,即估计整个分布,而不是仅期望的总回报。首先,我们验证了基于期望和分布的Bellman运营商在状态 - Noisy Markov决策过程〜(SN-MDP)中的收缩,该典型表格案例包含随机和对抗状态观察噪声。除了SN-MDP之外,我们将分析基于期望的RL中最小二乘损失的脆弱性,具有线性或非线性函数近似。相比之下,基于直方图密度估计理论地表征分布RL损耗的有界梯度规范。由此产生的稳定梯度,而分布RL的优化占其更好地训练稳健性,而不是国家观察噪声。最后,在游戏套件上进行了广泛的实验,在不同的状态观察噪声的不同强度下,在SN-MDP样设置中验证了基于期望和分布RL的收敛性。更重要的是,与SN-MDP之外的嘈杂设置中,与基于期望的对应物相比,分布RL与嘈杂的状态观察相比,分配RL不易受到噪声的噪声。
translated by 谷歌翻译
我们考虑从分布强化学习中学习一组概率分布的问题(RL),该学位与仅在经典RL中的期望相比,学习了整个返回分布。尽管它成功地获得了卓越的性能,但我们仍然对分布RL中的价值分布的工作方式有糟糕的了解。在这项研究中,我们通过在神经拟合z-材料〜(Neural FZI)框架中的其他价值分布信息的杠杆作用来分析分布RL的优化益处。首先,我们证明了分布RL的分布损失具有理想的平滑性特征,因此具有稳定的梯度,这与促进优化稳定性的趋势一致。此外,分布RL的加速效应是通过分解返回分布来揭示的。事实证明,如果合适的值分布近似值,则分布RL可以表现出色,该分布由每个特定分布RL算法中每个环境中梯度估计的方差衡量。严格的实验验证了分布RL的稳定优化行为,与经典RL相比,其加速效应有助于其加速作用。我们研究的发现阐明了分布RL算法中的价值分布如何有助于优化。
translated by 谷歌翻译
在动态编程(DP)和强化学习(RL)中,代理商学会在通过由Markov决策过程(MDP)建模的环境中顺序交互来实现预期的长期返回。更一般地在分布加强学习(DRL)中,重点是返回的整体分布,而不仅仅是其期望。虽然基于DRL的方法在RL中产生了最先进的性能,但它们涉及尚未充分理解的额外数量(与非分布设置相比)。作为第一个贡献,我们介绍了一类新的分类运营商,以及一个实用的DP算法,用于策略评估,具有强大的MDP解释。实际上,我们的方法通过增强的状态空间重新重新重新重新重新重新格式化,其中每个状态被分成最坏情况的子变量,并且最佳的子变电站,其值分别通过安全和危险的策略最大化。最后,我们派生了分配运营商和DP算法解决了一个新的控制任务:如何区分安全性的最佳动作,以便在最佳政策空间中打破联系?
translated by 谷歌翻译
In recent years distributional reinforcement learning has produced many state of the art results. Increasingly sample efficient Distributional algorithms for the discrete action domain have been developed over time that vary primarily in the way they parameterize their approximations of value distributions, and how they quantify the differences between those distributions. In this work we transfer three of the most well-known and successful of those algorithms (QR-DQN, IQN and FQF) to the continuous action domain by extending two powerful actor-critic algorithms (TD3 and SAC) with distributional critics. We investigate whether the relative performance of the methods for the discrete action space translates to the continuous case. To that end we compare them empirically on the pybullet implementations of a set of continuous control tasks. Our results indicate qualitative invariance regarding the number and placement of distributional atoms in the deterministic, continuous action setting.
translated by 谷歌翻译
分布强化学习〜(RL)是一类最先进的算法,可估计总回报的全部分布,而不仅仅是其期望。尽管分销RL的表现出色,但对基于预期的RL的优势的理论理解仍然难以捉摸。在本文中,我们将分布RL的优越性归因于其正规化效果,无论其预期如何,其价值分布信息。首先,通过稳健统计数据中总误差模型的变体的杠杆作用,我们将值分布分解为其预期和其余分布部分。因此,与基于期望的RL相比,分布RL的额外好处主要解释为在神经拟合Z-材料框架中\ textit {风险敏感的熵正则化}的影响。同时,我们在最大熵RL中的分布RL的风险敏感熵正则和香草熵之间建立了一个桥梁,专门针对参与者 - 批评算法。它揭示了分布RL诱导校正后的奖励函数,从而促进了针对环境内在不确定性的风险敏感探索。最后,广泛的实验证实了分布RL的正则化作用和不同熵正则化的相互影响的作用。我们的研究铺平了一种更好地解释分布RL算法的功效,尤其是通过正则化的镜头的方法。
translated by 谷歌翻译
Effectively leveraging large, previously collected datasets in reinforcement learning (RL) is a key challenge for large-scale real-world applications. Offline RL algorithms promise to learn effective policies from previously-collected, static datasets without further interaction. However, in practice, offline RL presents a major challenge, and standard off-policy RL methods can fail due to overestimation of values induced by the distributional shift between the dataset and the learned policy, especially when training on complex and multi-modal data distributions. In this paper, we propose conservative Q-learning (CQL), which aims to address these limitations by learning a conservative Q-function such that the expected value of a policy under this Q-function lower-bounds its true value. We theoretically show that CQL produces a lower bound on the value of the current policy and that it can be incorporated into a policy learning procedure with theoretical improvement guarantees. In practice, CQL augments the standard Bellman error objective with a simple Q-value regularizer which is straightforward to implement on top of existing deep Q-learning and actor-critic implementations. On both discrete and continuous control domains, we show that CQL substantially outperforms existing offline RL methods, often learning policies that attain 2-5 times higher final return, especially when learning from complex and multi-modal data distributions.Preprint. Under review.
translated by 谷歌翻译
强化学习的最新出现为使用这些算法计算的参数估计值创造了强大的统计推断方法的需求。现有的在线学习中统计推断的方法仅限于涉及独立采样观察的设置,而现有的强化学习中统计推断方法(RL)仅限于批处理设置。在线引导程序是一种灵活,有效的方法,用于线性随机近似算法中的统计推断,但在涉及Markov噪声(例如RL)的设置中,其功效尚未探索。在本文中,我们研究了在线引导方法在RL中的统计推断的使用。特别是,我们专注于时间差异(TD)学习和梯度TD(GTD)学习算法,它们本身就是马尔可夫噪声下线性随机近似的特殊实例。该方法在策略评估中的统计推断上表明该方法在分布上是一致的,并且包括数值实验,以证明该算法在跨一系列实际RL环境中在统计推断任务上的有效性。
translated by 谷歌翻译
连续的时间加强学习提供了一种吸引人的形式主义,用于描述控制问题,其中时间的流逝并不自然地分为离散的增量。在这里,我们考虑了预测在连续时间随机环境中相互作用的代理商获得的回报分布的问题。准确的回报预测已被证明可用于确定对风险敏感的控制,学习状态表示,多基因协调等的最佳策略。我们首先要建立汉密尔顿 - 雅各布人(HJB)方程的分布模拟,以扩散和更广泛的feller-dynkin过程。然后,我们将此方程式专注于返回分布近似于$ n $均匀加权粒子的设置,这是分销算法中常见的设计选择。我们的派生突出显示了由于统计扩散率而引起的其他术语,这是由于在连续时间设置中正确处理分布而产生的。基于此,我们提出了一种可访问算法,用于基于JKO方案近似求解分布HJB,该方案可以在在线控制算法中实现。我们证明了这种算法在合成控制问题中的有效性。
translated by 谷歌翻译
本文讨论了一种学习最佳Q功能的基本问题的新方法。在这种方法中,最佳Q函数被配制为源自经典Bellman最优方程的非线性拉格朗日函数的鞍点。该论文表明,尽管非线性具有非线性,但拉格朗日人仍然具有很强的双重性,这为Q-function学习的一般方法铺平了道路。作为演示,本文根据二元性理论开发了模仿学习算法,并将算法应用于最先进的机器翻译基准。然后,该论文转弯以证明有关拉格朗日鞍点的最佳性的对称性破坏现象,这证明了开发拉格朗日方法的很大程度上被忽视的方向。
translated by 谷歌翻译
尽管经过过度公路化,但通过监督学习培训的深网络易于优化,表现出优异的概括。解释这一点的一个假设是,过正交的深网络享有随机梯度下降引起的隐含正规化的好处,这些梯度下降引起的促进解决方案概括了良好的测试输入。推动深度加强学习(RL)方法也可能受益于这种效果是合理的。在本文中,我们讨论了监督学习中SGD的隐式正则化效果如何在离线深度RL设置中有害,导致普遍性较差和退化特征表示。我们的理论分析表明,当存在对时间差异学习的现有模型的隐式正则化模型时,由此产生的衍生规则器有利于与监督学习案件的显着对比的过度“混叠”的退化解决方案。我们凭经验备份这些发现,显示通过引导训练的深网络值函数学习的特征表示确实可以变得堕落,别名出在Bellman备份的两侧出现的状态操作对的表示。要解决此问题,我们派生了这个隐式规范器的形式,并通过此推导的启发,提出了一种简单且有效的显式规范器,称为DR3,抵消了本隐式规范器的不良影响。当与现有的离线RL方法结合使用时,DR3大大提高了性能和稳定性,缓解了ATARI 2600游戏,D4RL域和来自图像的机器人操作。
translated by 谷歌翻译
模型 - 不可知的元增强学习需要估算价值函数的黑森斯矩阵。这是从实施角度挑战,反复区分政策梯度估计可能导致偏见的Hessian估计。在这项工作中,我们提供了一个统一的框架,用于估算价值函数的高阶导数,基于禁止策略评估。我们的框架将许多现有方法解释为特殊情况,并阐明了Hessian估计的偏差和方差权衡。该框架还打开了一个新的估计系列的大门,这可以通过自动差异化库轻松实现,并在实践中导致性能提升。
translated by 谷歌翻译
MultiSep Returns的违规学习对于采样高效的强化学习至关重要,特别是在现在与深神经网络常用的经验重播设置中。经典地,以每个判定方式纠正偏离策略估计偏差:通过在每个动作之后通过瞬时重要性采样(IS)比率(通过资格迹线)重新加权。许多重要的截止措施算法,如树备份和回撤依赖于该机制以及用于截断的不同协议(“切割”)比率(“迹线”)来抵消IS估计器的过度方差。遗憾的是,各种决策的切割迹线不一定有效;一旦根据当地信息切割了痕迹,效果就不能在后来逆转,可能导致估计恢复和较慢的学习截断。为了激励有效的截止策略算法,我们提出了一个多步算子,允许任意的过去依赖性迹线。我们证明我们的运营商是策略评估的融合,并在针对限制限制策略时最佳控制。我们的定理建立了许多现有算法的第一个收敛保证,包括截断,非马尔可道回撤和历史依赖于历史依赖于历史依赖性TD($ \ lambda $)。我们的理论结果还为开发新算法的制定提供了指导,以便共同考虑更好的过去的决定,以获得更好的信用分配和更快的学习。
translated by 谷歌翻译