我们考虑从分布强化学习中学习一组概率分布的问题(RL),该学位与仅在经典RL中的期望相比,学习了整个返回分布。尽管它成功地获得了卓越的性能,但我们仍然对分布RL中的价值分布的工作方式有糟糕的了解。在这项研究中,我们通过在神经拟合z-材料〜(Neural FZI)框架中的其他价值分布信息的杠杆作用来分析分布RL的优化益处。首先,我们证明了分布RL的分布损失具有理想的平滑性特征,因此具有稳定的梯度,这与促进优化稳定性的趋势一致。此外,分布RL的加速效应是通过分解返回分布来揭示的。事实证明,如果合适的值分布近似值,则分布RL可以表现出色,该分布由每个特定分布RL算法中每个环境中梯度估计的方差衡量。严格的实验验证了分布RL的稳定优化行为,与经典RL相比,其加速效应有助于其加速作用。我们研究的发现阐明了分布RL算法中的价值分布如何有助于优化。
translated by 谷歌翻译
分布强化学习〜(RL)是一类最先进的算法,可估计总回报的全部分布,而不仅仅是其期望。尽管分销RL的表现出色,但对基于预期的RL的优势的理论理解仍然难以捉摸。在本文中,我们将分布RL的优越性归因于其正规化效果,无论其预期如何,其价值分布信息。首先,通过稳健统计数据中总误差模型的变体的杠杆作用,我们将值分布分解为其预期和其余分布部分。因此,与基于期望的RL相比,分布RL的额外好处主要解释为在神经拟合Z-材料框架中\ textit {风险敏感的熵正则化}的影响。同时,我们在最大熵RL中的分布RL的风险敏感熵正则和香草熵之间建立了一个桥梁,专门针对参与者 - 批评算法。它揭示了分布RL诱导校正后的奖励函数,从而促进了针对环境内在不确定性的风险敏感探索。最后,广泛的实验证实了分布RL的正则化作用和不同熵正则化的相互影响的作用。我们的研究铺平了一种更好地解释分布RL算法的功效,尤其是通过正则化的镜头的方法。
translated by 谷歌翻译
在实际情况下,代理观察的状态观察可能含有测量误差或对抗性噪音,误导代理人在训练时采取次优行动甚至崩溃。在本文中,我们研究了分布加固学习的培训稳健性〜(RL),一类最先进的方法,即估计整个分布,而不是仅期望的总回报。首先,我们验证了基于期望和分布的Bellman运营商在状态 - Noisy Markov决策过程〜(SN-MDP)中的收缩,该典型表格案例包含随机和对抗状态观察噪声。除了SN-MDP之外,我们将分析基于期望的RL中最小二乘损失的脆弱性,具有线性或非线性函数近似。相比之下,基于直方图密度估计理论地表征分布RL损耗的有界梯度规范。由此产生的稳定梯度,而分布RL的优化占其更好地训练稳健性,而不是国家观察噪声。最后,在游戏套件上进行了广泛的实验,在不同的状态观察噪声的不同强度下,在SN-MDP样设置中验证了基于期望和分布RL的收敛性。更重要的是,与SN-MDP之外的嘈杂设置中,与基于期望的对应物相比,分布RL与嘈杂的状态观察相比,分配RL不易受到噪声的噪声。
translated by 谷歌翻译
In recent years distributional reinforcement learning has produced many state of the art results. Increasingly sample efficient Distributional algorithms for the discrete action domain have been developed over time that vary primarily in the way they parameterize their approximations of value distributions, and how they quantify the differences between those distributions. In this work we transfer three of the most well-known and successful of those algorithms (QR-DQN, IQN and FQF) to the continuous action domain by extending two powerful actor-critic algorithms (TD3 and SAC) with distributional critics. We investigate whether the relative performance of the methods for the discrete action space translates to the continuous case. To that end we compare them empirically on the pybullet implementations of a set of continuous control tasks. Our results indicate qualitative invariance regarding the number and placement of distributional atoms in the deterministic, continuous action setting.
translated by 谷歌翻译
In reinforcement learning an agent interacts with the environment by taking actions and observing the next state and reward. When sampled probabilistically, these state transitions, rewards, and actions can all induce randomness in the observed long-term return. Traditionally, reinforcement learning algorithms average over this randomness to estimate the value function. In this paper, we build on recent work advocating a distributional approach to reinforcement learning in which the distribution over returns is modeled explicitly instead of only estimating the mean. That is, we examine methods of learning the value distribution instead of the value function. We give results that close a number of gaps between the theoretical and algorithmic results given by Bellemare, . First, we extend existing results to the approximate distribution setting. Second, we present a novel distributional reinforcement learning algorithm consistent with our theoretical formulation. Finally, we evaluate this new algorithm on the Atari 2600 games, observing that it significantly outperforms many of the recent improvements on DQN, including the related distributional algorithm C51.
translated by 谷歌翻译
我们研究了分销RL的多步非政策学习方法。尽管基于价值的RL和分布RL之间的相似性明显相似,但我们的研究揭示了多步环境中两种情况之间的有趣和根本差异。我们确定了依赖路径依赖性分布TD误差的新颖概念,这对于原则上的多步分布RL是必不可少的。基于价值的情况的区别对诸如后视算法等概念的重要含义具有重要意义。我们的工作提供了多步非政策分布RL算法的第一个理论保证,包括适用于多步分配RL现有方法的结果。此外,我们得出了一种新颖的算法,即分位数回归 - 逆转录,该算法导致了深度RL QR QR-DQN-RETRACE,显示出对Atari-57基准上QR-DQN的经验改进。总的来说,我们阐明了多步分布RL中如何在理论和实践中解决多个独特的挑战。
translated by 谷歌翻译
深度加强学习(DRL)的框架为连续决策提供了强大而广泛适用的数学形式化。本文提出了一种新的DRL框架,称为\ emph {$ f $-diveliventcence加强学习(frl)}。在FRL中,通过最大限度地减少学习政策和采样策略之间的$ F $同时执行策略评估和政策改进阶段,这与旨在最大化预期累计奖励的传统DRL算法不同。理论上,我们证明最小化此类$ F $ - 可以使学习政策会聚到最佳政策。此外,我们将FRL框架中的培训代理程序转换为通过Fenchel Concugate的特定$ F $函数转换为鞍点优化问题,这构成了政策评估和政策改进的新方法。通过数学证据和经验评估,我们证明FRL框架有两个优点:(1)政策评估和政策改进过程同时进行,(2)高估价值函数的问题自然而缓解。为了评估FRL框架的有效性,我们对Atari 2600的视频游戏进行实验,并显示在FRL框架中培训的代理匹配或超越基线DRL算法。
translated by 谷歌翻译
In this paper we argue for the fundamental importance of the value distribution: the distribution of the random return received by a reinforcement learning agent. This is in contrast to the common approach to reinforcement learning which models the expectation of this return, or value. Although there is an established body of literature studying the value distribution, thus far it has always been used for a specific purpose such as implementing risk-aware behaviour. We begin with theoretical results in both the policy evaluation and control settings, exposing a significant distributional instability in the latter. We then use the distributional perspective to design a new algorithm which applies Bellman's equation to the learning of approximate value distributions. We evaluate our algorithm using the suite of games from the Arcade Learning Environment. We obtain both state-of-the-art results and anecdotal evidence demonstrating the importance of the value distribution in approximate reinforcement learning. Finally, we combine theoretical and empirical evidence to highlight the ways in which the value distribution impacts learning in the approximate setting.
translated by 谷歌翻译
在本文中,我们在表格设置中建立了违法演员批评算法的全球最优性和收敛速度,而不使用密度比来校正行为政策的状态分布与目标政策之间的差异。我们的工作超出了现有的工作原理,最佳的策略梯度方法中的现有工作中使用确切的策略渐变来更新策略参数时,我们使用近似和随机更新步骤。我们的更新步骤不是渐变更新,因为我们不使用密度比以纠正状态分布,这与从业者做得好。我们的更新是近似的,因为我们使用学习的评论家而不是真正的价值函数。我们的更新是随机的,因为在每个步骤中,更新仅为当前状态操作对完成。此外,我们在分析中删除了现有作品的几个限制性假设。我们的工作中的核心是基于其均匀收缩性能的时源性Markov链中的通用随机近似算法的有限样本分析。
translated by 谷歌翻译
Effectively leveraging large, previously collected datasets in reinforcement learning (RL) is a key challenge for large-scale real-world applications. Offline RL algorithms promise to learn effective policies from previously-collected, static datasets without further interaction. However, in practice, offline RL presents a major challenge, and standard off-policy RL methods can fail due to overestimation of values induced by the distributional shift between the dataset and the learned policy, especially when training on complex and multi-modal data distributions. In this paper, we propose conservative Q-learning (CQL), which aims to address these limitations by learning a conservative Q-function such that the expected value of a policy under this Q-function lower-bounds its true value. We theoretically show that CQL produces a lower bound on the value of the current policy and that it can be incorporated into a policy learning procedure with theoretical improvement guarantees. In practice, CQL augments the standard Bellman error objective with a simple Q-value regularizer which is straightforward to implement on top of existing deep Q-learning and actor-critic implementations. On both discrete and continuous control domains, we show that CQL substantially outperforms existing offline RL methods, often learning policies that attain 2-5 times higher final return, especially when learning from complex and multi-modal data distributions.Preprint. Under review.
translated by 谷歌翻译
强大的增强学习(RL)的目的是学习一项与模型参数不确定性的强大策略。由于模拟器建模错误,随着时间的推移,现实世界系统动力学的变化以及对抗性干扰,参数不确定性通常发生在许多现实世界中的RL应用中。强大的RL通常被称为最大问题问题,其目的是学习最大化价值与不确定性集合中最坏可能的模型的策略。在这项工作中,我们提出了一种称为鲁棒拟合Q-材料(RFQI)的强大RL算法,该算法仅使用离线数据集来学习最佳稳健策略。使用离线数据的强大RL比其非持续性对应物更具挑战性,因为在强大的Bellman运营商中所有模型的最小化。这在离线数据收集,对模型的优化以及公正的估计中构成了挑战。在这项工作中,我们提出了一种系统的方法来克服这些挑战,从而导致了我们的RFQI算法。我们证明,RFQI在标准假设下学习了一项近乎最佳的强大政策,并证明了其在标准基准问题上的出色表现。
translated by 谷歌翻译
Model-free deep reinforcement learning (RL) algorithms have been demonstrated on a range of challenging decision making and control tasks. However, these methods typically suffer from two major challenges: very high sample complexity and brittle convergence properties, which necessitate meticulous hyperparameter tuning. Both of these challenges severely limit the applicability of such methods to complex, real-world domains. In this paper, we propose soft actor-critic, an offpolicy actor-critic deep RL algorithm based on the maximum entropy reinforcement learning framework. In this framework, the actor aims to maximize expected reward while also maximizing entropy. That is, to succeed at the task while acting as randomly as possible. Prior deep RL methods based on this framework have been formulated as Q-learning methods. By combining off-policy updates with a stable stochastic actor-critic formulation, our method achieves state-of-the-art performance on a range of continuous control benchmark tasks, outperforming prior on-policy and off-policy methods. Furthermore, we demonstrate that, in contrast to other off-policy algorithms, our approach is very stable, achieving very similar performance across different random seeds.
translated by 谷歌翻译
在这项工作中,我们继续建立最近有限马尔可夫进程的钢筋学习的进步。以前现有的算法中的一种共同方法,包括单个演员和分布式,都是剪辑奖励,也可以在Q函数上应用转换方法,以处理真正的折扣回报中的各种大小。理论上我们展示了如果我们有非确定性过程,最成功的方法可能不会产生最佳政策。作为一种解决方案,我们认为分布加强学习借给自己完全解决这种情况。通过引入共轭分布运营商,我们可以处理大量转换,以获得有保证的理论融合。我们提出了一种基于该操作员的近似单录像机算法,该操作员使用Cram \'ER距离给出的适当分布度量直接在不妨碍的奖励上培养代理。在使用粘性动作的35个Atari 2600游戏套件中培训代理的随机环境中的表现,与多巴胺框架中的其他众所周知的算法相比,获得最先进的绩效。
translated by 谷歌翻译
为了在许多因素动态影响输出轨迹的复杂随机系统上学习,希望有效利用从以前迭代中收集的历史样本中的信息来加速策略优化。经典的经验重播使代理商可以通过重复使用历史观察来记住。但是,处理所有观察结果的统一重复使用策略均忽略了不同样本的相对重要性。为了克服这一限制,我们提出了一个基于一般差异的经验重播(VRER)框架,该框架可以选择性地重复使用最相关的样本以改善策略梯度估计。这种选择性机制可以自适应地对过去的样品增加重量,这些样本更可能由当前目标分布产生。我们的理论和实证研究表明,提议的VRER可以加速学习最佳政策,并增强最先进的政策优化方法的性能。
translated by 谷歌翻译
为了在许多因素动态影响输出轨迹的复杂随机系统上学习,希望有效利用从以前迭代中收集的历史样本中的信息来加速策略优化。经典的经验重播使代理商可以通过重复使用历史观察来记住。但是,处理所有观察结果的统一重复使用策略均忽略了不同样本的相对重要性。为了克服这一限制,我们提出了一个基于一般差异的经验重播(VRER)框架,该框架可以选择性地重复使用最相关的样本以改善策略梯度估计。这种选择性机制可以自适应地对过去的样品增加重量,这些样本更可能由当前目标分布产生。我们的理论和实证研究表明,提议的VRER可以加速学习最佳政策,并增强最先进的政策优化方法的性能。
translated by 谷歌翻译
近年来,神经网络授权的演员 - 评论家(AC)算法具有重大的经验成功。然而,AC算法的大多数现有的理论支持集中于线性函数近似或线性化神经网络的情况,其中特征表示在整个训练中都是固定的。这种限制未能捕获神经AC中的表示学习的关键方面,这在实际问题中是关键的。在这项工作中,我们采取了一种含义的基于特征神经交流的演变和融合的视角。具体而言,我们考虑一个AC的版本,其中Actor和批评者由过度分辨率的双层神经网络表示,并以两时间测定的学习速率更新。批评评论批评者通过时间差异(TD)学习使用较大的步骤,而演员通过近端策略优化(PPO)更新,具有较小的步骤。在连续时间和无限宽度限制性方案中,当时间尺度适当分开时,我们证明了神经通讯以Sublinear率找到全球最佳政策。此外,我们证明了批评网络引起的特征表示允许在初始概念的邻域内发展。
translated by 谷歌翻译
在许多顺序决策问题(例如,机器人控制,游戏播放,顺序预测),人类或专家数据可用包含有关任务的有用信息。然而,来自少量专家数据的模仿学习(IL)可能在具有复杂动态的高维环境中具有挑战性。行为克隆是一种简单的方法,由于其简单的实现和稳定的收敛而被广泛使用,但不利用涉及环境动态的任何信息。由于对奖励和政策近似器或偏差,高方差梯度估计器,难以在实践中难以在实践中努力训练的许多现有方法。我们介绍了一种用于动态感知IL的方法,它通过学习单个Q函数来避免对抗训练,隐含地代表奖励和策略。在标准基准测试中,隐式学习的奖励显示与地面真实奖励的高正面相关性,说明我们的方法也可以用于逆钢筋学习(IRL)。我们的方法,逆软Q学习(IQ-Learn)获得了最先进的结果,在离线和在线模仿学习设置中,显着优于现有的现有方法,这些方法都在所需的环境交互和高维空间中的可扩展性中,通常超过3倍。
translated by 谷歌翻译
政策优化是设计强化学习算法的基本原则,一个例子是具有剪切的替代物镜(PPO-CLIP)的近端政策优化算法(PPO-CLIP),由于其简单性和有效性,该算法已被普遍用于深度强化学习。尽管具有出色的经验表现,但PPO-CLIP尚未通过最新的理论证明是合理的。在本文中,我们在神经功能近似下建立了PPO-CLIP的第一个全局收敛速率。我们确定分析PPO-CLIP的基本挑战并用两个核心思想解决:(i)我们从铰链损失的角度重新解释了PPO-CLIP,这将政策改进与解决铰链损失和铰链损失和铰链损失和铰链分类问题的联系联系起来。提供PPO-CLIP目标的广义版。 (ii)基于上面的观点,我们提出了一个两步的策略改进方案,该方案通过熵镜下降和基于回归的策略更新方案从复杂的神经策略参数借助复杂的神经策略参数化来促进收敛分析。此外,我们的理论结果提供了剪辑机理对PPO-CLIP收敛的影响的首次表征。通过实验,我们从经验上验证了PPO-CLIP的重新解释,并在各种RL基准任务上具有各种分类器的广义目标。
translated by 谷歌翻译
强大的加强学习试图使预测对系统的动态或奖励的变化更加强大。当从数据中估算环境的动态和奖励时,此问题尤其重要。在本文中,我们近似使用$ \ phi $ divergence使用近似风险的配方来限制强大的增强学习。我们表明,通过目标的标准偏差惩罚,可以鲁esthing稳健地进行经典的增强学习配方。在经典的健身房环境中提出和测试了两种基于分布强化学习的算法,一种用于离散的算法,一种用于连续的动作空间,以证明算法的鲁棒性。
translated by 谷歌翻译
参与者 - 批评(AC)增强学习算法一直是许多具有挑战性的应用背后的强大力量。然而,它的收敛性一般都是脆弱的。为了研究其不稳定性,现有作品主要考虑具有有限状态和动作空间的罕见的双环变体或基本模型。我们研究了更实用的单样本两次尺度AC,用于解决规范线性二次调节器(LQR)问题,其中演员和评论家在每个迭代中仅在无界的连续状态和动作空间中使用单个迭代中的单个样本更新一次。现有的分析无法得出这样一个具有挑战性的情况的融合。我们开发了一个新的分析框架,该框架允许建立全局收敛到$ \ epsilon $ -optimal解决方案,最多最多是$ \ tilde {\ Mathcal {o}}}(\ epsilon^{ - 2.5})$样本复杂性。据我们所知,这是单个样本两次尺度AC的第一个有限时间收敛分析,用于以全球最优性求解LQR。样本复杂性通过订单改善了其他变体的复杂性,从而阐明了单个样品算法的实际智慧。我们还通过全面的模拟比较进一步验证了理论发现。
translated by 谷歌翻译