在现实世界中的决策情况(例如金融,机器人技术,自动驾驶等)中,控制风险通常比最大程度地提高预期奖励更为重要。风险措施的最自然选择是差异,而它会惩罚上升波动率作为下行部分。取而代之的是,(下行)半变量捕获了随机变量在其平均值下的负偏差,更适合于规避风险的提议。本文旨在优化加强学习W.R.T.中的平均持续性(MSV)标准。稳定的奖励。由于半变量是时间的,并且不满足标准的贝尔曼方程,因此传统的动态编程方法直接不适合MSV问题。为了应对这一挑战,我们求助于扰动分析(PA)理论,并建立MSV的性能差异公式。我们揭示MSV问题可以通过迭代解决与策略有关的奖励功能的一系列RL问题来解决。此外,我们根据政策梯度理论和信任区域方法提出了两种派利算法。最后,我们进行了不同的实验,从简单的匪徒问题到穆约科的连续控制任务,这些实验证明了我们提出的方法的有效性。
translated by 谷歌翻译
大多数加固学习算法优化了折扣标准,这些标准是有益的,可以加速收敛并降低估计的方差。虽然折扣标准适用于诸如财务相关问题的某些任务,但许多工程问题同样对待未来的奖励,并更喜欢长期的平均标准。在本文中,我们研究了长期平均标准的强化学习问题。首先,我们在折扣和平均标准中制定统一的信任区域理论,并在扰动分析(PA)理论中导出信托区域内的新颖性能。其次,我们提出了一种名为平均策略优化(APO)的实用算法,其提高了名为平均值约束的新颖技术的值估计。最后,实验在连续控制环境Mujoco中进行。在大多数任务中,APO比折扣PPO更好,这表明了我们方法的有效性。我们的工作提供了统一的信任地区方法,包括折扣和平均标准,这可能会补充折扣目标超出了钢筋学习的框架。
translated by 谷歌翻译
通过信任区域政策优化(TRPO)和近端策略优化(PPO)的存在,深入的强化学习取得了很大的成功,以提高其可扩展性和效率。但是,两种算法的悲观情绪,其中包括在信托区域受到限制或严格排除所有可疑梯度,已被证明可以抑制探索和损害代理的性能。为了解决这些问题,我们提出了一个转移的马尔可夫决策过程(MDP),或者更确切地说,随着熵的增强,以鼓励探索并增强逃脱次级的能力。我们的方法是可扩展的,可以适应奖励成型或自举。通过进行收敛分析,我们发现控制温度系数至关重要。但是,如果适当地调整它,即使在其他算法上,我们也可以实现出色的性能,因为它很简单而有效。我们的实验测试在Mujoco基准任务上增强了TRPO和PPO,这表明该代理商对更高的奖励区域表示振奋,并且在探索和剥削之间取得了平衡。我们验证方法在两个网格世界环境上的探索加成。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
尽管深度强化学习(DRL)取得了巨大的成功,但由于过渡和观察的内在不确定性,它可能遇到灾难性的失败。大多数现有的安全加固学习方法只能处理过渡干扰或观察障碍,因为这两种干扰影响了代理的不同部分。此外,受欢迎的最坏情况可能会导致过度悲观的政策。为了解决这些问题,我们首先从理论上证明了在过渡干扰和观察障碍下的性能降解取决于一个新颖的价值函数范围(VFR),这与最佳状态和最坏状态之间的价值函数的间隙相对应。基于分析,我们采用有条件的价值风险(CVAR)作为对风险的评估,并提出了一种新颖的强化学习算法的CVAR-Proximal-Policy-oftimization(CPPO),该算法通过保持风险敏感的约束优化问题形式化。它的CVAR在给定的阈值下。实验结果表明,CPPO获得了更高的累积奖励,并且在Mujoco中一系列连续控制任务上的观察和过渡干扰更加强大。
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
We revisit the domain of off-policy policy optimization in RL from the perspective of coordinate ascent. One commonly-used approach is to leverage the off-policy policy gradient to optimize a surrogate objective -- the total discounted in expectation return of the target policy with respect to the state distribution of the behavior policy. However, this approach has been shown to suffer from the distribution mismatch issue, and therefore significant efforts are needed for correcting this mismatch either via state distribution correction or a counterfactual method. In this paper, we rethink off-policy learning via Coordinate Ascent Policy Optimization (CAPO), an off-policy actor-critic algorithm that decouples policy improvement from the state distribution of the behavior policy without using the policy gradient. This design obviates the need for distribution correction or importance sampling in the policy improvement step of off-policy policy gradient. We establish the global convergence of CAPO with general coordinate selection and then further quantify the convergence rates of several instances of CAPO with popular coordinate selection rules, including the cyclic and the randomized variants of CAPO. We then extend CAPO to neural policies for a more practical implementation. Through experiments, we demonstrate that CAPO provides a competitive approach to RL in practice.
translated by 谷歌翻译
深度加强学习(DRL)的框架为连续决策提供了强大而广泛适用的数学形式化。本文提出了一种新的DRL框架,称为\ emph {$ f $-diveliventcence加强学习(frl)}。在FRL中,通过最大限度地减少学习政策和采样策略之间的$ F $同时执行策略评估和政策改进阶段,这与旨在最大化预期累计奖励的传统DRL算法不同。理论上,我们证明最小化此类$ F $ - 可以使学习政策会聚到最佳政策。此外,我们将FRL框架中的培训代理程序转换为通过Fenchel Concugate的特定$ F $函数转换为鞍点优化问题,这构成了政策评估和政策改进的新方法。通过数学证据和经验评估,我们证明FRL框架有两个优点:(1)政策评估和政策改进过程同时进行,(2)高估价值函数的问题自然而缓解。为了评估FRL框架的有效性,我们对Atari 2600的视频游戏进行实验,并显示在FRL框架中培训的代理匹配或超越基线DRL算法。
translated by 谷歌翻译
我们研究具有多个奖励价值函数的马尔可夫决策过程(MDP)的政策优化,应根据给定的标准共同优化,例如比例公平(平滑凹面标量),硬约束(约束MDP)和Max-Min Trade-离开。我们提出了一个改变锚定的正规自然政策梯度(ARNPG)框架,该框架可以系统地将良好表现的一阶方法中的思想纳入多目标MDP问题的策略优化算法的设计。从理论上讲,基于ARNPG框架的设计算法实现了$ \ tilde {o}(1/t)$全局收敛,并具有精确的梯度。从经验上讲,与某些现有的基于策略梯度的方法相比,ARNPG引导的算法在精确梯度和基于样本的场景中也表现出卓越的性能。
translated by 谷歌翻译
We describe an iterative procedure for optimizing policies, with guaranteed monotonic improvement. By making several approximations to the theoretically-justified procedure, we develop a practical algorithm, called Trust Region Policy Optimization (TRPO). This algorithm is similar to natural policy gradient methods and is effective for optimizing large nonlinear policies such as neural networks. Our experiments demonstrate its robust performance on a wide variety of tasks: learning simulated robotic swimming, hopping, and walking gaits; and playing Atari games using images of the screen as input. Despite its approximations that deviate from the theory, TRPO tends to give monotonic improvement, with little tuning of hyperparameters.
translated by 谷歌翻译
我们提出了一个与参数化函数近似器无关的分析策略更新规则。更新规则适用于单调改进保证的一般随机策略。在使用信任区域方法中收紧策略搜索的新的理论结果之后,更新规则源自使用变化阶段的闭合表单信任区域解决方案。提供了策略更新规则和值函数方法之间连接的解释。基于更新规则的递归形式,自然导出了脱助策略算法,单调改进保证仍然存在。此外,当一次代理执行更新时,更新规则立即扩展到多代理系统。
translated by 谷歌翻译
In many sequential decision-making problems one is interested in minimizing an expected cumulative cost while taking into account risk, i.e., increased awareness of events of small probability and high consequences. Accordingly, the objective of this paper is to present efficient reinforcement learning algorithms for risk-constrained Markov decision processes (MDPs), where risk is represented via a chance constraint or a constraint on the conditional value-at-risk (CVaR) of the cumulative cost. We collectively refer to such problems as percentile risk-constrained MDPs. Specifically, we first derive a formula for computing the gradient of the Lagrangian function for percentile riskconstrained MDPs. Then, we devise policy gradient and actor-critic algorithms that (1) estimate such gradient, (2) update the policy in the descent direction, and (3) update the Lagrange multiplier in the ascent direction. For these algorithms we prove convergence to locally optimal policies. Finally, we demonstrate the effectiveness of our algorithms in an optimal stopping problem and an online marketing application.
translated by 谷歌翻译
确保基于乐观或后采样(PSRL)的基于模型的强化增强学习(MBRL)通过引入模型的复杂度度量,以渐近地实现全局最优性。但是,对于最简单的非线性模型,复杂性可能会成倍增长,在有限的迭代中,全局收敛是不可能的。当模型遭受大的概括误差(通过模型复杂性定量测量)时,不确定性可能很大。因此,对当前策略进行贪婪优化的采样模型将不设置,从而导致积极的政策更新和过度探索。在这项工作中,我们提出了涉及参考更新和保守更新的保守双重政策优化(CDPO)。该策略首先在参考模型下进行了优化,该策略模仿PSRL的机制,同时提供更大的稳定性。通过最大化模型值的期望来保证保守的随机性范围。没有有害的采样程序,CDPO仍然可以达到与PSRL相同的遗憾。更重要的是,CDPO同时享有单调的政策改进和全球最优性。经验结果还验证了CDPO的勘探效率。
translated by 谷歌翻译
我们研究了Wang等人介绍的熵调查的,探索性扩散过程制定的Q-学习(RL)的Q-学习(RL)的持续时间对应物。 (2020)随着常规(大)Q功能在连续的时间崩溃,我们考虑其一阶近似,并在“(小)Q功能”一词中造成术语。此功能与瞬时优势率函数以及哈密顿量有关。我们围绕时间离散化独立于Q功能开发了“ Q学习”理论。鉴于随机策略,我们通过某些随机过程的martingale条件共同表征了相关的Q功能和价值函数。然后,我们将理论应用来设计不同的参与者批评算法来解决潜在的RL问题,具体取决于是否可以明确计算从Q功能产生的Gibbs测量的密度函数。我们的一种算法解释了著名的Q学习算法SARSA,另一个算法恢复了基于政策梯度(PG)在Jia和Zhou(2021)中提出的基于策略梯度(PG)。最后,我们进行了仿真实验,以将我们的算法的性能与JIA和Zhou(2021)中的PG基算法的性能以及时间消化的常规Q学习算法进行比较。
translated by 谷歌翻译
我们在王等人开发的正规化探索制剂下,研究政策梯度(PG),以便在连续时间和空间中进行加强学习。 (2020)。我们代表值函数的梯度相对于给定的参数化随机策略,作为可以使用样本和当前值函数进行评估的辅助运行奖励函数的预期集成。这有效地将PG转化为策略评估(PE)问题,使我们能够应用贾和周最近开发的Martingale方法来解决我们的PG问题。基于此分析,我们为RL提出了两种类型的演员 - 批评算法,在那里我们同时和交替地学习和更新值函数和策略。第一类型直接基于上述表示,涉及未来的轨迹,因此是离线的。专为在线学习的第二种类型使用了政策梯度的一阶条件,并将其转化为Martingale正交状态。然后在更新策略时使用随机近似并入这些条件。最后,我们通过模拟在两个具体示例中展示了算法。
translated by 谷歌翻译
政策梯度(PG)算法是备受期待的强化学习对现实世界控制任务(例如机器人技术)的最佳候选人之一。但是,每当必须在物理系统上执行学习过程本身或涉及任何形式的人类计算机相互作用时,这些方法的反复试验性质就会提出安全问题。在本文中,我们解决了一种特定的安全公式,其中目标和危险都以标量奖励信号进行编码,并且学习代理被限制为从不恶化其性能,以衡量为预期的奖励总和。通过从随机优化的角度研究仅行为者的政策梯度,我们为广泛的参数政策建立了改进保证,从而将现有结果推广到高斯政策上。这与策略梯度估计器的差异的新型上限一起,使我们能够识别出具有很高概率的单调改进的元参数计划。两个关键的元参数是参数更新的步长和梯度估计的批处理大小。通过对这些元参数的联合自适应选择,我们获得了具有单调改进保证的政策梯度算法。
translated by 谷歌翻译
While risk-neutral reinforcement learning has shown experimental success in a number of applications, it is well-known to be non-robust with respect to noise and perturbations in the parameters of the system. For this reason, risk-sensitive reinforcement learning algorithms have been studied to introduce robustness and sample efficiency, and lead to better real-life performance. In this work, we introduce new model-free risk-sensitive reinforcement learning algorithms as variations of widely-used Policy Gradient algorithms with similar implementation properties. In particular, we study the effect of exponential criteria on the risk-sensitivity of the policy of a reinforcement learning agent, and develop variants of the Monte Carlo Policy Gradient algorithm and the online (temporal-difference) Actor-Critic algorithm. Analytical results showcase that the use of exponential criteria generalize commonly used ad-hoc regularization approaches. The implementation, performance, and robustness properties of the proposed methods are evaluated in simulated experiments.
translated by 谷歌翻译
由政策引起的马尔可夫链的混合时间限制了现实世界持续学习场景中的性能。然而,混合时间对持续增强学习学习(RL)的影响仍然是曝光率。在本文中,我们表征了长期兴趣的问题,以通过混合时间调用可扩展的MDP来发展持续的RL。特别是,我们建立可扩展的MDP具有与问题的大小相等的混合时间。我们继续证明,多项式混合时间对现有方法产生显着困难,并提出了一种基于模型的算法,通过新颖的引导程序直接优化平均奖励来加速学习。最后,我们对我们提出的方法进行了实证遗憾分析,展示了对基线的清晰改进,以及如何使用可缩放的MDP来分析RL算法作为混合时间规模。
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
尽管政策梯度方法的普及日益越来越大,但它们尚未广泛用于样品稀缺应用,例如机器人。通过充分利用可用信息,可以提高样本效率。作为强化学习中的关键部件,奖励功能通常仔细设计以引导代理商。因此,奖励功能通常是已知的,允许访问不仅可以访问标量奖励信号,而且允许奖励梯度。为了从奖励梯度中受益,之前的作品需要了解环境动态,这很难获得。在这项工作中,我们开发\ Textit {奖励政策梯度}估计器,这是一种新的方法,可以在不学习模型的情况下整合奖励梯度。绕过模型动态允许我们的估算器实现更好的偏差差异,这导致更高的样本效率,如经验分析所示。我们的方法还提高了在不同的Mujoco控制任务上的近端策略优化的性能。
translated by 谷歌翻译