政策梯度(PG)算法是备受期待的强化学习对现实世界控制任务(例如机器人技术)的最佳候选人之一。但是,每当必须在物理系统上执行学习过程本身或涉及任何形式的人类计算机相互作用时,这些方法的反复试验性质就会提出安全问题。在本文中,我们解决了一种特定的安全公式,其中目标和危险都以标量奖励信号进行编码,并且学习代理被限制为从不恶化其性能,以衡量为预期的奖励总和。通过从随机优化的角度研究仅行为者的政策梯度,我们为广泛的参数政策建立了改进保证,从而将现有结果推广到高斯政策上。这与策略梯度估计器的差异的新型上限一起,使我们能够识别出具有很高概率的单调改进的元参数计划。两个关键的元参数是参数更新的步长和梯度估计的批处理大小。通过对这些元参数的联合自适应选择,我们获得了具有单调改进保证的政策梯度算法。
translated by 谷歌翻译
最近的几项工程致力于在一个环境中致力于无监督的加固学习,其中一项政策首先使用无监督的互动预测,然后微调在相同环境上定义的几个下游监督任务的最佳政策。沿着这一条线,我们解决了一类多种环境中无监督的加强学习问题,其中策略预先培训了从整个类的交互接受,然后在课堂的任何环境中进行微调。值得注意的是,问题本质上是多目标,因为我们可以在许多方面折交环境之间的预训练目标。在这项工作中,我们培养了对课堂内最不利的案件敏感的探索策略。因此,我们将探索问题作为勘探策略在整类环境中探索熵诱导的临界百分点的最大值的最大化。然后,我们提出了一种策略梯度算法,$ \ Alpha $ Mepol,通过与类的介导的交互来优化引入的目标。最后,我们经验展示了算法在学习探索挑战性的连续环境中的能力,我们展示了加强学习从预先接受训练的探索策略W.R.T.从头开始学习。
translated by 谷歌翻译
我们考虑通过连续环境中的加强学习(RL)了解政策背景下的政策简化和验证的挑战。在良好的设置中,RL算法在限制中具有收敛保证。虽然这些保证是有价值的,但它们不足以安全关键型应用。此外,在应用Deep-RL等先进技术时丢失。在将先进的RL算法应用于更复杂的环境时恢复保证,(i)可达性,(ii)安全受限可达性,或(iii)折扣奖励目标,我们建立在Gelada等人介绍的深度框架上。在未知环境和学习的离散潜在模型之间获得新的双刺激界限。我们的BISIMULATION界限能够在马尔可夫决策过程中应用正式方法。最后,我们展示了如何使用通过最先进的RL获得的策略,以有效地训练变形式自动统计器,从而产生离散潜在模型,其具有可释放的近似正确的双刺激保证。此外,我们获得了潜在模型的策略的蒸馏版。
translated by 谷歌翻译
我们介绍了一种普遍的策略,可实现有效的多目标勘探。它依赖于adagoal,一种基于简单约束优化问题的新的目标选择方案,其自适应地针对目标状态,这既不是太困难也不是根据代理目前的知识达到的。我们展示了Adagoal如何用于解决学习$ \ epsilon $ -optimal的目标条件的政策,以便在$ L $ S_0 $ S_0 $奖励中获得的每一个目标状态,以便在$ S_0 $中获取。免费马尔可夫决策过程。在标准的表格外壳中,我们的算法需要$ \ tilde {o}(l ^ 3 s a \ epsilon ^ { - 2})$探索步骤,这几乎很少最佳。我们还容易在线性混合Markov决策过程中实例化Adagoal,其产生具有线性函数近似的第一目标导向的PAC保证。除了强大的理论保证之外,迈克纳队以现有方法的高级别算法结构为锚定,为目标条件的深度加固学习。
translated by 谷歌翻译
我们介绍了一种改进政策改进的方法,该方法在基于价值的强化学习(RL)的贪婪方法与基于模型的RL的典型计划方法之间进行了插值。新方法建立在几何视野模型(GHM,也称为伽马模型)的概念上,该模型对给定策略的折现状态验证分布进行了建模。我们表明,我们可以通过仔细的基本策略GHM的仔细组成,而无需任何其他学习,可以评估任何非马尔科夫策略,以固定的概率在一组基本马尔可夫策略之间切换。然后,我们可以将广义政策改进(GPI)应用于此类非马尔科夫政策的收集,以获得新的马尔可夫政策,通常将其表现优于其先驱。我们对这种方法提供了彻底的理论分析,开发了转移和标准RL的应用,并在经验上证明了其对标准GPI的有效性,对充满挑战的深度RL连续控制任务。我们还提供了GHM培训方法的分析,证明了关于先前提出的方法的新型收敛结果,并显示了如何在深度RL设置中稳定训练这些模型。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
政策梯度定理(Sutton等,2000)规定了目标政策下的累积折扣国家分配以近似梯度。实际上,基于该定理的大多数算法都打破了这一假设,引入了分布转移,该分配转移可能导致逆转溶液的收敛性。在本文中,我们提出了一种新的方法,可以从开始状态重建政策梯度,而无需采取特定的采样策略。可以根据梯度评论家来简化此形式的策略梯度计算,由于梯度的新钟声方程式,可以递归估算。通过使用来自差异数据流的梯度评论家的时间差异更新,我们开发了第一个以无模型方式避开分布变化问题的估计器。我们证明,在某些可实现的条件下,无论采样策略如何,我们的估计器都是公正的。我们从经验上表明,我们的技术在存在非政策样品的情况下实现了卓越的偏见变化权衡和性能。
translated by 谷歌翻译
由于策略梯度定理导致的策略设置存在各种理论上 - 声音策略梯度算法,其为梯度提供了简化的形式。然而,由于存在多重目标和缺乏明确的脱助政策政策梯度定理,截止策略设置不太明确。在这项工作中,我们将这些目标统一到一个违规目标,并为此统一目标提供了政策梯度定理。推导涉及强调的权重和利息职能。我们显示多种策略来近似梯度,以识别权重(ACE)称为Actor评论家的算法。我们证明了以前(半梯度)脱离政策演员 - 评论家 - 特别是offpac和DPG - 收敛到错误的解决方案,而Ace找到最佳解决方案。我们还强调为什么这些半梯度方法仍然可以在实践中表现良好,表明ace中的方差策略。我们经验研究了两个经典控制环境的若干ACE变体和基于图像的环境,旨在说明每个梯度近似的权衡。我们发现,通过直接逼近强调权重,ACE在所有测试的所有设置中执行或优于offpac。
translated by 谷歌翻译
由政策引起的马尔可夫链的混合时间限制了现实世界持续学习场景中的性能。然而,混合时间对持续增强学习学习(RL)的影响仍然是曝光率。在本文中,我们表征了长期兴趣的问题,以通过混合时间调用可扩展的MDP来发展持续的RL。特别是,我们建立可扩展的MDP具有与问题的大小相等的混合时间。我们继续证明,多项式混合时间对现有方法产生显着困难,并提出了一种基于模型的算法,通过新颖的引导程序直接优化平均奖励来加速学习。最后,我们对我们提出的方法进行了实证遗憾分析,展示了对基线的清晰改进,以及如何使用可缩放的MDP来分析RL算法作为混合时间规模。
translated by 谷歌翻译
机器学习算法中多个超参数的最佳设置是发出大多数可用数据的关键。为此目的,已经提出了几种方法,例如进化策略,随机搜索,贝叶斯优化和启发式拇指规则。在钢筋学习(RL)中,学习代理在与其环境交互时收集的数据的信息内容严重依赖于许多超参数的设置。因此,RL算法的用户必须依赖于基于搜索的优化方法,例如网格搜索或Nelder-Mead单简单算法,这对于大多数R1任务来说是非常效率的,显着减慢学习曲线和离开用户的速度有目的地偏见数据收集的负担。在这项工作中,为了使RL算法更加用户独立,提出了一种使用贝叶斯优化的自主超参数设置的新方法。来自过去剧集和不同的超参数值的数据通过执行行为克隆在元学习水平上使用,这有助于提高最大化获取功能的加强学习变体的有效性。此外,通过紧密地整合在加强学习代理设计中的贝叶斯优化,还减少了收敛到给定任务的最佳策略所需的状态转换的数量。与其他手动调整和基于优化的方法相比,计算实验显示了有希望的结果,这突出了改变算法超级参数来增加所生成数据的信息内容的好处。
translated by 谷歌翻译
Softmax政策的政策梯度(PG)估计与子最佳饱和初始化无效,当密度集中在次良动作时发生。从策略初始化或策略已经收敛后发生的环境的突然变化可能会出现次优策略饱和度,并且SoftMax PG估计器需要大量更新以恢复有效的策略。这种严重问题导致高样本低效率和对新情况的适应性差。为缓解此问题,我们提出了一种新的政策梯度估计,用于软MAX策略,该估计在批评中利用批评中的偏差和奖励信号中存在的噪声来逃避策略参数空间的饱和区域。我们对匪徒和古典MDP基准测试任务进行了分析和实验,表明我们的估算变得更加坚固,以便对政策饱和度更加强大。
translated by 谷歌翻译
加强学习(RL)的政策梯度方法非常普遍,在实践中广泛应用,但它们的性能遭受了梯度估计的较高差异。提出了几种程序来减少它,包括参与者批评(AC)和Advantag Actor-Critic(A2C)方法。最近,由于引入了深入的RL:新的控制变量(CV)和新的子采样程序都可以在复杂模型(例如神经网络)的设置中获得新的视角。基于简历的方法的重要部分是训练简历的目标功能,最受欢迎的方法是A2C的最小二乘标准。尽管取得了实际的成功,但标准并不是唯一可能的标准。在本文中,我们第一次研究称为经验方差(EV)的表现。我们在实验中观察到,不仅EV准则的性能并不比A2C差,而且有时可能会更好。除此之外,我们还证明了在非常一般的假设下实际差异的一些理论保证,并表明A2C最小二乘目标函数是EV目标的上限。我们的实验表明,就差异降低而言,基于EV的方法比A2C好得多,并且可以降低方差。
translated by 谷歌翻译
面对顺序决策问题时,能够预测如果使用新策略进行决策会发生什么会发生什么。这些预测通常必须基于在一些先前使用的决策规则下收集的数据。许多以前的方法使得这种违规(或反事实)估计的性能测量值的预期值称为返回。在本文中,我们采取了迈向普遍违规估算机(UNO)的第一步 - 为返回分配的任何参数提供截止政策估计和高信任界限。我们使用UNO来估计和同时限制均值,方差,量级/中位数,分位式范围,CVAR和返回的整个累积分布。最后,我们还在各种环境中讨论了UNO的适用性,包括完全可观察,部分可观察的(即,与未观察到的混乱),马尔可夫,非马尔可瓦尔,静止,平稳的非稳定性和离散分布转移。
translated by 谷歌翻译
本文研究了马尔可夫决策过程(MDPS)中用于政策评估的数据收集问题。在政策评估中,我们获得了目标政策,并要求估计它将在正式作为MDP的环境中获得的预期累积奖励。我们通过首先得出了使用奖励分布方差知识的Oracle数据收集策略来开发在树结构MDPS中的最佳数据收集理论。然后,我们介绍了减少的方差采样(射击)算法,即当奖励方差未知并与Oracle策略相比,奖励方差未知并绑定其亚典型性时,它近似于Oracle策略。最后,我们从经验上验证了射手会导致与甲骨文策略相当的均衡误差进行政策评估,并且比仅仅运行目标策略要低得多。
translated by 谷歌翻译
具有切换持续时间的轮询系统是具有若干实际应用的有用模型。它被归类为离散事件动态系统(DED),没有人在建模方法中同意的是。此外,DEDS非常复杂。迄今为止,最复杂的兴趣调查系统建模的方法是连续时间马尔可夫决策过程(CTMDP)。本文提出了一个半马尔可夫决策过程(SMDP)轮询系统的制定,以引入额外的建模能力。这种权力以截断误差和昂贵的数值积分为代价,自然导致SMDP政策是否提供有价值的优势。为了进一步添加到此方案,显示CTMDP中可以利用稀疏性以开发计算有效的模型。使用半Markov过程模拟器评估SMDP和CTMDP策略的折扣性能。两项政策伴随着专门为该投票系统开发的启发式政策,作为详尽的服务政策。参数和非参数假设试验用于测试性能差异是否有统计学意义。
translated by 谷歌翻译
在不确定性面前的乐观原则在整个连续决策中普遍存在,如多武装匪和加强学习(RL)等问题。为了成功,乐观的RL算法必须过度估计真正的值函数(乐观),但不是通过它不准确的(估计错误)。在表格设置中,许多最先进的方法通过在缩放到深rl时难以应变的方法产生所需的乐观。我们重新解释基于可扩展的乐观模型的算法,以解决易解噪声增强MDP。这种配方实现了竞争遗憾:$ \ tilde {\ mathcal {o}}(| \ mathcal {s} | h \ sqrt {| \ mathcal {a} | t} $在使用高斯噪音时,$ t $是环境步骤的总数。我们还探讨了这种权衡在深度RL设置中的权衡变化,我们在验证上显示估计误差明显更麻烦。但是,我们还表明,如果此错误减少,基于乐观的模型的RL算法可以在连续控制问题中匹配最先进的性能。
translated by 谷歌翻译
一般政策改进(GPI)和信任区域学习(TRL)是当代强化学习(RL)内的主要框架,其用作解决马尔可夫决策过程(MDP)的核心模型。不幸的是,在他们的数学形式中,它们对修改敏感,因此,实现它们的实际实例化不会自动继承其改进保证。结果,可用严格的MDP-溶剂的光谱窄。实际上,许多最先进的(SOTA)算法,例如TRPO和PPO,不能被证明收敛。在本文中,我们提出了\ Textsl {镜像学习} - 对RL问题的一般解决方案。我们揭示了GPI和TRL,但在这个算法的近似空间内的小点,拥有单调改善性,并收敛到最佳政策。我们表明,RL的几乎所有SOTA算法都是镜像学习的实例,因此表明其实证性能是其理论属性,而不是近似类比的结果。令人兴奋的是,我们表明镜像学习与收敛保证的策略学习方法开辟了全新的全新空间。
translated by 谷歌翻译
基于我们先前关于绿色仿真辅助政策梯度(GS-PG)的研究,重点是基于轨迹的重复使用,在本文中,我们考虑了无限 - 马尔可夫马尔可夫决策过程,并创建了一种新的重要性采样策略梯度优化的方法来支持动态决策制造。现有的GS-PG方法旨在从完整的剧集或过程轨迹中学习,这将其适用性限制在低数据状态和灵活的在线过程控制中。为了克服这一限制,提出的方法可以选择性地重复使用最相关的部分轨迹,即,重用单元基于每步或每次派遣的历史观察。具体而言,我们创建了基于混合的可能性比率(MLR)策略梯度优化,该优化可以利用不同行为政策下产生的历史状态行动转变中的信息。提出的减少差异经验重播(VRER)方法可以智能地选择和重复使用最相关的过渡观察,改善策略梯度估计并加速最佳政策的学习。我们的实证研究表明,它可以改善优化融合并增强最先进的政策优化方法的性能,例如Actor-Critic方法和近端政策优化。
translated by 谷歌翻译
我们研究马尔可夫决策过程(MDP)框架中的离线数据驱动的顺序决策问题。为了提高学习政策的概括性和适应性,我们建议通过一套关于在政策诱导的固定分配所在的分发的一套平均奖励来评估每项政策。给定由某些行为策略生成的多个轨迹的预收集数据集,我们的目标是在预先指定的策略类中学习一个强大的策略,可以最大化此集的最小值。利用半参数统计的理论,我们开发了一种统计上有效的策略学习方法,用于估算DE NED强大的最佳政策。在数据集中的总决策点方面建立了达到对数因子的速率最佳遗憾。
translated by 谷歌翻译
依赖于太多的实验来学习良好的行动,目前的强化学习(RL)算法在现实世界的环境中具有有限的适用性,这可能太昂贵,无法探索探索。我们提出了一种批量RL算法,其中仅使用固定的脱机数据集来学习有效策略,而不是与环境的在线交互。批量RL中的有限数据产生了在培训数据中不充分表示的状态/行动的价值估计中的固有不确定性。当我们的候选政策从生成数据的候选政策发散时,这导致特别严重的外推。我们建议通过两个直接的惩罚来减轻这个问题:减少这种分歧的政策限制和减少过于乐观估计的价值约束。在全面的32个连续动作批量RL基准测试中,我们的方法对最先进的方法进行了比较,无论如何收集离线数据如何。
translated by 谷歌翻译