强调时间差异(ETD)学习(Sutton et al。,2016)是一种成功的方法,可以通过功能近似进行政体值函数评估。尽管已显示ETD渐近地收敛到理想的值函数,但众所周知,ETD通常会遇到较大的方差,因此其样品复杂性可以随迭代次数的数量而迅速地增加。在这项工作中,我们提出了一种新的ETD方法,称为per-eTD(即定期重新启动-ETD),该方法仅在评估参数的每个迭代中重新启动和更新后续跟踪。此外,Per-ETD的设计是重新启动时期的对数增加的设计与迭代次数的数量,这确保了差异和偏见之间的最佳折衷,并使均消失了。我们表明,每个ETD收敛到与ETD相同的理想固定点,但提高了ETD的指数样品复杂性为多项式。我们的实验验证了Per-ETD的出色性能及其优于ETD的优势。
translated by 谷歌翻译
在这项工作中,我们研究了解决强化学习问题的基于政策的方法,其中采用了非政策性采样和线性函数近似进行政策评估,以及包括自然政策梯度(NPG)在内的各种政策更新规则,用于政策更新。为了在致命三合会的存在下解决政策评估子问题,我们提出了一个通用算法的多步型TD学习框架,具有广义的重要性抽样比率,其中包括两个特定的算法:$ \ lambda $ Q Q $ Q Q $ - 跟踪和双面$ Q $ - 跟踪。通用算法是单个时间尺度,具有可证明的有限样本保证,并克服了非政策学习中的高方差问题。至于策略更新,我们仅使用Bellman操作员的收缩属性和单调性属性提供通用分析,以在各种策略更新规则下建立几何融合。重要的是,通过将NPG视为实施政策迭代的近似方法,我们在不引入正则化的情况下建立了NPG的几何融合,并且不使用现有文献中的镜像下降类型的分析类型。将策略更新的几何融合与策略评估的有限样本分析相结合,我们首次建立了整​​体$ \ Mathcal {o}(\ Epsilon^{ - 2})$样本复杂性以找到最佳策略(最多达到函数近似误差)使用基于策略的方法和线性函数近似下的基于策略的方法。
translated by 谷歌翻译
我们研究了平均奖励马尔可夫决策过程(AMDP)的问题,并开发了具有强大理论保证的新型一阶方法,以进行政策评估和优化。由于缺乏勘探,现有的彻底评估方法遭受了次优融合率以及处理不足的随机策略(例如确定性政策)的失败。为了解决这些问题,我们开发了一种新颖的差异时间差异(VRTD)方法,具有随机策略的线性函数近似以及最佳收敛保证,以及一种探索性方差降低的时间差(EVRTD)方法,用于不充分的随机策略,可相当的融合保证。我们进一步建立了政策评估偏见的线性收敛速率,这对于改善策略优化的总体样本复杂性至关重要。另一方面,与对MDP的政策梯度方法的有限样本分析相比,对AMDP的策略梯度方法的现有研究主要集中在基础马尔可夫流程的限制性假设下(例如,参见Abbasi-e, Yadkori等人,2019年),他们通常缺乏整体样本复杂性的保证。为此,我们开发了随机策略镜下降(SPMD)的平均奖励变体(LAN,2022)。我们建立了第一个$ \ widetilde {\ Mathcal {o}}(\ epsilon^{ - 2})$样品复杂性,用于在生成模型(带有UNICHAIN假设)和Markovian Noise模型(使用Ergodicicic Modele(具有核能的模型)下,使用策略梯度方法求解AMDP假设)。该界限可以进一步改进到$ \ widetilde {\ Mathcal {o}}}(\ epsilon^{ - 1})$用于求解正则化AMDPS。我们的理论优势通过数值实验来证实。
translated by 谷歌翻译
我们研究了线性函数近似的政策评估问题,并且目前具有强烈的最优性保证的高效实用算法。我们首先通过证明在这个问题中建立基线的下限来建立基线和随机错误。特别是,我们在与转换内核的静止分布相关联的实例相关规范中证明了Oracle复杂性下限,并使用本地渐近最低限度机械在随机误差中证明依赖于随机误差的实例相关的下限IID观察模型。现有算法未能匹配这些下限中的至少一个:为了说明,我们分析了时间差异学习的方差减少变体,特别是它未能实现Oracle复杂性下限。为了解决这个问题,我们开发了加速,方差减少的快速时间差算法(VRFTD),其同时匹配两个下限,并达到实例 - 最优性的强烈概念。最后,我们将VRFTD算法扩展到Markovian观察的设置,并提供与I.I.D中的实例相关的收敛结果。设置到与链条的混合时间成比例的乘法因子。我们的理论保证最佳的最佳保证是通过数值实验证实的。
translated by 谷歌翻译
We study a multi-agent reinforcement learning (MARL) problem where the agents interact over a given network. The goal of the agents is to cooperatively maximize the average of their entropy-regularized long-term rewards. To overcome the curse of dimensionality and to reduce communication, we propose a Localized Policy Iteration (LPI) algorithm that provably learns a near-globally-optimal policy using only local information. In particular, we show that, despite restricting each agent's attention to only its $\kappa$-hop neighborhood, the agents are able to learn a policy with an optimality gap that decays polynomially in $\kappa$. In addition, we show the finite-sample convergence of LPI to the global optimal policy, which explicitly captures the trade-off between optimality and computational complexity in choosing $\kappa$. Numerical simulations demonstrate the effectiveness of LPI.
translated by 谷歌翻译
我们研究了随机近似程序,以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后,我们证明了一种在适当平均迭代序列上的非渐近实例依赖性,具有匹配局部渐近最小的限制的领先术语,包括对参数$的敏锐依赖(d,t _ {\ mathrm {mix}}) $以高阶术语。我们将这些上限与非渐近Minimax的下限补充,该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD($ \ lambda $)算法,以便[0,1)$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门(例如,在运行TD($ \ Lambda $)算法时选择$ \ lambda $的值)。
translated by 谷歌翻译
Q学习长期以来一直是最受欢迎的强化学习算法之一,几十年来,Q学习的理论分析一直是一个活跃的研究主题。尽管对Q-学习的渐近收敛分析的研究具有悠久的传统,但非肿瘤收敛性直到最近才受到积极研究。本文的主要目的是通过控制系统的观点研究马尔可夫观察模型下异步Q学习的新有限时间分析。特别是,我们引入了Q学习的离散时间变化的开关系统模型,并减少了分析的步骤尺寸,这显着改善了使用恒定步骤尺寸的开关系统分析的最新开发,并导致\(\(\)(\) Mathcal {o} \ left(\ sqrt {\ frac {\ log k} {k}}} \ right)\)\)\)\)\)\)\)\)与大多数艺术状态相当或更好。同时,新应用了使用类似转换的技术,以避免通过减小的步骤尺寸提出的分析中的难度。提出的分析带来了其他见解,涵盖了不同的方案,并提供了新的简化模板,以通过其独特的连接与离散时间切换系统的独特联系来加深我们对Q学习的理解。
translated by 谷歌翻译
我们考虑解决强大的马尔可夫决策过程(MDP)的问题,该过程涉及一组折扣,有限状态,有限的动作空间MDP,具有不确定的过渡核。计划的目的是找到一项强大的政策,以优化针对过渡不确定性的最坏情况值,从而将标准MDP计划作为特殊情况。对于$(\ Mathbf {s},\ Mathbf {a})$ - 矩形不确定性集,我们开发了一种基于策略的一阶方法,即稳健的策略镜像下降(RPMD),并建立$ \ Mathcal {o }(\ log(1/\ epsilon))$和$ \ Mathcal {o}(1/\ epsilon)$迭代复杂性,用于查找$ \ epsilon $ -optimal策略,并带有两个增加的步骤式方案。 RPMD的先前收敛适用于任何Bregman差异,前提是政策空间在以初始政策为中心时通过差异测量的半径限制了半径。此外,当布雷格曼的分歧对应于平方的欧几里得距离时,我们建立了一个$ \ mathcal {o}(\ max \ {1/\ epsilon,1/(\ eta \ eTa \ epsilon^2)\ epsilon^2)\任何常量的步进$ \ eta $。对于Bregman差异的一般类别,如果不确定性集满足相对强的凸度,则还为RPMD建立了类似的复杂性。当仅通过与名义环境的在线互动获得一阶信息时,我们进一步开发了一个名为SRPMD的随机变体。对于Bregman General Divergences,我们建立了一个$ \ MATHCAL {O}(1/\ Epsilon^2)$和$ \ Mathcal {O}(1/\ Epsilon^3)$样品复杂性,具有两个增加的静态方案。对于Euclidean Bregman Divergence,我们建立了一个$ \ MATHCAL {O}(1/\ Epsilon^3)$样本复杂性,并具有恒定的步骤。据我们所知,所有上述结果似乎是应用于强大的MDP问题的基于策略的一阶方法的新事物。
translated by 谷歌翻译
在本文中,我们在表格设置中建立了违法演员批评算法的全球最优性和收敛速度,而不使用密度比来校正行为政策的状态分布与目标政策之间的差异。我们的工作超出了现有的工作原理,最佳的策略梯度方法中的现有工作中使用确切的策略渐变来更新策略参数时,我们使用近似和随机更新步骤。我们的更新步骤不是渐变更新,因为我们不使用密度比以纠正状态分布,这与从业者做得好。我们的更新是近似的,因为我们使用学习的评论家而不是真正的价值函数。我们的更新是随机的,因为在每个步骤中,更新仅为当前状态操作对完成。此外,我们在分析中删除了现有作品的几个限制性假设。我们的工作中的核心是基于其均匀收缩性能的时源性Markov链中的通用随机近似算法的有限样本分析。
translated by 谷歌翻译
我们研究了在随机代理网络中的多功能加固学习(MARL)。目标是找到最大化(折扣)全球奖励的本地化政策。通常,可扩展性在此设置中是一个挑战,因为全局状态/动作空间的大小可以是代理的数量的指数。在依赖性是静态,固定和局部,例如,在固定的,时不变的底层图形的邻居之间,才知道可扩展算法。在这项工作中,我们提出了一个可扩展的演员评论家框架,适用于依赖关系可以是非本地和随机的设置,并提供有限误差绑定,显示了收敛速度如何取决于网络中的信息速度。另外,作为我们分析的副产物,我们获得了一般随机近似方案的新型有限时间收敛结果,以及具有状态聚合的时间差异学习,其超出了网络系统中的Marl的设置。
translated by 谷歌翻译
本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题,其目标是使具有变量的外目标函数最小化,该变量被限制为对(内部)优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况,而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似(TTSA)算法。在算法中,使用较大步长的随机梯度更新用于内部问题,而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率:当外部问题强烈凸起(RESP。〜弱凸)时,TTSA算法查找$ \ MATHCAL {O}(k ^ { - 2/3})$ -Optimal(resp。〜$ \ mathcal {o}(k ^ {-2/5})$ - 静止)解决方案,其中$ k $是总迭代号。作为一个应用程序,我们表明,两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是,与全球最优政策相比,自然演员批评算法显示以预期折扣奖励的差距,以$ \ mathcal {o}(k ^ { - 1/4})的速率收敛。
translated by 谷歌翻译
政策梯度定理(Sutton等,2000)规定了目标政策下的累积折扣国家分配以近似梯度。实际上,基于该定理的大多数算法都打破了这一假设,引入了分布转移,该分配转移可能导致逆转溶液的收敛性。在本文中,我们提出了一种新的方法,可以从开始状态重建政策梯度,而无需采取特定的采样策略。可以根据梯度评论家来简化此形式的策略梯度计算,由于梯度的新钟声方程式,可以递归估算。通过使用来自差异数据流的梯度评论家的时间差异更新,我们开发了第一个以无模型方式避开分布变化问题的估计器。我们证明,在某些可实现的条件下,无论采样策略如何,我们的估计器都是公正的。我们从经验上表明,我们的技术在存在非政策样品的情况下实现了卓越的偏见变化权衡和性能。
translated by 谷歌翻译
我们研究马尔可夫决策过程(MDP)框架中的离线数据驱动的顺序决策问题。为了提高学习政策的概括性和适应性,我们建议通过一套关于在政策诱导的固定分配所在的分发的一套平均奖励来评估每项政策。给定由某些行为策略生成的多个轨迹的预收集数据集,我们的目标是在预先指定的策略类中学习一个强大的策略,可以最大化此集的最小值。利用半参数统计的理论,我们开发了一种统计上有效的策略学习方法,用于估算DE NED强大的最佳政策。在数据集中的总决策点方面建立了达到对数因子的速率最佳遗憾。
translated by 谷歌翻译
具有线性函数近似的贪婪GQ,最初在\ cite {maei2010toward}中提出,是一种基于价值的基础外算法,用于增强增强学习中的最佳控制,并且具有非线性的两个时间尺度结构,具有非convex目标函数。本文开发其有限的时间误差范围。我们表明,贪婪的GQ算法在I.I.D. \ serat和$ \ Mathcal {O}下({\ log t}({\ log t})下,贪婪的算法的收敛如$ \ Mathcal {O}({1}/{{1}/{\ sqrt {t}})$ /{\ sqrt {t}})$在马尔可夫设置下。我们进一步设计了使用嵌套环方法的香草贪婪-GQ算法的变体,并证明其样品复杂性为$ \ Mathcal {o}({\ log(1/\ epsilon)\ Epsilon^epsilon^{ - 2}}}}}} )$,与香草贪婪的GQ之一相匹配。我们的有限时间误差界限与用于一般平滑非凸优化问题的随机梯度下降算法之一匹配。我们的有限样本分析提供了理论指南,以选择在实践中选择更快的融合的步骤尺寸,并建议在收敛速度和获得的政策质量之间进行权衡。本文我们的技术提供了一种通用方法,用于对非凸的两个基于时值的强化学习算法进行有限样本分析。
translated by 谷歌翻译
当我们不允许我们使用目标策略进行采样,而只能访问某些未知行为策略生成的数据集时,策略梯度(PG)估计就成为一个挑战。用于支付政策PG估计的常规方法通常会遭受明显的偏差或指数较大的差异。在本文中,我们提出了双拟合的PG估计(FPG)算法。假设访问Bellman-Complete值函数类,FPG可以与任意策略参数化一起工作。在线性值函数近似的情况下,我们在策略梯度估计误差上提供了一个紧密的有限样本上限,该界限受特征空间中测量的分布不匹配量的控制。我们还建立了FPG估计误差的渐近正态性,并具有精确的协方差表征,这进一步证明在统计上是最佳的,具有匹配的Cramer-Rao下限。从经验上讲,我们使用SoftMax表格或RELU策略网络评估FPG在策略梯度估计和策略优化方面的性能。在各种指标下,我们的结果表明,基于重要性采样和降低方差技术,FPG显着优于现有的非政策PG估计方法。
translated by 谷歌翻译
分散的参与者 - 批评(AC)算法已被广泛用于多机构增强学习(MARL),并取得了杰出的成功。除了其经验成功之外,分散的AC算法的理论收敛性在很大程度上没有探索。现有的有限时间收敛结果是基于双环更新或两次尺度的步骤规则得出的,这在实际实施中不经常采用。在这项工作中,我们介绍了一种完全分散的AC算法,演员,评论家和全球奖励估算器以交替的方式更新,阶跃尺寸的顺序相同,即,我们采用\ emph {single-emph {single-timesscale}更新。从理论上讲,使用线性近似进行价值和奖励估计,我们表明我们的算法具有$ \ tilde {\ Mathcal {o}}}(\ epsilon^{ - 2})$的样本复杂性,在马尔可夫式采样下与最佳复杂性相匹配双环实现(在此,$ \ tilde {\ Mathcal {o}} $隐藏了日志项)。样本复杂性可以提高到$ {\ Mathcal {o}}(\ epsilon^{ - 2})$下的I.I.D.采样方案。建立我们的复杂性结果的核心是\ emph {我们揭示的最佳评论家变量的隐藏平滑度}。我们还提供了算法及其分析的本地动作隐私版本。最后,我们进行实验,以显示我们算法优于现有的分散AC算法的优势。
translated by 谷歌翻译
使用悲观,推理缺乏详尽的勘探数据集时的脱机强化学习最近颇具知名度。尽管它增加了算法的鲁棒性,过于悲观的推理可以在排除利好政策的发现,这是流行的基于红利悲观的问题同样有害。在本文中,我们介绍一般函数近似的Bellman-一致悲观的概念:不是计算逐点下界的值的功能,我们在超过设定的与贝尔曼方程一致的功能的初始状态实现悲观。我们的理论保证只需要贝尔曼封闭性作为探索性的设置标准,其中基于奖金的情况下的悲观情绪未能提供担保。即使在线性函数逼近的特殊情况下更强的表现力假设成立,我们的结果由$ \ mathcal {}Ø(d)在其样品的复杂$在最近的基于奖金的方法改善的时候,动作的空间是有限的。值得注意的是,我们的算法,能够自动适应事后最好的偏差 - 方差折中,而大多数现有的方法中需要调整的额外超参数的先验。
translated by 谷歌翻译
Q-Learning,旨在以无模式的方式学习Markov决策过程(MDP)的最佳Q函数,位于加强学习的核心。当涉及到同步设置时(从每次迭代中从生成模型中从生成模型中汲取独立样本)时,已经对理解Q学习的样本效率进行了实质性进展。考虑一个$ \ gamma $ -discounted infinite-horizo​​ n mdp与状态空间$ \ mathcal {s} $和动作空间$ \ mathcal {a} $:要产生一个entrywise $ \ varepsilon $ - 最佳q函数的克制,最先进的Q-Learning理论需要超出$ \ FRAC {| \ Mathcal {s} || \ mathcal {a} || \ {(1- \ gamma)^ 5 \ varepsilon的示例大小^ {2}} $,它无法匹配现有的最低限度下限。这引起了自然问题:Q-Learning的急剧性复杂性是什么?是Q-Learning可怕的次优吗?本文为同步设置解决了这些问题:(1)当$ | \ mathcal {a} | = 1 $(使q学习减少到TD学习)时,我们证明了TD学习的样本复杂性是最佳的最佳和尺度为$ \ frac {| \ mathcal {s} |} {(1- \ gamma)^ 3 \ varepsilon ^ 2} $(最多到日志系数); (2)当$ | \ mathcal {a} | \ geq 2 $时,我们解决了q-learning的样本复杂性,按$ \ frac {| \ mathcal {s} || \ mathcal {a} || } {(1- \ gamma)^ 4 \ varepsilon ^ 2} $(最多到日志系数)。我们的理论推出了Q-Leature的严格次优,当$ | \ mathcal {a} | \ geq 2 $,并严格严格估计在q-learning中的负面影响。最后,我们扩展了我们的分析以适应异步Q-Learning(即,与马尔可夫样本的情况),锐化其样本复杂性的地平线依赖性为$ \ frac {1} {(1- \ gamma)^ 4} $。
translated by 谷歌翻译
随机游戏的学习可以说是多功能钢筋学习(MARL)中最标准和最基本的环境。在本文中,我们考虑在非渐近制度的随机游戏中分散的Marl。特别是,我们在大量的一般总和随机游戏(SGS)中建立了完全分散的Q学习算法的有限样本复杂性 - 弱循环SGS,包括对所有代理商的普通合作MARL设置具有相同的奖励(马尔可夫团队问题是一个特例。我们专注于实用的同时具有挑战性地设置完全分散的Marl,既不奖励也没有其他药剂的作用,每个试剂都可以观察到。事实上,每个特工都完全忘记了其他决策者的存在。表格和线性函数近似情况都已考虑。在表格设置中,我们分析了分散的Q学习算法的样本复杂性,以收敛到马尔可夫完美均衡(NASH均衡)。利用线性函数近似,结果用于收敛到线性近似平衡 - 我们提出的均衡的新概念 - 这描述了每个代理的策略是线性空间内的最佳回复(到其他代理)。还提供了数值实验,用于展示结果。
translated by 谷歌翻译
由于众所周知,强化学习算法是数据密集型的,因此从环境中进行采样观测的任务通常在多个代理之间分配。但是,将这些观察结果从代理转移到中心位置可能会非常昂贵,并且还可以损害每个代理人本地行为政策的隐私。在本文中,我们考虑了一个联合加强学习框架,其中多个代理商协作学习了一个全球模型,而无需共享他们的个人数据和政策。每个代理都维护模型的本地副本,并使用本地采样数据对其进行更新。尽管具有n个代理可以启用n次数据的采样,但尚不清楚它是否导致比例收敛的加速。我们提出了联合版本的On-Policy TD,Off-Policy TD和Q学习,并分析其收敛性。对于所有这些算法,据我们所知,我们是第一个考虑马尔可夫噪声和多个局部更新的人,并证明相对于代理的数量是线性收敛的速度。为了获得这些结果,我们表明联邦TD和Q学习是与马尔可夫噪声联合随机近似的一般框架的特殊情况,并且我们利用该框架提供了适用于所有算法的统一收敛分析。
translated by 谷歌翻译