多功能钢筋学习已成功应用于许多挑战性问题。尽管有这些经验成功,但对不同算法的理论理解缺乏,主要是由于状态 - 行动空间的指数增长与代理人数引起的维度诅咒。我们研究了多蛋白线性二次调节剂(LQR)的基本问题,在该刻度部分可互换的情况下。在此设置中,我们开发了一个分层演员 - 批评算法,其计算复杂性独立于代理总数,并证明了其全局线性融合到最佳政策。由于LQRS经常用于近似一般动态系统,本文提供了更好地理解一般分层平均场多功能增强学习的重要一步。
translated by 谷歌翻译
参与者 - 批评(AC)增强学习算法一直是许多具有挑战性的应用背后的强大力量。然而,它的收敛性一般都是脆弱的。为了研究其不稳定性,现有作品主要考虑具有有限状态和动作空间的罕见的双环变体或基本模型。我们研究了更实用的单样本两次尺度AC,用于解决规范线性二次调节器(LQR)问题,其中演员和评论家在每个迭代中仅在无界的连续状态和动作空间中使用单个迭代中的单个样本更新一次。现有的分析无法得出这样一个具有挑战性的情况的融合。我们开发了一个新的分析框架,该框架允许建立全局收敛到$ \ epsilon $ -optimal解决方案,最多最多是$ \ tilde {\ Mathcal {o}}}(\ epsilon^{ - 2.5})$样本复杂性。据我们所知,这是单个样本两次尺度AC的第一个有限时间收敛分析,用于以全球最优性求解LQR。样本复杂性通过订单改善了其他变体的复杂性,从而阐明了单个样品算法的实际智慧。我们还通过全面的模拟比较进一步验证了理论发现。
translated by 谷歌翻译
我们考虑使用有限的地平线上具有随机动力学的通用N-N-玩家线性季度游戏,并证明了自然策略梯度方法与NASH平衡的全球收敛性。为了证明该方法的收敛性,我们需要系统中有一定数量的噪声。我们给出了一个条件,基本上是在模型参数方面对噪声的协方差的下限,以确保收敛。我们通过数值实验说明了我们的结果,以表明即使在策略梯度方法可能不会在确定性设置中收敛的情况下,噪声的添加也会导致收敛。
translated by 谷歌翻译
我们研究了平均奖励马尔可夫决策过程(AMDP)的问题,并开发了具有强大理论保证的新型一阶方法,以进行政策评估和优化。由于缺乏勘探,现有的彻底评估方法遭受了次优融合率以及处理不足的随机策略(例如确定性政策)的失败。为了解决这些问题,我们开发了一种新颖的差异时间差异(VRTD)方法,具有随机策略的线性函数近似以及最佳收敛保证,以及一种探索性方差降低的时间差(EVRTD)方法,用于不充分的随机策略,可相当的融合保证。我们进一步建立了政策评估偏见的线性收敛速率,这对于改善策略优化的总体样本复杂性至关重要。另一方面,与对MDP的政策梯度方法的有限样本分析相比,对AMDP的策略梯度方法的现有研究主要集中在基础马尔可夫流程的限制性假设下(例如,参见Abbasi-e, Yadkori等人,2019年),他们通常缺乏整体样本复杂性的保证。为此,我们开发了随机策略镜下降(SPMD)的平均奖励变体(LAN,2022)。我们建立了第一个$ \ widetilde {\ Mathcal {o}}(\ epsilon^{ - 2})$样品复杂性,用于在生成模型(带有UNICHAIN假设)和Markovian Noise模型(使用Ergodicicic Modele(具有核能的模型)下,使用策略梯度方法求解AMDP假设)。该界限可以进一步改进到$ \ widetilde {\ Mathcal {o}}}(\ epsilon^{ - 1})$用于求解正则化AMDPS。我们的理论优势通过数值实验来证实。
translated by 谷歌翻译
我们在具有代理网络的环境中研究强化学习(RL),其状态和行动以当地的方式交互,其中目标是找到本地化策略,以便最大化(折扣)全局奖励。此设置中的一个根本挑战是状态 - 行动空间大小在代理的数量中呈指数级级别,呈现大网络难以解决的问题。在本文中,我们提出了一个可扩展的演员评论家(SAC)框架,用于利用网络结构并找到一个$ O(\ Rho ^ {\ Kappa})$ - 近似于某些目标的静止点的近似$ \ rho \ in(0,1)$,复杂性,与网络最大的$ \ kappa $-hop邻居的本地状态动作空间大小缩放。我们使用无线通信,流行和流量的示例说明了我们的模型和方法。
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
直接政策搜索作为现代强化学习(RL)的工作人员之一,其在连续控制任务中的应用最近引起了不断的关注。在这项工作中,我们研究了用于学习线性风险敏感和鲁棒控制器的政策梯度(PG)方法的收敛理论。特别地,我们开发PG方法,可以通过采样系统轨迹以无衍生方式实现,并建立全球收敛性和样本复杂性,这导致风险敏感和强大控制中的两个基本环境的解决方案:有限地平线线性指数二次高斯,以及有限地平线线性二次干扰衰减问题。作为副产品,我们的结果还为解决零和线性二次动态游戏的PG方法的全局融合提供了第一种样本复杂性,这是一种非透明的极限优化问题,该问题用作多功能钢筋中的基线设置学习(Marl)与连续空间。我们的算法的一个特征是在学习阶段,保留了一定程度的控制器的鲁棒性/风险敏感性,因此我们被称为隐式正则化属性,并且是安全关键控制系统的基本要求。
translated by 谷歌翻译
Q学习长期以来一直是最受欢迎的强化学习算法之一,几十年来,Q学习的理论分析一直是一个活跃的研究主题。尽管对Q-学习的渐近收敛分析的研究具有悠久的传统,但非肿瘤收敛性直到最近才受到积极研究。本文的主要目的是通过控制系统的观点研究马尔可夫观察模型下异步Q学习的新有限时间分析。特别是,我们引入了Q学习的离散时间变化的开关系统模型,并减少了分析的步骤尺寸,这显着改善了使用恒定步骤尺寸的开关系统分析的最新开发,并导致\(\(\)(\) Mathcal {o} \ left(\ sqrt {\ frac {\ log k} {k}}} \ right)\)\)\)\)\)\)\)\)与大多数艺术状态相当或更好。同时,新应用了使用类似转换的技术,以避免通过减小的步骤尺寸提出的分析中的难度。提出的分析带来了其他见解,涵盖了不同的方案,并提供了新的简化模板,以通过其独特的连接与离散时间切换系统的独特联系来加深我们对Q学习的理解。
translated by 谷歌翻译
在本文中,我们在表格设置中建立了违法演员批评算法的全球最优性和收敛速度,而不使用密度比来校正行为政策的状态分布与目标政策之间的差异。我们的工作超出了现有的工作原理,最佳的策略梯度方法中的现有工作中使用确切的策略渐变来更新策略参数时,我们使用近似和随机更新步骤。我们的更新步骤不是渐变更新,因为我们不使用密度比以纠正状态分布,这与从业者做得好。我们的更新是近似的,因为我们使用学习的评论家而不是真正的价值函数。我们的更新是随机的,因为在每个步骤中,更新仅为当前状态操作对完成。此外,我们在分析中删除了现有作品的几个限制性假设。我们的工作中的核心是基于其均匀收缩性能的时源性Markov链中的通用随机近似算法的有限样本分析。
translated by 谷歌翻译
We study a multi-agent reinforcement learning (MARL) problem where the agents interact over a given network. The goal of the agents is to cooperatively maximize the average of their entropy-regularized long-term rewards. To overcome the curse of dimensionality and to reduce communication, we propose a Localized Policy Iteration (LPI) algorithm that provably learns a near-globally-optimal policy using only local information. In particular, we show that, despite restricting each agent's attention to only its $\kappa$-hop neighborhood, the agents are able to learn a policy with an optimality gap that decays polynomially in $\kappa$. In addition, we show the finite-sample convergence of LPI to the global optimal policy, which explicitly captures the trade-off between optimality and computational complexity in choosing $\kappa$. Numerical simulations demonstrate the effectiveness of LPI.
translated by 谷歌翻译
最近已证明,平均场控制(MFC)是可扩展的工具,可近似解决大规模的多代理增强学习(MARL)问题。但是,这些研究通常仅限于无约束的累积奖励最大化框架。在本文中,我们表明,即使在存在约束的情况下,也可以使用MFC方法近似MARL问题。具体来说,我们证明,一个$ n $ agent的约束MARL问题,以及每个尺寸的尺寸$ | \ Mathcal {x} | $和$ | \ Mathcal {u} | $的状态和操作空间,可以通过与错误相关的约束MFC问题近似,$ e \ triangleq \ Mathcal {o} \ left([\ sqrt {| \ Mathcal {| \ Mathcal {x} |} |}+\ sqrt {| ]/\ sqrt {n} \ right)$。在奖励,成本和状态过渡功能独立于人口的行动分布的特殊情况下,我们证明该错误可以将错误提高到$ e = \ nathcal {o}(\ sqrt {| | \ Mathcal {x x x } |}/\ sqrt {n})$。另外,我们提供了一种基于自然策略梯度的算法,并证明它可以在$ \ Mathcal {o}(e)$的错误中解决受约束的MARL问题,并具有$ \ MATHCAL {O}的样本复杂性(E^{ - e^{ - 6})$。
translated by 谷歌翻译
多智能体增强学习(Marl)最近引起了很多研究。然而,与其单一代理对应物不同,Marl的许多理论和算法方面尚未得到很好的理解。在本文中,我们使用演员 - 评论家(AC)算法研究了自主代理的协调行为的出现。具体而言,我们提出并分析了一类协调的演员 - 批评算法(CAC),其中单独的参数化政策有一个{\ IT共享}部分(其中在所有代理中共同优化)和{\ IT个性化}部分(这是只有当地优化)。这种类型的{\它部分个性化}策略允许代理通过利用同伴的过去的经验来学习协调并适应各个任务。我们设计的灵活性允许提出的Marl-CAC算法用于{\ IT完全分散}设置中使用,其中代理商只能与其邻居通信,以及偶尔代理的{\ IT联合}设置与服务器通信,同时优化其(部分个性化)本地模型。从理论上讲,在一些标准规律性假设下,所提出的Marl-CAC算法需要$ \ mathcal {o}(\ epsilon ^ { - \ frac {5} {2}})$样本来实现$ \ epsilon $ - 固定式解决方案(定义为目标函数梯度的平方标准的解决方案小于$ \ epsilon $)。据我们所知,这项工作为具有部分个性化策略的分散式交流算法提供了第一个有限的样本保证。
translated by 谷歌翻译
我们研究了在随机代理网络中的多功能加固学习(MARL)。目标是找到最大化(折扣)全球奖励的本地化政策。通常,可扩展性在此设置中是一个挑战,因为全局状态/动作空间的大小可以是代理的数量的指数。在依赖性是静态,固定和局部,例如,在固定的,时不变的底层图形的邻居之间,才知道可扩展算法。在这项工作中,我们提出了一个可扩展的演员评论家框架,适用于依赖关系可以是非本地和随机的设置,并提供有限误差绑定,显示了收敛速度如何取决于网络中的信息速度。另外,作为我们分析的副产物,我们获得了一般随机近似方案的新型有限时间收敛结果,以及具有状态聚合的时间差异学习,其超出了网络系统中的Marl的设置。
translated by 谷歌翻译
我们研究了具有线性函数近似增强学习中的随机最短路径(SSP)问题,其中过渡内核表示为未知模型的线性混合物。我们将此类别的SSP问题称为线性混合物SSP。我们提出了一种具有Hoeffding-type置信度的新型算法,用于学习线性混合物SSP,可以获得$ \ tilde {\ Mathcal {o}}}}(d B _ {\ star}^{1.5} \ sqrt {k/c_ {k/c_ {k/c_ {k/c_ { \ min}})$遗憾。这里$ k $是情节的数量,$ d $是混合模型中功能映射的维度,$ b _ {\ star} $限制了最佳策略的预期累积成本,$ c _ {\ min}>> 0 $是成本函数的下限。当$ c _ {\ min} = 0 $和$ \ tilde {\ mathcal {o}}}(k^{2/3})$遗憾时,我们的算法也适用于情况。据我们所知,这是第一个具有sublrinear遗憾保证线性混合物SSP的算法。此外,我们设计了精致的伯恩斯坦型信心集并提出了改进的算法,该算法可实现$ \ tilde {\ Mathcal {o}}}(d b _ {\ star} \ sqrt {k/c/c/c {k/c _ {\ min}}) $遗憾。为了补充遗憾的上限,我们还证明了$ \ omega(db _ {\ star} \ sqrt {k})$的下限。因此,我们的改进算法将下限匹配到$ 1/\ sqrt {c _ {\ min}} $ factor和poly-logarithmic因素,从而实现了近乎最佳的遗憾保证。
translated by 谷歌翻译
培训期间的对抗性攻击能够强烈影响多功能增强学习算法的性能。因此,非常希望增加现有算法,使得消除对抗对协作网络的对抗性攻击的影响,或者至少有界限。在这项工作中,我们考虑一个完全分散的网络,每个代理商收到本地奖励并观察全球州和行动。我们提出了一种基于弹性共识的演员 - 批评算法,其中每个代理估计了团队平均奖励和价值函数,并将关联的参数向量传送到其立即邻居。我们表明,在拜占庭代理人的存在下,其估算和通信策略是完全任意的,合作社的估计值会融合到有概率一体的有界共识值,条件是在附近的最多有$ H $拜占庭代理商每个合作社和网络都是$(2h + 1)$ - 强大。此外,我们证明,合作社的政策在其团队平均目标函数的局部最大化器周围汇聚在其团队平均目标函数的概率上,这是对渐关节转移变得稳定的普发因子的政策。
translated by 谷歌翻译
我们研究了具有无限观察和状态空间的部分观察到的马尔可夫决策过程(POMDP)的强化学习,理论上仍然不太研究。为此,我们首次尝试弥合具有线性结构的一类POMDP的部分可观察性和功能近似。详细说明,我们建议在$ O(1/\ Epsilon^2)$情节中获得$ \ epsilon $ - 最佳策略的增强学习算法(通过对抗积分方程或操作装置的乐观探索)。特别是,样品复杂性在线性结构的固有维度上缩放,并且独立于观测和状态空间的大小。 Op-Tenet的样品效率由一系列成分启用:(i)具有有限内存的钟形操作员,该操作员以递归方式表示值函数,(ii)通过对抗性积分对此类操作员的识别和估计方程式具有针对线性结构量身定制的平滑歧视器,以及(iii)通过乐观探索观察和状态空间,该探索基于量化对抗性积分方程的不确定性。
translated by 谷歌翻译
随机游戏的学习可以说是多功能钢筋学习(MARL)中最标准和最基本的环境。在本文中,我们考虑在非渐近制度的随机游戏中分散的Marl。特别是,我们在大量的一般总和随机游戏(SGS)中建立了完全分散的Q学习算法的有限样本复杂性 - 弱循环SGS,包括对所有代理商的普通合作MARL设置具有相同的奖励(马尔可夫团队问题是一个特例。我们专注于实用的同时具有挑战性地设置完全分散的Marl,既不奖励也没有其他药剂的作用,每个试剂都可以观察到。事实上,每个特工都完全忘记了其他决策者的存在。表格和线性函数近似情况都已考虑。在表格设置中,我们分析了分散的Q学习算法的样本复杂性,以收敛到马尔可夫完美均衡(NASH均衡)。利用线性函数近似,结果用于收敛到线性近似平衡 - 我们提出的均衡的新概念 - 这描述了每个代理的策略是线性空间内的最佳回复(到其他代理)。还提供了数值实验,用于展示结果。
translated by 谷歌翻译
本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题,其目标是使具有变量的外目标函数最小化,该变量被限制为对(内部)优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况,而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似(TTSA)算法。在算法中,使用较大步长的随机梯度更新用于内部问题,而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率:当外部问题强烈凸起(RESP。〜弱凸)时,TTSA算法查找$ \ MATHCAL {O}(k ^ { - 2/3})$ -Optimal(resp。〜$ \ mathcal {o}(k ^ {-2/5})$ - 静止)解决方案,其中$ k $是总迭代号。作为一个应用程序,我们表明,两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是,与全球最优政策相比,自然演员批评算法显示以预期折扣奖励的差距,以$ \ mathcal {o}(k ^ { - 1/4})的速率收敛。
translated by 谷歌翻译
我们研究了多智能经纪增强学习的政策评估问题,其中一组代理商,共同观察到的国家和私人本地行动和奖励,协作,以通过连接的无向网络通过本地计算和通信学习给定策略的价值函数。各种大型多种代理系统中出现此问题,包括电网,智能交通系统,无线传感器网络和多代理机器人。当状态动作空间的尺寸大时,广泛使用具有线性函数近似的时间差异学习。在本文中,我们开发了一种新的分布式时间差异学习算法,量化其有限时间性能。我们的算法将分布式随机原始方法与基于同型的方法进行了自适应调整学习率的方法,以便通过从因果导轨轨迹中采用新鲜的在线样本来最小化平均投影的Bellman误差。我们明确考虑了采样的Markovian性质,并改善了从$ O(1 / \ sqrt {t})$到〜$ o(1 / t)$的最佳已知的有限时间误差,其中$ t $迭代的总数。
translated by 谷歌翻译
在这项工作中,我们研究了解决强化学习问题的基于政策的方法,其中采用了非政策性采样和线性函数近似进行政策评估,以及包括自然政策梯度(NPG)在内的各种政策更新规则,用于政策更新。为了在致命三合会的存在下解决政策评估子问题,我们提出了一个通用算法的多步型TD学习框架,具有广义的重要性抽样比率,其中包括两个特定的算法:$ \ lambda $ Q Q $ Q Q $ - 跟踪和双面$ Q $ - 跟踪。通用算法是单个时间尺度,具有可证明的有限样本保证,并克服了非政策学习中的高方差问题。至于策略更新,我们仅使用Bellman操作员的收缩属性和单调性属性提供通用分析,以在各种策略更新规则下建立几何融合。重要的是,通过将NPG视为实施政策迭代的近似方法,我们在不引入正则化的情况下建立了NPG的几何融合,并且不使用现有文献中的镜像下降类型的分析类型。将策略更新的几何融合与策略评估的有限样本分析相结合,我们首次建立了整​​体$ \ Mathcal {o}(\ Epsilon^{ - 2})$样本复杂性以找到最佳策略(最多达到函数近似误差)使用基于策略的方法和线性函数近似下的基于策略的方法。
translated by 谷歌翻译