分散的参与者 - 批评(AC)算法已被广泛用于多机构增强学习(MARL),并取得了杰出的成功。除了其经验成功之外,分散的AC算法的理论收敛性在很大程度上没有探索。现有的有限时间收敛结果是基于双环更新或两次尺度的步骤规则得出的,这在实际实施中不经常采用。在这项工作中,我们介绍了一种完全分散的AC算法,演员,评论家和全球奖励估算器以交替的方式更新,阶跃尺寸的顺序相同,即,我们采用\ emph {single-emph {single-timesscale}更新。从理论上讲,使用线性近似进行价值和奖励估计,我们表明我们的算法具有$ \ tilde {\ Mathcal {o}}}(\ epsilon^{ - 2})$的样本复杂性,在马尔可夫式采样下与最佳复杂性相匹配双环实现(在此,$ \ tilde {\ Mathcal {o}} $隐藏了日志项)。样本复杂性可以提高到$ {\ Mathcal {o}}(\ epsilon^{ - 2})$下的I.I.D.采样方案。建立我们的复杂性结果的核心是\ emph {我们揭示的最佳评论家变量的隐藏平滑度}。我们还提供了算法及其分析的本地动作隐私版本。最后,我们进行实验,以显示我们算法优于现有的分散AC算法的优势。
translated by 谷歌翻译
多智能体增强学习(Marl)最近引起了很多研究。然而,与其单一代理对应物不同,Marl的许多理论和算法方面尚未得到很好的理解。在本文中,我们使用演员 - 评论家(AC)算法研究了自主代理的协调行为的出现。具体而言,我们提出并分析了一类协调的演员 - 批评算法(CAC),其中单独的参数化政策有一个{\ IT共享}部分(其中在所有代理中共同优化)和{\ IT个性化}部分(这是只有当地优化)。这种类型的{\它部分个性化}策略允许代理通过利用同伴的过去的经验来学习协调并适应各个任务。我们设计的灵活性允许提出的Marl-CAC算法用于{\ IT完全分散}设置中使用,其中代理商只能与其邻居通信,以及偶尔代理的{\ IT联合}设置与服务器通信,同时优化其(部分个性化)本地模型。从理论上讲,在一些标准规律性假设下,所提出的Marl-CAC算法需要$ \ mathcal {o}(\ epsilon ^ { - \ frac {5} {2}})$样本来实现$ \ epsilon $ - 固定式解决方案(定义为目标函数梯度的平方标准的解决方案小于$ \ epsilon $)。据我们所知,这项工作为具有部分个性化策略的分散式交流算法提供了第一个有限的样本保证。
translated by 谷歌翻译
参与者 - 批评(AC)增强学习算法一直是许多具有挑战性的应用背后的强大力量。然而,它的收敛性一般都是脆弱的。为了研究其不稳定性,现有作品主要考虑具有有限状态和动作空间的罕见的双环变体或基本模型。我们研究了更实用的单样本两次尺度AC,用于解决规范线性二次调节器(LQR)问题,其中演员和评论家在每个迭代中仅在无界的连续状态和动作空间中使用单个迭代中的单个样本更新一次。现有的分析无法得出这样一个具有挑战性的情况的融合。我们开发了一个新的分析框架,该框架允许建立全局收敛到$ \ epsilon $ -optimal解决方案,最多最多是$ \ tilde {\ Mathcal {o}}}(\ epsilon^{ - 2.5})$样本复杂性。据我们所知,这是单个样本两次尺度AC的第一个有限时间收敛分析,用于以全球最优性求解LQR。样本复杂性通过订单改善了其他变体的复杂性,从而阐明了单个样品算法的实际智慧。我们还通过全面的模拟比较进一步验证了理论发现。
translated by 谷歌翻译
本文研究了协同多智能体增强学习(MARL)的分布式政策梯度,在通信网络上的代理人旨在找到最佳政策,以最大限度地提高所有代理人的当地返回的平均值。由于政策梯度的非凹形性能函数,用于凸面问题的现有分布式随机优化方法不能直接用于Marl中的政策梯度。本文提出了一种具有方差减少和渐变跟踪的分布式策略梯度,以解决政策梯度的高差,并利用重要的重量来解决采样过程中的非静止问题。然后,我们在平均平均固定间隙上提供一个上限,这取决于迭代的数量,迷你批量大小,秒钟大小,问题参数和网络拓扑。我们进一步建立了样本和通信复杂性,以获得$ \ epsilon $-upprymate静止点。对MARL控制问题的数值实验进行了验证了所提出算法的有效性。
translated by 谷歌翻译
具有多个耦合序列的随机近似(SA)在机器学习中发现了广泛的应用,例如双光线学习和增强学习(RL)。在本文中,我们研究了具有多个耦合序列的非线性SA的有限时间收敛。与现有的多时间分析不同,我们寻求方案,在这些方案中,细粒度分析可以为多序列单次尺度SA(STSA)提供严格的性能保证。我们分析的核心是在许多应用中具有多序列SA中固定点的平滑度。当所有序列都具有强烈的单调增量时,我们就建立了$ \ Mathcal {o}(\ epsilon^{ - 1})$的迭代复杂性,以实现$ \ epsilon $ -Accuracy,从而改善了现有的$ \ Mathcal {O} {O}(O}(O})(O}(O}(O})) \ epsilon^{ - 1.5})$对于两个耦合序列的复杂性。当除了主序列外具有强烈单调增量时,我们建立了$ \ Mathcal {o}(\ epsilon^{ - 2})$的迭代复杂性。我们的结果的优点在于,将它们应用于随机的二聚体和组成优化问题,以及RL问题会导致对其现有性能保证的放松假设或改进。
translated by 谷歌翻译
本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题,其目标是使具有变量的外目标函数最小化,该变量被限制为对(内部)优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况,而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似(TTSA)算法。在算法中,使用较大步长的随机梯度更新用于内部问题,而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率:当外部问题强烈凸起(RESP。〜弱凸)时,TTSA算法查找$ \ MATHCAL {O}(k ^ { - 2/3})$ -Optimal(resp。〜$ \ mathcal {o}(k ^ {-2/5})$ - 静止)解决方案,其中$ k $是总迭代号。作为一个应用程序,我们表明,两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是,与全球最优政策相比,自然演员批评算法显示以预期折扣奖励的差距,以$ \ mathcal {o}(k ^ { - 1/4})的速率收敛。
translated by 谷歌翻译
培训期间的对抗性攻击能够强烈影响多功能增强学习算法的性能。因此,非常希望增加现有算法,使得消除对抗对协作网络的对抗性攻击的影响,或者至少有界限。在这项工作中,我们考虑一个完全分散的网络,每个代理商收到本地奖励并观察全球州和行动。我们提出了一种基于弹性共识的演员 - 批评算法,其中每个代理估计了团队平均奖励和价值函数,并将关联的参数向量传送到其立即邻居。我们表明,在拜占庭代理人的存在下,其估算和通信策略是完全任意的,合作社的估计值会融合到有概率一体的有界共识值,条件是在附近的最多有$ H $拜占庭代理商每个合作社和网络都是$(2h + 1)$ - 强大。此外,我们证明,合作社的政策在其团队平均目标函数的局部最大化器周围汇聚在其团队平均目标函数的概率上,这是对渐关节转移变得稳定的普发因子的政策。
translated by 谷歌翻译
我们研究了平均奖励马尔可夫决策过程(AMDP)的问题,并开发了具有强大理论保证的新型一阶方法,以进行政策评估和优化。由于缺乏勘探,现有的彻底评估方法遭受了次优融合率以及处理不足的随机策略(例如确定性政策)的失败。为了解决这些问题,我们开发了一种新颖的差异时间差异(VRTD)方法,具有随机策略的线性函数近似以及最佳收敛保证,以及一种探索性方差降低的时间差(EVRTD)方法,用于不充分的随机策略,可相当的融合保证。我们进一步建立了政策评估偏见的线性收敛速率,这对于改善策略优化的总体样本复杂性至关重要。另一方面,与对MDP的政策梯度方法的有限样本分析相比,对AMDP的策略梯度方法的现有研究主要集中在基础马尔可夫流程的限制性假设下(例如,参见Abbasi-e, Yadkori等人,2019年),他们通常缺乏整体样本复杂性的保证。为此,我们开发了随机策略镜下降(SPMD)的平均奖励变体(LAN,2022)。我们建立了第一个$ \ widetilde {\ Mathcal {o}}(\ epsilon^{ - 2})$样品复杂性,用于在生成模型(带有UNICHAIN假设)和Markovian Noise模型(使用Ergodicicic Modele(具有核能的模型)下,使用策略梯度方法求解AMDP假设)。该界限可以进一步改进到$ \ widetilde {\ Mathcal {o}}}(\ epsilon^{ - 1})$用于求解正则化AMDPS。我们的理论优势通过数值实验来证实。
translated by 谷歌翻译
我们提出了一种新的多功能增强学习的新型政策梯度方法,其利用了两个不同的差异减少技术,并且不需要在迭代上进行大量批次。具体而言,我们提出了一种基于势头的分散策略梯度跟踪(MDPGT),其中使用新的基于动量的方差减少技术来接近具有重要性采样的本地策略梯度代理,并采用中间参数来跟踪两个连续的策略梯度代理。此外,MDPGT可证明$ \ mathcal {o}的最佳可用样本复杂性(n ^ { - 1} \ epsilon ^ {-3})$,用于汇聚到全球平均值的$ \ epsilon $ -stationary点n $本地性能函数(可能是非旋转)。这优于在分散的无模型增强学习中的最先进的样本复杂性,并且当用单个轨迹初始化时,采样复杂性与现有的分散的政策梯度方法获得的样本复杂性匹配。我们进一步验证了高斯策略函数的理论索赔。当所需的误差容忍$ \ epsilon $足够小时,MDPGT导致线性加速,以前已经在分散的随机优化中建立,但不是为了加强学习。最后,我们在多智能体增强学习基准环境下提供了实证结果,以支持我们的理论发现。
translated by 谷歌翻译
在本文中,我们在表格设置中建立了违法演员批评算法的全球最优性和收敛速度,而不使用密度比来校正行为政策的状态分布与目标政策之间的差异。我们的工作超出了现有的工作原理,最佳的策略梯度方法中的现有工作中使用确切的策略渐变来更新策略参数时,我们使用近似和随机更新步骤。我们的更新步骤不是渐变更新,因为我们不使用密度比以纠正状态分布,这与从业者做得好。我们的更新是近似的,因为我们使用学习的评论家而不是真正的价值函数。我们的更新是随机的,因为在每个步骤中,更新仅为当前状态操作对完成。此外,我们在分析中删除了现有作品的几个限制性假设。我们的工作中的核心是基于其均匀收缩性能的时源性Markov链中的通用随机近似算法的有限样本分析。
translated by 谷歌翻译
由于众所周知,强化学习算法是数据密集型的,因此从环境中进行采样观测的任务通常在多个代理之间分配。但是,将这些观察结果从代理转移到中心位置可能会非常昂贵,并且还可以损害每个代理人本地行为政策的隐私。在本文中,我们考虑了一个联合加强学习框架,其中多个代理商协作学习了一个全球模型,而无需共享他们的个人数据和政策。每个代理都维护模型的本地副本,并使用本地采样数据对其进行更新。尽管具有n个代理可以启用n次数据的采样,但尚不清楚它是否导致比例收敛的加速。我们提出了联合版本的On-Policy TD,Off-Policy TD和Q学习,并分析其收敛性。对于所有这些算法,据我们所知,我们是第一个考虑马尔可夫噪声和多个局部更新的人,并证明相对于代理的数量是线性收敛的速度。为了获得这些结果,我们表明联邦TD和Q学习是与马尔可夫噪声联合随机近似的一般框架的特殊情况,并且我们利用该框架提供了适用于所有算法的统一收敛分析。
translated by 谷歌翻译
具有线性函数近似的贪婪GQ,最初在\ cite {maei2010toward}中提出,是一种基于价值的基础外算法,用于增强增强学习中的最佳控制,并且具有非线性的两个时间尺度结构,具有非convex目标函数。本文开发其有限的时间误差范围。我们表明,贪婪的GQ算法在I.I.D. \ serat和$ \ Mathcal {O}下({\ log t}({\ log t})下,贪婪的算法的收敛如$ \ Mathcal {O}({1}/{{1}/{\ sqrt {t}})$ /{\ sqrt {t}})$在马尔可夫设置下。我们进一步设计了使用嵌套环方法的香草贪婪-GQ算法的变体,并证明其样品复杂性为$ \ Mathcal {o}({\ log(1/\ epsilon)\ Epsilon^epsilon^{ - 2}}}}}} )$,与香草贪婪的GQ之一相匹配。我们的有限时间误差界限与用于一般平滑非凸优化问题的随机梯度下降算法之一匹配。我们的有限样本分析提供了理论指南,以选择在实践中选择更快的融合的步骤尺寸,并建议在收敛速度和获得的政策质量之间进行权衡。本文我们的技术提供了一种通用方法,用于对非凸的两个基于时值的强化学习算法进行有限样本分析。
translated by 谷歌翻译
我们研究了多智能经纪增强学习的政策评估问题,其中一组代理商,共同观察到的国家和私人本地行动和奖励,协作,以通过连接的无向网络通过本地计算和通信学习给定策略的价值函数。各种大型多种代理系统中出现此问题,包括电网,智能交通系统,无线传感器网络和多代理机器人。当状态动作空间的尺寸大时,广泛使用具有线性函数近似的时间差异学习。在本文中,我们开发了一种新的分布式时间差异学习算法,量化其有限时间性能。我们的算法将分布式随机原始方法与基于同型的方法进行了自适应调整学习率的方法,以便通过从因果导轨轨迹中采用新鲜的在线样本来最小化平均投影的Bellman误差。我们明确考虑了采样的Markovian性质,并改善了从$ O(1 / \ sqrt {t})$到〜$ o(1 / t)$的最佳已知的有限时间误差,其中$ t $迭代的总数。
translated by 谷歌翻译
我们研究了在随机代理网络中的多功能加固学习(MARL)。目标是找到最大化(折扣)全球奖励的本地化政策。通常,可扩展性在此设置中是一个挑战,因为全局状态/动作空间的大小可以是代理的数量的指数。在依赖性是静态,固定和局部,例如,在固定的,时不变的底层图形的邻居之间,才知道可扩展算法。在这项工作中,我们提出了一个可扩展的演员评论家框架,适用于依赖关系可以是非本地和随机的设置,并提供有限误差绑定,显示了收敛速度如何取决于网络中的信息速度。另外,作为我们分析的副产物,我们获得了一般随机近似方案的新型有限时间收敛结果,以及具有状态聚合的时间差异学习,其超出了网络系统中的Marl的设置。
translated by 谷歌翻译
我们考虑了在连续的状态行为空间中受到约束马尔可夫决策过程(CMDP)的问题,在该空间中,目标是最大程度地提高预期的累积奖励受到某些约束。我们提出了一种新型的保守自然政策梯度原始二算法(C-NPG-PD),以达到零约束违规,同时实现了目标价值函数的最新融合结果。对于一般策略参数化,我们证明了价值函数与全局最佳功能的融合到由于限制性策略类而导致的近似错误。我们甚至从$ \ Mathcal {o}(1/\ epsilon^6)$从$ \ Mathcal {o}(1/\ Epsilon^4)$提高了现有约束NPG-PD算法\ cite {ding2020}的样本复杂性。。据我们所知,这是第一项通过自然政策梯度样式算法建立零约束违规的工作,用于无限的地平线折扣CMDP。我们通过实验评估证明了提出的算法的优点。
translated by 谷歌翻译
Q学习长期以来一直是最受欢迎的强化学习算法之一,几十年来,Q学习的理论分析一直是一个活跃的研究主题。尽管对Q-学习的渐近收敛分析的研究具有悠久的传统,但非肿瘤收敛性直到最近才受到积极研究。本文的主要目的是通过控制系统的观点研究马尔可夫观察模型下异步Q学习的新有限时间分析。特别是,我们引入了Q学习的离散时间变化的开关系统模型,并减少了分析的步骤尺寸,这显着改善了使用恒定步骤尺寸的开关系统分析的最新开发,并导致\(\(\)(\) Mathcal {o} \ left(\ sqrt {\ frac {\ log k} {k}}} \ right)\)\)\)\)\)\)\)\)与大多数艺术状态相当或更好。同时,新应用了使用类似转换的技术,以避免通过减小的步骤尺寸提出的分析中的难度。提出的分析带来了其他见解,涵盖了不同的方案,并提供了新的简化模板,以通过其独特的连接与离散时间切换系统的独特联系来加深我们对Q学习的理解。
translated by 谷歌翻译
我们研究了随机近似的分散变体,这是一种数据驱动的方法,用于在嘈杂的测量中找到操作员的根。一个具有自己的操作员和数据观察的代理网络,合作地通过分散的通信图找到了聚合操作员的固定点。我们的主要贡献是在从马尔可夫过程中采样时在每个代理下观察到的数据时,对这种分散的随机近似方法提供有限的时间分析;这种缺乏独立性使迭代率偏向和(可能)无限。在相当标准的假设下,我们表明所提出方法的收敛速率与样本是独立的基本相同,仅由对数因子的差异而不同,该对数因素是说明了马尔可夫过程的混合时间。我们的分析中的关键思想是引入一种新型的Razumikhin-Lyapunov函数,该功能是由用于分析延迟普通微分方程的稳定性的一种动机。我们还讨论了拟议方法在多代理系统中许多有趣的学习问题上的应用。
translated by 谷歌翻译
We study a multi-agent reinforcement learning (MARL) problem where the agents interact over a given network. The goal of the agents is to cooperatively maximize the average of their entropy-regularized long-term rewards. To overcome the curse of dimensionality and to reduce communication, we propose a Localized Policy Iteration (LPI) algorithm that provably learns a near-globally-optimal policy using only local information. In particular, we show that, despite restricting each agent's attention to only its $\kappa$-hop neighborhood, the agents are able to learn a policy with an optimality gap that decays polynomially in $\kappa$. In addition, we show the finite-sample convergence of LPI to the global optimal policy, which explicitly captures the trade-off between optimality and computational complexity in choosing $\kappa$. Numerical simulations demonstrate the effectiveness of LPI.
translated by 谷歌翻译
在分散的合作多机构增强学习中,代理可以彼此汇总信息,以学习最大化团队平均目标功能的政策。尽管愿意与他人合作,但各个代理商可能会直接分享有关其当地状态,奖励和价值功能的信息,这是由于隐私问题而不受欢迎的。在这项工作中,我们引入了一种带有TD错误聚合的分散的参与者批判算法,该算法不违反隐私问题,并假设沟通渠道会受到时间延迟和数据包的删除。通过传输数据的维度来衡量,我们为做出如此薄弱的假设所支付的成本是增加的沟通负担。有趣的是,通信负担仅在图形大小上是二次的,这使得适用于大型网络的算法。我们在减小的步进大小下提供收敛分析,以验证代理最大化团队平均目标函数。
translated by 谷歌翻译
在这项工作中,我们研究了解决强化学习问题的基于政策的方法,其中采用了非政策性采样和线性函数近似进行政策评估,以及包括自然政策梯度(NPG)在内的各种政策更新规则,用于政策更新。为了在致命三合会的存在下解决政策评估子问题,我们提出了一个通用算法的多步型TD学习框架,具有广义的重要性抽样比率,其中包括两个特定的算法:$ \ lambda $ Q Q $ Q Q $ - 跟踪和双面$ Q $ - 跟踪。通用算法是单个时间尺度,具有可证明的有限样本保证,并克服了非政策学习中的高方差问题。至于策略更新,我们仅使用Bellman操作员的收缩属性和单调性属性提供通用分析,以在各种策略更新规则下建立几何融合。重要的是,通过将NPG视为实施政策迭代的近似方法,我们在不引入正则化的情况下建立了NPG的几何融合,并且不使用现有文献中的镜像下降类型的分析类型。将策略更新的几何融合与策略评估的有限样本分析相结合,我们首次建立了整​​体$ \ Mathcal {o}(\ Epsilon^{ - 2})$样本复杂性以找到最佳策略(最多达到函数近似误差)使用基于策略的方法和线性函数近似下的基于策略的方法。
translated by 谷歌翻译