本文研究了用于多机构增强学习的政策优化算法。我们首先在全信息设置中提出了针对两人零和零和马尔可夫游戏的算法框架,其中每次迭代均使用一个策略更新,使用某个矩阵游戏算法在每个状态下进行策略更新,并带有一个带有特定的值更新步骤学习率。该框架统一了许多现有和新的政策优化算法。我们表明,只要矩阵游戏算法在每种状态下,该算法的州平均策略会收敛到游戏的近似NASH平衡(NE),只要矩阵游戏算法在每个状态下都具有低称重的遗憾价值更新。接下来,我们证明,该框架与每个状态(和平滑值更新)的乐观跟踪定制领导者(oftrl)算法可以找到$ \ Mathcal {\ widetilde {o}}(t^{ - 5 /6})$ t $迭代中的$近似NE,并且具有稍微修改的值更新规则的类似算法可实现更快的$ \ Mathcal {\ widetilde {o}}}}(t^{ - 1})$收敛率。这些改进了当前最佳$ \ Mathcal {\ widetilde {o}}}(t^{ - 1/2})$对称策略优化类型算法的速率。我们还将此算法扩展到多玩家通用-SUM Markov游戏,并显示$ \ MATHCAL {\ widetilde {o}}}(t^{ - 3/4})$收敛率与粗相关均衡(CCE)。最后,我们提供了一个数值示例来验证我们的理论并研究平滑价值更新的重要性,并发现使用“渴望”的价值更新(等同于独立的自然策略梯度算法)也可能会大大减慢收敛性,即使在$ h = 2 $层的简单游戏。
translated by 谷歌翻译
我们证明,乐观的循环范围的领导者(oftrl)以及平滑的价值更新,发现了一个$ o(t^{ - 1})$ - $ t tum迭代中的nash平衡,用于两种播放器零 - 总和马尔可夫游戏提供完整的信息。这改善了$ \ tilde {o}(t^{ - 5/6})$收敛率最近在Paper Zhang等人(2022)中显示。精致的分析取决于两种基本要素。首先,在马尔可夫游戏中,这两个玩家的遗憾虽然不一定像普通形式的游戏一样不受负责。该属性使我们能够绑定学习动力学的二阶路径长度。其次,我们证明了对Oftrl部署的权重剃须的额外的$ \ log t $因子的权重。这种至关重要的改进实现了导致最终$ O(t^{ - 1})$ rate的归纳分析。
translated by 谷歌翻译
我们研究了马尔可夫潜在游戏(MPG)中多机构增强学习(RL)问题的策略梯度方法的全球非反应收敛属性。要学习MPG的NASH平衡,在该MPG中,状态空间的大小和/或玩家数量可能非常大,我们建议使用TANDEM所有玩家运行的新的独立政策梯度算法。当梯度评估中没有不确定性时,我们表明我们的算法找到了$ \ epsilon $ -NASH平衡,$ o(1/\ epsilon^2)$迭代复杂性并不明确取决于状态空间大小。如果没有确切的梯度,我们建立$ O(1/\ epsilon^5)$样品复杂度在潜在的无限大型状态空间中,用于利用函数近似的基于样本的算法。此外,我们确定了一类独立的政策梯度算法,这些算法都可以融合零和马尔可夫游戏和马尔可夫合作游戏,并与玩家不喜欢玩的游戏类型。最后,我们提供了计算实验来证实理论发展的优点和有效性。
translated by 谷歌翻译
本文涉及两人零和马尔可夫游戏 - 可以说是多代理增强学习中最基本的设置 - 目的是学习纳什平衡(NE)的样本 - 优越。所有先前的结果至少都有两个障碍中的至少一个:多种试剂的诅咒和长层的障碍,无论使用采样方案如何。假设访问灵活的采样机制:生成模型,我们朝着解决此问题迈出了一步。专注于非平稳的有限 - 霍森马尔可夫游戏,我们开发了一种学习算法$ \ mathsf {nash} \ text { - } \ mathsf {q} \ text { - } \ text { - } \ mathsf {ftrl} $ and deflavery and Adaptive采样方案对抗性学习中的乐观原则(尤其是跟随规范化领导者(FTRL)方法),具有精致的奖励术语设计,可确保在FTRL动力学下进行某些可分解性。我们的算法使用$$ \ widetilde {o} \ bigg(\ frac {h^4 s(a+b)} {\ varepsilon^2} \ bigg)$ bigg)$ samples $ \ varepsilon $ -Approximate Markov ne策略其中$ s $是状态的数量,$ h $是地平线,而$ a $ a $ a $ a $ a $(resp。〜 $ b $)表示max-player的动作数(分别〜min-player)。从最小的意义上讲,这几乎无法得到解决。在此过程中,我们得出了一个精致的遗憾,以赋予FTRL的遗憾,从而明确说明了差异数量的作用,这可能具有独立的利益。
translated by 谷歌翻译
我们研究了在两人零和马尔可夫游戏中找到NASH平衡的问题。由于其作为最小值优化程序的表述,解决该问题的自然方法是以交替的方式对每个玩家进行梯度下降/上升。但是,由于基本目标函数的非跨性别/非障碍性,该方法的理论理解是有限的。在我们的论文中,我们考虑解决马尔可夫游戏的熵登记变体。正则化将结构引入了优化景观中,从而使解决方案更加可识别,并允许更有效地解决问题。我们的主要贡献是表明,在正则化参数的正确选择下,梯度下降算法会收敛到原始未注册问题的NASH平衡。我们明确表征了我们算法的最后一个迭代的有限时间性能,该算法的梯度下降上升算法的现有收敛界限大大改善了而没有正则化。最后,我们通过数值模拟来补充分析,以说明算法的加速收敛性。
translated by 谷歌翻译
尽管固定环境中的单一机构政策优化最近在增强学习社区中引起了很多研究的关注,但是当在潜在竞争性的环境中有多个代理商在玩耍时,从理论上讲,少得多。我们通过提出和分析具有结构化但未知过渡的零和Markov游戏的新的虚拟游戏策略优化算法来向前迈进。我们考虑两类的过渡结构:分类的独立过渡和单个控制器过渡。对于这两种情况,我们都证明了紧密的$ \ widetilde {\ Mathcal {o}}(\ sqrt {k})$遗憾的范围在$ k $ eviepodes之后,在两种代理竞争的游戏场景中。每个代理人的遗憾是针对潜在的对抗对手的衡量,他们在观察完整的政策序列后可以在事后选择一个最佳政策。我们的算法在非平稳环境中同时进行政策优化的范围下,具有上置信度结合(UCB)的乐观和虚拟游戏的结合。当两个玩家都采用所提出的算法时,他们的总体最优差距为$ \ widetilde {\ Mathcal {o}}(\ sqrt {k})$。
translated by 谷歌翻译
我们与指定为领导者的球员之一和其他球员读为追随者的球员学习多人一般汇总马尔可夫游戏。特别是,我们专注于追随者是近视的游戏,即,他们的目标是最大限度地提高他们的瞬间奖励。对于这样的游戏,我们的目标是找到一个Stackelberg-Nash均衡(SNE),这是一个策略对$(\ pi ^ *,\ nu ^ *)$,这样(i)$ \ pi ^ * $是追随者始终发挥最佳回应的领导者的最佳政策,(ii)$ \ nu ^ * $是追随者的最佳反应政策,这是由$ \ pi ^ *引起的追随者游戏的纳什均衡$。我们开发了用于在线和离线设置中的SNE解决SNE的采样高效的强化学习(RL)算法。我们的算法是最小二乘值迭代的乐观和悲观的变体,并且它们很容易能够在大状态空间的设置中结合函数近似工具。此外,对于线性函数近似的情况,我们证明我们的算法分别在线和离线设置下实现了Sublinear遗憾和次优。据我们所知,我们建立了第一种可用于解决近代Markov游戏的SNES的第一款可透明的RL算法。
translated by 谷歌翻译
我们研究了随机游戏(SGS)的梯度播放算法的性能,其中每个代理商试图通过基于代理之间共享的当前状态信息来独立做出决策来最大限度地提高自己的总折扣奖励。通过在给定状态下选择某个动作的概率来直接参数化策略。我们展示了纳什均衡(NES)和一阶固定政策在此设置中等同,并在严格的NES周围给出局部收敛速度。此外,对于称为马尔可夫潜在游戏的SGS的子类(包括具有重要特殊情况的代理中具有相同奖励的协作设置),我们设计了一种基于样本的增强学习算法,并为两者提供非渐近全局收敛速度分析精确的梯度游戏和我们基于样本的学习算法。我们的结果表明,迭代的数量达到$ \ epsilon $ -Ne线性缩放,而不是指数级,而代理人数。还考虑了局部几何和局部稳定性,在那里我们证明严格的NE是总潜在功能的局部最大值,完全混合的NE是鞍点。
translated by 谷歌翻译
Imperfect information games (IIG) are games in which each player only partially observes the current game state. We study how to learn $\epsilon$-optimal strategies in a zero-sum IIG through self-play with trajectory feedback. We give a problem-independent lower bound $\mathcal{O}(H(A_{\mathcal{X}}+B_{\mathcal{Y}})/\epsilon^2)$ on the required number of realizations to learn these strategies with high probability, where $H$ is the length of the game, $A_{\mathcal{X}}$ and $B_{\mathcal{Y}}$ are the total number of actions for the two players. We also propose two Follow the Regularize leader (FTRL) algorithms for this setting: Balanced-FTRL which matches this lower bound, but requires the knowledge of the information set structure beforehand to define the regularization; and Adaptive-FTRL which needs $\mathcal{O}(H^2(A_{\mathcal{X}}+B_{\mathcal{Y}})/\epsilon^2)$ plays without this requirement by progressively adapting the regularization to the observations.
translated by 谷歌翻译
我们开发了一种使用无遗憾的游戏动态解决凸面优化问题的算法框架。通过转换最小化凸起函数以顺序方式解决Min-Max游戏的辅助问题的问题,我们可以考虑一系列必须在另一个之后选择其行动的两名员工的一系列策略。这些策略的常见选择是所谓的无悔的学习算法,我们描述了许多此类并证明了遗憾。然后,我们表明许多凸面优化的经典一阶方法 - 包括平均迭代梯度下降,弗兰克 - 沃尔夫算法,重球算法和Nesterov的加速方法 - 可以被解释为我们框架的特殊情况由于每个玩家都做出正确选择无悔的策略。证明该框架中的收敛速率变得非常简单,因为它们遵循适当已知的遗憾范围。我们的框架还引发了一些凸优化的特殊情况的许多新的一阶方法。
translated by 谷歌翻译
最近有很多不可能的结果表明,在与对抗对手的马尔可夫游戏中最小化的遗憾在统计学上和计算上是棘手的。然而,这些结果都没有排除在所有各方采用相同学习程序的假设下,遗憾最小化的可能性。在这项工作中,我们介绍了第一种(据我们所知)在通用马尔可夫游戏中学习的算法,该算法在所有代理商执行时提供了sublinear后悔保证。我们获得的边界是为了置换遗憾,因此,在此过程中,意味着融合了相关的平衡。我们的算法是分散的,计算上有效的,并且不需要代理之间的任何通信。我们的主要观察结果是,在马尔可夫游戏中通过策略优化的在线学习基本上减少了一种加权遗憾的最小化形式,而未知权重由代理商的策略顺序的路径长度确定。因此,控制路径长度会导致加权的遗憾目标,以提供足够的适应性算法提供统一的后悔保证。
translated by 谷歌翻译
经济学和政策等现实世界应用程序往往涉及解决多智能运动游戏与两个独特的特点:(1)代理人本质上是不对称的,并分成领导和追随者; (2)代理商有不同的奖励功能,因此游戏是普通的。该领域的大多数现有结果侧重于对称解决方案概念(例如纳什均衡)或零和游戏。它仍然开放了如何学习Stackelberg均衡 - 从嘈杂的样本有效地纳入均衡的不对称模拟 - 纳入均衡。本文启动了对Birtit反馈设置中Stackelberg均衡的样本高效学习的理论研究,我们只观察奖励的噪音。我们考虑三个代表双人普通和游戏:强盗游戏,强盗加固学习(Bandit-RL)游戏和线性匪徒游戏。在所有这些游戏中,我们使用有义的许多噪声样本来确定Stackelberg均衡和其估计版本的确切值之间的基本差距,无论算法如何,都无法封闭信息。然后,我们在对上面识别的差距最佳的基础上的数据高效学习的样本高效学习的敏锐积极结果,在依赖于依赖性的差距,误差容限和动作空间的大小,匹配下限。总体而言,我们的结果在嘈杂的强盗反馈下学习Stackelberg均衡的独特挑战,我们希望能够在未来的研究中阐明这一主题。
translated by 谷歌翻译
我们考虑在具有非线性函数近似的两名玩家零和马尔可夫游戏中学习NASH平衡,其中动作值函数通过繁殖内核Hilbert Space(RKHS)中的函数近似。关键挑战是如何在高维函数空间中进行探索。我们提出了一种新颖的在线学习算法,以最大程度地减少双重性差距来找到NASH平衡。我们算法的核心是基于不确定性的乐观原理得出的上和下置信度界限。我们证明,在非常温和的假设上,我们的算法能够获得$ O(\ sqrt {t})$遗憾,并在对奖励功能和马尔可夫游戏的基本动态下进行多项式计算复杂性。我们还提出了我们的算法的几个扩展,包括具有伯恩斯坦型奖励的算法,可以实现更严格的遗憾,以及用于模型错误指定的另一种算法,可以应用于神经功能近似。
translated by 谷歌翻译
在本文中,我们调查了正规化的力量,即在解决广泛形式的游戏(EFGS)方面的加强学习和优化方面的常见技术。我们提出了一系列新算法,基于正规化游戏的回报功能,并建立一组收敛结果,这些结果严格改善了现有的假设或更强的收敛保证。特别是,我们首先证明了膨胀的乐观镜下降(DOMD),一种用于求解EFG的有效变体,具有自适应正则化可以实现快速的$ \ tilde o(1/t)$ last-Ilt-Ilt-Ilt-It-last-Ilt-It-titer-In-titer-Inter-In-Elt-It-Triperate Connergengengenge没有纳什平衡(NE)的独特性假设。此外,正规化的膨胀倍增权重更新(reg-domwu)是reg-domd的实例,进一步享受了$ \ tilde o(1/t)$ ther-tir-tir-tir-tir-tir-tir-ter-tir-tir-ter-tir-tir-tir-tir-tir-tir-tir-tir-tir-ter-ter-ter-ter-ter-ter-ter-ter-ter-tir-ter-ter-tir-trientate Convergence。这解决了一个关于OMWU算法是否可以在没有EFG和正常形式游戏文献中的唯一假设的情况下获得的迭代融合的一个悬而未决的问题。其次,我们表明,正式化的反事实遗憾最小化(reg-cfr),具有乐观的镜像下降算法的变体作为遗憾少量器,可以实现$ o(1/t^{1/4})$ best-Ilterate和$ $ o(1/t^{3/4})$用于在EFG中查找NE的平均值收敛率。最后,我们表明Reg-CFR可以实现渐近的最后一介质收敛,而最佳$ O(1/t)$平均识别收敛速率可用于查找扰动的EFGS的NE,这对于找到近似广泛形式的完美非常有用平衡(EFPE)。据我们所知,它们构成了CFR型算法的第一个最后近期收敛结果,同时匹配SOTA平均识别收敛速率在寻找非扰动的EFG中的NE中。我们还提供数值结果来证实我们算法的优势。
translated by 谷歌翻译
零和游戏中的理想策略不仅应授予玩家的平均奖励,不少于NASH均衡的价值,而且还应在次优时利用(自适应)对手。尽管马尔可夫游戏中的大多数现有作品都专注于以前的目标,但我们是否可以同时实现这两个目标仍然开放。为了解决这个问题,这项工作在马尔可夫游戏中与对抗对手进行了无重组学习,当时与事后最佳的固定政策竞争时。沿着这个方向,我们提出了一组新的正面和负面结果:当每个情节结束时对手的政策被揭示时,我们提出了实现$ \ sqrt {k} $的新的有效算法 - 遗憾的是(遗憾的是) 1)基线政策类别很小或(2)对手的政策类别很小。当两种条件不正确时,这与指数下限相辅相成。当未揭示对手的政策时,即使在最有利的情况下,当两者都是正确的情况下,我们也会证明统计硬度结果。我们的硬度结果比仅涉及计算硬度或需要进一步限制算法的现有硬度结果要强得多。
translated by 谷歌翻译
最近,Daskalakis,Fisselson和Golowich(DFG)(Neurips`21)表明,如果所有代理在多人普通和正常形式游戏中采用乐观的乘法权重更新(OMWU),每个玩家的外部遗憾是$ o(\ textrm {polylog}(t))$ the游戏的$重复。我们从外部遗憾扩展到内部遗憾并交换后悔,从而建立了以$ \ tilde {o}的速率收敛到近似相关均衡的近似相关均衡(t ^ { - 1})$。由于陈和彭(神经潜行群岛20),这实质上提高了以陈和彭(NEURIPS20)的相关均衡的相关均衡率,并且在无遗憾的框架内是最佳的 - 以$ $ $ to to polylogarithmic因素。为了获得这些结果,我们开发了用于建立涉及固定点操作的学习动态的高阶平滑的新技术。具体而言,我们确定STOLTZ和LUGOSI(Mach Learn`05)的无内部遗憾学习动态在组合空间上的无外部后悔动态等效地模拟。这使我们可以在指数大小的集合上交易多项式大型马尔可夫链的计算,用于在指数大小的集合上的(更良好的良好)的线性变换,使我们能够利用类似的技术作为DGF到接近最佳地结合内心遗憾。此外,我们建立了$ O(\ textrm {polylog}(t))$ no-swap-recreet遗憾的blum和mansour(bm)的经典算法(JMLR`07)。我们这样做是通过基于Cauchy积分的技术来介绍DFG的更有限的组合争论。除了对BM的近乎最优遗憾保证的阐明外,我们的论点还提供了进入各种方式的洞察,其中可以在分析更多涉及的学习算法中延长和利用DFG的技术。
translated by 谷歌翻译
随机游戏的学习可以说是多功能钢筋学习(MARL)中最标准和最基本的环境。在本文中,我们考虑在非渐近制度的随机游戏中分散的Marl。特别是,我们在大量的一般总和随机游戏(SGS)中建立了完全分散的Q学习算法的有限样本复杂性 - 弱循环SGS,包括对所有代理商的普通合作MARL设置具有相同的奖励(马尔可夫团队问题是一个特例。我们专注于实用的同时具有挑战性地设置完全分散的Marl,既不奖励也没有其他药剂的作用,每个试剂都可以观察到。事实上,每个特工都完全忘记了其他决策者的存在。表格和线性函数近似情况都已考虑。在表格设置中,我们分析了分散的Q学习算法的样本复杂性,以收敛到马尔可夫完美均衡(NASH均衡)。利用线性函数近似,结果用于收敛到线性近似平衡 - 我们提出的均衡的新概念 - 这描述了每个代理的策略是线性空间内的最佳回复(到其他代理)。还提供了数值实验,用于展示结果。
translated by 谷歌翻译
我们在无限地平线上享受多智能经纪增强学习(Marl)零汇率马尔可夫游戏。我们专注于分散的Marl的实用性但具有挑战性的环境,其中代理人在没有集中式控制员的情况下做出决定,但仅根据自己的收益和当地行动进行了协调。代理商不需要观察对手的行为或收益,可能甚至不忘记对手的存在,也不得意识到基础游戏的零金额结构,该环境也称为学习文学中的彻底解散游戏。在本文中,我们开发了一种彻底的解耦Q学习动态,既合理和收敛则:当对手遵循渐近静止战略时,学习动态会收敛于对对手战略的最佳反应;当两个代理采用学习动态时,它们会收敛到游戏的纳什均衡。这种分散的环境中的关键挑战是从代理商的角度来看环境的非公平性,因为她自己的回报和系统演变都取决于其他代理人的行为,每个代理商同时和独立地互补她的政策。要解决此问题,我们开发了两个时间尺度的学习动态,每个代理会更新她的本地Q函数和value函数估计,后者在较慢的时间内发生。
translated by 谷歌翻译
多代理系统的一个主要挑战是,系统的复杂性随着代理的数量以及其动作空间的规模而显着增长,在现实世界中,这是典型的,例如自动驾驶汽车,机器人团队,网络路由等。因此,正是在设计分散或独立算法的迫在眉睫的需求中,其中每个代理的更新仅基于它们的本地观察结果,而无需引入复杂的通信/协调机制。在这项工作中,我们研究了潜在游戏的独立熵规范化自然策略梯度(NPG)方法的有限时间收敛,在这些方法中,由于单方面偏差而导致的代理商效用函数的差异与普通潜在功能完全匹配。提出的熵注册的NPG方法使每个代理都可以根据自己的回报部署对称,分散和乘法更新。我们表明,所提出的方法以均方根速率收敛到定量响应平衡(QRE)(QRE)(QRE) - 与熵调制的游戏的平衡 - 与动作空间的大小无关,并且最多地与数字一起增长代理商。有吸引力的是,收敛率进一步与相同利益游戏的重要特殊情况的代理数量独立,从而导致了第一种以无维率收敛的方法。我们的方法可以用作平滑技术,以找到未注册问题的近似NASH平衡(NE),而无需假设固定策略是隔离的。
translated by 谷歌翻译
Mean-field games have been used as a theoretical tool to obtain an approximate Nash equilibrium for symmetric and anonymous $N$-player games in literature. However, limiting applicability, existing theoretical results assume variations of a "population generative model", which allows arbitrary modifications of the population distribution by the learning algorithm. Instead, we show that $N$ agents running policy mirror ascent converge to the Nash equilibrium of the regularized game within $\tilde{\mathcal{O}}(\varepsilon^{-2})$ samples from a single sample trajectory without a population generative model, up to a standard $\mathcal{O}(\frac{1}{\sqrt{N}})$ error due to the mean field. Taking a divergent approach from literature, instead of working with the best-response map we first show that a policy mirror ascent map can be used to construct a contractive operator having the Nash equilibrium as its fixed point. Next, we prove that conditional TD-learning in $N$-agent games can learn value functions within $\tilde{\mathcal{O}}(\varepsilon^{-2})$ time steps. These results allow proving sample complexity guarantees in the oracle-free setting by only relying on a sample path from the $N$ agent simulator. Furthermore, we demonstrate that our methodology allows for independent learning by $N$ agents with finite sample guarantees.
translated by 谷歌翻译