平均现场控制(MFC)是减轻合作多功能加强学习(MARL)问题的维度诅咒的有效方法。这项工作考虑了可以分离为$ k $课程的$ n _ {\ mathrm {pop}} $异质代理的集合,以便$ k $ -th类包含$ n_k $均匀的代理。我们的目标是通过其相应的MFC问题证明这一异构系统的Marl问题的近似保证。我们考虑三种情景,所有代理商的奖励和转型动态分别被视为$(1)美元的职能,每班的所有课程,$(2)美元和$(3) $边际分布的整个人口。我们展示,在这些情况下,$ k $ -class marl问题可以通过mfc近似于$ e_1 = mathcal {o}(\ frac {\ sqrt {| \ mathcal {x} |} + \ sqrt {| \ mathcal {u} |}}}}}} {n _ {\ mathrm {pop}}} \ sum_ {k} \ sqrt {k})$,$ e_2 = \ mathcal {o}(\ left [\ sqrt {| \ mathcal {x} |} + \ sqrt {| \ mathcal {u} |} \ \ sum_ {k} \ frac {1} {\ sqrt {n_k}})$和$ e_3 = \ mathcal {o} \ left(\ left [\ sqrt {| \ mathcal {x} |} + \ sqrt {| \ mathcal {} |} \ leftle] \ left [\ frac {a} {n _ {\ mathrm {pop}}} \ sum_ {k \在[k]}} \ sqrt {n_k} + \ frac {n} {\ sqrt {n} {\ sqrt {n \ mathrm {pop}}} \右] \ over)$,其中$ a,b $是一些常数和$ | mathcal {x} |,| \ mathcal {u} | $是每个代理的状态和行动空间的大小。最后,我们设计了一种基于自然的梯度(NPG)基于NPG的算法,它在上面规定的三种情况下,可以在$ \ Mathcal {O}(E_J)$错误中收敛到$ \ Mathcal的示例复杂度{ o}(e_j ^ { - 3})$,j \ in \ {1,2,3 \} $。
translated by 谷歌翻译
我们表明,在合作$ n $ n $ agent网络中,可以为代理设计本地可执行的策略,以使所得的平均奖励(值)的折现总和非常接近于计算出的最佳价值(包括非本地)策略。具体而言,我们证明,如果$ | \ MATHCAL {X} |,| \ MATHCAL {U} | $表示状态大小和单个代理的操作空间,那么对于足够小的折现因子,近似错误,则由$ \ MATHCAL {o}(e)$ where $ e \ triangleq \ frac {1} {\ sqrt {n}}} \ left [\ sqrt {\ sqrt {| \ Mathcal {x}} |} |} |} |}+\ sqrt { } |} \ right] $。此外,在一种特殊情况下,奖励和状态过渡功能独立于人口的行动分布,错误将$ \ nathcal {o}(e)$提高到其中$ e \ e \ triangleq \ frac {1} {\ sqrt {\ sqrt {n}} \ sqrt {| \ Mathcal {x} |} $。最后,我们还设计了一种算法来明确构建本地政策。在我们的近似结果的帮助下,我们进一步确定构建的本地策略在$ \ Mathcal {o}(\ max \ {e,\ epsilon \})$最佳策略的距离之内对于任何$ \ epsilon> 0 $,本地策略是$ \ MATHCAL {O}(\ Epsilon^{ - 3})$。
translated by 谷歌翻译
最近已证明,平均场控制(MFC)是可扩展的工具,可近似解决大规模的多代理增强学习(MARL)问题。但是,这些研究通常仅限于无约束的累积奖励最大化框架。在本文中,我们表明,即使在存在约束的情况下,也可以使用MFC方法近似MARL问题。具体来说,我们证明,一个$ n $ agent的约束MARL问题,以及每个尺寸的尺寸$ | \ Mathcal {x} | $和$ | \ Mathcal {u} | $的状态和操作空间,可以通过与错误相关的约束MFC问题近似,$ e \ triangleq \ Mathcal {o} \ left([\ sqrt {| \ Mathcal {| \ Mathcal {x} |} |}+\ sqrt {| ]/\ sqrt {n} \ right)$。在奖励,成本和状态过渡功能独立于人口的行动分布的特殊情况下,我们证明该错误可以将错误提高到$ e = \ nathcal {o}(\ sqrt {| | \ Mathcal {x x x } |}/\ sqrt {n})$。另外,我们提供了一种基于自然策略梯度的算法,并证明它可以在$ \ Mathcal {o}(e)$的错误中解决受约束的MARL问题,并具有$ \ MATHCAL {O}的样本复杂性(E^{ - e^{ - 6})$。
translated by 谷歌翻译
我们考虑在平均场比赛中在线加强学习。与现有作品相反,我们通过开发一种使用通用代理的单个样本路径来估算均值场和最佳策略的算法来减轻对均值甲骨文的需求。我们称此沙盒学习为其,因为它可以用作在多代理非合作环境中运行的任何代理商的温暖启动。我们采用了两种时间尺度的方法,在该方法中,平均场的在线固定点递归在较慢的时间表上运行,并与通用代理更快的时间范围内的控制策略更新同时进行。在足够的勘探条件下,我们提供有限的样本收敛保证,从平均场和控制策略融合到平均场平衡方面。沙盒学习算法的样本复杂性为$ \ Mathcal {o}(\ epsilon^{ - 4})$。最后,我们从经验上证明了沙盒学习算法在交通拥堵游戏中的有效性。
translated by 谷歌翻译
随机游戏的学习可以说是多功能钢筋学习(MARL)中最标准和最基本的环境。在本文中,我们考虑在非渐近制度的随机游戏中分散的Marl。特别是,我们在大量的一般总和随机游戏(SGS)中建立了完全分散的Q学习算法的有限样本复杂性 - 弱循环SGS,包括对所有代理商的普通合作MARL设置具有相同的奖励(马尔可夫团队问题是一个特例。我们专注于实用的同时具有挑战性地设置完全分散的Marl,既不奖励也没有其他药剂的作用,每个试剂都可以观察到。事实上,每个特工都完全忘记了其他决策者的存在。表格和线性函数近似情况都已考虑。在表格设置中,我们分析了分散的Q学习算法的样本复杂性,以收敛到马尔可夫完美均衡(NASH均衡)。利用线性函数近似,结果用于收敛到线性近似平衡 - 我们提出的均衡的新概念 - 这描述了每个代理的策略是线性空间内的最佳回复(到其他代理)。还提供了数值实验,用于展示结果。
translated by 谷歌翻译
我们研究了马尔可夫潜在游戏(MPG)中多机构增强学习(RL)问题的策略梯度方法的全球非反应收敛属性。要学习MPG的NASH平衡,在该MPG中,状态空间的大小和/或玩家数量可能非常大,我们建议使用TANDEM所有玩家运行的新的独立政策梯度算法。当梯度评估中没有不确定性时,我们表明我们的算法找到了$ \ epsilon $ -NASH平衡,$ o(1/\ epsilon^2)$迭代复杂性并不明确取决于状态空间大小。如果没有确切的梯度,我们建立$ O(1/\ epsilon^5)$样品复杂度在潜在的无限大型状态空间中,用于利用函数近似的基于样本的算法。此外,我们确定了一类独立的政策梯度算法,这些算法都可以融合零和马尔可夫游戏和马尔可夫合作游戏,并与玩家不喜欢玩的游戏类型。最后,我们提供了计算实验来证实理论发展的优点和有效性。
translated by 谷歌翻译
Mean-field games have been used as a theoretical tool to obtain an approximate Nash equilibrium for symmetric and anonymous $N$-player games in literature. However, limiting applicability, existing theoretical results assume variations of a "population generative model", which allows arbitrary modifications of the population distribution by the learning algorithm. Instead, we show that $N$ agents running policy mirror ascent converge to the Nash equilibrium of the regularized game within $\tilde{\mathcal{O}}(\varepsilon^{-2})$ samples from a single sample trajectory without a population generative model, up to a standard $\mathcal{O}(\frac{1}{\sqrt{N}})$ error due to the mean field. Taking a divergent approach from literature, instead of working with the best-response map we first show that a policy mirror ascent map can be used to construct a contractive operator having the Nash equilibrium as its fixed point. Next, we prove that conditional TD-learning in $N$-agent games can learn value functions within $\tilde{\mathcal{O}}(\varepsilon^{-2})$ time steps. These results allow proving sample complexity guarantees in the oracle-free setting by only relying on a sample path from the $N$ agent simulator. Furthermore, we demonstrate that our methodology allows for independent learning by $N$ agents with finite sample guarantees.
translated by 谷歌翻译
We study a multi-agent reinforcement learning (MARL) problem where the agents interact over a given network. The goal of the agents is to cooperatively maximize the average of their entropy-regularized long-term rewards. To overcome the curse of dimensionality and to reduce communication, we propose a Localized Policy Iteration (LPI) algorithm that provably learns a near-globally-optimal policy using only local information. In particular, we show that, despite restricting each agent's attention to only its $\kappa$-hop neighborhood, the agents are able to learn a policy with an optimality gap that decays polynomially in $\kappa$. In addition, we show the finite-sample convergence of LPI to the global optimal policy, which explicitly captures the trade-off between optimality and computational complexity in choosing $\kappa$. Numerical simulations demonstrate the effectiveness of LPI.
translated by 谷歌翻译
我们考虑在具有非线性函数近似的两名玩家零和马尔可夫游戏中学习NASH平衡,其中动作值函数通过繁殖内核Hilbert Space(RKHS)中的函数近似。关键挑战是如何在高维函数空间中进行探索。我们提出了一种新颖的在线学习算法,以最大程度地减少双重性差距来找到NASH平衡。我们算法的核心是基于不确定性的乐观原理得出的上和下置信度界限。我们证明,在非常温和的假设上,我们的算法能够获得$ O(\ sqrt {t})$遗憾,并在对奖励功能和马尔可夫游戏的基本动态下进行多项式计算复杂性。我们还提出了我们的算法的几个扩展,包括具有伯恩斯坦型奖励的算法,可以实现更严格的遗憾,以及用于模型错误指定的另一种算法,可以应用于神经功能近似。
translated by 谷歌翻译
多智能体增强学习(Marl)最近引起了很多研究。然而,与其单一代理对应物不同,Marl的许多理论和算法方面尚未得到很好的理解。在本文中,我们使用演员 - 评论家(AC)算法研究了自主代理的协调行为的出现。具体而言,我们提出并分析了一类协调的演员 - 批评算法(CAC),其中单独的参数化政策有一个{\ IT共享}部分(其中在所有代理中共同优化)和{\ IT个性化}部分(这是只有当地优化)。这种类型的{\它部分个性化}策略允许代理通过利用同伴的过去的经验来学习协调并适应各个任务。我们设计的灵活性允许提出的Marl-CAC算法用于{\ IT完全分散}设置中使用,其中代理商只能与其邻居通信,以及偶尔代理的{\ IT联合}设置与服务器通信,同时优化其(部分个性化)本地模型。从理论上讲,在一些标准规律性假设下,所提出的Marl-CAC算法需要$ \ mathcal {o}(\ epsilon ^ { - \ frac {5} {2}})$样本来实现$ \ epsilon $ - 固定式解决方案(定义为目标函数梯度的平方标准的解决方案小于$ \ epsilon $)。据我们所知,这项工作为具有部分个性化策略的分散式交流算法提供了第一个有限的样本保证。
translated by 谷歌翻译
多功能钢筋学习已成功应用于许多挑战性问题。尽管有这些经验成功,但对不同算法的理论理解缺乏,主要是由于状态 - 行动空间的指数增长与代理人数引起的维度诅咒。我们研究了多蛋白线性二次调节剂(LQR)的基本问题,在该刻度部分可互换的情况下。在此设置中,我们开发了一个分层演员 - 批评算法,其计算复杂性独立于代理总数,并证明了其全局线性融合到最佳政策。由于LQRS经常用于近似一般动态系统,本文提供了更好地理解一般分层平均场多功能增强学习的重要一步。
translated by 谷歌翻译
分散的参与者 - 批评(AC)算法已被广泛用于多机构增强学习(MARL),并取得了杰出的成功。除了其经验成功之外,分散的AC算法的理论收敛性在很大程度上没有探索。现有的有限时间收敛结果是基于双环更新或两次尺度的步骤规则得出的,这在实际实施中不经常采用。在这项工作中,我们介绍了一种完全分散的AC算法,演员,评论家和全球奖励估算器以交替的方式更新,阶跃尺寸的顺序相同,即,我们采用\ emph {single-emph {single-timesscale}更新。从理论上讲,使用线性近似进行价值和奖励估计,我们表明我们的算法具有$ \ tilde {\ Mathcal {o}}}(\ epsilon^{ - 2})$的样本复杂性,在马尔可夫式采样下与最佳复杂性相匹配双环实现(在此,$ \ tilde {\ Mathcal {o}} $隐藏了日志项)。样本复杂性可以提高到$ {\ Mathcal {o}}(\ epsilon^{ - 2})$下的I.I.D.采样方案。建立我们的复杂性结果的核心是\ emph {我们揭示的最佳评论家变量的隐藏平滑度}。我们还提供了算法及其分析的本地动作隐私版本。最后,我们进行实验,以显示我们算法优于现有的分散AC算法的优势。
translated by 谷歌翻译
我们在具有代理网络的环境中研究强化学习(RL),其状态和行动以当地的方式交互,其中目标是找到本地化策略,以便最大化(折扣)全局奖励。此设置中的一个根本挑战是状态 - 行动空间大小在代理的数量中呈指数级级别,呈现大网络难以解决的问题。在本文中,我们提出了一个可扩展的演员评论家(SAC)框架,用于利用网络结构并找到一个$ O(\ Rho ^ {\ Kappa})$ - 近似于某些目标的静止点的近似$ \ rho \ in(0,1)$,复杂性,与网络最大的$ \ kappa $-hop邻居的本地状态动作空间大小缩放。我们使用无线通信,流行和流量的示例说明了我们的模型和方法。
translated by 谷歌翻译
We consider learning approximate Nash equilibria for discrete-time mean-field games with nonlinear stochastic state dynamics subject to both average and discounted costs. To this end, we introduce a mean-field equilibrium (MFE) operator, whose fixed point is a mean-field equilibrium (i.e. equilibrium in the infinite population limit). We first prove that this operator is a contraction, and propose a learning algorithm to compute an approximate mean-field equilibrium by approximating the MFE operator with a random one. Moreover, using the contraction property of the MFE operator, we establish the error analysis of the proposed learning algorithm. We then show that the learned mean-field equilibrium constitutes an approximate Nash equilibrium for finite-agent games.
translated by 谷歌翻译
强大的增强学习(RL)的目的是学习一项与模型参数不确定性的强大策略。由于模拟器建模错误,随着时间的推移,现实世界系统动力学的变化以及对抗性干扰,参数不确定性通常发生在许多现实世界中的RL应用中。强大的RL通常被称为最大问题问题,其目的是学习最大化价值与不确定性集合中最坏可能的模型的策略。在这项工作中,我们提出了一种称为鲁棒拟合Q-材料(RFQI)的强大RL算法,该算法仅使用离线数据集来学习最佳稳健策略。使用离线数据的强大RL比其非持续性对应物更具挑战性,因为在强大的Bellman运营商中所有模型的最小化。这在离线数据收集,对模型的优化以及公正的估计中构成了挑战。在这项工作中,我们提出了一种系统的方法来克服这些挑战,从而导致了我们的RFQI算法。我们证明,RFQI在标准假设下学习了一项近乎最佳的强大政策,并证明了其在标准基准问题上的出色表现。
translated by 谷歌翻译
强化学习算法的实用性由于相对于问题大小的规模差而受到限制,因为学习$ \ epsilon $ -optimal策略的样本复杂性为$ \ tilde {\ omega} \ left(| s | s || a || a || a || a | h^3 / \ eps^2 \ right)$在MDP的最坏情况下,带有状态空间$ S $,ACTION SPACE $ A $和HORIZON $ H $。我们考虑一类显示出低级结构的MDP,其中潜在特征未知。我们认为,价值迭代和低级别矩阵估计的自然组合导致估计误差在地平线上呈指数增长。然后,我们提供了一种新算法以及统计保证,即有效利用了对生成模型的访问,实现了$ \ tilde {o} \ left的样本复杂度(d^5(d^5(| s |+| a |)\),我们有效利用低级结构。对于等级$ d $设置的Mathrm {Poly}(h)/\ EPS^2 \ right)$,相对于$ | s |,| a | $和$ \ eps $的缩放,这是最小值的最佳。与线性和低级别MDP的文献相反,我们不需要已知的功能映射,我们的算法在计算上很简单,并且我们的结果长期存在。我们的结果提供了有关MDP对过渡内核与最佳动作值函数所需的最小低级结构假设的见解。
translated by 谷歌翻译
我们研究了随机游戏(SGS)的梯度播放算法的性能,其中每个代理商试图通过基于代理之间共享的当前状态信息来独立做出决策来最大限度地提高自己的总折扣奖励。通过在给定状态下选择某个动作的概率来直接参数化策略。我们展示了纳什均衡(NES)和一阶固定政策在此设置中等同,并在严格的NES周围给出局部收敛速度。此外,对于称为马尔可夫潜在游戏的SGS的子类(包括具有重要特殊情况的代理中具有相同奖励的协作设置),我们设计了一种基于样本的增强学习算法,并为两者提供非渐近全局收敛速度分析精确的梯度游戏和我们基于样本的学习算法。我们的结果表明,迭代的数量达到$ \ epsilon $ -Ne线性缩放,而不是指数级,而代理人数。还考虑了局部几何和局部稳定性,在那里我们证明严格的NE是总潜在功能的局部最大值,完全混合的NE是鞍点。
translated by 谷歌翻译
本文涉及增强学习的样本效率,假设进入生成模型(或模拟器)。我们首先考虑$ \ gamma $ -discounted infinite-horizo​​ n markov决策过程(mdps)与状态空间$ \ mathcal {s} $和动作空间$ \ mathcal {a} $。尽管有许多先前的作品解决这个问题,但尚未确定样本复杂性和统计准确性之间的权衡的完整图像。特别地,所有事先结果都遭受严重的样本大小屏障,因为只有在样本量超过$ \ FRAC {| \ Mathcal {S} || \ Mathcal {A} |} {(1- \ gamma)^ 2} $。目前的论文通过认证了两种算法的最小值 - 基于模型的算法和基于保守模型的算法的最小值,克服了该障碍 - 一旦样本大小超过$ \ FRAC {| \ Mathcal {s } || mathcal {a} |} {1- \ gamma} $(modulo一些日志系数)。超越无限地平线MDP,我们进一步研究了时代的有限情况MDP,并证明了一种基于普通模型的规划算法足以实现任何目标精度水平的最佳样本复杂性。据我们所知,这项工作提供了第一个最低限度的最佳保证,可容纳全部样本尺寸(超出哪个发现有意义的政策是理论上不可行的信息)。
translated by 谷歌翻译
我们在面对未衡量的混杂因素时研究离线增强学习(RL)。由于缺乏与环境的在线互动,离线RL面临以下两个重大挑战:(i)代理可能会被未观察到的状态变量混淆; (ii)提前收集的离线数据不能为环境提供足够的覆盖范围。为了应对上述挑战,我们借助工具变量研究了混杂的MDP中的政策学习。具体而言,我们首先建立了基于和边缘化的重要性采样(MIS)的识别结果,以确定混杂的MDP中的预期总奖励结果。然后,通过利用悲观主义和我们的认同结果,我们提出了各种政策学习方法,并具有有限样本的次级临时性保证,可以在最小的数据覆盖范围和建模假设下找到最佳的课堂政策。最后,我们广泛的理论研究和一项由肾脏移植动机的数值研究证明了该方法的有希望的表现。
translated by 谷歌翻译
Offline reinforcement learning (RL) concerns pursuing an optimal policy for sequential decision-making from a pre-collected dataset, without further interaction with the environment. Recent theoretical progress has focused on developing sample-efficient offline RL algorithms with various relaxed assumptions on data coverage and function approximators, especially to handle the case with excessively large state-action spaces. Among them, the framework based on the linear-programming (LP) reformulation of Markov decision processes has shown promise: it enables sample-efficient offline RL with function approximation, under only partial data coverage and realizability assumptions on the function classes, with favorable computational tractability. In this work, we revisit the LP framework for offline RL, and advance the existing results in several aspects, relaxing certain assumptions and achieving optimal statistical rates in terms of sample size. Our key enabler is to introduce proper constraints in the reformulation, instead of using any regularization as in the literature, sometimes also with careful choices of the function classes and initial state distributions. We hope our insights further advocate the study of the LP framework, as well as the induced primal-dual minimax optimization, in offline RL.
translated by 谷歌翻译