我们研究了在随机代理网络中的多功能加固学习(MARL)。目标是找到最大化(折扣)全球奖励的本地化政策。通常,可扩展性在此设置中是一个挑战,因为全局状态/动作空间的大小可以是代理的数量的指数。在依赖性是静态,固定和局部,例如,在固定的,时不变的底层图形的邻居之间,才知道可扩展算法。在这项工作中,我们提出了一个可扩展的演员评论家框架,适用于依赖关系可以是非本地和随机的设置,并提供有限误差绑定,显示了收敛速度如何取决于网络中的信息速度。另外,作为我们分析的副产物,我们获得了一般随机近似方案的新型有限时间收敛结果,以及具有状态聚合的时间差异学习,其超出了网络系统中的Marl的设置。
translated by 谷歌翻译
我们在具有代理网络的环境中研究强化学习(RL),其状态和行动以当地的方式交互,其中目标是找到本地化策略,以便最大化(折扣)全局奖励。此设置中的一个根本挑战是状态 - 行动空间大小在代理的数量中呈指数级级别,呈现大网络难以解决的问题。在本文中,我们提出了一个可扩展的演员评论家(SAC)框架,用于利用网络结构并找到一个$ O(\ Rho ^ {\ Kappa})$ - 近似于某些目标的静止点的近似$ \ rho \ in(0,1)$,复杂性,与网络最大的$ \ kappa $-hop邻居的本地状态动作空间大小缩放。我们使用无线通信,流行和流量的示例说明了我们的模型和方法。
translated by 谷歌翻译
We study a multi-agent reinforcement learning (MARL) problem where the agents interact over a given network. The goal of the agents is to cooperatively maximize the average of their entropy-regularized long-term rewards. To overcome the curse of dimensionality and to reduce communication, we propose a Localized Policy Iteration (LPI) algorithm that provably learns a near-globally-optimal policy using only local information. In particular, we show that, despite restricting each agent's attention to only its $\kappa$-hop neighborhood, the agents are able to learn a policy with an optimality gap that decays polynomially in $\kappa$. In addition, we show the finite-sample convergence of LPI to the global optimal policy, which explicitly captures the trade-off between optimality and computational complexity in choosing $\kappa$. Numerical simulations demonstrate the effectiveness of LPI.
translated by 谷歌翻译
This paper studies a class of multi-agent reinforcement learning (MARL) problems where the reward that an agent receives depends on the states of other agents, but the next state only depends on the agent's own current state and action. We name it REC-MARL standing for REward-Coupled Multi-Agent Reinforcement Learning. REC-MARL has a range of important applications such as real-time access control and distributed power control in wireless networks. This paper presents a distributed and optimal policy gradient algorithm for REC-MARL. The proposed algorithm is distributed in two aspects: (i) the learned policy is a distributed policy that maps a local state of an agent to its local action and (ii) the learning/training is distributed, during which each agent updates its policy based on its own and neighbors' information. The learned policy is provably optimal among all local policies and its regret bounds depend on the dimension of local states and actions. This distinguishes our result from most existing results on MARL, which often obtain stationary-point policies. The experimental results of our algorithm for the real-time access control and power control in wireless networks show that our policy significantly outperforms the state-of-the-art algorithms and well-known benchmarks.
translated by 谷歌翻译
We study the problem of estimating the fixed point of a contractive operator defined on a separable Banach space. Focusing on a stochastic query model that provides noisy evaluations of the operator, we analyze a variance-reduced stochastic approximation scheme, and establish non-asymptotic bounds for both the operator defect and the estimation error, measured in an arbitrary semi-norm. In contrast to worst-case guarantees, our bounds are instance-dependent, and achieve the local asymptotic minimax risk non-asymptotically. For linear operators, contractivity can be relaxed to multi-step contractivity, so that the theory can be applied to problems like average reward policy evaluation problem in reinforcement learning. We illustrate the theory via applications to stochastic shortest path problems, two-player zero-sum Markov games, as well as policy evaluation and $Q$-learning for tabular Markov decision processes.
translated by 谷歌翻译
在这项工作中,我们研究了解决强化学习问题的基于政策的方法,其中采用了非政策性采样和线性函数近似进行政策评估,以及包括自然政策梯度(NPG)在内的各种政策更新规则,用于政策更新。为了在致命三合会的存在下解决政策评估子问题,我们提出了一个通用算法的多步型TD学习框架,具有广义的重要性抽样比率,其中包括两个特定的算法:$ \ lambda $ Q Q $ Q Q $ - 跟踪和双面$ Q $ - 跟踪。通用算法是单个时间尺度,具有可证明的有限样本保证,并克服了非政策学习中的高方差问题。至于策略更新,我们仅使用Bellman操作员的收缩属性和单调性属性提供通用分析,以在各种策略更新规则下建立几何融合。重要的是,通过将NPG视为实施政策迭代的近似方法,我们在不引入正则化的情况下建立了NPG的几何融合,并且不使用现有文献中的镜像下降类型的分析类型。将策略更新的几何融合与策略评估的有限样本分析相结合,我们首次建立了整​​体$ \ Mathcal {o}(\ Epsilon^{ - 2})$样本复杂性以找到最佳策略(最多达到函数近似误差)使用基于策略的方法和线性函数近似下的基于策略的方法。
translated by 谷歌翻译
培训期间的对抗性攻击能够强烈影响多功能增强学习算法的性能。因此,非常希望增加现有算法,使得消除对抗对协作网络的对抗性攻击的影响,或者至少有界限。在这项工作中,我们考虑一个完全分散的网络,每个代理商收到本地奖励并观察全球州和行动。我们提出了一种基于弹性共识的演员 - 批评算法,其中每个代理估计了团队平均奖励和价值函数,并将关联的参数向量传送到其立即邻居。我们表明,在拜占庭代理人的存在下,其估算和通信策略是完全任意的,合作社的估计值会融合到有概率一体的有界共识值,条件是在附近的最多有$ H $拜占庭代理商每个合作社和网络都是$(2h + 1)$ - 强大。此外,我们证明,合作社的政策在其团队平均目标函数的局部最大化器周围汇聚在其团队平均目标函数的概率上,这是对渐关节转移变得稳定的普发因子的政策。
translated by 谷歌翻译
我们研究了随机游戏(SGS)的梯度播放算法的性能,其中每个代理商试图通过基于代理之间共享的当前状态信息来独立做出决策来最大限度地提高自己的总折扣奖励。通过在给定状态下选择某个动作的概率来直接参数化策略。我们展示了纳什均衡(NES)和一阶固定政策在此设置中等同,并在严格的NES周围给出局部收敛速度。此外,对于称为马尔可夫潜在游戏的SGS的子类(包括具有重要特殊情况的代理中具有相同奖励的协作设置),我们设计了一种基于样本的增强学习算法,并为两者提供非渐近全局收敛速度分析精确的梯度游戏和我们基于样本的学习算法。我们的结果表明,迭代的数量达到$ \ epsilon $ -Ne线性缩放,而不是指数级,而代理人数。还考虑了局部几何和局部稳定性,在那里我们证明严格的NE是总潜在功能的局部最大值,完全混合的NE是鞍点。
translated by 谷歌翻译
我们研究了平均奖励马尔可夫决策过程(AMDP)的问题,并开发了具有强大理论保证的新型一阶方法,以进行政策评估和优化。由于缺乏勘探,现有的彻底评估方法遭受了次优融合率以及处理不足的随机策略(例如确定性政策)的失败。为了解决这些问题,我们开发了一种新颖的差异时间差异(VRTD)方法,具有随机策略的线性函数近似以及最佳收敛保证,以及一种探索性方差降低的时间差(EVRTD)方法,用于不充分的随机策略,可相当的融合保证。我们进一步建立了政策评估偏见的线性收敛速率,这对于改善策略优化的总体样本复杂性至关重要。另一方面,与对MDP的政策梯度方法的有限样本分析相比,对AMDP的策略梯度方法的现有研究主要集中在基础马尔可夫流程的限制性假设下(例如,参见Abbasi-e, Yadkori等人,2019年),他们通常缺乏整体样本复杂性的保证。为此,我们开发了随机策略镜下降(SPMD)的平均奖励变体(LAN,2022)。我们建立了第一个$ \ widetilde {\ Mathcal {o}}(\ epsilon^{ - 2})$样品复杂性,用于在生成模型(带有UNICHAIN假设)和Markovian Noise模型(使用Ergodicicic Modele(具有核能的模型)下,使用策略梯度方法求解AMDP假设)。该界限可以进一步改进到$ \ widetilde {\ Mathcal {o}}}(\ epsilon^{ - 1})$用于求解正则化AMDPS。我们的理论优势通过数值实验来证实。
translated by 谷歌翻译
多智能体增强学习(Marl)最近引起了很多研究。然而,与其单一代理对应物不同,Marl的许多理论和算法方面尚未得到很好的理解。在本文中,我们使用演员 - 评论家(AC)算法研究了自主代理的协调行为的出现。具体而言,我们提出并分析了一类协调的演员 - 批评算法(CAC),其中单独的参数化政策有一个{\ IT共享}部分(其中在所有代理中共同优化)和{\ IT个性化}部分(这是只有当地优化)。这种类型的{\它部分个性化}策略允许代理通过利用同伴的过去的经验来学习协调并适应各个任务。我们设计的灵活性允许提出的Marl-CAC算法用于{\ IT完全分散}设置中使用,其中代理商只能与其邻居通信,以及偶尔代理的{\ IT联合}设置与服务器通信,同时优化其(部分个性化)本地模型。从理论上讲,在一些标准规律性假设下,所提出的Marl-CAC算法需要$ \ mathcal {o}(\ epsilon ^ { - \ frac {5} {2}})$样本来实现$ \ epsilon $ - 固定式解决方案(定义为目标函数梯度的平方标准的解决方案小于$ \ epsilon $)。据我们所知,这项工作为具有部分个性化策略的分散式交流算法提供了第一个有限的样本保证。
translated by 谷歌翻译
我们研究了随机近似程序,以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后,我们证明了一种在适当平均迭代序列上的非渐近实例依赖性,具有匹配局部渐近最小的限制的领先术语,包括对参数$的敏锐依赖(d,t _ {\ mathrm {mix}}) $以高阶术语。我们将这些上限与非渐近Minimax的下限补充,该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD($ \ lambda $)算法,以便[0,1)$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门(例如,在运行TD($ \ Lambda $)算法时选择$ \ lambda $的值)。
translated by 谷歌翻译
在本文中,我们在表格设置中建立了违法演员批评算法的全球最优性和收敛速度,而不使用密度比来校正行为政策的状态分布与目标政策之间的差异。我们的工作超出了现有的工作原理,最佳的策略梯度方法中的现有工作中使用确切的策略渐变来更新策略参数时,我们使用近似和随机更新步骤。我们的更新步骤不是渐变更新,因为我们不使用密度比以纠正状态分布,这与从业者做得好。我们的更新是近似的,因为我们使用学习的评论家而不是真正的价值函数。我们的更新是随机的,因为在每个步骤中,更新仅为当前状态操作对完成。此外,我们在分析中删除了现有作品的几个限制性假设。我们的工作中的核心是基于其均匀收缩性能的时源性Markov链中的通用随机近似算法的有限样本分析。
translated by 谷歌翻译
Mean-field games have been used as a theoretical tool to obtain an approximate Nash equilibrium for symmetric and anonymous $N$-player games in literature. However, limiting applicability, existing theoretical results assume variations of a "population generative model", which allows arbitrary modifications of the population distribution by the learning algorithm. Instead, we show that $N$ agents running policy mirror ascent converge to the Nash equilibrium of the regularized game within $\tilde{\mathcal{O}}(\varepsilon^{-2})$ samples from a single sample trajectory without a population generative model, up to a standard $\mathcal{O}(\frac{1}{\sqrt{N}})$ error due to the mean field. Taking a divergent approach from literature, instead of working with the best-response map we first show that a policy mirror ascent map can be used to construct a contractive operator having the Nash equilibrium as its fixed point. Next, we prove that conditional TD-learning in $N$-agent games can learn value functions within $\tilde{\mathcal{O}}(\varepsilon^{-2})$ time steps. These results allow proving sample complexity guarantees in the oracle-free setting by only relying on a sample path from the $N$ agent simulator. Furthermore, we demonstrate that our methodology allows for independent learning by $N$ agents with finite sample guarantees.
translated by 谷歌翻译
我们研究了线性函数近似的政策评估问题,并且目前具有强烈的最优性保证的高效实用算法。我们首先通过证明在这个问题中建立基线的下限来建立基线和随机错误。特别是,我们在与转换内核的静止分布相关联的实例相关规范中证明了Oracle复杂性下限,并使用本地渐近最低限度机械在随机误差中证明依赖于随机误差的实例相关的下限IID观察模型。现有算法未能匹配这些下限中的至少一个:为了说明,我们分析了时间差异学习的方差减少变体,特别是它未能实现Oracle复杂性下限。为了解决这个问题,我们开发了加速,方差减少的快速时间差算法(VRFTD),其同时匹配两个下限,并达到实例 - 最优性的强烈概念。最后,我们将VRFTD算法扩展到Markovian观察的设置,并提供与I.I.D中的实例相关的收敛结果。设置到与链条的混合时间成比例的乘法因子。我们的理论保证最佳的最佳保证是通过数值实验证实的。
translated by 谷歌翻译
随机游戏的学习可以说是多功能钢筋学习(MARL)中最标准和最基本的环境。在本文中,我们考虑在非渐近制度的随机游戏中分散的Marl。特别是,我们在大量的一般总和随机游戏(SGS)中建立了完全分散的Q学习算法的有限样本复杂性 - 弱循环SGS,包括对所有代理商的普通合作MARL设置具有相同的奖励(马尔可夫团队问题是一个特例。我们专注于实用的同时具有挑战性地设置完全分散的Marl,既不奖励也没有其他药剂的作用,每个试剂都可以观察到。事实上,每个特工都完全忘记了其他决策者的存在。表格和线性函数近似情况都已考虑。在表格设置中,我们分析了分散的Q学习算法的样本复杂性,以收敛到马尔可夫完美均衡(NASH均衡)。利用线性函数近似,结果用于收敛到线性近似平衡 - 我们提出的均衡的新概念 - 这描述了每个代理的策略是线性空间内的最佳回复(到其他代理)。还提供了数值实验,用于展示结果。
translated by 谷歌翻译
分散的参与者 - 批评(AC)算法已被广泛用于多机构增强学习(MARL),并取得了杰出的成功。除了其经验成功之外,分散的AC算法的理论收敛性在很大程度上没有探索。现有的有限时间收敛结果是基于双环更新或两次尺度的步骤规则得出的,这在实际实施中不经常采用。在这项工作中,我们介绍了一种完全分散的AC算法,演员,评论家和全球奖励估算器以交替的方式更新,阶跃尺寸的顺序相同,即,我们采用\ emph {single-emph {single-timesscale}更新。从理论上讲,使用线性近似进行价值和奖励估计,我们表明我们的算法具有$ \ tilde {\ Mathcal {o}}}(\ epsilon^{ - 2})$的样本复杂性,在马尔可夫式采样下与最佳复杂性相匹配双环实现(在此,$ \ tilde {\ Mathcal {o}} $隐藏了日志项)。样本复杂性可以提高到$ {\ Mathcal {o}}(\ epsilon^{ - 2})$下的I.I.D.采样方案。建立我们的复杂性结果的核心是\ emph {我们揭示的最佳评论家变量的隐藏平滑度}。我们还提供了算法及其分析的本地动作隐私版本。最后,我们进行实验,以显示我们算法优于现有的分散AC算法的优势。
translated by 谷歌翻译
我们在$ \ Gamma $ -diScounted MDP中使用Polyak-Ruppert平均(A.K.A.,平均Q-Leaning)进行同步Q学习。我们为平均迭代$ \ bar {\ boldsymbol {q}}建立渐近常态。此外,我们展示$ \ bar {\ boldsymbol {q}} _ t $实际上是一个常规的渐近线性(RAL)估计值,用于最佳q-value函数$ \ boldsymbol {q} ^ * $与最有效的影响功能。它意味着平均Q学习迭代在所有RAL估算器之间具有最小的渐近方差。此外,我们为$ \ ell _ {\ infty} $错误$ \ mathbb {e} \ | \ | \ bar {\ boldsymbol {q}} _ t- \ boldsymbol {q} ^ *} ^ *} _ {\ idty} $,显示它与实例相关的下限以及最佳最低限度复杂性下限。作为一个副产品,我们发现Bellman噪音具有var-gaussian坐标,具有方差$ \ mathcal {o}((1- \ gamma)^ {-1})$而不是现行$ \ mathcal {o}((1- \ Gamma)^ { - 2})$根据标准界限奖励假设。子高斯结果有可能提高许多R1算法的样本复杂性。简而言之,我们的理论分析显示平均Q倾斜在统计上有效。
translated by 谷歌翻译
由于众所周知,强化学习算法是数据密集型的,因此从环境中进行采样观测的任务通常在多个代理之间分配。但是,将这些观察结果从代理转移到中心位置可能会非常昂贵,并且还可以损害每个代理人本地行为政策的隐私。在本文中,我们考虑了一个联合加强学习框架,其中多个代理商协作学习了一个全球模型,而无需共享他们的个人数据和政策。每个代理都维护模型的本地副本,并使用本地采样数据对其进行更新。尽管具有n个代理可以启用n次数据的采样,但尚不清楚它是否导致比例收敛的加速。我们提出了联合版本的On-Policy TD,Off-Policy TD和Q学习,并分析其收敛性。对于所有这些算法,据我们所知,我们是第一个考虑马尔可夫噪声和多个局部更新的人,并证明相对于代理的数量是线性收敛的速度。为了获得这些结果,我们表明联邦TD和Q学习是与马尔可夫噪声联合随机近似的一般框架的特殊情况,并且我们利用该框架提供了适用于所有算法的统一收敛分析。
translated by 谷歌翻译
在分散的合作多机构增强学习中,代理可以彼此汇总信息,以学习最大化团队平均目标功能的政策。尽管愿意与他人合作,但各个代理商可能会直接分享有关其当地状态,奖励和价值功能的信息,这是由于隐私问题而不受欢迎的。在这项工作中,我们引入了一种带有TD错误聚合的分散的参与者批判算法,该算法不违反隐私问题,并假设沟通渠道会受到时间延迟和数据包的删除。通过传输数据的维度来衡量,我们为做出如此薄弱的假设所支付的成本是增加的沟通负担。有趣的是,通信负担仅在图形大小上是二次的,这使得适用于大型网络的算法。我们在减小的步进大小下提供收敛分析,以验证代理最大化团队平均目标函数。
translated by 谷歌翻译
在标准数据分析框架中,首先收集数据(全部一次),然后进行数据分析。此外,通常认为数据生成过程是外源性的。当数据分析师对数据的生成方式没有影响时,这种方法是自然的。但是,数字技术的进步使公司促进了从数据中学习并同时做出决策。随着这些决定生成新数据,数据分析师(业务经理或算法)也成为数据生成器。这种相互作用会产生一种新型的偏见 - 增强偏见 - 加剧了静态数据分析中的内生性问题。因果推理技术应该被纳入加强学习中以解决此类问题。
translated by 谷歌翻译