迄今为止,游戏中的学习研究主要集中在正常形式游戏上。相比之下,我们以广泛的形式游戏(EFG),尤其是在许多代理商远远落后的EFG中对学习的理解,尽管它们与许多现实世界的应用更加接近。我们考虑了网络零和广泛表单游戏的天然类别,该游戏结合了代理收益的全球零和属性,图形游戏的有效表示以及EFG的表达能力。我们检查了这些游戏中乐观梯度上升(OGA)的收敛属性。我们证明,这种在线学习动力学的时间平均值表现出$ O(1/t)$ rate contergence convergence contergence contergence。此外,我们表明,对于某些与游戏有关的常数$ c> 0 $,日常行为也与速率$ o(c^{ - t})$收敛到nash。
translated by 谷歌翻译
在本文中,我们调查了正规化的力量,即在解决广泛形式的游戏(EFGS)方面的加强学习和优化方面的常见技术。我们提出了一系列新算法,基于正规化游戏的回报功能,并建立一组收敛结果,这些结果严格改善了现有的假设或更强的收敛保证。特别是,我们首先证明了膨胀的乐观镜下降(DOMD),一种用于求解EFG的有效变体,具有自适应正则化可以实现快速的$ \ tilde o(1/t)$ last-Ilt-Ilt-Ilt-It-last-Ilt-It-titer-In-titer-Inter-In-Elt-It-Triperate Connergengengenge没有纳什平衡(NE)的独特性假设。此外,正规化的膨胀倍增权重更新(reg-domwu)是reg-domd的实例,进一步享受了$ \ tilde o(1/t)$ ther-tir-tir-tir-tir-tir-tir-ter-tir-tir-ter-tir-tir-tir-tir-tir-tir-tir-tir-tir-ter-ter-ter-ter-ter-ter-ter-ter-ter-tir-ter-ter-tir-trientate Convergence。这解决了一个关于OMWU算法是否可以在没有EFG和正常形式游戏文献中的唯一假设的情况下获得的迭代融合的一个悬而未决的问题。其次,我们表明,正式化的反事实遗憾最小化(reg-cfr),具有乐观的镜像下降算法的变体作为遗憾少量器,可以实现$ o(1/t^{1/4})$ best-Ilterate和$ $ o(1/t^{3/4})$用于在EFG中查找NE的平均值收敛率。最后,我们表明Reg-CFR可以实现渐近的最后一介质收敛,而最佳$ O(1/t)$平均识别收敛速率可用于查找扰动的EFGS的NE,这对于找到近似广泛形式的完美非常有用平衡(EFPE)。据我们所知,它们构成了CFR型算法的第一个最后近期收敛结果,同时匹配SOTA平均识别收敛速率在寻找非扰动的EFG中的NE中。我们还提供数值结果来证实我们算法的优势。
translated by 谷歌翻译
当今许多大型系统的设计,从交通路由环境到智能电网,都依赖游戏理论平衡概念。但是,随着$ n $玩家游戏的大小通常会随着$ n $而成倍增长,标准游戏理论分析实际上是不可行的。最近的方法通过考虑平均场游戏,匿名$ n $玩家游戏的近似值,在这种限制中,玩家的数量是无限的,而人口的状态分布,而不是每个单独的球员的状态,是兴趣。然而,迄今为止研究最多的平均场平衡的平均场nash平衡的实际可计算性通常取决于有益的非一般结构特性,例如单调性或收缩性能,这是已知的算法收敛所必需的。在这项工作中,我们通过开发均值相关和与粗相关的平衡的概念来研究平均场比赛的替代途径。我们证明,可以使用三种经典算法在\ emph {ash All Games}中有效地学习它们,而无需对游戏结构进行任何其他假设。此外,我们在文献中已经建立了对应关系,从而获得了平均场 - $ n $玩家过渡的最佳范围,并经验证明了这些算法在简单游戏中的收敛性。
translated by 谷歌翻译
最近有很多不可能的结果表明,在与对抗对手的马尔可夫游戏中最小化的遗憾在统计学上和计算上是棘手的。然而,这些结果都没有排除在所有各方采用相同学习程序的假设下,遗憾最小化的可能性。在这项工作中,我们介绍了第一种(据我们所知)在通用马尔可夫游戏中学习的算法,该算法在所有代理商执行时提供了sublinear后悔保证。我们获得的边界是为了置换遗憾,因此,在此过程中,意味着融合了相关的平衡。我们的算法是分散的,计算上有效的,并且不需要代理之间的任何通信。我们的主要观察结果是,在马尔可夫游戏中通过策略优化的在线学习基本上减少了一种加权遗憾的最小化形式,而未知权重由代理商的策略顺序的路径长度确定。因此,控制路径长度会导致加权的遗憾目标,以提供足够的适应性算法提供统一的后悔保证。
translated by 谷歌翻译
在博弈论中的精髓结果是von Neumann的Minmax定理,这些定理使得零和游戏承认基本上独特的均衡解决方案。古典学习结果对本定理构建,以表明在线无后悔动态会聚到零和游戏中的时间平均意义上的均衡。在过去几年中,一个关键的研究方向专注于表征这种动态的日常行为。一般结果在这个方向上表明,广泛的在线学习动态是循环的,并且在零和游戏中正式的Poincar {e}复发。在具有时间不变均衡的定期零和游戏的情况下,我们分析了这些在线学习行为的稳健性。该模型概括了通常的重复游戏制定,同时也是参与者之间反复竞争的现实和自然模型,这取决于外源性环境变化,如日期效果,周到一周的趋势和季节性。有趣的是,即使在最简单的这种情况下,也可能失败的时间平均收敛性,尽管有均衡是固定的。相比之下,使用新颖的分析方法,我们表明Poincar \'{E}尽管这些动态系统的复杂性,非自主性质,但是普及的复发概括。
translated by 谷歌翻译
在正常游戏中,简单,未耦合的无regret动态与相关的平衡是多代理系统理论的著名结果。具体而言,已知20多年来,当所有玩家都试图在重复的正常游戏中最大程度地减少其内部遗憾时,游戏的经验频率会收敛于正常形式相关的平衡。广泛的形式(即树形)游戏通过对顺序和同时移动以及私人信息进行建模,从而推广正常形式的游戏。由于游戏中部分信息的顺序性质和存在,因此广泛的形式相关性具有与正常形式的属性明显不同,而正常形式的相关性仍然是开放的研究方向。已经提出了广泛的形式相关平衡(EFCE)作为自然的广泛形式与正常形式相关平衡。但是,目前尚不清楚EFCE是否是由于未耦合的代理动力学而出现的。在本文中,我们给出了第一个未耦合的无regret动态,该动态将$ n $ n $ - 玩家的General-sum大型游戏收敛于EFCE,并带有完美的回忆。首先,我们在广泛的游戏中介绍了触发遗憾的概念,这扩展了正常游戏中的内部遗憾。当每个玩家的触发后悔低时,游戏的经验频率接近EFCE。然后,我们给出有效的无触发式算法。我们的算法在每个决策点在每个决策点上都会从每个决策点构建播放器的全球策略,从而将触发遗憾分解为本地子问题。
translated by 谷歌翻译
我们开发了一种使用无遗憾的游戏动态解决凸面优化问题的算法框架。通过转换最小化凸起函数以顺序方式解决Min-Max游戏的辅助问题的问题,我们可以考虑一系列必须在另一个之后选择其行动的两名员工的一系列策略。这些策略的常见选择是所谓的无悔的学习算法,我们描述了许多此类并证明了遗憾。然后,我们表明许多凸面优化的经典一阶方法 - 包括平均迭代梯度下降,弗兰克 - 沃尔夫算法,重球算法和Nesterov的加速方法 - 可以被解释为我们框架的特殊情况由于每个玩家都做出正确选择无悔的策略。证明该框架中的收敛速率变得非常简单,因为它们遵循适当已知的遗憾范围。我们的框架还引发了一些凸优化的特殊情况的许多新的一阶方法。
translated by 谷歌翻译
当学习者与其他优化代理进行连续游戏时,我们研究了遗憾最小化的问题:在这种情况下,如果所有玩家都遵循一种无重组算法,则相对于完全对手环境,可能会达到较低的遗憾。我们在变异稳定的游戏(包括所有凸孔和单调游戏的连续游戏)的背景下研究了这个问题,当玩家只能访问其个人回报梯度时。如果噪音是加性的,那么游戏理论和纯粹的对抗性设置也会获得类似的遗憾保证。但是,如果噪声是乘法的,我们表明学习者实际上可以持续遗憾。我们通过学习速率分离的乐观梯度方案实现了更快的速度 - 也就是说,该方法的外推和更新步骤被调整为不同的时间表,具体取决于噪声配置文件。随后,为了消除对精致的超参数调整的需求,我们提出了一种完全自适应的方法,可以在最坏的和最佳案例的遗憾保证之间平稳地插入。
translated by 谷歌翻译
While Nash equilibrium has emerged as the central game-theoretic solution concept, many important games contain several Nash equilibria and we must determine how to select between them in order to create real strategic agents. Several Nash equilibrium refinement concepts have been proposed and studied for sequential imperfect-information games, the most prominent being trembling-hand perfect equilibrium, quasi-perfect equilibrium, and recently one-sided quasi-perfect equilibrium. These concepts are robust to certain arbitrarily small mistakes, and are guaranteed to always exist; however, we argue that neither of these is the correct concept for developing strong agents in sequential games of imperfect information. We define a new equilibrium refinement concept for extensive-form games called observable perfect equilibrium in which the solution is robust over trembles in publicly-observable action probabilities (not necessarily over all action probabilities that may not be observable by opposing players). Observable perfect equilibrium correctly captures the assumption that the opponent is playing as rationally as possible given mistakes that have been observed (while previous solution concepts do not). We prove that observable perfect equilibrium is always guaranteed to exist, and demonstrate that it leads to a different solution than the prior extensive-form refinements in no-limit poker. We expect observable perfect equilibrium to be a useful equilibrium refinement concept for modeling many important imperfect-information games of interest in artificial intelligence.
translated by 谷歌翻译
在本文中,我们解决了普通游戏中无遗憾的学习问题。具体而言,我们提供了一种简单实用的算法,实现了固定的阶梯大小的恒定遗憾。随着阶梯大小的增加,我们的算法的累积遗憾可被线性降低。我们的调查结果离开了现行范式,即消失的阶梯尺寸是迄今为止所有最先进的方法的低遗憾的先决条件。通过定义我们称之为Clairvoyant乘法权重更新(CMWU)的小说算法,从此范例转移到此范式。 CMWU是配备有精神模型的乘法权重更新(MWU),其在下一个时期中的系统状态有关系统的状态。每个代理记录其混合策略,即它对在下一期间在下一期间播放的信念,在此共享心理模型中,在此共享心理模型中使用MWU内部更新而没有对实际行为的任何改变,直到它平衡,从而标记其与第二天的真实结果一致。然后,只有那个代理在现实世界中采取行动,有效地在第二天的系统状态的“全面知识”,即它们是克莱师。CMWU有效充当MWU一天展望,实现有界遗憾。在技术水平,我们建立了任何选择的阶梯大小的自我一致的心理模型,并在其唯一性和线性时间计算的阶梯大小上提供界限收缩映射参数。我们的论点超越正常的游戏,几乎没有努力。
translated by 谷歌翻译
\ emph {ex ante}相关性正在成为\ emph {顺序对抗团队游戏}的主流方法,其中一组球员在零和游戏中面对另一支球队。众所周知,团队成员的不对称信息同时使平衡计算\ textsf {apx} - hard和团队的策略在游戏树上不可直接表示。后一个问题阻止采用成功的2个玩家零和游戏的成功工具,例如,\ emph {e.g。},抽象,无regret学习和子游戏求解。这项工作表明,我们可以通过弥合顺序对抗团队游戏和2次玩家游戏之间的差距来恢复这种弱点。特别是,我们提出了一种新的,合适的游戏表示形式,我们称之为\ emph {Team-Public-information},其中团队被代表为单个协调员,他只知道整个团队的共同信息,并向每个成员开出一个行动对于任何可能的私人状态。最终的表示形式是高度\ emph {可解释},是一棵2播放器树,在设计抽象时,团队的策略具有直接解释和更具表现力的行为,并且具有更高的表现力。此外,我们证明了代表性的回报等效性,并提供了直接从广泛形式开始的技术,从而在没有信息损失的情况下产生了更紧凑的表示形式。最后,我们在应用于标准测试床上的技术时对技术进行了实验评估,并将它们的性能与当前的最新状态进行了比较。
translated by 谷歌翻译
游戏理论到目前为止在各个领域都发现了许多应用,包括经济学,工业,法学和人工智能,每个玩家都只关心自己对非合作或合作方式的兴趣,但对其他玩家没有明显的恶意。但是,在许多实际应用中,例如扑克,国际象棋,逃避者追求,毒品拦截,海岸警卫队,网络安全和国防,球员通常都具有对抗性立场,也就是说,每个球员的自私行动不可避免地或故意造成损失或对其他球员造成严重破坏。沿着这条线,本文对在对抗性游戏中广泛使用的三种主要游戏模型(即零和零正常形式和广泛形式游戏,stackelberg(Security)游戏,零和差异游戏)提供了系统的调查。观点,包括游戏模型的基本知识,(近似)平衡概念,问题分类,研究前沿,(近似)最佳策略寻求技术,普遍的算法和实际应用。最后,还讨论了有关对抗性游戏的有希望的未来研究方向。
translated by 谷歌翻译
最近的多人游戏的理论和应用方面的最新进步,从电子运动到多种子体生成的对抗网络,我们专注于团队零和游戏中的最大优化。在这类游戏中,玩家分为两支队伍,在同一支队内等等,对手团队的相反标志。与TextBook二手零和游戏不同,在我们的类中找到纳什均衡可以被证明是CLS-Hard,即,它不太可能具有用于计算NASH均衡的多项式时间算法。此外,在该广义框架中,使用梯度下降上升(GDA),其乐观变体和额外梯度,我们建立了即使是渐近的最后一次迭代或时间平均收敛到纳什均衡。具体来说,我们展示了一个诱导效用是\ emph {non}的团队游戏系列\ \ emph {non}有吸引力的\ {per-se}混合的纳什均衡,作为底层优化景观的严格鞍点。利用控制理论的技术,我们通过设计局部收敛的修改GDA来补充这些负面结果,以纳入均衡。最后,我们讨论了我们的框架与AI架构的联系,其中与多助理生成对冲网络这样的团队竞争结构。
translated by 谷歌翻译
我们考虑在具有强盗反馈的未知游戏中的在线无遗憾的学习,其中每个代理只在每次都观察到其奖励 - 所有参与者当前的联合行动 - 而不是其渐变。我们专注于平稳且强烈单调的游戏类,并在其中研究最佳的无遗憾。利用自我协调的障碍功能,我们首先构建在线强盗凸优化算法,并表明它实现了平滑且强烈 - 凹陷的支付下$ \ tilde {\ theta}(\ sqrt {t})$的单代理最佳遗憾职能。然后,如果每个代理在强烈单调的游戏中应用这种无悔的学习算法,则以$ \ tilde {\ theta}的速率,联合动作会收敛于\ texit {last erate}到唯一的纳什均衡(1 / \ sqrt {t})$。在我们的工作之前,同一类游戏中的最熟悉的融合率是$ O(1 / T ^ {1/3})$(通过不同的算法实现),从而留下了最佳无悔的问题学习算法(因为已知的下限为$ \ omega(1 / \ sqrt {t})$)。我们的结果因此通过识别第一双重最佳强盗学习算法来解决这个公开问题并促进强盗游戏 - 理论学习的广泛景观,因为它达到了(达到了日志因子)单王子学习和最佳的最佳遗憾多代理学习中的最后迭代收敛速度。我们还展示了几项模拟研究的结果 - Cournot竞争,凯利拍卖和分布式正则化物流回归 - 以证明我们算法的功效。
translated by 谷歌翻译
主导的行动是自然的(也许是最简单的)多代理概括的子最优动作,如标准单代理决策中的那样。因此类似于标准强盗学习,多代理系统中的基本学习问题是如果他们只能观察到他们播放动作的回报的嘈杂的强盗反馈,那么代理商可以学会有效地消除所有主导的动作。令人惊讶的是,尽管有一个看似简单的任务,我们展示了一个相当负面的结果;也就是说,标准没有遗憾的算法 - 包括整个双平均算法的家庭 - 可呈指数级地取消逐渐消除所有主导的行动。此外,具有较强的交换后悔的算法也遭受了类似的指数低效率。为了克服这些障碍,我们开发了一种新的算法,调整EXP3,历史奖励减少(exp3-DH); Exp3-DH逐渐忘记仔细量身定制的速率。我们证明,当所有代理运行Exp3-DH(A.K.A.,在多代理学习中自行发行)时,所有主导的行动都可以在多项多轮内迭代地消除。我们的实验结果进一步证明了Exp3-DH的效率,即使是那些专门用于在游戏中学习的最先进的强盗算法,也无法有效地消除所有主导的行动。
translated by 谷歌翻译
本文研究了用于多机构增强学习的政策优化算法。我们首先在全信息设置中提出了针对两人零和零和马尔可夫游戏的算法框架,其中每次迭代均使用一个策略更新,使用某个矩阵游戏算法在每个状态下进行策略更新,并带有一个带有特定的值更新步骤学习率。该框架统一了许多现有和新的政策优化算法。我们表明,只要矩阵游戏算法在每种状态下,该算法的州平均策略会收敛到游戏的近似NASH平衡(NE),只要矩阵游戏算法在每个状态下都具有低称重的遗憾价值更新。接下来,我们证明,该框架与每个状态(和平滑值更新)的乐观跟踪定制领导者(oftrl)算法可以找到$ \ Mathcal {\ widetilde {o}}(t^{ - 5 /6})$ t $迭代中的$近似NE,并且具有稍微修改的值更新规则的类似算法可实现更快的$ \ Mathcal {\ widetilde {o}}}}(t^{ - 1})$收敛率。这些改进了当前最佳$ \ Mathcal {\ widetilde {o}}}(t^{ - 1/2})$对称策略优化类型算法的速率。我们还将此算法扩展到多玩家通用-SUM Markov游戏,并显示$ \ MATHCAL {\ widetilde {o}}}(t^{ - 3/4})$收敛率与粗相关均衡(CCE)。最后,我们提供了一个数值示例来验证我们的理论并研究平滑价值更新的重要性,并发现使用“渴望”的价值更新(等同于独立的自然策略梯度算法)也可能会大大减慢收敛性,即使在$ h = 2 $层的简单游戏。
translated by 谷歌翻译
我们研究了在两人零和马尔可夫游戏中找到NASH平衡的问题。由于其作为最小值优化程序的表述,解决该问题的自然方法是以交替的方式对每个玩家进行梯度下降/上升。但是,由于基本目标函数的非跨性别/非障碍性,该方法的理论理解是有限的。在我们的论文中,我们考虑解决马尔可夫游戏的熵登记变体。正则化将结构引入了优化景观中,从而使解决方案更加可识别,并允许更有效地解决问题。我们的主要贡献是表明,在正则化参数的正确选择下,梯度下降算法会收敛到原始未注册问题的NASH平衡。我们明确表征了我们算法的最后一个迭代的有限时间性能,该算法的梯度下降上升算法的现有收敛界限大大改善了而没有正则化。最后,我们通过数值模拟来补充分析,以说明算法的加速收敛性。
translated by 谷歌翻译
计算NASH平衡策略是多方面强化学习中的一个核心问题,在理论和实践中都受到广泛关注。但是,到目前为止,可证明的保证金仅限于完全竞争性或合作的场景,或者在大多数实际应用中实现难以满足的强大假设。在这项工作中,我们通过调查Infinite-Horizo​​n \ Emph {对抗性团队Markov Games},这是一场自然而充分动机的游戏,其中一组相同兴奋的玩家 - 在没有任何明确的情况下,这是一个自然而有动机的游戏,这是一场自然而有动机的游戏,而偏离了先前的结果。协调或交流 - 正在与对抗者竞争。这种设置允许对零和马尔可夫潜在游戏进行统一处理,并作为模拟更现实的战略互动的一步,这些互动具有竞争性和合作利益。我们的主要贡献是第一种计算固定$ \ epsilon $ - Approximate Nash Equilibria在对抗性团队马尔可夫游戏中具有计算复杂性的算法,在游戏的所有自然参数中都是多项式的,以及$ 1/\ epsilon $。拟议的算法特别自然和实用,它基于为团队中的每个球员执行独立的政策梯度步骤,并与对手侧面的最佳反应同时;反过来,通过解决精心构造的线性程序来获得对手的政策。我们的分析利用非标准技术来建立具有非convex约束的非线性程序的KKT最佳条件,从而导致对诱导的Lagrange乘数的自然解释。在此过程中,我们大大扩展了冯·斯坦格尔(Von Stengel)和科勒(GEB`97)引起的对抗(正常形式)团队游戏中最佳政策的重要特征。
translated by 谷歌翻译
计算纳什均衡在多智能体游戏中是博弈论和计算机科学界面的长期挑战。众所周知,N个玩家和K策略中的一般正常形式游戏需要指数空间只是简单地写下。这种多代理的这种诅咒促使简洁游戏的研究可以有效地写下来。简洁游戏的规范示例是图形游戏,该图形游戏将播放器塑造为图形中的节点,只与他们的邻居与马尔可夫随机字段直接类似的邻居进行交互。图形游戏在无线,金融和社交网络中找到了应用程序。然而,计算图形游戏的纳什平衡已经证明了具有挑战性。即使对于PolyATRIX游戏,也可以将对代理人的资助的模型作为与代理邻居的交互的交互之和,所以证明计算epsilon近似NASH平衡是epsilon的PPAD,用于epsilon小于常数。这项工作的重点是通过考虑平均水平图模型i.e随机图来避免这种计算硬度。我们提供了一种用于计算PolyAtrix游戏的ePsilon近似NASH平衡的QuaSiewolynomial时间近似方案(QPTA),其具有高于Poly(k,1 / epsilon,ln(n))$的随机图。此外,通过相同的运行时间,我们可以计算epsilon - 近似的纳什均衡,即epsilon - 近似于游戏任何纳什均衡的最大社会福利。我们的主要技术创新是一种用于纳什均衡问题的新型等级凸面计划的“加速舍入”。我们加速的舍入也为MAX-2CSP的同一类随机图中的MAX-2CSP提供了更快的算法,这可能具有独立兴趣。
translated by 谷歌翻译
我们考虑战略设置,其中几个用户在重复的在线互动中聘用,辅助最小化的代理商代表他们反复发挥“游戏”。我们研究了代理人的重复游戏的动态和平均结果,并将其视为诱导用户之间的元游戏。我们的主要焦点是用户可以在此元游戏中从“操纵”他们自己的代理商中可以受益于他们自己的代理商。我们正式定义了普通游戏的这种“用户代理元荟萃游戏”模型,讨论了自动化代理动态的不同概念下的属性,并分析了2x2游戏中用户的均衡,其中动态收敛到a单均衡。
translated by 谷歌翻译