基于二次约束可行性计划制定,我们描述了一种用于计算多人普通和游戏中的NASH均衡的新完整算法。我们证明,算法比先前研究的几个游戏类上的现有最快完整算法速度快得显着更快,其运行时间甚至优于最佳的不完整算法。
translated by 谷歌翻译
标准的游戏理论解答概念,纳什均衡假设所有球员都表现得合理。如果我们遵循纳什均衡和对手是非理性的(或遵循不同的纳什均衡的策略),那么我们可能会获得极低的回报。另一方面,Maximin策略假定所有反对代理都在播放以最大限度地减少我们的收益(即使它不是最佳利益),并确保最大可能的最坏情况,但导致非常保守的戏剧。我们提出了一种新的解决方案概念,称为安全均衡,模拟对手的行为与指定概率的表现合理,并且潜在的任意表现在剩下的概率上。我们证明所有战略形式游戏中存在安全均衡(对于合理性参数的所有可能值),并证明其计算是PPAD-HARD。我们提出了用于计算2和$ N $ -Player游戏中的安全均衡的精确算法,以及可缩放的近似算法。
translated by 谷歌翻译
While Nash equilibrium has emerged as the central game-theoretic solution concept, many important games contain several Nash equilibria and we must determine how to select between them in order to create real strategic agents. Several Nash equilibrium refinement concepts have been proposed and studied for sequential imperfect-information games, the most prominent being trembling-hand perfect equilibrium, quasi-perfect equilibrium, and recently one-sided quasi-perfect equilibrium. These concepts are robust to certain arbitrarily small mistakes, and are guaranteed to always exist; however, we argue that neither of these is the correct concept for developing strong agents in sequential games of imperfect information. We define a new equilibrium refinement concept for extensive-form games called observable perfect equilibrium in which the solution is robust over trembles in publicly-observable action probabilities (not necessarily over all action probabilities that may not be observable by opposing players). Observable perfect equilibrium correctly captures the assumption that the opponent is playing as rationally as possible given mistakes that have been observed (while previous solution concepts do not). We prove that observable perfect equilibrium is always guaranteed to exist, and demonstrate that it leads to a different solution than the prior extensive-form refinements in no-limit poker. We expect observable perfect equilibrium to be a useful equilibrium refinement concept for modeling many important imperfect-information games of interest in artificial intelligence.
translated by 谷歌翻译
In many real-world settings agents engage in strategic interactions with multiple opposing agents who can employ a wide variety of strategies. The standard approach for designing agents for such settings is to compute or approximate a relevant game-theoretic solution concept such as Nash equilibrium and then follow the prescribed strategy. However, such a strategy ignores any observations of opponents' play, which may indicate shortcomings that can be exploited. We present an approach for opponent modeling in multiplayer imperfect-information games where we collect observations of opponents' play through repeated interactions. We run experiments against a wide variety of real opponents and exact Nash equilibrium strategies in three-player Kuhn poker and show that our algorithm significantly outperforms all of the agents, including the exact Nash equilibrium strategies.
translated by 谷歌翻译
许多真实世界游戏包含可能影响收益,动作空间和信息状态的参数。对于参数的固定值,可以使用标准算法解决游戏。但是,在许多设置中,代理必须采取行动而不知道将提前遇到的参数的值。通常,人类在时间和资源限制的情况下必须做出决定,假设人类可以实时解决游戏是不现实的。我们提出了一个新的框架,使人类决策者能够在没有实时求解器的帮助下做出快速决策。我们展示了适用于各种情况,包括具有多个玩家的设置和不完美信息。
translated by 谷歌翻译
游戏历史悠久的历史悠久地作为人工智能进步的基准。最近,使用搜索和学习的方法在一系列完美的信息游戏中表现出强烈的表现,并且使用游戏理论推理和学习的方法对特定的不完美信息扑克变体表示了很强的性能。我们介绍游戏玩家,一个通用算法,统一以前的方法,结合导游搜索,自助学习和游戏理论推理。游戏播放器是实现大型完美和不完美信息游戏中强大实证性能的第一个算法 - 这是一项真正的任意环境算法的重要一步。我们证明了游戏玩家是声音,融合到完美的游戏,因为可用的计算时间和近似容量增加。游戏播放器在国际象棋上达到了强大的表现,然后击败了最强大的公开可用的代理商,在头上没有限制德克萨斯州扑克(Slumbot),击败了苏格兰院子的最先进的代理人,这是一个不完美的信息游戏,说明了引导搜索,学习和游戏理论推理的价值。
translated by 谷歌翻译
在竞争激烈的两种环境中,基于\ emph {double oracle(do)}算法的深度强化学习(RL)方法,例如\ emph {policy space响应oracles(psro)}和\ emph {任何时间psro(apsro)},迭代地将RL最佳响应策略添加到人群中。最终,这些人口策略的最佳混合物将近似于NASH平衡。但是,这些方法可能需要在收敛之前添加所有确定性策略。在这项工作中,我们介绍了\ emph {selfplay psro(sp-psro)},这种方法可在每次迭代中的种群中添加大致最佳的随机策略。SP-PSRO并不仅对对手的最少可剥削人口混合物添加确定性的最佳反应,而是学习了大致最佳的随机政策,并将其添加到人群中。结果,SPSRO从经验上倾向于比APSRO快得多,而且在许多游戏中,仅在几次迭代中收敛。
translated by 谷歌翻译
游戏理论到目前为止在各个领域都发现了许多应用,包括经济学,工业,法学和人工智能,每个玩家都只关心自己对非合作或合作方式的兴趣,但对其他玩家没有明显的恶意。但是,在许多实际应用中,例如扑克,国际象棋,逃避者追求,毒品拦截,海岸警卫队,网络安全和国防,球员通常都具有对抗性立场,也就是说,每个球员的自私行动不可避免地或故意造成损失或对其他球员造成严重破坏。沿着这条线,本文对在对抗性游戏中广泛使用的三种主要游戏模型(即零和零正常形式和广泛形式游戏,stackelberg(Security)游戏,零和差异游戏)提供了系统的调查。观点,包括游戏模型的基本知识,(近似)平衡概念,问题分类,研究前沿,(近似)最佳策略寻求技术,普遍的算法和实际应用。最后,还讨论了有关对抗性游戏的有希望的未来研究方向。
translated by 谷歌翻译
我们考虑估算人类代理偏好的问题,从战略系统数据反复相互作用。最近,证明了一种称为“量子遗憾”的新估计方法,对人类代理的估计比假设代理是合理的并且达到纳什均衡的经典方法产生更准确的估计;然而,这种方法尚未与考虑人类戏剧行为方面的方法进行比较。在本文中,我们为此目的利用行为经济学的均衡概念,并询问它们与量子后悔和纳什均衡方法相比的操作。我们开发了基于建立的行为均衡模型的四种估计方法,从观察到的正常形式游戏数据中推断人类的公用事业。我们研究的均衡模型是量子响应平衡,动作采样平衡,回报采样平衡和脉冲平衡平衡。我们表明,在这些概念中的一些概念中,推断通过封闭式公式进行分析地实现,而在其他方面则在其他方面只能算法算法。我们使用2x2游戏的实验数据来评估这些行为均衡方法的估计成功。结果表明,它们产生的估计比纳什均衡的估计更准确。与量子后悔方法的比较表明,行为方法具有更好的击中率,但模量遗憾的方法在整体平均平均误差方面表现更好,我们讨论了方法之间的差异。
translated by 谷歌翻译
We study the problem of computing an approximate Nash equilibrium of continuous-action game without access to gradients. Such game access is common in reinforcement learning settings, where the environment is typically treated as a black box. To tackle this problem, we apply zeroth-order optimization techniques that combine smoothed gradient estimators with equilibrium-finding dynamics. We model players' strategies using artificial neural networks. In particular, we use randomized policy networks to model mixed strategies. These take noise in addition to an observation as input and can flexibly represent arbitrary observation-dependent, continuous-action distributions. Being able to model such mixed strategies is crucial for tackling continuous-action games that lack pure-strategy equilibria. We evaluate the performance of our method using an approximation of the Nash convergence metric from game theory, which measures how much players can benefit from unilaterally changing their strategy. We apply our method to continuous Colonel Blotto games, single-item and multi-item auctions, and a visibility game. The experiments show that our method can quickly find high-quality approximate equilibria. Furthermore, they show that the dimensionality of the input noise is crucial for performance. To our knowledge, this paper is the first to solve general continuous-action games with unrestricted mixed strategies and without any gradient information.
translated by 谷歌翻译
最近的多人游戏的理论和应用方面的最新进步,从电子运动到多种子体生成的对抗网络,我们专注于团队零和游戏中的最大优化。在这类游戏中,玩家分为两支队伍,在同一支队内等等,对手团队的相反标志。与TextBook二手零和游戏不同,在我们的类中找到纳什均衡可以被证明是CLS-Hard,即,它不太可能具有用于计算NASH均衡的多项式时间算法。此外,在该广义框架中,使用梯度下降上升(GDA),其乐观变体和额外梯度,我们建立了即使是渐近的最后一次迭代或时间平均收敛到纳什均衡。具体来说,我们展示了一个诱导效用是\ emph {non}的团队游戏系列\ \ emph {non}有吸引力的\ {per-se}混合的纳什均衡,作为底层优化景观的严格鞍点。利用控制理论的技术,我们通过设计局部收敛的修改GDA来补充这些负面结果,以纳入均衡。最后,我们讨论了我们的框架与AI架构的联系,其中与多助理生成对冲网络这样的团队竞争结构。
translated by 谷歌翻译
尽管自1970年代以来就已经知道,普通付款游戏中的全球最佳策略概况是纳什均衡,但全球最优性是严格的要求,它限制了结果的适用性。在这项工作中,我们表明任何本地最佳的对称策略概况也是(全局)NASH平衡。此外,我们证明了这一结果对通用收益和本地最佳的扰动是可靠的。应用于机器学习,我们的结果为任何梯度方法提供了全球保证,该方法在对称策略空间中找到了局部最佳。尽管该结果表明单方面偏差的稳定性,但我们仍然确定了广泛的游戏类别,这些游戏混合了当地的最佳选择,在不对称的偏差下是不稳定的。我们通过在一系列对称游戏中运行学习算法来分析不稳定性的普遍性,并通过讨论结果对多代理RL,合作逆RL和分散的POMDP的适用性来得出结论。
translated by 谷歌翻译
我们分析了一种方案,其中软件代理作为后悔最小化算法代表他们的用户参与重复拍卖。我们研究了第一个价格和第二次价格拍卖,以及他们的广义版本(例如,作为用于广告拍卖的版本)。利用理论分析和模拟,我们展示了,令人惊讶的是,在二次价格拍卖中,球员的激励措施将他们的真正估值释放到自己的学习代理,而在第一次价格拍卖中,这是所有球员如实的主要战略向他们的代理商报告他们的估值。
translated by 谷歌翻译
反事实遗憾最小化(CFR)}是在具有不完美信息的两个玩家零和游戏中查找近似NASH均衡的流行方法。 CFR通过迭代地遍历全游戏树来解决游戏,这限制了其在更大的游戏中的可扩展性。在将CFR应用于以前解决大型游戏时,大型游戏首先被抽象成小型游戏。其次,CFR用于解决抽象游戏。最后,解决方案策略被映射到原始大规模游戏。然而,该过程需要相当大的专家知识,抽象的准确性与专业知识密切相关。此外,抽象还失去了某些信息,最终会影响解决方案策略的准确性。对此问题,最近的方法,\纺织{Deep CFR}通过将深神经网络直接应用于完整游戏中的CFR来缓解抽象和专家知识的需求。在本文中,我们介绍了\ Texit {神经网络反事实遗憾最小化(NNCFR)},一种改进的\ Texit {Deep CFR},通过构造Dueling NetWok作为价值网络而具有更快的收敛性。此外,通过组合价值网络和蒙特卡罗来设计评估模块,这减少了值网络的近似误差。此外,新的损失函数是在提议的\ Texit {NNCFR}中的培训策略网络的过程中设计的,这可能很好,使策略网络更稳定。进行了广泛的实验测试,以表明\ Textit {nncfr}会聚得更快,并且比\ texit {deep cfr}更稳定,并且在测试中倾斜\ yexit {deep cfr} uperforms游戏。
translated by 谷歌翻译
计算纳什均衡在多智能体游戏中是博弈论和计算机科学界面的长期挑战。众所周知,N个玩家和K策略中的一般正常形式游戏需要指数空间只是简单地写下。这种多代理的这种诅咒促使简洁游戏的研究可以有效地写下来。简洁游戏的规范示例是图形游戏,该图形游戏将播放器塑造为图形中的节点,只与他们的邻居与马尔可夫随机字段直接类似的邻居进行交互。图形游戏在无线,金融和社交网络中找到了应用程序。然而,计算图形游戏的纳什平衡已经证明了具有挑战性。即使对于PolyATRIX游戏,也可以将对代理人的资助的模型作为与代理邻居的交互的交互之和,所以证明计算epsilon近似NASH平衡是epsilon的PPAD,用于epsilon小于常数。这项工作的重点是通过考虑平均水平图模型i.e随机图来避免这种计算硬度。我们提供了一种用于计算PolyAtrix游戏的ePsilon近似NASH平衡的QuaSiewolynomial时间近似方案(QPTA),其具有高于Poly(k,1 / epsilon,ln(n))$的随机图。此外,通过相同的运行时间,我们可以计算epsilon - 近似的纳什均衡,即epsilon - 近似于游戏任何纳什均衡的最大社会福利。我们的主要技术创新是一种用于纳什均衡问题的新型等级凸面计划的“加速舍入”。我们加速的舍入也为MAX-2CSP的同一类随机图中的MAX-2CSP提供了更快的算法,这可能具有独立兴趣。
translated by 谷歌翻译
我们考虑战略设置,其中几个用户在重复的在线互动中聘用,辅助最小化的代理商代表他们反复发挥“游戏”。我们研究了代理人的重复游戏的动态和平均结果,并将其视为诱导用户之间的元游戏。我们的主要焦点是用户可以在此元游戏中从“操纵”他们自己的代理商中可以受益于他们自己的代理商。我们正式定义了普通游戏的这种“用户代理元荟萃游戏”模型,讨论了自动化代理动态的不同概念下的属性,并分析了2x2游戏中用户的均衡,其中动态收敛到a单均衡。
translated by 谷歌翻译
钢筋学习(RL)最近在许多人工智能应用中取得了巨大成功。 RL的许多最前沿应用涉及多个代理,例如,下棋和去游戏,自主驾驶和机器人。不幸的是,古典RL构建的框架不适合多代理学习,因为它假设代理的环境是静止的,并且没有考虑到其他代理的适应性。在本文中,我们介绍了动态环境中的多代理学习的随机游戏模型。我们专注于随机游戏的简单和独立学习动态的发展:每个代理商都是近视,并为其他代理商的战略选择最佳响应类型的行动,而不与对手进行任何协调。为随机游戏开发收敛最佳响应类型独立学习动态有限的进展。我们展示了我们最近提出的简单和独立的学习动态,可保证零汇率随机游戏的融合,以及对此设置中的动态多代理学习的其他同时算法的审查。一路上,我们还重新审视了博弈论和RL文学的一些古典结果,以适应我们独立的学习动态的概念贡献,以及我们分析的数学诺克特。我们希望这篇审查文件成为在博弈论中研究独立和自然学习动态的重新训练的推动力,对于具有动态环境的更具挑战性的环境。
translated by 谷歌翻译
在非常大型游戏中近似NASH平衡的最新技术利用神经网络来学习大致最佳政策(策略)。一条有前途的研究线使用神经网络来近似反事实遗憾最小化(CFR)或其现代变体。 Dream是目前唯一的基于CFR的神经方法,它是免费模型,因此可以扩展到非常大型游戏的Dream,它在估计的遗憾目标上训练神经网络,由于从Monte Carlo CFR继承的重要性采样术语,该遗憾目标可能具有极高的差异(MCCFR)(MCCFR) )。在本文中,我们提出了一种无偏模的方法,该方法不需要任何重要的采样。我们的方法(Escher)是原则上的,并且可以保证在表格情况下具有很高概率的近似NASH平衡。我们表明,具有Oracle值函数的Escher表格版本的估计遗憾的差异明显低于具有Oracle值函数的结果采样MCCFR和表格Dream的结果。然后,我们表明,埃舍尔的深度学习版本优于先前的艺术状态 - 梦和神经虚拟的自我游戏(NFSP) - 随着游戏规模的增加,差异变得戏剧化。
translated by 谷歌翻译
Stackelberg游戏模型,领导者致力于制定策略,而追随者最能做出响应,它发现了广泛的应用程序,特别是针对安全问题。在安全环境中,目标是为了保护某些资产,使领导者计算一个最佳策略。在许多这些应用程序中,追随者实用程序模型的参数尚不确定。分布式优化优化通过允许在可能的模型参数上进行分配来解决此问题,而该分布来自一组可能的分布。目的是最大程度地提高预期的效用,相对于最坏情况下的分布。我们启动了分配稳定模型的研究,以计算最佳策略。我们考虑了对追随者公用事业模型的不确定性的正常形式游戏的情况。我们的主要理论结果是表明,在各种不确定性模型中,始终存在分布稳定的stackelberg平衡。对于一组有限的追随者实用程序函数,我们提出了两种算法,用于计算使用数学程序的分布强烈的Stackelberg平衡(DRSSE)。接下来,在一般情况下,存在无限数量的可能的追随者实用程序功能,并且不确定性在有限支撑的名义分布周围由Wasserstein Ball表示,我们给出了一个增量的基于混合组合编程的算法来计算最佳的算法分配稳定的策略。实验证实了我们在经典的Stackelberg游戏中算法的障碍,这表明我们的进近范围扩展到中型游戏。
translated by 谷歌翻译
迄今为止,游戏中的学习研究主要集中在正常形式游戏上。相比之下,我们以广泛的形式游戏(EFG),尤其是在许多代理商远远落后的EFG中对学习的理解,尽管它们与许多现实世界的应用更加接近。我们考虑了网络零和广泛表单游戏的天然类别,该游戏结合了代理收益的全球零和属性,图形游戏的有效表示以及EFG的表达能力。我们检查了这些游戏中乐观梯度上升(OGA)的收敛属性。我们证明,这种在线学习动力学的时间平均值表现出$ O(1/t)$ rate contergence convergence contergence contergence。此外,我们表明,对于某些与游戏有关的常数$ c> 0 $,日常行为也与速率$ o(c^{ - t})$收敛到nash。
translated by 谷歌翻译