反事实遗憾最小化(CFR)}是在具有不完美信息的两个玩家零和游戏中查找近似NASH均衡的流行方法。 CFR通过迭代地遍历全游戏树来解决游戏,这限制了其在更大的游戏中的可扩展性。在将CFR应用于以前解决大型游戏时,大型游戏首先被抽象成小型游戏。其次,CFR用于解决抽象游戏。最后,解决方案策略被映射到原始大规模游戏。然而,该过程需要相当大的专家知识,抽象的准确性与专业知识密切相关。此外,抽象还失去了某些信息,最终会影响解决方案策略的准确性。对此问题,最近的方法,\纺织{Deep CFR}通过将深神经网络直接应用于完整游戏中的CFR来缓解抽象和专家知识的需求。在本文中,我们介绍了\ Texit {神经网络反事实遗憾最小化(NNCFR)},一种改进的\ Texit {Deep CFR},通过构造Dueling NetWok作为价值网络而具有更快的收敛性。此外,通过组合价值网络和蒙特卡罗来设计评估模块,这减少了值网络的近似误差。此外,新的损失函数是在提议的\ Texit {NNCFR}中的培训策略网络的过程中设计的,这可能很好,使策略网络更稳定。进行了广泛的实验测试,以表明\ Textit {nncfr}会聚得更快,并且比\ texit {deep cfr}更稳定,并且在测试中倾斜\ yexit {deep cfr} uperforms游戏。
translated by 谷歌翻译
反事实遗憾最小化(CFR)在解决大规模不完美信息游戏(IIG)方面取得了许多令人着迷的结果。神经网络近似CFR(神经CFR)是通过概括类似状态之间的决策信息来降低计算和存储器消耗的有希望的技术之一。目前的神经CFR算法必须近似累积遗憾。然而,大规模IIG的高效和准确近似仍然是一个艰难的挑战。本文提出了一种新的CFR变体递归CFR(RECFR)。在RECFR中,学习递归替代值(RSV)并用于替换累积遗憾。证明RECFR可以以$ O(\ FRAC {1} {\ SQRT {T}})$的速率收敛到纳什均衡。基于RECFR,提出了一种具有自动启动学习,神经RECFR-B的新的无模式神经CFR。由于RSV的递归和非累积性质,神经RECFR-B具有比其他神经CFR的较低方差训练目标。实验结果表明,神经RECFR-B以低得多的训练成本与最先进的神经CFR算法竞争。
translated by 谷歌翻译
通过少数院校拥有不懈的努力,最近在设计超人AIS中的重大进展,在无限制的德克萨斯州举行(NLTH)中,是大规模不完美信息游戏研究的主要测试平台。然而,新研究人员对新的研究人员来说仍然有挑战性,因为没有与现有方法相比,这严重阻碍了本研究区域的进一步发展。在这项工作中,我们展示了OpenHoldem,一个用于使用NLTH的大规模不完美信息游戏研究的集成工具包。 OpenHoldem对这一研究方向进行了三个主要贡献:1)用于彻底评估不同NLTH AIS,2)用于NLTH AI的四个公开可用的强大基线的标准化评估方案,以及3)一个在线测试平台,公众易于使用API nlth ai评估。我们在Holdem.Ia.ac.CN发布了OpenHoldem,希望它有助于进一步研究该领域的未解决的理论和计算问题,并培养对手建模和人机互动学习等关键研究问题。
translated by 谷歌翻译
游戏历史悠久的历史悠久地作为人工智能进步的基准。最近,使用搜索和学习的方法在一系列完美的信息游戏中表现出强烈的表现,并且使用游戏理论推理和学习的方法对特定的不完美信息扑克变体表示了很强的性能。我们介绍游戏玩家,一个通用算法,统一以前的方法,结合导游搜索,自助学习和游戏理论推理。游戏播放器是实现大型完美和不完美信息游戏中强大实证性能的第一个算法 - 这是一项真正的任意环境算法的重要一步。我们证明了游戏玩家是声音,融合到完美的游戏,因为可用的计算时间和近似容量增加。游戏播放器在国际象棋上达到了强大的表现,然后击败了最强大的公开可用的代理商,在头上没有限制德克萨斯州扑克(Slumbot),击败了苏格兰院子的最先进的代理人,这是一个不完美的信息游戏,说明了引导搜索,学习和游戏理论推理的价值。
translated by 谷歌翻译
在非常大型游戏中近似NASH平衡的最新技术利用神经网络来学习大致最佳政策(策略)。一条有前途的研究线使用神经网络来近似反事实遗憾最小化(CFR)或其现代变体。 Dream是目前唯一的基于CFR的神经方法,它是免费模型,因此可以扩展到非常大型游戏的Dream,它在估计的遗憾目标上训练神经网络,由于从Monte Carlo CFR继承的重要性采样术语,该遗憾目标可能具有极高的差异(MCCFR)(MCCFR) )。在本文中,我们提出了一种无偏模的方法,该方法不需要任何重要的采样。我们的方法(Escher)是原则上的,并且可以保证在表格情况下具有很高概率的近似NASH平衡。我们表明,具有Oracle值函数的Escher表格版本的估计遗憾的差异明显低于具有Oracle值函数的结果采样MCCFR和表格Dream的结果。然后,我们表明,埃舍尔的深度学习版本优于先前的艺术状态 - 梦和神经虚拟的自我游戏(NFSP) - 随着游戏规模的增加,差异变得戏剧化。
translated by 谷歌翻译
Researchers have demonstrated that neural networks are vulnerable to adversarial examples and subtle environment changes, both of which one can view as a form of distribution shift. To humans, the resulting errors can look like blunders, eroding trust in these agents. In prior games research, agent evaluation often focused on the in-practice game outcomes. While valuable, such evaluation typically fails to evaluate robustness to worst-case outcomes. Prior research in computer poker has examined how to assess such worst-case performance, both exactly and approximately. Unfortunately, exact computation is infeasible with larger domains, and existing approximations rely on poker-specific knowledge. We introduce ISMCTS-BR, a scalable search-based deep reinforcement learning algorithm for learning a best response to an agent, thereby approximating worst-case performance. We demonstrate the technique in several two-player zero-sum games against a variety of agents, including several AlphaZero-based agents.
translated by 谷歌翻译
随着alphago的突破,人机游戏的AI已经成为一个非常热门的话题,吸引了世界各地的研究人员,这通常是测试人工智能的有效标准。已经开发了各种游戏AI系统(AIS),如Plibratus,Openai Five和AlphaStar,击败了专业人员。在本文中,我们调查了最近的成功游戏AIS,覆盖棋盘游戏AIS,纸牌游戏AIS,第一人称射击游戏AIS和实时战略游戏AIS。通过这项调查,我们1)比较智能决策领域的不同类型游戏之间的主要困难; 2)说明了开发专业水平AIS的主流框架和技术; 3)提高当前AIS中的挑战或缺点,以实现智能决策; 4)试图提出奥运会和智能决策技巧的未来趋势。最后,我们希望这篇简短的审查可以为初学者提供介绍,激发了在游戏中AI提交的研究人员的见解。
translated by 谷歌翻译
While Nash equilibrium has emerged as the central game-theoretic solution concept, many important games contain several Nash equilibria and we must determine how to select between them in order to create real strategic agents. Several Nash equilibrium refinement concepts have been proposed and studied for sequential imperfect-information games, the most prominent being trembling-hand perfect equilibrium, quasi-perfect equilibrium, and recently one-sided quasi-perfect equilibrium. These concepts are robust to certain arbitrarily small mistakes, and are guaranteed to always exist; however, we argue that neither of these is the correct concept for developing strong agents in sequential games of imperfect information. We define a new equilibrium refinement concept for extensive-form games called observable perfect equilibrium in which the solution is robust over trembles in publicly-observable action probabilities (not necessarily over all action probabilities that may not be observable by opposing players). Observable perfect equilibrium correctly captures the assumption that the opponent is playing as rationally as possible given mistakes that have been observed (while previous solution concepts do not). We prove that observable perfect equilibrium is always guaranteed to exist, and demonstrate that it leads to a different solution than the prior extensive-form refinements in no-limit poker. We expect observable perfect equilibrium to be a useful equilibrium refinement concept for modeling many important imperfect-information games of interest in artificial intelligence.
translated by 谷歌翻译
离线增强学习(离线RL)是一个新兴领域,由于其能够从早期收集的数据集中学习行为,该领域最近开始在各个应用领域中引起关注。当与环境进一步交互(计算或其他方式),不安全或完全不可行时,必须使用记录数据。离线RL被证明非常成功,为解决以前棘手的现实世界问题铺平了道路,我们旨在将此范式推广到多代理或多人游戏设置。由于缺乏标准化数据集和有意义的基准,因此在这一领域进行的研究很少,因为进展受到阻碍。在这项工作中,我们将术语“离线平衡发现(OEF)”创造,以描述该区域并构建多个数据集,这些数据集由使用多种既定方法在各种游戏中收集的策略组成。我们还提出了一种基准方法 - 行为克隆和基于模型的算法的合并。我们的两种基于模型的算法 - OEF-PSRO和OEF-CFR - 是在离线学习的背景下,广泛使用的平衡发现算法深入CFR和PSRO的适应。在经验部分中,我们评估了构造数据集上基准算法的性能。我们希望我们的努力可以帮助加速大规模平衡发现的研究。数据集和代码可在https://github.com/securitygames/oef上获得。
translated by 谷歌翻译
\ emph {ex ante}相关性正在成为\ emph {顺序对抗团队游戏}的主流方法,其中一组球员在零和游戏中面对另一支球队。众所周知,团队成员的不对称信息同时使平衡计算\ textsf {apx} - hard和团队的策略在游戏树上不可直接表示。后一个问题阻止采用成功的2个玩家零和游戏的成功工具,例如,\ emph {e.g。},抽象,无regret学习和子游戏求解。这项工作表明,我们可以通过弥合顺序对抗团队游戏和2次玩家游戏之间的差距来恢复这种弱点。特别是,我们提出了一种新的,合适的游戏表示形式,我们称之为\ emph {Team-Public-information},其中团队被代表为单个协调员,他只知道整个团队的共同信息,并向每个成员开出一个行动对于任何可能的私人状态。最终的表示形式是高度\ emph {可解释},是一棵2播放器树,在设计抽象时,团队的策略具有直接解释和更具表现力的行为,并且具有更高的表现力。此外,我们证明了代表性的回报等效性,并提供了直接从广泛形式开始的技术,从而在没有信息损失的情况下产生了更紧凑的表示形式。最后,我们在应用于标准测试床上的技术时对技术进行了实验评估,并将它们的性能与当前的最新状态进行了比较。
translated by 谷歌翻译
在不完美的信息游戏中最近的最近结果仅适用于,或评估,扑克和扑克和扑克等游戏,如骗子的骰子。我们争辩说,连续的贝叶斯游戏构成了一类自然游戏,以概括这些结果。特别地,该模型允许优雅地制定反事实遗忘最小化算法,称为公共州CFR(PS-CFR),其自然地将其自身用于有效的实现。经验,通过公共国家CFR求解10 ^ 7个态的扑克排放量需要3分钟和700 MB,而VANILLA CFR的可比版本需要5.5小时和20 GB。此外,CFR的公共规定开辟了利用域特异性假设的可能性,导致在扑克和其他领域的香草CFR上渐近复杂性(和进一步的实证加速)二次减少。总体而言,这表明能够将扑克代表作为顺序贝叶斯游戏在基于CFR的方法的成功中发挥了关键作用。最后,我们将公共州CFR扩展到一般广泛形式的游戏,争论这种延伸享有一些 - 但不是全部的歌曲贝叶斯游戏的福利。
translated by 谷歌翻译
在竞争激烈的两种环境中,基于\ emph {double oracle(do)}算法的深度强化学习(RL)方法,例如\ emph {policy space响应oracles(psro)}和\ emph {任何时间psro(apsro)},迭代地将RL最佳响应策略添加到人群中。最终,这些人口策略的最佳混合物将近似于NASH平衡。但是,这些方法可能需要在收敛之前添加所有确定性策略。在这项工作中,我们介绍了\ emph {selfplay psro(sp-psro)},这种方法可在每次迭代中的种群中添加大致最佳的随机策略。SP-PSRO并不仅对对手的最少可剥削人口混合物添加确定性的最佳反应,而是学习了大致最佳的随机政策,并将其添加到人群中。结果,SPSRO从经验上倾向于比APSRO快得多,而且在许多游戏中,仅在几次迭代中收敛。
translated by 谷歌翻译
In many real-world settings agents engage in strategic interactions with multiple opposing agents who can employ a wide variety of strategies. The standard approach for designing agents for such settings is to compute or approximate a relevant game-theoretic solution concept such as Nash equilibrium and then follow the prescribed strategy. However, such a strategy ignores any observations of opponents' play, which may indicate shortcomings that can be exploited. We present an approach for opponent modeling in multiplayer imperfect-information games where we collect observations of opponents' play through repeated interactions. We run experiments against a wide variety of real opponents and exact Nash equilibrium strategies in three-player Kuhn poker and show that our algorithm significantly outperforms all of the agents, including the exact Nash equilibrium strategies.
translated by 谷歌翻译
在正常游戏中,简单,未耦合的无regret动态与相关的平衡是多代理系统理论的著名结果。具体而言,已知20多年来,当所有玩家都试图在重复的正常游戏中最大程度地减少其内部遗憾时,游戏的经验频率会收敛于正常形式相关的平衡。广泛的形式(即树形)游戏通过对顺序和同时移动以及私人信息进行建模,从而推广正常形式的游戏。由于游戏中部分信息的顺序性质和存在,因此广泛的形式相关性具有与正常形式的属性明显不同,而正常形式的相关性仍然是开放的研究方向。已经提出了广泛的形式相关平衡(EFCE)作为自然的广泛形式与正常形式相关平衡。但是,目前尚不清楚EFCE是否是由于未耦合的代理动力学而出现的。在本文中,我们给出了第一个未耦合的无regret动态,该动态将$ n $ n $ - 玩家的General-sum大型游戏收敛于EFCE,并带有完美的回忆。首先,我们在广泛的游戏中介绍了触发遗憾的概念,这扩展了正常游戏中的内部遗憾。当每个玩家的触发后悔低时,游戏的经验频率接近EFCE。然后,我们给出有效的无触发式算法。我们的算法在每个决策点在每个决策点上都会从每个决策点构建播放器的全球策略,从而将触发遗憾分解为本地子问题。
translated by 谷歌翻译
我们介绍了DeepNash,这是一种能够学习从头开始播放不完美的信息游戏策略的自主代理,直到人类的专家级别。 Stratego是人工智能(AI)尚未掌握的少数标志性棋盘游戏之一。这个受欢迎的游戏具有$ 10^{535} $节点的巨大游戏树,即,$ 10^{175} $倍的$倍于GO。它具有在不完美的信息下需要决策的其他复杂性,类似于德克萨斯州Hold'em扑克,该扑克的游戏树较小(以$ 10^{164} $节点为单位)。 Stratego中的决策是在许多离散的动作上做出的,而动作与结果之间没有明显的联系。情节很长,在球员获胜之前经常有数百次动作,而Stratego中的情况则不能像扑克中那样轻松地分解成管理大小的子问题。由于这些原因,Stratego几十年来一直是AI领域的巨大挑战,现有的AI方法几乎没有达到业余比赛水平。 Deepnash使用游戏理论,无模型的深钢筋学习方法,而无需搜索,该方法学会通过自我播放来掌握Stratego。 DeepNash的关键组成部分的正则化NASH Dynamics(R-NAD)算法通过直接修改基础多项式学习动力学来收敛到近似NASH平衡,而不是围绕它“循环”。 Deepnash在Stratego中击败了现有的最先进的AI方法,并在Gravon Games平台上获得了年度(2022年)和历史前3名,并与人类专家竞争。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
事后观察合理性是一种玩一般游戏的方法,该游戏规定了针对一组偏差的单个代理的无重格学习动态,并进一步描述了具有介导的平衡的多个代理商之间的共同理性行为。为了在依次的决策设置中发展事后理性学习,我们将行为偏差形式化为一般偏差,尊重广泛形式游戏的结构。将时间选择的概念整合到反事实遗憾的最小化(CFR)中,我们介绍了广泛的遗憾最小化(EFR)算法,该算法对于任何给定的行为偏差都具有与集合的复杂性紧密相关的计算相关的行为偏差。我们识别行为偏差子集,部分序列偏差类型,这些类型还包含先前研究的类型并导致长度中等的游戏中有效的EFR实例。此外,我们对基准游戏中不同偏差类型实例化的EFR进行了彻底的经验分析,我们发现更强大的类型通常会引起更好的性能。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
许多真实世界游戏包含可能影响收益,动作空间和信息状态的参数。对于参数的固定值,可以使用标准算法解决游戏。但是,在许多设置中,代理必须采取行动而不知道将提前遇到的参数的值。通常,人类在时间和资源限制的情况下必须做出决定,假设人类可以实时解决游戏是不现实的。我们提出了一个新的框架,使人类决策者能够在没有实时求解器的帮助下做出快速决策。我们展示了适用于各种情况,包括具有多个玩家的设置和不完美信息。
translated by 谷歌翻译
本文介绍了大型不完美信息游戏的深层舞蹈蒙特卡罗规划(DSMCP)。该算法构造具有未加权粒子滤波器的信念状态,并通过从信仰状态汲取的样本开始的播出的计划。该算法通过对“Tempopses”的推断进行了不确定性来占据不确定性,这是信息状态的新型随机抽象。DSMCP是Penumbra的基础,赢得了官方2020次侦察盲目象棋竞争与其他33个其他计划。本文还评估了含有小心,偏执和新推出算法的算法变体。此外,它审核了Penumbra中使用的概要功能,具有每位显着性统计。
translated by 谷歌翻译