Axie Infinity是一款复杂的纸牌游戏,具有巨大的动作空间。这使得很难使用通用增强学习(RL)算法解决这一挑战。我们提出了一个混合RL框架来学习行动表示和游戏策略。为了避免评估大型可行动作集中的每个动作,我们的方法评估使用动作表示确定的固定大小集中的动作。我们将方法的性能与其他两个基线方法的样本效率和受过训练模型的获胜率进行了比较。我们从经验上表明,我们的方法达到了三种方法中总体上最佳的获胜率和最佳样本效率。
translated by 谷歌翻译
随着alphago的突破,人机游戏的AI已经成为一个非常热门的话题,吸引了世界各地的研究人员,这通常是测试人工智能的有效标准。已经开发了各种游戏AI系统(AIS),如Plibratus,Openai Five和AlphaStar,击败了专业人员。在本文中,我们调查了最近的成功游戏AIS,覆盖棋盘游戏AIS,纸牌游戏AIS,第一人称射击游戏AIS和实时战略游戏AIS。通过这项调查,我们1)比较智能决策领域的不同类型游戏之间的主要困难; 2)说明了开发专业水平AIS的主流框架和技术; 3)提高当前AIS中的挑战或缺点,以实现智能决策; 4)试图提出奥运会和智能决策技巧的未来趋势。最后,我们希望这篇简短的审查可以为初学者提供介绍,激发了在游戏中AI提交的研究人员的见解。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
通过少数院校拥有不懈的努力,最近在设计超人AIS中的重大进展,在无限制的德克萨斯州举行(NLTH)中,是大规模不完美信息游戏研究的主要测试平台。然而,新研究人员对新的研究人员来说仍然有挑战性,因为没有与现有方法相比,这严重阻碍了本研究区域的进一步发展。在这项工作中,我们展示了OpenHoldem,一个用于使用NLTH的大规模不完美信息游戏研究的集成工具包。 OpenHoldem对这一研究方向进行了三个主要贡献:1)用于彻底评估不同NLTH AIS,2)用于NLTH AI的四个公开可用的强大基线的标准化评估方案,以及3)一个在线测试平台,公众易于使用API nlth ai评估。我们在Holdem.Ia.ac.CN发布了OpenHoldem,希望它有助于进一步研究该领域的未解决的理论和计算问题,并培养对手建模和人机互动学习等关键研究问题。
translated by 谷歌翻译
Although most reinforcement learning research has centered on competitive games, little work has been done on applying it to co-operative multiplayer games or text-based games. Codenames is a board game that involves both asymmetric co-operation and natural language processing, which makes it an excellent candidate for advancing RL research. To my knowledge, this work is the first to formulate Codenames as a Markov Decision Process and apply some well-known reinforcement learning algorithms such as SAC, PPO, and A2C to the environment. Although none of the above algorithms converge for the Codenames environment, neither do they converge for a simplified environment called ClickPixel, except when the board size is small.
translated by 谷歌翻译
In fighting games, individual players of the same skill level often exhibit distinct strategies from one another through their gameplay. Despite this, the majority of AI agents for fighting games have only a single strategy for each "level" of difficulty. To make AI opponents more human-like, we'd ideally like to see multiple different strategies at each level of difficulty, a concept we refer to as "multidimensional" difficulty. In this paper, we introduce a diversity-based deep reinforcement learning approach for generating a set of agents of similar difficulty that utilize diverse strategies. We find this approach outperforms a baseline trained with specialized, human-authored reward functions in both diversity and performance.
translated by 谷歌翻译
强化学习在游戏的应用中表现出了出色的表现,尤其是在Atari游戏和GO中。基于这些成功的示例,我们试图将著名的增强学习算法(深Q网络)应用于AI足球游戏。 AI足球是5:5机器人足球比赛,每个参与者都会开发一种算法,该算法控制一个团队中的五个机器人以击败对手参与者。 Deep Q-Network旨在实现我们的原始奖励,状态空间和训练每个代理的行动空间,以便在游戏过程中可以在不同情况下采取适当的操作。我们的算法能够成功地训练代理商,并且通过对10支希望参加AI足球国际比赛的10支球队的小型竞争,其表现得到了初步证明。比赛是由AI世界杯委员会组织的,并与WCG 2019 Xi'an AI大师组织。有了我们的算法,我们在这场国际比赛中与来自39个国家的130支球队的国际比赛中获得了16轮的成就。
translated by 谷歌翻译
传统的增强学习(RL)环境通常在培训和测试阶段都相同。因此,当前的RL方法在很大程度上不能推广到概念上相似但与已训练的方法不同的测试环境,我们将其称为新型测试环境。为了将RL研究推向可以推广到新的测试环境的算法,我们介绍了砖Tic-TAC-TOE(BTTT)测试床,其中在测试环境中的砖位与训练环境中的砖位不同。使用BTTT环境上的圆形锦标赛,我们表明传统的RL国家搜索方法,例如Monte Carlo Tree Search(MCTS)和Minimax,比Alphazero更广泛地对新型测试环境更具概括性。令人惊讶的是,Alphazero已被证明可以在GO,Chess和Shogi等环境中实现超人的性能,这可能会导致人们认为它在新颖的测试环境中的性能很好。我们的结果表明,BTTT虽然很简单,但足够丰富,可以探索Alphazero的普遍性。我们发现,仅增加MCT的lookahead迭代是不足以使Alphazero推广到一些新型的测试环境。相反,增加各种培训环境有助于逐步改善所有可能的起始砖配置中的普遍性。
translated by 谷歌翻译
除了独奏游戏外,棋盘游戏至少需要其他玩家才能玩。因此,当对手失踪时,我们创建了人工智能(AI)代理商来对抗我们。这些AI代理是通过多种方式创建的,但是这些代理的一个挑战是,与我们相比,代理可以具有较高的能力。在这项工作中,我们描述了如何创建玩棋盘游戏的较弱的AI代理。我们使用Tic-Tac-toe,九名成员的莫里斯和曼卡拉,我们的技术使用了增强学习模型,代理商使用Q学习算法来学习这些游戏。我们展示了这些代理商如何学会完美地玩棋盘游戏,然后我们描述了制作这些代理商较弱版本的方法。最后,我们提供了比较AI代理的方法。
translated by 谷歌翻译
本文调查了具有不平等专业知识的组织之间竞争的动态。多智能体增强学习已被用来模拟和理解各种激励方案的影响,旨在抵消这种不等式。我们设计触摸标记,基于众所周知的多助手粒子环境的游戏,其中两支球队(弱,强),不平等但不断变化的技能水平相互竞争。对于培训此类游戏,我们提出了一种新颖的控制器辅助多智能体增强学习算法\我们的\,它使每个代理商携带策略的集合以及通过选择性地分区示例空间,触发智能角色划分队友。使用C-MADDPG作为潜在的框架,我们向弱小的团队提出了激励计划,使两队的最终奖励成为同一个。我们发现尽管激动人心,但弱小队的最终奖励仍然缺乏强大的团​​队。在检查中,我们意识到弱小球队的整体激励计划并未激励该团队中的较弱代理来学习和改进。要抵消这一点,我们现在特别激励了较弱的球员学习,因此,观察到超越初始阶段的弱小球队与更强大的团队表现。本文的最终目标是制定一种动态激励计划,不断平衡两支球队的奖励。这是通过设计富有奖励的激励计划来实现的,该计划从环境中取出最低信息。
translated by 谷歌翻译
离线增强学习(离线RL)是一个新兴领域,由于其能够从早期收集的数据集中学习行为,该领域最近开始在各个应用领域中引起关注。当与环境进一步交互(计算或其他方式),不安全或完全不可行时,必须使用记录数据。离线RL被证明非常成功,为解决以前棘手的现实世界问题铺平了道路,我们旨在将此范式推广到多代理或多人游戏设置。由于缺乏标准化数据集和有意义的基准,因此在这一领域进行的研究很少,因为进展受到阻碍。在这项工作中,我们将术语“离线平衡发现(OEF)”创造,以描述该区域并构建多个数据集,这些数据集由使用多种既定方法在各种游戏中收集的策略组成。我们还提出了一种基准方法 - 行为克隆和基于模型的算法的合并。我们的两种基于模型的算法 - OEF-PSRO和OEF-CFR - 是在离线学习的背景下,广泛使用的平衡发现算法深入CFR和PSRO的适应。在经验部分中,我们评估了构造数据集上基准算法的性能。我们希望我们的努力可以帮助加速大规模平衡发现的研究。数据集和代码可在https://github.com/securitygames/oef上获得。
translated by 谷歌翻译
反事实遗憾最小化(CFR)}是在具有不完美信息的两个玩家零和游戏中查找近似NASH均衡的流行方法。 CFR通过迭代地遍历全游戏树来解决游戏,这限制了其在更大的游戏中的可扩展性。在将CFR应用于以前解决大型游戏时,大型游戏首先被抽象成小型游戏。其次,CFR用于解决抽象游戏。最后,解决方案策略被映射到原始大规模游戏。然而,该过程需要相当大的专家知识,抽象的准确性与专业知识密切相关。此外,抽象还失去了某些信息,最终会影响解决方案策略的准确性。对此问题,最近的方法,\纺织{Deep CFR}通过将深神经网络直接应用于完整游戏中的CFR来缓解抽象和专家知识的需求。在本文中,我们介绍了\ Texit {神经网络反事实遗憾最小化(NNCFR)},一种改进的\ Texit {Deep CFR},通过构造Dueling NetWok作为价值网络而具有更快的收敛性。此外,通过组合价值网络和蒙特卡罗来设计评估模块,这减少了值网络的近似误差。此外,新的损失函数是在提议的\ Texit {NNCFR}中的培训策略网络的过程中设计的,这可能很好,使策略网络更稳定。进行了广泛的实验测试,以表明\ Textit {nncfr}会聚得更快,并且比\ texit {deep cfr}更稳定,并且在测试中倾斜\ yexit {deep cfr} uperforms游戏。
translated by 谷歌翻译
2021年,约翰霍普金斯大学应用物理实验室举行了内部挑战,以开发可以在合作牌游戏游戏Hanabi擅长的人工智能(AI)代理商。代理商被评估了他们与人类参与者从未遇到过的人类参与者的能力。本研究详细介绍了通过实现16.5的人类普及平均得分而赢得挑战的代理人,表现出目前的人类机器人Hanabi评分。获奖代理商的发展包括观察和准确地建立了作者在Hanabi的决策,然后用作者的行为克隆培训。值得注意的是,通过首先模仿人的决策,该代理商发现了人类互补的游戏风格,然后探讨了导致更高模拟人站分数的人类策略的变化。这项工作详细探讨了这项人类兼容的Hanabi队友的设计和实施,以及人类互补策略的存在和影响以及如何探索如何在人机团队中获得AI的更成功应用。
translated by 谷歌翻译
强化学习(RL)的最新进展使得可以在广泛的应用中开发出擅长的复杂剂。使用这种代理商的模拟可以在难以在现实世界中进行科学实验的情景中提供有价值的信息。在本文中,我们研究了足球RL代理商的游戏风格特征,并揭示了在训练期间可能发展的策略。然后将学习的策略与真正的足球运动员进行比较。我们探索通过使用聚合统计和社交网络分析(SNA)来探索使用模拟环境的学习内容。结果,我们发现(1)代理商的竞争力与各种SNA指标之间存在强烈的相关性,并且(2)RL代理商的各个方面,游戏风格与现实世界足球运动员相似,因为代理人变得更具竞争力。我们讨论了可能有必要的进一步进展,以改善我们必须充分利用RL进行足球的分析所需的理解。
translated by 谷歌翻译
Modern video games are becoming richer and more complex in terms of game mechanics. This complexity allows for the emergence of a wide variety of ways to play the game across the players. From the point of view of the game designer, this means that one needs to anticipate a lot of different ways the game could be played. Machine Learning (ML) could help address this issue. More precisely, Reinforcement Learning is a promising answer to the need of automating video game testing. In this paper we present a video game environment which lets us define multiple play-styles. We then introduce CARI: a Configurable Agent with Reward as Input. An agent able to simulate a wide continuum range of play-styles. It is not constrained to extreme archetypal behaviors like current methods using reward shaping. In addition it achieves this through a single training loop, instead of the usual one loop per play-style. We compare this novel training approach with the more classic reward shaping approach and conclude that CARI can also outperform the baseline on archetypes generation. This novel agent could be used to investigate behaviors and balancing during the production of a video game with a realistic amount of training time.
translated by 谷歌翻译
深度加强学习(RL)的最新进展导致许多2人零和游戏中的相当大的进展,如去,扑克和星际争霸。这种游戏的纯粹对抗性质允许概念上简单地应用R1方法。然而,现实世界的设置是许多代理商,代理交互是复杂的共同利益和竞争方面的混合物。我们认为外交,一个旨在突出由多种代理交互导致的困境的7人棋盘游戏。它还具有大型组合动作空间和同时移动,这对RL算法具有具有挑战性。我们提出了一个简单但有效的近似最佳响应操作员,旨在处理大型组合动作空间并同时移动。我们还介绍了一系列近似虚构游戏的政策迭代方法。通过这些方法,我们成功地将RL申请到外交:我们认为我们的代理商令人信服地令人信服地表明,游戏理论均衡分析表明新过程产生了一致的改进。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
本文介绍了Kings Arena的荣誉,Kings Arena是基于国王荣誉的强化学习(RL)环境,这是世界上最受欢迎的游戏之一。与以前大多数工作中研究的其他环境相比,我们的人对竞争性强化学习提出了新的概括挑战。与对手竞争的一个代理商是一个多代理的问题;它需要概括能力,因为它具有控制和不同的对手竞争的不同目标。我们描述了国王域名荣誉的观察,动作和奖励规范,并提供了一个基于python的开源界面,以与游戏引擎进行通信。我们为纪念国王竞技场的二十个目标英雄提供了各种任务,并为具有可行的计算资源的基于RL的方法提供了初始基线结果。最后,我们展示了国王竞技场的荣誉和对挑战的可能补救措施所面临的概括挑战。所有软件(包括环境级)均可在https://github.com/tencent-ailab/hok_env上公开获得。该文档可在https://aiarena.tencent.com/hok/doc/上获得。
translated by 谷歌翻译
本文涵盖了基于N组的加强学习(RL)算法。我们为TD-,Sarsa-and Q-Learning提供了新的算法,这些算法在各种游戏中无缝工作,任意数量的玩家。这是通过采用以球员为中心的视图来实现的,其中每个玩家将他/她的奖励传播到以前的轮次。我们将称为最终适应RL(Farl)的新元素添加到所有这些算法。我们的主要贡献是,Farl是一项最重要的成分,可以在各种游戏中以可爱的球员为中心的观点实现成功。我们向七个棋盘游戏报告结果1,2和3名球员,包括奥赛罗,Connectfour和Hex。在大多数情况下,发现Farl非常重要,无法学习近乎完美的竞争策略。所有算法都在GitHub上的GBG框架中提供。
translated by 谷歌翻译
哈纳比(Hanabi)是一款合作游戏,它带来了将其他玩家建模到最前沿的问题。在这个游戏中,协调的一组玩家可以利用预先建立的公约发挥出色的效果,但是在临时环境中进行比赛需要代理商适应其伴侣的策略,而没有以前的协调。在这种情况下评估代理需要各种各样的潜在伙伴人群,但是到目前为止,尚未以系统的方式考虑代理的行为多样性。本文提出了质量多样性算法作为有前途的算法类别,以生成多种人群为此目的,并使用MAP-ELITE生成一系列不同的Hanabi代理。我们还假设,在培训期间,代理商可以从多样化的人群中受益,并实施一个简单的“元策略”,以适应代理人的感知行为利基市场。我们表明,即使可以正确推断其伴侣的行为利基市场,即使培训其伴侣的行为利基市场,这种元策略也可以比通才策略更好地工作,但是在实践中,伴侣的行为取决于并干扰了元代理自己的行为,这表明是一条途径对于未来的研究,可以在游戏过程中表征另一个代理商的行为。
translated by 谷歌翻译