在解决双球员零和游戏时,多代理强化学习(MARL)算法通常会在每次迭代时创造代理人群,在每次迭代时,将被发现为对对手人口对混合的最佳响应。在这样的过程中,“遵循”(即对手混合物)和“如何击败它们”(即寻找最佳响应)的更新规则是由手动开发的游戏理论原则基础,如虚构的游戏和双倍甲骨文。在本文中,我们介绍了一种新颖的框架 - 神经自动课程(NAC) - 利用元梯度下降来自动化学习更新规则的发现,而无明确的人类设计。具体而言,我们通过优化子程序参数通过神经网络和最佳响应模块参数化对手选择模块,并通过与游戏引擎的交互仅更新其参数,其中播放器旨在最大限度地减少其利用性。令人惊讶的是,即使没有人类的设计,发现的Marl算法也可以通过基于最先进的人口的游戏,在技能游戏,可微分的乐透,不转化的混合物游戏中实现竞争或更好的性能,实现竞争或更好的性能。迭代匹配的便士和kuhn扑克。此外,我们表明NAC能够从小型游戏到大型游戏,例如Kuhn Poker培训,在LEDUC扑克上表现优于PSRO。我们的工作激发了一个未来的未来方向,以完全从数据发现一般的Marl算法。
translated by 谷歌翻译
本文提出了用于学习两人零和马尔可夫游戏的小说,端到端的深钢筋学习算法。我们的目标是找到NASH平衡政策,这些策略不受对抗对手的剥削。本文与以前在广泛形式的游戏中找到NASH平衡的努力不同,这些游戏具有树结构的过渡动态和离散的状态空间,本文着重于具有一般过渡动态和连续状态空间的马尔可夫游戏。我们提出了(1)NASH DQN算法,该算法将DQN与nash finding subroutine集成在一起的联合价值函数; (2)NASH DQN利用算法,该算法还采用了指导代理商探索的剥削者。我们的算法是理论算法的实用变体,这些变体可以保证在基本表格设置中融合到NASH平衡。对表格示例和两个玩家Atari游戏的实验评估证明了针对对抗对手的拟议算法的鲁棒性,以及对现有方法的优势性能。
translated by 谷歌翻译
离线增强学习(离线RL)是一个新兴领域,由于其能够从早期收集的数据集中学习行为,该领域最近开始在各个应用领域中引起关注。当与环境进一步交互(计算或其他方式),不安全或完全不可行时,必须使用记录数据。离线RL被证明非常成功,为解决以前棘手的现实世界问题铺平了道路,我们旨在将此范式推广到多代理或多人游戏设置。由于缺乏标准化数据集和有意义的基准,因此在这一领域进行的研究很少,因为进展受到阻碍。在这项工作中,我们将术语“离线平衡发现(OEF)”创造,以描述该区域并构建多个数据集,这些数据集由使用多种既定方法在各种游戏中收集的策略组成。我们还提出了一种基准方法 - 行为克隆和基于模型的算法的合并。我们的两种基于模型的算法 - OEF-PSRO和OEF-CFR - 是在离线学习的背景下,广泛使用的平衡发现算法深入CFR和PSRO的适应。在经验部分中,我们评估了构造数据集上基准算法的性能。我们希望我们的努力可以帮助加速大规模平衡发现的研究。数据集和代码可在https://github.com/securitygames/oef上获得。
translated by 谷歌翻译
在竞争激烈的两种环境中,基于\ emph {double oracle(do)}算法的深度强化学习(RL)方法,例如\ emph {policy space响应oracles(psro)}和\ emph {任何时间psro(apsro)},迭代地将RL最佳响应策略添加到人群中。最终,这些人口策略的最佳混合物将近似于NASH平衡。但是,这些方法可能需要在收敛之前添加所有确定性策略。在这项工作中,我们介绍了\ emph {selfplay psro(sp-psro)},这种方法可在每次迭代中的种群中添加大致最佳的随机策略。SP-PSRO并不仅对对手的最少可剥削人口混合物添加确定性的最佳反应,而是学习了大致最佳的随机政策,并将其添加到人群中。结果,SPSRO从经验上倾向于比APSRO快得多,而且在许多游戏中,仅在几次迭代中收敛。
translated by 谷歌翻译
近年来,基于梯度的Meta-RL(GMRL)方法在发现一个单一任务的有效在线超参数中取得了显着的成功(XU等,2018)或学习多任务转移学习的良好初始化(Finn等人。 ,2017)。尽管有经验的成功,但经常被忽视,通过香草背交计算元梯度是不明定义的。在本文中,我们认为许多现有的MGRL方法采用的随机元梯度估计实际上是偏见的;偏差来自两个来源:1)在组成优化问题的结构中自然的成分偏差和2)由直接自动分化引起的多步粗糙估计的偏差。为了更好地了解元梯度偏差,我们首先执行其研究,以量化每个研究。我们首先为现有的GMRL算法提供统一的推导,然后理论上分析偏差和现有梯度估计方法的方差。了解偏见的基本原则,我们提出了两种缓解解决方案,基于脱离政策校正和多步理估计技术。已经进行了综合烧蚀研究,结果显示:(1)当与不同估计器/示例大小/步骤和学习率相结合时,它们的存在以及它们如何影响元梯度估计。 (2)这些缓解方法对Meta梯度估计的有效性,从而最终回报率两种实用的Meta-RL算法:Lola-Dice和Meta-梯度加固学习。
translated by 谷歌翻译
深度加强学习(RL)的最新进展导致许多2人零和游戏中的相当大的进展,如去,扑克和星际争霸。这种游戏的纯粹对抗性质允许概念上简单地应用R1方法。然而,现实世界的设置是许多代理商,代理交互是复杂的共同利益和竞争方面的混合物。我们认为外交,一个旨在突出由多种代理交互导致的困境的7人棋盘游戏。它还具有大型组合动作空间和同时移动,这对RL算法具有具有挑战性。我们提出了一个简单但有效的近似最佳响应操作员,旨在处理大型组合动作空间并同时移动。我们还介绍了一系列近似虚构游戏的政策迭代方法。通过这些方法,我们成功地将RL申请到外交:我们认为我们的代理商令人信服地令人信服地表明,游戏理论均衡分析表明新过程产生了一致的改进。
translated by 谷歌翻译
DeepMind的游戏理论与多代理团队研究多学科学习的几个方面,从计算近似值到游戏理论中的基本概念,再到在富裕的空间环境中模拟社会困境,并在困难的团队协调任务中培训3-D类人动物。我们小组的一个签名目的是使用DeepMind在DeepMind中提供的资源和专业知识,以深入强化学习来探索复杂环境中的多代理系统,并使用这些基准来提高我们的理解。在这里,我们总结了我们团队的最新工作,并提出了一种分类法,我们认为这重点介绍了多代理研究中许多重要的开放挑战。
translated by 谷歌翻译
强化学习(RL)的概括对于RL算法的实际部署至关重要。提出了各种方案来解决概括问题,包括转移学习,多任务学习和元学习,以及健壮和对抗性的强化学习。但是,各种方案都没有统一的表述,也没有跨不同方案的方法的全面比较。在这项工作中,我们提出了一个游戏理论框架,用于加强学习的概括,名为Girl,在该框架中,RL代理在一组任务中对对手进行了训练,对手可以在给定阈值内对任务进行分配。使用不同的配置,女孩可以减少上述各种方案。为了解决女孩,我们将广泛使用的方法改编在游戏理论中,策略空间响应Oracle(PSRO)进行以下三个重要修改:i)我们使用模型 - 静脉元学习(MAML)作为最佳反应甲骨文,II)我们提出了一个经过修改的投影复制的动力学,即R-PRD,该动力学确保了对手的计算元策略在阈值中,并且iii)我们还为测试过程中的多个策略进行了几次学习的协议。关于穆约科科环境的广泛实验表明,我们提出的方法可以胜过现有的基线,例如MAML。
translated by 谷歌翻译
在各种策略中,学会对任何混合物进行最佳作用是竞争游戏中重要的实践兴趣。在本文中,我们提出了同时满足两个Desiderata的单纯形式:i)学习以单个条件网络为代表的战略性不同的基础政策;ii)使用同一网络,通过基础策略的单纯形式学习最佳反应。我们表明,由此产生的条件策略有效地包含了有关对手的先前信息,从而在具有可拖动最佳响应的游戏中几乎可以针对任意混合策略的最佳回报。我们验证此类政策在不确定性下表现出色,并在测试时使用这种灵活性提供了见解。最后,我们提供的证据表明,对任何混合政策学习最佳响应是战略探索的有效辅助任务,这本身可以导致更多的性能人群。
translated by 谷歌翻译
我们介绍了DeepNash,这是一种能够学习从头开始播放不完美的信息游戏策略的自主代理,直到人类的专家级别。 Stratego是人工智能(AI)尚未掌握的少数标志性棋盘游戏之一。这个受欢迎的游戏具有$ 10^{535} $节点的巨大游戏树,即,$ 10^{175} $倍的$倍于GO。它具有在不完美的信息下需要决策的其他复杂性,类似于德克萨斯州Hold'em扑克,该扑克的游戏树较小(以$ 10^{164} $节点为单位)。 Stratego中的决策是在许多离散的动作上做出的,而动作与结果之间没有明显的联系。情节很长,在球员获胜之前经常有数百次动作,而Stratego中的情况则不能像扑克中那样轻松地分解成管理大小的子问题。由于这些原因,Stratego几十年来一直是AI领域的巨大挑战,现有的AI方法几乎没有达到业余比赛水平。 Deepnash使用游戏理论,无模型的深钢筋学习方法,而无需搜索,该方法学会通过自我播放来掌握Stratego。 DeepNash的关键组成部分的正则化NASH Dynamics(R-NAD)算法通过直接修改基础多项式学习动力学来收敛到近似NASH平衡,而不是围绕它“循环”。 Deepnash在Stratego中击败了现有的最先进的AI方法,并在Gravon Games平台上获得了年度(2022年)和历史前3名,并与人类专家竞争。
translated by 谷歌翻译
在非常大型游戏中近似NASH平衡的最新技术利用神经网络来学习大致最佳政策(策略)。一条有前途的研究线使用神经网络来近似反事实遗憾最小化(CFR)或其现代变体。 Dream是目前唯一的基于CFR的神经方法,它是免费模型,因此可以扩展到非常大型游戏的Dream,它在估计的遗憾目标上训练神经网络,由于从Monte Carlo CFR继承的重要性采样术语,该遗憾目标可能具有极高的差异(MCCFR)(MCCFR) )。在本文中,我们提出了一种无偏模的方法,该方法不需要任何重要的采样。我们的方法(Escher)是原则上的,并且可以保证在表格情况下具有很高概率的近似NASH平衡。我们表明,具有Oracle值函数的Escher表格版本的估计遗憾的差异明显低于具有Oracle值函数的结果采样MCCFR和表格Dream的结果。然后,我们表明,埃舍尔的深度学习版本优于先前的艺术状态 - 梦和神经虚拟的自我游戏(NFSP) - 随着游戏规模的增加,差异变得戏剧化。
translated by 谷歌翻译
具有很多玩家的非合作和合作游戏具有许多应用程序,但是当玩家数量增加时,通常仍然很棘手。由Lasry和Lions以及Huang,Caines和Malham \'E引入的,平均野外运动会(MFGS)依靠平均场外近似值,以使玩家数量可以成长为无穷大。解决这些游戏的传统方法通常依赖于以完全了解模型的了解来求解部分或随机微分方程。最近,增强学习(RL)似乎有望解决复杂问题。通过组合MFGS和RL,我们希望在人口规模和环境复杂性方面能够大规模解决游戏。在这项调查中,我们回顾了有关学习MFG中NASH均衡的最新文献。我们首先确定最常见的设置(静态,固定和进化)。然后,我们为经典迭代方法(基于最佳响应计算或策略评估)提供了一个通用框架,以确切的方式解决MFG。在这些算法和与马尔可夫决策过程的联系的基础上,我们解释了如何使用RL以无模型的方式学习MFG解决方案。最后,我们在基准问题上介绍了数值插图,并以某些视角得出结论。
translated by 谷歌翻译
In general-sum games, the interaction of self-interested learning agents commonly leads to collectively worst-case outcomes, such as defect-defect in the iterated prisoner's dilemma (IPD). To overcome this, some methods, such as Learning with Opponent-Learning Awareness (LOLA), shape their opponents' learning process. However, these methods are myopic since only a small number of steps can be anticipated, are asymmetric since they treat other agents as naive learners, and require the use of higher-order derivatives, which are calculated through white-box access to an opponent's differentiable learning algorithm. To address these issues, we propose Model-Free Opponent Shaping (M-FOS). M-FOS learns in a meta-game in which each meta-step is an episode of the underlying inner game. The meta-state consists of the inner policies, and the meta-policy produces a new inner policy to be used in the next episode. M-FOS then uses generic model-free optimisation methods to learn meta-policies that accomplish long-horizon opponent shaping. Empirically, M-FOS near-optimally exploits naive learners and other, more sophisticated algorithms from the literature. For example, to the best of our knowledge, it is the first method to learn the well-known Zero-Determinant (ZD) extortion strategy in the IPD. In the same settings, M-FOS leads to socially optimal outcomes under meta-self-play. Finally, we show that M-FOS can be scaled to high-dimensional settings.
translated by 谷歌翻译
深入学习的强化学习(RL)的结合导致了一系列令人印象深刻的壮举,许多相信(深)RL提供了一般能力的代理。然而,RL代理商的成功往往对培训过程中的设计选择非常敏感,这可能需要繁琐和易于易于的手动调整。这使得利用RL对新问题充满挑战,同时也限制了其全部潜力。在许多其他机器学习领域,AutomL已经示出了可以自动化这样的设计选择,并且在应用于RL时也会产生有希望的初始结果。然而,自动化强化学习(AutorL)不仅涉及Automl的标准应用,而且还包括RL独特的额外挑战,其自然地产生了不同的方法。因此,Autorl已成为RL中的一个重要研究领域,提供来自RNA设计的各种应用中的承诺,以便玩游戏等游戏。鉴于RL中考虑的方法和环境的多样性,在不同的子领域进行了大部分研究,从Meta学习到进化。在这项调查中,我们寻求统一自动的领域,我们提供常见的分类法,详细讨论每个区域并对研究人员来说是一个兴趣的开放问题。
translated by 谷歌翻译
随着alphago的突破,人机游戏的AI已经成为一个非常热门的话题,吸引了世界各地的研究人员,这通常是测试人工智能的有效标准。已经开发了各种游戏AI系统(AIS),如Plibratus,Openai Five和AlphaStar,击败了专业人员。在本文中,我们调查了最近的成功游戏AIS,覆盖棋盘游戏AIS,纸牌游戏AIS,第一人称射击游戏AIS和实时战略游戏AIS。通过这项调查,我们1)比较智能决策领域的不同类型游戏之间的主要困难; 2)说明了开发专业水平AIS的主流框架和技术; 3)提高当前AIS中的挑战或缺点,以实现智能决策; 4)试图提出奥运会和智能决策技巧的未来趋势。最后,我们希望这篇简短的审查可以为初学者提供介绍,激发了在游戏中AI提交的研究人员的见解。
translated by 谷歌翻译
我们研究多个代理商在多目标环境的同时学习的问题。具体来说,我们考虑两种药剂重复播放一个多目标的正常形式的游戏。在这样的游戏,从联合行动所产生的收益都向量值。以基于效用的方法,我们假设效用函数存在映射向量标公用事业和考虑旨在最大限度地提高预期收益载体的效用代理。作为代理商不一定知道他们的对手的效用函数或策略,他们必须学会互动的最佳策略对方。为了帮助代理商在适当的解决办法到达,我们介绍四种新型偏好通信协议双方的合作以及自身利益的沟通。每一种方法描述了一个代理在他们的行动以及如何另一代理响应通信偏好的特定协议。这些协议是一组对不沟通基线代理5个标杆游戏随后对其进行评估。我们发现,偏好通信可以彻底改变学习的过程,并导致其没有在此设置先前观测环纳什均衡的出现。另外,还要在那里代理商必须学会当通信的通信方案。对于与纳什均衡游戏的代理,我们发现通信可以是有益的,但很难知道什么时候剂有不同的最佳平衡。如果不是这种情况,代理变得冷漠通信。在游戏没有纳什均衡,我们的结果表明,整个学习率的差异。当使用更快的学习者,我们观察到明确的沟通,在50%左右的时间变得越来越普遍,因为它可以帮助他们在学习的妥协联合政策。较慢的学生保留这种模式在较小的程度,但显示增加的冷漠。
translated by 谷歌翻译
已经引入了平均野外游戏(MFG),以有效地近似战略代理人。最近,MFG中学习平衡的问题已经获得了动力,尤其是使用无模型增强学习(RL)方法。使用RL进一步扩展的一个限制因素是,解决MFG的现有算法需要混合近似数量的策略或$ Q $价值。在非线性函数近似的情况下,这远非微不足道的属性,例如,例如神经网络。我们建议解决这一缺点的两种方法。第一个从历史数据蒸馏到神经网络的混合策略,将其应用于虚拟游戏算法。第二种是基于正规化的在线混合方法,不需要记忆历史数据或以前的估计。它用于扩展在线镜下降。我们从数值上证明,这些方法有效地可以使用深RL算法来求解各种MFG。此外,我们表明这些方法的表现优于文献中的SOTA基准。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
在过去的十年中,多智能经纪人强化学习(Marl)已经有了重大进展,但仍存在许多挑战,例如高样本复杂性和慢趋同稳定的政策,在广泛的部署之前需要克服,这是可能的。然而,在实践中,许多现实世界的环境已经部署了用于生成策略的次优或启发式方法。一个有趣的问题是如何最好地使用这些方法作为顾问,以帮助改善多代理领域的加强学习。在本文中,我们提供了一个原则的框架,用于将动作建议纳入多代理设置中的在线次优顾问。我们描述了在非传记通用随机游戏环境中提供多种智能强化代理(海军上将)的问题,并提出了两种新的基于Q学习的算法:海军上将决策(海军DM)和海军上将 - 顾问评估(Admiral-AE) ,这使我们能够通过适当地纳入顾问(Admiral-DM)的建议来改善学习,并评估顾问(Admiral-AE)的有效性。我们从理论上分析了算法,并在一般加上随机游戏中提供了关于他们学习的定点保证。此外,广泛的实验说明了这些算法:可以在各种环境中使用,具有对其他相关基线的有利相比的性能,可以扩展到大状态行动空间,并且对来自顾问的不良建议具有稳健性。
translated by 谷歌翻译
本文通过连续行动解决了非平稳环境和游戏中的政策学习。我们提出了一种无需重新格局样式的增强算法porl,而不是受到跟随规范化领导者(FTRL)和镜像下降(MD)更新的想法的启发,而不是经典的奖励最大化机制。我们证明,PORL具有最后的融合保证,这对于对抗和合作游戏很重要。实证研究表明,在控制任务的静态环境中,PORL的性能同样好,甚至比软crip-Critic(SAC)算法更好。在包括动态环境,对抗性训练和竞争性游戏在内的非机构环境中,PORL在更好的最终政策表现和更稳定的培训过程中都优于SAC。
translated by 谷歌翻译