本文调查了具有不平等专业知识的组织之间竞争的动态。多智能体增强学习已被用来模拟和理解各种激励方案的影响,旨在抵消这种不等式。我们设计触摸标记,基于众所周知的多助手粒子环境的游戏,其中两支球队(弱,强),不平等但不断变化的技能水平相互竞争。对于培训此类游戏,我们提出了一种新颖的控制器辅助多智能体增强学习算法\我们的\,它使每个代理商携带策略的集合以及通过选择性地分区示例空间,触发智能角色划分队友。使用C-MADDPG作为潜在的框架,我们向弱小的团队提出了激励计划,使两队的最终奖励成为同一个。我们发现尽管激动人心,但弱小队的最终奖励仍然缺乏强大的团​​队。在检查中,我们意识到弱小球队的整体激励计划并未激励该团队中的较弱代理来学习和改进。要抵消这一点,我们现在特别激励了较弱的球员学习,因此,观察到超越初始阶段的弱小球队与更强大的团队表现。本文的最终目标是制定一种动态激励计划,不断平衡两支球队的奖励。这是通过设计富有奖励的激励计划来实现的,该计划从环境中取出最低信息。
translated by 谷歌翻译
在过去的十年中,多智能经纪人强化学习(Marl)已经有了重大进展,但仍存在许多挑战,例如高样本复杂性和慢趋同稳定的政策,在广泛的部署之前需要克服,这是可能的。然而,在实践中,许多现实世界的环境已经部署了用于生成策略的次优或启发式方法。一个有趣的问题是如何最好地使用这些方法作为顾问,以帮助改善多代理领域的加强学习。在本文中,我们提供了一个原则的框架,用于将动作建议纳入多代理设置中的在线次优顾问。我们描述了在非传记通用随机游戏环境中提供多种智能强化代理(海军上将)的问题,并提出了两种新的基于Q学习的算法:海军上将决策(海军DM)和海军上将 - 顾问评估(Admiral-AE) ,这使我们能够通过适当地纳入顾问(Admiral-DM)的建议来改善学习,并评估顾问(Admiral-AE)的有效性。我们从理论上分析了算法,并在一般加上随机游戏中提供了关于他们学习的定点保证。此外,广泛的实验说明了这些算法:可以在各种环境中使用,具有对其他相关基线的有利相比的性能,可以扩展到大状态行动空间,并且对来自顾问的不良建议具有稳健性。
translated by 谷歌翻译
独立的强化学习算法没有理论保证,用于在多代理设置中找到最佳策略。然而,在实践中,先前的作品报告了在某些域中的独立算法和其他方面的良好性能。此外,文献中缺乏对独立算法的优势和弱点的全面研究。在本文中,我们对四个Pettingzoo环境进行了独立算法的性能的实证比较,这些环境跨越了三种主要类别的多助理环境,即合作,竞争和混合。我们表明,在完全可观察的环境中,独立的算法可以在协作和竞争环境中与多代理算法进行同步。对于混合环境,我们表明通过独立算法培训的代理商学会单独执行,但未能学会与盟友合作并与敌人竞争。我们还表明,添加重复性提高了合作部分可观察环境中独立算法的学习。
translated by 谷歌翻译
We explore deep reinforcement learning methods for multi-agent domains. We begin by analyzing the difficulty of traditional algorithms in the multi-agent case: Q-learning is challenged by an inherent non-stationarity of the environment, while policy gradient suffers from a variance that increases as the number of agents grows. We then present an adaptation of actor-critic methods that considers action policies of other agents and is able to successfully learn policies that require complex multiagent coordination. Additionally, we introduce a training regimen utilizing an ensemble of policies for each agent that leads to more robust multi-agent policies. We show the strength of our approach compared to existing methods in cooperative as well as competitive scenarios, where agent populations are able to discover various physical and informational coordination strategies.
translated by 谷歌翻译
政策梯度方法在多智能体增强学习中变得流行,但由于存在环境随机性和探索代理(即非公平性​​),它们遭受了高度的差异,这可能因信用分配难度而受到困扰。结果,需要一种方法,该方法不仅能够有效地解决上述两个问题,而且需要足够强大地解决各种任务。为此,我们提出了一种新的多代理政策梯度方法,称为强大的本地优势(ROLA)演员 - 评论家。 Rola允许每个代理人将个人动作值函数作为当地评论家,以及通过基于集中评论家的新型集中培训方法来改善环境不良。通过使用此本地批评,每个代理都计算基准,以减少对其策略梯度估计的差异,这导致含有其他代理的预期优势动作值,这些选项可以隐式提高信用分配。我们在各种基准测试中评估ROLA,并在许多最先进的多代理政策梯度算法上显示其鲁棒性和有效性。
translated by 谷歌翻译
Multi-agent artificial intelligence research promises a path to develop intelligent technologies that are more human-like and more human-compatible than those produced by "solipsistic" approaches, which do not consider interactions between agents. Melting Pot is a research tool developed to facilitate work on multi-agent artificial intelligence, and provides an evaluation protocol that measures generalization to novel social partners in a set of canonical test scenarios. Each scenario pairs a physical environment (a "substrate") with a reference set of co-players (a "background population"), to create a social situation with substantial interdependence between the individuals involved. For instance, some scenarios were inspired by institutional-economics-based accounts of natural resource management and public-good-provision dilemmas. Others were inspired by considerations from evolutionary biology, game theory, and artificial life. Melting Pot aims to cover a maximally diverse set of interdependencies and incentives. It includes the commonly-studied extreme cases of perfectly-competitive (zero-sum) motivations and perfectly-cooperative (shared-reward) motivations, but does not stop with them. As in real-life, a clear majority of scenarios in Melting Pot have mixed incentives. They are neither purely competitive nor purely cooperative and thus demand successful agents be able to navigate the resulting ambiguity. Here we describe Melting Pot 2.0, which revises and expands on Melting Pot. We also introduce support for scenarios with asymmetric roles, and explain how to integrate them into the evaluation protocol. This report also contains: (1) details of all substrates and scenarios; (2) a complete description of all baseline algorithms and results. Our intention is for it to serve as a reference for researchers using Melting Pot 2.0.
translated by 谷歌翻译
在这项工作中,我们通过用户定义的关系网络将“社交”相互作用集成到MARL设置中,并检查代理与代理关系对新兴行为兴起的影响。利用社会学和神经科学的见解,我们提出的框架模型使用奖励共享的关系网络(RSRN)的构图代理关系,其中网络边缘的权重衡量了一项代理在成功中投入多少代理(或关心“关心) ') 其他。我们构建关系奖励是RSRN相互作用权重的函数,以通过多代理增强学习算法共同训练多代理系统。该系统的性能经过了具有不同关系网络结构(例如自我利益,社区和专制网络)的3个代理方案的测试。我们的结果表明,奖励分享关系网络可以显着影响学习的行为。我们认为,RSRN可以充当一个框架,不同的关系网络会产生独特的新兴行为,通常类似于对此类网络的直觉社会学理解。
translated by 谷歌翻译
Modern multi-agent reinforcement learning frameworks rely on centralized training and reward shaping to perform well. However, centralized training and dense rewards are not readily available in the real world. Current multi-agent algorithms struggle to learn in the alternative setup of decentralized training or sparse rewards. To address these issues, we propose a self-supervised intrinsic reward ELIGN - expectation alignment - inspired by the self-organization principle in Zoology. Similar to how animals collaborate in a decentralized manner with those in their vicinity, agents trained with expectation alignment learn behaviors that match their neighbors' expectations. This allows the agents to learn collaborative behaviors without any external reward or centralized training. We demonstrate the efficacy of our approach across 6 tasks in the multi-agent particle and the complex Google Research football environments, comparing ELIGN to sparse and curiosity-based intrinsic rewards. When the number of agents increases, ELIGN scales well in all multi-agent tasks except for one where agents have different capabilities. We show that agent coordination improves through expectation alignment because agents learn to divide tasks amongst themselves, break coordination symmetries, and confuse adversaries. These results identify tasks where expectation alignment is a more useful strategy than curiosity-driven exploration for multi-agent coordination, enabling agents to do zero-shot coordination.
translated by 谷歌翻译
最先进的多机构增强学习(MARL)方法为各种复杂问题提供了有希望的解决方案。然而,这些方法都假定代理执行同步的原始操作执行,因此它们不能真正可扩展到长期胜利的真实世界多代理/机器人任务,这些任务固有地要求代理/机器人以异步的理由,涉及有关高级动作选择的理由。不同的时间。宏观行动分散的部分可观察到的马尔可夫决策过程(MACDEC-POMDP)是在完全合作的多代理任务中不确定的异步决策的一般形式化。在本论文中,我们首先提出了MacDec-Pomdps的一组基于价值的RL方法,其中允许代理在三个范式中使用宏观成果功能执行异步学习和决策:分散学习和控制,集中学习,集中学习和控制,以及分散执行的集中培训(CTDE)。在上述工作的基础上,我们在三个训练范式下制定了一组基于宏观行动的策略梯度算法,在该训练范式下,允许代理以异步方式直接优化其参数化策略。我们在模拟和真实的机器人中评估了我们的方法。经验结果证明了我们在大型多代理问题中的方法的优势,并验证了我们算法在学习具有宏观actions的高质量和异步溶液方面的有效性。
translated by 谷歌翻译
Reinforcement learning in multi-agent scenarios is important for real-world applications but presents challenges beyond those seen in singleagent settings. We present an actor-critic algorithm that trains decentralized policies in multiagent settings, using centrally computed critics that share an attention mechanism which selects relevant information for each agent at every timestep. This attention mechanism enables more effective and scalable learning in complex multiagent environments, when compared to recent approaches. Our approach is applicable not only to cooperative settings with shared rewards, but also individualized reward settings, including adversarial settings, as well as settings that do not provide global states, and it makes no assumptions about the action spaces of the agents. As such, it is flexible enough to be applied to most multi-agent learning problems.
translated by 谷歌翻译
许多现实世界的应用程序都可以作为多机构合作问题进行配置,例如网络数据包路由和自动驾驶汽车的协调。深入增强学习(DRL)的出现为通过代理和环境的相互作用提供了一种有前途的多代理合作方法。但是,在政策搜索过程中,传统的DRL解决方案遭受了多个代理具有连续动作空间的高维度。此外,代理商政策的动态性使训练非平稳。为了解决这些问题,我们建议采用高级决策和低水平的个人控制,以进行有效的政策搜索,提出一种分层增强学习方法。特别是,可以在高级离散的动作空间中有效地学习多个代理的合作。同时,低水平的个人控制可以减少为单格强化学习。除了分层增强学习外,我们还建议对手建模网络在学习过程中对其他代理的政策进行建模。与端到端的DRL方法相反,我们的方法通过以层次结构将整体任务分解为子任务来降低学习的复杂性。为了评估我们的方法的效率,我们在合作车道变更方案中进行了现实世界中的案例研究。模拟和现实世界实验都表明我们的方法在碰撞速度和收敛速度中的优越性。
translated by 谷歌翻译
多代理深度增强学习(Marl)缺乏缺乏共同使用的评估任务和标准,使方法之间的比较困难。在这项工作中,我们提供了一个系统评估,并比较了三种不同类别的Marl算法(独立学习,集中式多代理政策梯度,价值分解)在各种协作多智能经纪人学习任务中。我们的实验是在不同学习任务中作为算法的预期性能的参考,我们为不同学习方法的有效性提供了见解。我们开源EPYMARL,它将Pymarl CodeBase扩展到包括其他算法,并允许灵活地配置算法实现细节,例如参数共享。最后,我们开源两种环境,用于多智能经纪研究,重点关注稀疏奖励下的协调。
translated by 谷歌翻译
缩放多智能体增强学习的卓越障碍之一是为大量代理商分配给个别代理的行动。在本文中,我们通过呼叫\ yrest {部分奖励去耦}(prd)的方法来解决这一信用分配问题,该方法试图将大型合作多代理RL问题分解成涉及代理子集的解耦子问题,从而简化了信用分配。我们经验证明使用PRD在演员 - 批评算法中分解RL问题导致较低的差异策略梯度估计,这提高了各种其他跨越多个代理RL任务的数据效率,学习稳定性和渐近性能。演员 - 评论家方法。此外,我们还将我们的反事实多代理政策梯度(COMA),最先进的MARL算法以及经验证明我们的方法通过更好地利用代理商奖励流的信息来实现昏迷状态,以及启用最近的优势估计的进步。
translated by 谷歌翻译
In this paper, we identify the best learning scenario to train a team of agents to compete against multiple possible strategies of opposing teams. We evaluate cooperative value-based methods in a mixed cooperative-competitive environment. We restrict ourselves to the case of a symmetric, partially observable, two-team Markov game. We selected three training methods based on the centralised training and decentralised execution (CTDE) paradigm: QMIX, MAVEN and QVMix. For each method, we considered three learning scenarios differentiated by the variety of team policies encountered during training. For our experiments, we modified the StarCraft Multi-Agent Challenge environment to create competitive environments where both teams could learn and compete simultaneously. Our results suggest that training against multiple evolving strategies achieves the best results when, for scoring their performances, teams are faced with several strategies.
translated by 谷歌翻译
平均场理论提供了一种将多基强化学习算法扩展到许多代理可以由虚拟均值代理提取的环境的有效方法。在本文中,我们将平均字段多基因算法扩展到多种类型。这种类型使平均田间强化学习中的核心假设可以放松,即环境中的所有代理都在采用几乎相似的策略,并且具有相同的目标。我们基于标准的魔法框架,对许多代理增强学习领域的三个不同测试床进行实验。我们考虑两种不同类型的平均场环境:a)代理属于预定义类型的游戏,这些类型是先验和b)每个代理的类型未知的游戏,因此必须根据观察结果学习。我们为每种类型的游戏介绍了新的算法,并演示了它们优于最先进的算法,这些算法假定所有代理都属于Magent Framework中的所有代理属于相同类型和其他基线算法。
translated by 谷歌翻译
深度强化学习(DRL)和深度多机构的强化学习(MARL)在包括游戏AI,自动驾驶汽车,机器人技术等各种领域取得了巨大的成功。但是,众所周知,DRL和Deep MARL代理的样本效率低下,即使对于相对简单的问题设置,通常也需要数百万个相互作用,从而阻止了在实地场景中的广泛应用和部署。背后的一个瓶颈挑战是众所周知的探索问题,即如何有效地探索环境和收集信息丰富的经验,从而使政策学习受益于最佳研究。在稀疏的奖励,吵闹的干扰,长距离和非平稳的共同学习者的复杂环境中,这个问题变得更加具有挑战性。在本文中,我们对单格和多代理RL的现有勘探方法进行了全面的调查。我们通过确定有效探索的几个关键挑战开始调查。除了上述两个主要分支外,我们还包括其他具有不同思想和技术的著名探索方法。除了算法分析外,我们还对一组常用基准的DRL进行了全面和统一的经验比较。根据我们的算法和实证研究,我们终于总结了DRL和Deep Marl中探索的公开问题,并指出了一些未来的方向。
translated by 谷歌翻译
在本文中,我们提出了一个名为“星际争霸多代理挑战”的新颖基准,代理商学习执行多阶段任务并使用没有精确奖励功能的环境因素。以前的挑战(SMAC)被认为是多名强化学习的标准基准,主要涉及确保所有代理人仅通过具有明显的奖励功能的精细操纵而合作消除接近对手。另一方面,这一挑战对MARL算法的探索能力有效地学习隐式多阶段任务和环境因素以及微控制感兴趣。这项研究涵盖了进攻和防御性场景。在进攻情况下,代理商必须学会先寻找对手,然后消除他们。防御性场景要求代理使用地形特征。例如,代理需要将自己定位在保护结构后面,以使敌人更难攻击。我们研究了SMAC+下的MARL算法,并观察到最近的方法在与以前的挑战类似,但在进攻情况下表现不佳。此外,我们观察到,增强的探索方法对性能有积极影响,但无法完全解决所有情况。这项研究提出了未来研究的新方向。
translated by 谷歌翻译
本文考虑了多智能经纪人强化学习(MARL)任务,代理商在集会结束时获得共享全球奖励。这种奖励的延迟性质影响了代理商在中间时间步骤中评估其行动质量的能力。本文侧重于开发学习焦点奖励的时间重新分布的方法,以获得密集奖励信号。解决这些MARL问题需要解决两个挑战:识别(1)沿着集发作(沿时间)的长度相对重要性,以及(2)在任何单一时间步骤(代理商中)的相对重要性。在本文中,我们介绍了奖励中的奖励再分配,在整容多智能体加固学习(Arel)中奖励再分配,以解决这两个挑战。 Arel使用注意机制来表征沿着轨迹(时间关注)对状态转换的动作的影响,以及每个代理在每个时间步骤(代理人注意)的影响。 Arel预测的重新分配奖励是密集的,可以与任何给定的MARL算法集成。我们评估了粒子世界环境的具有挑战性的任务和星际争霸多功能挑战。 arel导致粒子世界的奖励较高,并改善星际争端的胜利率与三个最先进的奖励再分配方法相比。我们的代码可在https://github.com/baicenxiao/arel获得。
translated by 谷歌翻译
强化学习在游戏的应用中表现出了出色的表现,尤其是在Atari游戏和GO中。基于这些成功的示例,我们试图将著名的增强学习算法(深Q网络)应用于AI足球游戏。 AI足球是5:5机器人足球比赛,每个参与者都会开发一种算法,该算法控制一个团队中的五个机器人以击败对手参与者。 Deep Q-Network旨在实现我们的原始奖励,状态空间和训练每个代理的行动空间,以便在游戏过程中可以在不同情况下采取适当的操作。我们的算法能够成功地训练代理商,并且通过对10支希望参加AI足球国际比赛的10支球队的小型竞争,其表现得到了初步证明。比赛是由AI世界杯委员会组织的,并与WCG 2019 Xi'an AI大师组织。有了我们的算法,我们在这场国际比赛中与来自39个国家的130支球队的国际比赛中获得了16轮的成就。
translated by 谷歌翻译
多项式增强学习(MARL)最近的许多突破都需要使用深层神经网络,这对于人类专家来说是挑战性的解释和理解。另一方面,现有的关于可解释的强化学习(RL)的工作在从神经网络中提取更可解释的决策树政策方面显示了有望,但仅在单一机构设置中。为了填补这一空白,我们提出了第一组算法,这些算法从接受MARL训练的神经网络中提取可解释的决策策略。第一种算法IVIPER将Viper扩展到了单代代理可解释的RL的最新方法到多代理设置。我们证明,艾维尔(Iviper)学习每个代理商的高质量决策树政策。为了更好地捕捉代理之间的协调,我们提出了一种新型的集中决策树培训算法,Maviper。 Maviper通过使用其预期的树来预测其他代理的行为,并使用重新采样来集中精力,以重点放在对其与其他代理相互作用至关重要的状态上,从而共同生长了每个代理的树木。我们表明,这两种算法通常都优于基础线,而在三种不同的多代理粒子世界环境上,受过iviper训练的药物比iviper训练的药物获得了更好的协调性能。
translated by 谷歌翻译