In general-sum games, the interaction of self-interested learning agents commonly leads to collectively worst-case outcomes, such as defect-defect in the iterated prisoner's dilemma (IPD). To overcome this, some methods, such as Learning with Opponent-Learning Awareness (LOLA), shape their opponents' learning process. However, these methods are myopic since only a small number of steps can be anticipated, are asymmetric since they treat other agents as naive learners, and require the use of higher-order derivatives, which are calculated through white-box access to an opponent's differentiable learning algorithm. To address these issues, we propose Model-Free Opponent Shaping (M-FOS). M-FOS learns in a meta-game in which each meta-step is an episode of the underlying inner game. The meta-state consists of the inner policies, and the meta-policy produces a new inner policy to be used in the next episode. M-FOS then uses generic model-free optimisation methods to learn meta-policies that accomplish long-horizon opponent shaping. Empirically, M-FOS near-optimally exploits naive learners and other, more sophisticated algorithms from the literature. For example, to the best of our knowledge, it is the first method to learn the well-known Zero-Determinant (ZD) extortion strategy in the IPD. In the same settings, M-FOS leads to socially optimal outcomes under meta-self-play. Finally, we show that M-FOS can be scaled to high-dimensional settings.
translated by 谷歌翻译
当一个代理与多代理环境互动时,与以前看不见的各种对手打交道是一项挑战。建模对手的行为,目标或信念可以帮助代理人调整其政策以适应不同的对手。此外,考虑同时学习或能够推理的对手也很重要。但是,现有工作通常仅处理上述对手类型之一。在本文中,我们提出了基于模型的对手建模(MBOM)​​,该模型采用环境模型来适应各种对手。 MBOM在环境模型中模拟了递归推理过程,并想象一组改进对手政策。为了有效,准确地代表对手政策,MBOM根据与对手的真实行为的相似性进一步将想象中的对手政策混合在一起。从经验上讲,我们表明,MBOM比在各种任务中的现有方法更有效地适应,分别具有不同类型的对手,即固定的政策,NA \“ IVE”学习者和推理者。
translated by 谷歌翻译
我们研究多个代理商在多目标环境的同时学习的问题。具体来说,我们考虑两种药剂重复播放一个多目标的正常形式的游戏。在这样的游戏,从联合行动所产生的收益都向量值。以基于效用的方法,我们假设效用函数存在映射向量标公用事业和考虑旨在最大限度地提高预期收益载体的效用代理。作为代理商不一定知道他们的对手的效用函数或策略,他们必须学会互动的最佳策略对方。为了帮助代理商在适当的解决办法到达,我们介绍四种新型偏好通信协议双方的合作以及自身利益的沟通。每一种方法描述了一个代理在他们的行动以及如何另一代理响应通信偏好的特定协议。这些协议是一组对不沟通基线代理5个标杆游戏随后对其进行评估。我们发现,偏好通信可以彻底改变学习的过程,并导致其没有在此设置先前观测环纳什均衡的出现。另外,还要在那里代理商必须学会当通信的通信方案。对于与纳什均衡游戏的代理,我们发现通信可以是有益的,但很难知道什么时候剂有不同的最佳平衡。如果不是这种情况,代理变得冷漠通信。在游戏没有纳什均衡,我们的结果表明,整个学习率的差异。当使用更快的学习者,我们观察到明确的沟通,在50%左右的时间变得越来越普遍,因为它可以帮助他们在学习的妥协联合政策。较慢的学生保留这种模式在较小的程度,但显示增加的冷漠。
translated by 谷歌翻译
多代理游戏中的均衡选择是指选择帕累托最佳平衡的问题。已经表明,由于每个代理商在训练过程中对其他代理商的政策的不确定性,许多最先进的多机构增强学习(MARL)算法容易融合到帕累托主导的平衡。为了解决次优的平衡选择,我们提出了一种使用无关紧要游戏的简单原则(具有相同奖励的超级合作游戏)的参与者批评算法(PAC):每个代理人都可以假设其他人会选择动作的动作这将导致帕累托最佳平衡。我们评估了PAC在一系列多种多样的游戏中,并表明与替代MARL算法相比,它会收敛到更高的情节回报,并在一系列矩阵游戏中成功收敛到帕累托优势。最后,我们提出了一个图形神经网络扩展,该扩展可以在具有多达15个代理商的游戏中有效地扩展。
translated by 谷歌翻译
Ad Hoc团队合作问题描述了代理商必须与以前看不见的代理商合作以实现共同目标的情况。对于在这些场景中成功的代理商,它必须具有合适的合作技能。可以通过使用域知识来设计代理人的行为来实现协作技巧的合作技能。但是,在复杂的域中,可能无法使用域知识。因此,值得探索如何直接从数据中学习合作技能。在这项工作中,我们在临时团队合作问题的背景下申请元加强学习(Meta-RL)制定。我们的经验结果表明,这种方法可以在两个合作环境中产生具有不同合作环境的强大合作社:社会合议和语言解释。(这是扩展抽象版的全文。)
translated by 谷歌翻译
集中式培训(CT)是许多受欢迎的多代理增强学习(MARL)方法的基础,因为它允许代理商快速学习高性能的政策。但是,CT依靠代理人从对特定州对其他代理商的行为的一次性观察中学习。由于MARL代理商在培训期间探索和更新其政策,因此这些观察结果通常会为其他代理商的行为和预期的给定行动回报提供不良的预测。因此,CT方法患有较高的差异和容易出错的估计,从而损害了学习。除非施加了强大的分解限制,否则CT方法还遭受了复杂性爆炸性增长(例如,QMIX的单调奖励函数)。我们通过一个新的半居中的MAL框架来应对这些挑战,该框架执行政策安装的培训和分散的执行。我们的方法是嵌入式增强学习算法(PERLA),是参与者批评的MARL算法的增强工具,它利用了一种新型参数共享协议和策略嵌入方法来维持对其他代理商的行为的估计。我们的理论证明,佩拉大大降低了价值估计的差异。与各种CT方法不同,Perla无缝地采用MARL算法,它可以轻松地与代理数量缩放,而无需限制性分解假设。我们展示了Perla在基准环境中的出色经验表现和有效的缩放,包括Starcraft Micromagement II和Multi-Agent Mujoco
translated by 谷歌翻译
多代理系统(例如自动驾驶或工厂)作为服务的一些最相关的应用程序显示混合动机方案,代理商可能具有相互矛盾的目标。在这些环境中,代理可能会在独立学习下的合作方面学习不良的结果,例如过度贪婪的行为。在现实世界社会的动机中,在这项工作中,我们建议利用市场力量为代理商成为合作的激励措施。正如囚犯困境的迭代版本所证明的那样,拟议的市场配方可以改变游戏的动力,以始终如一地学习合作政策。此外,我们在空间和时间扩展的设置中评估了不同数量的代理的方法。我们从经验上发现,市场的存在可以通过其交易活动改善总体结果和代理人的回报。
translated by 谷歌翻译
独立的强化学习算法没有理论保证,用于在多代理设置中找到最佳策略。然而,在实践中,先前的作品报告了在某些域中的独立算法和其他方面的良好性能。此外,文献中缺乏对独立算法的优势和弱点的全面研究。在本文中,我们对四个Pettingzoo环境进行了独立算法的性能的实证比较,这些环境跨越了三种主要类别的多助理环境,即合作,竞争和混合。我们表明,在完全可观察的环境中,独立的算法可以在协作和竞争环境中与多代理算法进行同步。对于混合环境,我们表明通过独立算法培训的代理商学会单独执行,但未能学会与盟友合作并与敌人竞争。我们还表明,添加重复性提高了合作部分可观察环境中独立算法的学习。
translated by 谷歌翻译
Many real-world problems, such as network packet routing and the coordination of autonomous vehicles, are naturally modelled as cooperative multi-agent systems. There is a great need for new reinforcement learning methods that can efficiently learn decentralised policies for such systems. To this end, we propose a new multi-agent actor-critic method called counterfactual multi-agent (COMA) policy gradients. COMA uses a centralised critic to estimate the Q-function and decentralised actors to optimise the agents' policies. In addition, to address the challenges of multi-agent credit assignment, it uses a counterfactual baseline that marginalises out a single agent's action, while keeping the other agents' actions fixed. COMA also uses a critic representation that allows the counterfactual baseline to be computed efficiently in a single forward pass. We evaluate COMA in the testbed of StarCraft unit micromanagement, using a decentralised variant with significant partial observability. COMA significantly improves average performance over other multi-agent actorcritic methods in this setting, and the best performing agents are competitive with state-of-the-art centralised controllers that get access to the full state.
translated by 谷歌翻译
在解决双球员零和游戏时,多代理强化学习(MARL)算法通常会在每次迭代时创造代理人群,在每次迭代时,将被发现为对对手人口对混合的最佳响应。在这样的过程中,“遵循”(即对手混合物)和“如何击败它们”(即寻找最佳响应)的更新规则是由手动开发的游戏理论原则基础,如虚构的游戏和双倍甲骨文。在本文中,我们介绍了一种新颖的框架 - 神经自动课程(NAC) - 利用元梯度下降来自动化学习更新规则的发现,而无明确的人类设计。具体而言,我们通过优化子程序参数通过神经网络和最佳响应模块参数化对手选择模块,并通过与游戏引擎的交互仅更新其参数,其中播放器旨在最大限度地减少其利用性。令人惊讶的是,即使没有人类的设计,发现的Marl算法也可以通过基于最先进的人口的游戏,在技能游戏,可微分的乐透,不转化的混合物游戏中实现竞争或更好的性能,实现竞争或更好的性能。迭代匹配的便士和kuhn扑克。此外,我们表明NAC能够从小型游戏到大型游戏,例如Kuhn Poker培训,在LEDUC扑克上表现优于PSRO。我们的工作激发了一个未来的未来方向,以完全从数据发现一般的Marl算法。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolutionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policybased methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
在通用游戏中学习是不稳定的,并且经常导致社会上不受欢迎(占主导地位)的结果。为了减轻这种情况,通过对手的学习意识(LOLA)通过计算每个代理人对对手预期的学习步骤的影响,从而介绍了对手的对手。但是,原始的Lola配方(和后续工作)是不一致的,因为Lola将其他代理商模仿为天真的学习者而不是Lola代理商。在以前的工作中,这种不一致被认为是萝拉未能保留稳定固定点(SFP)的原因。首先,我们将一致性形式化,并表明高阶Lola(Hola)如果汇聚解决了Lola的不一致问题。其次,我们纠正了Sch \“ Afer and Anandkumar(2019)在文献中提出的主张,证明了竞争性梯度下降(CGD)并未作为系列扩展(并且未能解决一致性问题)恢复Hola。第三,我们提出了一种称为一致LOLA(COLA)的新方法,该方法学习在相互对手塑造下保持一致的更新功能。它不需要二阶导数,并且即使Hola无法收敛,也需要一致的更新功能。但是,我们也证明了这一点即使是一致的更新功能也不能保留SFP,这与假设相矛盾:这种缺点是由Lola的不一致引起的。最后,在一系列通用游戏的经验评估中,我们发现可乐找到了亲社的解决方案,并且在更广泛的情况下会融合。与Hola和Lola相比,学习率的范围。我们以简单游戏的理论结果支持后一个发现。
translated by 谷歌翻译
本文提出了用于学习两人零和马尔可夫游戏的小说,端到端的深钢筋学习算法。我们的目标是找到NASH平衡政策,这些策略不受对抗对手的剥削。本文与以前在广泛形式的游戏中找到NASH平衡的努力不同,这些游戏具有树结构的过渡动态和离散的状态空间,本文着重于具有一般过渡动态和连续状态空间的马尔可夫游戏。我们提出了(1)NASH DQN算法,该算法将DQN与nash finding subroutine集成在一起的联合价值函数; (2)NASH DQN利用算法,该算法还采用了指导代理商探索的剥削者。我们的算法是理论算法的实用变体,这些变体可以保证在基本表格设置中融合到NASH平衡。对表格示例和两个玩家Atari游戏的实验评估证明了针对对抗对手的拟议算法的鲁棒性,以及对现有方法的优势性能。
translated by 谷歌翻译
Cooperative multi-agent reinforcement learning (MARL) has achieved significant results, most notably by leveraging the representation-learning abilities of deep neural networks. However, large centralized approaches quickly become infeasible as the number of agents scale, and fully decentralized approaches can miss important opportunities for information sharing and coordination. Furthermore, not all agents are equal -- in some cases, individual agents may not even have the ability to send communication to other agents or explicitly model other agents. This paper considers the case where there is a single, powerful, \emph{central agent} that can observe the entire observation space, and there are multiple, low-powered \emph{local agents} that can only receive local observations and are not able to communicate with each other. The central agent's job is to learn what message needs to be sent to different local agents based on the global observations, not by centrally solving the entire problem and sending action commands, but by determining what additional information an individual agent should receive so that it can make a better decision. In this work we present our MARL algorithm \algo, describe where it would be most applicable, and implement it in the cooperative navigation and multi-agent walker domains. Empirical results show that 1) learned communication does indeed improve system performance, 2) results generalize to heterogeneous local agents, and 3) results generalize to different reward structures.
translated by 谷歌翻译
实际经济体可以被视为一种顺序不完美信息游戏,具有许多异质,互动的各种代理类型的战略代理,例如消费者,公司和政府。动态一般均衡模型是在此类系统中建模经济活动,交互和结果的普通经济工具。然而,当所有代理商是战略和互动时,现有的分析和计算方法努力寻找明确的均衡,而联合学习是不稳定的并且具有挑战性。在其他人中,一个重要的原因是,一个经济代理人的行动可能会改变另一名代理人的奖励职能,例如,当公司更改价格或政府更改税收时,消费者的消费者的消费收入变化。我们表明,多代理深度加强学习(RL)可以发现稳定的解决方案,即通过使用结构的学习课程和高效的GPU,在经济模拟中,在经济仿真中,在经济模拟中,可以发现普遍存器类型的稳定解决方案。仿真和培训。概念上,我们的方法更加灵活,不需要不切实际的假设,例如市场清算,通常用于分析途径。我们的GPU实施使得能够在合理的时间范围内具有大量代理的经济体,例如,在一天内完成培训。我们展示了我们在实际商业周期模型中的方法,这是一个代表性的DGE模型系列,100名工人消费者,10家公司和政府税收和重新分配。我们通过近似最佳响应分析验证了学习的Meta-Game epsilon-Nash均衡,表明RL政策与经济直觉保持一致,我们的方法是建设性的,例如,通过明确地学习Meta-Game epsilon-Nash ePhilia的频谱打开RBC型号。
translated by 谷歌翻译
This work considers the problem of learning cooperative policies in complex, partially observable domains without explicit communication. We extend three classes of single-agent deep reinforcement learning algorithms based on policy gradient, temporal-difference error, and actor-critic methods to cooperative multi-agent systems. We introduce a set of cooperative control tasks that includes tasks with discrete and continuous actions, as well as tasks that involve hundreds of agents. The three approaches are evaluated against each other using different neural architectures, training procedures, and reward structures. Using deep reinforcement learning with a curriculum learning scheme, our approach can solve problems that were previously considered intractable by most multi-agent reinforcement learning algorithms. We show that policy gradient methods tend to outperform both temporal-difference and actor-critic methods when using feed-forward neural architectures. We also show that recurrent policies, while more difficult to train, outperform feed-forward policies on our evaluation tasks.
translated by 谷歌翻译
由于共同国家行动空间相对于代理人的数量,多代理强化学习(MARL)中的政策学习(MARL)是具有挑战性的。为了实现更高的可伸缩性,通过分解执行(CTDE)的集中式培训范式被MARL中的分解结构广泛采用。但是,我们观察到,即使在简单的矩阵游戏中,合作MARL中现有的CTDE算法也无法实现最佳性。为了理解这种现象,我们引入了一个具有政策分解(GPF-MAC)的广义多代理参与者批评的框架,该框架的特征是对分解的联合政策的学习,即,每个代理人的政策仅取决于其自己的观察行动历史。我们表明,最受欢迎的CTDE MARL算法是GPF-MAC的特殊实例,可能会陷入次优的联合政策中。为了解决这个问题,我们提出了一个新颖的转型框架,该框架将多代理的MDP重新制定为具有连续结构的特殊“单位代理” MDP,并且可以允许使用现成的单机械加固学习(SARL)算法来有效地学习相应的多代理任务。这种转换保留了SARL算法的最佳保证,以合作MARL。为了实例化此转换框架,我们提出了一个转换的PPO,称为T-PPO,该PPO可以在有限的多代理MDP中进行理论上执行最佳的策略学习,并在一系列合作的多代理任务上显示出明显的超出性能。
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
多机构增强学习(MARL)是训练在共同环境中独立起作用的自动化系统的强大工具。但是,当个人激励措施和群体激励措施分歧时,它可能导致次优行为。人类非常有能力解决这些社会困境。在MAL中,复制自私的代理商中的这种合作行为是一个开放的问题。在这项工作中,我们借鉴了经济学正式签约的想法,以克服MARL代理商之间的动力分歧。我们提出了对马尔可夫游戏的增强,在预先指定的条件下,代理商自愿同意约束依赖状态依赖的奖励转移。我们的贡献是理论和经验的。首先,我们表明,这种增强使所有完全观察到的马尔可夫游戏的所有子游戏完美平衡都表现出社会最佳行为,并且鉴于合同的足够丰富的空间。接下来,我们通过表明最先进的RL算法学习了我们的增强术,我们将学习社会最佳政策,从而补充我们的游戏理论分析。我们的实验包括经典的静态困境,例如塔格·亨特(Stag Hunt),囚犯的困境和公共物品游戏,以及模拟交通,污染管理和共同池资源管理的动态互动。
translated by 谷歌翻译
Hierarchical methods in reinforcement learning have the potential to reduce the amount of decisions that the agent needs to perform when learning new tasks. However, finding a reusable useful temporal abstractions that facilitate fast learning remains a challenging problem. Recently, several deep learning approaches were proposed to learn such temporal abstractions in the form of options in an end-to-end manner. In this work, we point out several shortcomings of these methods and discuss their potential negative consequences. Subsequently, we formulate the desiderata for reusable options and use these to frame the problem of learning options as a gradient-based meta-learning problem. This allows us to formulate an objective that explicitly incentivizes options which allow a higher-level decision maker to adjust in few steps to different tasks. Experimentally, we show that our method is able to learn transferable components which accelerate learning and performs better than existing prior methods developed for this setting. Additionally, we perform ablations to quantify the impact of using gradient-based meta-learning as well as other proposed changes.
translated by 谷歌翻译