AI代理应该能够与人类协调以解决任务。我们考虑培训加强学习(RL)代理的问题,而不使用任何人类数据,即在零射击设置中,使其能够与人类合作。标准RL代理商通过自我播放学习。不幸的是,这些代理商只知道如何与自己合作,通常不会与人类的看不见的伙伴表现良好。如何以零射时的方式训练强大的代理的方法仍然需要研究。从最大熵RL激励,我们推出了集中的人口熵目标,以便于学习各种各样的代理商,后来用于培训坚强的代理与看不见的合作伙伴合作。所提出的方法与基线方法相比,其有效性,包括自助PPO,在流行的过度烹制的游戏环境中,包括自行式PPO,标准群体的培训(PBT)和基于轨迹分集的PBT。我们还通过真实人类进行在线实验,并进一步证明了该方法在现实世界中的功效。显示实验结果的补充视频可在https://youtu.be/xh-fkd0aake上获得。
translated by 谷歌翻译
可以通过看不见的合作伙伴生成可以实现零拍打协调(ZSC)的代理是在合作多代理增强学习(MARL)中的新挑战。最近,一些研究通过在培训过程中将代理暴露于不同的伴侣中,从而在ZSC中取得了进展。他们通常在训练伴侣时涉及自我竞争,因为他们隐含地假设任务是同质的。但是,许多现实世界的任务都是异质的,因此以前的方法可能会失败。在本文中,我们首次研究了异质ZSC问题,并提出了一种基于协同进化的通用方法,该方法通过三个子过程进行了协调的两个代理和合作伙伴种群:配对,更新和选择。协作烹饪任务的实验结果表明需要考虑异质环境,并说明我们所提出的方法是异构合作MARL的有前途解决方案。
translated by 谷歌翻译
与人类合作需要迅速适应他们的个人优势,缺点和偏好。遗憾的是,大多数标准的多智能经纪增强学习技术,如自助(SP)或人口剧(PP),产生培训合作伙伴的代理商,并且对人类不完全概括。或者,研究人员可以使用行为克隆收集人体数据,培训人类模型,然后使用该模型培训“人类感知”代理(“行为克隆播放”或BCP)。虽然这种方法可以改善代理商的概括到新的人类共同球员,但它涉及首先收集大量人体数据的繁重和昂贵的步骤。在这里,我们研究如何培训与人类合作伙伴合作的代理的问题,而无需使用人类数据。我们认为这个问题的症结是制作各种培训伙伴。从竞争域中取得成功的多智能经纪人方法绘制灵感,我们发现令人惊讶的简单方法非常有效。我们培养我们的代理商合作伙伴作为对自行发行代理人口的最佳反应及其过去培训的过去检查点,这是我们呼叫虚构共同扮演(FCP)的方法。我们的实验专注于两位运动员协作烹饪模拟器,最近被提议作为与人类协调的挑战问题。我们发现,与新的代理商和人类合作伙伴配对时,FCP代理商会显着高于SP,PP和BCP。此外,人类还报告了强烈的主观偏好,以与所有基线与FCP代理合作。
translated by 谷歌翻译
合作多代理设置中的标准问题设置是自我播放(SP),其目标是训练一个很好地合作的代理团队。但是,最佳SP政策通常包含任意惯例(“握手”),并且与其他受独立训练的代理商或人类不兼容。后者的Desiderata最近由Hu等人正式化。 2020年作为零射击协调(ZSC)设置,并以其其他游戏(OP)算法进行了部分解决,该算法在纸牌游戏Hanabi中显示出改进的ZSC和人类表现。 OP假设访问环境的对称性,并防止代理在训练过程中以相互不相容的方式破坏它们。但是,正如作者指出的那样,发现给定环境的对称性是一个计算困难的问题。取而代之的是,我们通过简单的K级推理(KLR)Costa Gomes等人表明。 2006年,我们可以同步训练所有级别,我们可以在哈纳比(Hanabi)获得竞争性的ZSC和临时团队表现,包括与类似人类的代理机器人配对。我们还引入了一种具有最佳响应(SYKLRBR)的新方法,即同步的K级推理,该方法通过共同培训最佳响应来进一步提高同步KLR的性能。
translated by 谷歌翻译
Ad Hoc团队合作问题描述了代理商必须与以前看不见的代理商合作以实现共同目标的情况。对于在这些场景中成功的代理商,它必须具有合适的合作技能。可以通过使用域知识来设计代理人的行为来实现协作技巧的合作技能。但是,在复杂的域中,可能无法使用域知识。因此,值得探索如何直接从数据中学习合作技能。在这项工作中,我们在临时团队合作问题的背景下申请元加强学习(Meta-RL)制定。我们的经验结果表明,这种方法可以在两个合作环境中产生具有不同合作环境的强大合作社:社会合议和语言解释。(这是扩展抽象版的全文。)
translated by 谷歌翻译
Human and robot partners increasingly need to work together to perform tasks as a team. Robots designed for such collaboration must reason about how their task-completion strategies interplay with the behavior and skills of their human team members as they coordinate on achieving joint goals. Our goal in this work is to develop a computational framework for robot adaptation to human partners in human-robot team collaborations. We first present an algorithm for autonomously recognizing available task-completion strategies by observing human-human teams performing a collaborative task. By transforming team actions into low dimensional representations using hidden Markov models, we can identify strategies without prior knowledge. Robot policies are learned on each of the identified strategies to construct a Mixture-of-Experts model that adapts to the task strategies of unseen human partners. We evaluate our model on a collaborative cooking task using an Overcooked simulator. Results of an online user study with 125 participants demonstrate that our framework improves the task performance and collaborative fluency of human-agent teams, as compared to state of the art reinforcement learning methods.
translated by 谷歌翻译
在多智能体增强学习中,代理在单一马尔可夫游戏(MG)中学习的行为通常限制在给定的代理编号(即人口大小)。各种群体尺寸引起的每一个MG都可能具有不同的最佳联合策略和游戏特异性知识,这些知识在现代多代理算法中独立建模。在这项工作中,我们专注于创造贯穿人口不同MGS的代理商。每个代理商都没有学习单峰策略,而不是学习一个由各种游戏中的有效策略形成的策略集。我们向代理人(MRA)提出了META表示,明确地模拟了比赛共同和特定于游戏的战略知识。通过表示具有多模态潜在策略的策略集,通过迭代优化过程发现了常见的战略知识和不同的战略模式。我们证明,作为受限制的互信息最大化目标的近似值,所测策略可以在嘴唇奇茨比赛上的每一个评估MG上达到NASH均衡,在一个足够大的潜伏空间上。在具有有限尺寸的实际潜在模型的实际潜在模型中部署时,可以通过利用一阶梯度信息来实现快速适应。广泛的实验表明,MRA对艰难和看不见游戏的培训表现和泛化能力的有效性。
translated by 谷歌翻译
Current approaches to multi-agent cooperation rely heavily on centralized mechanisms or explicit communication protocols to ensure convergence. This paper studies the problem of distributed multi-agent learning without resorting to centralized components or explicit communication. It examines the use of distribution matching to facilitate the coordination of independent agents. In the proposed scheme, each agent independently minimizes the distribution mismatch to the corresponding component of a target visitation distribution. The theoretical analysis shows that under certain conditions, each agent minimizing its individual distribution mismatch allows the convergence to the joint policy that generated the target distribution. Further, if the target distribution is from a joint policy that optimizes a cooperative task, the optimal policy for a combination of this task reward and the distribution matching reward is the same joint policy. This insight is used to formulate a practical algorithm (DM$^2$), in which each individual agent matches a target distribution derived from concurrently sampled trajectories from a joint expert policy. Experimental validation on the StarCraft domain shows that combining (1) a task reward, and (2) a distribution matching reward for expert demonstrations for the same task, allows agents to outperform a naive distributed baseline. Additional experiments probe the conditions under which expert demonstrations need to be sampled to obtain the learning benefits.
translated by 谷歌翻译
虽然多代理学习的进步使得能够培训越来越复杂的代理商,但大多数现有技术都产生了最终政策,该政策不旨在适应新的合作伙伴的战略。但是,我们希望我们的AI代理商根据周围的战略来调整他们的战略。在这项工作中,我们研究了有条件的多代理模仿学习问题,我们可以在培训时间访问联合轨迹演示,我们必须在测试时间与新合作伙伴进行互动并适应新伙伴。这种环境是具有挑战性的,因为我们必须推断新的合作伙伴的战略并使我们的政策适应该战略,而不是了解环境奖励或动态。我们将该条件多代理模仿学习的问题正式化,提出了一种解决可扩展性和数据稀缺的困难的新方法。我们的主要洞察力是,多种代理游戏的合作伙伴的变化通常很高,并且可以通过低秩子空间来表示。利用张量分解的工具,我们的模型在EGO和合作伙伴代理战略上学习了低秩子空间,然后是infers并通过插值在子空间中互动到新的合作伙伴策略。我们用混合协作任务的实验,包括匪徒,粒子和Hanabi环境。此外,我们还测试我们对超级烹饪游戏的用户学习中的真实人体合作​​伙伴的条件政策。与基线相比,我们的模型更好地适应新的合作伙伴,并强大地处理各种设置,从离散/持续的动作和静态/在线评估与AI / Lean Partners。
translated by 谷歌翻译
We study the problem of training a principal in a multi-agent general-sum game using reinforcement learning (RL). Learning a robust principal policy requires anticipating the worst possible strategic responses of other agents, which is generally NP-hard. However, we show that no-regret dynamics can identify these worst-case responses in poly-time in smooth games. We propose a framework that uses this policy evaluation method for efficiently learning a robust principal policy using RL. This framework can be extended to provide robustness to boundedly rational agents too. Our motivating application is automated mechanism design: we empirically demonstrate our framework learns robust mechanisms in both matrix games and complex spatiotemporal games. In particular, we learn a dynamic tax policy that improves the welfare of a simulated trade-and-barter economy by 15%, even when facing previously unseen boundedly rational RL taxpayers.
translated by 谷歌翻译
当一个代理与多代理环境互动时,与以前看不见的各种对手打交道是一项挑战。建模对手的行为,目标或信念可以帮助代理人调整其政策以适应不同的对手。此外,考虑同时学习或能够推理的对手也很重要。但是,现有工作通常仅处理上述对手类型之一。在本文中,我们提出了基于模型的对手建模(MBOM)​​,该模型采用环境模型来适应各种对手。 MBOM在环境模型中模拟了递归推理过程,并想象一组改进对手政策。为了有效,准确地代表对手政策,MBOM根据与对手的真实行为的相似性进一步将想象中的对手政策混合在一起。从经验上讲,我们表明,MBOM比在各种任务中的现有方法更有效地适应,分别具有不同类型的对手,即固定的政策,NA \“ IVE”学习者和推理者。
translated by 谷歌翻译
Multi-agent artificial intelligence research promises a path to develop intelligent technologies that are more human-like and more human-compatible than those produced by "solipsistic" approaches, which do not consider interactions between agents. Melting Pot is a research tool developed to facilitate work on multi-agent artificial intelligence, and provides an evaluation protocol that measures generalization to novel social partners in a set of canonical test scenarios. Each scenario pairs a physical environment (a "substrate") with a reference set of co-players (a "background population"), to create a social situation with substantial interdependence between the individuals involved. For instance, some scenarios were inspired by institutional-economics-based accounts of natural resource management and public-good-provision dilemmas. Others were inspired by considerations from evolutionary biology, game theory, and artificial life. Melting Pot aims to cover a maximally diverse set of interdependencies and incentives. It includes the commonly-studied extreme cases of perfectly-competitive (zero-sum) motivations and perfectly-cooperative (shared-reward) motivations, but does not stop with them. As in real-life, a clear majority of scenarios in Melting Pot have mixed incentives. They are neither purely competitive nor purely cooperative and thus demand successful agents be able to navigate the resulting ambiguity. Here we describe Melting Pot 2.0, which revises and expands on Melting Pot. We also introduce support for scenarios with asymmetric roles, and explain how to integrate them into the evaluation protocol. This report also contains: (1) details of all substrates and scenarios; (2) a complete description of all baseline algorithms and results. Our intention is for it to serve as a reference for researchers using Melting Pot 2.0.
translated by 谷歌翻译
近端策略优化(PPO)是一种普遍存在的上利期内学习算法,但在多代理设置中的非政策学习算法所使用的算法明显少得多。这通常是由于认为PPO的样品效率明显低于多代理系统中的销售方法。在这项工作中,我们仔细研究了合作多代理设置中PPO的性能。我们表明,基于PPO的多代理算法在四个受欢迎的多代理测试台上取得了令人惊讶的出色表现:粒子世界环境,星际争霸多代理挑战,哈纳比挑战赛和Google Research Football,并具有最少的超参数调谐任何特定领域的算法修改或架构。重要的是,与强大的非政策方法相比,PPO通常在最终奖励和样本效率中都能取得竞争性或优越的结果。最后,通过消融研究,我们分析了对PPO的经验表现至关重要的实施和高参数因素,并就这些因素提供了具体的实用建议。我们的结果表明,在使用这些实践时,简单的基于PPO的方法在合作多代理增强学习中是强大的基线。源代码可在https://github.com/marlbenchmark/on-policy上发布。
translated by 谷歌翻译
考虑到人类行为的例子,我们考虑在多种代理决策问题中建立强大但人类的政策的任务。仿制学习在预测人类行为方面有效,但可能与专家人类的实力不符,而自助学习和搜索技术(例如,alphakero)导致强大的性能,但可能会产生难以理解和协调的政策。我们在国际象棋中显示,并通过应用Monte Carlo树搜索产生具有更高人为预测准确性的策略并比仿制政策更强大的kl差异,基于kl发散的正规化搜索策略。然后我们介绍一种新的遗憾最小化算法,该算法基于来自模仿的政策的KL发散规范,并显示将该算法应用于无按压外交产生的策略,使得在基本上同时保持与模仿学习相同的人类预测准确性的策略更强。
translated by 谷歌翻译
独立的强化学习算法没有理论保证,用于在多代理设置中找到最佳策略。然而,在实践中,先前的作品报告了在某些域中的独立算法和其他方面的良好性能。此外,文献中缺乏对独立算法的优势和弱点的全面研究。在本文中,我们对四个Pettingzoo环境进行了独立算法的性能的实证比较,这些环境跨越了三种主要类别的多助理环境,即合作,竞争和混合。我们表明,在完全可观察的环境中,独立的算法可以在协作和竞争环境中与多代理算法进行同步。对于混合环境,我们表明通过独立算法培训的代理商学会单独执行,但未能学会与盟友合作并与敌人竞争。我们还表明,添加重复性提高了合作部分可观察环境中独立算法的学习。
translated by 谷歌翻译
我们呈现协调的近端策略优化(COPPO),该算法将原始近端策略优化(PPO)扩展到多功能代理设置。关键的想法在于多个代理之间的策略更新过程中的步骤大小的协调适应。当优化理论上接地的联合目标时,我们证明了政策改进的单调性,并基于一组近似推导了简化的优化目标。然后,我们解释了Coppo中的这种目标可以在代理商之间实现动态信用分配,从而减轻了代理政策的同时更新期间的高方差问题。最后,我们证明COPPO优于几种强大的基线,并且在典型的多代理设置下,包括最新的多代理PPO方法(即MAPPO),包括合作矩阵游戏和星际争霸II微管理任务。
translated by 谷歌翻译
熵正则化是增强学习(RL)的流行方法。尽管它具有许多优势,但它改变了原始马尔可夫决策过程(MDP)的RL目标。尽管已经提出了差异正则化来解决这个问题,但不能微不足道地应用于合作的多代理增强学习(MARL)。在本文中,我们研究了合作MAL中的差异正则化,并提出了一种新型的非政策合作MARL框架,差异性的多代理参与者 - 参与者(DMAC)。从理论上讲,我们得出了DMAC的更新规则,该规则自然存在,并保证了原始MDP和Divergence regullatized MDP的单调政策改进和收敛。我们还给出了原始MDP中融合策略和最佳策略之间的差异。 DMAC是一个灵活的框架,可以与许多现有的MARL算法结合使用。从经验上讲,我们在教学随机游戏和Starcraft Multi-Agent挑战中评估了DMAC,并表明DMAC显着提高了现有的MARL算法的性能。
translated by 谷歌翻译
Recently, model-based agents have achieved better performance than model-free ones using the same computational budget and training time in single-agent environments. However, due to the complexity of multi-agent systems, it is tough to learn the model of the environment. The significant compounding error may hinder the learning process when model-based methods are applied to multi-agent tasks. This paper proposes an implicit model-based multi-agent reinforcement learning method based on value decomposition methods. Under this method, agents can interact with the learned virtual environment and evaluate the current state value according to imagined future states in the latent space, making agents have the foresight. Our approach can be applied to any multi-agent value decomposition method. The experimental results show that our method improves the sample efficiency in different partially observable Markov decision process domains.
translated by 谷歌翻译
作为一个重要的心理和社会实验,迭代的囚犯困境(IPD)将合作或缺陷作为原子行动视为选择。我们建议研究迭代的囚犯困境(IPD)游戏中在线学习算法的行为,在那里我们研究了整个强化学习剂:多臂匪徒,上下文的强盗和钢筋学习。我们根据迭代囚犯的困境的比赛进行评估,其中多个特工可以以顺序竞争。这使我们能够分析由多个自私的独立奖励驱动的代理所学到的政策的动态,还使我们研究了这些算法适合人类行为的能力。结果表明,考虑当前的情况做出决定是这种社会困境游戏中最糟糕的情况。陈述了有关在线学习行为和临床验证的倍数,以此作为将人工智能算法与人类行为及其在神经精神病疾病中的异常状态联系起来的努力。
translated by 谷歌翻译
最新专为加强学习任务而设计的算法着重于找到一个最佳解决方案。但是,在许多实际应用中,重要的是开发具有多种策略的合理代理商。在本文中,我们提出了多样性引导的政策优化(DGPO),这是一个在同一任务中发现多种策略的政策框架。我们的算法使用多样性目标来指导潜在的条件政策,以在单个培训程序中学习一系列不同的策略。具体而言,我们将算法形式化为多样性受限的优化问题和外部奖励约束优化问题的组合。我们将约束优化作为概率推理任务解决,并使用策略迭代来最大化派生的下限。实验结果表明,我们的方法有效地在各种强化学习任务中找到了各种策略。我们进一步表明,与其他基线相比,DGPO达到了更高的多样性评分,并且具有相似的样品复杂性和性能。
translated by 谷歌翻译