Communication enables agents to cooperate to achieve their goals. Learning when to communicate, i.e., sparse (in time) communication, and whom to message is particularly important when bandwidth is limited. Recent work in learning sparse individualized communication, however, suffers from high variance during training, where decreasing communication comes at the cost of decreased reward, particularly in cooperative tasks. We use the information bottleneck to reframe sparsity as a representation learning problem, which we show naturally enables lossless sparse communication at lower budgets than prior art. In this paper, we propose a method for true lossless sparsity in communication via Information Maximizing Gated Sparse Multi-Agent Communication (IMGS-MAC). Our model uses two individualized regularization objectives, an information maximization autoencoder and sparse communication loss, to create informative and sparse communication. We evaluate the learned communication `language' through direct causal analysis of messages in non-sparse runs to determine the range of lossless sparse budgets, which allow zero-shot sparsity, and the range of sparse budgets that will inquire a reward loss, which is minimized by our learned gating function with few-shot sparsity. To demonstrate the efficacy of our results, we experiment in cooperative multi-agent tasks where communication is essential for success. We evaluate our model with both continuous and discrete messages. We focus our analysis on a variety of ablations to show the effect of message representations, including their properties, and lossless performance of our model.
translated by 谷歌翻译
代理商通信可能会显着提高需要协调以实现共享目标的多代理任务的性能。事先工作表明,可以使用多智能体增强学习和消息传递网络架构学习代理商通信协议。然而,这些模型使用不受约束的广播通信模型,其中代理在每个步骤中与所有其他代理通信,即使任务不需要它。在现实世界应用中,如果通信可以受系统限制的限制,如带宽,电源和网络容量,则可能需要减少发送的消息的数量。在这项工作中,我们探讨了最大限度地减少通信的简单方法,同时在多任务学习中最大化性能:同时优化特定于任务的目标和通信惩罚。我们表明,目的可以使用强化和Gumbel-Softmax Reparameterization优化。我们介绍了两种稳定培训的技术:50%的培训和消息转发。在仅50%的剧集中培训沟通惩罚可防止我们的模型关闭外向消息。其次,重复消息先前接收的消息有助于模型保留信息,并进一步提高性能。通过这些技术,我们表明我们可以减少75%的通信,没有损失。
translated by 谷歌翻译
最近的研究表明,引入代理商之间的沟通可以显着提高合作多智能体增强学习(MARL)的整体性能。在许多现实世界的情景中,通信可能是昂贵的,多代理系统的带宽受到某些约束。占据通信资源的冗余消息可以阻止信息性消息的传输,从而危及性能。在本文中,我们的目标是学习最小的足够的通信信息。首先,我们通过完整的图表启动代理之间的通信。然后我们将图形信息瓶颈(GIB)原则介绍到这个完整的图表中,并从图形结构上获得优化。基于优化,提出了一种名为CommGIB的新型多代理通信模块,其有效地压缩了通信图中的结构信息和节点信息来处理带宽约束的设置。进行了交通管制和斯坦径II的广泛实验。结果表明,与最先进的算法相比,所提出的方法可以在带宽限制的环境中实现更好的性能,具有尤其是大型多功能机构任务中的尤其是大的边距。
translated by 谷歌翻译
Cooperative multi-agent reinforcement learning (MARL) has achieved significant results, most notably by leveraging the representation-learning abilities of deep neural networks. However, large centralized approaches quickly become infeasible as the number of agents scale, and fully decentralized approaches can miss important opportunities for information sharing and coordination. Furthermore, not all agents are equal -- in some cases, individual agents may not even have the ability to send communication to other agents or explicitly model other agents. This paper considers the case where there is a single, powerful, \emph{central agent} that can observe the entire observation space, and there are multiple, low-powered \emph{local agents} that can only receive local observations and are not able to communicate with each other. The central agent's job is to learn what message needs to be sent to different local agents based on the global observations, not by centrally solving the entire problem and sending action commands, but by determining what additional information an individual agent should receive so that it can make a better decision. In this work we present our MARL algorithm \algo, describe where it would be most applicable, and implement it in the cooperative navigation and multi-agent walker domains. Empirical results show that 1) learned communication does indeed improve system performance, 2) results generalize to heterogeneous local agents, and 3) results generalize to different reward structures.
translated by 谷歌翻译
多代理增强学习(MARL)在价值函数分解方法的发展中见证了重大进展。由于单调性,它可以通过最大程度地分解每个代理实用程序来优化联合动作值函数。在本文中,我们表明,在部分可观察到的MARL问题中,代理商对自己的行为的订购可能会对代表功能类施加并发约束(跨不同状态),从而在培训期间造成重大估计错误。我们解决了这一限制,并提出了PAC,PAC是一个新的框架,利用了最佳联合行动选择的反事实预测产生的辅助信息,这可以通过新颖的反事实损失通过新颖的辅助来实现价值功能分解。开发了一种基于变异推理的信息编码方法,以从估计的基线收集和编码反事实预测。为了实现分散的执行,我们还得出了受最大收入MARL框架启发的分级分配的代理策略。我们评估了有关多代理捕食者捕食者和一组Starcraft II微管理任务的PAC。经验结果表明,在所有基准上,PAC对基于最先进的价值和基于策略的多代理增强学习算法的结果得到了改善。
translated by 谷歌翻译
在加固学习中的代理商中设计有效的沟通机制一直是一个具有挑战性的任务,特别是对于现实世界的应用。代理人的数量可以增长或环境有时需要与现实世界情景中的变化数量的代理商进行互动。为此,在尺度和动态方面,需要处理各种代理框架的各种方案,以便对现实世界的应用来说是实用的。我们制定多种代理环境,具有不同数量的代理作为多任务问题,提出了一个元增强学习(Meta-RL)框架来解决这个问题。所提出的框架采用Meta学习的通信模式识别(CPR)模块来识别促进培训过程的通信行为和提取信息。实验结果旨在证明所提出的框架(A)推广到看不见的更大量的药剂,(B)允许代理的数量在发作之间发生变化。还提供了烧蚀研究,以推理拟议的CPR设计并显示这种设计是有效的。
translated by 谷歌翻译
学习稀疏协调图表适应了代理之间的协调动态,这是合作多学院学习的一个长期问题。本文研究了这个问题,并提出了一种新的方法,该方法使用回报函数的方差来构建上下文意识到的稀疏协调拓扑。从理论上讲,我们通过证明回报函数的差异越小,删除相应的边缘后,较小的操作选择将会改变。此外,我们建议学习行动表示,以有效地减少回报功能估计错误对图形构造的影响。为了凭经验评估我们的方法,我们通过在文献中收集经典的协调问题,增加了它们的难度并将其分类为不同类型,我们介绍了多代理协调(MACO)基准。我们在Maco和Starcraft II微管理基准上进行了案例研究和实验,以证明稀疏图学习的动力学,图形稀疏性的影响以及我们方法的学习性能。 (MACO基准和代码可在https://github.com/tonghanwang/casec-maco-benchmark上公开获得。)
translated by 谷歌翻译
最先进的多机构增强学习(MARL)方法为各种复杂问题提供了有希望的解决方案。然而,这些方法都假定代理执行同步的原始操作执行,因此它们不能真正可扩展到长期胜利的真实世界多代理/机器人任务,这些任务固有地要求代理/机器人以异步的理由,涉及有关高级动作选择的理由。不同的时间。宏观行动分散的部分可观察到的马尔可夫决策过程(MACDEC-POMDP)是在完全合作的多代理任务中不确定的异步决策的一般形式化。在本论文中,我们首先提出了MacDec-Pomdps的一组基于价值的RL方法,其中允许代理在三个范式中使用宏观成果功能执行异步学习和决策:分散学习和控制,集中学习,集中学习和控制,以及分散执行的集中培训(CTDE)。在上述工作的基础上,我们在三个训练范式下制定了一组基于宏观行动的策略梯度算法,在该训练范式下,允许代理以异步方式直接优化其参数化策略。我们在模拟和真实的机器人中评估了我们的方法。经验结果证明了我们在大型多代理问题中的方法的优势,并验证了我们算法在学习具有宏观actions的高质量和异步溶液方面的有效性。
translated by 谷歌翻译
我们开发了一个多功能辅助救援学习(MARL)方法,以了解目标跟踪的可扩展控制策略。我们的方法可以处理任意数量的追求者和目标;我们显示出现的任务,该任务包括高达1000追踪跟踪1000个目标。我们使用分散的部分可观察的马尔可夫决策过程框架来模拟追求者作为接受偏见观察(范围和轴承)的代理,了解使用固定的未知政策的目标。注意机制用于参数化代理的价值函数;这种机制允许我们处理任意数量的目标。熵 - 正规的脱助政策RL方法用于培训随机政策,我们讨论如何在追求者之间实现对冲行为,尽管有完全分散的控制执行,但仍然导致合作较弱的合作形式。我们进一步开发了一个掩蔽启发式,允许训练较少的问题,少量追求目标和在更大的问题上执行。进行彻底的仿真实验,消融研究和对现有技术算法的比较,以研究对不同数量的代理和目标性能的方法和鲁棒性的可扩展性。
translated by 谷歌翻译
在本文中,我们应用了一个多代理增强学习(MARL)框架,允许基站(BS)和用户设备(UES)共同学习频道访问策略及其在无线的多个访问方案中的信号。在此框架中,BS和UES是需要合作才能提供数据的增强剂学习(RL)代理。与无争议和基于争议的基线的比较表明,即使在高流量情况下,我们的框架在高速公路上也达到了卓越的性能,同时保持低碰撞率。研究了该方法的可伸缩性,因为它是MARL中的一个主要问题,本文提供了第一个结果以解决它。
translated by 谷歌翻译
We consider the problem of multiple agents sensing and acting in environments with the goal of maximising their shared utility. In these environments, agents must learn communication protocols in order to share information that is needed to solve the tasks. By embracing deep neural networks, we are able to demonstrate endto-end learning of protocols in complex environments inspired by communication riddles and multi-agent computer vision problems with partial observability. We propose two approaches for learning in these domains: Reinforced Inter-Agent Learning (RIAL) and Differentiable Inter-Agent Learning (DIAL). The former uses deep Q-learning, while the latter exploits the fact that, during learning, agents can backpropagate error derivatives through (noisy) communication channels. Hence, this approach uses centralised learning but decentralised execution. Our experiments introduce new environments for studying the learning of communication protocols and present a set of engineering innovations that are essential for success in these domains.
translated by 谷歌翻译
通过集中培训和分散执行的价值功能分解是有助于解决合作多功能协商强化任务的承诺。该地区QMIX的方法之一已成为最先进的,在星际争霸II微型管理基准上实现了最佳性能。然而,已知QMIX中每个代理估计的单调混合是限制它可以表示的关节动作Q值,以及单个代理价值函数估计的全局状态信息,通常导致子优相。为此,我们呈现LSF-SAC,这是一种新颖的框架,其具有基于变分推理的信息共享机制,作为额外的状态信息,以帮助在价值函数分子中提供各个代理。我们证明,这种潜在的个人状态信息共享可以显着扩展价值函数分解的力量,而通过软演员批评设计仍然可以在LSF-SAC中保持完全分散的执行。我们在星际争霸II微型管理挑战上评估LSF-SAC,并证明它在挑战协作任务方面优于几种最先进的方法。我们进一步设定了广泛的消融研究,以定位核算其绩效改进的关键因素。我们认为,这种新的洞察力可以导致新的地方价值估算方法和变分的深度学习算法。可以在https://sites.google.com/view/sacmm处找到演示视频和实现代码。
translated by 谷歌翻译
信息共享是建立团队认知并实现协调与合作的关键。高性能的人类团队也从战略性地采用迭代沟通和合理性的层次结构级别中受益,这意味着人类代理可以推理队友在决策中的行动。然而,多代理强化学习(MARL)的大多数先前工作不支持迭代的理性性,而只能鼓励跨性别的沟通,从而实现了次优的平衡合作策略。在这项工作中,我们表明,在优化政策梯度(PG)时,将代理商的政策重新制定为有条件依靠其邻近队友的政策,从而固有地提高了相互信息(MI)的最大程度。在有限的理性和认知层次结构理论下的决策观念的基础上,我们表明我们的修改后的PG方法不仅可以最大化本地代理人的奖励,而且还隐含着关于代理之间MI的理由,而无需任何明确的临时正则化术语。我们的方法Infopg在学习新兴的协作行为方面优于基准,并在分散的合作MARL任务中设定了最先进的工作。我们的实验通过在几个复杂的合作多代理域中实现较高的样品效率和更大的累积奖励来验证InfoPG的实用性。
translated by 谷歌翻译
在强化学习培训的设置代理神经学可以通过分立令牌相互通信,实现作为一个团队有哪些代理将无法独自做到。然而,使用一个热向量作为离散的通信的当前标准从获取作为零次理解通信这样的更理想的方面令牌防止剂。通过嵌入一词从自然语言处理技术的启发,我们提出了神经代理架构,使他们能够通过从了解到,连续的空间衍生离散令牌进行通信。我们显示了在决策理论框架,我们的技术优化通信在大范围的场景,而一个热令牌是唯一最佳的下严格的假设。在自我发挥的实验,我们验证了我们的培训的工作人员学习集群令牌语义有意义的方式,让他们在其他技术无法嘈杂的环境中交流。最后,我们证明这两种,用我们的方法代理可以有效地应对新的人际交往和人类可以理解未标记的应急代理通信,跑赢使用一个热的沟通。
translated by 谷歌翻译
最近被证明通过深度加强学习(RL)或模仿学习(IL)来学习沟通是解决多智能传道路径查找(MAPF)的有效方法。然而,现有的基于通信的MAPF求解器专注于广播通信,代理将其消息广播给所有其他或预定义代理。它不仅是不切实际的,而且导致冗余信息甚至可能损害多功能协作。简洁的通信计划应该了解哪些信息与每个代理的决策过程有关和影响。为了解决这个问题,我们考虑一个请求 - 回复方案并提出决策因果通信(DCC),这是一个简单但有效的模型,使代理能够在培训和执行期间选择邻居进行通信。具体地,邻居才被确定为当存在该邻居的存在导致在中央代理上的决策调整时相关的邻居。此判决仅基于代理人的本地观察,因此适用于分散执行来处理大规模问题。富有障碍环境中的实证评估表明了我们方法的低通信开销的高成功率。
translated by 谷歌翻译
Communication is supposed to improve multi-agent collaboration and overall performance in cooperative Multi-agent reinforcement learning (MARL). However, such improvements are prevalently limited in practice since most existing communication schemes ignore communication overheads (e.g., communication delays). In this paper, we demonstrate that ignoring communication delays has detrimental effects on collaborations, especially in delay-sensitive tasks such as autonomous driving. To mitigate this impact, we design a delay-aware multi-agent communication model (DACOM) to adapt communication to delays. Specifically, DACOM introduces a component, TimeNet, that is responsible for adjusting the waiting time of an agent to receive messages from other agents such that the uncertainty associated with delay can be addressed. Our experiments reveal that DACOM has a non-negligible performance improvement over other mechanisms by making a better trade-off between the benefits of communication and the costs of waiting for messages.
translated by 谷歌翻译
在多机构强化学习中,沟通对于鼓励代理商之间的合作至关重要。由于网络条件随代理的移动性而变化,并且在传输过程中的随机性变化,因此现实无线网络中的通信可能非常不可靠。我们提出一个框架来通过解决三个基本问题来学习实用的沟通策略:(1)何时:代理商不仅基于消息重要性,而且是无线渠道条件来学习沟通时间。 (2)什么:代理增强了带有无线网络测量结果的消息内容,以更好地选择游戏和通信操作。 (3)如何:代理使用新颖的神经信息编码器来保存从接收到的消息中保留所有信息,而不管消息的数量和顺序如何。与最新的ART相比,在逼真的无线网络设置下模拟标准基准测试,我们在游戏性能,收敛速度和沟通效率方面取得了重大改进。
translated by 谷歌翻译
We explore deep reinforcement learning methods for multi-agent domains. We begin by analyzing the difficulty of traditional algorithms in the multi-agent case: Q-learning is challenged by an inherent non-stationarity of the environment, while policy gradient suffers from a variance that increases as the number of agents grows. We then present an adaptation of actor-critic methods that considers action policies of other agents and is able to successfully learn policies that require complex multiagent coordination. Additionally, we introduce a training regimen utilizing an ensemble of policies for each agent that leads to more robust multi-agent policies. We show the strength of our approach compared to existing methods in cooperative as well as competitive scenarios, where agent populations are able to discover various physical and informational coordination strategies.
translated by 谷歌翻译
沟通可以帮助代理商获得有关他人的信息,以便可以学习更好的协调行为。一些现有的工作会与其他人传达预测的未来轨迹,希望能为其他人做些更好的协调能力提供线索。但是,当对代理人同步处理时,有时会发生循环依赖性,因此很难协调决策。在本文中,我们提出了一种新颖的交流方案,顺序通信(SEQCOMM)。 Seqcomm不同步(高级代理在低级阶段之前做出决定),并有两个通信阶段。在谈判阶段,代理通过传达观测的隐藏状态并比较意图的价值来确定决策的优先级,这是通过对环境动态进行建模来获得的。在发射阶段,高级代理商领导着做出决策并与低级代理商进行交流。从理论上讲,我们证明Seqcomm学到的政策可以单调地改善并融合。从经验上讲,我们表明SEQCOMM在各种多机构合作任务中都优于现有方法。
translated by 谷歌翻译
在合作的多代理增强学习(MARL)中,代理只能获得部分观察,有效利用本地信息至关重要。在长期观察期间,代理可以构建\ textit {意识},使队友减轻部分可观察性问题。但是,以前的MAL方法通常忽略了对本地信息的这种利用。为了解决这个问题,我们提出了一个新颖的框架,多代理\ textit {本地信息分解,以意识到队友}(linda),代理商通过该框架学会分解本地信息并为每个队友建立意识。我们将意识模拟为随机随机变量并执行表示学习,以确保意识表示的信息,通过最大程度地提高意识与相应代理的实际轨迹之间的相互信息。 Linda对特定算法是不可知论的,可以灵活地集成到不同的MARL方法中。足够的实验表明,所提出的框架从当地的部分观察结果中学习了信息丰富的意识,以更好地协作并显着提高学习绩效,尤其是在具有挑战性的任务上。
translated by 谷歌翻译