In this paper, we present a solution to a design problem of control strategies for multi-agent cooperative transport. Although existing learning-based methods assume that the number of agents is the same as that in the training environment, the number might differ in reality considering that the robots' batteries may completely discharge, or additional robots may be introduced to reduce the time required to complete a task. Therefore, it is crucial that the learned strategy be applicable to scenarios wherein the number of agents differs from that in the training environment. In this paper, we propose a novel multi-agent reinforcement learning framework of event-triggered communication and consensus-based control for distributed cooperative transport. The proposed policy model estimates the resultant force and torque in a consensus manner using the estimates of the resultant force and torque with the neighborhood agents. Moreover, it computes the control and communication inputs to determine when to communicate with the neighboring agents under local observations and estimates of the resultant force and torque. Therefore, the proposed framework can balance the control performance and communication savings in scenarios wherein the number of agents differs from that in the training environment. We confirm the effectiveness of our approach by using a maximum of eight and six robots in the simulations and experiments, respectively.
translated by 谷歌翻译
We consider task allocation for multi-object transport using a multi-robot system, in which each robot selects one object among multiple objects with different and unknown weights. The existing centralized methods assume the number of robots and tasks to be fixed, which is inapplicable to scenarios that differ from the learning environment. Meanwhile, the existing distributed methods limit the minimum number of robots and tasks to a constant value, making them applicable to various numbers of robots and tasks. However, they cannot transport an object whose weight exceeds the load capacity of robots observing the object. To make it applicable to various numbers of robots and objects with different and unknown weights, we propose a framework using multi-agent reinforcement learning for task allocation. First, we introduce a structured policy model consisting of 1) predesigned dynamic task priorities with global communication and 2) a neural network-based distributed policy model that determines the timing for coordination. The distributed policy builds consensus on the high-priority object under local observations and selects cooperative or independent actions. Then, the policy is optimized by multi-agent reinforcement learning through trial and error. This structured policy of local learning and global communication makes our framework applicable to various numbers of robots and objects with different and unknown weights, as demonstrated by numerical simulations.
translated by 谷歌翻译
多个导弹的合作指导是一项具有挑战性的任务,对时间和空间共识的严格限制,尤其是在攻击动态目标时。在本文中,合作指导任务被描述为分布式多目标合作优化问题。为了解决合作指导所面临的非平稳性和持续控制问题,自然进化策略(NES)以及一种精英自适应学习技术得到了改善,以制定一种新型的自然共同进化策略(NCES)。将原始进化策略的梯度重新定性,以减少由多个导弹之间的相互作用引起的估计偏差。然后,通过整合高度可扩展的共同进化机制和传统的指导策略,提出了混合共同进化合作指导法(HCCGL)。最后,在不同条件下的三个模拟证明了本指导法在以高精度来解决合作指导任务方面的有效性和优势。所提出的共同进化方法不仅在合作指导中,而且在其他多目标优化,动态优化和分布式控制方面都具有巨大的前景。
translated by 谷歌翻译
培训期间的对抗性攻击能够强烈影响多功能增强学习算法的性能。因此,非常希望增加现有算法,使得消除对抗对协作网络的对抗性攻击的影响,或者至少有界限。在这项工作中,我们考虑一个完全分散的网络,每个代理商收到本地奖励并观察全球州和行动。我们提出了一种基于弹性共识的演员 - 批评算法,其中每个代理估计了团队平均奖励和价值函数,并将关联的参数向量传送到其立即邻居。我们表明,在拜占庭代理人的存在下,其估算和通信策略是完全任意的,合作社的估计值会融合到有概率一体的有界共识值,条件是在附近的最多有$ H $拜占庭代理商每个合作社和网络都是$(2h + 1)$ - 强大。此外,我们证明,合作社的政策在其团队平均目标函数的局部最大化器周围汇聚在其团队平均目标函数的概率上,这是对渐关节转移变得稳定的普发因子的政策。
translated by 谷歌翻译
增强学习算法需要大量样品;这通常会限制他们的现实应用程序在简单的任务上。在多代理任务中,这种挑战更为出色,因为操作的每个步骤都需要进行沟通,转移或资源。这项工作旨在通过基于模型的学习来提高多代理控制的数据效率。我们考虑了代理商合作并仅与邻居进行当地交流的网络系统,并提出了基于模型的政策优化框架(DMPO)。在我们的方法中,每个代理都会学习一个动态模型,以预测未来的状态并通过通信广播其预测,然后在模型推出下训练策略。为了减轻模型生成数据的偏见,我们限制了用于产生近视推出的模型使用量,从而减少了模型生成的复合误差。为了使策略更新的独立性有关,我们引入了扩展的价值函数,理论上证明了由此产生的策略梯度是与真实策略梯度的紧密近似。我们在几个智能运输系统的基准上评估了我们的算法,这些智能运输系统是连接的自动驾驶汽车控制任务(FLOW和CACC)和自适应交通信号控制(ATSC)。经验结果表明,我们的方法可以实现卓越的数据效率,并使用真实模型匹配无模型方法的性能。
translated by 谷歌翻译
Multi-robot manipulation tasks involve various control entities that can be separated into dynamically independent parts. A typical example of such real-world tasks is dual-arm manipulation. Learning to naively solve such tasks with reinforcement learning is often unfeasible due to the sample complexity and exploration requirements growing with the dimensionality of the action and state spaces. Instead, we would like to handle such environments as multi-agent systems and have several agents control parts of the whole. However, decentralizing the generation of actions requires coordination across agents through a channel limited to information central to the task. This paper proposes an approach to coordinating multi-robot manipulation through learned latent action spaces that are shared across different agents. We validate our method in simulated multi-robot manipulation tasks and demonstrate improvement over previous baselines in terms of sample efficiency and learning performance.
translated by 谷歌翻译
在分散的合作多机构增强学习中,代理可以彼此汇总信息,以学习最大化团队平均目标功能的政策。尽管愿意与他人合作,但各个代理商可能会直接分享有关其当地状态,奖励和价值功能的信息,这是由于隐私问题而不受欢迎的。在这项工作中,我们引入了一种带有TD错误聚合的分散的参与者批判算法,该算法不违反隐私问题,并假设沟通渠道会受到时间延迟和数据包的删除。通过传输数据的维度来衡量,我们为做出如此薄弱的假设所支付的成本是增加的沟通负担。有趣的是,通信负担仅在图形大小上是二次的,这使得适用于大型网络的算法。我们在减小的步进大小下提供收敛分析,以验证代理最大化团队平均目标函数。
translated by 谷歌翻译
最先进的多机构增强学习(MARL)方法为各种复杂问题提供了有希望的解决方案。然而,这些方法都假定代理执行同步的原始操作执行,因此它们不能真正可扩展到长期胜利的真实世界多代理/机器人任务,这些任务固有地要求代理/机器人以异步的理由,涉及有关高级动作选择的理由。不同的时间。宏观行动分散的部分可观察到的马尔可夫决策过程(MACDEC-POMDP)是在完全合作的多代理任务中不确定的异步决策的一般形式化。在本论文中,我们首先提出了MacDec-Pomdps的一组基于价值的RL方法,其中允许代理在三个范式中使用宏观成果功能执行异步学习和决策:分散学习和控制,集中学习,集中学习和控制,以及分散执行的集中培训(CTDE)。在上述工作的基础上,我们在三个训练范式下制定了一组基于宏观行动的策略梯度算法,在该训练范式下,允许代理以异步方式直接优化其参数化策略。我们在模拟和真实的机器人中评估了我们的方法。经验结果证明了我们在大型多代理问题中的方法的优势,并验证了我们算法在学习具有宏观actions的高质量和异步溶液方面的有效性。
translated by 谷歌翻译
尽管许多多机器人协调问题可以通过精确算法最佳解决,但在机器人数量中通常无法扩展解决方案。多代理强化学习(MARL)正在在机器人社区中越来越关注,这是解决此类问题的一种有希望的解决方案。然而,我们仍然缺乏使我们能够快速有效地找到大规模集体学习任务的解决方案的工具。在这项工作中,我们介绍了矢量化的多代理模拟器(VMA)。 VMA是一个旨在有效的Marl基准测试的开源框架。它由用pytorch编写的矢量化2D物理引擎和一组十二个具有挑战性的多机器人场景组成。可以通过简单的模块化接口实现其他方案。我们证明了矢量化如何在没有增加复杂性的情况下对加速硬件进行并行模拟。在将VMA与OpenAI MPE进行比较时,我们显示了MPE的执行时间如何在模拟数量中线性增加,而VMA可以在10秒内执行30,000个并行模拟,证明超过100倍以上。使用VMA的RLLIB接口,我们使用基于各种近端策略优化(PPO)的MARL算法对多机器人方案进行基准测试。 VMA的场景以正交方式证明了最先进的MARL算法的挑战。 VMA框架可在https://github.com/proroklab/dectorizedmultiagentsimulator上获得。 VMA场景和实验的视频可在https://youtu.be/aadryfiesay} {here} \ footnote {\ url {https://youtu.be/aadryfiesay上获得。
translated by 谷歌翻译
Cooperative multi-agent reinforcement learning (MARL) has achieved significant results, most notably by leveraging the representation-learning abilities of deep neural networks. However, large centralized approaches quickly become infeasible as the number of agents scale, and fully decentralized approaches can miss important opportunities for information sharing and coordination. Furthermore, not all agents are equal -- in some cases, individual agents may not even have the ability to send communication to other agents or explicitly model other agents. This paper considers the case where there is a single, powerful, \emph{central agent} that can observe the entire observation space, and there are multiple, low-powered \emph{local agents} that can only receive local observations and are not able to communicate with each other. The central agent's job is to learn what message needs to be sent to different local agents based on the global observations, not by centrally solving the entire problem and sending action commands, but by determining what additional information an individual agent should receive so that it can make a better decision. In this work we present our MARL algorithm \algo, describe where it would be most applicable, and implement it in the cooperative navigation and multi-agent walker domains. Empirical results show that 1) learned communication does indeed improve system performance, 2) results generalize to heterogeneous local agents, and 3) results generalize to different reward structures.
translated by 谷歌翻译
如今,合作多代理系统用于学习如何在大规模动态环境中实现目标。然而,在这些环境中的学习是具有挑战性的:从搜索空间大小对学习时间的影响,代理商之间的低效合作。此外,增强学习算法可能遭受这种环境的长时间的收敛。本文介绍了通信框架。在拟议的沟通框架中,代理商学会有效地合作,同时通过引入新的状态计算方法,状态空间的大小将大大下降。此外,提出了一种知识传输算法以共享不同代理商之间的获得经验,并制定有效的知识融合机制,以融合利用来自其他团队成员所收到的知识的代理商自己的经验。最后,提供了模拟结果以指示所提出的方法在复杂学习任务中的功效。我们已经评估了我们对牧羊化问题的方法,结果表明,通过利用知识转移机制,学习过程加速了,通过基于状态抽象概念产生类似国家的状态空间的大小均下降。
translated by 谷歌翻译
政策梯度方法在多智能体增强学习中变得流行,但由于存在环境随机性和探索代理(即非公平性​​),它们遭受了高度的差异,这可能因信用分配难度而受到困扰。结果,需要一种方法,该方法不仅能够有效地解决上述两个问题,而且需要足够强大地解决各种任务。为此,我们提出了一种新的多代理政策梯度方法,称为强大的本地优势(ROLA)演员 - 评论家。 Rola允许每个代理人将个人动作值函数作为当地评论家,以及通过基于集中评论家的新型集中培训方法来改善环境不良。通过使用此本地批评,每个代理都计算基准,以减少对其策略梯度估计的差异,这导致含有其他代理的预期优势动作值,这些选项可以隐式提高信用分配。我们在各种基准测试中评估ROLA,并在许多最先进的多代理政策梯度算法上显示其鲁棒性和有效性。
translated by 谷歌翻译
流动性和流量的许多方案都涉及多种不同的代理,需要合作以找到共同解决方案。行为计划的最新进展使用强化学习以寻找有效和绩效行为策略。但是,随着自动驾驶汽车和车辆对X通信变得越来越成熟,只有使用单身独立代理的解决方案在道路上留下了潜在的性能增长。多代理增强学习(MARL)是一个研究领域,旨在为彼此相互作用的多种代理找到最佳解决方案。这项工作旨在将该领域的概述介绍给研究人员的自主行动能力。我们首先解释Marl并介绍重要的概念。然后,我们讨论基于Marl算法的主要范式,并概述每个范式中最先进的方法和思想。在这种背景下,我们调查了MAL在自动移动性场景中的应用程序,并概述了现有的场景和实现。
translated by 谷歌翻译
碰撞避免算法对许多无人机应用程序具有核心兴趣。特别地,分散的方法可以是在集中通信变得过艰巨的情况下启用强大的无人机群解决方案的关键。在这项工作中,我们从椋鸟(Ventgaris)的群群中汲取生物启示,并将洞察力应用于结尾学的分散碰撞避免。更具体地,我们提出了一种新的,可伸缩的观察模型,其仿生最近邻的信息约束,导致快速学习和良好的碰撞行为。通过提出一般加强学习方法,我们获得了基于端到端的学习方法,以通过包装收集和形成变化等任意任务集成碰撞避免。为了验证这种方法的一般性,我们通过中等复杂性的运动模型成功地应用了我们的方法,建模势头,仍然可以与标准PID控制器结合使用直接应用。与事先作品相比,我们发现,在我们足够丰富的运动模型中,最近的邻居信息确实足以学习有效的碰撞行为。我们的学习政策在模拟中进行了测试,随后转移到现实世界的无人机,以验证其现实世界的适用性。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
设想了一座低空地球轨道(LEO)卫星(SAT)的Mega-Constulation,以提供超出第五代(5G)蜂窝系统的全球覆盖网网络。 Leo SAT网络在时代的SAT网络拓扑中展示了许多用户的极长链接距离。这使得现有的多个访问协议,例如基于随机接入信道(RACH)的蜂窝协议,专为固定地面网络拓扑而设计,不适用于。为了克服这个问题,在本文中,我们提出了一种新颖的LEO SAT网络无随机访问解决方案,被称为随机接入信道协议(ERACH)。在与现有的基于模型和标准化协议的鲜明对比中,ERACH是一种无模型方法,通过使用多档次深度加强学习(Madrl),通过与非静止网络环境的互动出现。此外,通过利用已知的SAT轨道模式,ERACH不需要跨越用户的中心协调或额外的通信,而训练会聚通过规则的轨道模式稳定。与RACH相比,我们从各种模拟中展示了我们所提出的ERACH的平均网络吞吐量增加了54.6%,平均访问延迟较低的两倍,同时实现了0.989的jain的公平指数。
translated by 谷歌翻译
在过去的几十年中,多机构增强学习(MARL)一直在学术界和行业受到广泛关注。 MAL中的基本问题之一是如何全面评估不同的方法。在视频游戏或简单的模拟场景中评估了大多数现有的MAL方法。这些方法在实际情况下,尤其是多机器人系统中的性能仍然未知。本文介绍了一个可扩展的仿真平台,用于多机器人增强学习(MRRL),称为SMART,以满足这一需求。确切地说,智能由两个组成部分组成:1)一个模拟环境,该环境为培训提供了各种复杂的交互场景,以及2)现实世界中的多机器人系统,用于现实的性能评估。此外,SMART提供了代理环境API,这些API是算法实现的插件。为了说明我们平台的实用性,我们就合作驾驶车道变更方案进行了案例研究。在案例研究的基础上,我们总结了MRRL的一些独特挑战,这些挑战很少被考虑。最后,我们为鼓励和增强MRRL研究的仿真环境,相关的基准任务和最先进的基线开放。
translated by 谷歌翻译
对于多种代理的动力学物理耦合的任务,例如,在合作操作中,各个代理之间的协调变得至关重要,这需要确切的相互作用动力学知识。通常使用集中式估计器来解决此问题,这可能会对整个系统的灵活性和鲁棒性产生负面影响。为了克服这一缺点,我们提出了一个新颖的分布式学习框架,用于使用贝叶斯原理进行合作操作的典范任务。仅使用局部状态信息,每个代理都会获得对象动力学和掌握运动学的估计。这些本地估计是使用动态平均共识组合的。由于该方法的概率基础很强,因此对象动力学和掌握运动学的每个估计都伴随着一种不确定性的度量,该度量允许以高概率保证有界的预测误差。此外,贝叶斯原理直接允许迭代学习以持续的复杂性,以便可以在实时应用程序中在线使用所提出的学习方法。该方法的有效性在模拟的合作操作任务中得到了证明。
translated by 谷歌翻译
多目标自组织追求(SOP)问题已广泛应用,并被认为是一个充满挑战的分布式系统的自组织游戏,在该系统中,智能代理在其中合作追求具有部分观察的多个动态目标。这项工作为分散的多机构系统提出了一个框架,以提高智能代理的搜索和追求能力。我们将一个自组织的系统建模为可观察到的马尔可夫游戏(POMG),具有权力下放,部分观察和非通信的特征。然后将拟议的分布式算法:模糊自组织合作协同进化(FSC2)杠杆化,以解决多目标SOP中的三个挑战:分布式自组织搜索(SOS),分布式任务分配和分布式单目标追踪。 FSC2包括一种协调的多代理深钢筋学习方法,该方法使均匀的代理能够学习天然SOS模式。此外,我们提出了一种基于模糊的分布式任务分配方法,该方法将多目标SOP分解为几个单目标追求问题。合作进化原则用于协调每个单一目标问题的分布式追随者。因此,可以缓解POMG中固有的部分观察和分布式决策的不确定性。实验结果表明,在所有三个子任务中,分布式不传动的多机构协调都具有部分观察结果,而2048 FSC2代理可以执行有效的多目标SOP,其捕获率几乎为100%。
translated by 谷歌翻译
Multi-agent settings remain a fundamental challenge in the reinforcement learning (RL) domain due to the partial observability and the lack of accurate real-time interactions across agents. In this paper, we propose a new method based on local communication learning to tackle the multi-agent RL (MARL) challenge within a large number of agents coexisting. First, we design a new communication protocol that exploits the ability of depthwise convolution to efficiently extract local relations and learn local communication between neighboring agents. To facilitate multi-agent coordination, we explicitly learn the effect of joint actions by taking the policies of neighboring agents as inputs. Second, we introduce the mean-field approximation into our method to reduce the scale of agent interactions. To more effectively coordinate behaviors of neighboring agents, we enhance the mean-field approximation by a supervised policy rectification network (PRN) for rectifying real-time agent interactions and by a learnable compensation term for correcting the approximation bias. The proposed method enables efficient coordination as well as outperforms several baseline approaches on the adaptive traffic signal control (ATSC) task and the StarCraft II multi-agent challenge (SMAC).
translated by 谷歌翻译