图形神经网络(GNNS)是一种范式转换的神经结构,以便于学习复杂的多智能经纪行为。最近的工作已经表现出显着的绩效,如植绒,多代理路径规划和合作覆盖。但是,通过基于GNN的学习计划导出的策略尚未部署到物理多机器人系统上的现实世界。在这项工作中,我们展示了一个系统的设计,允许完全分散地执行基于GNN的策略。我们创建基于ROS2的框架,并在本文中详细说明其细节。我们展示了我们在一个案例研究的框架,需要在机器人之间进行紧张的协调,并呈现出于依赖于adhoc通信的分散式多机器人系统的基于GNN的政策的成功实际部署的一类结果。可以在线找到这种情况的视频演示。https://www.youtube.com/watch?v=coh-wln4io4
translated by 谷歌翻译
审查的目的。这篇评论总结了通信格式和技术在启用多机器人系统中发挥的广泛作用。我们从两个角度了解了这一领域:需要通信功能才能完成任务的机器人应用程序,以及已使更新,更高级的多机器人系统的网络技术。最近的发现。通过这篇综述,我们确定了一项缺乏工作,从整体上解决了机器人及其使用的网络的共同设计和合作的问题。我们还强调了数据驱动和机器学习方法在为多机器人系统发展的通信管道中所扮演的角色。特别是,我们指的是最近与手工设计的通信模式不同的工作,并在这种情况下讨论了“ SIM到真实”差距。概括。我们介绍了机器人算法及其网络系统发展的方式的批判性观点,并为更协同的方法提供了理由。最后,我们还发现了针对研发的四个广泛的开放问题,同时提供了一个以数据为导向的观点来解决其中的一些问题。
translated by 谷歌翻译
在过去的几十年中,多机构增强学习(MARL)一直在学术界和行业受到广泛关注。 MAL中的基本问题之一是如何全面评估不同的方法。在视频游戏或简单的模拟场景中评估了大多数现有的MAL方法。这些方法在实际情况下,尤其是多机器人系统中的性能仍然未知。本文介绍了一个可扩展的仿真平台,用于多机器人增强学习(MRRL),称为SMART,以满足这一需求。确切地说,智能由两个组成部分组成:1)一个模拟环境,该环境为培训提供了各种复杂的交互场景,以及2)现实世界中的多机器人系统,用于现实的性能评估。此外,SMART提供了代理环境API,这些API是算法实现的插件。为了说明我们平台的实用性,我们就合作驾驶车道变更方案进行了案例研究。在案例研究的基础上,我们总结了MRRL的一些独特挑战,这些挑战很少被考虑。最后,我们为鼓励和增强MRRL研究的仿真环境,相关的基准任务和最先进的基线开放。
translated by 谷歌翻译
我们考虑将移动机器人导航到具有视觉传感器的未知环境中的问题,在该环境中,机器人和传感器都无法访问全局定位信息,并且仅使用第一人称视图图像。虽然基于传感器网络的先前工作使用明确的映射和计划技术,并且经常得到外部定位系统的帮助,但我们提出了一种基于视觉的学习方法,该方法利用图形神经网络(GNN)来编码和传达相关的视点信息到移动机器人。在导航期间,机器人以模型为指导,我们通过模仿学习训练以近似最佳的运动原语,从而预测有效的成本(目标)。在我们的实验中,我们首先证明了具有各种传感器布局的以前看不见的环境的普遍性。仿真结果表明,通过利用传感器和机器人之间的通信,我们可以达到$ 18.1 \%$ $的成功率,同时将路径弯路的平均值降低$ 29.3 \%$,并且可变性降低了$ 48.4 \%$ $。这是在不需要全局地图,定位数据或传感器网络预校准的情况下完成的。其次,我们将模型从模拟到现实世界进行零拍传输。为此,我们训练一个“翻译器”模型,该模型在{}真实图像和模拟图像之间转换,以便可以直接在真实的机器人上使用导航策略(完全在模拟中训练),而无需其他微调。 。物理实验证明了我们在各种混乱的环境中的有效性。
translated by 谷歌翻译
Search and rescue, wildfire monitoring, and flood/hurricane impact assessment are mission-critical services for recent IoT networks. Communication synchronization, dependability, and minimal communication jitter are major simulation and system issues for the time-based physics-based ROS simulator, event-based network-based wireless simulator, and complex dynamics of mobile and heterogeneous IoT devices deployed in actual environments. Simulating a heterogeneous multi-robot system before deployment is difficult due to synchronizing physics (robotics) and network simulators. Due to its master-based architecture, most TCP/IP-based synchronization middlewares use ROS1. A real-time ROS2 architecture with masterless packet discovery synchronizes robotics and wireless network simulations. A velocity-aware Transmission Control Protocol (TCP) technique for ground and aerial robots using Data Distribution Service (DDS) publish-subscribe transport minimizes packet loss, synchronization, transmission, and communication jitters. Gazebo and NS-3 simulate and test. Simulator-agnostic middleware. LOS/NLOS and TCP/UDP protocols tested our ROS2-based synchronization middleware for packet loss probability and average latency. A thorough ablation research replaced NS-3 with EMANE, a real-time wireless network simulator, and masterless ROS2 with master-based ROS1. Finally, we tested network synchronization and jitter using one aerial drone (Duckiedrone) and two ground vehicles (TurtleBot3 Burger) on different terrains in masterless (ROS2) and master-enabled (ROS1) clusters. Our middleware shows that a large-scale IoT infrastructure with a diverse set of stationary and robotic devices can achieve low-latency communications (12% and 11% reduction in simulation and real) while meeting mission-critical application reliability (10% and 15% packet loss reduction) and high-fidelity requirements.
translated by 谷歌翻译
We consider the problem of multi-agent navigation and collision avoidance when observations are limited to the local neighborhood of each agent. We propose InforMARL, a novel architecture for multi-agent reinforcement learning (MARL) which uses local information intelligently to compute paths for all the agents in a decentralized manner. Specifically, InforMARL aggregates information about the local neighborhood of agents for both the actor and the critic using a graph neural network and can be used in conjunction with any standard MARL algorithm. We show that (1) in training, InforMARL has better sample efficiency and performance than baseline approaches, despite using less information, and (2) in testing, it scales well to environments with arbitrary numbers of agents and obstacles.
translated by 谷歌翻译
While the capabilities of autonomous systems have been steadily improving in recent years, these systems still struggle to rapidly explore previously unknown environments without the aid of GPS-assisted navigation. The DARPA Subterranean (SubT) Challenge aimed to fast track the development of autonomous exploration systems by evaluating their performance in real-world underground search-and-rescue scenarios. Subterranean environments present a plethora of challenges for robotic systems, such as limited communications, complex topology, visually-degraded sensing, and harsh terrain. The presented solution enables long-term autonomy with minimal human supervision by combining a powerful and independent single-agent autonomy stack, with higher level mission management operating over a flexible mesh network. The autonomy suite deployed on quadruped and wheeled robots was fully independent, freeing the human supervision to loosely supervise the mission and make high-impact strategic decisions. We also discuss lessons learned from fielding our system at the SubT Final Event, relating to vehicle versatility, system adaptability, and re-configurable communications.
translated by 谷歌翻译
在本文中,我们使用基于视觉的图形聚合和推理(VGAI)呈现了一种感知 - 动作通信环路设计。这种多代理分散的学习 - 控制框架将原始的视觉观测映射到代理操作,并通过相邻代理之间的本地通信提供帮助。我们的框架是由圆形卷积和图形神经网络(CNN / GNN)的级联实现,寻址代理级视觉感知和特征学习,以及群级通信,本地信息聚合和代理动作推断。通过联合训练CNN和GNN,结合了解图像特征和通信消息以更好地解决特定任务。我们使用模仿学习在离线阶段训练VGAI控制器,依赖于集中式专家控制器。这导致学习的VGAI控制器可以以分布式方式部署以进行在线执行。此外,控制器展示了良好的缩放性质,在较大的团队中具有较小的团队和应用程序的培训。通过多代理植入应用程序,我们证明VGAI产生与其他分散的控制器相当或更好地使用视觉输入模态,而不访问精确的位置或运动状态信息。
translated by 谷歌翻译
众所周知,很难拥有一个可靠且强大的框架来将多代理深入强化学习算法与实用的多机器人应用联系起来。为了填补这一空白,我们为称为MultiroBolearn1的多机器人系统提出并构建了一个开源框架。该框架构建了统一的模拟和现实应用程序设置。它旨在提供标准的,易于使用的模拟方案,也可以轻松地将其部署到现实世界中的多机器人环境中。此外,该框架为研究人员提供了一个基准系统,以比较不同的强化学习算法的性能。我们使用不同类型的多代理深钢筋学习算法在离散和连续的动作空间中使用不同类型的多代理深钢筋学习算法来证明框架的通用性,可扩展性和能力。
translated by 谷歌翻译
Cooperative multi-agent reinforcement learning (MARL) has achieved significant results, most notably by leveraging the representation-learning abilities of deep neural networks. However, large centralized approaches quickly become infeasible as the number of agents scale, and fully decentralized approaches can miss important opportunities for information sharing and coordination. Furthermore, not all agents are equal -- in some cases, individual agents may not even have the ability to send communication to other agents or explicitly model other agents. This paper considers the case where there is a single, powerful, \emph{central agent} that can observe the entire observation space, and there are multiple, low-powered \emph{local agents} that can only receive local observations and are not able to communicate with each other. The central agent's job is to learn what message needs to be sent to different local agents based on the global observations, not by centrally solving the entire problem and sending action commands, but by determining what additional information an individual agent should receive so that it can make a better decision. In this work we present our MARL algorithm \algo, describe where it would be most applicable, and implement it in the cooperative navigation and multi-agent walker domains. Empirical results show that 1) learned communication does indeed improve system performance, 2) results generalize to heterogeneous local agents, and 3) results generalize to different reward structures.
translated by 谷歌翻译
我们展示了通过大规模多代理端到端增强学习的大射击可转移到真正的四轮压力机的无人驾驶群体控制器的可能性。我们培训由神经网络参数化的政策,该政策能够以完全分散的方式控制群体中的各个无人机。我们的政策,在具有现实的四轮流物理学的模拟环境中训练,展示了先进的植绒行为,在紧张的地层中执行侵略性的操作,同时避免彼此的碰撞,破裂和重新建立地层,以避免与移动障碍的碰撞,并有效地协调追求障碍,并有效地协调追求逃避任务。在模拟中,我们分析了培训制度的不同模型架构和参数影响神经群的最终表现。我们展示了在模拟中学习的模型的成功部署到高度资源受限的物理四体体执行站保持和目标交换行为。在Propers网站上提供代码和视频演示,在https://sites.google.com/view/swarm-rl上获得。
translated by 谷歌翻译
在多机构强化学习中,沟通对于鼓励代理商之间的合作至关重要。由于网络条件随代理的移动性而变化,并且在传输过程中的随机性变化,因此现实无线网络中的通信可能非常不可靠。我们提出一个框架来通过解决三个基本问题来学习实用的沟通策略:(1)何时:代理商不仅基于消息重要性,而且是无线渠道条件来学习沟通时间。 (2)什么:代理增强了带有无线网络测量结果的消息内容,以更好地选择游戏和通信操作。 (3)如何:代理使用新颖的神经信息编码器来保存从接收到的消息中保留所有信息,而不管消息的数量和顺序如何。与最新的ART相比,在逼真的无线网络设置下模拟标准基准测试,我们在游戏性能,收敛速度和沟通效率方面取得了重大改进。
translated by 谷歌翻译
未来的互联网涉及几种新兴技术,例如5G和5G网络,车辆网络,无人机(UAV)网络和物联网(IOT)。此外,未来的互联网变得异质并分散了许多相关网络实体。每个实体可能需要做出本地决定,以在动态和不确定的网络环境下改善网络性能。最近使用标准学习算法,例如单药强化学习(RL)或深入强化学习(DRL),以使每个网络实体作为代理人通过与未知环境进行互动来自适应地学习最佳决策策略。但是,这种算法未能对网络实体之间的合作或竞争进行建模,而只是将其他实体视为可能导致非平稳性问题的环境的一部分。多机构增强学习(MARL)允许每个网络实体不仅观察环境,还可以观察其他实体的政策来学习其最佳政策。结果,MAL可以显着提高网络实体的学习效率,并且最近已用于解决新兴网络中的各种问题。在本文中,我们因此回顾了MAL在新兴网络中的应用。特别是,我们提供了MARL的教程,以及对MARL在下一代互联网中的应用进行全面调查。特别是,我们首先介绍单代机Agent RL和MARL。然后,我们回顾了MAL在未来互联网中解决新兴问题的许多应用程序。这些问题包括网络访问,传输电源控制,计算卸载,内容缓存,数据包路由,无人机网络的轨迹设计以及网络安全问题。
translated by 谷歌翻译
本文介绍了Cerberus机器人系统系统,该系统赢得了DARPA Subterranean挑战最终活动。出席机器人自主权。由于其几何复杂性,降解的感知条件以及缺乏GPS支持,严峻的导航条件和拒绝通信,地下设置使自动操作变得特别要求。为了应对这一挑战,我们开发了Cerberus系统,该系统利用了腿部和飞行机器人的协同作用,再加上可靠的控制,尤其是为了克服危险的地形,多模式和多机器人感知,以在传感器退化,以及在传感器退化的条件下进行映射以及映射通过统一的探索路径计划和本地运动计划,反映机器人特定限制的弹性自主权。 Cerberus基于其探索各种地下环境及其高级指挥和控制的能力,表现出有效的探索,对感兴趣的对象的可靠检测以及准确的映射。在本文中,我们报告了DARPA地下挑战赛的初步奔跑和最终奖项的结果,并讨论了为社区带来利益的教训所面临的亮点和挑战。
translated by 谷歌翻译
随着现代机器人技术的发展,自主代理现在能够托管复杂的算法,这使他们能够做出聪明的决定。但是,直接在现实世界中开发和测试这种算法是乏味的,可能导致浪费宝贵的资源。尤其是对于战场环境中的异质多机构系统,在确定系统的行为和可用性方面至关重要。由于必须在部署前模拟单独的范式(共模拟)模拟此类情况,因此这些模拟器之间的同步至关重要。旨在解决此问题的现有作品无法解决部署的代理之间的多样性。在这项工作中,我们建议\ textit {SynchroSim},这是一种集成的共模拟中间件,以模拟异质的多机器人系统。在这里,我们提出了一个速度差驱动的可调窗口大小方法,以减少数据包损耗概率。它考虑了部署代理的各个速度,以在它们之间传输数据之前计算合适的窗口大小。我们考虑了我们的算法特异性模拟器不可知论,但是为了实现结果,我们已将凉亭用作物理模拟器,而NS-3用作网络模拟器。此外,我们设计了算法,考虑到封闭的通信渠道内的感知行动循环,这是有争议的情况下的基本因素之一,在数据传输方面需要高保真度。我们在视线(LOS)和非视线(NLOS)方案的模拟和系统级别上均通过经验验证我们的方法。与基于固定的窗口大小的同步方法相比,我们的方法在减少数据包损耗概率($ \ $ 11 \%)和平均数据包延迟($ \ $ 10 \%)方面取得了显着改善。
translated by 谷歌翻译
在多机器人系统中,任务对单个机器人的适当分配是非常重要的组成部分。集中式基础架构的可用性可以保证任务的最佳分配。但是,在许多重要的情况下,例如搜索和救援,探索,灾难管理,战场等,以分散的方式将动态任务直接分配给机器人。机器人之间的有效交流在任何这样的分散环境中都起着至关重要的作用。现有的关于分布式多机器人任务分配(MRTA)的作品假设网络可用或使用幼稚的通信范例。相反,在大多数情况下,网络基础架构是不稳定的或不可用的,并且临时网络是唯一的度假胜地。在同步传输(ST)的无线通信协议(ST)的最新发展显示,比在临时网络(例如无线传感器网络(WSN)/物联网(IOT)应用程序中的传统异步传输协议(IOT)应用程序中比传统的基于异步传输的协议更有效。当前的工作是将ST用于MRTA的第一项工作。具体而言,我们提出了一种有效调整基于ST的多对多交互的算法,并将信息交换最小化以达成任务分配的共识。我们通过广泛的基于基于模拟的研究在不同的环境下进行了基于模拟的延迟和能源效率来展示拟议算法的功效。
translated by 谷歌翻译
模块化机器人可以在每天重新排列到新设计中,通过为每项新任务形成定制机器人来处理各种各样的任务。但是,重新配置的机制是不够的:每个设计还需要自己独特的控制策略。人们可以从头开始为每个新设计制作一个政策,但这种方法不可扩展,特别是给出了甚至一小组模块可以生成的大量设计。相反,我们创建了一个模块化策略框架,策略结构在硬件排列上有调节,并仅使用一个培训过程来创建控制各种设计的策略。我们的方法利用了模块化机器人的运动学可以表示为设计图,其中节点作为模块和边缘作为它们之间的连接。给定机器人,它的设计图用于创建具有相同结构的策略图,其中每个节点包含一个深神经网络,以及通过共享参数的相同类型共享知识的模块(例如,Hexapod上的所有腿都相同网络参数)。我们开发了一种基于模型的强化学习算法,交织模型学习和轨迹优化,以培训策略。我们展示了模块化政策推广到培训期间没有看到的大量设计,没有任何额外的学习。最后,我们展示了与模拟和真实机器人一起控制各种设计的政策。
translated by 谷歌翻译
通信系统是自主UAV系统设计的关键部分。它必须解决不同的考虑因素,包括UAV的效率,可靠性和移动性。此外,多UAV系统需要通信系统,以帮助在UAV的团队中提供信息共享,任务分配和协作。在本文中,我们审查了在考虑在电力线检查行业的应用程序时支持无人机团队的通信解决方案。我们提供候选无线通信技术的审查{用于支持UAV应用程序中的通信。综述了这些候选技术的性能测量和无人机相关的频道建模。提出了对构建UAV网状网络的当前技术的讨论。然后,我们分析机器人通信中间件,ROS和ROS2的结构,界面和性能。根据我们的审查,提出了通信系统中每层候选解决方案的特征和依赖性。
translated by 谷歌翻译
尽管许多多机器人协调问题可以通过精确算法最佳解决,但在机器人数量中通常无法扩展解决方案。多代理强化学习(MARL)正在在机器人社区中越来越关注,这是解决此类问题的一种有希望的解决方案。然而,我们仍然缺乏使我们能够快速有效地找到大规模集体学习任务的解决方案的工具。在这项工作中,我们介绍了矢量化的多代理模拟器(VMA)。 VMA是一个旨在有效的Marl基准测试的开源框架。它由用pytorch编写的矢量化2D物理引擎和一组十二个具有挑战性的多机器人场景组成。可以通过简单的模块化接口实现其他方案。我们证明了矢量化如何在没有增加复杂性的情况下对加速硬件进行并行模拟。在将VMA与OpenAI MPE进行比较时,我们显示了MPE的执行时间如何在模拟数量中线性增加,而VMA可以在10秒内执行30,000个并行模拟,证明超过100倍以上。使用VMA的RLLIB接口,我们使用基于各种近端策略优化(PPO)的MARL算法对多机器人方案进行基准测试。 VMA的场景以正交方式证明了最先进的MARL算法的挑战。 VMA框架可在https://github.com/proroklab/dectorizedmultiagentsimulator上获得。 VMA场景和实验的视频可在https://youtu.be/aadryfiesay} {here} \ footnote {\ url {https://youtu.be/aadryfiesay上获得。
translated by 谷歌翻译
虽然当前用于自动驾驶机器人导航的系统可以在静态环境中产生安全有效的运动计划,但当多个机器人必须在狭窄的空间中一起导航时,它们通常会产生次优行为。例如,当两个机器人在狭窄的走廊上相遇时,他们可以转身找到替代路线,或者相互碰撞。本文提出了一种新的导航方法,该方法允许两个机器人在狭窄的走廊中相互通过,而无需碰撞,停止或等待。我们的方法是走廊传递(PHHP)的感知幻觉,学会了合成产生虚拟障碍(即感知幻觉),以促进多个机器人在狭窄的走廊中使用,这些机器人利用原本标准的自主导航系统。与多个基线相比,我们对各种走廊中物理机器人的实验表现出改善的性能。
translated by 谷歌翻译