碰撞避免算法对许多无人机应用程序具有核心兴趣。特别地,分散的方法可以是在集中通信变得过艰巨的情况下启用强大的无人机群解决方案的关键。在这项工作中,我们从椋鸟(Ventgaris)的群群中汲取生物启示,并将洞察力应用于结尾学的分散碰撞避免。更具体地,我们提出了一种新的,可伸缩的观察模型,其仿生最近邻的信息约束,导致快速学习和良好的碰撞行为。通过提出一般加强学习方法,我们获得了基于端到端的学习方法,以通过包装收集和形成变化等任意任务集成碰撞避免。为了验证这种方法的一般性,我们通过中等复杂性的运动模型成功地应用了我们的方法,建模势头,仍然可以与标准PID控制器结合使用直接应用。与事先作品相比,我们发现,在我们足够丰富的运动模型中,最近的邻居信息确实足以学习有效的碰撞行为。我们的学习政策在模拟中进行了测试,随后转移到现实世界的无人机,以验证其现实世界的适用性。
translated by 谷歌翻译
我们展示了通过大规模多代理端到端增强学习的大射击可转移到真正的四轮压力机的无人驾驶群体控制器的可能性。我们培训由神经网络参数化的政策,该政策能够以完全分散的方式控制群体中的各个无人机。我们的政策,在具有现实的四轮流物理学的模拟环境中训练,展示了先进的植绒行为,在紧张的地层中执行侵略性的操作,同时避免彼此的碰撞,破裂和重新建立地层,以避免与移动障碍的碰撞,并有效地协调追求障碍,并有效地协调追求逃避任务。在模拟中,我们分析了培训制度的不同模型架构和参数影响神经群的最终表现。我们展示了在模拟中学习的模型的成功部署到高度资源受限的物理四体体执行站保持和目标交换行为。在Propers网站上提供代码和视频演示,在https://sites.google.com/view/swarm-rl上获得。
translated by 谷歌翻译
近年来,强化学习及其多代理类似物在解决各种复杂控制问题方面取得了巨大的成功。然而,在其理论分析和算法的经验设计中,多机构的增强学习仍然具有挑战性,尤其是对于大量的体现的机器人剂,在这些机器人链中仍然是确定的工具链仍然是积极研究的一部分。我们使用新兴的最先进的均值控制技术,以将多机构群体控制转换为更经典的单位分布控制。这允许从单位加强学习的进步中获利,以假设代理之间的相互作用较弱。结果,平均场模型被带有体现的,身体碰撞的代理的真实系统的性质违反。在这里,我们将避免碰撞和对平均场控制的学习结合到一个统一设计智能机器人群行为的统一框架。在理论方面,我们为连续空间和避免碰撞的一般平均场控制提供了新颖的近似保证。从实际方面来说,我们表明我们的方法的表现优于多代理强化学习,并允许在模拟和真实无人机群中避免碰撞的同时进行分散的开环应用程序。总体而言,我们为群体行为设计框架提出了一个框架,该框架既有数学上有充分的基础,而且实际上有用,从而实现了原本棘手的群问题的解决方案。
translated by 谷歌翻译
分散的多代理导航的代理缺乏世界知识,无法可靠地制定安全和(接近)最佳计划。他们将决定基于邻居的可观察状态,这隐藏了邻居的导航意图。我们提出了通过机构间沟通的增强分散导航,以提高其绩效和援助代理,以做出合理的导航决策。在这方面,我们提出了一种新颖的增强学习方法,用于使用选择性间隔沟通来避免多代理碰撞。我们的网络学会决定“何时”并与“谁”交流,以端到端的方式索取其他信息。我们将沟通选择作为链接预测问题,在该问题中,如果可以观察到的信息,网络可以预测是否需要通信。传达的信息增加了观察到的邻居信息以选择合适的导航计划。随着机器人的邻居数量的变化,我们使用多头自发项机制来编码邻居信息并创建固定长度的观察向量。我们验证我们提出的方法在挑战模拟基准中实现了多个机器人之间的安全有效导航。通过学习的通信,我们的网络的性能比在各种指标(例如到目标和碰撞频率)中的现有分散方法的表现要好得多。此外,我们展示了网络有效地学会在高复杂性情况下进行必要时进行交流。
translated by 谷歌翻译
我们解决了在存在障碍物的情况下,通过一系列航路点来解决四肢飞行的最低时间飞行问题,同时利用了完整的四型动力学。早期作品依赖于简化的动力学或多项式轨迹表示,而这些动力学或多项式轨迹表示,这些表示没有利用四四光的全部执行器电位,因此导致了次优溶液。最近的作品可以计划最小的时间轨迹;然而,轨迹是通过无法解释障碍的控制方法执行的。因此,由于模型不匹配和机上干扰,成功执行此类轨迹很容易出现错误。为此,我们利用深厚的强化学习和经典的拓扑路径计划来训练强大的神经网络控制器,以在混乱的环境中为最少的四型四型飞行。由此产生的神经网络控制器表现出比最新方法相比,高达19%的性能要高得多。更重要的是,博学的政策同时在线解决了计划和控制问题,以解决干扰,从而实现更高的鲁棒性。因此,提出的方法在没有碰撞的情况下实现了100%的最低时间策略的成功率,而传统的计划和控制方法仅获得40%。所提出的方法在模拟和现实世界中均已验证,四速速度高达42公里/小时,加速度为3.6g。
translated by 谷歌翻译
模拟虚拟人群的轨迹是计算机图形中通常遇到的任务。最近的一些作品应用了强化学习方法来使虚拟代理动画,但是在基本模拟设置方面,它们通常会做出不同的设计选择。这些选择中的每一个都有合理的使用依据,因此并不明显其真正的影响是什么,以及它们如何影响结果。在这项工作中,我们从对学习绩效的影响以及根据能源效率测得的模拟的质量分析了其中一些任意选择。我们对奖励函数设计的性质进行理论分析,并经验评估使用某些观察和动作空间对各种情况的影响,并将奖励函数和能量使用作为指标。我们表明,直接使用相邻代理的信息作为观察,通常优于更广泛使用的射线播放。同样,与具有绝对观察结果的自动对照相比,使用具有以自我为中心的观察的非体力学对照倾向于产生更有效的行为。这些选择中的每一个都对结果产生重大且潜在的非平凡影响,因此研究人员应该注意选择和报告他们的工作。
translated by 谷歌翻译
大型人口系统的分析和控制对研究和工程的各个领域引起了极大的兴趣,从机器人群的流行病学到经济学和金融。一种越来越流行和有效的方法来实现多代理系统中的顺序决策,这是通过多机构增强学习,因为它允许对高度复杂的系统进行自动和无模型的分析。但是,可伸缩性的关键问题使控制和增强学习算法的设计变得复杂,尤其是在具有大量代理的系统中。尽管强化学习在许多情况下都发现了经验成功,但许多代理商的问题很快就变得棘手了,需要特别考虑。在这项调查中,我们将阐明当前的方法,以通过多代理强化学习以及通过诸如平均场游戏,集体智能或复杂的网络理论等研究领域进行仔细理解和分析大型人口系统。这些经典独立的主题领域提供了多种理解或建模大型人口系统的方法,这可能非常适合将来的可拖动MARL算法制定。最后,我们调查了大规模控制的潜在应用领域,并确定了实用系统中学习算法的富有成果的未来应用。我们希望我们的调查可以为理论和应用科学的初级和高级研究人员提供洞察力和未来的方向。
translated by 谷歌翻译
我们为仓库环境中的移动机器人提供基于新颖的强化学习(RL)任务分配和分散的导航算法。我们的方法是针对各种机器人执行各种接送和交付任务的场景而设计的。我们考虑了联合分散任务分配和导航的问题,并提出了解决该问题的两层方法。在更高级别,我们通过根据马尔可夫决策过程制定任务并选择适当的奖励来最大程度地减少总旅行延迟(TTD)来解决任务分配。在较低级别,我们使用基于ORCA的分散导航方案,使每个机器人能够独立执行这些任务,并避免与其他机器人和动态障碍物发生碰撞。我们通过定义较高级别的奖励作为低级导航算法的反馈来结合这些下层和上层。我们在复杂的仓库布局中进行了广泛的评估,并具有大量代理商,并根据近视拾取距离距离最小化和基于遗憾的任务选择,突出了对最先进算法的好处。我们观察到任务完成时间的改善高达14%,并且在计算机器人的无碰撞轨迹方面提高了40%。
translated by 谷歌翻译
We consider the problem of multi-agent navigation and collision avoidance when observations are limited to the local neighborhood of each agent. We propose InforMARL, a novel architecture for multi-agent reinforcement learning (MARL) which uses local information intelligently to compute paths for all the agents in a decentralized manner. Specifically, InforMARL aggregates information about the local neighborhood of agents for both the actor and the critic using a graph neural network and can be used in conjunction with any standard MARL algorithm. We show that (1) in training, InforMARL has better sample efficiency and performance than baseline approaches, despite using less information, and (2) in testing, it scales well to environments with arbitrary numbers of agents and obstacles.
translated by 谷歌翻译
多机器人导航是一项具有挑战性的任务,其中必须在动态环境中同时协调多个机器人。我们应用深入的加固学习(DRL)来学习分散的端到端策略,该政策将原始传感器数据映射到代理的命令速度。为了使政策概括,培训是在不同的环境和场景中进行的。在常见的多机器人场景中测试和评估了学识渊博的政策,例如切换一个地方,交叉路口和瓶颈情况。此策略使代理可以从死端恢复并浏览复杂的环境。
translated by 谷歌翻译
随着自动驾驶行业的发展,自动驾驶汽车群体的潜在相互作用也随之增长。结合人工智能和模拟的进步,可以模拟此类组,并且可以学习控制内部汽车的安全模型。这项研究将强化学习应用于多代理停车场的问题,在那里,汽车旨在有效地停车,同时保持安全和理性。利用强大的工具和机器学习框架,我们以马尔可夫决策过程的形式与独立学习者一起设计和实施灵活的停车环境,从而利用多代理通信。我们实施了一套工具来进行大规模执行实验,从而取得了超过98.1%成功率的高达7辆汽车的模型,从而超过了现有的单代机构模型。我们还获得了与汽车在我们环境中表现出的竞争性和协作行为有关的几个结果,这些行为的密度和沟通水平各不相同。值得注意的是,我们发现了一种没有竞争的合作形式,以及一种“泄漏”的合作形式,在没有足够状态的情况下,代理商进行了协作。这种工作在自动驾驶和车队管理行业中具有许多潜在的应用,并为将强化学习应用于多机构停车场提供了几种有用的技术和基准。
translated by 谷歌翻译
在本文中,我们使用基于视觉的图形聚合和推理(VGAI)呈现了一种感知 - 动作通信环路设计。这种多代理分散的学习 - 控制框架将原始的视觉观测映射到代理操作,并通过相邻代理之间的本地通信提供帮助。我们的框架是由圆形卷积和图形神经网络(CNN / GNN)的级联实现,寻址代理级视觉感知和特征学习,以及群级通信,本地信息聚合和代理动作推断。通过联合训练CNN和GNN,结合了解图像特征和通信消息以更好地解决特定任务。我们使用模仿学习在离线阶段训练VGAI控制器,依赖于集中式专家控制器。这导致学习的VGAI控制器可以以分布式方式部署以进行在线执行。此外,控制器展示了良好的缩放性质,在较大的团队中具有较小的团队和应用程序的培训。通过多代理植入应用程序,我们证明VGAI产生与其他分散的控制器相当或更好地使用视觉输入模态,而不访问精确的位置或运动状态信息。
translated by 谷歌翻译
了解来自群体中集体行为的分散性动态对于通知人工群和多态机械系统中的机器人控制器设计至关重要。然而,代理人与代理人的相互作用和大多数群体的分散性质对来自全球行为的单机器人控制法的提取构成重大挑战。在这项工作中,我们考虑完全基于群体轨迹的国家观察学习分散单机器人控制器的重要任务。我们通过采用基于知识的神经常规方程(KNODE)来提出一般框架 - 一种能够将人工神经网络与已知代理动态组合的混合机学习方法。我们的方法与大多数事先有关的方法区分,因为我们不需要学习的行动数据。我们分别在2D和3D中将框架应用于两个不同的植绒群,并通过利用群体信息网络的图形结构来展示有效的培训。我们进一步表明,学习的单机器人控制器不仅可以重现原始群体中的植绒行为,而且还可以使用更多机器人来扩展到群体。
translated by 谷歌翻译
我们研究了流行的集中训练和分散执行(CTDE)范式中的多机器人发臭导航问题。当每个机器人考虑其路径而不明确地与其他机器人明确分享观察时,这一问题挑战了,可能导致深度加强学习(DRL)中的非静止问题。典型的CTDE算法将联合动作值函数分解为个别函数,以支持合作并实现分散的执行。这种分解涉及限制(例如,单调性),其限制在个体中的新行为的出现,因为从联合动作值开始训练。相比之下,我们为CTDE提出了一种新颖的架构,该架构使用集中式状态值网络来计算联合状态值,该值用于在代理的基于值的更新中注入全局状态信息。因此,考虑到环境的整体状态,每个模型计算其权重的梯度更新。我们的想法遵循Dueling Networks作为联合状态值的单独估计的独立估计,具有提高采样效率的优点,同时提供每个机器人信息,无论全局状态是否为(或不是)有价值的。具有2 4和8个机器人的机器人导航任务的实验,确认了我们对先前CTDE方法的方法的卓越性能(例如,VDN,QMIX)。
translated by 谷歌翻译
自治系统正在成为海洋部门内无处不在和获得势头。由于运输的电气化同时发生,自主海洋船只可以降低环境影响,降低成本并提高效率。虽然仍然需要密切的监控以确保安全,但最终目标是完全自主权。一个主要的里程碑是开发一个控制系统,这足以处理任何也稳健和可靠的天气和遇到。此外,控制系统必须遵守防止海上碰撞的国际法规,以便与人类水手进行成功互动。由于Colregs被编写为人类思想来解释,因此它们以暧昧的散文写成,因此不能获得机器可读或可核实。由于这些挑战和各种情况进行了解决,古典模型的方法证明了实现和计算沉重的复杂性。在机器学习(ML)内,深增强学习(DRL)对广泛的应用表现出了很大的潜力。 DRL的无模型和自学特性使其成为自治船只的有希望的候选人。在这项工作中,使用碰撞风险理论将Colregs的子集合在于基于DRL的路径和障碍物避免系统。由此产生的自主代理在训练场景中的训练场景,孤立的遇难情况和基于AIS的真实情景模拟中动态地插值。
translated by 谷歌翻译
This work considers the problem of learning cooperative policies in complex, partially observable domains without explicit communication. We extend three classes of single-agent deep reinforcement learning algorithms based on policy gradient, temporal-difference error, and actor-critic methods to cooperative multi-agent systems. We introduce a set of cooperative control tasks that includes tasks with discrete and continuous actions, as well as tasks that involve hundreds of agents. The three approaches are evaluated against each other using different neural architectures, training procedures, and reward structures. Using deep reinforcement learning with a curriculum learning scheme, our approach can solve problems that were previously considered intractable by most multi-agent reinforcement learning algorithms. We show that policy gradient methods tend to outperform both temporal-difference and actor-critic methods when using feed-forward neural architectures. We also show that recurrent policies, while more difficult to train, outperform feed-forward policies on our evaluation tasks.
translated by 谷歌翻译
我们解决了动态环境中感知力的问题。在这个问题中,四足动物的机器人必须对环境混乱和移动的障碍物表现出强大而敏捷的步行行为。我们提出了一个名为Prelude的分层学习框架,该框架将感知力的问题分解为高级决策,以预测导航命令和低级步态生成以实现目标命令。在此框架中,我们通过在可进入手推车上收集的人类示范和使用加固学习(RL)的低级步态控制器(RL)上收集的人类示范中的模仿学习来训练高级导航控制器。因此,我们的方法可以从人类监督中获取复杂的导航行为,并从反复试验中发现多功能步态。我们证明了方法在模拟和硬件实验中的有效性。可以在https://ut-aut-autin-rpl.github.io/prelude上找到视频和代码。
translated by 谷歌翻译
在这项工作中,我们表明,可以在模拟中完全使用加强学习进行培训低级控制策略,然后,在Quadrotor机器人上部署它们而不使用真实数据进行微调。为了渲染零拍策略转移可行,我们应用模拟优化以缩小现实差距。我们的神经网络的策略仅使用车载数据,并完全在嵌入式无人机硬件上运行。在广泛的真实实验中,我们比较三种不同的控制结构,范围从低级脉冲宽度调制的电机命令到基于嵌套比例 - 积分衍生物控制器的高级姿态控制。我们的实验表明,利用加固学习培训的低级控制器需要比更高级别的控制策略更准确的模拟。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
在过去的几十年中,多机构增强学习(MARL)一直在学术界和行业受到广泛关注。 MAL中的基本问题之一是如何全面评估不同的方法。在视频游戏或简单的模拟场景中评估了大多数现有的MAL方法。这些方法在实际情况下,尤其是多机器人系统中的性能仍然未知。本文介绍了一个可扩展的仿真平台,用于多机器人增强学习(MRRL),称为SMART,以满足这一需求。确切地说,智能由两个组成部分组成:1)一个模拟环境,该环境为培训提供了各种复杂的交互场景,以及2)现实世界中的多机器人系统,用于现实的性能评估。此外,SMART提供了代理环境API,这些API是算法实现的插件。为了说明我们平台的实用性,我们就合作驾驶车道变更方案进行了案例研究。在案例研究的基础上,我们总结了MRRL的一些独特挑战,这些挑战很少被考虑。最后,我们为鼓励和增强MRRL研究的仿真环境,相关的基准任务和最先进的基线开放。
translated by 谷歌翻译