对于大规模的大规模任务,多机器人系统(MRS)可以通过利用每个机器人的不同功能,移动性和功能来有效提高效率。在本文中,我们关注大规模平面区域的多机器人覆盖路径计划(MCPP)问题,在机器人资源有限的环境中具有随机的动态干扰。我们介绍了一个工人站MR,由多名工人组成,实际上有有限的实际工作资源,一个站点提供了足够的资源来补充资源。我们旨在通过将其作为完全合作的多代理增强学习问题来解决工人站MRS的MCPP问题。然后,我们提出了一种端到端分散的在线计划方法,该方法同时解决了工人的覆盖范围计划,并为车站的集合计划。我们的方法设法减少随机动态干扰对计划的影响,而机器人可以避免与它们发生冲突。我们进行仿真和真实的机器人实验,比较结果表明,我们的方法在解决任务完成时间指标的MCPP问题方面具有竞争性能。
translated by 谷歌翻译
为多个机器人制定安全,稳定和高效的避免障碍政策是具有挑战性的。大多数现有研究要么使用集中控制,要么需要与其他机器人进行通信。在本文中,我们提出了一种基于对数地图的新型对数深度强化学习方法,以避免复杂且无通信的多机器人方案。特别是,我们的方法将激光信息转换为对数图。为了提高训练速度和概括性能,我们的政策将在两个专门设计的多机器人方案中进行培训。与其他方法相比,对数图可以更准确地表示障碍,并提高避免障碍的成功率。我们最终在各种模拟和现实情况下评估了我们的方法。结果表明,我们的方法为复杂的多机器人场景和行人场景中的机器人提供了一种更稳定,更有效的导航解决方案。视频可在https://youtu.be/r0esuxe6mze上找到。
translated by 谷歌翻译
我们为仓库环境中的移动机器人提供基于新颖的强化学习(RL)任务分配和分散的导航算法。我们的方法是针对各种机器人执行各种接送和交付任务的场景而设计的。我们考虑了联合分散任务分配和导航的问题,并提出了解决该问题的两层方法。在更高级别,我们通过根据马尔可夫决策过程制定任务并选择适当的奖励来最大程度地减少总旅行延迟(TTD)来解决任务分配。在较低级别,我们使用基于ORCA的分散导航方案,使每个机器人能够独立执行这些任务,并避免与其他机器人和动态障碍物发生碰撞。我们通过定义较高级别的奖励作为低级导航算法的反馈来结合这些下层和上层。我们在复杂的仓库布局中进行了广泛的评估,并具有大量代理商,并根据近视拾取距离距离最小化和基于遗憾的任务选择,突出了对最先进算法的好处。我们观察到任务完成时间的改善高达14%,并且在计算机器人的无碰撞轨迹方面提高了40%。
translated by 谷歌翻译
多机器人导航是一项具有挑战性的任务,其中必须在动态环境中同时协调多个机器人。我们应用深入的加固学习(DRL)来学习分散的端到端策略,该政策将原始传感器数据映射到代理的命令速度。为了使政策概括,培训是在不同的环境和场景中进行的。在常见的多机器人场景中测试和评估了学识渊博的政策,例如切换一个地方,交叉路口和瓶颈情况。此策略使代理可以从死端恢复并浏览复杂的环境。
translated by 谷歌翻译
尽管数十年的努力,但在真正的情景中的机器人导航具有波动性,不确定性,复杂性和歧义(vuca短暂),仍然是一个具有挑战性的话题。受到中枢神经系统(CNS)的启发,我们提出了一个在Vuca环境中的自主导航的分层多专家学习框架。通过考虑目标位置,路径成本和安全水平的启发式探索机制,上层执行同时映射探索和路线规划,以避免陷入盲巷,类似于CNS中的大脑。使用本地自适应模型融合多种差异策略,下层追求碰撞 - 避免和直接策略之间的平衡,作为CNS中的小脑。我们在多个平台上进行仿真和实际实验,包括腿部和轮式机器人。实验结果表明我们的算法在任务成就,时间效率和安全性方面优于现有方法。
translated by 谷歌翻译
本文介绍了一种可以在非通信和局部可观察条件下应用的新型混合多机器人运动计划。策划员是无模型的,可以实现多机器人状态和观察信息的端到端映射到最终平滑和连续的轨迹。规划师是前端和后端分离的架构。前端协作航点搜索模块的设计基于具有分散执行图的集中培训下的多代理软演员批评算法。后端轨迹优化模块的设计基于具有安全区域约束的最小快照方法。该模块可以输出最终动态可行和可执行的轨迹。最后,多组实验结果验证了拟议的运动计划员的有效性。
translated by 谷歌翻译
许多现实世界的应用程序都可以作为多机构合作问题进行配置,例如网络数据包路由和自动驾驶汽车的协调。深入增强学习(DRL)的出现为通过代理和环境的相互作用提供了一种有前途的多代理合作方法。但是,在政策搜索过程中,传统的DRL解决方案遭受了多个代理具有连续动作空间的高维度。此外,代理商政策的动态性使训练非平稳。为了解决这些问题,我们建议采用高级决策和低水平的个人控制,以进行有效的政策搜索,提出一种分层增强学习方法。特别是,可以在高级离散的动作空间中有效地学习多个代理的合作。同时,低水平的个人控制可以减少为单格强化学习。除了分层增强学习外,我们还建议对手建模网络在学习过程中对其他代理的政策进行建模。与端到端的DRL方法相反,我们的方法通过以层次结构将整体任务分解为子任务来降低学习的复杂性。为了评估我们的方法的效率,我们在合作车道变更方案中进行了现实世界中的案例研究。模拟和现实世界实验都表明我们的方法在碰撞速度和收敛速度中的优越性。
translated by 谷歌翻译
最先进的多机构增强学习(MARL)方法为各种复杂问题提供了有希望的解决方案。然而,这些方法都假定代理执行同步的原始操作执行,因此它们不能真正可扩展到长期胜利的真实世界多代理/机器人任务,这些任务固有地要求代理/机器人以异步的理由,涉及有关高级动作选择的理由。不同的时间。宏观行动分散的部分可观察到的马尔可夫决策过程(MACDEC-POMDP)是在完全合作的多代理任务中不确定的异步决策的一般形式化。在本论文中,我们首先提出了MacDec-Pomdps的一组基于价值的RL方法,其中允许代理在三个范式中使用宏观成果功能执行异步学习和决策:分散学习和控制,集中学习,集中学习和控制,以及分散执行的集中培训(CTDE)。在上述工作的基础上,我们在三个训练范式下制定了一组基于宏观行动的策略梯度算法,在该训练范式下,允许代理以异步方式直接优化其参数化策略。我们在模拟和真实的机器人中评估了我们的方法。经验结果证明了我们在大型多代理问题中的方法的优势,并验证了我们算法在学习具有宏观actions的高质量和异步溶液方面的有效性。
translated by 谷歌翻译
Safe and efficient co-planning of multiple robots in pedestrian participation environments is promising for applications. In this work, a novel multi-robot social-aware efficient cooperative planner that on the basis of off-policy multi-agent reinforcement learning (MARL) under partial dimension-varying observation and imperfect perception conditions is proposed. We adopt temporal-spatial graph (TSG)-based social encoder to better extract the importance of social relation between each robot and the pedestrians in its field of view (FOV). Also, we introduce K-step lookahead reward setting in multi-robot RL framework to avoid aggressive, intrusive, short-sighted, and unnatural motion decisions generated by robots. Moreover, we improve the traditional centralized critic network with multi-head global attention module to better aggregates local observation information among different robots to guide the process of individual policy update. Finally, multi-group experimental results verify the effectiveness of the proposed cooperative motion planner.
translated by 谷歌翻译
在移动机器人学中,区域勘探和覆盖率是关键能力。在大多数可用研究中,共同的假设是全球性,远程通信和集中合作。本文提出了一种新的基于群的覆盖控制算法,可以放松这些假设。该算法组合了两个元素:Swarm规则和前沿搜索算法。受到大量简单代理(例如,教育鱼,植绒鸟类,蜂拥昆虫)的自然系统的启发,第一元素使用三个简单的规则来以分布式方式维持群体形成。第二元素提供了选择有希望区域以使用涉及代理的相对位置的成本函数的最小化来探索(和覆盖)的装置。我们在不同环境中测试了我们的方法对异质和同质移动机器人的性能。我们衡量覆盖性能和允许本集团维持沟通的覆盖性能和群体形成统计数据。通过一系列比较实验,我们展示了拟议的策略在最近提出的地图覆盖方法和传统的人工潜在领域基于细胞覆盖,转变和安全路径的百分比,同时保持允许短程的形成沟通。
translated by 谷歌翻译
在过去的几十年中,多机构增强学习(MARL)一直在学术界和行业受到广泛关注。 MAL中的基本问题之一是如何全面评估不同的方法。在视频游戏或简单的模拟场景中评估了大多数现有的MAL方法。这些方法在实际情况下,尤其是多机器人系统中的性能仍然未知。本文介绍了一个可扩展的仿真平台,用于多机器人增强学习(MRRL),称为SMART,以满足这一需求。确切地说,智能由两个组成部分组成:1)一个模拟环境,该环境为培训提供了各种复杂的交互场景,以及2)现实世界中的多机器人系统,用于现实的性能评估。此外,SMART提供了代理环境API,这些API是算法实现的插件。为了说明我们平台的实用性,我们就合作驾驶车道变更方案进行了案例研究。在案例研究的基础上,我们总结了MRRL的一些独特挑战,这些挑战很少被考虑。最后,我们为鼓励和增强MRRL研究的仿真环境,相关的基准任务和最先进的基线开放。
translated by 谷歌翻译
主动同时定位和映射(SLAM)是规划和控制机器人运动以构建周围环境中最准确,最完整的模型的问题。自从三十多年前出现了积极感知的第一项基础工作以来,该领域在不同科学社区中受到了越来越多的关注。这带来了许多不同的方法和表述,并回顾了当前趋势,对于新的和经验丰富的研究人员来说都是非常有价值的。在这项工作中,我们在主动大满贯中调查了最先进的工作,并深入研究了仍然需要注意的公开挑战以满足现代应用程序的需求。为了实现现实世界的部署。在提供了历史观点之后,我们提出了一个统一的问题制定并审查经典解决方案方案,该方案将问题分解为三个阶段,以识别,选择和执行潜在的导航措施。然后,我们分析替代方法,包括基于深入强化学习的信念空间规划和现代技术,以及审查有关多机器人协调的相关工作。该手稿以讨论新的研究方向的讨论,解决可再现的研究,主动的空间感知和实际应用,以及其他主题。
translated by 谷歌翻译
多机器人自适应抽样问题旨在为机器人团队找到轨迹,以有效地对机器人的给定耐力预算中的感兴趣现象进行采样。在本文中,我们使用分散的多代理增强学习来提出一种可靠,可扩展的方法,用于准静态环境过程的合作自适应采样(MARLAS)。鉴于该领域的先验采样,该提议的方法学习了一个机器人团队的分散政策,以在固定预算范围内采样高实现区域。多机器人自适应采样问题要求机器人彼此协调,以避免重叠的采样轨迹。因此,我们编码机器人之间的邻居位置和间歇性通信在学习过程中的估计值。我们评估了Marlas对多个性能指标的评估,发现它的表现优于其他基线多机器人采样技术。我们进一步证明了与机器人团队的大小和所采样区域的大小相对于通信失败和可伸缩性的鲁棒性。实验评估既是对真实数据的模拟,又在演示环境设置的实际机器人实验中进行的。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
Collaborative autonomous multi-agent systems covering a specified area have many potential applications, such as UAV search and rescue, forest fire fighting, and real-time high-resolution monitoring. Traditional approaches for such coverage problems involve designing a model-based control policy based on sensor data. However, designing model-based controllers is challenging, and the state-of-the-art classical control policy still exhibits a large degree of suboptimality. In this paper, we present a reinforcement learning (RL) approach for the multi-agent coverage problem involving agents with second-order dynamics. Our approach is based on the Multi-Agent Proximal Policy Optimization Algorithm (MAPPO). To improve the stability of the learning-based policy and efficiency of exploration, we utilize an imitation loss based on the state-of-the-art classical control policy. Our trained policy significantly outperforms the state-of-the-art. Our proposed network architecture includes incorporation of self attention, which allows a single-shot domain transfer of the trained policy to a large variety of domain shapes and number of agents. We demonstrate our proposed method in a variety of simulated experiments.
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
我们研究了流行的集中训练和分散执行(CTDE)范式中的多机器人发臭导航问题。当每个机器人考虑其路径而不明确地与其他机器人明确分享观察时,这一问题挑战了,可能导致深度加强学习(DRL)中的非静止问题。典型的CTDE算法将联合动作值函数分解为个别函数,以支持合作并实现分散的执行。这种分解涉及限制(例如,单调性),其限制在个体中的新行为的出现,因为从联合动作值开始训练。相比之下,我们为CTDE提出了一种新颖的架构,该架构使用集中式状态值网络来计算联合状态值,该值用于在代理的基于值的更新中注入全局状态信息。因此,考虑到环境的整体状态,每个模型计算其权重的梯度更新。我们的想法遵循Dueling Networks作为联合状态值的单独估计的独立估计,具有提高采样效率的优点,同时提供每个机器人信息,无论全局状态是否为(或不是)有价值的。具有2 4和8个机器人的机器人导航任务的实验,确认了我们对先前CTDE方法的方法的卓越性能(例如,VDN,QMIX)。
translated by 谷歌翻译
我们介绍了Pogema(https://github.com/airi-institute/pogema)一个沙盒,用于挑战部分可观察到的多代理探路(PO-MAPF)问题。这是一个基于网格的环境,专门设计为灵活,可调和可扩展的基准。它可以针对各种PO-MAPF量身定制,这些PO-MAPF可以作为计划和学习方法及其组合的绝佳测试基础,这将使我们能够填补AI计划和学习之间的差距。
translated by 谷歌翻译
小型无人驾驶飞机的障碍避免对于未来城市空袭(UAM)和无人机系统(UAS)交通管理(UTM)的安全性至关重要。有许多技术用于实时强大的无人机指导,但其中许多在离散的空域和控制中解决,这将需要额外的路径平滑步骤来为UA提供灵活的命令。为提供无人驾驶飞机的操作安全有效的计算指导,我们探讨了基于近端政策优化(PPO)的深增强学习算法的使用,以指导自主UA到其目的地,同时通过连续控制避免障碍物。所提出的场景状态表示和奖励功能可以将连续状态空间映射到连续控制,以便进行标题角度和速度。为了验证所提出的学习框架的性能,我们用静态和移动障碍进行了数值实验。详细研究了与环境和安全操作界限的不确定性。结果表明,该拟议的模型可以提供准确且强大的指导,并解决了99%以上的成功率的冲突。
translated by 谷歌翻译
Autonomous vehicles are suited for continuous area patrolling problems. However, finding an optimal patrolling strategy can be challenging for many reasons. Firstly, patrolling environments are often complex and can include unknown and evolving environmental factors. Secondly, autonomous vehicles can have failures or hardware constraints such as limited battery lives. Importantly, patrolling large areas often requires multiple agents that need to collectively coordinate their actions. In this work, we consider these limitations and propose an approach based on a distributed, model-free deep reinforcement learning based multi-agent patrolling strategy. In this approach, agents make decisions locally based on their own environmental observations and on shared information. In addition, agents are trained to automatically recharge themselves when required to support continuous collective patrolling. A homogeneous multi-agent architecture is proposed, where all patrolling agents have an identical policy. This architecture provides a robust patrolling system that can tolerate agent failures and allow supplementary agents to be added to replace failed agents or to increase the overall patrol performance. This performance is validated through experiments from multiple perspectives, including the overall patrol performance, the efficiency of the battery recharging strategy, the overall robustness of the system, and the agents' ability to adapt to environment dynamics.
translated by 谷歌翻译