尽管空间限制对代理的性能产生了明显的影响,但多代理导航算法设计的传统方法将环境视为固定的限制。然而,手动设计改进的环境布局和结构效率低下且可能昂贵。本文的目的是将环境视为系统级优化问题中的决策变量,在该问题中,代理性能和环境成本都可以考虑到。我们首先提出一个新颖的环境优化问题。我们通过正式证明在哪些条件下显示环境可以改变的同时保证完整性(即所有代理达到其导航目标)。我们的解决方案利用了一种无模型的增强学习方法。为了适应广泛的实施方案,我们包括在线和离线优化,以及离散和连续的环境表示。数值结果证实了我们的理论发现并验证了我们的方法。
translated by 谷歌翻译
我们为仓库环境中的移动机器人提供基于新颖的强化学习(RL)任务分配和分散的导航算法。我们的方法是针对各种机器人执行各种接送和交付任务的场景而设计的。我们考虑了联合分散任务分配和导航的问题,并提出了解决该问题的两层方法。在更高级别,我们通过根据马尔可夫决策过程制定任务并选择适当的奖励来最大程度地减少总旅行延迟(TTD)来解决任务分配。在较低级别,我们使用基于ORCA的分散导航方案,使每个机器人能够独立执行这些任务,并避免与其他机器人和动态障碍物发生碰撞。我们通过定义较高级别的奖励作为低级导航算法的反馈来结合这些下层和上层。我们在复杂的仓库布局中进行了广泛的评估,并具有大量代理商,并根据近视拾取距离距离最小化和基于遗憾的任务选择,突出了对最先进算法的好处。我们观察到任务完成时间的改善高达14%,并且在计算机器人的无碰撞轨迹方面提高了40%。
translated by 谷歌翻译
最近被证明通过深度加强学习(RL)或模仿学习(IL)来学习沟通是解决多智能传道路径查找(MAPF)的有效方法。然而,现有的基于通信的MAPF求解器专注于广播通信,代理将其消息广播给所有其他或预定义代理。它不仅是不切实际的,而且导致冗余信息甚至可能损害多功能协作。简洁的通信计划应该了解哪些信息与每个代理的决策过程有关和影响。为了解决这个问题,我们考虑一个请求 - 回复方案并提出决策因果通信(DCC),这是一个简单但有效的模型,使代理能够在培训和执行期间选择邻居进行通信。具体地,邻居才被确定为当存在该邻居的存在导致在中央代理上的决策调整时相关的邻居。此判决仅基于代理人的本地观察,因此适用于分散执行来处理大规模问题。富有障碍环境中的实证评估表明了我们方法的低通信开销的高成功率。
translated by 谷歌翻译
We consider the problem of multi-agent navigation and collision avoidance when observations are limited to the local neighborhood of each agent. We propose InforMARL, a novel architecture for multi-agent reinforcement learning (MARL) which uses local information intelligently to compute paths for all the agents in a decentralized manner. Specifically, InforMARL aggregates information about the local neighborhood of agents for both the actor and the critic using a graph neural network and can be used in conjunction with any standard MARL algorithm. We show that (1) in training, InforMARL has better sample efficiency and performance than baseline approaches, despite using less information, and (2) in testing, it scales well to environments with arbitrary numbers of agents and obstacles.
translated by 谷歌翻译
分散的多代理导航的代理缺乏世界知识,无法可靠地制定安全和(接近)最佳计划。他们将决定基于邻居的可观察状态,这隐藏了邻居的导航意图。我们提出了通过机构间沟通的增强分散导航,以提高其绩效和援助代理,以做出合理的导航决策。在这方面,我们提出了一种新颖的增强学习方法,用于使用选择性间隔沟通来避免多代理碰撞。我们的网络学会决定“何时”并与“谁”交流,以端到端的方式索取其他信息。我们将沟通选择作为链接预测问题,在该问题中,如果可以观察到的信息,网络可以预测是否需要通信。传达的信息增加了观察到的邻居信息以选择合适的导航计划。随着机器人的邻居数量的变化,我们使用多头自发项机制来编码邻居信息并创建固定长度的观察向量。我们验证我们提出的方法在挑战模拟基准中实现了多个机器人之间的安全有效导航。通过学习的通信,我们的网络的性能比在各种指标(例如到目标和碰撞频率)中的现有分散方法的表现要好得多。此外,我们展示了网络有效地学会在高复杂性情况下进行必要时进行交流。
translated by 谷歌翻译
多机器人导航是一项具有挑战性的任务,其中必须在动态环境中同时协调多个机器人。我们应用深入的加固学习(DRL)来学习分散的端到端策略,该政策将原始传感器数据映射到代理的命令速度。为了使政策概括,培训是在不同的环境和场景中进行的。在常见的多机器人场景中测试和评估了学识渊博的政策,例如切换一个地方,交叉路口和瓶颈情况。此策略使代理可以从死端恢复并浏览复杂的环境。
translated by 谷歌翻译
Efficient use of the space in an elevator is very necessary for a service robot, due to the need for reducing the amount of time caused by waiting for the next elevator. To provide a solution for this, we propose a hybrid approach that combines reinforcement learning (RL) with voice interaction for robot navigation in the scene of entering the elevator. RL provides robots with a high exploration ability to find a new clear path to enter the elevator compared to traditional navigation methods such as Optimal Reciprocal Collision Avoidance (ORCA). The proposed method allows the robot to take an active clear path action towards the elevator whilst a crowd of people stands at the entrance of the elevator wherein there are still lots of space. This is done by embedding a clear path action (voice prompt) into the RL framework, and the proposed navigation policy helps the robot to finish tasks efficiently and safely. Our model approach provides a great improvement in the success rate and reward of entering the elevator compared to state-of-the-art navigation policies without active clear path operation.
translated by 谷歌翻译
This paper addresses the kinodynamic motion planning for non-holonomic robots in dynamic environments with both static and dynamic obstacles -- a challenging problem that lacks a universal solution yet. One of the promising approaches to solve it is decomposing the problem into the smaller sub problems and combining the local solutions into the global one. The crux of any planning method for non-holonomic robots is the generation of motion primitives that generates solutions to local planning sub-problems. In this work we introduce a novel learnable steering function (policy), which takes into account kinodynamic constraints of the robot and both static and dynamic obstacles. This policy is efficiently trained via the policy optimization. Empirically, we show that our steering function generalizes well to unseen problems. We then plug in the trained policy into the sampling-based and lattice-based planners, and evaluate the resultant POLAMP algorithm (Policy Optimization that Learns Adaptive Motion Primitives) in a range of challenging setups that involve a car-like robot operating in the obstacle-rich parking-lot environments. We show that POLAMP is able to plan collision-free kinodynamic trajectories with success rates higher than 92%, when 50 simultaneously moving obstacles populate the environment showing better performance than the state-of-the-art competitors.
translated by 谷歌翻译
本文介绍了一个混合在线的部分可观察到的马尔可夫决策过程(POMDP)计划系统,该系统在存在环境中其他代理商引入的多模式不确定性的情况下解决了自主导航的问题。作为一个特别的例子,我们考虑了密集的行人和障碍物中的自主航行问题。该问题的流行方法首先使用完整的计划者(例如,混合A*)生成一条路径,具有对不确定性的临时假设,然后使用基于在线树的POMDP求解器来解决问题的不确定性,并控制问题的有限方面(即沿着路径的速度)。我们提出了一种更有能力和响应的实时方法,使POMDP规划师能够控制更多的自由度(例如,速度和标题),以实现更灵活,更有效的解决方案。这种修改大大扩展了POMDP规划师必须推荐的国家空间区域,从而大大提高了在实时控制提供的有限计算预算中找到有效的推出政策的重要性。我们的关键见解是使用多Query运动计划技术(例如,概率路线图或快速行进方法)作为先验,以快速生成在有限的地平线搜索中POMDP规划树可能达到的每个状态的高效推出政策。我们提出的方法产生的轨迹比以前的方法更安全,更有效,即使在较长的计划范围内密集拥挤的动态环境中。
translated by 谷歌翻译
本文介绍了一个分散的多代理轨迹计划(MATP)算法,该算法保证在有限的沟通范围内在障碍物丰富的环境中生成安全,无僵硬的轨迹。所提出的算法利用基于网格的多代理路径计划(MAPP)算法进行僵局,我们引入了子目标优化方法,使代理会收敛到从MAPP生成的无僵局生成的路点。此外,提出的算法通过采用线性安全走廊(LSC)来确保优化问题和避免碰撞的可行性。我们验证所提出的算法不会在随机森林和密集的迷宫中造成僵局,而不论沟通范围如何,并且在飞行时间和距离方面的表现都优于我们以前的工作。我们通过使用十个四肢的硬件演示来验证提出的算法。
translated by 谷歌翻译
这项工作研究了图像目标导航问题,需要通过真正拥挤的环境引导具有嘈杂传感器和控制的机器人。最近的富有成效的方法依赖于深度加强学习,并学习模拟环境中的导航政策,这些环境比真实环境更简单。直接将这些训练有素的策略转移到真正的环境可能非常具有挑战性甚至危险。我们用由四个解耦模块组成的分层导航方法来解决这个问题。第一模块在机器人导航期间维护障碍物映射。第二个将定期预测实时地图上的长期目标。第三个计划碰撞命令集以导航到长期目标,而最终模块将机器人正确靠近目标图像。四个模块是单独开发的,以适应真实拥挤的情景中的图像目标导航。此外,分层分解对导航目标规划,碰撞避免和导航结束预测的学习进行了解耦,这在导航训练期间减少了搜索空间,并有助于改善以前看不见的真实场景的概括。我们通过移动机器人评估模拟器和现实世界中的方法。结果表明,我们的方法优于多种导航基线,可以在这些方案中成功实现导航任务。
translated by 谷歌翻译
本文介绍了一个新的在线多代理轨迹规划算法,可确保在杂乱的环境中产生安全,动态可行的轨迹。所提出的算法利用线性安全走廊(LSC)来制定分布式轨迹优化问题,只有可行的约束,因此它不采用松弛变量或软限制以避免优化失败。我们采用基于优先的目标规划方法来防止僵局而无需额外的程序来确定要屈服的机器人。所提出的算法可以平均将60个代理的轨迹平均每代理使用英特尔I7笔记本电脑计算60个代理,并与基于软限制的基线相比,显示了类似的飞行距离和距离。我们核实所提出的方法可以在随机森林和室内空间中没有僵局达到目标,并且我们通过在迷宫状环境中使用10个时段的真正飞行试验验证了所提出的算法的安全性和可操作性。
translated by 谷歌翻译
为多个机器人制定安全,稳定和高效的避免障碍政策是具有挑战性的。大多数现有研究要么使用集中控制,要么需要与其他机器人进行通信。在本文中,我们提出了一种基于对数地图的新型对数深度强化学习方法,以避免复杂且无通信的多机器人方案。特别是,我们的方法将激光信息转换为对数图。为了提高训练速度和概括性能,我们的政策将在两个专门设计的多机器人方案中进行培训。与其他方法相比,对数图可以更准确地表示障碍,并提高避免障碍的成功率。我们最终在各种模拟和现实情况下评估了我们的方法。结果表明,我们的方法为复杂的多机器人场景和行人场景中的机器人提供了一种更稳定,更有效的导航解决方案。视频可在https://youtu.be/r0esuxe6mze上找到。
translated by 谷歌翻译
本文介绍了一种可以在非通信和局部可观察条件下应用的新型混合多机器人运动计划。策划员是无模型的,可以实现多机器人状态和观察信息的端到端映射到最终平滑和连续的轨迹。规划师是前端和后端分离的架构。前端协作航点搜索模块的设计基于具有分散执行图的集中培训下的多代理软演员批评算法。后端轨迹优化模块的设计基于具有安全区域约束的最小快照方法。该模块可以输出最终动态可行和可执行的轨迹。最后,多组实验结果验证了拟议的运动计划员的有效性。
translated by 谷歌翻译
本文提出了一种基于强化学习的导航方法,在其中我们将占用观测定义为运动原始启发式评估,而不是使用原始传感器数据。我们的方法可以将多传感器融合生成的占用数据快速映射到3D工作区中的轨迹值中。计算有效的轨迹评估允许对动作空间进行密集采样。我们利用不同数据结构中的占用观测来分析其对培训过程和导航性能的影响。我们在基于物理的仿真环境(包括静态和动态障碍)中对两个不同机器人进行训练和测试。我们通过最先进方法的其他常规数据结构对我们的占用表示进行基准测试。在动态环境中,通过物理机器人成功验证了训练有素的导航政策。结果表明,与其他占用表示相比,我们的方法不仅减少了所需的训练时间,还可以改善导航性能。我们的工作和所有相关信息的开源实现可从\ url {https://github.com/river-lab/tentabot}获得。
translated by 谷歌翻译
我们解决了在存在障碍物的情况下,通过一系列航路点来解决四肢飞行的最低时间飞行问题,同时利用了完整的四型动力学。早期作品依赖于简化的动力学或多项式轨迹表示,而这些动力学或多项式轨迹表示,这些表示没有利用四四光的全部执行器电位,因此导致了次优溶液。最近的作品可以计划最小的时间轨迹;然而,轨迹是通过无法解释障碍的控制方法执行的。因此,由于模型不匹配和机上干扰,成功执行此类轨迹很容易出现错误。为此,我们利用深厚的强化学习和经典的拓扑路径计划来训练强大的神经网络控制器,以在混乱的环境中为最少的四型四型飞行。由此产生的神经网络控制器表现出比最新方法相比,高达19%的性能要高得多。更重要的是,博学的政策同时在线解决了计划和控制问题,以解决干扰,从而实现更高的鲁棒性。因此,提出的方法在没有碰撞的情况下实现了100%的最低时间策略的成功率,而传统的计划和控制方法仅获得40%。所提出的方法在模拟和现实世界中均已验证,四速速度高达42公里/小时,加速度为3.6g。
translated by 谷歌翻译
In this paper, we consider the problem of path finding for a set of homogeneous and autonomous agents navigating a previously unknown stochastic environment. In our problem setting, each agent attempts to maximize a given utility function while respecting safety properties. Our solution is based on ideas from evolutionary game theory, namely replicating policies that perform well and diminishing ones that do not. We do a comprehensive comparison with related multiagent planning methods, and show that our technique beats state of the art RL algorithms in minimizing path length by nearly 30% in large spaces. We show that our algorithm is computationally faster than deep RL methods by at least an order of magnitude. We also show that it scales better with an increase in the number of agents as compared to other methods, path planning methods in particular. Lastly, we empirically prove that the policies that we learn are evolutionarily stable and thus impervious to invasion by any other policy.
translated by 谷歌翻译
Despite recent progress on trajectory planning of multiple robots and path planning of a single tethered robot, planning of multiple tethered robots to reach their individual targets without entanglements remains a challenging problem. In this paper, we present a complete approach to address this problem. Firstly, we propose a multi-robot tether-aware representation of homotopy, using which we can efficiently evaluate the feasibility and safety of a potential path in terms of (1) the cable length required to reach a target following the path, and (2) the risk of entanglements with the cables of other robots. Then, the proposed representation is applied in a decentralized and online planning framework that includes a graph-based kinodynamic trajectory finder and an optimization-based trajectory refinement, to generate entanglement-free, collision-free and dynamically feasible trajectories. The efficiency of the proposed homotopy representation is compared against existing single and multiple tethered robot planning approaches. Simulations with up to 8 UAVs show the effectiveness of the approach in entanglement prevention and its real-time capabilities. Flight experiments using 3 tethered UAVs verify the practicality of the presented approach.
translated by 谷歌翻译
我们展示了通过大规模多代理端到端增强学习的大射击可转移到真正的四轮压力机的无人驾驶群体控制器的可能性。我们培训由神经网络参数化的政策,该政策能够以完全分散的方式控制群体中的各个无人机。我们的政策,在具有现实的四轮流物理学的模拟环境中训练,展示了先进的植绒行为,在紧张的地层中执行侵略性的操作,同时避免彼此的碰撞,破裂和重新建立地层,以避免与移动障碍的碰撞,并有效地协调追求障碍,并有效地协调追求逃避任务。在模拟中,我们分析了培训制度的不同模型架构和参数影响神经群的最终表现。我们展示了在模拟中学习的模型的成功部署到高度资源受限的物理四体体执行站保持和目标交换行为。在Propers网站上提供代码和视频演示,在https://sites.google.com/view/swarm-rl上获得。
translated by 谷歌翻译
自主驾驶的车辆必须能够以无碰撞的方式在动态和不可预测的环境中导航。到目前为止,这仅是在无人驾驶汽车和仓库装置中部分实现的,在该装置中,诸如道路,车道和交通标志之类的标记结构简化了运动计划和避免碰撞问题。我们正在为类似汽车的车辆提供一种新的控制方法,该方法基于前所未有的快节奏A*实现,该方法允许控制周期以30 Hz的频率运行。这个频率使我们能够将A*算法作为低级重型控制器,非常适合在几乎任何动态环境中导航和避免碰撞。由于有效的启发式方法由沿着目标最短路径铺设的旋转 - 翻译 - 旋转运动运动,因此我们的短期流产A*(staa*)会快速收敛,并可以尽早中止,以确保高而稳定的控制速度。尽管我们的staa*沿着最短路径扩展状态,但它会照顾与环境的碰撞检查,包括预测的移动障碍状态,并返回计算时间用完时找到的最佳解决方案。尽管计算时间有限,但由于最短路径的以下路径,我们的staa*并未被困在拐角处。在模拟和实体机器人实验中,我们证明了我们的控制方法几乎完全消除了碰撞,并且具有改进的动态窗口方法的改进版本,并具有预测性的避免功能。
translated by 谷歌翻译