Robot navigation in dynamic environments shared with humans is an important but challenging task, which suffers from performance deterioration as the crowd grows. In this paper, multi-subgoal robot navigation approach based on deep reinforcement learning is proposed, which can reason about more comprehensive relationships among all agents (robot and humans). Specifically, the next position point is planned for the robot by introducing history information and interactions in our work. Firstly, based on subgraph network, the history information of all agents is aggregated before encoding interactions through a graph neural network, so as to improve the ability of the robot to anticipate the future scenarios implicitly. Further consideration, in order to reduce the probability of unreliable next position points, the selection module is designed after policy network in the reinforcement learning framework. In addition, the next position point generated from the selection module satisfied the task requirements better than that obtained directly from the policy network. The experiments demonstrate that our approach outperforms state-of-the-art approaches in terms of both success rate and collision rate, especially in crowded human environments.
translated by 谷歌翻译
我们研究了密集和互动人群中安全和意图意识到的机器人导航的问题。大多数以前的强化学习(RL)方法无法考虑所有代理之间的不同类型的相互作用或忽略人的意图,从而导致绩效降级。在本文中,我们提出了一个新型的复发图神经网络,具有注意机制,以通过空间和时间捕获代理之间的异质相互作用。为了鼓励长远的机器人行为,我们通过预测其未来的轨迹在几个时间段中来推断动态代理的意图。预测被纳入无模型的RL框架中,以防止机器人侵入其他试剂的预期路径。我们证明我们的方法使机器人能够在挑战人群导航方案中实现良好的导航性能和无侵入性。我们成功地将模拟中学到的政策转移到了现实世界中的Turtlebot 2i。
translated by 谷歌翻译
Efficient use of the space in an elevator is very necessary for a service robot, due to the need for reducing the amount of time caused by waiting for the next elevator. To provide a solution for this, we propose a hybrid approach that combines reinforcement learning (RL) with voice interaction for robot navigation in the scene of entering the elevator. RL provides robots with a high exploration ability to find a new clear path to enter the elevator compared to traditional navigation methods such as Optimal Reciprocal Collision Avoidance (ORCA). The proposed method allows the robot to take an active clear path action towards the elevator whilst a crowd of people stands at the entrance of the elevator wherein there are still lots of space. This is done by embedding a clear path action (voice prompt) into the RL framework, and the proposed navigation policy helps the robot to finish tasks efficiently and safely. Our model approach provides a great improvement in the success rate and reward of entering the elevator compared to state-of-the-art navigation policies without active clear path operation.
translated by 谷歌翻译
社会意识的机器人导航,其中需要机器人来优化其轨迹,除了到达没有碰撞的目标的目标外,还可以保持与人类的舒适和柔顺的空间互动,是人类背景下导航机器人的基本尚容的任务-robot互动。随着基于学习的方法已经实现了比以前的基于模型的方法更好的性能,它们仍然存在一些缺点:加强学习方法,在手工制作的奖励中回复优化,不太可能全面地模拟社会合会,可以导致奖励剥削问题;通过人类示范学习政策的反增强学习方法遭受昂贵的和部分样本,并且需要广泛的特征工程来合理。在本文中,我们提出了Fapl,一种反馈高效的互动强化学习方法,蒸煮了人的偏好和舒适性,成为奖励模型,作为指导代理人探索社会合准性的潜在方面的教师。介绍了混合体验和违规学习,以提高样品和人体反馈的效率。广泛的模拟实验证明了FAPPL的优势。用户学习,在现实世界中,在现实世界的情况下与人类导航的情况,进一步评估了定性地评估了学习机器人行为的好处。
translated by 谷歌翻译
如何在人群环境中有效导航,具有社会可接受的标准仍然是移动机器人发展的关键问题。最近的工作表明了深度加强学习在寻址人群导航方面的有效性,但随着行人的速度增加,学习变得逐渐减少。为了提高深度加强学习的有效性,我们通过在奖励函数中引入相对速度的惩罚项重新设计奖励功能。新设计的奖励功能在三个主流深度加强学习算法上进行了测试:深度加强学习碰撞避免(CADRL),基于深度学习的长期记忆(LSTM RL),以及基于社会主义立阵(SARL)的加固学习。实验结果表明,我们的模型以更安全的方式导航,优先于诸如成功率,碰撞率和危险频率的关键指标中的当前模型。
translated by 谷歌翻译
为多个机器人制定安全,稳定和高效的避免障碍政策是具有挑战性的。大多数现有研究要么使用集中控制,要么需要与其他机器人进行通信。在本文中,我们提出了一种基于对数地图的新型对数深度强化学习方法,以避免复杂且无通信的多机器人方案。特别是,我们的方法将激光信息转换为对数图。为了提高训练速度和概括性能,我们的政策将在两个专门设计的多机器人方案中进行培训。与其他方法相比,对数图可以更准确地表示障碍,并提高避免障碍的成功率。我们最终在各种模拟和现实情况下评估了我们的方法。结果表明,我们的方法为复杂的多机器人场景和行人场景中的机器人提供了一种更稳定,更有效的导航解决方案。视频可在https://youtu.be/r0esuxe6mze上找到。
translated by 谷歌翻译
分散的多代理导航的代理缺乏世界知识,无法可靠地制定安全和(接近)最佳计划。他们将决定基于邻居的可观察状态,这隐藏了邻居的导航意图。我们提出了通过机构间沟通的增强分散导航,以提高其绩效和援助代理,以做出合理的导航决策。在这方面,我们提出了一种新颖的增强学习方法,用于使用选择性间隔沟通来避免多代理碰撞。我们的网络学会决定“何时”并与“谁”交流,以端到端的方式索取其他信息。我们将沟通选择作为链接预测问题,在该问题中,如果可以观察到的信息,网络可以预测是否需要通信。传达的信息增加了观察到的邻居信息以选择合适的导航计划。随着机器人的邻居数量的变化,我们使用多头自发项机制来编码邻居信息并创建固定长度的观察向量。我们验证我们提出的方法在挑战模拟基准中实现了多个机器人之间的安全有效导航。通过学习的通信,我们的网络的性能比在各种指标(例如到目标和碰撞频率)中的现有分散方法的表现要好得多。此外,我们展示了网络有效地学会在高复杂性情况下进行必要时进行交流。
translated by 谷歌翻译
本文介绍了一种可以在非通信和局部可观察条件下应用的新型混合多机器人运动计划。策划员是无模型的,可以实现多机器人状态和观察信息的端到端映射到最终平滑和连续的轨迹。规划师是前端和后端分离的架构。前端协作航点搜索模块的设计基于具有分散执行图的集中培训下的多代理软演员批评算法。后端轨迹优化模块的设计基于具有安全区域约束的最小快照方法。该模块可以输出最终动态可行和可执行的轨迹。最后,多组实验结果验证了拟议的运动计划员的有效性。
translated by 谷歌翻译
人类感知机器人导航有一系列应用程序,其中移动机器人对普通人类环境中的人们带来多功能援助。虽然现有研究主要集中在以独立,故意个人为独立的,但人们进入群体;因此,移动机器人必须在围绕人们时尊重人群。本文探讨了使用深度加强学习的基于动态组形成的学习群体感知导航策略。通过仿真实验,我们展示了与忽视人类群体的基线政策相比,群体感知政策实现了更大的机器人导航性能(例如,较少的碰撞),尽量减少侵犯社会规范和不适,并减少机器人对行人的运动影响。我们的成果有助于发展社会导航和移动机器人将移动机器人集成到人类环境中。
translated by 谷歌翻译
Safe and efficient co-planning of multiple robots in pedestrian participation environments is promising for applications. In this work, a novel multi-robot social-aware efficient cooperative planner that on the basis of off-policy multi-agent reinforcement learning (MARL) under partial dimension-varying observation and imperfect perception conditions is proposed. We adopt temporal-spatial graph (TSG)-based social encoder to better extract the importance of social relation between each robot and the pedestrians in its field of view (FOV). Also, we introduce K-step lookahead reward setting in multi-robot RL framework to avoid aggressive, intrusive, short-sighted, and unnatural motion decisions generated by robots. Moreover, we improve the traditional centralized critic network with multi-head global attention module to better aggregates local observation information among different robots to guide the process of individual policy update. Finally, multi-group experimental results verify the effectiveness of the proposed cooperative motion planner.
translated by 谷歌翻译
本文研究了如何改善接受深入增强学习训练的导航剂的概括性能和学习速度(DRL)。尽管DRL在无机MAP导航中表现出巨大的潜力,但在训练场景中表现良好的DRL代理在不熟悉的情况下经常表现不佳。在这项工作中,我们建议LIDAR读数的表示是代理商效果退化的关键因素,并提出了一种强大的输入预处理(IP)方法来解决此问题。由于这种方法使用适应性的参数倒数函数来预处理激光雷达读数,因此我们将此方法称为IPAPREC及其归一化版本为IPAPRECN。 IPAPREC/IPAPRECN可以突出显示重要的短距离值,并压缩激光扫描中较重要的长距离值的范围,该值很好地解决了由激光扫描的常规表示引起的问题。通过广泛的模拟和现实世界实验来验证它们的高性能。结果表明,与常规方法相比,我们的方法可以大大改善导航剂的概括性能,并大大减少训练时间。
translated by 谷歌翻译
尽管数十年的努力,但在真正的情景中的机器人导航具有波动性,不确定性,复杂性和歧义(vuca短暂),仍然是一个具有挑战性的话题。受到中枢神经系统(CNS)的启发,我们提出了一个在Vuca环境中的自主导航的分层多专家学习框架。通过考虑目标位置,路径成本和安全水平的启发式探索机制,上层执行同时映射探索和路线规划,以避免陷入盲巷,类似于CNS中的大脑。使用本地自适应模型融合多种差异策略,下层追求碰撞 - 避免和直接策略之间的平衡,作为CNS中的小脑。我们在多个平台上进行仿真和实际实验,包括腿部和轮式机器人。实验结果表明我们的算法在任务成就,时间效率和安全性方面优于现有方法。
translated by 谷歌翻译
应用强化学习来自动驾驶需要某些挑战,这主要是由于大规模的交通流动,这种挑战是动态变化的。为了应对此类挑战,有必要快速确定对周围车辆不断变化的意图的响应策略。因此,我们提出了一种新的政策优化方法,用于使用基于图的互动感知约束来安全驾驶。在此框架中,运动预测和控制模块是同时训练的,同时共享包含社会环境的潜在表示。此外,为了反映社交互动,我们以图形形式表达了代理的运动并过滤特征。这有助于保留相邻节点的时空位置。此外,我们创建反馈循环以有效地组合这两个模块。结果,这种方法鼓励博学的控制器免受动态风险的侵害,并在各种情况下使运动预测强大。在实验中,我们与城市驾驶模拟器Carla建立了一个包括各种情况的导航场景。该实验表明,与基线相比,导航策略和运动预测的两侧的最新性能。
translated by 谷歌翻译
在本文中,我们研究了DRL算法在本地导航问题的应用,其中机器人仅配备有限​​量距离的外部感受传感器(例如LIDAR),在未知和混乱的工作区中朝着目标位置移动。基于DRL的碰撞避免政策具有一些优势,但是一旦他们学习合适的动作的能力仅限于传感器范围,它们就非常容易受到本地最小值的影响。由于大多数机器人在非结构化环境中执行任务,因此寻求能够避免本地最小值的广义本地导航政策,尤其是在未经训练的情况下,这是非常兴趣的。为此,我们提出了一种新颖的奖励功能,该功能结合了在训练阶段获得的地图信息,从而提高了代理商故意最佳行动方案的能力。另外,我们使用SAC算法来训练我们的ANN,这表明在最先进的文献中比其他人更有效。一组SIM到SIM和SIM到现实的实验表明,我们提出的奖励与SAC相结合的表现优于比较局部最小值和避免碰撞的方法。
translated by 谷歌翻译
通过直接将感知输入映射到机器人控制命令中,深入的强化学习(DRL)算法已被证明在机器人导航中有效,尤其是在未知环境中。但是,大多数现有方法忽略导航中的局部最小问题,从而无法处理复杂的未知环境。在本文中,我们提出了第一个基于DRL的导航方法,该方法由具有连续动作空间,自适应向前模拟时间(AFST)的SMDP建模,以克服此问题。具体而言,我们通过修改其GAE来更好地估计SMDP中的策略梯度,改善了指定SMDP问题的分布式近端策略优化(DPPO)算法。我们在模拟器和现实世界中评估了我们的方法。
translated by 谷歌翻译
深度强化学习在基于激光的碰撞避免有效的情况下取得了巨大的成功,因为激光器可以感觉到准确的深度信息而无需太多冗余数据,这可以在算法从模拟环境迁移到现实世界时保持算法的稳健性。但是,高成本激光设备不仅很难为大型机器人部署,而且还表现出对复杂障碍的鲁棒性,包括不规则的障碍,例如桌子,桌子,椅子和架子,以及复杂的地面和特殊材料。在本文中,我们提出了一个新型的基于单眼相机的复杂障碍避免框架。特别是,我们创新地将捕获的RGB图像转换为伪激光测量,以进行有效的深度强化学习。与在一定高度捕获的传统激光测量相比,仅包含距离附近障碍的一维距离信息,我们提议的伪激光测量融合了捕获的RGB图像的深度和语义信息,这使我们的方法有效地有效障碍。我们还设计了一个功能提取引导模块,以加重输入伪激光测量,并且代理对当前状态具有更合理的关注,这有利于提高障碍避免政策的准确性和效率。
translated by 谷歌翻译
Autonomous navigation in crowded spaces poses a challenge for mobile robots due to the highly dynamic, partially observable environment. Occlusions are highly prevalent in such settings due to a limited sensor field of view and obstructing human agents. Previous work has shown that observed interactive behaviors of human agents can be used to estimate potential obstacles despite occlusions. We propose integrating such social inference techniques into the planning pipeline. We use a variational autoencoder with a specially designed loss function to learn representations that are meaningful for occlusion inference. This work adopts a deep reinforcement learning approach to incorporate the learned representation for occlusion-aware planning. In simulation, our occlusion-aware policy achieves comparable collision avoidance performance to fully observable navigation by estimating agents in occluded spaces. We demonstrate successful policy transfer from simulation to the real-world Turtlebot 2i. To the best of our knowledge, this work is the first to use social occlusion inference for crowd navigation.
translated by 谷歌翻译
Proper functioning of connected and automated vehicles (CAVs) is crucial for the safety and efficiency of future intelligent transport systems. Meanwhile, transitioning to fully autonomous driving requires a long period of mixed autonomy traffic, including both CAVs and human-driven vehicles. Thus, collaboration decision-making for CAVs is essential to generate appropriate driving behaviors to enhance the safety and efficiency of mixed autonomy traffic. In recent years, deep reinforcement learning (DRL) has been widely used in solving decision-making problems. However, the existing DRL-based methods have been mainly focused on solving the decision-making of a single CAV. Using the existing DRL-based methods in mixed autonomy traffic cannot accurately represent the mutual effects of vehicles and model dynamic traffic environments. To address these shortcomings, this article proposes a graph reinforcement learning (GRL) approach for multi-agent decision-making of CAVs in mixed autonomy traffic. First, a generic and modular GRL framework is designed. Then, a systematic review of DRL and GRL methods is presented, focusing on the problems addressed in recent research. Moreover, a comparative study on different GRL methods is further proposed based on the designed framework to verify the effectiveness of GRL methods. Results show that the GRL methods can well optimize the performance of multi-agent decision-making for CAVs in mixed autonomy traffic compared to the DRL methods. Finally, challenges and future research directions are summarized. This study can provide a valuable research reference for solving the multi-agent decision-making problems of CAVs in mixed autonomy traffic and can promote the implementation of GRL-based methods into intelligent transportation systems. The source code of our work can be found at https://github.com/Jacklinkk/Graph_CAVs.
translated by 谷歌翻译
援助机器人在物流和人类援助等各个行业中广泛关注。在拥挤的环境(例如机场或火车站)携带重量或货物的指导或关注人类的任务仍然是一个空旷的问题。在这些用例中,机器人不仅需要与人类智能互动,而且需要在人群中安全地进行互动。因此,尤其是高度动态的环境,由于人类的挥发性行为模式和不可预测的运动,构成了巨大的挑战。在本文中,我们提出了一种基于深入的学习媒介,用于在拥挤的环境中进行人类引导和遵守任务。因此,我们合并了语义信息,以向代理提供高级信息,例如人类,安全模型和班级类型的社会状态。我们在没有语义信息的情况下根据基准方法评估了我们的建议方法,并证明了导航的安全性和鲁棒性增强。此外,我们证明了代理可以学会将其行为适应人类,从而大大改善了人类机器人的相互作用。
translated by 谷歌翻译
在狭窄的空间中,基于传统层次自治系统的运动计划可能会导致映射,定位和控制噪声引起碰撞。此外,当无映射时,它将被禁用。为了解决这些问题,我们利用深厚的加强学习,可以证明可以有效地进行自我决策,从而在狭窄的空间中自探索而无需地图,同时避免碰撞。具体而言,基于我们的Ackermann-Steering矩形Zebrat机器人及其凉亭模拟器,我们建议矩形安全区域来表示状态并检测矩形形状的机器人的碰撞,以及无需精心制作的奖励功能,不需要增强功能。目的地信息。然后,我们在模拟的狭窄轨道中基准了五种增强学习算法,包括DDPG,DQN,SAC,PPO和PPO-DISCRETE。经过训练,良好的DDPG和DQN型号可以转移到三个全新的模拟轨道上,然后转移到三个现实世界中。
translated by 谷歌翻译