This paper addresses the kinodynamic motion planning for non-holonomic robots in dynamic environments with both static and dynamic obstacles -- a challenging problem that lacks a universal solution yet. One of the promising approaches to solve it is decomposing the problem into the smaller sub problems and combining the local solutions into the global one. The crux of any planning method for non-holonomic robots is the generation of motion primitives that generates solutions to local planning sub-problems. In this work we introduce a novel learnable steering function (policy), which takes into account kinodynamic constraints of the robot and both static and dynamic obstacles. This policy is efficiently trained via the policy optimization. Empirically, we show that our steering function generalizes well to unseen problems. We then plug in the trained policy into the sampling-based and lattice-based planners, and evaluate the resultant POLAMP algorithm (Policy Optimization that Learns Adaptive Motion Primitives) in a range of challenging setups that involve a car-like robot operating in the obstacle-rich parking-lot environments. We show that POLAMP is able to plan collision-free kinodynamic trajectories with success rates higher than 92%, when 50 simultaneously moving obstacles populate the environment showing better performance than the state-of-the-art competitors.
translated by 谷歌翻译
本文介绍了一个混合在线的部分可观察到的马尔可夫决策过程(POMDP)计划系统,该系统在存在环境中其他代理商引入的多模式不确定性的情况下解决了自主导航的问题。作为一个特别的例子,我们考虑了密集的行人和障碍物中的自主航行问题。该问题的流行方法首先使用完整的计划者(例如,混合A*)生成一条路径,具有对不确定性的临时假设,然后使用基于在线树的POMDP求解器来解决问题的不确定性,并控制问题的有限方面(即沿着路径的速度)。我们提出了一种更有能力和响应的实时方法,使POMDP规划师能够控制更多的自由度(例如,速度和标题),以实现更灵活,更有效的解决方案。这种修改大大扩展了POMDP规划师必须推荐的国家空间区域,从而大大提高了在实时控制提供的有限计算预算中找到有效的推出政策的重要性。我们的关键见解是使用多Query运动计划技术(例如,概率路线图或快速行进方法)作为先验,以快速生成在有限的地平线搜索中POMDP规划树可能达到的每个状态的高效推出政策。我们提出的方法产生的轨迹比以前的方法更安全,更有效,即使在较长的计划范围内密集拥挤的动态环境中。
translated by 谷歌翻译
基于采样的运动计划者,例如RRT*和BIT*,当应用于运动动力运动计划时,依靠转向功能来生成连接采样状态的时间优势解决方案。实施精确的转向功能需要针对时间最佳控制问题的分析解决方案,或者非线性编程(NLP)求解器以鉴于系统的动力学方程式解决边界值问题。不幸的是,对于许多实际域而言,分析解决方案不可用,而NLP求解器在计算上非常昂贵,因此快速且最佳的动力动力运动计划仍然是一个开放的问题。我们通过引入状态监督转向功能(S3F)来提供解决此问题的解决方案,这是一种学习时间优势转向功能的新方法。 S3F能够比其NLP对应物更快地为转向函数的数量级产生近乎最佳的解决方案。在三个具有挑战性的机器人域进行的实验表明,使用S3F的RRT*在解决方案成本和运行时都显着优于最先进的计划方法。我们进一步提供了RRT*修改以使用S3F的概率完整性的证明。
translated by 谷歌翻译
通过杂乱无章的场景推动对象是一项具有挑战性的任务,尤其是当要推动的对象最初具有未知的动态和触摸其他实体时,必须避免降低损害的风险。在本文中,我们通过应用深入的强化学习来解决此问题,以制造出作用在平面表面上的机器人操纵器的推动动作,在该机器人表面上必须将物体推到目标位置,同时避免同一工作空间中的其他项目。通过从场景的深度图像和环境的其他观察结果中学到的潜在空间,例如末端效应器和对象之间的接触信息以及与目标的距离,我们的框架能够学习接触率丰富的推动行动避免与其他物体发生冲突。随着实验结果具有六个自由度机器人臂的显示,我们的系统能够从开始到端位置成功地将物体推向,同时避免附近的物体。此外,我们与移动机器人的最先进的推动控制器相比,我们评估了我们的学术策略,并表明我们的代理在成功率,与其他对象的碰撞以及在各种情况下连续对象联系方面的性能更好。
translated by 谷歌翻译
尽管移动操作在工业和服务机器人技术方面都重要,但仍然是一个重大挑战,因为它需要将最终效应轨迹的无缝整合与导航技能以及对长匹马的推理。现有方法难以控制大型配置空间,并导航动态和未知环境。在先前的工作中,我们建议将移动操纵任务分解为任务空间中最终效果的简化运动生成器,并将移动设备分解为训练有素的强化学习代理,以说明移动基础的运动基础,以说明运动的运动可行性。在这项工作中,我们引入了移动操作的神经导航(n $^2 $ m $^2 $),该导航将这种分解扩展到复杂的障碍环境,并使其能够解决现实世界中的广泛任务。最终的方法可以在未探索的环境中执行看不见的长马任务,同时立即对动态障碍和环境变化做出反应。同时,它提供了一种定义新的移动操作任务的简单方法。我们证明了我们提出的方法在多个运动学上多样化的移动操纵器上进行的广泛模拟和现实实验的能力。代码和视频可在http://mobile-rl.cs.uni-freiburg.de上公开获得。
translated by 谷歌翻译
对于自动驾驶汽车而言,遍历交叉点是一个具有挑战性的问题,尤其是当交叉路口没有交通控制时。最近,由于其成功处理自动驾驶任务,深厚的强化学习受到了广泛的关注。在这项工作中,我们解决了使用新颖的课程进行深入增强学习的问题的问题。拟议的课程导致:1)与未经课程训练的代理人相比,增强剂学习代理的更快的训练过程和2)表现更好。我们的主要贡献是两个方面:1)提供一个独特的课程,用于训练深入的强化学习者,2)显示了所提出的课程在未信号的交叉遍历任务中的应用。该框架期望自动驾驶汽车的感知系统对周围环境进行了处理。我们在Comonroad运动计划模拟器中测试我们的TTTERTIONS和四向交集的方法。
translated by 谷歌翻译
Learning long-horizon tasks such as navigation has presented difficult challenges for successfully applying reinforcement learning. However, from another perspective, under a known environment model, methods such as sampling-based planning can robustly find collision-free paths in environments without learning. In this work, we propose Control Transformer which models return-conditioned sequences from low-level policies guided by a sampling-based Probabilistic Roadmap (PRM) planner. Once trained, we demonstrate that our framework can solve long-horizon navigation tasks using only local information. We evaluate our approach on partially-observed maze navigation with MuJoCo robots, including Ant, Point, and Humanoid, and show that Control Transformer can successfully navigate large mazes and generalize to new, unknown environments. Additionally, we apply our method to a differential drive robot (Turtlebot3) and show zero-shot sim2real transfer under noisy observations.
translated by 谷歌翻译
移动操作(MM)系统是在非结构化现实世界环境中扮演个人助理角色的理想候选者。除其他挑战外,MM需要有效协调机器人的实施例,以执行需要移动性和操纵的任务。强化学习(RL)的承诺是将机器人具有自适应行为,但是大多数方法都需要大量的数据来学习有用的控制策略。在这项工作中,我们研究了机器人可及先验在参与者批判性RL方法中的整合,以加速学习和获取任务的MM学习。也就是说,我们考虑了最佳基础位置的问题以及是否激活ARM达到6D目标的后续决定。为此,我们设计了一种新型的混合RL方法,该方法可以共同处理离散和连续的动作,从而诉诸Gumbel-Softmax重新聚集化。接下来,我们使用来自经典方法的操作机器人工作区中的数据训练可及性。随后,我们得出了增强的混合RL(BHYRL),这是一种通过将其建模为残留近似器的总和来学习Q功能的新型算法。每当需要学习新任务时,我们都可以转移我们学到的残差并了解特定于任务的Q功能的组成部分,从而从先前的行为中维护任务结构。此外,我们发现将目标政策与先前的策略正规化产生更多的表达行为。我们评估了我们在达到难度增加和提取任务的模拟方面的方法,并显示了Bhyrl在基线方法上的卓越性能。最后,我们用Bhyrl零转移了我们学到的6D提取政策,以归功于我们的MM机器人Tiago ++。有关更多详细信息和代码发布,请参阅我们的项目网站:irosalab.com/rlmmbp
translated by 谷歌翻译
多机器人导航是一项具有挑战性的任务,其中必须在动态环境中同时协调多个机器人。我们应用深入的加固学习(DRL)来学习分散的端到端策略,该政策将原始传感器数据映射到代理的命令速度。为了使政策概括,培训是在不同的环境和场景中进行的。在常见的多机器人场景中测试和评估了学识渊博的政策,例如切换一个地方,交叉路口和瓶颈情况。此策略使代理可以从死端恢复并浏览复杂的环境。
translated by 谷歌翻译
在动态人类环境中,机器人安全,以社会符合社会的方式移动是长期机器人自主权的必要基准。但是,完全在现实世界中学习和基准基准社会导航行为是不可行的,因为学习是数据密集型的,并且在培训期间提供安全保证是一项挑战。因此,需要基于仿真的基准测试,这些基准需要为社会导航提供抽象。这些基准测试的框架将需要支持各种各样的学习方法,对广泛的社会导航情景可扩展,并抽象出感知问题,以明确关注社会导航。尽管有许多提出的解决方案,包括高保真3D模拟器和网格世界近似,但现有的解决方案尚未满足上述所有用于学习和评估社会导航行为的属性。在这项工作中,我们提出了SocialGym,这是一个轻巧的2D模拟环境,用于机器人社交导航,并考虑到可扩展性,以及基于SocialGym的基准场景。此外,我们提出了基准结果,将人类工程和基于模型的学习方法比较和对比,以从演示(LFD)(LFD)和增强学习(RL)方法(RL)方法(适用于社交机器人导航)进行了构想。这些结果证明了评估的每项政策的数据效率,任务绩效,社会合规性和环境转移能力,以为未来的社会导航研究提供扎实的基础。
translated by 谷歌翻译
我们解决了在存在障碍物的情况下,通过一系列航路点来解决四肢飞行的最低时间飞行问题,同时利用了完整的四型动力学。早期作品依赖于简化的动力学或多项式轨迹表示,而这些动力学或多项式轨迹表示,这些表示没有利用四四光的全部执行器电位,因此导致了次优溶液。最近的作品可以计划最小的时间轨迹;然而,轨迹是通过无法解释障碍的控制方法执行的。因此,由于模型不匹配和机上干扰,成功执行此类轨迹很容易出现错误。为此,我们利用深厚的强化学习和经典的拓扑路径计划来训练强大的神经网络控制器,以在混乱的环境中为最少的四型四型飞行。由此产生的神经网络控制器表现出比最新方法相比,高达19%的性能要高得多。更重要的是,博学的政策同时在线解决了计划和控制问题,以解决干扰,从而实现更高的鲁棒性。因此,提出的方法在没有碰撞的情况下实现了100%的最低时间策略的成功率,而传统的计划和控制方法仅获得40%。所提出的方法在模拟和现实世界中均已验证,四速速度高达42公里/小时,加速度为3.6g。
translated by 谷歌翻译
移动机器人的成功操作要求它们迅速适应环境变化。为了为移动机器人开发自适应决策工具,我们提出了一种新颖的算法,该算法将元强化学习(META-RL)与模型预测控制(MPC)相结合。我们的方法采用额外的元元素算法作为基线,以使用MPC生成的过渡样本来训练策略,当机器人检测到某些事件可以通过MPC有效处理的某些事件,并明确使用机器人动力学。我们方法的关键思想是以随机和事件触发的方式在元学习策略和MPC控制器之间进行切换,以弥补由有限的预测范围引起的次优MPC动作。在元测试期间,将停用MPC模块,以显着减少运动控制中的计算时间。我们进一步提出了一种在线适应方案,该方案使机器人能够在单个轨迹中推断并适应新任务。通过使用(i)障碍物的合成运动和(ii)现实世界的行人运动数据,使用非线性汽车样的车辆模型来证明我们方法的性能。模拟结果表明,我们的方法在学习效率和导航质量方面优于其他算法。
translated by 谷歌翻译
通过直接将感知输入映射到机器人控制命令中,深入的强化学习(DRL)算法已被证明在机器人导航中有效,尤其是在未知环境中。但是,大多数现有方法忽略导航中的局部最小问题,从而无法处理复杂的未知环境。在本文中,我们提出了第一个基于DRL的导航方法,该方法由具有连续动作空间,自适应向前模拟时间(AFST)的SMDP建模,以克服此问题。具体而言,我们通过修改其GAE来更好地估计SMDP中的策略梯度,改善了指定SMDP问题的分布式近端策略优化(DPPO)算法。我们在模拟器和现实世界中评估了我们的方法。
translated by 谷歌翻译
自主驾驶的车辆必须能够以无碰撞的方式在动态和不可预测的环境中导航。到目前为止,这仅是在无人驾驶汽车和仓库装置中部分实现的,在该装置中,诸如道路,车道和交通标志之类的标记结构简化了运动计划和避免碰撞问题。我们正在为类似汽车的车辆提供一种新的控制方法,该方法基于前所未有的快节奏A*实现,该方法允许控制周期以30 Hz的频率运行。这个频率使我们能够将A*算法作为低级重型控制器,非常适合在几乎任何动态环境中导航和避免碰撞。由于有效的启发式方法由沿着目标最短路径铺设的旋转 - 翻译 - 旋转运动运动,因此我们的短期流产A*(staa*)会快速收敛,并可以尽早中止,以确保高而稳定的控制速度。尽管我们的staa*沿着最短路径扩展状态,但它会照顾与环境的碰撞检查,包括预测的移动障碍状态,并返回计算时间用完时找到的最佳解决方案。尽管计算时间有限,但由于最短路径的以下路径,我们的staa*并未被困在拐角处。在模拟和实体机器人实验中,我们证明了我们的控制方法几乎完全消除了碰撞,并且具有改进的动态窗口方法的改进版本,并具有预测性的避免功能。
translated by 谷歌翻译
多机器人运动计划(MRMP)是在运动动力学约束下针对在环境中作用的多个机器人的非缩进轨迹的基本问题。由于其复杂性,现有算法要么利用简化的假设或不完整。这项工作引入了基于动力学冲突的搜索(K-CB),这是一种分散的(分离)MRMP算法,是一般,可扩展性和概率完成的。该算法从成功的解决方案到MRMP的离散类似物(被称为多试路径查找(MAPF))具有灵感。具体来说,我们将基于冲突的搜索(CBS)(一种流行的分散MAPF算法)调整为MRMP设置。这种适应的新颖性是我们直接在连续领域工作,而无需离散化。特别是,动力动力学的约束在本地进行治疗。 K-CBS计划使用低级规划师分别为每个机器人计划,并通过定义单个机器人的约束来解决机器人之间的冲突树以解决机器人之间的碰撞。低水平的计划者可以是用于运动动力学机器人的任何基于采样的树搜索算法,从而将单个机器人的现有计划者提升为多机器人设置。我们表明,K-CBS继承了低级计划者的(概率)完整性。我们说明了在几个案例研究和基准测试中K-CB的一般性和性能。
translated by 谷歌翻译
本文介绍了一种可以在非通信和局部可观察条件下应用的新型混合多机器人运动计划。策划员是无模型的,可以实现多机器人状态和观察信息的端到端映射到最终平滑和连续的轨迹。规划师是前端和后端分离的架构。前端协作航点搜索模块的设计基于具有分散执行图的集中培训下的多代理软演员批评算法。后端轨迹优化模块的设计基于具有安全区域约束的最小快照方法。该模块可以输出最终动态可行和可执行的轨迹。最后,多组实验结果验证了拟议的运动计划员的有效性。
translated by 谷歌翻译
本文着重于影响弹性的移动机器人的碰撞运动计划和控制的新兴范式转移,并开发了一个统一的层次结构框架,用于在未知和部分观察的杂物空间中导航。在较低级别上,我们开发了一种变形恢复控制和轨迹重新启动策略,该策略处理可能在本地运行时发生的碰撞。低级系统会积极检测碰撞(通过内部内置的移动机器人上的嵌入式霍尔效应传感器),使机器人能够从其内部恢复,并在本地调整后影响后的轨迹。然后,在高层,我们提出了一种基于搜索的计划算法,以确定如何最好地利用潜在的碰撞来改善某些指标,例如控制能量和计算时间。我们的方法建立在A*带有跳跃点的基础上。我们生成了一种新颖的启发式功能,并进行了碰撞检查和调整技术,从而使A*算法通过利用和利用可能的碰撞来更快地收敛到达目标。通过将全局A*算法和局部变形恢复和重新融合策略以及该框架的各个组件相结合而生成的整体分层框架在模拟和实验中都经过了广泛的测试。一项消融研究借鉴了与基于搜索的最先进的避免碰撞计划者(用于整体框架)的链接,以及基于搜索的避免碰撞和基于采样的碰撞 - 碰撞 - 全球规划师(对于更高的较高的碰撞 - 等级)。结果证明了我们的方法在未知环境中具有碰撞的运动计划和控制的功效,在2D中运行的一类撞击弹性机器人具有孤立的障碍物。
translated by 谷歌翻译
小型无人驾驶飞机的障碍避免对于未来城市空袭(UAM)和无人机系统(UAS)交通管理(UTM)的安全性至关重要。有许多技术用于实时强大的无人机指导,但其中许多在离散的空域和控制中解决,这将需要额外的路径平滑步骤来为UA提供灵活的命令。为提供无人驾驶飞机的操作安全有效的计算指导,我们探讨了基于近端政策优化(PPO)的深增强学习算法的使用,以指导自主UA到其目的地,同时通过连续控制避免障碍物。所提出的场景状态表示和奖励功能可以将连续状态空间映射到连续控制,以便进行标题角度和速度。为了验证所提出的学习框架的性能,我们用静态和移动障碍进行了数值实验。详细研究了与环境和安全操作界限的不确定性。结果表明,该拟议的模型可以提供准确且强大的指导,并解决了99%以上的成功率的冲突。
translated by 谷歌翻译
Many challenging reinforcement learning (RL) problems require designing a distribution of tasks that can be applied to train effective policies. This distribution of tasks can be specified by the curriculum. A curriculum is meant to improve the results of learning and accelerate it. We introduce Success Induced Task Prioritization (SITP), a framework for automatic curriculum learning, where a task sequence is created based on the success rate of each task. In this setting, each task is an algorithmically created environment instance with a unique configuration. The algorithm selects the order of tasks that provide the fastest learning for agents. The probability of selecting any of the tasks for the next stage of learning is determined by evaluating its performance score in previous stages. Experiments were carried out in the Partially Observable Grid Environment for Multiple Agents (POGEMA) and Procgen benchmark. We demonstrate that SITP matches or surpasses the results of other curriculum design methods. Our method can be implemented with handful of minor modifications to any standard RL framework and provides useful prioritization with minimal computational overhead.
translated by 谷歌翻译
强化学习(RL)在机器人中的应用通常受高数据需求的限制。另一方面,许多机器人场景中容易获得近似模型,使基于模型的方法,如规划数据有效的替代方案。尽管如此,这些方法的性能遭受了模型不精确或错误。从这个意义上讲,RL和基于模型的规划者的各个优势和弱点是。在目前的工作中,我们调查如何将两种方法集成到结合其优势的一个框架中。我们介绍了学习执行(L2E),从而利用近似计划中包含的信息学习有关计划的普遍政策。在我们的机器人操纵实验中,与纯RL,纯规划或基线方法相比,L2E在结合学习和规划的基线方法时表现出增加的性能。
translated by 谷歌翻译