本文旨在提高用于车辆系统的Kinodynamic规划师的路径质量和计算效率。它提出了一个学习框架,用于在具有动态的系统的基于采样的运动规划仪的扩展过程中识别有前途的控制。离线,学习过程训练,以返回最高质量控制,以便在没有来自其当前状态和局部目标状态之间的输入差异矢量的障碍物的情况下达到局部目标状态(即航点)。数据生成方案在目标色散上提供界限,并使用状态空间修剪以确保高质量控制。通过专注于系统的动态,该过程是数据高效并发生一次动态系统,使其可用于具有模块化扩展功能的不同环境。这项工作与a)将所提出的学习过程集成了一个)探索性扩展功能,该探索性扩展函数在可到达空间上生成有偏见的覆盖范围,B)为移动机器人提出了一种利用的扩展功能,其使用内侧轴信息生成航点。本文评估了第一和二阶差分驱动系统的学习过程和相应的规划仪。结果表明,拟议的学习和规划的整合可以产生比Kinodynamic规划更好的质量路径,随机控制在较少的迭代和计算时间。
translated by 谷歌翻译
基于采样的运动计划者,例如RRT*和BIT*,当应用于运动动力运动计划时,依靠转向功能来生成连接采样状态的时间优势解决方案。实施精确的转向功能需要针对时间最佳控制问题的分析解决方案,或者非线性编程(NLP)求解器以鉴于系统的动力学方程式解决边界值问题。不幸的是,对于许多实际域而言,分析解决方案不可用,而NLP求解器在计算上非常昂贵,因此快速且最佳的动力动力运动计划仍然是一个开放的问题。我们通过引入状态监督转向功能(S3F)来提供解决此问题的解决方案,这是一种学习时间优势转向功能的新方法。 S3F能够比其NLP对应物更快地为转向函数的数量级产生近乎最佳的解决方案。在三个具有挑战性的机器人域进行的实验表明,使用S3F的RRT*在解决方案成本和运行时都显着优于最先进的计划方法。我们进一步提供了RRT*修改以使用S3F的概率完整性的证明。
translated by 谷歌翻译
本文提出了一个基于抽样的运动计划者,该计划将RRT*(迅速探索随机树星)集成到预计运动原始图的数据库中,以减轻其计算负载,并允许在动态或部分已知的环境中进行运动计划。该数据库是通过在某些网格空间中考虑一组初始状态和最终状态对来构建的,并确定每个对与系统动力学和约束兼容的最佳轨迹,同时最小化成本。通过在网格状态空间中提取样品并在数据库中选择将其连接到现有节点的数据库中的最佳无障碍运动原始性,将节点逐渐添加到RRT*算法中可行轨迹树中的节点。如果可以通过无障碍的运动原始的原始较低的成本从新的采样状态达到一些节点,则树将重新接线。因此,运动计划的计算更密集的部分被移至数据库构建的初步离线阶段(以网格造成的某些性能退化为代价。可以对网格分辨率进行调整,以便在数据库的最优性和大小之间妥协。由于网格分辨率为零,并且采样状态的数量增长到无穷大,因此规划器被证明是渐近的最佳选择。
translated by 谷歌翻译
在本文中,我们通过概率保证解决了基于采样的运动计划和测量不确定性的问题。我们概括了基于基于树的基于树木的运动计划算法,以确定性系统并提出信念-USHAMCAL {a} $,该框架将任何基于动力学的树的计划者扩展到线性(或可线化)系统的信念空间。我们为信仰空间介绍了适当的抽样技术和距离指标,以保留基础规划师的概率完整性和渐近最佳性能。我们证明了我们在模拟方面对自动化和非全面系统有效和渐近地找到安全低成本路径的疗效。
translated by 谷歌翻译
室内运动计划的重点是解决通过混乱环境导航代理的问题。迄今为止,在该领域已经完成了很多工作,但是这些方法通常无法找到计算廉价的在线路径计划和路径最佳之间的最佳平衡。除此之外,这些作品通常证明是单一启动单目标世界的最佳性。为了应对这些挑战,我们为在未知室内环境中进行导航的多个路径路径计划者和控制器堆栈,在该环境中,路点将目标与机器人必须在达到目标之前必须穿越的中介点一起。我们的方法利用全球规划师(在任何瞬间找到下一个最佳航路点),本地规划师(计划通往特定航路点的路径)以及自适应模型预测性控制策略(用于强大的系统控制和更快的操作) 。我们在一组随机生成的障碍图,中间航路点和起始目标对上评估了算法,结果表明计算成本显着降低,具有高度准确性和可靠的控制。
translated by 谷歌翻译
双向运动规划与其单向对应物相比,平均地减少计划时间。在单次查询可行的运动规划中,使用双向搜索来查找连续运动计划需要前向和反向搜索树之间的边缘连接。这样的树木连接需要解决两点边值问题问题(BVP)。然而,两点BVP解决方案可能是困难的或不可能计算许多系统。我们提出了一种新的双向搜索策略,不需要解决两点BVP。反向树的成本信息而不是直接连接前向和反向树木,而是用作前向搜索的指导启发式。这使得前向搜索能够快速收敛到可行的解决方案而不解决两点BVP。我们提出了两个新的算法(GBRRT和GABRRT),使用此策略并使用多种动态系统和现实世界硬件实验运行多个软件模拟,以表明我们的算法表现出对现有最先进的方法进行的或更好在快速找到初始可行的解决方案时。
translated by 谷歌翻译
我们考虑针对翻译不变的动态系统的时间 - 最佳运动计划,该属性适用于许多移动机器人,例如差速器,汽车,飞机和多旋转器。我们的关键见解是,当与优化共生时,我们可以将图形搜索算法扩展到连续情况。对于图形搜索,我们引入了不连续性的A*(DB-A*),这是A*算法的概括,该算法使用了基于采样计划者的概念和数据结构。 db-a*重复使用短轨迹,所谓的运动原语作为边缘,并允许在顶点处最大的用户指定的不连续性。这些轨迹是通过轨迹优化在局部修复的,这也提供了新的改进的运动原语。我们的新型动力学运动计划者KMP-DB-A*几乎具有渐近的最佳行为,并迅速计算了近乎最佳的解决方案。对于我们的经验验证,我们提供了第一个基准,该基准测试在不同设置中的多个动态系统上比较搜索,采样和基于优化的时间 - 最佳运动计划。与基线相比,KMP-DB-A*始终求解更多的问题实例,找到较低成本的初始解决方案并更快地收敛。
translated by 谷歌翻译
本文着重于影响弹性的移动机器人的碰撞运动计划和控制的新兴范式转移,并开发了一个统一的层次结构框架,用于在未知和部分观察的杂物空间中导航。在较低级别上,我们开发了一种变形恢复控制和轨迹重新启动策略,该策略处理可能在本地运行时发生的碰撞。低级系统会积极检测碰撞(通过内部内置的移动机器人上的嵌入式霍尔效应传感器),使机器人能够从其内部恢复,并在本地调整后影响后的轨迹。然后,在高层,我们提出了一种基于搜索的计划算法,以确定如何最好地利用潜在的碰撞来改善某些指标,例如控制能量和计算时间。我们的方法建立在A*带有跳跃点的基础上。我们生成了一种新颖的启发式功能,并进行了碰撞检查和调整技术,从而使A*算法通过利用和利用可能的碰撞来更快地收敛到达目标。通过将全局A*算法和局部变形恢复和重新融合策略以及该框架的各个组件相结合而生成的整体分层框架在模拟和实验中都经过了广泛的测试。一项消融研究借鉴了与基于搜索的最先进的避免碰撞计划者(用于整体框架)的链接,以及基于搜索的避免碰撞和基于采样的碰撞 - 碰撞 - 全球规划师(对于更高的较高的碰撞 - 等级)。结果证明了我们的方法在未知环境中具有碰撞的运动计划和控制的功效,在2D中运行的一类撞击弹性机器人具有孤立的障碍物。
translated by 谷歌翻译
我们提出并通过实验证明了双层机器人的反应性规划系统,在未开发,具有挑战性的地形上。该系统由低频规划线(5Hz)组成,用于找到渐近最佳路径和高频无功螺纹(300Hz)以适应机器人偏差。规划线程包括:多层本地地图,以计算地形上机器人的拖拉性;任何时间的全向控制Lyapunov函数(CLF),用于快速探索随机树星(RRT *),它会生成一个矢量字段,用于指定节点之间的运动;当最终目标位于当前地图之外时,子目标查找器;和一个有限状态的机器来处理高级任务决策。该系统还包括反应线,以避免在执行路径后用传统的RRT *算法出现的非平滑运动。具有机器人偏差的反应线应对,同时通过矢量字段(由闭环反馈策略定义)消除非平滑运动,其为机器人的步态控制器提供实时控制命令作为瞬时机器人姿势的函数。该系统在Cassie Blue的模拟和实验中进行了各种具有挑战性的户外地形和杂乱的室内场景,这是一个具有20个自由度的双模型机器人。所有实现在C ++中编码了机器人操作系统(ROS),可在https://github.com/umich-bipedlab/clf_reactive_planning_system中获得。
translated by 谷歌翻译
我们向连续状态马尔可夫决策过程(MDP)提出了一种扩散近似方法,该方法可用于解决非结构化的越野环境中的自主导航和控制。与呈现完全已知的状态转换模型的大多数决策定理计划框架相比,我们设计了一种方法,该方法消除了这种强烈假设,这些假设通常非常难以在现实中工程师。我们首先采用价值函数的二阶泰勒扩展。然后通过部分微分方程近似贝尔曼的最优性方程,其仅依赖于转换模型的第一和第二矩。通过组合价值函数的内核表示,然后设计一种有效的策略迭代算法,其策略评估步骤可以表示为特征的方程式的线性系统,其特征是由有限组支持状态。我们首先通过大量的仿真以2D美元的$ 2D $避让和2.5d $地形导航问题进行验证。结果表明,拟议的方法在几个基线上导致了卓越的性能。然后,我们开发一个系统,该系统将我们的决策框架整合,与船上感知,并在杂乱的室内和非结构化的户外环境中进行现实世界的实验。物理系统的结果进一步展示了我们在挑战现实世界环境中的方法的适用性。
translated by 谷歌翻译
This paper addresses the kinodynamic motion planning for non-holonomic robots in dynamic environments with both static and dynamic obstacles -- a challenging problem that lacks a universal solution yet. One of the promising approaches to solve it is decomposing the problem into the smaller sub problems and combining the local solutions into the global one. The crux of any planning method for non-holonomic robots is the generation of motion primitives that generates solutions to local planning sub-problems. In this work we introduce a novel learnable steering function (policy), which takes into account kinodynamic constraints of the robot and both static and dynamic obstacles. This policy is efficiently trained via the policy optimization. Empirically, we show that our steering function generalizes well to unseen problems. We then plug in the trained policy into the sampling-based and lattice-based planners, and evaluate the resultant POLAMP algorithm (Policy Optimization that Learns Adaptive Motion Primitives) in a range of challenging setups that involve a car-like robot operating in the obstacle-rich parking-lot environments. We show that POLAMP is able to plan collision-free kinodynamic trajectories with success rates higher than 92%, when 50 simultaneously moving obstacles populate the environment showing better performance than the state-of-the-art competitors.
translated by 谷歌翻译
自主驾驶的车辆必须能够以无碰撞的方式在动态和不可预测的环境中导航。到目前为止,这仅是在无人驾驶汽车和仓库装置中部分实现的,在该装置中,诸如道路,车道和交通标志之类的标记结构简化了运动计划和避免碰撞问题。我们正在为类似汽车的车辆提供一种新的控制方法,该方法基于前所未有的快节奏A*实现,该方法允许控制周期以30 Hz的频率运行。这个频率使我们能够将A*算法作为低级重型控制器,非常适合在几乎任何动态环境中导航和避免碰撞。由于有效的启发式方法由沿着目标最短路径铺设的旋转 - 翻译 - 旋转运动运动,因此我们的短期流产A*(staa*)会快速收敛,并可以尽早中止,以确保高而稳定的控制速度。尽管我们的staa*沿着最短路径扩展状态,但它会照顾与环境的碰撞检查,包括预测的移动障碍状态,并返回计算时间用完时找到的最佳解决方案。尽管计算时间有限,但由于最短路径的以下路径,我们的staa*并未被困在拐角处。在模拟和实体机器人实验中,我们证明了我们的控制方法几乎完全消除了碰撞,并且具有改进的动态窗口方法的改进版本,并具有预测性的避免功能。
translated by 谷歌翻译
对机器人在现实世界中的准确控制需要一个控制系统,该控制系统能够考虑机器人与环境的动力学相互作用。在高速度下,机器人对这些运动动力学相互作用的运动依赖性变得更加明显,使高速,准确的机器人控制一个具有挑战性的问题。先前的工作表明,学习机器人的逆动力动力学(IKD)可能有助于高速机器人控制。但是,学习的逆运动动力学模型只能应用于有限的控制问题类别,不同的控制问题需要学习新的IKD模型。在这项工作中,我们提出了一种新的公式,用于精确,高速机器人控制,该配方利用了学习的前进运动动力学(FKD)模型和非线性最小二乘优化。从公式的本质上讲,这种方法可以扩展到各种各样的控制问题,而无需重新培训新模型。我们证明了这种方法在高速上准确控制刻度的十分之一机器人车的能力,并显示出比基线相比的结果。
translated by 谷歌翻译
多机器人运动计划(MRMP)是在运动动力学约束下针对在环境中作用的多个机器人的非缩进轨迹的基本问题。由于其复杂性,现有算法要么利用简化的假设或不完整。这项工作引入了基于动力学冲突的搜索(K-CB),这是一种分散的(分离)MRMP算法,是一般,可扩展性和概率完成的。该算法从成功的解决方案到MRMP的离散类似物(被称为多试路径查找(MAPF))具有灵感。具体来说,我们将基于冲突的搜索(CBS)(一种流行的分散MAPF算法)调整为MRMP设置。这种适应的新颖性是我们直接在连续领域工作,而无需离散化。特别是,动力动力学的约束在本地进行治疗。 K-CBS计划使用低级规划师分别为每个机器人计划,并通过定义单个机器人的约束来解决机器人之间的冲突树以解决机器人之间的碰撞。低水平的计划者可以是用于运动动力学机器人的任何基于采样的树搜索算法,从而将单个机器人的现有计划者提升为多机器人设置。我们表明,K-CBS继承了低级计划者的(概率)完整性。我们说明了在几个案例研究和基准测试中K-CB的一般性和性能。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
为了解决复杂环境中的自主导航问题,本文新呈现了一种有效的运动规划方法。考虑到大规模,部分未知的复杂环境的挑战,精心设计了三层运动规划框架,包括全局路径规划,本地路径优化和时间最佳速度规划。与现有方法相比,这项工作的新颖性是双重的:1)提出了一种新的动作原语的启发式引导剪枝策略,并完全集成到基于国家格子的全球路径规划器中,以进一步提高图表搜索的计算效率,以及2)提出了一种新的软限制局部路径优化方法,其中充分利用底层优化问题的稀疏带系统结构以有效解决问题。我们在各种复杂的模拟场景中验证了我们方法的安全,平滑,灵活性和效率,并挑战真实世界的任务。结果表明,与最近的近期B型zier曲线的状态空间采样方法相比,全球规划阶段,计算效率提高了66.21%,而机器人的运动效率提高了22.87%。我们命名拟议的运动计划框架E $ \ mathrm {^ 3} $拖把,其中3号不仅意味着我们的方法是三层框架,而且还意味着所提出的方法是三个阶段有效。
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
Learning long-horizon tasks such as navigation has presented difficult challenges for successfully applying reinforcement learning. However, from another perspective, under a known environment model, methods such as sampling-based planning can robustly find collision-free paths in environments without learning. In this work, we propose Control Transformer which models return-conditioned sequences from low-level policies guided by a sampling-based Probabilistic Roadmap (PRM) planner. Once trained, we demonstrate that our framework can solve long-horizon navigation tasks using only local information. We evaluate our approach on partially-observed maze navigation with MuJoCo robots, including Ant, Point, and Humanoid, and show that Control Transformer can successfully navigate large mazes and generalize to new, unknown environments. Additionally, we apply our method to a differential drive robot (Turtlebot3) and show zero-shot sim2real transfer under noisy observations.
translated by 谷歌翻译
我们解决了在存在障碍物的情况下,通过一系列航路点来解决四肢飞行的最低时间飞行问题,同时利用了完整的四型动力学。早期作品依赖于简化的动力学或多项式轨迹表示,而这些动力学或多项式轨迹表示,这些表示没有利用四四光的全部执行器电位,因此导致了次优溶液。最近的作品可以计划最小的时间轨迹;然而,轨迹是通过无法解释障碍的控制方法执行的。因此,由于模型不匹配和机上干扰,成功执行此类轨迹很容易出现错误。为此,我们利用深厚的强化学习和经典的拓扑路径计划来训练强大的神经网络控制器,以在混乱的环境中为最少的四型四型飞行。由此产生的神经网络控制器表现出比最新方法相比,高达19%的性能要高得多。更重要的是,博学的政策同时在线解决了计划和控制问题,以解决干扰,从而实现更高的鲁棒性。因此,提出的方法在没有碰撞的情况下实现了100%的最低时间策略的成功率,而传统的计划和控制方法仅获得40%。所提出的方法在模拟和现实世界中均已验证,四速速度高达42公里/小时,加速度为3.6g。
translated by 谷歌翻译
工业机器人操纵器(例如柯机)的应用可能需要在具有静态和非静态障碍物组合的环境中有效的在线运动计划。当可用的计算时间受到限制或无法完全产生解决方案时,现有的通用计划方法通常会产生较差的质量解决方案。我们提出了一个新的运动计划框架,旨在在用户定义的任务空间中运行,而不是机器人的工作空间,该框架有意将工作空间一般性交易,以计划和执行时间效率。我们的框架自动构建在线查询的轨迹库,类似于利用离线计算的以前方法。重要的是,我们的方法还提供了轨迹长度上有限的次级优势保证。关键的想法是建立称为$ \ epsilon $ -Gromov-Hausdorff近似值的近似异构体,以便在任务空间附近的点也很接近配置空间。这些边界关系进一步意味着可以平稳地串联轨迹,这使我们的框架能够解决批次查询方案,目的是找到最小长度的轨迹顺序,这些轨迹访问一组无序的目标。我们通过几种运动型配置评估了模拟框架,包括安装在移动基础上的操纵器。结果表明,我们的方法可实现可行的实时应用,并为扩展其功能提供了有趣的机会。
translated by 谷歌翻译