基于采样的模型预测控制(MPC)优化方法,例如模型预测路径积分(MPPI),最近在各种机器人任务中显示出有希望的结果。但是,当所有采样轨迹的分布集中在高成本甚至不可行的区域中时,它可能会产生不可行的轨迹。在这项研究中,我们提出了一种称为Log-Mppi的新方法,配备了更有效的轨迹采样分布策略,从而显着改善了满足系统约束的轨迹可行性。关键点是从正常的对数正态(NLN)混合物分布中绘制轨迹样品,而不是从高斯分布中。此外,这项工作提出了一种通过将2D占用网格映射纳入基于采样的MPC算法的优化问题,从而在未知的混乱环境中无碰撞导航的方法。我们首先通过在不同类型的混乱环境以及Cartpole摇摆任务中对2D自主导航进行广泛的模拟,从而验证我们提出的控制策略的效率和鲁棒性。我们通过现实世界实验进一步证明了log-mppi在未知的杂物环境中执行基于2D网格的无碰撞导航的适用性,表明其优越性可用于局部成本量,而无需增加优化的额外复杂性问题。一个展示现实世界和仿真结果的视频可在https://youtu.be/_ugwqefjsn0上获得。
translated by 谷歌翻译
在本文中,我们开辟了基于路径积分(PI)最优控制理论的可视伺服系统的新途径,其中可以将非线性部分微分方程(PDE)转换为使用Feynman的所有可能的轨迹的期望-KAC(FK)引理。更精确地,我们提出了基于采样的模型预测控制(即,模型预测路径积分(MPPI)控制)算法,提出了MPPI-VS控制策略,实时和无反转控制策略(即,模型预测路径积分(MPPI)控制)算法 - 基于,3D点和基于位置的可视伺服技术,考虑到系统约束(例如可见性,3D和控制约束)以及与机器人和相机模型相关联的参数不确定性以及测量噪声。与经典的视觉伺服控制方案相反,我们的控制策略直接利用交互矩阵的近似,而无需估计交互矩阵反转或执行伪反转。我们在带有引导摄像机的6-DOF笛卡尔机器人上验证MPPI-VS控制策略以及基于图像平面中的四个点作为视觉特征的常规摄像机。与经典计划相比,更好地评估和展示所提出的控制策略的鲁棒性和潜在优势,进行了各种操作条件下的密集模拟,然后讨论。所获得的结果证明了所提出的方案在容易与系统限制中应对的有效性和能力,以及在相机参数和测量中存在大误差的鲁棒性。
translated by 谷歌翻译
Motion planning is challenging for autonomous systems in multi-obstacle environments due to nonconvex collision avoidance constraints. Directly applying numerical solvers to these nonconvex formulations fails to exploit the constraint structures, resulting in excessive computation time. In this paper, we present an accelerated collision-free motion planner, namely regularized dual alternating direction method of multipliers (RDADMM or RDA for short), for the model predictive control (MPC) based motion planning problem. The proposed RDA addresses nonconvex motion planning via solving a smooth biconvex reformulation via duality and allows the collision avoidance constraints to be computed in parallel for each obstacle to reduce computation time significantly. We validate the performance of the RDA planner through path-tracking experiments with car-like robots in simulation and real world setting. Experimental results show that the proposed methods can generate smooth collision-free trajectories with less computation time compared with other benchmarks and perform robustly in cluttered environments.
translated by 谷歌翻译
我们向连续状态马尔可夫决策过程(MDP)提出了一种扩散近似方法,该方法可用于解决非结构化的越野环境中的自主导航和控制。与呈现完全已知的状态转换模型的大多数决策定理计划框架相比,我们设计了一种方法,该方法消除了这种强烈假设,这些假设通常非常难以在现实中工程师。我们首先采用价值函数的二阶泰勒扩展。然后通过部分微分方程近似贝尔曼的最优性方程,其仅依赖于转换模型的第一和第二矩。通过组合价值函数的内核表示,然后设计一种有效的策略迭代算法,其策略评估步骤可以表示为特征的方程式的线性系统,其特征是由有限组支持状态。我们首先通过大量的仿真以2D美元的$ 2D $避让和2.5d $地形导航问题进行验证。结果表明,拟议的方法在几个基线上导致了卓越的性能。然后,我们开发一个系统,该系统将我们的决策框架整合,与船上感知,并在杂乱的室内和非结构化的户外环境中进行现实世界的实验。物理系统的结果进一步展示了我们在挑战现实世界环境中的方法的适用性。
translated by 谷歌翻译
室内运动计划的重点是解决通过混乱环境导航代理的问题。迄今为止,在该领域已经完成了很多工作,但是这些方法通常无法找到计算廉价的在线路径计划和路径最佳之间的最佳平衡。除此之外,这些作品通常证明是单一启动单目标世界的最佳性。为了应对这些挑战,我们为在未知室内环境中进行导航的多个路径路径计划者和控制器堆栈,在该环境中,路点将目标与机器人必须在达到目标之前必须穿越的中介点一起。我们的方法利用全球规划师(在任何瞬间找到下一个最佳航路点),本地规划师(计划通往特定航路点的路径)以及自适应模型预测性控制策略(用于强大的系统控制和更快的操作) 。我们在一组随机生成的障碍图,中间航路点和起始目标对上评估了算法,结果表明计算成本显着降低,具有高度准确性和可靠的控制。
translated by 谷歌翻译
本文提出了一种有效且安全的方法,可以避免基于LiDAR的静态和动态障碍。首先,点云用于生成实时的本地网格映射以进行障碍物检测。然后,障碍物由DBSCAN算法聚集,并用最小边界椭圆(MBE)包围。此外,进行数据关联是为了使每个MBE与当前帧中的障碍匹配。考虑到MBE作为观察,Kalman滤波器(KF)用于估计和预测障碍物的运动状态。通过这种方式,可以将远期时间域中每个障碍物的轨迹作为一组椭圆化。由于MBE的不确定性,参数化椭圆形的半肢和半尺寸轴被扩展以确保安全性。我们扩展了传统的控制屏障功能(CBF),并提出动态控制屏障功能(D-CBF)。我们将D-CBF与模型预测控制(MPC)结合起来,以实施安全至关重要的动态障碍。进行了模拟和实际场景中的实验,以验证我们算法的有效性。源代码发布以供社区参考。
translated by 谷歌翻译
在本文中,我们关注将基于能量的模型(EBM)作为运动优化的指导先验的问题。 EBM是一组神经网络,可以用合适的能量函数参数为参数的GIBBS分布来表示表达概率密度分布。由于其隐含性,它们可以轻松地作为优化因素或运动优化问题中的初始采样分布整合在一起,从而使它们成为良好的候选者,以将数据驱动的先验集成在运动优化问题中。在这项工作中,我们提出了一组所需的建模和算法选择,以使EBMS适应运动优化。我们调查了将其他正规化器在学习EBM中的好处,以将它们与基于梯度的优化器一起使用,并提供一组EBM架构,以学习用于操纵任务的可通用分布。我们提出了多种情况,可以将EBM集成以进行运动优化,并评估学到的EBM的性能,以指导模拟和真实机器人实验的指导先验。
translated by 谷歌翻译
Sampling-based model predictive control (MPC) can be applied to versatile robotic systems. However, the real-time control with it is a big challenge due to its unstable updates and poor convergence. This paper tackles this challenge with a novel derivation from reverse Kullback-Leibler divergence, which has a mode-seeking behavior and is likely to find one of the sub-optimal solutions early. With this derivation, a weighted maximum likelihood estimation with positive/negative weights is obtained, solving by mirror descent (MD) algorithm. While the negative weights eliminate unnecessary actions, that requires to develop a practical implementation that avoids the interference with positive/negative updates based on rejection sampling. In addition, although the convergence of MD can be accelerated with Nesterov's acceleration method, it is modified for the proposed MPC with a heuristic of a step size adaptive to the noise estimated in update amounts. In the real-time simulations, the proposed method can solve more tasks statistically than the conventional method and accomplish more complex tasks only with a CPU due to the improved acceleration. In addition, its applicability is also demonstrated in a variable impedance control of a force-driven mobile robot. https://youtu.be/D8bFMzct1XM
translated by 谷歌翻译
在本文中,我们为自主机器人提供了一种新型的模型预测控制方法,受到任意形式的不确定性。拟议的风险感知模型预测路径积分(RA-MPPI)控制利用条件价值(CVAR)度量来为安全关键的机器人应用生成最佳控制动作。与大多数现有的随机MPC和CVAR优化方法不同,这些方法将原始动力学线性化并将控制任务制定为凸面程序,而拟议的方法直接使用原始动力学,而无需限制成本函数或噪声的形式。我们将新颖的RA-MPPI控制器应用于自动驾驶汽车,以在混乱的环境中进行积极的驾驶操作。我们的仿真和实验表明,与基线MPPI控制器相比,提出的RA-MPPI控制器可以达到大约相同的圈时间,而碰撞的碰撞明显少得多。所提出的控制器以高达80Hz的更新频率执行在线计算,利用现代图形处理单元(GPU)来进行多线程轨迹以及CVAR值的生成。
translated by 谷歌翻译
在粗糙的地形上的动态运动需要准确的脚部放置,避免碰撞以及系统的动态不足的计划。在存在不完美且常常不完整的感知信息的情况下,可靠地优化此类动作和互动是具有挑战性的。我们提出了一个完整的感知,计划和控制管道,可以实时优化机器人所有自由度的动作。为了减轻地形所带来的数值挑战,凸出不平等约束的顺序被提取为立足性可行性的局部近似值,并嵌入到在线模型预测控制器中。每个高程映射预先计算了步骤性分类,平面分割和签名的距离场,以最大程度地减少优化过程中的计算工作。多次射击,实时迭代和基于滤波器的线路搜索的组合用于可靠地以高速率解决该法式问题。我们在模拟中的间隙,斜率和踏上石头的情况下验证了所提出的方法,并在Anymal四倍的平台上进行实验,从而实现了最新的动态攀登。
translated by 谷歌翻译
在机器人研究中,在不平坦的地形中安全导航是一个重要的问题。在本文中,我们提出了一个2.5D导航系统,该系统包括高程图构建,路径规划和本地路径,随后避免了障碍。对于本地路径,我们使用模型预测路径积分(MPPI)控制方法。我们为MPPI提出了新的成本功能,以使其适应高程图和通过不平衡运动。我们在多个合成测试和具有不同类型的障碍物和粗糙表面的模拟环境中评估系统。
translated by 谷歌翻译
移动机器人的成功操作要求它们迅速适应环境变化。为了为移动机器人开发自适应决策工具,我们提出了一种新颖的算法,该算法将元强化学习(META-RL)与模型预测控制(MPC)相结合。我们的方法采用额外的元元素算法作为基线,以使用MPC生成的过渡样本来训练策略,当机器人检测到某些事件可以通过MPC有效处理的某些事件,并明确使用机器人动力学。我们方法的关键思想是以随机和事件触发的方式在元学习策略和MPC控制器之间进行切换,以弥补由有限的预测范围引起的次优MPC动作。在元测试期间,将停用MPC模块,以显着减少运动控制中的计算时间。我们进一步提出了一种在线适应方案,该方案使机器人能够在单个轨迹中推断并适应新任务。通过使用(i)障碍物的合成运动和(ii)现实世界的行人运动数据,使用非线性汽车样的车辆模型来证明我们方法的性能。模拟结果表明,我们的方法在学习效率和导航质量方面优于其他算法。
translated by 谷歌翻译
本文着重于影响弹性的移动机器人的碰撞运动计划和控制的新兴范式转移,并开发了一个统一的层次结构框架,用于在未知和部分观察的杂物空间中导航。在较低级别上,我们开发了一种变形恢复控制和轨迹重新启动策略,该策略处理可能在本地运行时发生的碰撞。低级系统会积极检测碰撞(通过内部内置的移动机器人上的嵌入式霍尔效应传感器),使机器人能够从其内部恢复,并在本地调整后影响后的轨迹。然后,在高层,我们提出了一种基于搜索的计划算法,以确定如何最好地利用潜在的碰撞来改善某些指标,例如控制能量和计算时间。我们的方法建立在A*带有跳跃点的基础上。我们生成了一种新颖的启发式功能,并进行了碰撞检查和调整技术,从而使A*算法通过利用和利用可能的碰撞来更快地收敛到达目标。通过将全局A*算法和局部变形恢复和重新融合策略以及该框架的各个组件相结合而生成的整体分层框架在模拟和实验中都经过了广泛的测试。一项消融研究借鉴了与基于搜索的最先进的避免碰撞计划者(用于整体框架)的链接,以及基于搜索的避免碰撞和基于采样的碰撞 - 碰撞 - 全球规划师(对于更高的较高的碰撞 - 等级)。结果证明了我们的方法在未知环境中具有碰撞的运动计划和控制的功效,在2D中运行的一类撞击弹性机器人具有孤立的障碍物。
translated by 谷歌翻译
在本文中,我们基于非线性模型预测控制(NMPC)方法提出了一种分散的控制方法,该方法采用屏障证书在具有静态和/或动态障碍的未知环境中安全导航的多个非独立轮式移动机器人。该方法将学习的屏障功能(LBF)纳入NMPC设计中,以确保安全机器人导航,即防止机器人与其他机器人和障碍物的碰撞。我们将我们提出的控制方法称为NMPC-LBF。由于每个机器人都没有关于障碍物和其他机器人的先验知识,因此我们使用每个机器人实时运行的深神经网络(DEEPNN),仅从机器人的刺激镜头和探针测量中学习屏障功能(BF)。深文经过训练,可以学习分离安全和不安全地区的BF。在不同情况下,我们对模拟和实际Turtlebot3汉堡机器人实施了建议的方法。实施结果显示了NMPC-LBF方法在确保机器人安全导航方面的有效性。
translated by 谷歌翻译
Sampling-based methods have become a cornerstone of contemporary approaches to Model Predictive Control (MPC), as they make no restrictions on the differentiability of the dynamics or cost function and are straightforward to parallelize. However, their efficacy is highly dependent on the quality of the sampling distribution itself, which is often assumed to be simple, like a Gaussian. This restriction can result in samples which are far from optimal, leading to poor performance. Recent work has explored improving the performance of MPC by sampling in a learned latent space of controls. However, these methods ultimately perform all MPC parameter updates and warm-starting between time steps in the control space. This requires us to rely on a number of heuristics for generating samples and updating the distribution and may lead to sub-optimal performance. Instead, we propose to carry out all operations in the latent space, allowing us to take full advantage of the learned distribution. Specifically, we frame the learning problem as bi-level optimization and show how to train the controller with backpropagation-through-time. By using a normalizing flow parameterization of the distribution, we can leverage its tractable density to avoid requiring differentiability of the dynamics and cost function. Finally, we evaluate the proposed approach on simulated robotics tasks and demonstrate its ability to surpass the performance of prior methods and scale better with a reduced number of samples.
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
为了解决复杂环境中的自主导航问题,本文新呈现了一种有效的运动规划方法。考虑到大规模,部分未知的复杂环境的挑战,精心设计了三层运动规划框架,包括全局路径规划,本地路径优化和时间最佳速度规划。与现有方法相比,这项工作的新颖性是双重的:1)提出了一种新的动作原语的启发式引导剪枝策略,并完全集成到基于国家格子的全球路径规划器中,以进一步提高图表搜索的计算效率,以及2)提出了一种新的软限制局部路径优化方法,其中充分利用底层优化问题的稀疏带系统结构以有效解决问题。我们在各种复杂的模拟场景中验证了我们方法的安全,平滑,灵活性和效率,并挑战真实世界的任务。结果表明,与最近的近期B型zier曲线的状态空间采样方法相比,全球规划阶段,计算效率提高了66.21%,而机器人的运动效率提高了22.87%。我们命名拟议的运动计划框架E $ \ mathrm {^ 3} $拖把,其中3号不仅意味着我们的方法是三层框架,而且还意味着所提出的方法是三个阶段有效。
translated by 谷歌翻译
这项研究提出了一种混合轨迹优化方法,该方法为自动移动机器人生成无冲突的平滑轨迹。混合方法结合了基于采样的模型预测路径积分(MPPI)控制和基于梯度的内点差异动态编程(IPDDP),利用了其探索和平滑的优势。所提出的称为MPPI-IPDDP的方法由三个步骤组成。第一步通过MPPI控件生成了一个粗轨迹,第二步构建了无碰撞凸走道,第三步通过使用第二步中计算的无碰撞凸面走廊来平滑IPDDP的粗轨迹。为了进行演示,将提出的算法应用于用于差速器驾驶的车轮移动机器人和点质量四四个四个方面的轨迹优化。可以在https://youtu.be/-ouat5sd9bk上找到有关模拟的补充视频。
translated by 谷歌翻译
通信网络中的时间延迟是通过边缘部署机器人的主要关注点之一。本文提出了一个多阶段的非线性模型预测控制(NMPC),该控制能够处理不同的网络引起的时间延迟,以建立控制框架,以确保无碰撞的无碰撞微型航空车(MAVS)导航。这项研究介绍了一种新颖的方法,该方法通过与现有的典型多阶段NMPC相反的离散化场景树来考虑不同的采样时间,在这种情况下,系统不确定性是由场景树建模的。此外,该方法根据通信链接中时间延迟的概率考虑了多阶段NMPC方案的自适应权重。由于多阶段NMPC,获得的最佳控制动作对于多个采样时间有效。最后,在各种测试和不同的模拟环境中证明了所提出的新型控制框架的总体有效性。
translated by 谷歌翻译
在本文中,我们为多机器人系统提供了一种分散和无通信的碰撞避免方法,该系统考虑了机器人定位和感测不确定性。该方法依赖于计算每个机器人的不确定感知安全区域,以在高斯分布的不确定性的假设下在环境中导航的其他机器人和环境中的静态障碍物。特别地,在每次步骤中,我们为每个机器人构建一个机器人约束的缓冲不确定性感知的voronoI细胞(B-UAVC)给出指定的碰撞概率阈值。通过将每个机器人的运动约束在其对应的B-UAVC内,即机器人和障碍物之间的碰撞概率仍然可以实现概率碰撞避免。所提出的方法是分散的,无通信,可扩展,具有机器人的数量和机器人本地化和感测不确定性的强大。我们将方法应用于单积分器,双积分器,差动驱动机器人和具有一般非线性动力学的机器人。对地面车辆,四轮车和异质机器人团队进行广泛的模拟和实验,以分析和验证所提出的方法。
translated by 谷歌翻译