我们提出了一种基于差分动态编程框架的算法,以处理轨迹优化问题,其中地平线在线确定而不是修复先验。该算法表现出直线,二次,时间不变问题的精确一步收敛,并且足够快,以便实时非线性模型预测控制。我们在离散时间案例中显示了非线性算法的派生,并将该算法应用于各种非线性问题。最后,我们展示了与标准MPC控制器相比的最佳地平线模型预测控制方案在平面机器人的障碍避免问题上的功效。
translated by 谷歌翻译
机器人等系统的安全操作要求它们计划和执行受安全约束的轨迹。当这些系统受到动态的不确定性的影响时,确保不违反限制是具有挑战性的。本文提出了基于受约束差分动态规划(DDP)的附加不确定性和非线性安全约束的安全轨迹,安全轨迹优化和控制方法。在其运动中的机器人的安全性被制定为机会限制了用户所选择的约束满足的概率。通过约束收紧将机会约束转换为DDP制剂中的确定性。为了避免在约束期间的过保守,从受约束的DDP导出的反馈策略的线性控制增益用于预测中的闭环不确定性传播的近似。所提出的算法在三种不同的机器人动态上进行了经验评估,模拟中具有高达12度的自由度。使用物理硬件实现对方法的计算可行性和适用性进行了说明。
translated by 谷歌翻译
我们为非全面移动机器人设计了MPC方法,并在分析上表明,随着时间的变化,线性化的系统可以在跟踪任务中的来源周围产生渐近稳定性。为了避免障碍物,我们提出了速度空间中的约束,该约束根据当前状态明确耦合两个控件输入。
translated by 谷歌翻译
最佳控制是一种成功的方法,可以为复杂机器人产生运动,特别是对于有腿运动。然而,这些技术往往太慢而无法实时运行,以便模型预测控制或者需要大大简化动力学模型。在这项工作中,我们展示了一种学习来预测问题值函数的梯度和Hessian的方法,可以用一步二次程序来快速解决预测控制问题。此外,我们的方法能够满足像摩擦锥和单侧约束的约束,这对于高动态机器机器任务很重要。我们展示了我们在模拟中的方法和实际的四轮车机器人执行小跑和边界运动的能力。
translated by 谷歌翻译
在本文中,我们提出了一种新颖的差异动态编程算法的最大熵制剂,并使用单向和多峰值函数参数化导出两个变体。通过将具有特定近似的成本函数的最大熵贝尔曼方程组合,我们能够获得差分动态编程的新配方,其能够通过多模级政策探索从局部最小值逃脱。为了展示所提出的算法的功效,我们提供了使用多个当地最小值的成本函数表示的四种任务的实验结果,并将它们与Vanilla差分动态规划进行比较。此外,我们讨论了与以前的工作的联系在线性可溶性随机控制框架及其与合成性有关的延伸。
translated by 谷歌翻译
使用逆动力学的最佳控制(OC)提供了数值益处,例如粗略优化,更便宜的衍生物计算和高收敛速率。但是,为了利用腿部机器人的模型预测控制(MPC)中的这些好处,有效处理其大量平等约束至关重要。为此,我们首先(i)提出了一种新的方法来处理基于NullSpace参数化的平等约束。我们的方法可以适当地平衡最优性,以及动态和平等构成可行性,从而增加了吸引到良好本地最小值的盆地。为此,我们(ii)(ii)通过合并功能功能来调整以可行性为导向的搜索。此外,我们介绍了(iii)的(iii)对考虑任意执行器模型的反向动力学的凝结公式。我们还基于感知运动框架中基于反向动力学的新型MPC(iv)。最后,我们提出(v)最佳控制与正向动力学和逆动力学的理论比较,并通过数值评估。我们的方法使逆动力学MPC在硬件上首次应用,从而在Anymal机器人上进行了最新的动态攀登。我们在广泛的机器人问题上进行基准测试,并产生敏捷和复杂的动作。我们显示了我们的无空间分辨率和凝结配方的计算降低(高达47.3%)。我们通过以高收敛速率解决粗略优化问题(最多10 Hz离散化)来提供方法的益处。我们的算法在Crocoddyl内公开可用。
translated by 谷歌翻译
机器人设计优化,模仿学习和系统标识共享一个常见的问题,该问题需要对机器人或任务参数进行优化,同时在优化机器人运动的同时。为了解决这些问题,我们可以使用可区分的最佳控制,以使机器人运动相对于参数的运动的梯度。我们提出了一种通过敏感性分析(SA)通过差分动态编程(DDP)算法进行分析分析计算这些梯度的方法。我们表明,计算梯度时必须包括二阶动力学项。但是,在计算运动时,我们不需要包括它们。我们验证我们在摆和双摆系统上的方法。此外,我们比较使用使用迭代线性二次调节器(ILQR)的衍生物,该线性二次调节器(ILQR)在Kinova ARM的共同设计任务上忽略了这些二阶术语,我们在其中优化了目标机器人的链路长度达到任务。我们表明,使用ILQR梯度忽略二阶动力学的优化会影响衍生物的计算。取而代之的是,使用DDP梯度优化,对于一系列初始设计,使我们的公式扩展到复杂的系统。
translated by 谷歌翻译
差分动态编程(DDP)是用于轨迹优化的直接单射击方法。它的效率来自对时间结构的开发(最佳控制问题固有的)和系统动力学的明确推出/集成。但是,它具有数值不稳定,与直接多个射击方法相比,它的初始化选项有限(允许对控件的初始化,但不能对状态进行初始化),并且缺乏对控制约束的正确处理。在这项工作中,我们采用可行性驱动的方法来解决这些问题,该方法调节数值优化过程中的动态可行性并确保控制限制。我们的可行性搜索模拟了只有动态约束的直接多重拍摄问题的数值解决。我们证明我们的方法(命名为box-fddp)具有比Box-DDP+(单个射击方法)更好的数值收敛性,并且其收敛速率和运行时性能与使用The Solded Sound的最新直接转录配方竞争内部点和主动集算法在Knitro中提供。我们进一步表明,Box-FDP可以单调地降低动态可行性误差 - 与最先进的非线性编程算法相同。我们通过为四足动物和人形机器人产生复杂而运动的运动来证明我们的方法的好处。最后,我们强调说,Box-FDDP适用于腿部机器人中的模型预测控制。
translated by 谷歌翻译
我们向连续状态马尔可夫决策过程(MDP)提出了一种扩散近似方法,该方法可用于解决非结构化的越野环境中的自主导航和控制。与呈现完全已知的状态转换模型的大多数决策定理计划框架相比,我们设计了一种方法,该方法消除了这种强烈假设,这些假设通常非常难以在现实中工程师。我们首先采用价值函数的二阶泰勒扩展。然后通过部分微分方程近似贝尔曼的最优性方程,其仅依赖于转换模型的第一和第二矩。通过组合价值函数的内核表示,然后设计一种有效的策略迭代算法,其策略评估步骤可以表示为特征的方程式的线性系统,其特征是由有限组支持状态。我们首先通过大量的仿真以2D美元的$ 2D $避让和2.5d $地形导航问题进行验证。结果表明,拟议的方法在几个基线上导致了卓越的性能。然后,我们开发一个系统,该系统将我们的决策框架整合,与船上感知,并在杂乱的室内和非结构化的户外环境中进行现实世界的实验。物理系统的结果进一步展示了我们在挑战现实世界环境中的方法的适用性。
translated by 谷歌翻译
这项工作介绍了模型预测控制(MPC)的公式,该公式适应基于任务的模型的复杂性,同时保持可行性和稳定性保证。现有的MPC实现通常通过缩短预测范围或简化模型来处理计算复杂性,这两者都可能导致不稳定。受到行为经济学,运动计划和生物力学相关方法的启发,我们的方法通过简单模型解决了MPC问题,用于在地平线区域的动力学和约束,而这种模型是可行的,并且不存在该模型的复杂模型。该方法利用计划和执行的交织来迭代识别这些区域,如果它们满足确切的模板/锚关系,可以安全地简化这些区域。我们表明,该方法不会损害系统的稳定性和可行性特性,并在仿真实验中衡量在四足动物上执行敏捷行为的仿真实验中的性能。我们发现,与固定复杂性实现相比,这种自适应方法可以实现更多的敏捷运动,并扩大可执行任务的范围。
translated by 谷歌翻译
由于机器人动力学中的固有非线性,腿部机器人全身动作的在线计划具有挑战性。在这项工作中,我们提出了一个非线性MPC框架,该框架可以通过有效利用机器人动力学结构来在线生成全身轨迹。Biconmp用于在真正的四倍机器人上生成各种环状步态,其性能在不同的地形上进行了评估,对抗不同步态之间的不可预见的推动力并在线过渡。此外,提出了双孔在机器人上产生非平凡无环的全身动态运动的能力。同样的方法也被用来在人体机器人(TALOS)上产生MPC的各种动态运动,并在模拟中产生另一个四倍的机器人(Anymal)。最后,报告并讨论了对计划范围和频率对非线性MPC框架的影响的广泛经验分析。
translated by 谷歌翻译
Solving real-world optimal control problems are challenging tasks, as the system dynamics can be highly non-linear or including nonconvex objectives and constraints, while in some cases the dynamics are unknown, making it hard to numerically solve the optimal control actions. To deal with such modeling and computation challenges, in this paper, we integrate Neural Networks with the Pontryagin's Minimum Principle (PMP), and propose a computationally efficient framework NN-PMP. The resulting controller can be implemented for systems with unknown and complex dynamics. It can not only utilize the accurate surrogate models parameterized by neural networks, but also efficiently recover the optimality conditions along with the optimal action sequences via PMP conditions. A toy example on a nonlinear Martian Base operation along with a real-world lossy energy storage arbitrage example demonstrates our proposed NN-PMP is a general and versatile computation tool for finding optimal solutions. Compared with solutions provided by the numerical optimization solver with approximated linear dynamics, NN-PMP achieves more efficient system modeling and higher performance in terms of control objectives.
translated by 谷歌翻译
模型预测控制(MPC)是控制机器人的流行策略,但由于混合动力学的复杂性质,很难接触系统。为了实现具有联系的系统,动态模型通常被简化或及时固定,以便有效地计划轨迹。在这项工作中,我们将混合迭代线性二次调节器扩展到以MPC方式(HILQR MPC)工作的1)通过1)修改触点模式时如何计算成本函数,2)在模拟刚体动态和3时使用并行处理。 )使用刚体动力学的有效分析衍生化计算。结果是一个可以修改参考行为的接触顺序并凝聚力计划的系统 - 在处理大型扰动时至关重要。 HILQR MPC在两个系统上进行了测试:首先,在简单的驱动弹跳球混合系统上验证了混合成本修改。然后将HILQR MPC与在四倍的机器人(Unitree A1)上使用质心动态假设的方法进行比较。 HILQR MPC在模拟和硬件测试中的表现优于质心方法。
translated by 谷歌翻译
在粗糙的地形上的动态运动需要准确的脚部放置,避免碰撞以及系统的动态不足的计划。在存在不完美且常常不完整的感知信息的情况下,可靠地优化此类动作和互动是具有挑战性的。我们提出了一个完整的感知,计划和控制管道,可以实时优化机器人所有自由度的动作。为了减轻地形所带来的数值挑战,凸出不平等约束的顺序被提取为立足性可行性的局部近似值,并嵌入到在线模型预测控制器中。每个高程映射预先计算了步骤性分类,平面分割和签名的距离场,以最大程度地减少优化过程中的计算工作。多次射击,实时迭代和基于滤波器的线路搜索的组合用于可靠地以高速率解决该法式问题。我们在模拟中的间隙,斜率和踏上石头的情况下验证了所提出的方法,并在Anymal四倍的平台上进行实验,从而实现了最新的动态攀登。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
通常,可以将最佳运动计划作为本地和全球执行。在这样的计划中,支持本地或全球计划技术的选择主要取决于环境条件是动态的还是静态的。因此,最适当的选择是与全球计划一起使用本地计划或本地计划。当设计最佳运动计划是本地或全球的时,要记住的关键指标是执行时间,渐近最优性,对动态障碍的快速反应。与其他方法相比,这种计划方法可以更有效地解决上述目标指标,例如路径计划,然后进行平滑。因此,这项研究的最重要目标是分析相关文献,以了解运动计划,特别轨迹计划,问题,当应用于实时生成最佳轨迹的多局部航空车(MAV),影响力(MAV)时如何提出问题。列出的指标。作为研究的结果,轨迹计划问题被分解为一组子问题,详细列出了解决每个问题的方法列表。随后,总结了2010年至2022年最突出的结果,并以时间表的形式呈现。
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
室内运动计划的重点是解决通过混乱环境导航代理的问题。迄今为止,在该领域已经完成了很多工作,但是这些方法通常无法找到计算廉价的在线路径计划和路径最佳之间的最佳平衡。除此之外,这些作品通常证明是单一启动单目标世界的最佳性。为了应对这些挑战,我们为在未知室内环境中进行导航的多个路径路径计划者和控制器堆栈,在该环境中,路点将目标与机器人必须在达到目标之前必须穿越的中介点一起。我们的方法利用全球规划师(在任何瞬间找到下一个最佳航路点),本地规划师(计划通往特定航路点的路径)以及自适应模型预测性控制策略(用于强大的系统控制和更快的操作) 。我们在一组随机生成的障碍图,中间航路点和起始目标对上评估了算法,结果表明计算成本显着降低,具有高度准确性和可靠的控制。
translated by 谷歌翻译
We introduce MuJoCo MPC (MJPC), an open-source, interactive application and software framework for real-time predictive control, based on MuJoCo physics. MJPC allows the user to easily author and solve complex robotics tasks, and currently supports three shooting-based planners: derivative-based iLQG and Gradient Descent, and a simple derivative-free method we call Predictive Sampling. Predictive Sampling was designed as an elementary baseline, mostly for its pedagogical value, but turned out to be surprisingly competitive with the more established algorithms. This work does not present algorithmic advances, and instead, prioritises performant algorithms, simple code, and accessibility of model-based methods via intuitive and interactive software. MJPC is available at: github.com/deepmind/mujoco_mpc, a video summary can be viewed at: dpmd.ai/mjpc.
translated by 谷歌翻译
本文开发了连续的蓬松蛋白可区分编程(连续PDP)的方法,该方法使机器人能够从少数稀疏的关键帧中学习目标函数。带有一些时间戳记的密钥帧是所需的任务空间输出,预计机器人将顺序遵循。密钥帧的时间戳可能与机器人的实际执行时间不同。该方法共同找到一个目标函数和一个盘绕函数,以使机器人的产生轨迹顺序遵循关键帧,并以最小的差异损失。连续的PDP通过有效求解机器人轨迹相对于未知参数的梯度,可以最大程度地减少投影梯度下降的差异损失。该方法首先在模拟机器人臂上进行评估,然后应用于6-DOF四极管,以在未建模的环境中学习目标函数。结果表明,该方法的效率,其处理密钥帧和机器人执行之间的时间错位的能力以及将客观学习对看不见的运动条件的概括。
translated by 谷歌翻译