Model Predictive Controllers (MPC) are widely used for controlling cyber-physical systems. It is an iterative process of optimizing the prediction of the future states of a robot over a fixed time horizon. MPCs are effective in practice, but because they are computationally expensive and slow, they are not well suited for use in real-time applications. Overcoming the flaw can be accomplished by approximating an MPC's functionality. Neural networks are very good function approximators and are faster compared to an MPC. It can be challenging to apply neural networks to control-based applications since the data does not match the i.i.d assumption. This study investigates various imitation learning methods for using a neural network in a control-based environment and evaluates their benefits and shortcomings.
translated by 谷歌翻译
在这项工作中,我们考虑了在线环境中提高模型预测控制(MPC)动态模型准确性的任务。即使可以学习预测模型并将其应用于基于模型的控制器,但这些模型也经常离线学习。在此离线环境中,首先收集培训数据,并通过详细的培训程序来学习预测模型。将模型训练至所需的精度后,然后将其部署到模型预测控制器中。但是,由于模型是离线学习的,因此它不适合部署过程中观察到的干扰或模型错误。为了提高模型和控制器的适应性,我们提出了一个在线动力学学习框架,该框架不断提高部署过程中动态模型的准确性。我们采用基于知识的神经普通微分方程(KNODE)作为动态模型,并使用受转移学习启发的技术来不断提高模型的准确性。我们通过四型机器人证明了框架的功效,并在模拟和物理实验中验证框架。结果表明,所提出的方法能够说明可能段时间变化的干扰,同时保持良好的轨迹跟踪性能。
translated by 谷歌翻译
模型预测控制(MPC)表明了控制诸如腿机器人等复杂系统的巨大成功。然而,在关闭循环时,在每个控制周期解决的有限范围最佳控制问题(OCP)的性能和可行性不再保证。这是由于模型差异,低级控制器,不确定性和传感器噪声的影响。为了解决这些问题,我们提出了一种修改版本,该版本的标准MPC方法用于带有活力的腿运动(弱向不变性)保证。在这种方法中,代替向问题添加(保守)终端约束,我们建议使用投影到在每个控制周期的OCP中的可行性内核中投影的测量状态。此外,我们使用过去的实验数据来找到最佳成本重量,该重量测量性能,约束满足鲁棒性或稳定性(不变性)的组合。这些可解释的成本衡量了稳健性和性能之间的贸易。为此目的,我们使用贝叶斯优化(BO)系统地设计实验,有助于有效地收集数据以了解导致强大性能的成本函数。我们的模拟结果具有不同的现实干扰(即外部推动,未铭出的执行器动态和计算延迟)表明了我们为人形机器人创造了强大的控制器的方法的有效性。
translated by 谷歌翻译
随着机器人越来越多地进入以人为本的环境,他们不仅必须能够在人类周围安全地浏览,还必须遵守复杂的社会规范。人类通常在围绕他人围绕他人(尤其是在密集占据的空间中)时,通常通过手势和面部表情依靠非语言交流。因此,机器人还需要能够将手势解释为解决社会导航任务的一部分。为此,我们提出了一种新型的社会导航方法,将基于图像的模仿学习与模型预测性控制结合在一起。手势是基于在图像流中运行的神经网络来解释的,而我们使用最先进的模型预测控制算法来求解点对点导航任务。我们将方法部署在真实的机器人上,并展示我们的方法对四个手势游动场景的有效性:左/右,跟随我,然后圈出一个圆圈。我们的实验表明,我们的方法能够成功地解释复杂的人类手势,并将其用作信号,以生成具有社会符合性的导航任务的轨迹。我们基于与机器人相互作用的参与者的原位等级验证了我们的方法。
translated by 谷歌翻译
子格式微型航空车(MAV)中的准确而敏捷的轨迹跟踪是具有挑战性的,因为机器人的小规模会引起大型模型不确定性,要求强大的反馈控制器,而快速的动力学和计算约束则阻止了计算上昂贵的策略的部署。在这项工作中,我们提出了一种在MIT SoftFly(一个子)MAV(0.7克)上进行敏捷和计算有效轨迹跟踪的方法。我们的策略采用了级联的控制方案,在该方案中,自适应态度控制器与受过训练的神经网络政策相结合,以模仿轨迹跟踪可靠的管模型模型预测控制器(RTMPC)。神经网络政策是使用我们最近的工作获得的,这使该政策能够保留RTMPC的稳健性,但以其计算成本的一小部分。我们通过实验评估我们的方法,即使在更具挑战性的操作中,达到均方根误差也低于1.8 cm,与我们先前的工作相比,最大位置误差减少了60%,并证明了对大型外部干扰的稳健性
translated by 谷歌翻译
Sampling-based Model Predictive Control (MPC) is a flexible control framework that can reason about non-smooth dynamics and cost functions. Recently, significant work has focused on the use of machine learning to improve the performance of MPC, often through learning or fine-tuning the dynamics or cost function. In contrast, we focus on learning to optimize more effectively. In other words, to improve the update rule within MPC. We show that this can be particularly useful in sampling-based MPC, where we often wish to minimize the number of samples for computational reasons. Unfortunately, the cost of computational efficiency is a reduction in performance; fewer samples results in noisier updates. We show that we can contend with this noise by learning how to update the control distribution more effectively and make better use of the few samples that we have. Our learned controllers are trained via imitation learning to mimic an expert which has access to substantially more samples. We test the efficacy of our approach on multiple simulated robotics tasks in sample-constrained regimes and demonstrate that our approach can outperform a MPC controller with the same number of samples.
translated by 谷歌翻译
在这项工作中,我们考虑使用应用于四逆床控制的模型预测控制(MPC)导出和加入准确动态模型的问题。 MPC依赖于精确的动态模型来实现所需的闭环性能。然而,在复杂系统中存在不确定性以及他们在其运行的环境中的存在在获得对系统动态的充分准确表示方面构成挑战。在这项工作中,我们利用深度学习工具,基于知识的神经常规方程(KNODE),增强了从第一原理获得的模型。由此产生的混合模型包括来自模拟或现实世界实验数据的标称第一原理模型和神经网络。使用四轮压力机,我们将混合模型用于针对最先进的高斯过程(GP)模型,并表明混合模型提供了Quadrotor动态的更准确的预测,并且能够概括超出训练数据。为了提高闭环性能,混合模型集成到新的MPC框架中,称为KNODE-MPC。结果表明,就轨迹跟踪性能而言,综合框架在物理实验中达到了60.2%的仿真和21%以上。
translated by 谷歌翻译
This paper presents a state-of-the-art optimal controller for quadruped locomotion. The robot dynamics is represented using a single rigid body (SRB) model. A linear time-varying model predictive controller (LTV MPC) is proposed by using linearization schemes. Simulation results show that the LTV MPC can execute various gaits, such as trot and crawl, and is capable of tracking desired reference trajectories even under unknown external disturbances. The LTV MPC is implemented as a quadratic program using qpOASES through the CasADi interface at 50 Hz. The proposed MPC can reach up to 1 m/s top speed with an acceleration of 0.5 m/s2 executing a trot gait. The implementation is available at https:// github.com/AndrewZheng-1011/Quad_ConvexMPC
translated by 谷歌翻译
With the continued integration of autonomous vehicles (AVs) into public roads, a mixed traffic environment with large-scale human-driven vehicles (HVs) and AVs interactions is imminent. In challenging traffic scenarios, such as emergency braking, it is crucial to account for the reactive and uncertain behavior of HVs when developing control strategies for AVs. This paper studies the safe control of a platoon of AVs interacting with a human-driven vehicle in longitudinal car-following scenarios. We first propose the use of a model that combines a first-principles model (nominal model) with a Gaussian process (GP) learning-based component for predicting behaviors of the human-driven vehicle when it interacts with AVs. The modeling accuracy of the proposed method shows a $9\%$ reduction in root mean square error (RMSE) in predicting a HV's velocity compared to the nominal model. Exploiting the properties of this model, we design a model predictive control (MPC) strategy for a platoon of AVs to ensure a safe distance between each vehicle, as well as a (probabilistic) safety of the human-driven car following the platoon. Compared to a baseline MPC that uses only a nominal model for HVs, our method achieves better velocity-tracking performance for the autonomous vehicle platoon and more robust constraint satisfaction control for a platoon of mixed vehicles system. Simulation studies demonstrate a $4.2\%$ decrease in the control cost and an approximate $1m$ increase in the minimum distance between autonomous and human-driven vehicles to better guarantee safety in challenging traffic scenarios.
translated by 谷歌翻译
Sampling-based methods have become a cornerstone of contemporary approaches to Model Predictive Control (MPC), as they make no restrictions on the differentiability of the dynamics or cost function and are straightforward to parallelize. However, their efficacy is highly dependent on the quality of the sampling distribution itself, which is often assumed to be simple, like a Gaussian. This restriction can result in samples which are far from optimal, leading to poor performance. Recent work has explored improving the performance of MPC by sampling in a learned latent space of controls. However, these methods ultimately perform all MPC parameter updates and warm-starting between time steps in the control space. This requires us to rely on a number of heuristics for generating samples and updating the distribution and may lead to sub-optimal performance. Instead, we propose to carry out all operations in the latent space, allowing us to take full advantage of the learned distribution. Specifically, we frame the learning problem as bi-level optimization and show how to train the controller with backpropagation-through-time. By using a normalizing flow parameterization of the distribution, we can leverage its tractable density to avoid requiring differentiability of the dynamics and cost function. Finally, we evaluate the proposed approach on simulated robotics tasks and demonstrate its ability to surpass the performance of prior methods and scale better with a reduced number of samples.
translated by 谷歌翻译
准确地建模四极管的系统动力学对于保证敏捷,安全和稳定的导航至关重要。该模型需要在多个飞行机制和操作条件下捕获系统行为,包括产生高度非线性效应的那些,例如空气动力和扭矩,转子相互作用或可能的系统配置修改。经典方法依靠手工制作的模型并努力概括和扩展以捕获这些效果。在本文中,我们介绍了一种新型的物理启发的时间卷积网络(PI-TCN)方法,用于学习四极管的系统动力学,纯粹是从机器人体验中学习的。我们的方法结合了稀疏时间卷积的表达力和密集的进料连接,以进行准确的系统预测。此外,物理限制嵌入了培训过程中,以促进网络对培训分布以外数据的概括功能。最后,我们设计了一种模型预测控制方法,该方法结合了学习的动力学,以完全利用学习范围的方式,以完全利用学习模型预测的准确闭环轨迹跟踪。实验结果表明,我们的方法可以准确地从数据中提取四四光动力学的结构,从而捕获对经典方法隐藏的效果。据我们所知,这是物理启发的深度学习成功地应用于时间卷积网络和系统识别任务,同时同时实现了预测性控制。
translated by 谷歌翻译
我们为具有有界过程和测量噪声的未知线性系统模型提供了一种强大的数据驱动控制方案。不取决于传统预测控制中的系统模型,提出了利用数据驱动的可达区域的控制器。数据驱动的可到达区域基于矩阵Zonotope递归,并且基于仅系统的轨迹的噪声输入输出数据来计算。我们假设测量和过程噪声包含在有界集中。虽然我们承担了这些界限的知识,但假设了关于噪声的统计特性的知识。在无噪声情况下,我们证明所呈现的纯粹数据驱动的控制方案导致等效的闭环行为到标称模型预测控制方案。在测量和过程噪声的情况下,我们提出的方案保证了强大的约束满足感,这在安全关键型应用中至关重要。数值实验表明了所提出的数据驱动控制器与基于模型的控制方案相比的有效性。
translated by 谷歌翻译
模型预测控制是为机器人生成复杂动作的强大工具。但是,它通常需要在线解决非凸问题以产生丰富的行为,这在计算上很昂贵,并且并非总是实时实用的。此外,通过当前状态空间方法,反馈回路中高维传感器数据(例如RGB-D图像)的直接集成具有挑战性。本文旨在解决这两个问题。它引入了模型预测控制方案,其中神经网络不断根据感官输入来更新二次程序的成本函数,旨在最大程度地减少一般的非凸任务丢失而不解决非convex问题在线。通过更新成本,机器人可以直接从传感器测量中适应环境的变化,而无需进行新的成本设计。此外,由于可以通过硬限制有效地解决二次​​程序,因此可以确保机器人安全部署。在工业机器人操纵器上进行了各种涉及任务的实验表明,我们的方法可以有效地解决具有高维视觉感觉输入的复杂的非凸问题,同时仍然对外部干扰保持稳定。
translated by 谷歌翻译
机器人系统的控制设计很复杂,通常需要解决优化才能准确遵循轨迹。在线优化方法(例如模型预测性控制(MPC))已被证明可以实现出色的跟踪性能,但需要高计算能力。相反,基于学习的离线优化方法,例如加固学习(RL),可以在机器人上快速有效地执行,但几乎不匹配MPC在轨迹跟踪任务中的准确性。在具有有限计算的系统(例如航空车)中,必须在执行时间有效的精确控制器。我们提出了一种分析策略梯度(APG)方法来解决此问题。 APG通过在跟踪误差上以梯度下降的速度训练控制器来利用可区分的模拟器的可用性。我们解决了通过课程学习和实验经常在广泛使用的控制基准,Cartpole和两个常见的空中机器人,一个四极管和固定翼无人机上进行的训练不稳定性。在跟踪误差方面,我们提出的方法优于基于模型和无模型的RL方法。同时,它达到与MPC相似的性能,同时需要少于数量级的计算时间。我们的工作为APG作为机器人技术的有前途的控制方法提供了见解。为了促进对APG的探索,我们开放代码并在https://github.com/lis-epfl/apg_traightory_tracking上提供。
translated by 谷歌翻译
最佳控制是一种成功的方法,可以为复杂机器人产生运动,特别是对于有腿运动。然而,这些技术往往太慢而无法实时运行,以便模型预测控制或者需要大大简化动力学模型。在这项工作中,我们展示了一种学习来预测问题值函数的梯度和Hessian的方法,可以用一步二次程序来快速解决预测控制问题。此外,我们的方法能够满足像摩擦锥和单侧约束的约束,这对于高动态机器机器任务很重要。我们展示了我们在模拟中的方法和实际的四轮车机器人执行小跑和边界运动的能力。
translated by 谷歌翻译
机器人布操作是自动机器人系统的相关挑战性问题。高度可变形的对象,因为纺织品在操纵过程中可以采用多种配置和形状。因此,机器人不仅应该了解当前的布料配置,还应能够预测布的未来行为。本文通过使用模型预测控制(MPC)策略在对象的其他部分应用动作,从而解决了间接控制纺织对象某些点的配置的问题,该策略还允许间接控制的行为点。设计的控制器找到了最佳控制信号,以实现所需的未来目标配置。本文中的探索场景考虑了通过抓住其上角,以平方布的下角跟踪参考轨迹。为此,我们提出并验证线性布模型,该模型允许实时解决与MPC相关的优化问题。增强学习(RL)技术用于学习所提出的布模型的最佳参数,并调整所得的MPC。在模拟中获得准确的跟踪结果后,在真实的机器人中实现并执行了完整的控制方案,即使在不利条件下也可以获得准确的跟踪。尽管总观察到的误差达到5 cm标记,但对于30x30 cm的布,分析表明,MPC对该值的贡献少于30%。
translated by 谷歌翻译
神经网络已越来越多地用于模型预测控制器(MPC)来控制非线性动态系统。但是,MPC仍然提出一个问题,即可实现的更新率不足以应对模型不确定性和外部干扰。在本文中,我们提出了一种新颖的控制方案,该方案可以使用MPC的神经网络动力学设计最佳的跟踪控制器,从而使任何现有基于模型的Feedforward Controller的插件扩展程序都可以应用于插件。我们还描述了我们的方法如何处理包含历史信息的神经网络,该信息不遵循一般的动态形式。该方法通过其在外部干扰的经典控制基准中的性能进行评估。我们还扩展了控制框架,以应用于具有未知摩擦的积极自主驾驶任务。在所有实验中,我们的方法的表现都优于比较的方法。我们的控制器还显示出低控制的水平,表明我们的反馈控制器不会干扰MPC的最佳命令。
translated by 谷歌翻译
近年来,强化学习和基于学习的控制以及对他们的安全性的研究,这对于在现实世界机器人中的部署至关重要 - 都获得了重大的吸引力。但是,为了充分评估新结果的进度和适用性,我们需要工具来公平地比较控制和强化学习界提出的方法。在这里,我们提出了一个新的开源基准套件,称为“安全控制”套件,支持基于模型和基于数据的控制技术。我们为三个动态系统(Cart-Pole,1D和2D四极管)提供实现,以及两个控制任务 - 稳定和轨迹跟踪。我们建议扩展OpenAi的Gym API - 强化学习研究的事实上的标准 - (i)能够指定(和查询)符号动态和(ii)约束,以及(iii)(重复)(重复)在控制输入​​,状态测量和惯性特性。为了证明我们的建议并试图使研究社区更加紧密地结合在一起,我们展示了如何使用安全控制的gym定量比较传统控制领域的多种方法的控制绩效,数据效率和安全性控制和加强学习。
translated by 谷歌翻译
为了确保用户接受自动驾驶汽车(AVS),正在开发控制系统以模仿人类驾驶员的驾驶行为。模仿学习(IL)算法达到了这个目的,但努力为由此产生的闭环系统轨迹提供安全保证。另一方面,模型预测控制(MPC)可以处理具有安全限制的非线性系统,但是用它来实现类似人类的驾驶需要广泛的域知识。这项工作表明,通过将MPC用作分层IL策略中的可区分控制层,将两种技术的无缝组合从所需驾驶行为的演示中学习安全的AV控制器。通过此策略,IL通过MPC成本,模型或约束的参数在闭环和端到端进行。鉴于人类在固定基准驾驶模拟器上进行了示范,分析了通过行为克隆(BCO)来学习的该方法的实验结果,用于通过行为克隆(BCO)学习的车道控制系统的设计。
translated by 谷歌翻译
本报告提出了微型航空车辆(MAV)自主导航的组合最优控制和感知框架在新颖的室内封闭环境中,专门用于车载传感器数据。我们使用模拟器的特权信息来为我们的感知系统生成3D空间中的最佳航点,以便我们学会模仿。培训的基于学习的感知模块又能够单独生成类似障碍避免从传感器数据(RGB + IMU)的航点。我们展示了框架跨IGIBSON模拟环境中的新颖场景的功效。
translated by 谷歌翻译