在这项工作中,我们考虑使用应用于四逆床控制的模型预测控制(MPC)导出和加入准确动态模型的问题。 MPC依赖于精确的动态模型来实现所需的闭环性能。然而,在复杂系统中存在不确定性以及他们在其运行的环境中的存在在获得对系统动态的充分准确表示方面构成挑战。在这项工作中,我们利用深度学习工具,基于知识的神经常规方程(KNODE),增强了从第一原理获得的模型。由此产生的混合模型包括来自模拟或现实世界实验数据的标称第一原理模型和神经网络。使用四轮压力机,我们将混合模型用于针对最先进的高斯过程(GP)模型,并表明混合模型提供了Quadrotor动态的更准确的预测,并且能够概括超出训练数据。为了提高闭环性能,混合模型集成到新的MPC框架中,称为KNODE-MPC。结果表明,就轨迹跟踪性能而言,综合框架在物理实验中达到了60.2%的仿真和21%以上。
translated by 谷歌翻译
在这项工作中,我们考虑了在线环境中提高模型预测控制(MPC)动态模型准确性的任务。即使可以学习预测模型并将其应用于基于模型的控制器,但这些模型也经常离线学习。在此离线环境中,首先收集培训数据,并通过详细的培训程序来学习预测模型。将模型训练至所需的精度后,然后将其部署到模型预测控制器中。但是,由于模型是离线学习的,因此它不适合部署过程中观察到的干扰或模型错误。为了提高模型和控制器的适应性,我们提出了一个在线动力学学习框架,该框架不断提高部署过程中动态模型的准确性。我们采用基于知识的神经普通微分方程(KNODE)作为动态模型,并使用受转移学习启发的技术来不断提高模型的准确性。我们通过四型机器人证明了框架的功效,并在模拟和物理实验中验证框架。结果表明,所提出的方法能够说明可能段时间变化的干扰,同时保持良好的轨迹跟踪性能。
translated by 谷歌翻译
国家估计是许多机器人应用中的重要方面。在这项工作中,我们考虑通过增强状态估计算法中使用的动力学模型来获得机器人系统的准确状态估计的任务。现有的框架,例如移动视野估计(MHE)和无气味的卡尔曼过滤器(UKF),为合并非线性动力学和测量模型提供了灵活性。但是,这意味着这些算法中的动力学模型必须足够准确,以保证状态估计的准确性。为了增强动力学模型并提高估计准确性,我们利用了一个深度学习框架,称为基于知识的神经普通微分方程(KNODES)。 KNODE框架将先验知识嵌入到训练过程中,并通过将先前的第一原理模型与神经普通微分方程(NODE)模型融合来合成精确的混合模型。在我们提出的最新框架中,我们将数据驱动的模型集成到两种基于新型模型的状态估计算法中,它们表示为Knode-Mhe和Knode-UKF。在许多机器人应用中,将这两种算法与它们的常规对应物进行了比较。使用部分测量值,地面机器人的定位以及四型二次估计的状态估计。通过使用现实世界实验数据的模拟和测试,我们证明了所提出的学习增强状态估计框架的多功能性和功效。
translated by 谷歌翻译
模型预测控制(MPC)已成为高性能自治系统嵌入式控制的流行框架。但是,为了使用MPC实现良好的控制性能,准确的动力学模型是关键。为了维持实时操作,嵌入式系统上使用的动力学模型仅限于简单的第一原则模型,该模型实质上限制了其代表性。与此类简单模型相反,机器学习方法,特别是神经网络,已被证明可以准确地建模复杂的动态效果,但是它们的较大的计算复杂性阻碍了与快速实时迭代环路的组合。通过这项工作,我们提出了实时神经MPC,这是一个将大型复杂的神经网络体系结构作为动态模型的框架,在模型预测性控制管道中。 ,展示了所描述的系统的功能,可以使用基于梯度的在线优化MPC运行以前不可行的大型建模能力。与在线优化MPC中神经网络的先前实现相比,我们可以利用嵌入式平台上50Hz实时窗口中的4000倍的型号。此外,与没有神经网络动力学的最新MPC方法相比,我们通过将位置跟踪误差降低多达82%,从而显示了对现实世界问题的可行性。
translated by 谷歌翻译
模型预测控制(MPC)是一种最先进的(SOTA)控制技术,需要迭代地解决硬约束优化问题。对于不确定的动态,基于分析模型的强大MPC施加了其他约束,从而增加了问题的硬度。当需要在较少的时间内需要更多计算时,问题会加剧性能至关重要的应用程序。过去已经提出了数据驱动的回归方法,例如神经网络,以近似系统动力学。但是,在没有符号分析先验的情况下,此类模型依赖于大量标记的数据。这会产生非平凡的培训间接开销。物理知识的神经网络(PINN)以合理的精度获得了近似的普通微分方程(ODE)的非线性系统的吸引力。在这项工作中,我们通过PINNS(RAMP-NET)提出了一个强大的自适应MPC框架,该框架使用了一种神经网络,部分从简单的ODE中训练,部分是由数据训练的。物理损失用于学习代表理想动态的简单odes。访问损失函数内部的分析功能是正常化的,为参数不确定性执行了可靠的行为。另一方面,定期数据丢失用于适应剩余的干扰(非参数不确定性),在数学建模过程中未被误解。实验是在模拟环境中进行的,以进行四轨的轨迹跟踪。与两种基于SOTA回归的MPC方法相比,我们报告了7.8%至43.2%和8.04%和8.04%至61.5%的跟踪误差的降低。
translated by 谷歌翻译
敏锐环境中的敏捷四号飞行有可能彻底改变运输,运输和搜索和救援应用。非线性模型预测控制(NMPC)最近显示了敏捷四足电池控制的有希望的结果,但依赖于高度准确的模型以获得最大性能。因此,模拟了非模型复杂空气动力学效果,不同有效载荷和参数错配的形式的不确定性将降低整体系统性能。本文提出了L1-NMPC,一种新型混合自适应NMPC,用于在线学习模型不确定性,并立即弥补它们,大大提高了与非自适应基线的性能,最小计算开销。我们所提出的体系结构推广到许多不同的环境,我们评估风,未知的有效载荷和高度敏捷的飞行条件。所提出的方法展示了巨大的灵活性和鲁棒性,在大未知干扰下的非自适应NMPC和没有任何增益调整的情况下,超过90%的跟踪误差减少。此外,相同的控制器具有相同的增益可以准确地飞行高度敏捷的赛车轨迹,该轨迹展示最高速度为70公里/小时,相对于非自适应NMPC基线提供约50%的跟踪性能提高。
translated by 谷歌翻译
准确地建模四极管的系统动力学对于保证敏捷,安全和稳定的导航至关重要。该模型需要在多个飞行机制和操作条件下捕获系统行为,包括产生高度非线性效应的那些,例如空气动力和扭矩,转子相互作用或可能的系统配置修改。经典方法依靠手工制作的模型并努力概括和扩展以捕获这些效果。在本文中,我们介绍了一种新型的物理启发的时间卷积网络(PI-TCN)方法,用于学习四极管的系统动力学,纯粹是从机器人体验中学习的。我们的方法结合了稀疏时间卷积的表达力和密集的进料连接,以进行准确的系统预测。此外,物理限制嵌入了培训过程中,以促进网络对培训分布以外数据的概括功能。最后,我们设计了一种模型预测控制方法,该方法结合了学习的动力学,以完全利用学习范围的方式,以完全利用学习模型预测的准确闭环轨迹跟踪。实验结果表明,我们的方法可以准确地从数据中提取四四光动力学的结构,从而捕获对经典方法隐藏的效果。据我们所知,这是物理启发的深度学习成功地应用于时间卷积网络和系统识别任务,同时同时实现了预测性控制。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
Accurate path following is challenging for autonomous robots operating in uncertain environments. Adaptive and predictive control strategies are crucial for a nonlinear robotic system to achieve high-performance path following control. In this paper, we propose a novel learning-based predictive control scheme that couples a high-level model predictive path following controller (MPFC) with a low-level learning-based feedback linearization controller (LB-FBLC) for nonlinear systems under uncertain disturbances. The low-level LB-FBLC utilizes Gaussian Processes to learn the uncertain environmental disturbances online and tracks the reference state accurately with a probabilistic stability guarantee. Meanwhile, the high-level MPFC exploits the linearized system model augmented with a virtual linear path dynamics model to optimize the evolution of path reference targets, and provides the reference states and controls for the low-level LB-FBLC. Simulation results illustrate the effectiveness of the proposed control strategy on a quadrotor path following task under unknown wind disturbances.
translated by 谷歌翻译
近年来,强化学习和基于学习的控制以及对他们的安全性的研究,这对于在现实世界机器人中的部署至关重要 - 都获得了重大的吸引力。但是,为了充分评估新结果的进度和适用性,我们需要工具来公平地比较控制和强化学习界提出的方法。在这里,我们提出了一个新的开源基准套件,称为“安全控制”套件,支持基于模型和基于数据的控制技术。我们为三个动态系统(Cart-Pole,1D和2D四极管)提供实现,以及两个控制任务 - 稳定和轨迹跟踪。我们建议扩展OpenAi的Gym API - 强化学习研究的事实上的标准 - (i)能够指定(和查询)符号动态和(ii)约束,以及(iii)(重复)(重复)在控制输入​​,状态测量和惯性特性。为了证明我们的建议并试图使研究社区更加紧密地结合在一起,我们展示了如何使用安全控制的gym定量比较传统控制领域的多种方法的控制绩效,数据效率和安全性控制和加强学习。
translated by 谷歌翻译
现代机器人系统具有卓越的移动性和机械技能,使其适合在现实世界场景中使用,其中需要与重物和精确的操纵能力进行互动。例如,具有高有效载荷容量的腿机器人可用于灾害场景,以清除危险物质或携带受伤的人。因此,可以开发能够使复杂机器人能够准确地执行运动和操作任务的规划算法。此外,需要在线适应机制,需要新的未知环境。在这项工作中,我们强加了模型预测控制(MPC)产生的最佳状态输入轨迹满足机器人系统自适应控制中的Lyapunov函数标准。因此,我们将控制Lyapunov函数(CLF)提供的稳定性保证以及MPC在统一的自适应框架中提供的最优性,在机器人与未知对象的交互过程中产生改进的性能。我们验证了携带未建模有效载荷和拉重盒子的四足机器人的仿真和硬件测试中提出的方法。
translated by 谷歌翻译
With the continued integration of autonomous vehicles (AVs) into public roads, a mixed traffic environment with large-scale human-driven vehicles (HVs) and AVs interactions is imminent. In challenging traffic scenarios, such as emergency braking, it is crucial to account for the reactive and uncertain behavior of HVs when developing control strategies for AVs. This paper studies the safe control of a platoon of AVs interacting with a human-driven vehicle in longitudinal car-following scenarios. We first propose the use of a model that combines a first-principles model (nominal model) with a Gaussian process (GP) learning-based component for predicting behaviors of the human-driven vehicle when it interacts with AVs. The modeling accuracy of the proposed method shows a $9\%$ reduction in root mean square error (RMSE) in predicting a HV's velocity compared to the nominal model. Exploiting the properties of this model, we design a model predictive control (MPC) strategy for a platoon of AVs to ensure a safe distance between each vehicle, as well as a (probabilistic) safety of the human-driven car following the platoon. Compared to a baseline MPC that uses only a nominal model for HVs, our method achieves better velocity-tracking performance for the autonomous vehicle platoon and more robust constraint satisfaction control for a platoon of mixed vehicles system. Simulation studies demonstrate a $4.2\%$ decrease in the control cost and an approximate $1m$ increase in the minimum distance between autonomous and human-driven vehicles to better guarantee safety in challenging traffic scenarios.
translated by 谷歌翻译
空中操纵的生长场通常依赖于完全致动的或全向微型航空车(OMAV),它们可以在与环境接触时施加任意力和扭矩。控制方法通常基于无模型方法,将高级扳手控制器与执行器分配分开。如有必要,在线骚扰观察员拒绝干扰。但是,虽然是一般,但这种方法通常会产生次优控制命令,并且不能纳入平台设计给出的约束。我们提出了两种基于模型的方法来控制OMAV,以实现轨迹跟踪的任务,同时拒绝干扰。第一个通过从实验数据中学到的模型来优化扳手命令并补偿模型错误。第二个功能优化了低级执行器命令,允许利用分配无空格并考虑执行器硬件给出的约束。在现实世界实验中显示和评估两种方法的疗效和实时可行性。
translated by 谷歌翻译
二次运动的准确轨迹跟踪控制对于在混乱环境中的安全导航至关重要。但是,由于非线性动态,复杂的空气动力学效应和驱动约束,这在敏捷飞行中具有挑战性。在本文中,我们通过经验比较两个最先进的控制框架:非线性模型预测控制器(NMPC)和基于差异的控制器(DFBC),通过以速度跟踪各种敏捷轨迹,最多20 m/s(即72 km/h)。比较在模拟和现实世界环境中进行,以系统地评估这两种方法从跟踪准确性,鲁棒性和计算效率的方面。我们以更高的计算时间和数值收敛问题的风险来表明NMPC在跟踪动态不可行的轨迹方面的优势。对于这两种方法,我们还定量研究了使用增量非线性动态反演(INDI)方法添加内环控制器的效果,以及添加空气动力学阻力模型的效果。我们在世界上最大的运动捕获系统之一中进行的真实实验表明,NMPC和DFBC的跟踪误差降低了78%以上,这表明有必要使用内环控制器和用于敏捷轨迹轨迹跟踪的空气动力学阻力模型。
translated by 谷歌翻译
该论文提出了两种控制方法,用于用微型四轮驱动器进行反弹式操纵。首先,对专门为反转设计设计的现有前馈控制策略进行了修订和改进。使用替代高斯工艺模型的贝叶斯优化通过在模拟环境中反复执行翻转操作来找到最佳运动原语序列。第二种方法基于闭环控制,它由两个主要步骤组成:首先,即使在模型不确定性的情况下,自适应控制器也旨在提供可靠的参考跟踪。控制器是通过通过测量数据调整的高斯过程来增强无人机的标称模型来构建的。其次,提出了一种有效的轨迹计划算法,该算法仅使用二次编程来设计可行的轨迹为反弹操作设计。在模拟和使用BitCraze Crazyflie 2.1四肢旋转器中对两种方法进行了分析。
translated by 谷歌翻译
已经使用基于物理学的模型对非全面车辆运动进行了广泛的研究。使用这些模型时,使用线性轮胎模型来解释车轮/接地相互作用时的通用方法,因此可能无法完全捕获各种环境下的非线性和复杂动力学。另一方面,神经网络模型已在该域中广泛使用,证明了功能强大的近似功能。但是,这些黑盒学习策略完全放弃了现有的知名物理知识。在本文中,我们无缝将深度学习与完全不同的物理模型相结合,以赋予神经网络具有可用的先验知识。所提出的模型比大边距的香草神经网络模型显示出更好的概括性能。我们还表明,我们的模型的潜在特征可以准确地表示侧向轮胎力,而无需进行任何其他训练。最后,我们使用从潜在特征得出的本体感受信息开发了一种风险感知的模型预测控制器。我们在未知摩擦下的两个自动驾驶任务中验证了我们的想法,表现优于基线控制框架。
translated by 谷歌翻译
机器人控制器的性能取决于其参数的选择,这需要仔细调整。在本文中,我们提出了DiFftune,这是一个新型,基于梯度的自动调整框架。我们的方法将动态系统和控制器作为计算图展开,并通过基于梯度的优化更新控制器参数。与常用的后传播方案不同,Difftune中的梯度是通过灵敏度传播获得的,这是一种与系统演化平行的前向模式自动分化技术。我们验证了杜宾汽车上提出的自动调节方法和在挑战性模拟环境中的四型旋转。仿真实验表明,该方法对于系统动力学和环境中的不确定性是可靠的,并且可以很好地推广到调整中看不见的轨迹。
translated by 谷歌翻译
对非线性不确定系统的控制是机器人技术领域的常见挑战。非线性潜在力模型结合了以高斯流程为特征的潜在不确定性,具有有效代表此类系统的希望,我们专注于这项工作的控制设计。为了实现设计,我们采用了高斯过程的状态空间表示来重塑非线性潜在力模型,从而建立了同时预测未来状态和不确定性的能力。使用此功能,制定了随机模型预测控制问题。为了得出问题的计算算法,我们使用基于方案的方法来制定随机优化的确定性近似。我们通过基于自动驾驶汽车的运动计划的仿真研究评估了最终方案的模型预测控制方法,该研究表现出很大的有效性。拟议的方法可以在其他各种机器人应用中找到前瞻性使用。
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
We propose a learning-based robust predictive control algorithm that compensates for significant uncertainty in the dynamics for a class of discrete-time systems that are nominally linear with an additive nonlinear component. Such systems commonly model the nonlinear effects of an unknown environment on a nominal system. We optimize over a class of nonlinear feedback policies inspired by certainty equivalent "estimate-and-cancel" control laws pioneered in classical adaptive control to achieve significant performance improvements in the presence of uncertainties of large magnitude, a setting in which existing learning-based predictive control algorithms often struggle to guarantee safety. In contrast to previous work in robust adaptive MPC, our approach allows us to take advantage of structure (i.e., the numerical predictions) in the a priori unknown dynamics learned online through function approximation. Our approach also extends typical nonlinear adaptive control methods to systems with state and input constraints even when we cannot directly cancel the additive uncertain function from the dynamics. We apply contemporary statistical estimation techniques to certify the system's safety through persistent constraint satisfaction with high probability. Moreover, we propose using Bayesian meta-learning algorithms that learn calibrated model priors to help satisfy the assumptions of the control design in challenging settings. Finally, we show in simulation that our method can accommodate more significant unknown dynamics terms than existing methods and that the use of Bayesian meta-learning allows us to adapt to the test environments more rapidly.
translated by 谷歌翻译