模型预测控制(MPC)是一种最先进的(SOTA)控制技术,需要迭代地解决硬约束优化问题。对于不确定的动态,基于分析模型的强大MPC施加了其他约束,从而增加了问题的硬度。当需要在较少的时间内需要更多计算时,问题会加剧性能至关重要的应用程序。过去已经提出了数据驱动的回归方法,例如神经网络,以近似系统动力学。但是,在没有符号分析先验的情况下,此类模型依赖于大量标记的数据。这会产生非平凡的培训间接开销。物理知识的神经网络(PINN)以合理的精度获得了近似的普通微分方程(ODE)的非线性系统的吸引力。在这项工作中,我们通过PINNS(RAMP-NET)提出了一个强大的自适应MPC框架,该框架使用了一种神经网络,部分从简单的ODE中训练,部分是由数据训练的。物理损失用于学习代表理想动态的简单odes。访问损失函数内部的分析功能是正常化的,为参数不确定性执行了可靠的行为。另一方面,定期数据丢失用于适应剩余的干扰(非参数不确定性),在数学建模过程中未被误解。实验是在模拟环境中进行的,以进行四轨的轨迹跟踪。与两种基于SOTA回归的MPC方法相比,我们报告了7.8%至43.2%和8.04%和8.04%至61.5%的跟踪误差的降低。
translated by 谷歌翻译
在这项工作中,我们考虑使用应用于四逆床控制的模型预测控制(MPC)导出和加入准确动态模型的问题。 MPC依赖于精确的动态模型来实现所需的闭环性能。然而,在复杂系统中存在不确定性以及他们在其运行的环境中的存在在获得对系统动态的充分准确表示方面构成挑战。在这项工作中,我们利用深度学习工具,基于知识的神经常规方程(KNODE),增强了从第一原理获得的模型。由此产生的混合模型包括来自模拟或现实世界实验数据的标称第一原理模型和神经网络。使用四轮压力机,我们将混合模型用于针对最先进的高斯过程(GP)模型,并表明混合模型提供了Quadrotor动态的更准确的预测,并且能够概括超出训练数据。为了提高闭环性能,混合模型集成到新的MPC框架中,称为KNODE-MPC。结果表明,就轨迹跟踪性能而言,综合框架在物理实验中达到了60.2%的仿真和21%以上。
translated by 谷歌翻译
敏锐环境中的敏捷四号飞行有可能彻底改变运输,运输和搜索和救援应用。非线性模型预测控制(NMPC)最近显示了敏捷四足电池控制的有希望的结果,但依赖于高度准确的模型以获得最大性能。因此,模拟了非模型复杂空气动力学效果,不同有效载荷和参数错配的形式的不确定性将降低整体系统性能。本文提出了L1-NMPC,一种新型混合自适应NMPC,用于在线学习模型不确定性,并立即弥补它们,大大提高了与非自适应基线的性能,最小计算开销。我们所提出的体系结构推广到许多不同的环境,我们评估风,未知的有效载荷和高度敏捷的飞行条件。所提出的方法展示了巨大的灵活性和鲁棒性,在大未知干扰下的非自适应NMPC和没有任何增益调整的情况下,超过90%的跟踪误差减少。此外,相同的控制器具有相同的增益可以准确地飞行高度敏捷的赛车轨迹,该轨迹展示最高速度为70公里/小时,相对于非自适应NMPC基线提供约50%的跟踪性能提高。
translated by 谷歌翻译
模型预测控制(MPC)已成为高性能自治系统嵌入式控制的流行框架。但是,为了使用MPC实现良好的控制性能,准确的动力学模型是关键。为了维持实时操作,嵌入式系统上使用的动力学模型仅限于简单的第一原则模型,该模型实质上限制了其代表性。与此类简单模型相反,机器学习方法,特别是神经网络,已被证明可以准确地建模复杂的动态效果,但是它们的较大的计算复杂性阻碍了与快速实时迭代环路的组合。通过这项工作,我们提出了实时神经MPC,这是一个将大型复杂的神经网络体系结构作为动态模型的框架,在模型预测性控制管道中。 ,展示了所描述的系统的功能,可以使用基于梯度的在线优化MPC运行以前不可行的大型建模能力。与在线优化MPC中神经网络的先前实现相比,我们可以利用嵌入式平台上50Hz实时窗口中的4000倍的型号。此外,与没有神经网络动力学的最新MPC方法相比,我们通过将位置跟踪误差降低多达82%,从而显示了对现实世界问题的可行性。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
Accurate path following is challenging for autonomous robots operating in uncertain environments. Adaptive and predictive control strategies are crucial for a nonlinear robotic system to achieve high-performance path following control. In this paper, we propose a novel learning-based predictive control scheme that couples a high-level model predictive path following controller (MPFC) with a low-level learning-based feedback linearization controller (LB-FBLC) for nonlinear systems under uncertain disturbances. The low-level LB-FBLC utilizes Gaussian Processes to learn the uncertain environmental disturbances online and tracks the reference state accurately with a probabilistic stability guarantee. Meanwhile, the high-level MPFC exploits the linearized system model augmented with a virtual linear path dynamics model to optimize the evolution of path reference targets, and provides the reference states and controls for the low-level LB-FBLC. Simulation results illustrate the effectiveness of the proposed control strategy on a quadrotor path following task under unknown wind disturbances.
translated by 谷歌翻译
近年来,强化学习和基于学习的控制以及对他们的安全性的研究,这对于在现实世界机器人中的部署至关重要 - 都获得了重大的吸引力。但是,为了充分评估新结果的进度和适用性,我们需要工具来公平地比较控制和强化学习界提出的方法。在这里,我们提出了一个新的开源基准套件,称为“安全控制”套件,支持基于模型和基于数据的控制技术。我们为三个动态系统(Cart-Pole,1D和2D四极管)提供实现,以及两个控制任务 - 稳定和轨迹跟踪。我们建议扩展OpenAi的Gym API - 强化学习研究的事实上的标准 - (i)能够指定(和查询)符号动态和(ii)约束,以及(iii)(重复)(重复)在控制输入​​,状态测量和惯性特性。为了证明我们的建议并试图使研究社区更加紧密地结合在一起,我们展示了如何使用安全控制的gym定量比较传统控制领域的多种方法的控制绩效,数据效率和安全性控制和加强学习。
translated by 谷歌翻译
准确地建模四极管的系统动力学对于保证敏捷,安全和稳定的导航至关重要。该模型需要在多个飞行机制和操作条件下捕获系统行为,包括产生高度非线性效应的那些,例如空气动力和扭矩,转子相互作用或可能的系统配置修改。经典方法依靠手工制作的模型并努力概括和扩展以捕获这些效果。在本文中,我们介绍了一种新型的物理启发的时间卷积网络(PI-TCN)方法,用于学习四极管的系统动力学,纯粹是从机器人体验中学习的。我们的方法结合了稀疏时间卷积的表达力和密集的进料连接,以进行准确的系统预测。此外,物理限制嵌入了培训过程中,以促进网络对培训分布以外数据的概括功能。最后,我们设计了一种模型预测控制方法,该方法结合了学习的动力学,以完全利用学习范围的方式,以完全利用学习模型预测的准确闭环轨迹跟踪。实验结果表明,我们的方法可以准确地从数据中提取四四光动力学的结构,从而捕获对经典方法隐藏的效果。据我们所知,这是物理启发的深度学习成功地应用于时间卷积网络和系统识别任务,同时同时实现了预测性控制。
translated by 谷歌翻译
在这项工作中,我们考虑了在线环境中提高模型预测控制(MPC)动态模型准确性的任务。即使可以学习预测模型并将其应用于基于模型的控制器,但这些模型也经常离线学习。在此离线环境中,首先收集培训数据,并通过详细的培训程序来学习预测模型。将模型训练至所需的精度后,然后将其部署到模型预测控制器中。但是,由于模型是离线学习的,因此它不适合部署过程中观察到的干扰或模型错误。为了提高模型和控制器的适应性,我们提出了一个在线动力学学习框架,该框架不断提高部署过程中动态模型的准确性。我们采用基于知识的神经普通微分方程(KNODE)作为动态模型,并使用受转移学习启发的技术来不断提高模型的准确性。我们通过四型机器人证明了框架的功效,并在模拟和物理实验中验证框架。结果表明,所提出的方法能够说明可能段时间变化的干扰,同时保持良好的轨迹跟踪性能。
translated by 谷歌翻译
该论文提出了两种控制方法,用于用微型四轮驱动器进行反弹式操纵。首先,对专门为反转设计设计的现有前馈控制策略进行了修订和改进。使用替代高斯工艺模型的贝叶斯优化通过在模拟环境中反复执行翻转操作来找到最佳运动原语序列。第二种方法基于闭环控制,它由两个主要步骤组成:首先,即使在模型不确定性的情况下,自适应控制器也旨在提供可靠的参考跟踪。控制器是通过通过测量数据调整的高斯过程来增强无人机的标称模型来构建的。其次,提出了一种有效的轨迹计划算法,该算法仅使用二次编程来设计可行的轨迹为反弹操作设计。在模拟和使用BitCraze Crazyflie 2.1四肢旋转器中对两种方法进行了分析。
translated by 谷歌翻译
由于存在动态变化,在标称环境中培训的强化学习(RL)策略可能在新的/扰动环境中失败。现有的强大方法通过强大或对冲培训,为所有设想的动态变化方案获得固定策略。由于强调最坏情况,这些方法可能导致保守表现,并且往往涉及对培训环境的繁琐修改。我们提出了一种方法来强制使用$ \ Mathcal {L} _1 $自适应控制的预先训练的非强大RL策略。利用$ \ mathcal {l} _1 $控制法在快速估计和主动补偿的动态变化中的能力中,我们的方法可以显着提高标准(即非鲁棒)方式培训的RL策略的鲁棒性,无论是在模拟器还是在现实世界中。提供了数值实验以验证所提出的方法的功效。
translated by 谷歌翻译
将无人机应用扩展到复杂任务的研究需要稳定的控制框架。最近,在许多研究中,对机器人控制以完成复杂的任务进行了深入的强化学习(RL)算法。不幸的是,由于难以解释博学的政策和缺乏稳定保证,尤其是对于诸如攀岩无人机之类的复杂任务,因此深入的RL算法可能不适合直接部署到现实世界的机器人平台中。本文提出了一种新型的混合体系结构,该结构通过使用无模型的Deep RL算法学习的强大策略来增强名义控制器。所提出的架构采用不确定性感受的控制搅拌机来保留名义控制器的保证稳定性,同时使用学习策略的扩展性能。该政策在模拟环境中进行了数千个域随机化的培训,以实现多样化的不确定性的稳健性能。通过现实世界实验验证了所提出的方法的性能,然后与传统的控制器和经过香草深RL算法训练的基于最新的学习控制器进行了比较。
translated by 谷歌翻译
现代机器人系统具有卓越的移动性和机械技能,使其适合在现实世界场景中使用,其中需要与重物和精确的操纵能力进行互动。例如,具有高有效载荷容量的腿机器人可用于灾害场景,以清除危险物质或携带受伤的人。因此,可以开发能够使复杂机器人能够准确地执行运动和操作任务的规划算法。此外,需要在线适应机制,需要新的未知环境。在这项工作中,我们强加了模型预测控制(MPC)产生的最佳状态输入轨迹满足机器人系统自适应控制中的Lyapunov函数标准。因此,我们将控制Lyapunov函数(CLF)提供的稳定性保证以及MPC在统一的自适应框架中提供的最优性,在机器人与未知对象的交互过程中产生改进的性能。我们验证了携带未建模有效载荷和拉重盒子的四足机器人的仿真和硬件测试中提出的方法。
translated by 谷歌翻译
二次运动的准确轨迹跟踪控制对于在混乱环境中的安全导航至关重要。但是,由于非线性动态,复杂的空气动力学效应和驱动约束,这在敏捷飞行中具有挑战性。在本文中,我们通过经验比较两个最先进的控制框架:非线性模型预测控制器(NMPC)和基于差异的控制器(DFBC),通过以速度跟踪各种敏捷轨迹,最多20 m/s(即72 km/h)。比较在模拟和现实世界环境中进行,以系统地评估这两种方法从跟踪准确性,鲁棒性和计算效率的方面。我们以更高的计算时间和数值收敛问题的风险来表明NMPC在跟踪动态不可行的轨迹方面的优势。对于这两种方法,我们还定量研究了使用增量非线性动态反演(INDI)方法添加内环控制器的效果,以及添加空气动力学阻力模型的效果。我们在世界上最大的运动捕获系统之一中进行的真实实验表明,NMPC和DFBC的跟踪误差降低了78%以上,这表明有必要使用内环控制器和用于敏捷轨迹轨迹跟踪的空气动力学阻力模型。
translated by 谷歌翻译
在过去的十年中,由于分散控制应用程序的趋势和网络物理系统应用的出现,网络控制系统在过去十年中引起了广泛的关注。但是,由于无线网络的复杂性质,现实世界中无线网络控制系统的通信带宽,可靠性问题以及对网络动态的认识不足。将机器学习和事件触发的控制结合起来有可能减轻其中一些问题。例如,可以使用机器学习来克服缺乏网络模型的问题,通过学习系统行为或通过不断学习模型动态来适应动态变化的模型。事件触发的控制可以通过仅在必要时或可用资源时传输控制信息来帮助保护通信带宽。本文的目的是对有关机器学习的使用与事件触发的控制的使用进行综述。机器学习技术,例如统计学习,神经网络和基于强化的学习方法,例如深入强化学习,并结合事件触发的控制。我们讨论如何根据机器学习使用的目的将这些学习算法用于不同的应用程序。在对文献的审查和讨论之后,我们重点介绍了与基于机器学习的事件触发的控制并提出潜在解决方案相关的开放研究问题和挑战。
translated by 谷歌翻译
机器人控制器的性能取决于其参数的选择,这需要仔细调整。在本文中,我们提出了DiFftune,这是一个新型,基于梯度的自动调整框架。我们的方法将动态系统和控制器作为计算图展开,并通过基于梯度的优化更新控制器参数。与常用的后传播方案不同,Difftune中的梯度是通过灵敏度传播获得的,这是一种与系统演化平行的前向模式自动分化技术。我们验证了杜宾汽车上提出的自动调节方法和在挑战性模拟环境中的四型旋转。仿真实验表明,该方法对于系统动力学和环境中的不确定性是可靠的,并且可以很好地推广到调整中看不见的轨迹。
translated by 谷歌翻译
由于存在动态变化,在标称环境中培训的强化学习(RL)控制策略可能在新的/扰动环境中失败。为了控制具有连续状态和动作空间的系统,我们提出了一种加载方法,通过使用$ \ mathcal {l} _ {1} $自适应控制器($ \ mathcal {l} _{1} $ AC)。利用$ \ mathcal {l} _ {1} $ AC的能力进行快速估计和动态变化的主动补偿,所提出的方法可以提高RL策略的稳健性,该策略在模拟器或现实世界中培训不考虑广泛的动态变化。数值和现实世界实验经验证明了所提出的方法在使用无模型和基于模型的方法训练的RL政策中的强制性策略的功效。用于真正的拼图设置实验的视频是可用的://youtu.be/xgob9vpyuge。
translated by 谷歌翻译
策略搜索和模型预测控制〜(MPC)是机器人控制的两个不同范式:策略搜索具有使用经验丰富的数据自动学习复杂策略的强度,而MPC可以使用模型和轨迹优化提供最佳控制性能。开放的研究问题是如何利用并结合两种方法的优势。在这项工作中,我们通过使用策略搜索自动选择MPC的高级决策变量提供答案,这导致了一种新的策略搜索 - 用于模型预测控制框架。具体地,我们将MPC作为参数化控制器配制,其中难以优化的决策变量表示为高级策略。这种制定允许以自我监督的方式优化政策。我们通过专注于敏捷无人机飞行中的具有挑战性的问题来验证这一框架:通过快速的盖茨飞行四轮车。实验表明,我们的控制器在模拟和现实世界中实现了鲁棒和实时的控制性能。拟议的框架提供了合并学习和控制的新视角。
translated by 谷歌翻译
空中操纵的生长场通常依赖于完全致动的或全向微型航空车(OMAV),它们可以在与环境接触时施加任意力和扭矩。控制方法通常基于无模型方法,将高级扳手控制器与执行器分配分开。如有必要,在线骚扰观察员拒绝干扰。但是,虽然是一般,但这种方法通常会产生次优控制命令,并且不能纳入平台设计给出的约束。我们提出了两种基于模型的方法来控制OMAV,以实现轨迹跟踪的任务,同时拒绝干扰。第一个通过从实验数据中学到的模型来优化扳手命令并补偿模型错误。第二个功能优化了低级执行器命令,允许利用分配无空格并考虑执行器硬件给出的约束。在现实世界实验中显示和评估两种方法的疗效和实时可行性。
translated by 谷歌翻译
深度学习方法的应用加快了挑战性电流问题的分辨率,最近显示出令人鼓舞的结果。但是,电力系统动力学不是快照,稳态操作。必须考虑这些动力学,以确保这些模型提供的最佳解决方案遵守实用的动力约束,避免频率波动和网格不稳定性。不幸的是,由于其高计算成本,基于普通或部分微分方程的动态系统模型通常不适合在控制或状态估计中直接应用。为了应对这些挑战,本文介绍了一种机器学习方法,以近乎实时近似电力系统动态的行为。该拟议的框架基于梯度增强的物理知识的神经网络(GPINNS),并编码有关电源系统的基本物理定律。拟议的GPINN的关键特征是它的训练能力而无需生成昂贵的培训数据。该论文说明了在单机无限总线系统中提出的方法在预测转子角度和频率的前进和反向问题中的潜力,以及不确定的参数,例如惯性和阻尼,以展示其在一系列电力系统应用中的潜力。
translated by 谷歌翻译