本文介绍了在最近开发的神经网络架构上的不确定系统构建的非线性控制器的参数化,称为经常性平衡网络(REN)以及YOULA参数化的非线性版本。拟议的框架具有“内置”保证稳定性,即搜索空间中的所有政策导致承包(全球指数稳定的)闭环系统。因此,它需要对成本函数的选择的非常温和的假设,并且可以推广稳定性属性以看不见的数据。这种方法的另一个有用特征是在没有任何约束的情况下直接参数化的策略,这简化了基于无约束优化的广泛的政策学习方法学习(例如随机梯度下降)。我们说明了具有各种模拟示例的所提出的方法。
translated by 谷歌翻译
我们提出了基于最近开发的神经网络的线性动力系统的非线性输出反馈控制器参数化,称为经常性平衡网络(REN),以及YOULA参数化的非线性版本。我们的方法保证了部分可观察的线性动态系统的闭环稳定性,而不需要满足任何约束。这显着简化了模型拟合,因为任何无约束的优化程序都可以应用,同时仍然保持稳定性。我们展示了具有精确和近似梯度方法的加强学习任务的方法。仿真研究表明,我们的方法在相同的问题设置中明显更具可扩展性,并且显着优于其他方法。
translated by 谷歌翻译
We address the problem of designing stabilizing control policies for nonlinear systems in discrete-time, while minimizing an arbitrary cost function. When the system is linear and the cost is convex, the System Level Synthesis (SLS) approach offers an effective solution based on convex programming. Beyond this case, a globally optimal solution cannot be found in a tractable way, in general. In this paper, we develop a parametrization of all and only the control policies stabilizing a given time-varying nonlinear system in terms of the combined effect of 1) a strongly stabilizing base controller and 2) a stable SLS operator to be freely designed. Based on this result, we propose a Neural SLS (Neur-SLS) approach guaranteeing closed-loop stability during and after parameter optimization, without requiring any constraints to be satisfied. We exploit recent Deep Neural Network (DNN) models based on Recurrent Equilibrium Networks (RENs) to learn over a rich class of nonlinear stable operators, and demonstrate the effectiveness of the proposed approach in numerical examples.
translated by 谷歌翻译
我们提出了基于复发均衡网络的非线性动态控制器的参数化,这是复发性神经网络的概括。我们对控制器保证具有部分观察到的动态系统的指数稳定性的参数化受到限制。最后,我们提出了一种使用投影策略梯度方法合成该控制器的方法,以最大程度地利用任意结构来奖励功能。投影步骤涉及凸优化问题的解决方案。我们通过模拟控制非线性植物(包括用神经网络建模的植物)演示了提出的方法。
translated by 谷歌翻译
由于它们的灵活性和富有效力,神经网络控制器在控制任务中变得流行。稳定性是安全关键动态系统的关键性质,而在许多情况下,部分观察到的系统的稳定化需要控制器保留和处理过去的长期记忆。我们将重要类别的经常性神经网络(RNN)视为非线性不确定部分观察系统的动态控制器,并基于积分二次约束,S-LEMMA和顺序凸化来推导凸稳定性条件。为了确保学习和控制过程中的稳定性,我们提出了一种预测的政策梯度方法,可迭代地强制执行关于系统动态的温和附加信息的重新制定空间中的稳定条件。数值实验表明,我们的方法在使用较少的样本并与政策梯度相比使用更高的样本并实现更高的最终性能时,学习稳定控制器。
translated by 谷歌翻译
收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
稳定性认证并确定安全稳定的初始集是确保动态系统的操作安全性,稳定性和鲁棒性的两个重要问题。随着机器学习工具的出现,需要针对反馈循环中具有机器学习组件的系统来解决这些问题。为了开发一种关于神经网络(NN)控制的非线性系统的稳定性和稳定性的一般理论,提出了基于Lyapunov的稳定性证书,并进一步用于设计用于NN Controller和NN控制器和最大LIPSCHITZ绑定的。也是给定的安全操作域内内部相应的最大诱因(ROA)。为了计算这种强大的稳定NN控制器,它也最大化了系统的长期实用程序,提出了稳定性保证训练(SGT)算法。提出的框架的有效性通过说明性示例得到了验证。
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
本文开发了一种基于模型的强化学习(MBR)框架,用于在线在线学习无限范围最佳控制问题的价值函数,同时遵循表示为控制屏障功能(CBFS)的安全约束。我们的方法是通过开发一种新型的CBFS,称为Lyapunov样CBF(LCBF),其保留CBFS的有益特性,以开发最微创的安全控制政策,同时也具有阳性半自动等所需的Lyapunov样品质 - 义法。我们展示这些LCBFS如何用于增强基于学习的控制策略,以保证安全性,然后利用这种方法在MBRL设置中开发安全探索框架。我们表明,我们的开发方法可以通过各种数值示例来处理比较法的更通用的安全限制。
translated by 谷歌翻译
我们提出了一个框架,用于稳定验证混合智能线性编程(MILP)代表控制策略。该框架比较了固定的候选策略,该策略承认有效的参数化,可以以低计算成本进行评估,与固定基线策略进行评估,固定基线策略已知稳定但评估昂贵。我们根据基线策略的最坏情况近似错误为候选策略的闭环稳定性提供了足够的条件,我们表明可以通过求解混合构成二次计划(MIQP)来检查这些条件。 。此外,我们证明可以通过求解MILP来计算候选策略的稳定区域的外部近似。所提出的框架足以容纳广泛的候选策略,包括Relu神经网络(NNS),参数二次程序的最佳解决方案图以及模型预测性控制(MPC)策略。我们还根据提议的框架在Python中提供了一个开源工具箱,该工具可以轻松验证自定义NN架构和MPC公式。我们在DC-DC电源转换器案例研究的背景下展示了框架的灵活性和可靠性,并研究了计算复杂性。
translated by 谷歌翻译
强化学习通常与奖励最大化(或成本量化)代理的培训相关,换句话说是控制者。它可以使用先验或在线收集的系统数据以无模型或基于模型的方式应用,以培训涉及的参数体系结构。通常,除非通过学习限制或量身定制的培训规则采取特殊措施,否则在线增强学习不能保证闭环稳定性。特别有希望的是通过“经典”控制方法进行增强学习的混合体。在这项工作中,我们建议一种在纯粹的在线学习环境中,即没有离线培训的情况下,可以保证系统控制器闭环的实际稳定性。此外,我们仅假设对系统模型的部分知识。为了达到要求的结果,我们采用经典自适应控制技术。总体控制方案的实施是在数字,采样设置中明确提供的。也就是说,控制器接收系统的状态,并在离散的时间(尤其是等距的时刻)中计算控制动作。该方法在自适应牵引力控制和巡航控制中进行了测试,事实证明,该方法可显着降低成本。
translated by 谷歌翻译
最近的研究表明,监督学习可以是为高维非线性动态系统设计最佳反馈控制器的有效工具。但是这些神经网络(NN)控制器的行为仍未得到很好的理解。在本文中,我们使用数值模拟来证明典型的测试精度度量没有有效地捕获NN控制器稳定系统的能力。特别是,具有高测试精度的一些NN不能稳定动态。为了解决这个问题,我们提出了两个NN架构,该架构在局部地近似线性二次调节器(LQR)。数值模拟确认了我们的直觉,即建议的架构可靠地产生稳定反馈控制器,而不会牺牲最佳状态。此外,我们介绍了描述这种NN控制系统的一些稳定性特性的初步理论结果。
translated by 谷歌翻译
用于未知非线性系统的学习和合成稳定控制器是现实世界和工业应用的具有挑战性问题。 Koopman操作员理论允许通过直线系统和非线性控制系统的镜头通过线性系统和非线性控制系统的镜头来分析非线性系统。这些方法的关键思想,在于将非线性系统的坐标转换为Koopman可观察,这是允许原始系统(控制系统)作为更高尺寸线性(双线性控制)系统的坐标。然而,对于非线性控制系统,通过应用基于Koopman操作员的学习方法获得的双线性控制模型不一定是稳定的,因此,不保证稳定反馈控制的存在,这对于许多真实世界的应用来说是至关重要的。同时识别基于这些可稳定的Koopman的双线性控制系统以及相关的Koopman可观察到仍然是一个开放的问题。在本文中,我们提出了一个框架,以通过同时学习为基于Koopman的底层未知的非线性控制系统以及基于Koopman的控制Lyapunov函数(CLF)来识别和构造这些可稳定的双线性模型及其相关的可观察能力。双线性模型使用学习者和伪空。我们提出的方法从而为非线性控制系统具有未知动态的非线性控制系统提供了可证明的全球渐近稳定性的保证。提供了数值模拟,以验证我们提出的稳定反馈控制器为未知的非线性系统的效力。
translated by 谷歌翻译
本文提出了一种基于匹配不确定性的非线性系统的收缩指标和干扰估计的轨迹中心学习控制方法。该方法允许使用广泛的模型学习工具,包括深神经网络,以学习不确定的动态,同时仍然在整个学习阶段提供瞬态跟踪性能的保证,包括没有学习的特殊情况。在所提出的方法中,提出了一种扰动估计法,以估计不确定性的点值,具有预计估计误差限制(EEB)。学习的动态,估计的紊乱和EEB在强大的黎曼能量条件下并入,以计算控制法,即使学习模型较差,也能保证在整个学习阶段的所需轨迹对所需轨迹的指数趋同。另一方面,具有改进的精度,学习的模型可以在高级计划器中结合,以规划更好的性能,例如降低能耗和更短的旅行时间。建议的框架在平面Quadrotor导航示例上验证。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
We propose a learning-based robust predictive control algorithm that compensates for significant uncertainty in the dynamics for a class of discrete-time systems that are nominally linear with an additive nonlinear component. Such systems commonly model the nonlinear effects of an unknown environment on a nominal system. We optimize over a class of nonlinear feedback policies inspired by certainty equivalent "estimate-and-cancel" control laws pioneered in classical adaptive control to achieve significant performance improvements in the presence of uncertainties of large magnitude, a setting in which existing learning-based predictive control algorithms often struggle to guarantee safety. In contrast to previous work in robust adaptive MPC, our approach allows us to take advantage of structure (i.e., the numerical predictions) in the a priori unknown dynamics learned online through function approximation. Our approach also extends typical nonlinear adaptive control methods to systems with state and input constraints even when we cannot directly cancel the additive uncertain function from the dynamics. We apply contemporary statistical estimation techniques to certify the system's safety through persistent constraint satisfaction with high probability. Moreover, we propose using Bayesian meta-learning algorithms that learn calibrated model priors to help satisfy the assumptions of the control design in challenging settings. Finally, we show in simulation that our method can accommodate more significant unknown dynamics terms than existing methods and that the use of Bayesian meta-learning allows us to adapt to the test environments more rapidly.
translated by 谷歌翻译
本文介绍了最近在文献中引入的二次神经网络的分析和设计,以及它们在动态系统的回归,分类,系统识别和控制中的应用。这些网络提供了几个优点,其中最重要的是该体系结构是设计的副产品,尚未确定a-priori,可以通过解决凸优化问题来完成他们的培训可以实现权重,并且输入输出映射可以通过二次形式在分析上表示。从几个示例中也可以看出,这些网络仅使用一小部分培训数据就可以很好地工作。纸质铸造回归,分类,系统识别,稳定性和控制设计作为凸优化问题的结果,可以用多项式时间算法有效地求解到全局最佳。几个示例将显示二次神经网络在应用中的有效性。
translated by 谷歌翻译
影响模型预测控制(MPC)策略的神经网络(NN)近似的常见问题是缺乏分析工具来评估基于NN的控制器的动作下闭环系统的稳定性。我们介绍了一种通用过程来量化这种控制器的性能,或者设计具有整流的线性单元(Relus)的最小复杂性NN,其保留给定MPC方案的理想性质。通过量化基于NN和基于MPC的状态到输入映射之间的近似误差,我们首先建立适当的条件,涉及两个关键量,最坏情况误差和嘴唇截止恒定,保证闭环系统的稳定性。然后,我们开发了一个离线,混合整数的基于优化的方法,以确切地计算这些数量。这些技术共同提供足以认证MPC控制法的基于Relu的近似的稳定性和性能的条件。
translated by 谷歌翻译
本文介绍了非线性MPC控制器的设计,该设计为通过神经非线性自动回归外源性(NNARX)网络描述的模型提供无抵销的设定值跟踪。 NNARX模型是从工厂收集的输入输出数据中标识的,并且可以通过过去的输入和输出变量为已知的可测量状态给出状态空间表示,因此不需要状态观察者。在训练阶段,与工厂行为一致时,可以强制强制强制输入到国家稳定性({\ delta} ISS)属性。然后,利用{\ delta} ISS属性在输出跟踪误差上采取明确的积分操作来增强模型,从而可以实现为设计的控制方案实现无抵销的跟踪功能。在水加热系统上进行了数值测试,并将所达到的结果与另一种流行的无偏移MPC方法评分的结果进行了数值测试,这表明即使在植物上作用着骚动,提出的方案也达到了显着的性能。
translated by 谷歌翻译
本文提出了一种数据驱动方法,用于使用收缩理论从离线数据学习收敛控制策略。收缩理论使得构建一种使闭环系统轨迹固有地朝向独特的轨迹的策略构成策略。在技​​术水平,识别收缩度量,该收缩度量是关于机器人的轨迹表现出收缩的距离度量通常是非琐碎的。我们建议共同了解控制政策及其相应的收缩度量,同时执行收缩。为此,我们从由机器人的状态和输入轨迹组成的离线数据集中学习机器人系统的隐式动态模型。使用此学习的动态模型,我们提出了一种用于学习收缩策略的数据增强算法。我们随机生成状态空间中的样本,并通过学习的动态模型在时间上向前传播,以生成辅助样本轨迹。然后,我们学习控制策略和收缩度量,使得来自离线数据集的轨迹之间的距离和我们生成的辅助样品轨迹随时间的减小。我们评估我们提出的模拟机器人目标达成任务的拟议框架的表现,并证明了执行收缩的速度较快,较快的收敛性和更大的学习政策的鲁棒性。
translated by 谷歌翻译