本文考虑了以分布式和计算障碍方式组成的大规模网络系统的稳定区域的问题。估计一般非线性系统稳定区域的一种标准方法是首先找到该系统的Lyapunov函数,并将其吸引区域描述为稳定区域。但是,用于查找lyapunov函数的经典方法,例如平方的方法和二次近似,要么不扩展到大型系统,要么对稳定区域进行非常保守的估计。在这种情况下,我们通过利用子系统的耗散性结构来提出一种新的基于分布式学习的方法。我们的方法有两个部分:第一部分是一种分布式方法,用于学习所有子系统的存储功能(类似于Lyapunov函数),第二部分是一种分布式优化方法,可以使用该系统找到网络系统的Lyapunov功能学习子系统的存储功能。我们通过微电网网络中的广泛案例研究证明了我们提出的方法的出色表现。
translated by 谷歌翻译
我们提出了用于学习控制策略的新方法和神经网络Lyapunov功能,以实现非线性控制问题,并可以证明可以保证稳定性。该框架由一个试图找到控制和Lyapunov功能的学习者组成,以及一个发现反例以快速指导学习者实现解决方案的伪造者。该过程终止,当未针对伪造者发现反例时,在这种情况下,受控的非线性系统被证明是稳定的。该方法显着简化了Lyapunov控制设计的过程,提供端到端的正确性保证,并且可以比LQR和SOS/SDP等现有方法获得更大的吸引力区域。我们展示了有关新方法如何获得高质量解决方案的实验。
translated by 谷歌翻译
用于未知非线性系统的学习和合成稳定控制器是现实世界和工业应用的具有挑战性问题。 Koopman操作员理论允许通过直线系统和非线性控制系统的镜头通过线性系统和非线性控制系统的镜头来分析非线性系统。这些方法的关键思想,在于将非线性系统的坐标转换为Koopman可观察,这是允许原始系统(控制系统)作为更高尺寸线性(双线性控制)系统的坐标。然而,对于非线性控制系统,通过应用基于Koopman操作员的学习方法获得的双线性控制模型不一定是稳定的,因此,不保证稳定反馈控制的存在,这对于许多真实世界的应用来说是至关重要的。同时识别基于这些可稳定的Koopman的双线性控制系统以及相关的Koopman可观察到仍然是一个开放的问题。在本文中,我们提出了一个框架,以通过同时学习为基于Koopman的底层未知的非线性控制系统以及基于Koopman的控制Lyapunov函数(CLF)来识别和构造这些可稳定的双线性模型及其相关的可观察能力。双线性模型使用学习者和伪空。我们提出的方法从而为非线性控制系统具有未知动态的非线性控制系统提供了可证明的全球渐近稳定性的保证。提供了数值模拟,以验证我们提出的稳定反馈控制器为未知的非线性系统的效力。
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
我们开发了一种多功能的深神经网络体系结构,称为Lyapunov-net,以近似高维动力学系统的Lyapunov函数。Lyapunov-net保证了积极的确定性,因此可以轻松地训练它以满足负轨道衍生物条件,这仅在实践中的经验风险功能中呈现单个术语。与现有方法相比,这显着减少了超参数的数量。我们还提供了关于Lyapunov-NET及其复杂性界限的近似能力的理论理由。我们证明了所提出的方法在涉及多达30维状态空间的非线性动力系统上的效率,并表明所提出的方法显着优于最新方法。
translated by 谷歌翻译
稳定性认证并确定安全稳定的初始集是确保动态系统的操作安全性,稳定性和鲁棒性的两个重要问题。随着机器学习工具的出现,需要针对反馈循环中具有机器学习组件的系统来解决这些问题。为了开发一种关于神经网络(NN)控制的非线性系统的稳定性和稳定性的一般理论,提出了基于Lyapunov的稳定性证书,并进一步用于设计用于NN Controller和NN控制器和最大LIPSCHITZ绑定的。也是给定的安全操作域内内部相应的最大诱因(ROA)。为了计算这种强大的稳定NN控制器,它也最大化了系统的长期实用程序,提出了稳定性保证训练(SGT)算法。提出的框架的有效性通过说明性示例得到了验证。
translated by 谷歌翻译
我们提出了一个框架,用于稳定验证混合智能线性编程(MILP)代表控制策略。该框架比较了固定的候选策略,该策略承认有效的参数化,可以以低计算成本进行评估,与固定基线策略进行评估,固定基线策略已知稳定但评估昂贵。我们根据基线策略的最坏情况近似错误为候选策略的闭环稳定性提供了足够的条件,我们表明可以通过求解混合构成二次计划(MIQP)来检查这些条件。 。此外,我们证明可以通过求解MILP来计算候选策略的稳定区域的外部近似。所提出的框架足以容纳广泛的候选策略,包括Relu神经网络(NNS),参数二次程序的最佳解决方案图以及模型预测性控制(MPC)策略。我们还根据提议的框架在Python中提供了一个开源工具箱,该工具可以轻松验证自定义NN架构和MPC公式。我们在DC-DC电源转换器案例研究的背景下展示了框架的灵活性和可靠性,并研究了计算复杂性。
translated by 谷歌翻译
收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
强化学习通常与奖励最大化(或成本量化)代理的培训相关,换句话说是控制者。它可以使用先验或在线收集的系统数据以无模型或基于模型的方式应用,以培训涉及的参数体系结构。通常,除非通过学习限制或量身定制的培训规则采取特殊措施,否则在线增强学习不能保证闭环稳定性。特别有希望的是通过“经典”控制方法进行增强学习的混合体。在这项工作中,我们建议一种在纯粹的在线学习环境中,即没有离线培训的情况下,可以保证系统控制器闭环的实际稳定性。此外,我们仅假设对系统模型的部分知识。为了达到要求的结果,我们采用经典自适应控制技术。总体控制方案的实施是在数字,采样设置中明确提供的。也就是说,控制器接收系统的状态,并在离散的时间(尤其是等距的时刻)中计算控制动作。该方法在自适应牵引力控制和巡航控制中进行了测试,事实证明,该方法可显着降低成本。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
影响模型预测控制(MPC)策略的神经网络(NN)近似的常见问题是缺乏分析工具来评估基于NN的控制器的动作下闭环系统的稳定性。我们介绍了一种通用过程来量化这种控制器的性能,或者设计具有整流的线性单元(Relus)的最小复杂性NN,其保留给定MPC方案的理想性质。通过量化基于NN和基于MPC的状态到输入映射之间的近似误差,我们首先建立适当的条件,涉及两个关键量,最坏情况误差和嘴唇截止恒定,保证闭环系统的稳定性。然后,我们开发了一个离线,混合整数的基于优化的方法,以确切地计算这些数量。这些技术共同提供足以认证MPC控制法的基于Relu的近似的稳定性和性能的条件。
translated by 谷歌翻译
响应于不同规格的产品的不断变化的原料供应和市场需求,需要在时变的操作条件和目标(例如,设定值)的过程中运行,以改善过程经济,与预定的传统过程操作相比均衡。本文开发了一种用于非线性化学过程的基于收缩理论的控制方法,以实现时变参考跟踪。这种方法利用神经网络的通用近似特征,采用离散时间收缩分析和控制。它涉及训练神经网络以学习嵌入基于收缩的控制器中的收缩度量和差分反馈增益。第二个,单独的神经网络也结合到控制循环中,以在线学习不确定系统模型参数。得到的控制方案能够实现有效的偏移跟踪时变的参考,其具有全范围的模型不确定性,而无需控制器结构作为参考变化重新设计。这是一种强大的方法,可以在工艺模型中处理流程模型中的有界参数不确定性,这些方法通常遇到工业(化学)过程中。这种方法还确保在线同时学习和控制期间的过程稳定性。提供模拟实施例以说明上述方法。
translated by 谷歌翻译
最近的研究表明,监督学习可以是为高维非线性动态系统设计最佳反馈控制器的有效工具。但是这些神经网络(NN)控制器的行为仍未得到很好的理解。在本文中,我们使用数值模拟来证明典型的测试精度度量没有有效地捕获NN控制器稳定系统的能力。特别是,具有高测试精度的一些NN不能稳定动态。为了解决这个问题,我们提出了两个NN架构,该架构在局部地近似线性二次调节器(LQR)。数值模拟确认了我们的直觉,即建议的架构可靠地产生稳定反馈控制器,而不会牺牲最佳状态。此外,我们介绍了描述这种NN控制系统的一些稳定性特性的初步理论结果。
translated by 谷歌翻译
在本文中,我们提出了一个新型的非线性观察者,称为神经观察者,以通过将神经网络(NN)引入观察者的设计,以实现线性时间传播(LTI)系统的观察任务和不确定的非线性系统。通过探索NN代表向NN映射矢量的方法,我们从LTI和不确定的非线性系统中得出了稳定性分析(例如,指数收敛速率),这些系统仅使用线性矩阵不平等(LMIS)为解决观察问题铺平了道路。值得注意的是,为不确定系统设计的神经观察者基于主动扰动拒绝控制(ADRC)的意识形态,该思想可以实时测量不确定性。 LMI结果也很重要,因为我们揭示了LMI溶液存在系统矩阵的可观察性和可控性。最后,我们在三个模拟案例上验证神经观察者的可用性,包括X-29A飞机模型,非线性摆和四轮转向车辆。
translated by 谷歌翻译
本文涉及一种特殊类型的Lyapunov功能,即Zubov方程的解决方案。这种功能可用于表征常微分方程的系统的吸引领域。我们派生并证明了Zubov等式的一体形式解决方案。对于数值计算,我们开发了两个数据驱动方法。一个基于差分方程的增强系统的集成;另一个是基于深度学习。前者对于具有相对低的状态空间尺寸的系统是有效的,并且后者是为高维问题开发的。深度学习方法应用于新英格兰10发电机电力系统模型。我们证明了电力系统的Lyapunov功能存在神经网络近似,使得近似误差是发电机数量的立方多项式。证明了作为n的函数的误差收敛速率,是神经元数量的函数。
translated by 谷歌翻译
基于二次程序(QP)基于状态反馈控制器,其不等式约束以控制障碍(CBFS)和Lyapunov函数的限制使用类-U \ Mathcal {K k} $函数其值的值,对其值的函数,对其值的参数敏感这些类 - $ \ MATHCAL {K} $ functions。但是,有效CBF的构建并不直接,对于QP的任意选择参数,系统轨迹可能会进入QP最终变得不可行的状态,或者可能无法实现所需的性能。在这项工作中,我们将控制合成问题作为差异策略提出,其参数在高级别的时间范围内被优化,从而导致双层优化常规。在不了解一组可行参数的情况下,我们开发了一种递归可行性引导的梯度下降方法来更新QP的参数,以便新解决方案至少和以前的解决方案的性能至少执行。通过将动力学系统视为有向图,随着时间的推移,这项工作提出了一种新颖的方式,可以通过(1)使用其解决方案的梯度来优化QP控制器在一个时间范围内对多个CBF的性能进行敏感性,从而提出了一种新的方式。分析,以及(2)将这些和系统动力学梯度进行反向传播,以更新参数,同时保持QPS的可行性。
translated by 谷歌翻译
由于它们的灵活性和富有效力,神经网络控制器在控制任务中变得流行。稳定性是安全关键动态系统的关键性质,而在许多情况下,部分观察到的系统的稳定化需要控制器保留和处理过去的长期记忆。我们将重要类别的经常性神经网络(RNN)视为非线性不确定部分观察系统的动态控制器,并基于积分二次约束,S-LEMMA和顺序凸化来推导凸稳定性条件。为了确保学习和控制过程中的稳定性,我们提出了一种预测的政策梯度方法,可迭代地强制执行关于系统动态的温和附加信息的重新制定空间中的稳定条件。数值实验表明,我们的方法在使用较少的样本并与政策梯度相比使用更高的样本并实现更高的最终性能时,学习稳定控制器。
translated by 谷歌翻译
本文涉及专业示范的学习安全控制法。我们假设系统动态和输出测量图的适当模型以及相应的错误界限。我们首先提出强大的输出控制屏障功能(ROCBF)作为保证安全的手段,通过控制安全集的前向不变性定义。然后,我们提出了一个优化问题,以从展示安全系统行为的专家演示中学习RocBF,例如,从人类运营商收集的数据。随着优化问题,我们提供可验证条件,可确保获得的Rocbf的有效性。这些条件在数据的密度和学习函数的LipsChitz和Lipshitz和界限常数上说明,以及系统动态和输出测量图的模型。当ROCBF的参数化是线性的,然后,在温和的假设下,优化问题是凸的。我们在自动驾驶模拟器卡拉验证了我们的调查结果,并展示了如何从RGB相机图像中学习安全控制法。
translated by 谷歌翻译
本文研究了在线性季节控制设置中权力下放程度与分布式控制器的性能之间的权衡。我们在图形和分布式控制器上研究一个互连代理系统,称为$ \ kappa $分布式控件,该系统使代理可以根据距离$ \ kappa $在基础图上的状态信息做出控制决策。该控制器可以使用参数$ \ kappa $调整其权力下放化程度,从而允许表征权力下放和绩效之间的关系。我们表明,在温和的假设下,包括可稳定性,可检测性和次数增长的图形条件,$ \ kappa $分布式控制和集中式最佳控制之间的性能差异在$ \ kappa $中呈指数级较小。该结果表明,分布式控制可以通过中等程度的权力下放实现近乎最佳的性能,因此它是用于大规模网络系统的有效控制器体系结构。
translated by 谷歌翻译
我们提出了一种使用神经网络反馈控制器对封闭环控制系统进行状态空间探索的新技术。我们的方法涉及近似闭环动力学轨迹的灵敏度。使用这样的近似器和系统模拟器,我们提出了一种指导状态空间探索方法,该方法可以生成在指定时间访问目标状态附近的轨迹。我们提出了一个理论框架,该框架确定我们的方法将产生一系列轨迹,该轨迹将到达目标状态的合适邻居。我们通过不同配置的神经网络反馈控制器对各种系统进行彻底评估。我们的表现优于早期的状态空间探索技术,并在质量(解释性)和性能(收敛速度)方面取得了显着改善。最后,我们采用算法来伪造一类时间逻辑规范,评估其针对最先进的伪造工具的绩效,并表现出其在补充现有的伪造算法方面的潜力。
translated by 谷歌翻译