我们提出了一个框架,用于稳定验证混合智能线性编程(MILP)代表控制策略。该框架比较了固定的候选策略,该策略承认有效的参数化,可以以低计算成本进行评估,与固定基线策略进行评估,固定基线策略已知稳定但评估昂贵。我们根据基线策略的最坏情况近似错误为候选策略的闭环稳定性提供了足够的条件,我们表明可以通过求解混合构成二次计划(MIQP)来检查这些条件。 。此外,我们证明可以通过求解MILP来计算候选策略的稳定区域的外部近似。所提出的框架足以容纳广泛的候选策略,包括Relu神经网络(NNS),参数二次程序的最佳解决方案图以及模型预测性控制(MPC)策略。我们还根据提议的框架在Python中提供了一个开源工具箱,该工具可以轻松验证自定义NN架构和MPC公式。我们在DC-DC电源转换器案例研究的背景下展示了框架的灵活性和可靠性,并研究了计算复杂性。
translated by 谷歌翻译
影响模型预测控制(MPC)策略的神经网络(NN)近似的常见问题是缺乏分析工具来评估基于NN的控制器的动作下闭环系统的稳定性。我们介绍了一种通用过程来量化这种控制器的性能,或者设计具有整流的线性单元(Relus)的最小复杂性NN,其保留给定MPC方案的理想性质。通过量化基于NN和基于MPC的状态到输入映射之间的近似误差,我们首先建立适当的条件,涉及两个关键量,最坏情况误差和嘴唇截止恒定,保证闭环系统的稳定性。然后,我们开发了一个离线,混合整数的基于优化的方法,以确切地计算这些数量。这些技术共同提供足以认证MPC控制法的基于Relu的近似的稳定性和性能的条件。
translated by 谷歌翻译
神经网络(NNS)已成功地用于代表复杂动力学系统的状态演变。这样的模型,称为NN动态模型(NNDMS),使用NN的迭代噪声预测来估计随时间推移系统轨迹的分布。尽管它们的准确性,但对NNDMS的安全分析仍然是一个具有挑战性的问题,并且在很大程度上尚未探索。为了解决这个问题,在本文中,我们介绍了一种为NNDM提供安全保证的方法。我们的方法基于随机屏障函数,其与安全性的关系类似于Lyapunov功能的稳定性。我们首先展示了通过凸优化问题合成NNDMS随机屏障函数的方法,该问题又为系统的安全概率提供了下限。我们方法中的一个关键步骤是,NNS的最新凸近似结果的利用是找到零件线性边界,这允许将屏障函数合成问题作为一个方形优化程序的制定。如果获得的安全概率高于所需的阈值,则该系统将获得认证。否则,我们引入了一种生成控制系统的方法,该系统以最小的侵入性方式稳健地最大化安全概率。我们利用屏障函数的凸属性来提出最佳控制合成问题作为线性程序。实验结果说明了该方法的功效。即,他们表明该方法可以扩展到具有多层和数百个神经元的多维NNDM,并且控制器可以显着提高安全性概率。
translated by 谷歌翻译
我们试图将广泛的神经网络的非线性建模功能与模型预测控制(MPC)的安全保证相结合,并在严格的在线计算框架中。可以使用Koopman运算符捕获所考虑的网络类,并将其集成到基于Koopman的跟踪MPC(KTMPC)中,以用于非线性系统以跟踪分段常数引用。原始非线性动力学与其训练有素的Koopman线性模型之间模型不匹配的影响是通过在建议的跟踪MPC策略中使用约束拧紧方法来处理的。通过选择两个Lyapunov候选功能,我们证明解决方案是可行的,并且在存在有限的建模错误的情况下,在线和离线最佳可触发稳定输出均具有稳定的输入到状态。最后,我们展示了一个数值示例的结果以及自动地面车辆在跟踪给定参考文献中的应用。
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
We propose a learning-based robust predictive control algorithm that compensates for significant uncertainty in the dynamics for a class of discrete-time systems that are nominally linear with an additive nonlinear component. Such systems commonly model the nonlinear effects of an unknown environment on a nominal system. We optimize over a class of nonlinear feedback policies inspired by certainty equivalent "estimate-and-cancel" control laws pioneered in classical adaptive control to achieve significant performance improvements in the presence of uncertainties of large magnitude, a setting in which existing learning-based predictive control algorithms often struggle to guarantee safety. In contrast to previous work in robust adaptive MPC, our approach allows us to take advantage of structure (i.e., the numerical predictions) in the a priori unknown dynamics learned online through function approximation. Our approach also extends typical nonlinear adaptive control methods to systems with state and input constraints even when we cannot directly cancel the additive uncertain function from the dynamics. We apply contemporary statistical estimation techniques to certify the system's safety through persistent constraint satisfaction with high probability. Moreover, we propose using Bayesian meta-learning algorithms that learn calibrated model priors to help satisfy the assumptions of the control design in challenging settings. Finally, we show in simulation that our method can accommodate more significant unknown dynamics terms than existing methods and that the use of Bayesian meta-learning allows us to adapt to the test environments more rapidly.
translated by 谷歌翻译
在本文中,提出了显式线性模型预测控制(MPC)的分离和结合晶格分段仿射(PWA)。训练数据是在感兴趣的领域均匀生成的,由状态样本和相应的仿射控制定律组成,基于晶格PWA近似值。还提出了对数据的重新采样,以确保晶格PWA近似与包含样品点作为内部点的唯一顺序(UO)区域相同。另外,在轻度假设下,两个晶格PWA的等效性确保了感兴趣域中的近似值无错误。提出了针对显式线性MPC的无统计误差近似的算法,并分析了整个过程的复杂性,这是相对于样品数量的多项式。通过两个仿真示例测试了所提出的近似策略的性能,结果表明,有了适量的样品点,我们可以构造与显式线性MPC的最佳控制法相等的晶格PWA近似值。
translated by 谷歌翻译
在最近的文献中,学习方法与模型预测控制(MPC)的结合吸引了大量关注。这种组合的希望是减少MPC方案对准确模型的依赖,并利用快速开发的机器学习和强化学习工具,以利用许多系统可用的数据量。特别是,增强学习和MPC的结合已被认为是一种可行且理论上合理的方法,以引入可解释的,安全和稳定的政策,以实现强化学习。但是,一种正式的理论详细介绍了如何通过学习工具提供的参数更新来维持基于MPC的策略的安全性和稳定性。本文解决了这一差距。该理论是针对通用的强大MPC案例开发的,并在基于强大的管线MPC情况的模拟中应用,在该情况下,该理论在实践中很容易部署。本文着重于增强学习作为学习工具,但它适用于任何在线更新MPC参数的学习方法。
translated by 谷歌翻译
收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
稳定性认证并确定安全稳定的初始集是确保动态系统的操作安全性,稳定性和鲁棒性的两个重要问题。随着机器学习工具的出现,需要针对反馈循环中具有机器学习组件的系统来解决这些问题。为了开发一种关于神经网络(NN)控制的非线性系统的稳定性和稳定性的一般理论,提出了基于Lyapunov的稳定性证书,并进一步用于设计用于NN Controller和NN控制器和最大LIPSCHITZ绑定的。也是给定的安全操作域内内部相应的最大诱因(ROA)。为了计算这种强大的稳定NN控制器,它也最大化了系统的长期实用程序,提出了稳定性保证训练(SGT)算法。提出的框架的有效性通过说明性示例得到了验证。
translated by 谷歌翻译
在本文中,我们考虑了由整流的线性单元(RELU)两级晶格(TLL)神经网络(NN)控制器控制的线性时间不变(LTI)系统的可触时集合的计算复杂性。特别是,我们表明,对于这样的系统和控制器,可以按照TLL NN控制器的大小(神经元数)的大小计算多项式时间的确切一步设置。此外,我们表明可以通过两种多项式时间方法获得可触及设置的紧密边界框:一个在TLL的大小中具有多项式复杂性,另一个具有控制器和其他的Lipschitz常数中的多项式复杂性问题参数。至关重要的是,可以在多项式时间内确定两者中的较小,对于非脱位tll nns。最后,我们提出了一种务实的算法,该算法将(半)确切可及性和近似可达性的好处(我们称为L-tllbox)结合在一起。我们通过经验比较与最先进的NN控制器可及性工具一起评估L-Tllbox。在这些实验中,L-TLLBox能够在同一网络/系统上的该工具快5000倍,同时生产到区域面积的0.08至1.42倍的范围。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
安全至关重要的应用中神经网络(NNS)的患病率的增加,要求采用证明安全行为的方法。本文提出了一种向后的可及性方法,以安全验证神经反馈循环(NFLS),即具有NN控制策略的闭环系统。尽管最近的作品集中在远程达到NFL的安全认证策略上,但落后性能比远期策略具有优势,尤其是在避免障碍的情况下。先前的工作已经开发了用于无NNS系统的向后可及性分析的技术,但是由于其激活功能的非线性,反馈回路中的NNS存在唯一的问题,并且由于NN模型通常不可逆转。为了克服这些挑战,我们使用现有的NN分析工具有效地找到了对反射(BP)集的过度评估,即NN控制策略将将系统驱动到给定目标集的状态集。我们介绍了用于计算以馈电NN表示的控制策略的线性和非线性系统的BP过度评估的框架,并提出了计算有效的策略。我们使用各种模型的数值结果来展示所提出的算法,包括6D系统的安全认证。
translated by 谷歌翻译
最近的研究表明,监督学习可以是为高维非线性动态系统设计最佳反馈控制器的有效工具。但是这些神经网络(NN)控制器的行为仍未得到很好的理解。在本文中,我们使用数值模拟来证明典型的测试精度度量没有有效地捕获NN控制器稳定系统的能力。特别是,具有高测试精度的一些NN不能稳定动态。为了解决这个问题,我们提出了两个NN架构,该架构在局部地近似线性二次调节器(LQR)。数值模拟确认了我们的直觉,即建议的架构可靠地产生稳定反馈控制器,而不会牺牲最佳状态。此外,我们介绍了描述这种NN控制系统的一些稳定性特性的初步理论结果。
translated by 谷歌翻译
在本文中,我们提出了一个新型的非线性观察者,称为神经观察者,以通过将神经网络(NN)引入观察者的设计,以实现线性时间传播(LTI)系统的观察任务和不确定的非线性系统。通过探索NN代表向NN映射矢量的方法,我们从LTI和不确定的非线性系统中得出了稳定性分析(例如,指数收敛速率),这些系统仅使用线性矩阵不平等(LMIS)为解决观察问题铺平了道路。值得注意的是,为不确定系统设计的神经观察者基于主动扰动拒绝控制(ADRC)的意识形态,该思想可以实时测量不确定性。 LMI结果也很重要,因为我们揭示了LMI溶液存在系统矩阵的可观察性和可控性。最后,我们在三个模拟案例上验证神经观察者的可用性,包括X-29A飞机模型,非线性摆和四轮转向车辆。
translated by 谷歌翻译
本文开发了一种基于模型的强化学习(MBR)框架,用于在线在线学习无限范围最佳控制问题的价值函数,同时遵循表示为控制屏障功能(CBFS)的安全约束。我们的方法是通过开发一种新型的CBFS,称为Lyapunov样CBF(LCBF),其保留CBFS的有益特性,以开发最微创的安全控制政策,同时也具有阳性半自动等所需的Lyapunov样品质 - 义法。我们展示这些LCBFS如何用于增强基于学习的控制策略,以保证安全性,然后利用这种方法在MBRL设置中开发安全探索框架。我们表明,我们的开发方法可以通过各种数值示例来处理比较法的更通用的安全限制。
translated by 谷歌翻译
本文介绍了最近在文献中引入的二次神经网络的分析和设计,以及它们在动态系统的回归,分类,系统识别和控制中的应用。这些网络提供了几个优点,其中最重要的是该体系结构是设计的副产品,尚未确定a-priori,可以通过解决凸优化问题来完成他们的培训可以实现权重,并且输入输出映射可以通过二次形式在分析上表示。从几个示例中也可以看出,这些网络仅使用一小部分培训数据就可以很好地工作。纸质铸造回归,分类,系统识别,稳定性和控制设计作为凸优化问题的结果,可以用多项式时间算法有效地求解到全局最佳。几个示例将显示二次神经网络在应用中的有效性。
translated by 谷歌翻译
我们考虑在离散时间非线性随机控制系统中正式验证几乎核实(A.S.)渐近稳定性的问题。在文献中广泛研究确定性控制系统中的验证稳定性,验证随机控制系统中的验证稳定性是一个开放的问题。本主题的少数现有的作品只考虑专门的瞬间形式,或对系统进行限制性假设,使其无法与神经网络策略的学习算法不适用。在这项工作中,我们提出了一种具有两种新颖方面的一般非线性随机控制问题的方法:(a)Lyapunov函数的经典随机扩展,我们使用排名超大地区(RSMS)来证明〜渐近稳定性,以及(B)我们提出一种学习神经网络RSM的方法。我们证明我们的方法保证了系统的渐近稳定性,并提供了第一种方法来获得稳定时间的界限,其中随机Lyapunov功能不。最后,我们在通过神经网络政策的一套非线性随机强化学习环境上通过实验验证我们的方法。
translated by 谷歌翻译
我们考虑非线性优化问题,涉及神经网络代表代理模型。我们首先展示了如何直接将神经网络评估嵌入优化模型中,突出难以防止收敛的方法,然后表征这些模型的平稳性。然后,我们在具有Relu激活的前馈神经网络的特定情况下存在两种替代配方,其具有recu激活:作为混合整数优化问题,作为具有互补限制的数学程序。对于后一种制剂,我们证明了在该问题的点处的有同性,对应于嵌入式制剂的实质性。这些配方中的每一个都可以用最先进的优化方法来解决,并且我们展示了如何为这些方法获得良好的初始可行解决方案。我们将三种实际应用的配方进行比较,在燃烧发动机的设计和控制中产生的三种实际应用,在对分类器网络的对抗攻击中产生的产生,以及在油井网中的最佳流动确定。
translated by 谷歌翻译
本文介绍了在最近开发的神经网络架构上的不确定系统构建的非线性控制器的参数化,称为经常性平衡网络(REN)以及YOULA参数化的非线性版本。拟议的框架具有“内置”保证稳定性,即搜索空间中的所有政策导致承包(全球指数稳定的)闭环系统。因此,它需要对成本函数的选择的非常温和的假设,并且可以推广稳定性属性以看不见的数据。这种方法的另一个有用特征是在没有任何约束的情况下直接参数化的策略,这简化了基于无约束优化的广泛的政策学习方法学习(例如随机梯度下降)。我们说明了具有各种模拟示例的所提出的方法。
translated by 谷歌翻译