在本文中,我们提出了一个新型的非线性观察者,称为神经观察者,以通过将神经网络(NN)引入观察者的设计,以实现线性时间传播(LTI)系统的观察任务和不确定的非线性系统。通过探索NN代表向NN映射矢量的方法,我们从LTI和不确定的非线性系统中得出了稳定性分析(例如,指数收敛速率),这些系统仅使用线性矩阵不平等(LMIS)为解决观察问题铺平了道路。值得注意的是,为不确定系统设计的神经观察者基于主动扰动拒绝控制(ADRC)的意识形态,该思想可以实时测量不确定性。 LMI结果也很重要,因为我们揭示了LMI溶液存在系统矩阵的可观察性和可控性。最后,我们在三个模拟案例上验证神经观察者的可用性,包括X-29A飞机模型,非线性摆和四轮转向车辆。
translated by 谷歌翻译
收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
稳定性认证并确定安全稳定的初始集是确保动态系统的操作安全性,稳定性和鲁棒性的两个重要问题。随着机器学习工具的出现,需要针对反馈循环中具有机器学习组件的系统来解决这些问题。为了开发一种关于神经网络(NN)控制的非线性系统的稳定性和稳定性的一般理论,提出了基于Lyapunov的稳定性证书,并进一步用于设计用于NN Controller和NN控制器和最大LIPSCHITZ绑定的。也是给定的安全操作域内内部相应的最大诱因(ROA)。为了计算这种强大的稳定NN控制器,它也最大化了系统的长期实用程序,提出了稳定性保证训练(SGT)算法。提出的框架的有效性通过说明性示例得到了验证。
translated by 谷歌翻译
我们提出了一个框架,用于稳定验证混合智能线性编程(MILP)代表控制策略。该框架比较了固定的候选策略,该策略承认有效的参数化,可以以低计算成本进行评估,与固定基线策略进行评估,固定基线策略已知稳定但评估昂贵。我们根据基线策略的最坏情况近似错误为候选策略的闭环稳定性提供了足够的条件,我们表明可以通过求解混合构成二次计划(MIQP)来检查这些条件。 。此外,我们证明可以通过求解MILP来计算候选策略的稳定区域的外部近似。所提出的框架足以容纳广泛的候选策略,包括Relu神经网络(NNS),参数二次程序的最佳解决方案图以及模型预测性控制(MPC)策略。我们还根据提议的框架在Python中提供了一个开源工具箱,该工具可以轻松验证自定义NN架构和MPC公式。我们在DC-DC电源转换器案例研究的背景下展示了框架的灵活性和可靠性,并研究了计算复杂性。
translated by 谷歌翻译
本文提出了一种基于匹配不确定性的非线性系统的收缩指标和干扰估计的轨迹中心学习控制方法。该方法允许使用广泛的模型学习工具,包括深神经网络,以学习不确定的动态,同时仍然在整个学习阶段提供瞬态跟踪性能的保证,包括没有学习的特殊情况。在所提出的方法中,提出了一种扰动估计法,以估计不确定性的点值,具有预计估计误差限制(EEB)。学习的动态,估计的紊乱和EEB在强大的黎曼能量条件下并入,以计算控制法,即使学习模型较差,也能保证在整个学习阶段的所需轨迹对所需轨迹的指数趋同。另一方面,具有改进的精度,学习的模型可以在高级计划器中结合,以规划更好的性能,例如降低能耗和更短的旅行时间。建议的框架在平面Quadrotor导航示例上验证。
translated by 谷歌翻译
影响模型预测控制(MPC)策略的神经网络(NN)近似的常见问题是缺乏分析工具来评估基于NN的控制器的动作下闭环系统的稳定性。我们介绍了一种通用过程来量化这种控制器的性能,或者设计具有整流的线性单元(Relus)的最小复杂性NN,其保留给定MPC方案的理想性质。通过量化基于NN和基于MPC的状态到输入映射之间的近似误差,我们首先建立适当的条件,涉及两个关键量,最坏情况误差和嘴唇截止恒定,保证闭环系统的稳定性。然后,我们开发了一个离线,混合整数的基于优化的方法,以确切地计算这些数量。这些技术共同提供足以认证MPC控制法的基于Relu的近似的稳定性和性能的条件。
translated by 谷歌翻译
非线性自适应控制理论中的一个关键假设是系统的不确定性可以在一组已知基本函数的线性跨度中表示。虽然该假设导致有效的算法,但它将应用限制为非常特定的系统类别。我们介绍一种新的非参数自适应算法,其在参数上学习无限尺寸密度,以取消再现内核希尔伯特空间中的未知干扰。令人惊讶的是,所产生的控制输入承认,尽管其底层无限尺寸结构,但是尽管它的潜在无限尺寸结构实现了其实施的分析表达。虽然这种自适应输入具有丰富和富有敏感性的 - 例如,传统的线性参数化 - 其计算复杂性随时间线性增长,使其比其参数对应力相对较高。利用随机傅里叶特征的理论,我们提供了一种有效的随机实现,该实现恢复了经典参数方法的复杂性,同时可透明地保留非参数输入的表征性。特别地,我们的显式范围仅取决于系统的基础参数,允许我们所提出的算法有效地缩放到高维系统。作为该方法的说明,我们展示了随机近似算法学习由牛顿重力交互的十点批量组成的60维系统的预测模型的能力。
translated by 谷歌翻译
对于不确定的多个输入多输出(MIMO)非线性系统,实现渐近跟踪是不平凡的,并且大多数现有方法通常需要某些可控性条件,如果涉及意外的执行器故障,这些条件是相当限制性的,甚至是不切实际的。在本说明中,我们提出了一种能够实现具有较不保守(更实用)可控性条件的零误差稳态跟踪的方法。通过将新颖的Nussbaum增益技术和一些积极的集成函数纳入控制设计,我们为系统开发了强大的自适应渐近跟踪控制方案,随着时变的控制增益未知其幅度和方向。通过诉诸某些可行的辅助矩阵的存在,进一步放松了当前的最新可控性条件,从而扩大了可以在拟议的控制方案中考虑的系统类别。所有闭环信号均被确保在全球范围内最终均匀界定。此外,这种控制方法进一步扩展到涉及间歇性执行器断层以及适用于机器人系统的情况。最后,进行了模拟研究以证明该方法的有效性和灵活性。
translated by 谷歌翻译
最近的研究表明,监督学习可以是为高维非线性动态系统设计最佳反馈控制器的有效工具。但是这些神经网络(NN)控制器的行为仍未得到很好的理解。在本文中,我们使用数值模拟来证明典型的测试精度度量没有有效地捕获NN控制器稳定系统的能力。特别是,具有高测试精度的一些NN不能稳定动态。为了解决这个问题,我们提出了两个NN架构,该架构在局部地近似线性二次调节器(LQR)。数值模拟确认了我们的直觉,即建议的架构可靠地产生稳定反馈控制器,而不会牺牲最佳状态。此外,我们介绍了描述这种NN控制系统的一些稳定性特性的初步理论结果。
translated by 谷歌翻译
用于未知非线性系统的学习和合成稳定控制器是现实世界和工业应用的具有挑战性问题。 Koopman操作员理论允许通过直线系统和非线性控制系统的镜头通过线性系统和非线性控制系统的镜头来分析非线性系统。这些方法的关键思想,在于将非线性系统的坐标转换为Koopman可观察,这是允许原始系统(控制系统)作为更高尺寸线性(双线性控制)系统的坐标。然而,对于非线性控制系统,通过应用基于Koopman操作员的学习方法获得的双线性控制模型不一定是稳定的,因此,不保证稳定反馈控制的存在,这对于许多真实世界的应用来说是至关重要的。同时识别基于这些可稳定的Koopman的双线性控制系统以及相关的Koopman可观察到仍然是一个开放的问题。在本文中,我们提出了一个框架,以通过同时学习为基于Koopman的底层未知的非线性控制系统以及基于Koopman的控制Lyapunov函数(CLF)来识别和构造这些可稳定的双线性模型及其相关的可观察能力。双线性模型使用学习者和伪空。我们提出的方法从而为非线性控制系统具有未知动态的非线性控制系统提供了可证明的全球渐近稳定性的保证。提供了数值模拟,以验证我们提出的稳定反馈控制器为未知的非线性系统的效力。
translated by 谷歌翻译
如今,数据可以丰富地访问,并且计算功能越来越强大,可以合理地处理大数据。这种了不起的场景为解决一些以前难以分析和解决的控制问题提供了一种新的方法。在本文中,提出了一种新型的控制方法,即具有模式(CWP)的控制方法,以处理与受离散控制约束集的非线性动力学系统相对应的数据集。对于此类数据集,提出了一个新的定义,即数据集中的指数吸引力,以描述正在考虑的非线性动力学系统。基于数据集和参数化的Lyapunov函数,数据集中的指数吸引力的问题转换为模式分类。此外,相应地提出了控制器设计,其中使用模式分类函数来确定应使用控制集中的哪个控制元素。给出了说明性示例以显示拟议的CWP的有效性。
translated by 谷歌翻译
最近的研究表明,监督学习可能是设计用于高维非线性动态系统的最佳反馈控制器的有效工具。但是神经网络控制器的行为仍然不太了解。特别是,一些具有高测试精度的神经网络甚至无法局部稳定动态系统。为了应对这一挑战,我们提出了几种新型的神经网络体系结构,我们显示出保证局部渐近稳定性,同时保留了学习最佳反馈政策半全球的近似能力。通过两个高维非线性最佳控制问题的数值模拟,将所提出的体系结构与标准的神经网络反馈控制器进行了比较:稳定不稳定的汉堡型部分偏差方程,以及无人驾驶汽车的高度和课程跟踪。模拟表明,即使经过良好的训练,标准的神经网络也可能无法稳定动力学,而所提出的体系结构始终至少在本地稳定。此外,发现拟议的控制器在测试中几乎是最佳的。
translated by 谷歌翻译
强化学习通常与奖励最大化(或成本量化)代理的培训相关,换句话说是控制者。它可以使用先验或在线收集的系统数据以无模型或基于模型的方式应用,以培训涉及的参数体系结构。通常,除非通过学习限制或量身定制的培训规则采取特殊措施,否则在线增强学习不能保证闭环稳定性。特别有希望的是通过“经典”控制方法进行增强学习的混合体。在这项工作中,我们建议一种在纯粹的在线学习环境中,即没有离线培训的情况下,可以保证系统控制器闭环的实际稳定性。此外,我们仅假设对系统模型的部分知识。为了达到要求的结果,我们采用经典自适应控制技术。总体控制方案的实施是在数字,采样设置中明确提供的。也就是说,控制器接收系统的状态,并在离散的时间(尤其是等距的时刻)中计算控制动作。该方法在自适应牵引力控制和巡航控制中进行了测试,事实证明,该方法可显着降低成本。
translated by 谷歌翻译
本文介绍了一类时变植物的自适应控制的新参数估计算法。该算法的主要特征是时变的学习速率的矩阵,其使得每当满足激励条件时,使参数估计误差轨迹能够朝向紧凑型朝向紧凑型呈现快速。该算法用于在存在未知参数的大类问题中,并且是时变的。结果表明,该算法保证了系统的状态和参数误差的全局界限,并避免了用于构造密钥回归信号的经常使用过滤方法。另外,在存在有限和持久的激励的情况下,提供了这些误差趋向于紧凑型朝向紧凑型趋向于紧凑型的时间间隔。与时变忘记因素相比,投影运算符用于确保学习率矩阵的界限。提供了数值模拟以补充理论分析。
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
这项工作开发了一种新的直接自适应控制框架,将确定性等效原理扩展到具有无与伦比的模型不确定性的一般非线性系统。该方法在线调整适应速率,以消除参数估计瞬变对闭环稳定性的影响。如果已知相应的模型参数化Lyapunov函数或收缩度量,则该方法可以立即结合先前设计或学习的反馈策略。具有无与伦比的不确定性的各种非线性系统的仿真结果证明了这种方法。
translated by 谷歌翻译
我们推导了非负神经网络的固定点的存在条件,这是一个重要的研究目标,了解了涉及自动化器和循环展开技术的现代应用中神经网络的行为。特别是,我们表明,具有非负输入和非负参数的神经网络可以在非线性珀罗尼乌斯理论的框架内被识别为单调和(弱)可扩展的功能。这一事实使我们能够推导出存在非空白神经网络的非空的固定点集的条件,并且这些条件比最近使用凸分析中的参数获得的条件较弱,这通常是基于激活函数的非扩张性的假设。此外,我们证明了单调和弱可伸缩的神经网络的固定点集的形状通常是一个间隔,其为可伸缩网络的情况的点退化。本文的首席结果在数值模拟中验证,我们考虑了一种自动型型网络,首先将角度功率谱压缩在大规模的MIMO系统中,并且第二,从压缩信号重建输入光谱。
translated by 谷歌翻译
我们提出了基于复发均衡网络的非线性动态控制器的参数化,这是复发性神经网络的概括。我们对控制器保证具有部分观察到的动态系统的指数稳定性的参数化受到限制。最后,我们提出了一种使用投影策略梯度方法合成该控制器的方法,以最大程度地利用任意结构来奖励功能。投影步骤涉及凸优化问题的解决方案。我们通过模拟控制非线性植物(包括用神经网络建模的植物)演示了提出的方法。
translated by 谷歌翻译
星际对象(ISO),与太阳相结合的无重力的天文对象,可能是原始材料的代表,在理解系外星系中无价。然而,由于其倾斜度通常很高和相对速度的限制性较差,因此,使用常规的人类在循环方法中探索ISO非常具有挑战性。本文介绍了神经汇聚 - 一个基于深度学习的指导和控制框架,用于遇到任何快速移动的对象,包括ISO,稳健,准确和实时自主。它在指导策略之上使用最小规范跟踪控制,该指南策略由频谱归一化的深神经网络建模,在该策略策略中,其超级参数通过新引入的损耗函数调节,直接惩罚了状态轨迹跟踪错误。我们严格地表明,即使在ISO探索的挑战性案例中,神经汇聚也提供了1)在预期的航天器递送误差上的高概率指数构成; 2)关于模型预测控制的解决方案的有限最优差距,这两者都是必不可少的,尤其是对于如此关键的空间任务。在数值模拟中,证明神经汇聚可以达到99%具有现实状态不确定性的ISO候选者的终末交付误差小于0.2 km,同时保留足以实现实时实施的计算效率。
translated by 谷歌翻译
本文研究了在线性季节控制设置中权力下放程度与分布式控制器的性能之间的权衡。我们在图形和分布式控制器上研究一个互连代理系统,称为$ \ kappa $分布式控件,该系统使代理可以根据距离$ \ kappa $在基础图上的状态信息做出控制决策。该控制器可以使用参数$ \ kappa $调整其权力下放化程度,从而允许表征权力下放和绩效之间的关系。我们表明,在温和的假设下,包括可稳定性,可检测性和次数增长的图形条件,$ \ kappa $分布式控制和集中式最佳控制之间的性能差异在$ \ kappa $中呈指数级较小。该结果表明,分布式控制可以通过中等程度的权力下放实现近乎最佳的性能,因此它是用于大规模网络系统的有效控制器体系结构。
translated by 谷歌翻译