这项工作开发了一种新的直接自适应控制框架,将确定性等效原理扩展到具有无与伦比的模型不确定性的一般非线性系统。该方法在线调整适应速率,以消除参数估计瞬变对闭环稳定性的影响。如果已知相应的模型参数化Lyapunov函数或收缩度量,则该方法可以立即结合先前设计或学习的反馈策略。具有无与伦比的不确定性的各种非线性系统的仿真结果证明了这种方法。
translated by 谷歌翻译
这项工作将通用自适应控制应用于控制屏障功能,以实现安全集的正向不变性,尽管动态模型中无与伦比的参数不确定性。该方法结合了两个想法。首先是构建一个控制屏障功能系列,以确保系统对所有可能的模型安全。第二个是使用在线参数适应从允许集中选择一个控制屏障功能和相应的安全控制器。尽管这种组合并不一定会在没有屏障功能的其他要求的情况下产生向前的不变性,但我们表明可以通过简单地在线调整适应性增益来建立这种不变性。结果,这项工作代表了第一种自适应安全方法,该方法在不牺牲安全保证的情况下成功采用了确定性对等原则。
translated by 谷歌翻译
本文介绍了一个控制 - 理论框架,稳定地结合了在线学习的最佳反馈策略,以控制不确定的非线性系统。给定有界范围内的未知参数,所产生的自适应控制法保证闭环系统的融合到零成本的状态。在通过在线调整学习率设计最佳政策和价值函数时,拟议的框架能够采用确定性的等价原则 - 一种保证稳定学习和控制所需的机制。尽管存在参数不确定度,但熟悉的山地车问题证明了这种方法,在那里显示出近乎最佳的行为。
translated by 谷歌翻译
本文提出了一种基于匹配不确定性的非线性系统的收缩指标和干扰估计的轨迹中心学习控制方法。该方法允许使用广泛的模型学习工具,包括深神经网络,以学习不确定的动态,同时仍然在整个学习阶段提供瞬态跟踪性能的保证,包括没有学习的特殊情况。在所提出的方法中,提出了一种扰动估计法,以估计不确定性的点值,具有预计估计误差限制(EEB)。学习的动态,估计的紊乱和EEB在强大的黎曼能量条件下并入,以计算控制法,即使学习模型较差,也能保证在整个学习阶段的所需轨迹对所需轨迹的指数趋同。另一方面,具有改进的精度,学习的模型可以在高级计划器中结合,以规划更好的性能,例如降低能耗和更短的旅行时间。建议的框架在平面Quadrotor导航示例上验证。
translated by 谷歌翻译
收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
强化学习通常与奖励最大化(或成本量化)代理的培训相关,换句话说是控制者。它可以使用先验或在线收集的系统数据以无模型或基于模型的方式应用,以培训涉及的参数体系结构。通常,除非通过学习限制或量身定制的培训规则采取特殊措施,否则在线增强学习不能保证闭环稳定性。特别有希望的是通过“经典”控制方法进行增强学习的混合体。在这项工作中,我们建议一种在纯粹的在线学习环境中,即没有离线培训的情况下,可以保证系统控制器闭环的实际稳定性。此外,我们仅假设对系统模型的部分知识。为了达到要求的结果,我们采用经典自适应控制技术。总体控制方案的实施是在数字,采样设置中明确提供的。也就是说,控制器接收系统的状态,并在离散的时间(尤其是等距的时刻)中计算控制动作。该方法在自适应牵引力控制和巡航控制中进行了测试,事实证明,该方法可显着降低成本。
translated by 谷歌翻译
非线性自适应控制理论中的一个关键假设是系统的不确定性可以在一组已知基本函数的线性跨度中表示。虽然该假设导致有效的算法,但它将应用限制为非常特定的系统类别。我们介绍一种新的非参数自适应算法,其在参数上学习无限尺寸密度,以取消再现内核希尔伯特空间中的未知干扰。令人惊讶的是,所产生的控制输入承认,尽管其底层无限尺寸结构,但是尽管它的潜在无限尺寸结构实现了其实施的分析表达。虽然这种自适应输入具有丰富和富有敏感性的 - 例如,传统的线性参数化 - 其计算复杂性随时间线性增长,使其比其参数对应力相对较高。利用随机傅里叶特征的理论,我们提供了一种有效的随机实现,该实现恢复了经典参数方法的复杂性,同时可透明地保留非参数输入的表征性。特别地,我们的显式范围仅取决于系统的基础参数,允许我们所提出的算法有效地缩放到高维系统。作为该方法的说明,我们展示了随机近似算法学习由牛顿重力交互的十点批量组成的60维系统的预测模型的能力。
translated by 谷歌翻译
响应于不同规格的产品的不断变化的原料供应和市场需求,需要在时变的操作条件和目标(例如,设定值)的过程中运行,以改善过程经济,与预定的传统过程操作相比均衡。本文开发了一种用于非线性化学过程的基于收缩理论的控制方法,以实现时变参考跟踪。这种方法利用神经网络的通用近似特征,采用离散时间收缩分析和控制。它涉及训练神经网络以学习嵌入基于收缩的控制器中的收缩度量和差分反馈增益。第二个,单独的神经网络也结合到控制循环中,以在线学习不确定系统模型参数。得到的控制方案能够实现有效的偏移跟踪时变的参考,其具有全范围的模型不确定性,而无需控制器结构作为参考变化重新设计。这是一种强大的方法,可以在工艺模型中处理流程模型中的有界参数不确定性,这些方法通常遇到工业(化学)过程中。这种方法还确保在线同时学习和控制期间的过程稳定性。提供模拟实施例以说明上述方法。
translated by 谷歌翻译
本文开发了一种基于模型的强化学习(MBR)框架,用于在线在线学习无限范围最佳控制问题的价值函数,同时遵循表示为控制屏障功能(CBFS)的安全约束。我们的方法是通过开发一种新型的CBFS,称为Lyapunov样CBF(LCBF),其保留CBFS的有益特性,以开发最微创的安全控制政策,同时也具有阳性半自动等所需的Lyapunov样品质 - 义法。我们展示这些LCBFS如何用于增强基于学习的控制策略,以保证安全性,然后利用这种方法在MBRL设置中开发安全探索框架。我们表明,我们的开发方法可以通过各种数值示例来处理比较法的更通用的安全限制。
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
对于不确定的多个输入多输出(MIMO)非线性系统,实现渐近跟踪是不平凡的,并且大多数现有方法通常需要某些可控性条件,如果涉及意外的执行器故障,这些条件是相当限制性的,甚至是不切实际的。在本说明中,我们提出了一种能够实现具有较不保守(更实用)可控性条件的零误差稳态跟踪的方法。通过将新颖的Nussbaum增益技术和一些积极的集成函数纳入控制设计,我们为系统开发了强大的自适应渐近跟踪控制方案,随着时变的控制增益未知其幅度和方向。通过诉诸某些可行的辅助矩阵的存在,进一步放松了当前的最新可控性条件,从而扩大了可以在拟议的控制方案中考虑的系统类别。所有闭环信号均被确保在全球范围内最终均匀界定。此外,这种控制方法进一步扩展到涉及间歇性执行器断层以及适用于机器人系统的情况。最后,进行了模拟研究以证明该方法的有效性和灵活性。
translated by 谷歌翻译
本文介绍了一类时变植物的自适应控制的新参数估计算法。该算法的主要特征是时变的学习速率的矩阵,其使得每当满足激励条件时,使参数估计误差轨迹能够朝向紧凑型朝向紧凑型呈现快速。该算法用于在存在未知参数的大类问题中,并且是时变的。结果表明,该算法保证了系统的状态和参数误差的全局界限,并避免了用于构造密钥回归信号的经常使用过滤方法。另外,在存在有限和持久的激励的情况下,提供了这些误差趋向于紧凑型朝向紧凑型趋向于紧凑型的时间间隔。与时变忘记因素相比,投影运算符用于确保学习率矩阵的界限。提供了数值模拟以补充理论分析。
translated by 谷歌翻译
在本文中,我们提出了一个新型的非线性观察者,称为神经观察者,以通过将神经网络(NN)引入观察者的设计,以实现线性时间传播(LTI)系统的观察任务和不确定的非线性系统。通过探索NN代表向NN映射矢量的方法,我们从LTI和不确定的非线性系统中得出了稳定性分析(例如,指数收敛速率),这些系统仅使用线性矩阵不平等(LMIS)为解决观察问题铺平了道路。值得注意的是,为不确定系统设计的神经观察者基于主动扰动拒绝控制(ADRC)的意识形态,该思想可以实时测量不确定性。 LMI结果也很重要,因为我们揭示了LMI溶液存在系统矩阵的可观察性和可控性。最后,我们在三个模拟案例上验证神经观察者的可用性,包括X-29A飞机模型,非线性摆和四轮转向车辆。
translated by 谷歌翻译
用于未知非线性系统的学习和合成稳定控制器是现实世界和工业应用的具有挑战性问题。 Koopman操作员理论允许通过直线系统和非线性控制系统的镜头通过线性系统和非线性控制系统的镜头来分析非线性系统。这些方法的关键思想,在于将非线性系统的坐标转换为Koopman可观察,这是允许原始系统(控制系统)作为更高尺寸线性(双线性控制)系统的坐标。然而,对于非线性控制系统,通过应用基于Koopman操作员的学习方法获得的双线性控制模型不一定是稳定的,因此,不保证稳定反馈控制的存在,这对于许多真实世界的应用来说是至关重要的。同时识别基于这些可稳定的Koopman的双线性控制系统以及相关的Koopman可观察到仍然是一个开放的问题。在本文中,我们提出了一个框架,以通过同时学习为基于Koopman的底层未知的非线性控制系统以及基于Koopman的控制Lyapunov函数(CLF)来识别和构造这些可稳定的双线性模型及其相关的可观察能力。双线性模型使用学习者和伪空。我们提出的方法从而为非线性控制系统具有未知动态的非线性控制系统提供了可证明的全球渐近稳定性的保证。提供了数值模拟,以验证我们提出的稳定反馈控制器为未知的非线性系统的效力。
translated by 谷歌翻译
我们呈现$ \ mathcal {cl} _1 $ - $ \ mathcal {gp} $,控制框架,使能安全同时学习和控制能够进行不确定因素的系统。这两个主要成分是基于收缩理论的$ \ mathcal {l} _1 $($ \ mathcal {cl} _1 $)控制和贝叶斯学习以高斯过程(GP)回归。$ \ mathcal {cl} _1 $控制器可确保在提供安全证书时满足控制目标。此外,$ \ mathcal {cl} _1 $ - $ \ mathcal {gp} $将任何可用数据纳入了GP的不确定因素模型,这提高了性能并使运动计划能够安全地实现最佳状态。这样,即使在学习瞬变期间,也可以保证系统的安全操作。我们提供了一些用于在各种环境中安全学习和控制平面的平面电路系统的说明性示例。
translated by 谷歌翻译
通过连续静态状态反馈诱导的任务是在本文中考虑了非线性控制系统中的渐近稳定的杂核轨道。主要动机来自确保在欠抖动的机械系统中对所谓的点对点机动的收敛的问题。即,在其状态控制空间中平滑曲线,这与系统动态一致,并连接两个(线性)稳定的平衡点。该方法使用特定的参数化,以及在机动上的状态投影,以便为此目的结合两个线性化技术:沿轨道的边界的均衡和横向线性化的雅蟒线性化。这允许通过求解半纤维编程问题来计算稳定控制增益。由此产生的非线性控制器同时渐近轨道稳定轨道和最终平衡,是局部LipsChitz连续的时间不变,不需要切换,并且具有熟悉的馈送加上反馈状结构。该方法还通过基于同步函数的参数来互补,用于规划具有一定程度的疏松的机械系统的机械系统。 “蝴蝶”机器人在两点之间的球滚动的非预先生操纵任务的数值模拟证明了合成的功效。
translated by 谷歌翻译
We propose a learning-based robust predictive control algorithm that compensates for significant uncertainty in the dynamics for a class of discrete-time systems that are nominally linear with an additive nonlinear component. Such systems commonly model the nonlinear effects of an unknown environment on a nominal system. We optimize over a class of nonlinear feedback policies inspired by certainty equivalent "estimate-and-cancel" control laws pioneered in classical adaptive control to achieve significant performance improvements in the presence of uncertainties of large magnitude, a setting in which existing learning-based predictive control algorithms often struggle to guarantee safety. In contrast to previous work in robust adaptive MPC, our approach allows us to take advantage of structure (i.e., the numerical predictions) in the a priori unknown dynamics learned online through function approximation. Our approach also extends typical nonlinear adaptive control methods to systems with state and input constraints even when we cannot directly cancel the additive uncertain function from the dynamics. We apply contemporary statistical estimation techniques to certify the system's safety through persistent constraint satisfaction with high probability. Moreover, we propose using Bayesian meta-learning algorithms that learn calibrated model priors to help satisfy the assumptions of the control design in challenging settings. Finally, we show in simulation that our method can accommodate more significant unknown dynamics terms than existing methods and that the use of Bayesian meta-learning allows us to adapt to the test environments more rapidly.
translated by 谷歌翻译
在安全关键系统的背景下将模拟缩小到现实差距的动机,我们考虑学习用于未知非线性动力系统的前列鲁棒稳定性证书。符合鲁棒控制的方法,我们考虑添加系统动态的添加剂和Lipschitz有界对手。我们表明,在基础系统上的增量稳定性的合适假设下,学习对抗稳定证明的统计成本相当于持续因素,以学习名义稳定证明。我们的结果铰接在新的导火颤机复杂性的新型界限,这可能是独立的兴趣。据我们所知,这是在对动态系统生成的数据进行对抗性学习时,对样本复杂性限制的第一次表征。我们还提供一种用于近似对抗训练算法的实用算法,并在阻尼摆锤示例上验证我们的发现。
translated by 谷歌翻译
Accurate path following is challenging for autonomous robots operating in uncertain environments. Adaptive and predictive control strategies are crucial for a nonlinear robotic system to achieve high-performance path following control. In this paper, we propose a novel learning-based predictive control scheme that couples a high-level model predictive path following controller (MPFC) with a low-level learning-based feedback linearization controller (LB-FBLC) for nonlinear systems under uncertain disturbances. The low-level LB-FBLC utilizes Gaussian Processes to learn the uncertain environmental disturbances online and tracks the reference state accurately with a probabilistic stability guarantee. Meanwhile, the high-level MPFC exploits the linearized system model augmented with a virtual linear path dynamics model to optimize the evolution of path reference targets, and provides the reference states and controls for the low-level LB-FBLC. Simulation results illustrate the effectiveness of the proposed control strategy on a quadrotor path following task under unknown wind disturbances.
translated by 谷歌翻译
最近的四型车辆超越了常规设计,更加强调可折叠和可重构的身体。但是,最新的状态仍然着重于此类设计的机械可行性,在配置切换过程中有关车辆的跟踪性能的讨论有限。在本文中,我们提出了一个完整的控制和计划框架,用于在配置切换过程中进行态度跟踪并遏制任何基于开关的干扰,这可能导致违反安全限制并导致崩溃。控制框架包括一个具有估计器的形态感知自适应控制器,以说明参数变化和最小值轨迹计划器,以在切换时实现稳定的飞行。态度跟踪的稳定性分析是通过采用开关系统理论和仿真结果来验证了拟议的框架,该框架是通过通道通过通道的可折叠四极管飞行的框架。
translated by 谷歌翻译