强化学习通常与奖励最大化(或成本量化)代理的培训相关,换句话说是控制者。它可以使用先验或在线收集的系统数据以无模型或基于模型的方式应用,以培训涉及的参数体系结构。通常,除非通过学习限制或量身定制的培训规则采取特殊措施,否则在线增强学习不能保证闭环稳定性。特别有希望的是通过“经典”控制方法进行增强学习的混合体。在这项工作中,我们建议一种在纯粹的在线学习环境中,即没有离线培训的情况下,可以保证系统控制器闭环的实际稳定性。此外,我们仅假设对系统模型的部分知识。为了达到要求的结果,我们采用经典自适应控制技术。总体控制方案的实施是在数字,采样设置中明确提供的。也就是说,控制器接收系统的状态,并在离散的时间(尤其是等距的时刻)中计算控制动作。该方法在自适应牵引力控制和巡航控制中进行了测试,事实证明,该方法可显着降低成本。
translated by 谷歌翻译
强化学习仍然是控制工程和机器学习当代发展的主要方向之一。精美的直觉,灵活的设置,易于应用是此方法的许多好处。从机器学习的角度来看,强化学习代理人的主要优势在于它``捕获''(学习)在给定环境中的最佳行为。通常,代理人是基于神经网络的,正是其近似能力才能使其近似能力引起上述信念。但是,从控制工程的角度来看,强化学习具有严重的缺陷。最重要的是缺乏稳定性的保证,对环境环境的封闭环路封闭循环。旨在稳定增强学习。说到稳定,著名的莱普诺夫理论是事实上的工具。因此,毫无疑问,稳定强化学习的许多技术以一种或另一种方式依赖莱普诺夫理论。在控制理论中,有一个稳定控制器和Lyapunov功能之间的复杂联系。因此,采用这种同对似乎对设计稳定增强l非常有吸引力赚取。但是,Lyapunov函数的计算通常是一个繁琐的过程。在本说明中,我们展示了如何构建根本不采用这种功能的稳定增强学习剂。我们只假设存在Lyapunov功能,如果给定系统(读取:环境)可以稳定,这是自然而然的事情,但是我们不需要计算一个。
translated by 谷歌翻译
本文开发了一种基于模型的强化学习(MBR)框架,用于在线在线学习无限范围最佳控制问题的价值函数,同时遵循表示为控制屏障功能(CBFS)的安全约束。我们的方法是通过开发一种新型的CBFS,称为Lyapunov样CBF(LCBF),其保留CBFS的有益特性,以开发最微创的安全控制政策,同时也具有阳性半自动等所需的Lyapunov样品质 - 义法。我们展示这些LCBFS如何用于增强基于学习的控制策略,以保证安全性,然后利用这种方法在MBRL设置中开发安全探索框架。我们表明,我们的开发方法可以通过各种数值示例来处理比较法的更通用的安全限制。
translated by 谷歌翻译
在最近的文献中,学习方法与模型预测控制(MPC)的结合吸引了大量关注。这种组合的希望是减少MPC方案对准确模型的依赖,并利用快速开发的机器学习和强化学习工具,以利用许多系统可用的数据量。特别是,增强学习和MPC的结合已被认为是一种可行且理论上合理的方法,以引入可解释的,安全和稳定的政策,以实现强化学习。但是,一种正式的理论详细介绍了如何通过学习工具提供的参数更新来维持基于MPC的策略的安全性和稳定性。本文解决了这一差距。该理论是针对通用的强大MPC案例开发的,并在基于强大的管线MPC情况的模拟中应用,在该情况下,该理论在实践中很容易部署。本文着重于增强学习作为学习工具,但它适用于任何在线更新MPC参数的学习方法。
translated by 谷歌翻译
稳定性认证并确定安全稳定的初始集是确保动态系统的操作安全性,稳定性和鲁棒性的两个重要问题。随着机器学习工具的出现,需要针对反馈循环中具有机器学习组件的系统来解决这些问题。为了开发一种关于神经网络(NN)控制的非线性系统的稳定性和稳定性的一般理论,提出了基于Lyapunov的稳定性证书,并进一步用于设计用于NN Controller和NN控制器和最大LIPSCHITZ绑定的。也是给定的安全操作域内内部相应的最大诱因(ROA)。为了计算这种强大的稳定NN控制器,它也最大化了系统的长期实用程序,提出了稳定性保证训练(SGT)算法。提出的框架的有效性通过说明性示例得到了验证。
translated by 谷歌翻译
收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
这项工作开发了一种新的直接自适应控制框架,将确定性等效原理扩展到具有无与伦比的模型不确定性的一般非线性系统。该方法在线调整适应速率,以消除参数估计瞬变对闭环稳定性的影响。如果已知相应的模型参数化Lyapunov函数或收缩度量,则该方法可以立即结合先前设计或学习的反馈策略。具有无与伦比的不确定性的各种非线性系统的仿真结果证明了这种方法。
translated by 谷歌翻译
响应于不同规格的产品的不断变化的原料供应和市场需求,需要在时变的操作条件和目标(例如,设定值)的过程中运行,以改善过程经济,与预定的传统过程操作相比均衡。本文开发了一种用于非线性化学过程的基于收缩理论的控制方法,以实现时变参考跟踪。这种方法利用神经网络的通用近似特征,采用离散时间收缩分析和控制。它涉及训练神经网络以学习嵌入基于收缩的控制器中的收缩度量和差分反馈增益。第二个,单独的神经网络也结合到控制循环中,以在线学习不确定系统模型参数。得到的控制方案能够实现有效的偏移跟踪时变的参考,其具有全范围的模型不确定性,而无需控制器结构作为参考变化重新设计。这是一种强大的方法,可以在工艺模型中处理流程模型中的有界参数不确定性,这些方法通常遇到工业(化学)过程中。这种方法还确保在线同时学习和控制期间的过程稳定性。提供模拟实施例以说明上述方法。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
在安全关键系统的背景下将模拟缩小到现实差距的动机,我们考虑学习用于未知非线性动力系统的前列鲁棒稳定性证书。符合鲁棒控制的方法,我们考虑添加系统动态的添加剂和Lipschitz有界对手。我们表明,在基础系统上的增量稳定性的合适假设下,学习对抗稳定证明的统计成本相当于持续因素,以学习名义稳定证明。我们的结果铰接在新的导火颤机复杂性的新型界限,这可能是独立的兴趣。据我们所知,这是在对动态系统生成的数据进行对抗性学习时,对样本复杂性限制的第一次表征。我们还提供一种用于近似对抗训练算法的实用算法,并在阻尼摆锤示例上验证我们的发现。
translated by 谷歌翻译
控制Lyapunov功能是稳定的中心工具。它将抽象的能量函数(lyapunov函数)概括为受控系统的情况。众所周知的事实是,大多数控制的Lyapunov函数都是非平滑的 - 在非全面系统中,例如轮式机器人和汽车也是如此。存在使用非平滑控制Lyapunov功能的稳定框架,例如DINI瞄准和最陡峭的下降。这项工作将相关结果推广到随机情况。作为基础工作,选择了采样控制方案,其中使用系统状态的离散测量在离散时刻计算控制动作。在这样的设置中,应特别注意控制Lyapunov功能的样本对样本行为。这里的一个特殊挑战是在系统上作用的随机噪声。这项工作的核心结果是一个定理,该定理大致指出,如果通常有一个不平滑的控制lyapunov函数,则可以在样本和持续模式下实际稳定给定的随机动力学系统,这意味着控制在抽样时间步骤中保持动作不变。选择的一种特定的控制方法是基于莫罗 - 耶西达的正则化,换句话说是对照lyapunov函数的Inf-consonvolution,但总体框架可扩展到进一步的控制方案。假定,尽管短暂地解决了无限噪声的情况,但几乎肯定会肯定会界定系统噪声。
translated by 谷歌翻译
We propose a learning-based robust predictive control algorithm that compensates for significant uncertainty in the dynamics for a class of discrete-time systems that are nominally linear with an additive nonlinear component. Such systems commonly model the nonlinear effects of an unknown environment on a nominal system. We optimize over a class of nonlinear feedback policies inspired by certainty equivalent "estimate-and-cancel" control laws pioneered in classical adaptive control to achieve significant performance improvements in the presence of uncertainties of large magnitude, a setting in which existing learning-based predictive control algorithms often struggle to guarantee safety. In contrast to previous work in robust adaptive MPC, our approach allows us to take advantage of structure (i.e., the numerical predictions) in the a priori unknown dynamics learned online through function approximation. Our approach also extends typical nonlinear adaptive control methods to systems with state and input constraints even when we cannot directly cancel the additive uncertain function from the dynamics. We apply contemporary statistical estimation techniques to certify the system's safety through persistent constraint satisfaction with high probability. Moreover, we propose using Bayesian meta-learning algorithms that learn calibrated model priors to help satisfy the assumptions of the control design in challenging settings. Finally, we show in simulation that our method can accommodate more significant unknown dynamics terms than existing methods and that the use of Bayesian meta-learning allows us to adapt to the test environments more rapidly.
translated by 谷歌翻译
这是对纸张“渐近稳定的适应性最优控制算法的简短评论,VAMVoudakis等人的”具有饱和致动器的渐近稳定的自适应 - 最优控制算法“。强化学习(RL)代理人的稳定性问题仍然很难,并且上述工作建议使用来自自适应控制的技术的合适稳定性属性 - 一个旨在添加到行动的强制性术语。但是,这种方法存在稳定RL的方法,我们将在本说明中解释。此外,Vamvoudakis等人。在通用政策下似乎在汉密尔顿时期已经造成了荒谬的假设。为了提供积极的结果,我们不仅会表明这个错误,而且表明了评论在随机连续环境下的批评神经网络权重聚,为行为政策持有提供了某些条件。
translated by 谷歌翻译
Safety critical systems involve the tight coupling between potentially conflicting control objectives and safety constraints. As a means of creating a formal framework for controlling systems of this form, and with a view toward automotive applications, this paper develops a methodology that allows safety conditions-expressed as control barrier functionsto be unified with performance objectives-expressed as control Lyapunov functions-in the context of real-time optimizationbased controllers. Safety conditions are specified in terms of forward invariance of a set, and are verified via two novel generalizations of barrier functions; in each case, the existence of a barrier function satisfying Lyapunov-like conditions implies forward invariance of the set, and the relationship between these two classes of barrier functions is characterized. In addition, each of these formulations yields a notion of control barrier function (CBF), providing inequality constraints in the control input that, when satisfied, again imply forward invariance of the set. Through these constructions, CBFs can naturally be unified with control Lyapunov functions (CLFs) in the context of a quadratic program (QP); this allows for the achievement of control objectives (represented by CLFs) subject to conditions on the admissible states of the system (represented by CBFs). The mediation of safety and performance through a QP is demonstrated on adaptive cruise control and lane keeping, two automotive control problems that present both safety and performance considerations coupled with actuator bounds.
translated by 谷歌翻译
本文考虑了线性二次双控制问题,其中需要识别系统参数,并且需要在该时期优化控制目标。与现有的数据驱动线性二次调节相反,这通常在某种概率内提供错误或后悔界限,我们提出了一种在线算法,可以在几乎肯定的意义上保证控制器的渐近最优性。我们的双重控制策略由两部分组成:基于勘探噪声和系统输出之间的互相关,具有时间衰减探索噪声和Markov参数推断的交换控制器。当实际状态显着地从目标状态偏离时,几乎肯定的性能保证是一个安全的交换控制策略,其返回到已知的保守但稳定的控制器。我们证明,此切换策略规定了从应用中的任何潜在的稳定控制器,而我们的交换策略与最佳线性状态反馈之间的性能差距是指数较小的。在我们的双控制方案下,参数推理误差尺度为$ O(t ^ {-1 / 4 + \ epsilon})$,而控制性能的子优相差距为$ o(t ^ { - 1/2 + \ epsilon})$,$ t $是时间步数,$ \ epsilon $是一个任意小的正数。提供了工业过程示例的仿真结果,以说明我们提出的策略的有效性。
translated by 谷歌翻译
用于未知非线性系统的学习和合成稳定控制器是现实世界和工业应用的具有挑战性问题。 Koopman操作员理论允许通过直线系统和非线性控制系统的镜头通过线性系统和非线性控制系统的镜头来分析非线性系统。这些方法的关键思想,在于将非线性系统的坐标转换为Koopman可观察,这是允许原始系统(控制系统)作为更高尺寸线性(双线性控制)系统的坐标。然而,对于非线性控制系统,通过应用基于Koopman操作员的学习方法获得的双线性控制模型不一定是稳定的,因此,不保证稳定反馈控制的存在,这对于许多真实世界的应用来说是至关重要的。同时识别基于这些可稳定的Koopman的双线性控制系统以及相关的Koopman可观察到仍然是一个开放的问题。在本文中,我们提出了一个框架,以通过同时学习为基于Koopman的底层未知的非线性控制系统以及基于Koopman的控制Lyapunov函数(CLF)来识别和构造这些可稳定的双线性模型及其相关的可观察能力。双线性模型使用学习者和伪空。我们提出的方法从而为非线性控制系统具有未知动态的非线性控制系统提供了可证明的全球渐近稳定性的保证。提供了数值模拟,以验证我们提出的稳定反馈控制器为未知的非线性系统的效力。
translated by 谷歌翻译
控制屏障功能(CBF)已被证明是非线性系统安全至关重要控制器设计的强大工具。现有的设计范式不能解决理论(具有连续时间模型的控制器设计)和实践(所得控制器的离散时间采样实现)之间的差距;这可能导致性能不佳,并且违反了硬件实例化的安全性。我们提出了一种方法,通过将采样DATA对应物合成与这些基于CBF的控制器的方法,使用近似离散的时间模型和采样DATA控制屏障函数(SD-CBFS)。使用系统连续时间模型的属性,我们建立了SD-CBF与采样数据系统的实际安全概念之间的关系。此外,我们构建了基于凸优化的控制器,该控制器正式将非线性系统赋予实践中的安全保证。我们证明了这些控制器在模拟中的功效。
translated by 谷歌翻译
非线性自适应控制理论中的一个关键假设是系统的不确定性可以在一组已知基本函数的线性跨度中表示。虽然该假设导致有效的算法,但它将应用限制为非常特定的系统类别。我们介绍一种新的非参数自适应算法,其在参数上学习无限尺寸密度,以取消再现内核希尔伯特空间中的未知干扰。令人惊讶的是,所产生的控制输入承认,尽管其底层无限尺寸结构,但是尽管它的潜在无限尺寸结构实现了其实施的分析表达。虽然这种自适应输入具有丰富和富有敏感性的 - 例如,传统的线性参数化 - 其计算复杂性随时间线性增长,使其比其参数对应力相对较高。利用随机傅里叶特征的理论,我们提供了一种有效的随机实现,该实现恢复了经典参数方法的复杂性,同时可透明地保留非参数输入的表征性。特别地,我们的显式范围仅取决于系统的基础参数,允许我们所提出的算法有效地缩放到高维系统。作为该方法的说明,我们展示了随机近似算法学习由牛顿重力交互的十点批量组成的60维系统的预测模型的能力。
translated by 谷歌翻译
安全限制和最优性很重要,但有时控制器有时相互冲突的标准。虽然这些标准通常与不同的工具单独解决以维持正式保障,但在惩罚失败时,加强学习的常见做法是惩罚,以惩罚为单纯的启发式。我们严格地检查了安全性和最优性与惩罚的关系,并对安全价值函数进行了足够的条件:对给定任务的最佳价值函数,并强制执行安全约束。我们通过强大的二元性证明,揭示这种关系的结构,表明始终存在一个有限的惩罚,引起安全值功能。这种惩罚并不是独特的,但大不束缚:更大的惩罚不会伤害最优性。虽然通常无法计算最低所需的惩罚,但我们揭示了清晰的惩罚,奖励,折扣因素和动态互动的结构。这种洞察力建议实用,理论引导的启发式设计奖励功能,用于控制安全性很重要的控制问题。
translated by 谷歌翻译