本文开发了一种基于模型的强化学习(MBR)框架,用于在线在线学习无限范围最佳控制问题的价值函数,同时遵循表示为控制屏障功能(CBFS)的安全约束。我们的方法是通过开发一种新型的CBFS,称为Lyapunov样CBF(LCBF),其保留CBFS的有益特性,以开发最微创的安全控制政策,同时也具有阳性半自动等所需的Lyapunov样品质 - 义法。我们展示这些LCBFS如何用于增强基于学习的控制策略,以保证安全性,然后利用这种方法在MBRL设置中开发安全探索框架。我们表明,我们的开发方法可以通过各种数值示例来处理比较法的更通用的安全限制。
translated by 谷歌翻译
Safety critical systems involve the tight coupling between potentially conflicting control objectives and safety constraints. As a means of creating a formal framework for controlling systems of this form, and with a view toward automotive applications, this paper develops a methodology that allows safety conditions-expressed as control barrier functionsto be unified with performance objectives-expressed as control Lyapunov functions-in the context of real-time optimizationbased controllers. Safety conditions are specified in terms of forward invariance of a set, and are verified via two novel generalizations of barrier functions; in each case, the existence of a barrier function satisfying Lyapunov-like conditions implies forward invariance of the set, and the relationship between these two classes of barrier functions is characterized. In addition, each of these formulations yields a notion of control barrier function (CBF), providing inequality constraints in the control input that, when satisfied, again imply forward invariance of the set. Through these constructions, CBFs can naturally be unified with control Lyapunov functions (CLFs) in the context of a quadratic program (QP); this allows for the achievement of control objectives (represented by CLFs) subject to conditions on the admissible states of the system (represented by CBFs). The mediation of safety and performance through a QP is demonstrated on adaptive cruise control and lane keeping, two automotive control problems that present both safety and performance considerations coupled with actuator bounds.
translated by 谷歌翻译
强化学习通常与奖励最大化(或成本量化)代理的培训相关,换句话说是控制者。它可以使用先验或在线收集的系统数据以无模型或基于模型的方式应用,以培训涉及的参数体系结构。通常,除非通过学习限制或量身定制的培训规则采取特殊措施,否则在线增强学习不能保证闭环稳定性。特别有希望的是通过“经典”控制方法进行增强学习的混合体。在这项工作中,我们建议一种在纯粹的在线学习环境中,即没有离线培训的情况下,可以保证系统控制器闭环的实际稳定性。此外,我们仅假设对系统模型的部分知识。为了达到要求的结果,我们采用经典自适应控制技术。总体控制方案的实施是在数字,采样设置中明确提供的。也就是说,控制器接收系统的状态,并在离散的时间(尤其是等距的时刻)中计算控制动作。该方法在自适应牵引力控制和巡航控制中进行了测试,事实证明,该方法可显着降低成本。
translated by 谷歌翻译
This paper provides an introduction and overview of recent work on control barrier functions and their use to verify and enforce safety properties in the context of (optimization based) safety-critical controllers. We survey the main technical results and discuss applications to several domains including robotic systems.
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
这项工作为时间延迟系统的安全关键控制提供了一个理论框架。控制屏障功能的理论可为无延迟系统提供正式安全保证,扩展到具有状态延迟的系统。引入了控制屏障功能的概念,以实现正式的安全保证,该概念通过在无限尺寸状态空间中定义的安全集的向前不变性。所提出的框架能够在动态和安全状态下处理多个延迟和分布式延迟,并对可证明安全性的控制输入提供了仿射约束。该约束可以纳入优化问题,以合成最佳和可证明的安全控制器。该方法的适用性通过数值仿真示例证明。
translated by 谷歌翻译
收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
基于控制屏障功能(CBF)的安全过滤器已成为自治系统安全至关重要控制的实用工具。这些方法通过价值函数编码安全性,并通过对该值函数的时间导数施加限制来执行安全。但是,在存在输入限制的情况下合成并非过于保守的有效CBF是一个臭名昭著的挑战。在这项工作中,我们建议使用正式验证方法提炼候选CBF,以获得有效的CBF。特别是,我们使用基于动态编程(DP)的可及性分析更新专家合成或备份CBF。我们的框架RefineCBF保证,在每次DP迭代中,获得的CBF至少与先前的迭代一样安全,并收集到有效的CBF。因此,RefineCBF可用于机器人系统。我们证明了我们在模拟中使用各种CBF合成技术来增强安全性和/或降低一系列非线性控制型系统系统的保守性的实用性。
translated by 谷歌翻译
稳定性认证并确定安全稳定的初始集是确保动态系统的操作安全性,稳定性和鲁棒性的两个重要问题。随着机器学习工具的出现,需要针对反馈循环中具有机器学习组件的系统来解决这些问题。为了开发一种关于神经网络(NN)控制的非线性系统的稳定性和稳定性的一般理论,提出了基于Lyapunov的稳定性证书,并进一步用于设计用于NN Controller和NN控制器和最大LIPSCHITZ绑定的。也是给定的安全操作域内内部相应的最大诱因(ROA)。为了计算这种强大的稳定NN控制器,它也最大化了系统的长期实用程序,提出了稳定性保证训练(SGT)算法。提出的框架的有效性通过说明性示例得到了验证。
translated by 谷歌翻译
本文涉及专业示范的学习安全控制法。我们假设系统动态和输出测量图的适当模型以及相应的错误界限。我们首先提出强大的输出控制屏障功能(ROCBF)作为保证安全的手段,通过控制安全集的前向不变性定义。然后,我们提出了一个优化问题,以从展示安全系统行为的专家演示中学习RocBF,例如,从人类运营商收集的数据。随着优化问题,我们提供可验证条件,可确保获得的Rocbf的有效性。这些条件在数据的密度和学习函数的LipsChitz和Lipshitz和界限常数上说明,以及系统动态和输出测量图的模型。当ROCBF的参数化是线性的,然后,在温和的假设下,优化问题是凸的。我们在自动驾驶模拟器卡拉验证了我们的调查结果,并展示了如何从RGB相机图像中学习安全控制法。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
在最近的文献中,学习方法与模型预测控制(MPC)的结合吸引了大量关注。这种组合的希望是减少MPC方案对准确模型的依赖,并利用快速开发的机器学习和强化学习工具,以利用许多系统可用的数据量。特别是,增强学习和MPC的结合已被认为是一种可行且理论上合理的方法,以引入可解释的,安全和稳定的政策,以实现强化学习。但是,一种正式的理论详细介绍了如何通过学习工具提供的参数更新来维持基于MPC的策略的安全性和稳定性。本文解决了这一差距。该理论是针对通用的强大MPC案例开发的,并在基于强大的管线MPC情况的模拟中应用,在该情况下,该理论在实践中很容易部署。本文着重于增强学习作为学习工具,但它适用于任何在线更新MPC参数的学习方法。
translated by 谷歌翻译
安全限制和最优性很重要,但有时控制器有时相互冲突的标准。虽然这些标准通常与不同的工具单独解决以维持正式保障,但在惩罚失败时,加强学习的常见做法是惩罚,以惩罚为单纯的启发式。我们严格地检查了安全性和最优性与惩罚的关系,并对安全价值函数进行了足够的条件:对给定任务的最佳价值函数,并强制执行安全约束。我们通过强大的二元性证明,揭示这种关系的结构,表明始终存在一个有限的惩罚,引起安全值功能。这种惩罚并不是独特的,但大不束缚:更大的惩罚不会伤害最优性。虽然通常无法计算最低所需的惩罚,但我们揭示了清晰的惩罚,奖励,折扣因素和动态互动的结构。这种洞察力建议实用,理论引导的启发式设计奖励功能,用于控制安全性很重要的控制问题。
translated by 谷歌翻译
平衡安全性和性能是现代控制系统设计中的主要挑战之一。此外,至关重要的是,在不诱导不必要的保守性降低绩效的情况下,确保安全至关重要。在这项工作中,我们提出了一种通过控制屏障功能(CBF)来进行安全关键控制合成的建设性方法。通过通过CBF过滤手工设计的控制器,我们能够达到性能行为,同时提供严格的安全保证。面对干扰,通过投入到国家安全的概念(ISSF)同时实现了稳健的安全性和性能。我们通过与倒置的示例同时开发CBF设计方法来采用教程方法,从而使设计过程混凝土中的挑战和敏感性。为了确定拟议方法的能力,我们考虑通过CBFS以无需拖车的8级卡车的形式来考虑通过CBF的CBF进行安全至关重要的设计。通过实验,我们看到了卡车驱动系统中未建模的干扰对CBF提供的安全保证的影响。我们表征了这些干扰并使用ISSF,生产出可靠的控制器,该控制器可以在不承认性能的情况下实现安全性。我们在模拟中评估了我们的设计,并且是在实验中首次在汽车系统上评估我们的设计。
translated by 谷歌翻译
这项工作将通用自适应控制应用于控制屏障功能,以实现安全集的正向不变性,尽管动态模型中无与伦比的参数不确定性。该方法结合了两个想法。首先是构建一个控制屏障功能系列,以确保系统对所有可能的模型安全。第二个是使用在线参数适应从允许集中选择一个控制屏障功能和相应的安全控制器。尽管这种组合并不一定会在没有屏障功能的其他要求的情况下产生向前的不变性,但我们表明可以通过简单地在线调整适应性增益来建立这种不变性。结果,这项工作代表了第一种自适应安全方法,该方法在不牺牲安全保证的情况下成功采用了确定性对等原则。
translated by 谷歌翻译
我们开发了一种新型的可区分预测控制(DPC),并根据控制屏障功能确保安全性和鲁棒性保证。DPC是一种基于学习的方法,用于获得近似解决方案,以解决明确的模型预测控制(MPC)问题。在DPC中,通过自动分化MPC问题获得的直接策略梯度,通过直接策略梯度进行了脱机优化的预测控制策略。所提出的方法利用了一种新形式的采样数据屏障功能,以在DPC设置中执行离线和在线安全要求,同时仅中断安全集合边界附近的基于神经网络的控制器。在模拟中证明了拟议方法的有效性。
translated by 谷歌翻译
具有安全行为的赋予非线性系统在现代控制中越来越重要。对于必须在动态变化的环境中安全运行的现实生活控制系统,此任务尤其具有挑战性。本文通过建立环境控制障碍功能(ECBFS)的概念,在动态环境中开发了一种安全关键控制框架。即使在输入延迟存在下,该框架也能够保证安全性,通过占系统延迟响应期间环境的演变。潜在的控制合成依赖于预测系统的未来状态和延迟间隔通过延迟间隔,具有稳健的安全保证预测误差。通过简单的自适应巡航控制问题和更复杂的机器人应用在SEGWAY平台上证明了所提出的方法的功效。
translated by 谷歌翻译
We propose a learning-based robust predictive control algorithm that compensates for significant uncertainty in the dynamics for a class of discrete-time systems that are nominally linear with an additive nonlinear component. Such systems commonly model the nonlinear effects of an unknown environment on a nominal system. We optimize over a class of nonlinear feedback policies inspired by certainty equivalent "estimate-and-cancel" control laws pioneered in classical adaptive control to achieve significant performance improvements in the presence of uncertainties of large magnitude, a setting in which existing learning-based predictive control algorithms often struggle to guarantee safety. In contrast to previous work in robust adaptive MPC, our approach allows us to take advantage of structure (i.e., the numerical predictions) in the a priori unknown dynamics learned online through function approximation. Our approach also extends typical nonlinear adaptive control methods to systems with state and input constraints even when we cannot directly cancel the additive uncertain function from the dynamics. We apply contemporary statistical estimation techniques to certify the system's safety through persistent constraint satisfaction with high probability. Moreover, we propose using Bayesian meta-learning algorithms that learn calibrated model priors to help satisfy the assumptions of the control design in challenging settings. Finally, we show in simulation that our method can accommodate more significant unknown dynamics terms than existing methods and that the use of Bayesian meta-learning allows us to adapt to the test environments more rapidly.
translated by 谷歌翻译
用于未知非线性系统的学习和合成稳定控制器是现实世界和工业应用的具有挑战性问题。 Koopman操作员理论允许通过直线系统和非线性控制系统的镜头通过线性系统和非线性控制系统的镜头来分析非线性系统。这些方法的关键思想,在于将非线性系统的坐标转换为Koopman可观察,这是允许原始系统(控制系统)作为更高尺寸线性(双线性控制)系统的坐标。然而,对于非线性控制系统,通过应用基于Koopman操作员的学习方法获得的双线性控制模型不一定是稳定的,因此,不保证稳定反馈控制的存在,这对于许多真实世界的应用来说是至关重要的。同时识别基于这些可稳定的Koopman的双线性控制系统以及相关的Koopman可观察到仍然是一个开放的问题。在本文中,我们提出了一个框架,以通过同时学习为基于Koopman的底层未知的非线性控制系统以及基于Koopman的控制Lyapunov函数(CLF)来识别和构造这些可稳定的双线性模型及其相关的可观察能力。双线性模型使用学习者和伪空。我们提出的方法从而为非线性控制系统具有未知动态的非线性控制系统提供了可证明的全球渐近稳定性的保证。提供了数值模拟,以验证我们提出的稳定反馈控制器为未知的非线性系统的效力。
translated by 谷歌翻译
本文提出了一种基于匹配不确定性的非线性系统的收缩指标和干扰估计的轨迹中心学习控制方法。该方法允许使用广泛的模型学习工具,包括深神经网络,以学习不确定的动态,同时仍然在整个学习阶段提供瞬态跟踪性能的保证,包括没有学习的特殊情况。在所提出的方法中,提出了一种扰动估计法,以估计不确定性的点值,具有预计估计误差限制(EEB)。学习的动态,估计的紊乱和EEB在强大的黎曼能量条件下并入,以计算控制法,即使学习模型较差,也能保证在整个学习阶段的所需轨迹对所需轨迹的指数趋同。另一方面,具有改进的精度,学习的模型可以在高级计划器中结合,以规划更好的性能,例如降低能耗和更短的旅行时间。建议的框架在平面Quadrotor导航示例上验证。
translated by 谷歌翻译