控制屏障功能(CBF)已被证明是非线性系统安全至关重要控制器设计的强大工具。现有的设计范式不能解决理论(具有连续时间模型的控制器设计)和实践(所得控制器的离散时间采样实现)之间的差距;这可能导致性能不佳,并且违反了硬件实例化的安全性。我们提出了一种方法,通过将采样DATA对应物合成与这些基于CBF的控制器的方法,使用近似离散的时间模型和采样DATA控制屏障函数(SD-CBFS)。使用系统连续时间模型的属性,我们建立了SD-CBF与采样数据系统的实际安全概念之间的关系。此外,我们构建了基于凸优化的控制器,该控制器正式将非线性系统赋予实践中的安全保证。我们证明了这些控制器在模拟中的功效。
translated by 谷歌翻译
This paper provides an introduction and overview of recent work on control barrier functions and their use to verify and enforce safety properties in the context of (optimization based) safety-critical controllers. We survey the main technical results and discuss applications to several domains including robotic systems.
translated by 谷歌翻译
我们开发了一种新型的可区分预测控制(DPC),并根据控制屏障功能确保安全性和鲁棒性保证。DPC是一种基于学习的方法,用于获得近似解决方案,以解决明确的模型预测控制(MPC)问题。在DPC中,通过自动分化MPC问题获得的直接策略梯度,通过直接策略梯度进行了脱机优化的预测控制策略。所提出的方法利用了一种新形式的采样数据屏障功能,以在DPC设置中执行离线和在线安全要求,同时仅中断安全集合边界附近的基于神经网络的控制器。在模拟中证明了拟议方法的有效性。
translated by 谷歌翻译
平衡安全性和性能是现代控制系统设计中的主要挑战之一。此外,至关重要的是,在不诱导不必要的保守性降低绩效的情况下,确保安全至关重要。在这项工作中,我们提出了一种通过控制屏障功能(CBF)来进行安全关键控制合成的建设性方法。通过通过CBF过滤手工设计的控制器,我们能够达到性能行为,同时提供严格的安全保证。面对干扰,通过投入到国家安全的概念(ISSF)同时实现了稳健的安全性和性能。我们通过与倒置的示例同时开发CBF设计方法来采用教程方法,从而使设计过程混凝土中的挑战和敏感性。为了确定拟议方法的能力,我们考虑通过CBFS以无需拖车的8级卡车的形式来考虑通过CBF的CBF进行安全至关重要的设计。通过实验,我们看到了卡车驱动系统中未建模的干扰对CBF提供的安全保证的影响。我们表征了这些干扰并使用ISSF,生产出可靠的控制器,该控制器可以在不承认性能的情况下实现安全性。我们在模拟中评估了我们的设计,并且是在实验中首次在汽车系统上评估我们的设计。
translated by 谷歌翻译
Safety critical systems involve the tight coupling between potentially conflicting control objectives and safety constraints. As a means of creating a formal framework for controlling systems of this form, and with a view toward automotive applications, this paper develops a methodology that allows safety conditions-expressed as control barrier functionsto be unified with performance objectives-expressed as control Lyapunov functions-in the context of real-time optimizationbased controllers. Safety conditions are specified in terms of forward invariance of a set, and are verified via two novel generalizations of barrier functions; in each case, the existence of a barrier function satisfying Lyapunov-like conditions implies forward invariance of the set, and the relationship between these two classes of barrier functions is characterized. In addition, each of these formulations yields a notion of control barrier function (CBF), providing inequality constraints in the control input that, when satisfied, again imply forward invariance of the set. Through these constructions, CBFs can naturally be unified with control Lyapunov functions (CLFs) in the context of a quadratic program (QP); this allows for the achievement of control objectives (represented by CLFs) subject to conditions on the admissible states of the system (represented by CBFs). The mediation of safety and performance through a QP is demonstrated on adaptive cruise control and lane keeping, two automotive control problems that present both safety and performance considerations coupled with actuator bounds.
translated by 谷歌翻译
这项工作为时间延迟系统的安全关键控制提供了一个理论框架。控制屏障功能的理论可为无延迟系统提供正式安全保证,扩展到具有状态延迟的系统。引入了控制屏障功能的概念,以实现正式的安全保证,该概念通过在无限尺寸状态空间中定义的安全集的向前不变性。所提出的框架能够在动态和安全状态下处理多个延迟和分布式延迟,并对可证明安全性的控制输入提供了仿射约束。该约束可以纳入优化问题,以合成最佳和可证明的安全控制器。该方法的适用性通过数值仿真示例证明。
translated by 谷歌翻译
具有安全行为的赋予非线性系统在现代控制中越来越重要。对于必须在动态变化的环境中安全运行的现实生活控制系统,此任务尤其具有挑战性。本文通过建立环境控制障碍功能(ECBFS)的概念,在动态环境中开发了一种安全关键控制框架。即使在输入延迟存在下,该框架也能够保证安全性,通过占系统延迟响应期间环境的演变。潜在的控制合成依赖于预测系统的未来状态和延迟间隔通过延迟间隔,具有稳健的安全保证预测误差。通过简单的自适应巡航控制问题和更复杂的机器人应用在SEGWAY平台上证明了所提出的方法的功效。
translated by 谷歌翻译
本文介绍了机器人系统的安全关键控制的框架,当配置空间中的安全区域上定义了安全区域时。为了保持安全性,我们基于控制屏障函数理论综合安全速度而不依赖于机器人的A可能复杂的高保真动态模型。然后,我们跟踪跟踪控制器的安全速度。这使得在无模型安全关键控制中。我们证明了拟议方法的理论安全保障。最后,我们证明这种方法是适用于棘手的。我们在高保真仿真中使用SEGWAY执行障碍避免任务,以及在硬件实验中的无人机和Quadruped。
translated by 谷歌翻译
本文开发了一种基于模型的强化学习(MBR)框架,用于在线在线学习无限范围最佳控制问题的价值函数,同时遵循表示为控制屏障功能(CBFS)的安全约束。我们的方法是通过开发一种新型的CBFS,称为Lyapunov样CBF(LCBF),其保留CBFS的有益特性,以开发最微创的安全控制政策,同时也具有阳性半自动等所需的Lyapunov样品质 - 义法。我们展示这些LCBFS如何用于增强基于学习的控制策略,以保证安全性,然后利用这种方法在MBRL设置中开发安全探索框架。我们表明,我们的开发方法可以通过各种数值示例来处理比较法的更通用的安全限制。
translated by 谷歌翻译
本文涉及专业示范的学习安全控制法。我们假设系统动态和输出测量图的适当模型以及相应的错误界限。我们首先提出强大的输出控制屏障功能(ROCBF)作为保证安全的手段,通过控制安全集的前向不变性定义。然后,我们提出了一个优化问题,以从展示安全系统行为的专家演示中学习RocBF,例如,从人类运营商收集的数据。随着优化问题,我们提供可验证条件,可确保获得的Rocbf的有效性。这些条件在数据的密度和学习函数的LipsChitz和Lipshitz和界限常数上说明,以及系统动态和输出测量图的模型。当ROCBF的参数化是线性的,然后,在温和的假设下,优化问题是凸的。我们在自动驾驶模拟器卡拉验证了我们的调查结果,并展示了如何从RGB相机图像中学习安全控制法。
translated by 谷歌翻译
我们研究具有度量状态和行动空间的确定性马尔可夫决策过程(MDP)的政策优化问题,我们称为公制策略优化问题(MPOPS)。我们的目标是建立有关MPOP的适当性的理论结果,这些结果可以表征实际相关的连续控制系统。为此,我们定义了一类称为紧凑型MPOPS(CR MPOPS)的特殊类MPOP,它们足够灵活,可以捕获机器人系统的复杂行为,但特定于使用动态编程方法(例如Value Iteateration)允许解决方案。我们展示了如何使用前向不变性到达CR-MPOP。我们进一步表明,我们对CR-MPOP的理论结果可用于表征反馈可线化的控制仿射系统。
translated by 谷歌翻译
这项工作将通用自适应控制应用于控制屏障功能,以实现安全集的正向不变性,尽管动态模型中无与伦比的参数不确定性。该方法结合了两个想法。首先是构建一个控制屏障功能系列,以确保系统对所有可能的模型安全。第二个是使用在线参数适应从允许集中选择一个控制屏障功能和相应的安全控制器。尽管这种组合并不一定会在没有屏障功能的其他要求的情况下产生向前的不变性,但我们表明可以通过简单地在线调整适应性增益来建立这种不变性。结果,这项工作代表了第一种自适应安全方法,该方法在不牺牲安全保证的情况下成功采用了确定性对等原则。
translated by 谷歌翻译
强化学习通常与奖励最大化(或成本量化)代理的培训相关,换句话说是控制者。它可以使用先验或在线收集的系统数据以无模型或基于模型的方式应用,以培训涉及的参数体系结构。通常,除非通过学习限制或量身定制的培训规则采取特殊措施,否则在线增强学习不能保证闭环稳定性。特别有希望的是通过“经典”控制方法进行增强学习的混合体。在这项工作中,我们建议一种在纯粹的在线学习环境中,即没有离线培训的情况下,可以保证系统控制器闭环的实际稳定性。此外,我们仅假设对系统模型的部分知识。为了达到要求的结果,我们采用经典自适应控制技术。总体控制方案的实施是在数字,采样设置中明确提供的。也就是说,控制器接收系统的状态,并在离散的时间(尤其是等距的时刻)中计算控制动作。该方法在自适应牵引力控制和巡航控制中进行了测试,事实证明,该方法可显着降低成本。
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
安全限制和最优性很重要,但有时控制器有时相互冲突的标准。虽然这些标准通常与不同的工具单独解决以维持正式保障,但在惩罚失败时,加强学习的常见做法是惩罚,以惩罚为单纯的启发式。我们严格地检查了安全性和最优性与惩罚的关系,并对安全价值函数进行了足够的条件:对给定任务的最佳价值函数,并强制执行安全约束。我们通过强大的二元性证明,揭示这种关系的结构,表明始终存在一个有限的惩罚,引起安全值功能。这种惩罚并不是独特的,但大不束缚:更大的惩罚不会伤害最优性。虽然通常无法计算最低所需的惩罚,但我们揭示了清晰的惩罚,奖励,折扣因素和动态互动的结构。这种洞察力建议实用,理论引导的启发式设计奖励功能,用于控制安全性很重要的控制问题。
translated by 谷歌翻译
神经网络(NNS)已成功地用于代表复杂动力学系统的状态演变。这样的模型,称为NN动态模型(NNDMS),使用NN的迭代噪声预测来估计随时间推移系统轨迹的分布。尽管它们的准确性,但对NNDMS的安全分析仍然是一个具有挑战性的问题,并且在很大程度上尚未探索。为了解决这个问题,在本文中,我们介绍了一种为NNDM提供安全保证的方法。我们的方法基于随机屏障函数,其与安全性的关系类似于Lyapunov功能的稳定性。我们首先展示了通过凸优化问题合成NNDMS随机屏障函数的方法,该问题又为系统的安全概率提供了下限。我们方法中的一个关键步骤是,NNS的最新凸近似结果的利用是找到零件线性边界,这允许将屏障函数合成问题作为一个方形优化程序的制定。如果获得的安全概率高于所需的阈值,则该系统将获得认证。否则,我们引入了一种生成控制系统的方法,该系统以最小的侵入性方式稳健地最大化安全概率。我们利用屏障函数的凸属性来提出最佳控制合成问题作为线性程序。实验结果说明了该方法的功效。即,他们表明该方法可以扩展到具有多层和数百个神经元的多维NNDM,并且控制器可以显着提高安全性概率。
translated by 谷歌翻译
在安全关键系统的背景下将模拟缩小到现实差距的动机,我们考虑学习用于未知非线性动力系统的前列鲁棒稳定性证书。符合鲁棒控制的方法,我们考虑添加系统动态的添加剂和Lipschitz有界对手。我们表明,在基础系统上的增量稳定性的合适假设下,学习对抗稳定证明的统计成本相当于持续因素,以学习名义稳定证明。我们的结果铰接在新的导火颤机复杂性的新型界限,这可能是独立的兴趣。据我们所知,这是在对动态系统生成的数据进行对抗性学习时,对样本复杂性限制的第一次表征。我们还提供一种用于近似对抗训练算法的实用算法,并在阻尼摆锤示例上验证我们的发现。
translated by 谷歌翻译
基于控制屏障功能(CBF)的安全过滤器已成为自治系统安全至关重要控制的实用工具。这些方法通过价值函数编码安全性,并通过对该值函数的时间导数施加限制来执行安全。但是,在存在输入限制的情况下合成并非过于保守的有效CBF是一个臭名昭著的挑战。在这项工作中,我们建议使用正式验证方法提炼候选CBF,以获得有效的CBF。特别是,我们使用基于动态编程(DP)的可及性分析更新专家合成或备份CBF。我们的框架RefineCBF保证,在每次DP迭代中,获得的CBF至少与先前的迭代一样安全,并收集到有效的CBF。因此,RefineCBF可用于机器人系统。我们证明了我们在模拟中使用各种CBF合成技术来增强安全性和/或降低一系列非线性控制型系统系统的保守性的实用性。
translated by 谷歌翻译
非线性自适应控制理论中的一个关键假设是系统的不确定性可以在一组已知基本函数的线性跨度中表示。虽然该假设导致有效的算法,但它将应用限制为非常特定的系统类别。我们介绍一种新的非参数自适应算法,其在参数上学习无限尺寸密度,以取消再现内核希尔伯特空间中的未知干扰。令人惊讶的是,所产生的控制输入承认,尽管其底层无限尺寸结构,但是尽管它的潜在无限尺寸结构实现了其实施的分析表达。虽然这种自适应输入具有丰富和富有敏感性的 - 例如,传统的线性参数化 - 其计算复杂性随时间线性增长,使其比其参数对应力相对较高。利用随机傅里叶特征的理论,我们提供了一种有效的随机实现,该实现恢复了经典参数方法的复杂性,同时可透明地保留非参数输入的表征性。特别地,我们的显式范围仅取决于系统的基础参数,允许我们所提出的算法有效地缩放到高维系统。作为该方法的说明,我们展示了随机近似算法学习由牛顿重力交互的十点批量组成的60维系统的预测模型的能力。
translated by 谷歌翻译
我们研究了目标稳定的问题,并在机器人和车辆中避免了强大的障碍物,这些障碍物仅用于实现实时定位的目的。由于障碍物引起的拓扑障碍,该问题尤其具有挑战性,这排除了能够同时稳定和避免障碍的平稳反馈控制器的存在。为了克服这个问题,我们开发了一个基于视觉的混合控制器,该控制器可以使用磁滞机制和数据辅助主管在两种不同的反馈定律之间切换。本文的主要创新是将合适的感知图纳入混合控制器。这些地图可以从从车辆中的摄像机获得的数据中学到,并通过卷积神经网络(CNN)训练。在此感知图上​​的合适假设下,我们就融合和避免障碍物的轨迹建立了对车辆轨​​迹的理论保证。此外,在不同的情况下,对基于视觉的混合控制器进行了数值测试,包括嘈杂的数据,失败的传感器以及带有遮挡的相机。
translated by 谷歌翻译