在本文草案中,我们考虑了安全控制系统安全索引或(控制屏障函数(松散))相对程度等于两个的问题的问题。我们考虑参数仿射非线性动态系统,并假设参数不确定性是统一的,并且已知A-Priori或通过估算器/参数适应定律在线更新。在这种不确定性下,通常的CBF-QP安全控制方法采用了强大的优化问题的形式。不等式约束的右侧和左侧都取决于未知参数。通过给定的不确定性表示,CBF-QP安全控制最终是凸半无限问题的问题。使用两种不同的哲学,一种基于弱二元性,另一个基于无损S生产的哲学,我们得出了此强大的CBF-QP问题的相同的SDP公式。因此,我们表明,可以将具有已知参数不确定性的安全控制的问题提出为可处理的凸问题并在线解决。 (这是正在进行的工作)。
translated by 谷歌翻译
对于多面体之间的障碍物躲避开发的控制器是在狭小的空间导航一个具有挑战性的和必要的问题。传统的方法只能制定的避障问题,因为离线优化问题。为了应对这些挑战,我们提出用非光滑控制屏障功能多面体之间的避障,它可以实时与基于QP的优化问题来解决基于二元安全关键最优控制。一种双优化问题被引入到表示被施加到构造控制屏障功能多面体和用于双形式的拉格朗日函数之间的最小距离。我们验证了避开障碍物与在走廊环境受控的L形(沙发形)机器人建议的双配制剂。据我们所知,这是第一次,实时紧避障与非保守的演习是在移动沙发(钢琴)与非线性动力学问题来实现的。
translated by 谷歌翻译
本文涉及专业示范的学习安全控制法。我们假设系统动态和输出测量图的适当模型以及相应的错误界限。我们首先提出强大的输出控制屏障功能(ROCBF)作为保证安全的手段,通过控制安全集的前向不变性定义。然后,我们提出了一个优化问题,以从展示安全系统行为的专家演示中学习RocBF,例如,从人类运营商收集的数据。随着优化问题,我们提供可验证条件,可确保获得的Rocbf的有效性。这些条件在数据的密度和学习函数的LipsChitz和Lipshitz和界限常数上说明,以及系统动态和输出测量图的模型。当ROCBF的参数化是线性的,然后,在温和的假设下,优化问题是凸的。我们在自动驾驶模拟器卡拉验证了我们的调查结果,并展示了如何从RGB相机图像中学习安全控制法。
translated by 谷歌翻译
这项工作将通用自适应控制应用于控制屏障功能,以实现安全集的正向不变性,尽管动态模型中无与伦比的参数不确定性。该方法结合了两个想法。首先是构建一个控制屏障功能系列,以确保系统对所有可能的模型安全。第二个是使用在线参数适应从允许集中选择一个控制屏障功能和相应的安全控制器。尽管这种组合并不一定会在没有屏障功能的其他要求的情况下产生向前的不变性,但我们表明可以通过简单地在线调整适应性增益来建立这种不变性。结果,这项工作代表了第一种自适应安全方法,该方法在不牺牲安全保证的情况下成功采用了确定性对等原则。
translated by 谷歌翻译
神经网络(NNS)已成功地用于代表复杂动力学系统的状态演变。这样的模型,称为NN动态模型(NNDMS),使用NN的迭代噪声预测来估计随时间推移系统轨迹的分布。尽管它们的准确性,但对NNDMS的安全分析仍然是一个具有挑战性的问题,并且在很大程度上尚未探索。为了解决这个问题,在本文中,我们介绍了一种为NNDM提供安全保证的方法。我们的方法基于随机屏障函数,其与安全性的关系类似于Lyapunov功能的稳定性。我们首先展示了通过凸优化问题合成NNDMS随机屏障函数的方法,该问题又为系统的安全概率提供了下限。我们方法中的一个关键步骤是,NNS的最新凸近似结果的利用是找到零件线性边界,这允许将屏障函数合成问题作为一个方形优化程序的制定。如果获得的安全概率高于所需的阈值,则该系统将获得认证。否则,我们引入了一种生成控制系统的方法,该系统以最小的侵入性方式稳健地最大化安全概率。我们利用屏障函数的凸属性来提出最佳控制合成问题作为线性程序。实验结果说明了该方法的功效。即,他们表明该方法可以扩展到具有多层和数百个神经元的多维NNDM,并且控制器可以显着提高安全性概率。
translated by 谷歌翻译
模型不匹配在现实世界应用中占上风。因此,为具有不确定动态模型的系统设计可靠的安全控制算法很重要。主要的挑战是,不确定性导致难以实时寻找可行的安全控制。现有方法通常简化了问题,例如限制不确定性类型,忽略控制限制或放弃可行性保证。在这项工作中,我们通过为有限国家依赖性的不确定性提出一个强大的安全控制框架来克服这些问题。我们首先通过学习控制控制限制,不确定的安全性索引来保证安全控制不确定动态的可行性。然后,我们证明可以将稳健的安全控制作为凸问题(凸度半侵入编程或二阶锥编程)配制,并提出可以实时运行的相应最佳求解器。此外,我们分析了在未建模的不确定性下何时以及如何保留安全性。实验结果表明,我们的方法成功地发现了针对不同的不确定性实时的可靠安全控制,并且比强大的基线算法要保守得多。
translated by 谷歌翻译
在这项工作中,我们提出了一种新型的安全且可扩展的分散解决方案,以在存在随机干扰的情况下进行多代理控制。使用随机控制屏障功能在数学上编码安全性,并通过求解二次程序来计算安全控制。通过增强每个代理的优化变量,复制变量,为其邻居增强,可以实现权力下放。这使我们能够将集中式多代理优化问题解脱出来。但是,为了确保安全,邻近的代理商必须就“我们俩安全的安全”达成共识,这产生了共识。为了实现安全共识解决方案,我们结合了一种基于ADMM的方法。具体而言,我们提出了一个合并的CADMM-OSQP隐式神经网络层,该网络层解决了局部二次程序的迷你批次以及总体共识问题,作为单个优化问题。该层在每个时间步骤中都嵌入了Deep FBSDES网络体系结构中,以促进端到端可区分,安全和分散的随机最佳控制。在模拟中的几个具有挑战性的多机器人任务中,证明了所提出的方法的功效。通过对避免碰撞限制指定的安全要求强加要求,可以在整个培训过程中确保所有代理的安全操作。与集中式方法相比,我们还可以在计算和内存节省方面表现出卓越的可伸缩性。
translated by 谷歌翻译
Safety critical systems involve the tight coupling between potentially conflicting control objectives and safety constraints. As a means of creating a formal framework for controlling systems of this form, and with a view toward automotive applications, this paper develops a methodology that allows safety conditions-expressed as control barrier functionsto be unified with performance objectives-expressed as control Lyapunov functions-in the context of real-time optimizationbased controllers. Safety conditions are specified in terms of forward invariance of a set, and are verified via two novel generalizations of barrier functions; in each case, the existence of a barrier function satisfying Lyapunov-like conditions implies forward invariance of the set, and the relationship between these two classes of barrier functions is characterized. In addition, each of these formulations yields a notion of control barrier function (CBF), providing inequality constraints in the control input that, when satisfied, again imply forward invariance of the set. Through these constructions, CBFs can naturally be unified with control Lyapunov functions (CLFs) in the context of a quadratic program (QP); this allows for the achievement of control objectives (represented by CLFs) subject to conditions on the admissible states of the system (represented by CBFs). The mediation of safety and performance through a QP is demonstrated on adaptive cruise control and lane keeping, two automotive control problems that present both safety and performance considerations coupled with actuator bounds.
translated by 谷歌翻译
在将强化学习(RL)部署到现实世界系统中时,确保安全是一个至关重要的挑战。我们开发了基于置信的安全过滤器,这是一种基于概率动力学模型的标准RL技术,通过标准RL技术学到的名义策略来证明国家安全限制的控制理论方法。我们的方法基于对成本功能的国家约束的重新重新制定,从而将安全验证减少到标准RL任务。通过利用幻觉输入的概念,我们扩展了此公式,以确定对具有很高可能性的未知系统安全的“备份”策略。最后,在推出备用政策期间的每一个时间步骤中,标称政策的调整最少,以便以后可以保证安全恢复。我们提供正式的安全保证,并从经验上证明我们方法的有效性。
translated by 谷歌翻译
基于控制屏障功能(CBF)的安全过滤器已成为自治系统安全至关重要控制的实用工具。这些方法通过价值函数编码安全性,并通过对该值函数的时间导数施加限制来执行安全。但是,在存在输入限制的情况下合成并非过于保守的有效CBF是一个臭名昭著的挑战。在这项工作中,我们建议使用正式验证方法提炼候选CBF,以获得有效的CBF。特别是,我们使用基于动态编程(DP)的可及性分析更新专家合成或备份CBF。我们的框架RefineCBF保证,在每次DP迭代中,获得的CBF至少与先前的迭代一样安全,并收集到有效的CBF。因此,RefineCBF可用于机器人系统。我们证明了我们在模拟中使用各种CBF合成技术来增强安全性和/或降低一系列非线性控制型系统系统的保守性的实用性。
translated by 谷歌翻译
This paper provides an introduction and overview of recent work on control barrier functions and their use to verify and enforce safety properties in the context of (optimization based) safety-critical controllers. We survey the main technical results and discuss applications to several domains including robotic systems.
translated by 谷歌翻译
我们为一类不确定的控制型非线性系统提供了一种运动计划算法,该系统可以在使用高维传感器测量值(例如RGB-D图像)和反馈控制循环中的学习感知模块时确保运行时安全性和目标达到性能。首先,给定状态和观察数据集,我们训练一个感知系统,该系统试图从观察结果中倒入状态的一部分,并估计感知错误上的上限,该误差有效,在数据附近有可信赖的域中具有很高的概率。接下来,我们使用收缩理论来设计稳定的状态反馈控制器和收敛的动态观察者,该观察者使用学习的感知系统来更新其状态估计。当该控制器在动力学和不正确状态估计中遇到错误时,我们会在轨迹跟踪误差上得出一个绑定。最后,我们将此绑定到基于采样的运动计划器中,引导它返回可以使用传感器数据在运行时安全跟踪的轨迹。我们展示了我们在4D汽车上模拟的方法,6D平面四极管以及使用RGB(-D)传感器测量的17D操纵任务,这表明我们的方法安全可靠地将系统转向了目标,而无法考虑的基线,这些基线无法考虑。受信任的域或状态估计错误可能不安全。
translated by 谷歌翻译
Ensuring safety is of paramount importance in physical human-robot interaction applications. This requires both an adherence to safety constraints defined on the system state, as well as guaranteeing compliant behaviour of the robot. If the underlying dynamical system is known exactly, the former can be addressed with the help of control barrier functions. Incorporation of elastic actuators in the robot's mechanical design can address the latter requirement. However, this elasticity can increase the complexity of the resulting system, leading to unmodeled dynamics, such that control barrier functions cannot directly ensure safety. In this paper, we mitigate this issue by learning the unknown dynamics using Gaussian process regression. By employing the model in a feedback linearizing control law, the safety conditions resulting from control barrier functions can be robustified to take into account model errors, while remaining feasible. In order enforce them on-line, we formulate the derived safety conditions in the form of a second-order cone program. We demonstrate our proposed approach with simulations on a two-degree of freedom planar robot with elastic joints.
translated by 谷歌翻译
Designing safety-critical control for robotic manipulators is challenging, especially in a cluttered environment. First, the actual trajectory of a manipulator might deviate from the planned one due to the complex collision environments and non-trivial dynamics, leading to collision; Second, the feasible space for the manipulator is hard to obtain since the explicit distance functions between collision meshes are unknown. By analyzing the relationship between the safe set and the controlled invariant set, this paper proposes a data-driven control barrier function (CBF) construction method, which extracts CBF from distance samples. Specifically, the CBF guarantees the controlled invariant property for considering the system dynamics. The data-driven method samples the distance function and determines the safe set. Then, the CBF is synthesized based on the safe set by a scenario-based sum of square (SOS) program. Unlike most existing linearization based approaches, our method reserves the volume of the feasible space for planning without approximation, which helps find a solution in a cluttered environment. The control law is obtained by solving a CBF-based quadratic program in real time, which works as a safe filter for the desired planning-based controller. Moreover, our method guarantees safety with the proven probabilistic result. Our method is validated on a 7-DOF manipulator in both real and virtual cluttered environments. The experiments show that the manipulator is able to execute tasks where the clearance between obstacles is in millimeters.
translated by 谷歌翻译
在本文中,我们研究了加强学习问题的安全政策的学习。这是,我们的目标是控制我们不知道过渡概率的马尔可夫决策过程(MDP),但我们通过经验访问样品轨迹。我们将安全性定义为在操作时间内具有高概率的期望安全集中的代理。因此,我们考虑受限制的MDP,其中限制是概率。由于没有直接的方式来优化关于加强学习框架中的概率约束的政策,因此我们提出了对问题的遍历松弛。拟议的放松的优点是三倍。 (i)安全保障在集界任务的情况下保持,并且它们保持在一个给定的时间范围内,以继续进行任务。 (ii)如果政策的参数化足够丰富,则约束优化问题尽管其非凸起具有任意小的二元间隙。 (iii)可以使用标准策略梯度结果和随机近似工具容易地计算与安全学习问题相关的拉格朗日的梯度。利用这些优势,我们建立了原始双算法能够找到安全和最佳的政策。我们在连续域中的导航任务中测试所提出的方法。数值结果表明,我们的算法能够将策略动态调整到环境和所需的安全水平。
translated by 谷歌翻译
我们研究了安全在线凸优化的问题,其中每个时间步长的动作必须满足一组线性安全约束。目标是选择一系列动作,以最小化遗憾,而不会在任何时间步骤(具有高概率)时违反安全约束。指定线性安全约束的参数对算法未知。该算法只能访问所选择的操作的约束的嘈杂观察。我们提出了一种算法,称为{Safe Online投影梯度下降}(SO-PGD)算法,以解决这个问题。我们表明,在假设安全基线动作的可用性的假设下,所以PGD算法实现了遗憾$ O(t ^ {2/3})$。虽然在线凸优化(OCO)存在许多用于文献中的安全约束的算法,但它们允许在学习/优化期间违反限制,并且重点是表征累积约束违规。据我们所知,我们的是第一项工作,提供了一个遗憾的算法,而无需在任何时间步骤违反线性安全约束(具有高概率)。
translated by 谷歌翻译
基于学习的控制方案最近表现出了出色的效力执行复杂的任务。但是,为了将它们部署在实际系统中,保证该系统在在线培训和执行过程中将保持安全至关重要。因此,我们需要安全的在线学习框架,能够自主地理论当前的信息是否足以确保安全或需要新的测量。在本文中,我们提出了一个由两个部分组成的框架:首先,在需要时积极收集测量的隔离外检测机制,以确保至少一个安全备份方向始终可供使用;其次,基于高斯的基于过程的概率安全 - 关键控制器可确保系统始终保持安全的可能性。我们的方法通过使用控制屏障功能来利用模型知识,并以事件触发的方式从在线数据流中收集测量,以确保学习的安全至关重要控制器的递归可行性。反过来,这又使我们能够提供具有很高概率的安全集的正式结果,即使在先验未开发的区域中也是如此。最后,我们在自适应巡航控制系统的数值模拟中验证了所提出的框架。
translated by 谷歌翻译
我们开发了一种新型的可区分预测控制(DPC),并根据控制屏障功能确保安全性和鲁棒性保证。DPC是一种基于学习的方法,用于获得近似解决方案,以解决明确的模型预测控制(MPC)问题。在DPC中,通过自动分化MPC问题获得的直接策略梯度,通过直接策略梯度进行了脱机优化的预测控制策略。所提出的方法利用了一种新形式的采样数据屏障功能,以在DPC设置中执行离线和在线安全要求,同时仅中断安全集合边界附近的基于神经网络的控制器。在模拟中证明了拟议方法的有效性。
translated by 谷歌翻译
控制屏障功能(CBF)已被证明是非线性系统安全至关重要控制器设计的强大工具。现有的设计范式不能解决理论(具有连续时间模型的控制器设计)和实践(所得控制器的离散时间采样实现)之间的差距;这可能导致性能不佳,并且违反了硬件实例化的安全性。我们提出了一种方法,通过将采样DATA对应物合成与这些基于CBF的控制器的方法,使用近似离散的时间模型和采样DATA控制屏障函数(SD-CBFS)。使用系统连续时间模型的属性,我们建立了SD-CBF与采样数据系统的实际安全概念之间的关系。此外,我们构建了基于凸优化的控制器,该控制器正式将非线性系统赋予实践中的安全保证。我们证明了这些控制器在模拟中的功效。
translated by 谷歌翻译
在本文中,我们提出了一种控制策略,以解决模仿卫星运动的平面浮动平台(Slider)的安全自动对接问题。 Slider采用拟议的策略,以正确的方向接近对接端口,保持安全的距离,同时始终在整个对接操作中的对接端口上保持视觉锁定。控制障碍功能旨在强加安全,进近方向和视觉锁定限制。滑块的三个控制输入在执行约束时共享三个障碍函数。事实证明,控制输入以无冲突的方式共享,以渲染定义安全性和视觉锁定约束向前不变的集合,并在建立有限的时间收敛到视觉锁定模式时。无冲突的输入共享确保了二次程序的可行性,该程序为标称控制器生成最小侵入性的校正,旨在跟踪对接端口,因此在整个码头操作中都尊重屏障约束。提出的控制设计方法的功效通过各种模拟得到验证。
translated by 谷歌翻译