本文表明,在某些情况下,由于使用屏障功能而产生的安全性覆盖不必要地受到限制。特别是,我们检查了固定翼碰撞的情况,并表明当使用屏障功能时,在某些情况下,两架固定翼飞机可能比根本没有屏障功能更接近碰撞。此外,我们构建了屏障功能将系统标记为不安全的情况,即使车辆开始任意分开。换句话说,屏障功能可确保安全,但具有不必要的性能成本。因此,我们引入了无模型的屏障功能,该功能采用数据驱动方法来创建屏障功能。我们证明了在两架固定翼飞机的碰撞避免模拟中,无模型屏障功能的有效性。
translated by 谷歌翻译
平衡安全性和性能是现代控制系统设计中的主要挑战之一。此外,至关重要的是,在不诱导不必要的保守性降低绩效的情况下,确保安全至关重要。在这项工作中,我们提出了一种通过控制屏障功能(CBF)来进行安全关键控制合成的建设性方法。通过通过CBF过滤手工设计的控制器,我们能够达到性能行为,同时提供严格的安全保证。面对干扰,通过投入到国家安全的概念(ISSF)同时实现了稳健的安全性和性能。我们通过与倒置的示例同时开发CBF设计方法来采用教程方法,从而使设计过程混凝土中的挑战和敏感性。为了确定拟议方法的能力,我们考虑通过CBFS以无需拖车的8级卡车的形式来考虑通过CBF的CBF进行安全至关重要的设计。通过实验,我们看到了卡车驱动系统中未建模的干扰对CBF提供的安全保证的影响。我们表征了这些干扰并使用ISSF,生产出可靠的控制器,该控制器可以在不承认性能的情况下实现安全性。我们在模拟中评估了我们的设计,并且是在实验中首次在汽车系统上评估我们的设计。
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
基于控制屏障功能(CBF)的安全过滤器已成为自治系统安全至关重要控制的实用工具。这些方法通过价值函数编码安全性,并通过对该值函数的时间导数施加限制来执行安全。但是,在存在输入限制的情况下合成并非过于保守的有效CBF是一个臭名昭著的挑战。在这项工作中,我们建议使用正式验证方法提炼候选CBF,以获得有效的CBF。特别是,我们使用基于动态编程(DP)的可及性分析更新专家合成或备份CBF。我们的框架RefineCBF保证,在每次DP迭代中,获得的CBF至少与先前的迭代一样安全,并收集到有效的CBF。因此,RefineCBF可用于机器人系统。我们证明了我们在模拟中使用各种CBF合成技术来增强安全性和/或降低一系列非线性控制型系统系统的保守性的实用性。
translated by 谷歌翻译
最近,基于障碍函数的安全强化学习(RL)与actor-批评结构用于连续控制任务的批评结构已经受到越来越受到关注。使用安全性和收敛保证,学习近最优控制政策仍然挑战。此外,很少有效地解决了在时变的安全约束下的安全RL算法设计。本文提出了一种基于模型的安全RL算法,用于具有时变状态和控制约束的非线性系统的最佳控制。在拟议的方法中,我们构建了一种新的基于障碍的控制策略结构,可以保证控制安全性。提出了一种多步骤策略评估机制,以预测策略在时变的安全限制下的安全风险,并指导政策安全更新。证明了稳定性和稳健性的理论结果。此外,分析了演员 - 评论家学习算法的收敛。所提出的算法的性能优于模拟安全健身房环境中的几种最先进的RL算法。此外,该方法适用于两个现实世界智能车辆的综合路径和碰撞避免问题。差动驱动车辆和Ackermann-Drive分别用于验证离线部署性能和在线学习性能。我们的方法在实验中显示了令人印象深刻的SIM-to-Real的转移能力和令人满意的在线控制性能。
translated by 谷歌翻译
This paper provides an introduction and overview of recent work on control barrier functions and their use to verify and enforce safety properties in the context of (optimization based) safety-critical controllers. We survey the main technical results and discuss applications to several domains including robotic systems.
translated by 谷歌翻译
基于学习的控制器,例如神经网络(NN)控制器,可以表现出很高的经验性能,但缺乏正式的安全保证。为了解决此问题,已将控制屏障功能(CBF)应用于安全过滤器,以监视和修改基于学习的控制器的输出,以确保闭环系统的安全性。但是,这种修饰可能是近视的,具有不可预测的长期影响。在这项工作中,我们提出了一个安全的NN控制器,该控制器采用了基于CBF的可区分安全层,并研究了基于学习的控制中安全的NN控制器的性能。具体而言,比较了两个控制器的公式:一个是基于投影的,另一个依赖于我们提出的集合理论参数化。两种方法都证明了在数值实验中使用CBF作为单独的安全滤波器的改进的闭环性能。
translated by 谷歌翻译
基于二次程序(QP)基于状态反馈控制器,其不等式约束以控制障碍(CBFS)和Lyapunov函数的限制使用类-U \ Mathcal {K k} $函数其值的值,对其值的函数,对其值的参数敏感这些类 - $ \ MATHCAL {K} $ functions。但是,有效CBF的构建并不直接,对于QP的任意选择参数,系统轨迹可能会进入QP最终变得不可行的状态,或者可能无法实现所需的性能。在这项工作中,我们将控制合成问题作为差异策略提出,其参数在高级别的时间范围内被优化,从而导致双层优化常规。在不了解一组可行参数的情况下,我们开发了一种递归可行性引导的梯度下降方法来更新QP的参数,以便新解决方案至少和以前的解决方案的性能至少执行。通过将动力学系统视为有向图,随着时间的推移,这项工作提出了一种新颖的方式,可以通过(1)使用其解决方案的梯度来优化QP控制器在一个时间范围内对多个CBF的性能进行敏感性,从而提出了一种新的方式。分析,以及(2)将这些和系统动力学梯度进行反向传播,以更新参数,同时保持QPS的可行性。
translated by 谷歌翻译
强化学习(RL)和连续的非线性控制已成功部署在复杂的顺序决策任务的多个领域中。但是,鉴于学习过程的探索性质和模型不确定性的存在,由于缺乏安全保证,将它们应用于安全至关重要的控制任务是一项挑战。另一方面,尽管将控制理论方法与学习算法相结合,但在安全RL应用中显示了希望,但安全数据收集过程的样本效率尚未得到很好的解决。在本文中,我们提出了一个\ emph {可证明的}示例有效的情节安全学习框架,用于在线控制任务,以利用未知的非线性动力学系统来利用安全的探索和剥削。特别是,框架1)在随机设置中扩展控制屏障功能(CBF),以在模型学习过程中实现可证明的高概率安全性,2)整合基于乐观的探索策略,以有效地将安全探索过程与学习的动态有效地指导安全探索过程对于\ emph {接近最佳}控制性能。我们对与理论保证的最佳控制器和概率安全性的偶发性遗憾进行了正式分析。提供了仿真结果以证明所提出算法的有效性和效率。
translated by 谷歌翻译
This paper proposes embedded Gaussian Process Barrier States (GP-BaS), a methodology to safely control unmodeled dynamics of nonlinear system using Bayesian learning. Gaussian Processes (GPs) are used to model the dynamics of the safety-critical system, which is subsequently used in the GP-BaS model. We derive the barrier state dynamics utilizing the GP posterior, which is used to construct a safety embedded Gaussian process dynamical model (GPDM). We show that the safety-critical system can be controlled to remain inside the safe region as long as we can design a controller that renders the BaS-GPDM's trajectories bounded (or asymptotically stable). The proposed approach overcomes various limitations in early attempts at combining GPs with barrier functions due to the abstention of restrictive assumptions such as linearity of the system with respect to control, relative degree of the constraints and number or nature of constraints. This work is implemented on various examples for trajectory optimization and control including optimal stabilization of unstable linear system and safe trajectory optimization of a Dubins vehicle navigating through an obstacle course and on a quadrotor in an obstacle avoidance task using GP differentiable dynamic programming (GP-DDP). The proposed framework is capable of maintaining safe optimization and control of unmodeled dynamics and is purely data driven.
translated by 谷歌翻译
具有安全行为的赋予非线性系统在现代控制中越来越重要。对于必须在动态变化的环境中安全运行的现实生活控制系统,此任务尤其具有挑战性。本文通过建立环境控制障碍功能(ECBFS)的概念,在动态环境中开发了一种安全关键控制框架。即使在输入延迟存在下,该框架也能够保证安全性,通过占系统延迟响应期间环境的演变。潜在的控制合成依赖于预测系统的未来状态和延迟间隔通过延迟间隔,具有稳健的安全保证预测误差。通过简单的自适应巡航控制问题和更复杂的机器人应用在SEGWAY平台上证明了所提出的方法的功效。
translated by 谷歌翻译
本文涉及专业示范的学习安全控制法。我们假设系统动态和输出测量图的适当模型以及相应的错误界限。我们首先提出强大的输出控制屏障功能(ROCBF)作为保证安全的手段,通过控制安全集的前向不变性定义。然后,我们提出了一个优化问题,以从展示安全系统行为的专家演示中学习RocBF,例如,从人类运营商收集的数据。随着优化问题,我们提供可验证条件,可确保获得的Rocbf的有效性。这些条件在数据的密度和学习函数的LipsChitz和Lipshitz和界限常数上说明,以及系统动态和输出测量图的模型。当ROCBF的参数化是线性的,然后,在温和的假设下,优化问题是凸的。我们在自动驾驶模拟器卡拉验证了我们的调查结果,并展示了如何从RGB相机图像中学习安全控制法。
translated by 谷歌翻译
基于屏障函数的控制证书一直是一个强大的工具,可能为动态系统生成可能的安全控制策略。但是,基于屏障证书的现有方法通常用于具有可微差动态的白盒系统,这使得它们可以不适用于系统是黑盒的许多实用应用,并且不能准确地建模。另一方面,黑盒系统的无模型加强学习(RL)方法缺乏安全保证和低采样效率。在本文中,我们提出了一种新的方法,可以为黑盒动态系​​统学习安全控制政策和屏障证书,而无需准确的系统模型。我们的方法即使在黑盒式动态系统是不可差分的情况下,我们也可以重新设计损耗函数以反向传播梯度对控制策略,并且我们表明安全证书在黑盒系统上保持。仿真的经验结果表明,与最先进的黑匣子安全控制方法相比,我们的方法可以通过实现近100%的安全性和目标来实现近100%的安全性和目标达到速度。我们的学习代理商也可以在保持原始性能的同时概括取消观察方案。源代码可以在https://github.com/zengyi-qin/bcbf找到。
translated by 谷歌翻译
控制屏障功能(CBF)已被证明是非线性系统安全至关重要控制器设计的强大工具。现有的设计范式不能解决理论(具有连续时间模型的控制器设计)和实践(所得控制器的离散时间采样实现)之间的差距;这可能导致性能不佳,并且违反了硬件实例化的安全性。我们提出了一种方法,通过将采样DATA对应物合成与这些基于CBF的控制器的方法,使用近似离散的时间模型和采样DATA控制屏障函数(SD-CBFS)。使用系统连续时间模型的属性,我们建立了SD-CBF与采样数据系统的实际安全概念之间的关系。此外,我们构建了基于凸优化的控制器,该控制器正式将非线性系统赋予实践中的安全保证。我们证明了这些控制器在模拟中的功效。
translated by 谷歌翻译
Reach-避免最佳控制问题,其中系统必须在保持某些目标条件的同时保持清晰的不可接受的故障模式,是自主机器人系统的安全和活力保证的核心,但它们的确切解决方案是复杂的动态和环境的难以解决。最近的钢筋学习方法的成功与绩效目标大致解决最佳控制问题,使其应用​​于认证问题有吸引力;然而,加固学习中使用的拉格朗日型客观不适合编码时间逻辑要求。最近的工作表明,在将加强学习机械扩展到安全型问题时,其目标不是总和,但随着时间的推移最小(或最大)。在这项工作中,我们概括了加强学习制定,以处理覆盖范围的所有最佳控制问题。我们推出了一个时间折扣 - 避免了收缩映射属性的贝尔曼备份,并证明了所得达到避免Q学习算法在类似条件下会聚到传统的拉格朗郎类型问题,从而避免任意紧凑的保守近似值放。我们进一步证明了这种配方利用深度加强学习方法,通过将近似解决方案视为模型预测监督控制框架中的不受信任的oracles来保持零违规保证。我们评估我们在一系列非线性系统上的提出框架,验证了对分析和数值解决方案的结果,并通过Monte Carlo仿真在以前的棘手问题中。我们的结果为一系列基于学习的自治行为开放了大门,具有机器人和自动化的应用。有关代码和补充材料,请参阅https://github.com/saferoboticslab/safett_rl。
translated by 谷歌翻译
本文介绍了可怜的高阶控制屏障功能(CBF),即结束于最终的可训练以及学习系统。CBFS通常是过于保守的,同时保证安全。在这里,我们通过使用环境依赖性软化它们的定义来解决它们的保守性,而不会损失安全保证,并将其嵌入到可分辨率的二次方案中。这些新颖的安全层称为巴里斯网,可以与任何基于神经网络的控制器结合使用,并且可以通过梯度下降训练。Barriernet允许神经控制器的安全约束适应改变环境。我们在一系列控制问题上进行评估,例如2D和3D空间中的交通合并和机器人导航,并与最先进的方法相比,证明其有效性。
translated by 谷歌翻译
小型航空车的重量,空间和功率限制通常会阻止现代控制技术的应用,而无需简化大量模型。此外,高速敏捷行为(例如在无人机赛车中表现出来的行为)使这些简化的模型过于不可靠,无法安全至关重要。在这项工作中,我们介绍了时变备份控制器(TBC)的概念:用户指定的操作与备份控制器相结合,该备份控制器生成了参考轨迹,从而确保了非线性系统的安全性。与传统的备份控制器相比,TBC减少了保守主义,可以直接应用于多机构协调以确保安全性。从理论上讲,我们提供了严格减少保守主义的条件,描述了如何在多个TBC之间切换并显示如何将TBC嵌入多代理设置。在实验上,我们验证TBC在过滤飞行员的动作时会安全地增加操作自由,并在将两个四肢的分散安全过滤应用于分散的安全过滤时,证明了稳健性和计算效率。
translated by 谷歌翻译
安全限制和最优性很重要,但有时控制器有时相互冲突的标准。虽然这些标准通常与不同的工具单独解决以维持正式保障,但在惩罚失败时,加强学习的常见做法是惩罚,以惩罚为单纯的启发式。我们严格地检查了安全性和最优性与惩罚的关系,并对安全价值函数进行了足够的条件:对给定任务的最佳价值函数,并强制执行安全约束。我们通过强大的二元性证明,揭示这种关系的结构,表明始终存在一个有限的惩罚,引起安全值功能。这种惩罚并不是独特的,但大不束缚:更大的惩罚不会伤害最优性。虽然通常无法计算最低所需的惩罚,但我们揭示了清晰的惩罚,奖励,折扣因素和动态互动的结构。这种洞察力建议实用,理论引导的启发式设计奖励功能,用于控制安全性很重要的控制问题。
translated by 谷歌翻译
在过去的二十年中,对机器人羊群的研究受到了极大的关注。在本文中,我们提出了一种约束驱动的控制算法,该算法可最大程度地减少单个试剂的能耗并产生新兴的V形成。随着代理之间的分散相互作用的形成出现,我们的方法对自发添加或将代理去除为系统是强大的。首先,我们提出了一个分析模型,用于在固定翼无人机后面的尾巴上洗涤,并得出了尾随无人机以最大化其旅行耐力的最佳空气速度。接下来,我们证明,简单地在最佳空速上飞行将永远不会导致新兴的羊群行为,并且我们提出了一种新的分散的“ Anseroid”行为,从而产生出现的V形成。我们用约束驱动的控制算法编码这些行为,该算法最小化每个无人机的机车能力。最后,我们证明,在我们提出的控制法律下,以近似V或eChelon形成初始化的无人机将融合,我们证明了这种出现在模拟和与Crazyflie四肢旋转机队的实验中实时发生。
translated by 谷歌翻译
本文考虑了安全协调一个配备传感器的机器人团队的问题,以减少有关动态过程的不确定性,而该过程将使目标消除信息增益和能源成本。优化这种权衡是可取的,但是在机器人轨迹集中导致非占主酮目标函数。因此,基于协调下降的普通多机器人计划者失去了其性能保证。此外,处理非单调性的方法在受到机器人间碰撞避免约束时会失去其性能保证。由于需要保留性能保证和安全保证,这项工作提出了一种分布式计划者的层次结构方法,该方法使用本地搜索,并根据控制屏障功能提供了基于控制屏障功能的当地搜索和分散的控制器,以确保安全并鼓励及时到达传感位置。通过大量的模拟,硬件测试和硬件实验,我们证明了所提出的方法比基于坐标下降的算法在感应和能源成本之间取得更好的权衡。
translated by 谷歌翻译