控制屏障功能(CBFS)已成为强制执行控制系统安全的流行工具。CBFS通常用于二次程序配方(CBF-QP)作为安全关键限制。CBFS中的$ \ Mathcal {K} $函数通常需要手动调整,以平衡每个环境的性能和安全之间的权衡。然而,这个过程通常是启发式的并且可以对高相对度系统进行棘手。此外,它可以防止CBF-QP概括到现实世界中的不同环境。通过将CBF-QP的优化过程嵌入深度学习架构中的可差异化层,我们提出了一种可分辨率的优化的安全性关键控制框架,使得具有前向不变性的新环境的泛化。最后,我们在各种环境中使用2D双层集成器系统验证了所提出的控制设计。
translated by 谷歌翻译
本文介绍了可怜的高阶控制屏障功能(CBF),即结束于最终的可训练以及学习系统。CBFS通常是过于保守的,同时保证安全。在这里,我们通过使用环境依赖性软化它们的定义来解决它们的保守性,而不会损失安全保证,并将其嵌入到可分辨率的二次方案中。这些新颖的安全层称为巴里斯网,可以与任何基于神经网络的控制器结合使用,并且可以通过梯度下降训练。Barriernet允许神经控制器的安全约束适应改变环境。我们在一系列控制问题上进行评估,例如2D和3D空间中的交通合并和机器人导航,并与最先进的方法相比,证明其有效性。
translated by 谷歌翻译
This paper provides an introduction and overview of recent work on control barrier functions and their use to verify and enforce safety properties in the context of (optimization based) safety-critical controllers. We survey the main technical results and discuss applications to several domains including robotic systems.
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
我们开发了一种新型的可区分预测控制(DPC),并根据控制屏障功能确保安全性和鲁棒性保证。DPC是一种基于学习的方法,用于获得近似解决方案,以解决明确的模型预测控制(MPC)问题。在DPC中,通过自动分化MPC问题获得的直接策略梯度,通过直接策略梯度进行了脱机优化的预测控制策略。所提出的方法利用了一种新形式的采样数据屏障功能,以在DPC设置中执行离线和在线安全要求,同时仅中断安全集合边界附近的基于神经网络的控制器。在模拟中证明了拟议方法的有效性。
translated by 谷歌翻译
本文开发了一种基于模型的强化学习(MBR)框架,用于在线在线学习无限范围最佳控制问题的价值函数,同时遵循表示为控制屏障功能(CBFS)的安全约束。我们的方法是通过开发一种新型的CBFS,称为Lyapunov样CBF(LCBF),其保留CBFS的有益特性,以开发最微创的安全控制政策,同时也具有阳性半自动等所需的Lyapunov样品质 - 义法。我们展示这些LCBFS如何用于增强基于学习的控制策略,以保证安全性,然后利用这种方法在MBRL设置中开发安全探索框架。我们表明,我们的开发方法可以通过各种数值示例来处理比较法的更通用的安全限制。
translated by 谷歌翻译
基于控制屏障功能(CBF)的安全过滤器已成为自治系统安全至关重要控制的实用工具。这些方法通过价值函数编码安全性,并通过对该值函数的时间导数施加限制来执行安全。但是,在存在输入限制的情况下合成并非过于保守的有效CBF是一个臭名昭著的挑战。在这项工作中,我们建议使用正式验证方法提炼候选CBF,以获得有效的CBF。特别是,我们使用基于动态编程(DP)的可及性分析更新专家合成或备份CBF。我们的框架RefineCBF保证,在每次DP迭代中,获得的CBF至少与先前的迭代一样安全,并收集到有效的CBF。因此,RefineCBF可用于机器人系统。我们证明了我们在模拟中使用各种CBF合成技术来增强安全性和/或降低一系列非线性控制型系统系统的保守性的实用性。
translated by 谷歌翻译
In this work, we propose a collision-free source seeking control framework for unicycle robots traversing an unknown cluttered environment. In this framework, the obstacle avoidance is guided by the control barrier functions (CBF) embedded in quadratic programming and the source seeking control relies solely on the use of on-board sensors that measure signal strength of the source. To tackle the mixed relative degree of the CBF, we proposed three different CBF, namely the zeroing control barrier functions (ZCBF), exponential control barrier functions (ECBF), and reciprocal control barrier functions (RCBF) that can directly be integrated with our recent gradient-ascent source-seeking control law. We provide rigorous analysis of the three different methods and show the efficacy of the approaches in simulations using Matlab, as well as, using a realistic dynamic environment with moving obstacles in Gazebo/ROS.
translated by 谷歌翻译
本文介绍了机器人系统的安全关键控制的框架,当配置空间中的安全区域上定义了安全区域时。为了保持安全性,我们基于控制屏障函数理论综合安全速度而不依赖于机器人的A可能复杂的高保真动态模型。然后,我们跟踪跟踪控制器的安全速度。这使得在无模型安全关键控制中。我们证明了拟议方法的理论安全保障。最后,我们证明这种方法是适用于棘手的。我们在高保真仿真中使用SEGWAY执行障碍避免任务,以及在硬件实验中的无人机和Quadruped。
translated by 谷歌翻译
基于二次程序(QP)基于状态反馈控制器,其不等式约束以控制障碍(CBFS)和Lyapunov函数的限制使用类-U \ Mathcal {K k} $函数其值的值,对其值的函数,对其值的参数敏感这些类 - $ \ MATHCAL {K} $ functions。但是,有效CBF的构建并不直接,对于QP的任意选择参数,系统轨迹可能会进入QP最终变得不可行的状态,或者可能无法实现所需的性能。在这项工作中,我们将控制合成问题作为差异策略提出,其参数在高级别的时间范围内被优化,从而导致双层优化常规。在不了解一组可行参数的情况下,我们开发了一种递归可行性引导的梯度下降方法来更新QP的参数,以便新解决方案至少和以前的解决方案的性能至少执行。通过将动力学系统视为有向图,随着时间的推移,这项工作提出了一种新颖的方式,可以通过(1)使用其解决方案的梯度来优化QP控制器在一个时间范围内对多个CBF的性能进行敏感性,从而提出了一种新的方式。分析,以及(2)将这些和系统动力学梯度进行反向传播,以更新参数,同时保持QPS的可行性。
translated by 谷歌翻译
对于多面体之间的障碍物躲避开发的控制器是在狭小的空间导航一个具有挑战性的和必要的问题。传统的方法只能制定的避障问题,因为离线优化问题。为了应对这些挑战,我们提出用非光滑控制屏障功能多面体之间的避障,它可以实时与基于QP的优化问题来解决基于二元安全关键最优控制。一种双优化问题被引入到表示被施加到构造控制屏障功能多面体和用于双形式的拉格朗日函数之间的最小距离。我们验证了避开障碍物与在走廊环境受控的L形(沙发形)机器人建议的双配制剂。据我们所知,这是第一次,实时紧避障与非保守的演习是在移动沙发(钢琴)与非线性动力学问题来实现的。
translated by 谷歌翻译
基于学习的控制方案最近表现出了出色的效力执行复杂的任务。但是,为了将它们部署在实际系统中,保证该系统在在线培训和执行过程中将保持安全至关重要。因此,我们需要安全的在线学习框架,能够自主地理论当前的信息是否足以确保安全或需要新的测量。在本文中,我们提出了一个由两个部分组成的框架:首先,在需要时积极收集测量的隔离外检测机制,以确保至少一个安全备份方向始终可供使用;其次,基于高斯的基于过程的概率安全 - 关键控制器可确保系统始终保持安全的可能性。我们的方法通过使用控制屏障功能来利用模型知识,并以事件触发的方式从在线数据流中收集测量,以确保学习的安全至关重要控制器的递归可行性。反过来,这又使我们能够提供具有很高概率的安全集的正式结果,即使在先验未开发的区域中也是如此。最后,我们在自适应巡航控制系统的数值模拟中验证了所提出的框架。
translated by 谷歌翻译
身体机器人的合作需要严格的安全保证,因为机器人和人类在共享工作区中工作。这封信提出了一个新颖的控制框架,以处理针对人类机器人互动的基于安全至关重要的位置的约束。所提出的方法基于入学控制,指数控制屏障功能(ECBF)和二次计划(QP),以在人与机器人之间的力相互作用期间达到合规性,同时保证安全约束。特别是,入学控制的配方被重写为二阶非线性控制系统,并且人与机器人之间的相互作用力被视为控制输入。通过使用欧洲央行-QP框架作为外部人类力量的补偿器,实时提供了用于入学控制的虚拟力反馈。因此,安全轨迹是从建议的低级控制器进行跟踪的建议的自适应入学控制方案中得出的。拟议方法的创新是,拟议的控制器将使机器人能够自然流动性遵守人类力量,而无需违反任何安全限制,即使在人类外部力量偶然迫使机器人违反约束的情况下。在对两链平面机器人操纵器的仿真研究中,我们的方法的有效性得到了证明。
translated by 谷歌翻译
Safety critical systems involve the tight coupling between potentially conflicting control objectives and safety constraints. As a means of creating a formal framework for controlling systems of this form, and with a view toward automotive applications, this paper develops a methodology that allows safety conditions-expressed as control barrier functionsto be unified with performance objectives-expressed as control Lyapunov functions-in the context of real-time optimizationbased controllers. Safety conditions are specified in terms of forward invariance of a set, and are verified via two novel generalizations of barrier functions; in each case, the existence of a barrier function satisfying Lyapunov-like conditions implies forward invariance of the set, and the relationship between these two classes of barrier functions is characterized. In addition, each of these formulations yields a notion of control barrier function (CBF), providing inequality constraints in the control input that, when satisfied, again imply forward invariance of the set. Through these constructions, CBFs can naturally be unified with control Lyapunov functions (CLFs) in the context of a quadratic program (QP); this allows for the achievement of control objectives (represented by CLFs) subject to conditions on the admissible states of the system (represented by CBFs). The mediation of safety and performance through a QP is demonstrated on adaptive cruise control and lane keeping, two automotive control problems that present both safety and performance considerations coupled with actuator bounds.
translated by 谷歌翻译
许多机器人任务需要高维传感器,如相机和激光雷达,以导航复杂的环境,但是在这些传感器周围开发认可的安全反馈控制器仍然是一个具有挑战性的公开问题,特别是在涉及学习时的开放问题。以前的作品通过分离感知和控制子系统并对感知子系统的能力做出强烈的假设来证明了感知反馈控制器的安全性。在这项工作中,我们介绍了一种新的启用学习的感知反馈混合控制器,在那里我们使用控制屏障函数(CBF)和控制Lyapunov函数(CLF)来显示全堆叠感知反馈控制器的安全性和活力。我们使用神经网络直接在机器人的观察空间中学习全堆栈系统的CBF和CLF,而无需承担基于感知的状态估计器。我们的混合控制器称为基因座(使用切换启用了学习的观察反馈控制),可以安全地导航未知的环境,始终如一地达到其目标,并将安全性安全地概括为培训数据集之外的环境。我们在模拟和硬件中展示了实验中的轨迹,在那里它使用LIDAR传感器的反馈成功地导航变化环境。
translated by 谷歌翻译
基于学习的控制器,例如神经网络(NN)控制器,可以表现出很高的经验性能,但缺乏正式的安全保证。为了解决此问题,已将控制屏障功能(CBF)应用于安全过滤器,以监视和修改基于学习的控制器的输出,以确保闭环系统的安全性。但是,这种修饰可能是近视的,具有不可预测的长期影响。在这项工作中,我们提出了一个安全的NN控制器,该控制器采用了基于CBF的可区分安全层,并研究了基于学习的控制中安全的NN控制器的性能。具体而言,比较了两个控制器的公式:一个是基于投影的,另一个依赖于我们提出的集合理论参数化。两种方法都证明了在数值实验中使用CBF作为单独的安全滤波器的改进的闭环性能。
translated by 谷歌翻译
基于屏障函数的控制证书一直是一个强大的工具,可能为动态系统生成可能的安全控制策略。但是,基于屏障证书的现有方法通常用于具有可微差动态的白盒系统,这使得它们可以不适用于系统是黑盒的许多实用应用,并且不能准确地建模。另一方面,黑盒系统的无模型加强学习(RL)方法缺乏安全保证和低采样效率。在本文中,我们提出了一种新的方法,可以为黑盒动态系​​统学习安全控制政策和屏障证书,而无需准确的系统模型。我们的方法即使在黑盒式动态系统是不可差分的情况下,我们也可以重新设计损耗函数以反向传播梯度对控制策略,并且我们表明安全证书在黑盒系统上保持。仿真的经验结果表明,与最先进的黑匣子安全控制方法相比,我们的方法可以通过实现近100%的安全性和目标来实现近100%的安全性和目标达到速度。我们的学习代理商也可以在保持原始性能的同时概括取消观察方案。源代码可以在https://github.com/zengyi-qin/bcbf找到。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
在许多情况下,增强学习(RL)已被证明是有效的。但是,通常需要探索足够多的国家行动对,其中一些对不安全。因此,其应用于安全至关重要的系统仍然是一个挑战。解决安全性的越来越普遍的方法涉及将RL动作投射到安全的一组动作上的安全层。反过来,此类框架的困难是如何有效地将RL与安全层搭配以提高学习绩效。在本文中,我们将安全性作为基于型号的RL框架中的可区分强大控制式 - 助推器功能层。此外,我们还提出了一种模块化学习基本奖励驱动的任务的方法,独立于安全限制。我们证明,这种方法既可以确保安全性,又可以有效地指导一系列实验中的训练期间的探索,包括以模块化的方式学习奖励时,包括零拍传递。
translated by 谷歌翻译
This paper proposes embedded Gaussian Process Barrier States (GP-BaS), a methodology to safely control unmodeled dynamics of nonlinear system using Bayesian learning. Gaussian Processes (GPs) are used to model the dynamics of the safety-critical system, which is subsequently used in the GP-BaS model. We derive the barrier state dynamics utilizing the GP posterior, which is used to construct a safety embedded Gaussian process dynamical model (GPDM). We show that the safety-critical system can be controlled to remain inside the safe region as long as we can design a controller that renders the BaS-GPDM's trajectories bounded (or asymptotically stable). The proposed approach overcomes various limitations in early attempts at combining GPs with barrier functions due to the abstention of restrictive assumptions such as linearity of the system with respect to control, relative degree of the constraints and number or nature of constraints. This work is implemented on various examples for trajectory optimization and control including optimal stabilization of unstable linear system and safe trajectory optimization of a Dubins vehicle navigating through an obstacle course and on a quadrotor in an obstacle avoidance task using GP differentiable dynamic programming (GP-DDP). The proposed framework is capable of maintaining safe optimization and control of unmodeled dynamics and is purely data driven.
translated by 谷歌翻译