对自动驾驶车辆的路径跟踪控制可以从深入学习中受益,以应对长期存在的挑战,例如非线性和不确定性。但是,深度神经控制器缺乏安全保证,从而限制了其实际使用。我们提出了一种新的学习方法的新方法,该方法几乎是在神经控制器下为系统设置的正向设置,以定量分析深神经控制器对路径跟踪的安全性。我们设计了基于抽样的学习程序,用于构建候选神经屏障功能,以及利用神经网络的鲁棒性分析的认证程序来确定完全满足屏障条件的区域。我们在学习和认证之间使用对抗性训练循环来优化几乎级词的功能。学习的障碍也可用于通过可及性分析来构建在线安全监视器。我们证明了我们的方法在量化各种模拟环境中神经控制器安全性方面的有效性,从简单的运动学模型到具有高保真车辆动力学模拟的TORCS模拟器。
translated by 谷歌翻译
In this work, we consider the problem of learning a feed-forward neural network controller to safely steer an arbitrarily shaped planar robot in a compact and obstacle-occluded workspace. Unlike existing methods that depend strongly on the density of data points close to the boundary of the safe state space to train neural network controllers with closed-loop safety guarantees, here we propose an alternative approach that lifts such strong assumptions on the data that are hard to satisfy in practice and instead allows for graceful safety violations, i.e., of a bounded magnitude that can be spatially controlled. To do so, we employ reachability analysis techniques to encapsulate safety constraints in the training process. Specifically, to obtain a computationally efficient over-approximation of the forward reachable set of the closed-loop system, we partition the robot's state space into cells and adaptively subdivide the cells that contain states which may escape the safe set under the trained control law. Then, using the overlap between each cell's forward reachable set and the set of infeasible robot configurations as a measure for safety violations, we introduce appropriate terms into the loss function that penalize this overlap in the training process. As a result, our method can learn a safe vector field for the closed-loop system and, at the same time, provide worst-case bounds on safety violation over the whole configuration space, defined by the overlap between the over-approximation of the forward reachable set of the closed-loop system and the set of unsafe states. Moreover, it can control the tradeoff between computational complexity and tightness of these bounds. Our proposed method is supported by both theoretical results and simulation studies.
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
本文涉及专业示范的学习安全控制法。我们假设系统动态和输出测量图的适当模型以及相应的错误界限。我们首先提出强大的输出控制屏障功能(ROCBF)作为保证安全的手段,通过控制安全集的前向不变性定义。然后,我们提出了一个优化问题,以从展示安全系统行为的专家演示中学习RocBF,例如,从人类运营商收集的数据。随着优化问题,我们提供可验证条件,可确保获得的Rocbf的有效性。这些条件在数据的密度和学习函数的LipsChitz和Lipshitz和界限常数上说明,以及系统动态和输出测量图的模型。当ROCBF的参数化是线性的,然后,在温和的假设下,优化问题是凸的。我们在自动驾驶模拟器卡拉验证了我们的调查结果,并展示了如何从RGB相机图像中学习安全控制法。
translated by 谷歌翻译
我们提出了用于学习控制策略的新方法和神经网络Lyapunov功能,以实现非线性控制问题,并可以证明可以保证稳定性。该框架由一个试图找到控制和Lyapunov功能的学习者组成,以及一个发现反例以快速指导学习者实现解决方案的伪造者。该过程终止,当未针对伪造者发现反例时,在这种情况下,受控的非线性系统被证明是稳定的。该方法显着简化了Lyapunov控制设计的过程,提供端到端的正确性保证,并且可以比LQR和SOS/SDP等现有方法获得更大的吸引力区域。我们展示了有关新方法如何获得高质量解决方案的实验。
translated by 谷歌翻译
许多机器人任务需要高维传感器,如相机和激光雷达,以导航复杂的环境,但是在这些传感器周围开发认可的安全反馈控制器仍然是一个具有挑战性的公开问题,特别是在涉及学习时的开放问题。以前的作品通过分离感知和控制子系统并对感知子系统的能力做出强烈的假设来证明了感知反馈控制器的安全性。在这项工作中,我们介绍了一种新的启用学习的感知反馈混合控制器,在那里我们使用控制屏障函数(CBF)和控制Lyapunov函数(CLF)来显示全堆叠感知反馈控制器的安全性和活力。我们使用神经网络直接在机器人的观察空间中学习全堆栈系统的CBF和CLF,而无需承担基于感知的状态估计器。我们的混合控制器称为基因座(使用切换启用了学习的观察反馈控制),可以安全地导航未知的环境,始终如一地达到其目标,并将安全性安全地概括为培训数据集之外的环境。我们在模拟和硬件中展示了实验中的轨迹,在那里它使用LIDAR传感器的反馈成功地导航变化环境。
translated by 谷歌翻译
基于屏障函数的控制证书一直是一个强大的工具,可能为动态系统生成可能的安全控制策略。但是,基于屏障证书的现有方法通常用于具有可微差动态的白盒系统,这使得它们可以不适用于系统是黑盒的许多实用应用,并且不能准确地建模。另一方面,黑盒系统的无模型加强学习(RL)方法缺乏安全保证和低采样效率。在本文中,我们提出了一种新的方法,可以为黑盒动态系​​统学习安全控制政策和屏障证书,而无需准确的系统模型。我们的方法即使在黑盒式动态系统是不可差分的情况下,我们也可以重新设计损耗函数以反向传播梯度对控制策略,并且我们表明安全证书在黑盒系统上保持。仿真的经验结果表明,与最先进的黑匣子安全控制方法相比,我们的方法可以通过实现近100%的安全性和目标来实现近100%的安全性和目标达到速度。我们的学习代理商也可以在保持原始性能的同时概括取消观察方案。源代码可以在https://github.com/zengyi-qin/bcbf找到。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
神经网络(NNS)已成功地用于代表复杂动力学系统的状态演变。这样的模型,称为NN动态模型(NNDMS),使用NN的迭代噪声预测来估计随时间推移系统轨迹的分布。尽管它们的准确性,但对NNDMS的安全分析仍然是一个具有挑战性的问题,并且在很大程度上尚未探索。为了解决这个问题,在本文中,我们介绍了一种为NNDM提供安全保证的方法。我们的方法基于随机屏障函数,其与安全性的关系类似于Lyapunov功能的稳定性。我们首先展示了通过凸优化问题合成NNDMS随机屏障函数的方法,该问题又为系统的安全概率提供了下限。我们方法中的一个关键步骤是,NNS的最新凸近似结果的利用是找到零件线性边界,这允许将屏障函数合成问题作为一个方形优化程序的制定。如果获得的安全概率高于所需的阈值,则该系统将获得认证。否则,我们引入了一种生成控制系统的方法,该系统以最小的侵入性方式稳健地最大化安全概率。我们利用屏障函数的凸属性来提出最佳控制合成问题作为线性程序。实验结果说明了该方法的功效。即,他们表明该方法可以扩展到具有多层和数百个神经元的多维NNDM,并且控制器可以显着提高安全性概率。
translated by 谷歌翻译
基于控制屏障功能(CBF)的安全过滤器已成为自治系统安全至关重要控制的实用工具。这些方法通过价值函数编码安全性,并通过对该值函数的时间导数施加限制来执行安全。但是,在存在输入限制的情况下合成并非过于保守的有效CBF是一个臭名昭著的挑战。在这项工作中,我们建议使用正式验证方法提炼候选CBF,以获得有效的CBF。特别是,我们使用基于动态编程(DP)的可及性分析更新专家合成或备份CBF。我们的框架RefineCBF保证,在每次DP迭代中,获得的CBF至少与先前的迭代一样安全,并收集到有效的CBF。因此,RefineCBF可用于机器人系统。我们证明了我们在模拟中使用各种CBF合成技术来增强安全性和/或降低一系列非线性控制型系统系统的保守性的实用性。
translated by 谷歌翻译
具有安全行为的赋予非线性系统在现代控制中越来越重要。对于必须在动态变化的环境中安全运行的现实生活控制系统,此任务尤其具有挑战性。本文通过建立环境控制障碍功能(ECBFS)的概念,在动态环境中开发了一种安全关键控制框架。即使在输入延迟存在下,该框架也能够保证安全性,通过占系统延迟响应期间环境的演变。潜在的控制合成依赖于预测系统的未来状态和延迟间隔通过延迟间隔,具有稳健的安全保证预测误差。通过简单的自适应巡航控制问题和更复杂的机器人应用在SEGWAY平台上证明了所提出的方法的功效。
translated by 谷歌翻译
受到控制障碍功能(CBF)在解决安全性方面的成功以及数据驱动技术建模功能的兴起的启发,我们提出了一种使用高斯流程(GPS)在线合成CBF的非参数方法。 CBF等数学结构通过先验设计候选功能来实现安全性。但是,设计这样的候选功能可能具有挑战性。这种设置的一个实际示例是在需要确定安全且可导航区域的灾难恢复方案中设计CBF。在这样的示例中,安全性边界未知,不能先验设计。在我们的方法中,我们使用安全样本或观察结果来在线构建CBF,通过在这些样品上具有灵活的GP,并称我们为高斯CBF的配方。除非参数外,例如分析性障碍性和稳健的不确定性估计,GP具有有利的特性。这允许通过合并方差估计来实现具有高安全性保证的后部组件,同时还计算封闭形式中相关的部分导数以实现安全控制。此外,我们方法的合成安全函数允许根据数据任意更改相应的安全集,从而允许非Convex安全集。我们通过证明对固定但任意的安全集和避免碰撞的安全性在线构建安全集的安全控制,从而在四极管上验证了我们的方法。最后,我们将高斯CBF与常规的CBF并列,在嘈杂状态下,以突出其灵活性和对噪声的鲁棒性。实验视频可以在:https://youtu.be/hx6uokvcigk上看到。
translated by 谷歌翻译
基于学习的控制器,例如神经网络(NN)控制器,可以表现出很高的经验性能,但缺乏正式的安全保证。为了解决此问题,已将控制屏障功能(CBF)应用于安全过滤器,以监视和修改基于学习的控制器的输出,以确保闭环系统的安全性。但是,这种修饰可能是近视的,具有不可预测的长期影响。在这项工作中,我们提出了一个安全的NN控制器,该控制器采用了基于CBF的可区分安全层,并研究了基于学习的控制中安全的NN控制器的性能。具体而言,比较了两个控制器的公式:一个是基于投影的,另一个依赖于我们提出的集合理论参数化。两种方法都证明了在数值实验中使用CBF作为单独的安全滤波器的改进的闭环性能。
translated by 谷歌翻译
本文介绍了机器人系统的安全关键控制的框架,当配置空间中的安全区域上定义了安全区域时。为了保持安全性,我们基于控制屏障函数理论综合安全速度而不依赖于机器人的A可能复杂的高保真动态模型。然后,我们跟踪跟踪控制器的安全速度。这使得在无模型安全关键控制中。我们证明了拟议方法的理论安全保障。最后,我们证明这种方法是适用于棘手的。我们在高保真仿真中使用SEGWAY执行障碍避免任务,以及在硬件实验中的无人机和Quadruped。
translated by 谷歌翻译
最近,基于障碍函数的安全强化学习(RL)与actor-批评结构用于连续控制任务的批评结构已经受到越来越受到关注。使用安全性和收敛保证,学习近最优控制政策仍然挑战。此外,很少有效地解决了在时变的安全约束下的安全RL算法设计。本文提出了一种基于模型的安全RL算法,用于具有时变状态和控制约束的非线性系统的最佳控制。在拟议的方法中,我们构建了一种新的基于障碍的控制策略结构,可以保证控制安全性。提出了一种多步骤策略评估机制,以预测策略在时变的安全限制下的安全风险,并指导政策安全更新。证明了稳定性和稳健性的理论结果。此外,分析了演员 - 评论家学习算法的收敛。所提出的算法的性能优于模拟安全健身房环境中的几种最先进的RL算法。此外,该方法适用于两个现实世界智能车辆的综合路径和碰撞避免问题。差动驱动车辆和Ackermann-Drive分别用于验证离线部署性能和在线学习性能。我们的方法在实验中显示了令人印象深刻的SIM-to-Real的转移能力和令人满意的在线控制性能。
translated by 谷歌翻译
稳定性和安全性是成功部署自动控制系统的关键特性。作为一个激励示例,请考虑在复杂的环境中自动移动机器人导航。概括到不同操作条件的控制设计需要系统动力学模型,鲁棒性建模错误以及对安全\ newzl {约束}的满意度,例如避免碰撞。本文开发了一个神经普通微分方程网络,以从轨迹数据中学习哈密顿系统的动态。学识渊博的哈密顿模型用于合成基于能量的被动性控制器,并分析其\ emph {鲁棒性},以在学习模型及其\ emph {Safety}中对环境施加的约束。考虑到系统的所需参考路径,我们使用虚拟参考调查员扩展了设计,以实现跟踪控制。州长国家是一个调节点,沿参考路径移动,平衡系统能级,模型不确定性界限以及违反安全性的距离,以确保稳健性和安全性。我们的哈密顿动力学学习和跟踪控制技术在\修订后的{模拟的己谐和四型机器人}在混乱的3D环境中导航。
translated by 谷歌翻译
由于这些要求的竞争性质,尤其是在一系列的运行速度和条件下,在转向控制中的准确性和误差融合与优美运动的平衡路径与优美的运动具有挑战性。本文表明,考虑滑移对运动学控制,动态控制和转向执行器速率命令的影响的集成多层转向控制器可实现准确且优美的路径。这项工作建立在多层侧滑和基于YAW的模型上,该模型允许派生控制器考虑由于侧滑而引起的误差以及转向命令和优美的侧向运动之间的映射。基于观察者的侧滑估计与运动控制器中的标题误差相结合,以提供前馈滑移补偿。使用基于速度的路径歧管,通过连续变量结构控制器(VSC)来补偿路径以下误差,以平衡优雅的运动和误差收敛。后台动态控制器使用结果偏航率命令来生成转向率命令。高增益观察者(HGO)估计输出反馈控制的侧滑和偏航率。提供了输出反馈控制器的稳定性分析,并解决了峰值。该工作仅针对侧向控制,因此转向控制器可以与其他速度控制器结合使用。现场结果提供了与相关方法的比较,这些方法在不同的复杂情况下证明了具有不同天气条件和扰动的不同复杂情况。
translated by 谷歌翻译
This paper provides an introduction and overview of recent work on control barrier functions and their use to verify and enforce safety properties in the context of (optimization based) safety-critical controllers. We survey the main technical results and discuss applications to several domains including robotic systems.
translated by 谷歌翻译
我们开发了一种新型的可区分预测控制(DPC),并根据控制屏障功能确保安全性和鲁棒性保证。DPC是一种基于学习的方法,用于获得近似解决方案,以解决明确的模型预测控制(MPC)问题。在DPC中,通过自动分化MPC问题获得的直接策略梯度,通过直接策略梯度进行了脱机优化的预测控制策略。所提出的方法利用了一种新形式的采样数据屏障功能,以在DPC设置中执行离线和在线安全要求,同时仅中断安全集合边界附近的基于神经网络的控制器。在模拟中证明了拟议方法的有效性。
translated by 谷歌翻译
在强化学习(RL)的试验和错误机制中,我们期望学习安全的政策时出现臭名昭着的矛盾:如何学习没有足够数据和关于危险区域的先前模型的安全政策?现有方法主要使用危险行动的后期惩罚,这意味着代理人不会受到惩罚,直到体验危险。这一事实导致代理商也无法在收敛之后学习零违规政策。否则,它不会收到任何惩罚并失去有关危险的知识。在本文中,我们提出了安全设置的演员 - 评论家(SSAC)算法,它使用面向安全的能量函数或安全索引限制了策略更新。安全索引旨在迅速增加,以便潜在的危险行动,这使我们能够在动作空间上找到安全设置,或控制安全集。因此,我们可以在服用它们之前识别危险行为,并在收敛后进一步获得零限制违规政策。我们声称我们可以以类似于学习价值函数的无模型方式学习能量函数。通过使用作为约束目标的能量函数转变,我们制定了受约束的RL问题。我们证明我们基于拉格朗日的解决方案确保学习的政策将收敛到某些假设下的约束优化。在复杂的模拟环境和硬件循环(HIL)实验中评估了所提出的算法,具有来自自动车辆的真实控制器。实验结果表明,所有环境中的融合政策达到了零限制违规和基于模型的基线的相当性能。
translated by 谷歌翻译