安全关键型应用程序要求控制器/政策能够保证安全高度信心。如果我们可以访问地面真实的系统动态,控制屏障功能是一种有用的工具,可以保证安全。在实践中,我们对系统动态的知识不准确,这可能导致不安全的行为导致的残余动力学。使用确定性机器学习模型学习剩余动态可以防止不安全的行为,但是当预测不完美时可能会失败。在这种情况下,概率学习方法,其预测的不确定性的原因可以有助于提供强大的安全利润。在这项工作中,我们使用高斯过程来模拟残余动力学的投影到控制屏障功能上。我们提出了一种新颖的优化程序,以产生安全控制,可以保证具有高概率的安全性。安全滤波器具有推理来自GP预测的不确定性的能力。我们通过SEGWAY和四轮车模拟的实验展示了这种方法的功效。与具有神经网络的确定性方法相比,我们所提出的概率方法能够显着降低安全违规的数量。
translated by 谷歌翻译
受到控制障碍功能(CBF)在解决安全性方面的成功以及数据驱动技术建模功能的兴起的启发,我们提出了一种使用高斯流程(GPS)在线合成CBF的非参数方法。 CBF等数学结构通过先验设计候选功能来实现安全性。但是,设计这样的候选功能可能具有挑战性。这种设置的一个实际示例是在需要确定安全且可导航区域的灾难恢复方案中设计CBF。在这样的示例中,安全性边界未知,不能先验设计。在我们的方法中,我们使用安全样本或观察结果来在线构建CBF,通过在这些样品上具有灵活的GP,并称我们为高斯CBF的配方。除非参数外,例如分析性障碍性和稳健的不确定性估计,GP具有有利的特性。这允许通过合并方差估计来实现具有高安全性保证的后部组件,同时还计算封闭形式中相关的部分导数以实现安全控制。此外,我们方法的合成安全函数允许根据数据任意更改相应的安全集,从而允许非Convex安全集。我们通过证明对固定但任意的安全集和避免碰撞的安全性在线构建安全集的安全控制,从而在四极管上验证了我们的方法。最后,我们将高斯CBF与常规的CBF并列,在嘈杂状态下,以突出其灵活性和对噪声的鲁棒性。实验视频可以在:https://youtu.be/hx6uokvcigk上看到。
translated by 谷歌翻译
This paper proposes embedded Gaussian Process Barrier States (GP-BaS), a methodology to safely control unmodeled dynamics of nonlinear system using Bayesian learning. Gaussian Processes (GPs) are used to model the dynamics of the safety-critical system, which is subsequently used in the GP-BaS model. We derive the barrier state dynamics utilizing the GP posterior, which is used to construct a safety embedded Gaussian process dynamical model (GPDM). We show that the safety-critical system can be controlled to remain inside the safe region as long as we can design a controller that renders the BaS-GPDM's trajectories bounded (or asymptotically stable). The proposed approach overcomes various limitations in early attempts at combining GPs with barrier functions due to the abstention of restrictive assumptions such as linearity of the system with respect to control, relative degree of the constraints and number or nature of constraints. This work is implemented on various examples for trajectory optimization and control including optimal stabilization of unstable linear system and safe trajectory optimization of a Dubins vehicle navigating through an obstacle course and on a quadrotor in an obstacle avoidance task using GP differentiable dynamic programming (GP-DDP). The proposed framework is capable of maintaining safe optimization and control of unmodeled dynamics and is purely data driven.
translated by 谷歌翻译
基于学习的控制方案最近表现出了出色的效力执行复杂的任务。但是,为了将它们部署在实际系统中,保证该系统在在线培训和执行过程中将保持安全至关重要。因此,我们需要安全的在线学习框架,能够自主地理论当前的信息是否足以确保安全或需要新的测量。在本文中,我们提出了一个由两个部分组成的框架:首先,在需要时积极收集测量的隔离外检测机制,以确保至少一个安全备份方向始终可供使用;其次,基于高斯的基于过程的概率安全 - 关键控制器可确保系统始终保持安全的可能性。我们的方法通过使用控制屏障功能来利用模型知识,并以事件触发的方式从在线数据流中收集测量,以确保学习的安全至关重要控制器的递归可行性。反过来,这又使我们能够提供具有很高概率的安全集的正式结果,即使在先验未开发的区域中也是如此。最后,我们在自适应巡航控制系统的数值模拟中验证了所提出的框架。
translated by 谷歌翻译
Ensuring safety is of paramount importance in physical human-robot interaction applications. This requires both an adherence to safety constraints defined on the system state, as well as guaranteeing compliant behaviour of the robot. If the underlying dynamical system is known exactly, the former can be addressed with the help of control barrier functions. Incorporation of elastic actuators in the robot's mechanical design can address the latter requirement. However, this elasticity can increase the complexity of the resulting system, leading to unmodeled dynamics, such that control barrier functions cannot directly ensure safety. In this paper, we mitigate this issue by learning the unknown dynamics using Gaussian process regression. By employing the model in a feedback linearizing control law, the safety conditions resulting from control barrier functions can be robustified to take into account model errors, while remaining feasible. In order enforce them on-line, we formulate the derived safety conditions in the form of a second-order cone program. We demonstrate our proposed approach with simulations on a two-degree of freedom planar robot with elastic joints.
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
我们呈现$ \ mathcal {cl} _1 $ - $ \ mathcal {gp} $,控制框架,使能安全同时学习和控制能够进行不确定因素的系统。这两个主要成分是基于收缩理论的$ \ mathcal {l} _1 $($ \ mathcal {cl} _1 $)控制和贝叶斯学习以高斯过程(GP)回归。$ \ mathcal {cl} _1 $控制器可确保在提供安全证书时满足控制目标。此外,$ \ mathcal {cl} _1 $ - $ \ mathcal {gp} $将任何可用数据纳入了GP的不确定因素模型,这提高了性能并使运动计划能够安全地实现最佳状态。这样,即使在学习瞬变期间,也可以保证系统的安全操作。我们提供了一些用于在各种环境中安全学习和控制平面的平面电路系统的说明性示例。
translated by 谷歌翻译
强化学习(RL)和连续的非线性控制已成功部署在复杂的顺序决策任务的多个领域中。但是,鉴于学习过程的探索性质和模型不确定性的存在,由于缺乏安全保证,将它们应用于安全至关重要的控制任务是一项挑战。另一方面,尽管将控制理论方法与学习算法相结合,但在安全RL应用中显示了希望,但安全数据收集过程的样本效率尚未得到很好的解决。在本文中,我们提出了一个\ emph {可证明的}示例有效的情节安全学习框架,用于在线控制任务,以利用未知的非线性动力学系统来利用安全的探索和剥削。特别是,框架1)在随机设置中扩展控制屏障功能(CBF),以在模型学习过程中实现可证明的高概率安全性,2)整合基于乐观的探索策略,以有效地将安全探索过程与学习的动态有效地指导安全探索过程对于\ emph {接近最佳}控制性能。我们对与理论保证的最佳控制器和概率安全性的偶发性遗憾进行了正式分析。提供了仿真结果以证明所提出算法的有效性和效率。
translated by 谷歌翻译
概率模型(例如高斯流程(GPS))是从数据中学习未知动态系统的强大工具,以供随后在控制设计中使用。尽管基于学习的控制有可能在苛刻的应用中产生卓越的性能,但对不确定性的鲁棒性仍然是一个重要的挑战。由于贝叶斯方法量化了学习结果的不确定性,因此自然地将这些不确定性纳入强大的设计。与大多数考虑最坏情况估计值的最先进的方法相反,我们利用了学习方法在控制器合成中的后验分布。结果是性能和稳健性之间更加明智的,因此更有效的权衡。我们提出了一种新型的控制器合成,用于线性化的GP动力学,该动力学相对于概率稳定性缘就产生了可靠的控制器。该公式基于最近提出的线性二次控制综合算法,我们通过提供概率的鲁棒性来保证该系统的稳定性以可信度的范围为系统的稳定性范围,以基于最差的方法和确定性设计的现有方法的稳定性范围。提出方法的性能和鲁棒性。
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
各种科学和工程领域使用参数化机制模型。工程师和科学家通常可以假设几个竞争模型来解释特定的过程或现象。考虑一个模特歧视设置,我们希望找到最佳机械,动态模型候选者和最佳模型参数估计。通常,若干竞争机械模型可以解释可用数据,因此通过找到最大化模型预测发散的实验设置,可以通过找到最大化模型预测发散的实验设置来实现最佳地收集额外数据的动态实验。我们争论文献中有两种主要方法,用于解决最佳设计问题:(i)分析方法,使用线性和高斯近似来找设计目标的闭合表达式,以及(ii)数据驱动方法,这通常依赖于计算密集的蒙特卡罗技术。 olofsson等人。 (ICML 35,2018)介绍了高斯工艺(GP)替代模型来杂交的分析和数据驱动方法,这允许计算的实验设计,以识别黑盒式模型。在这项研究中,我们证明我们可以扩展现有的动态实验设计方法,以纳入更广泛的问题不确定性。我们还延伸了Olofsson等人。 (2018)使用GP代理模型来辨别动态黑盒式模型的方法。我们在文献中的着名案例研究中评估了我们的方法,并探讨了使用GP代理到近似基于梯度的方法的后果。
translated by 谷歌翻译
高斯流程已成为各种安全至关重要环境的有前途的工具,因为后方差可用于直接估计模型误差并量化风险。但是,针对安全 - 关键环境的最新技术取决于核超参数是已知的,这通常不适用。为了减轻这种情况,我们在具有未知的超参数的设置中引入了强大的高斯过程统一误差界。我们的方法计算超参数空间中的一个置信区域,这使我们能够获得具有任意超参数的高斯过程模型误差的概率上限。我们不需要对超参数的任何界限,这是相关工作中常见的假设。相反,我们能够以直观的方式从数据中得出界限。我们还采用了建议的技术来为一类基于学习的控制问题提供绩效保证。实验表明,界限的性能明显优于香草和完全贝叶斯高斯工艺。
translated by 谷歌翻译
Safety is one of the biggest concerns to applying reinforcement learning (RL) to the physical world. In its core part, it is challenging to ensure RL agents persistently satisfy a hard state constraint without white-box or black-box dynamics models. This paper presents an integrated model learning and safe control framework to safeguard any agent, where its dynamics are learned as Gaussian processes. The proposed theory provides (i) a novel method to construct an offline dataset for model learning that best achieves safety requirements; (ii) a parameterization rule for safety index to ensure the existence of safe control; (iii) a safety guarantee in terms of probabilistic forward invariance when the model is learned using the aforementioned dataset. Simulation results show that our framework guarantees almost zero safety violation on various continuous control tasks.
translated by 谷歌翻译
神经网络(NNS)已成功地用于代表复杂动力学系统的状态演变。这样的模型,称为NN动态模型(NNDMS),使用NN的迭代噪声预测来估计随时间推移系统轨迹的分布。尽管它们的准确性,但对NNDMS的安全分析仍然是一个具有挑战性的问题,并且在很大程度上尚未探索。为了解决这个问题,在本文中,我们介绍了一种为NNDM提供安全保证的方法。我们的方法基于随机屏障函数,其与安全性的关系类似于Lyapunov功能的稳定性。我们首先展示了通过凸优化问题合成NNDMS随机屏障函数的方法,该问题又为系统的安全概率提供了下限。我们方法中的一个关键步骤是,NNS的最新凸近似结果的利用是找到零件线性边界,这允许将屏障函数合成问题作为一个方形优化程序的制定。如果获得的安全概率高于所需的阈值,则该系统将获得认证。否则,我们引入了一种生成控制系统的方法,该系统以最小的侵入性方式稳健地最大化安全概率。我们利用屏障函数的凸属性来提出最佳控制合成问题作为线性程序。实验结果说明了该方法的功效。即,他们表明该方法可以扩展到具有多层和数百个神经元的多维NNDM,并且控制器可以显着提高安全性概率。
translated by 谷歌翻译
计算机视觉和机器学习的进步使机器人能够以强大的新方式感知其周围环境,但是这些感知模块具有众所周知的脆弱性。我们考虑了合成尽管有知觉错误的安全控制器的问题。所提出的方法基于具有输入依赖性噪声的高斯过程构建状态估计器。该估计器为给定状态计算实际状态的高信心集。然后,合成了可证明可以处理状态不确定性的强大神经网络控制器。此外,提出了一种自适应采样算法来共同改善估计器和控制器。模拟实验,包括Carla中基于逼真的巷道示例,说明了提出方法在与基于深度学习的感知合成强大控制器中提出的方法的希望。
translated by 谷歌翻译
在本文中,我们介绍了一种基于在线模型的新型强化学习算法,该学习算法使用无知的转换来传播不确定性以预测未来的奖励。先前的方法要么用高斯在预测范围的每个步骤上近似状态分布,要么执行蒙特卡洛模拟以估计奖励。我们的方法取决于所使用的sigma点的数量,可以传播平均值和协方差,或与最小点或高阶矩具有与蒙特卡洛相似的高阶矩。整个框架是作为用于在线培训的计算图。此外,为了防止通过通用状态依赖性不确定性模型传播时Sigma点的爆炸数,我们将Sigma点的扩展和收缩层添加到我们的图形中,该图形是使用矩匹配的原理设计的。最后,我们提出了受顺序二次编程启发的梯度下降,以在存在状态约束的情况下更新策略参数。我们证明了在模拟中使用两种应用的建议方法。当动力学以状态依赖性的不确定性知道时,第一个为卡车杆问题设计了一个稳定控制器。第二个示例是在我们以前的工作之后,在存在输入约束的情况下,调整了基于控制屏障函数函数的二次编程控制器的参数。
translated by 谷歌翻译
We propose a learning-based robust predictive control algorithm that compensates for significant uncertainty in the dynamics for a class of discrete-time systems that are nominally linear with an additive nonlinear component. Such systems commonly model the nonlinear effects of an unknown environment on a nominal system. We optimize over a class of nonlinear feedback policies inspired by certainty equivalent "estimate-and-cancel" control laws pioneered in classical adaptive control to achieve significant performance improvements in the presence of uncertainties of large magnitude, a setting in which existing learning-based predictive control algorithms often struggle to guarantee safety. In contrast to previous work in robust adaptive MPC, our approach allows us to take advantage of structure (i.e., the numerical predictions) in the a priori unknown dynamics learned online through function approximation. Our approach also extends typical nonlinear adaptive control methods to systems with state and input constraints even when we cannot directly cancel the additive uncertain function from the dynamics. We apply contemporary statistical estimation techniques to certify the system's safety through persistent constraint satisfaction with high probability. Moreover, we propose using Bayesian meta-learning algorithms that learn calibrated model priors to help satisfy the assumptions of the control design in challenging settings. Finally, we show in simulation that our method can accommodate more significant unknown dynamics terms than existing methods and that the use of Bayesian meta-learning allows us to adapt to the test environments more rapidly.
translated by 谷歌翻译
机器人等系统的安全操作要求它们计划和执行受安全约束的轨迹。当这些系统受到动态的不确定性的影响时,确保不违反限制是具有挑战性的。本文提出了基于受约束差分动态规划(DDP)的附加不确定性和非线性安全约束的安全轨迹,安全轨迹优化和控制方法。在其运动中的机器人的安全性被制定为机会限制了用户所选择的约束满足的概率。通过约束收紧将机会约束转换为DDP制剂中的确定性。为了避免在约束期间的过保守,从受约束的DDP导出的反馈策略的线性控制增益用于预测中的闭环不确定性传播的近似。所提出的算法在三种不同的机器人动态上进行了经验评估,模拟中具有高达12度的自由度。使用物理硬件实现对方法的计算可行性和适用性进行了说明。
translated by 谷歌翻译
强化学习(RL)控制器在控制社区中产生了兴奋。 RL控制器相对于现有方法的主要优点是它们能够优化不确定的系统,独立于明确假设过程不确定性。最近对工程应用的关注是针对安全RL控制器的发展。以前的作品已经提出了通过从随机模型预测控制领域的限制收紧来解释约束满足的方法。在这里,我们将这些方法扩展到植物模型不匹配。具体地,我们提出了一种利用离线仿真模型的高斯过程的数据驱动方法,并使用相关的后部不确定预测来解释联合机会限制和植物模型不匹配。该方法通过案例研究反对非线性模型预测控制的基准测试。结果证明了方法理解过程不确定性的能力,即使在植物模型错配的情况下也能满足联合机会限制。
translated by 谷歌翻译
模型不匹配在现实世界应用中占上风。因此,为具有不确定动态模型的系统设计可靠的安全控制算法很重要。主要的挑战是,不确定性导致难以实时寻找可行的安全控制。现有方法通常简化了问题,例如限制不确定性类型,忽略控制限制或放弃可行性保证。在这项工作中,我们通过为有限国家依赖性的不确定性提出一个强大的安全控制框架来克服这些问题。我们首先通过学习控制控制限制,不确定的安全性索引来保证安全控制不确定动态的可行性。然后,我们证明可以将稳健的安全控制作为凸问题(凸度半侵入编程或二阶锥编程)配制,并提出可以实时运行的相应最佳求解器。此外,我们分析了在未建模的不确定性下何时以及如何保留安全性。实验结果表明,我们的方法成功地发现了针对不同的不确定性实时的可靠安全控制,并且比强大的基线算法要保守得多。
translated by 谷歌翻译