在安全关键方案中利用自主系统需要在存在影响系统动态的不确定性和黑匣子组件存在下验证其行为。在本文中,我们开发了一个框架,用于验证部分可观察到的离散时间动态系统,从给定的输入输出数据集中具有针对时间逻辑规范的未暗模式可分散的动态系统。验证框架采用高斯进程(GP)回归,以了解数据集中的未知动态,并将连续空间系统抽象为有限状态,不确定的马尔可夫决策过程(MDP)。这种抽象依赖于通过使用可重复的内核Hilbert空间分析以及通过离散化引起的不确定性来捕获由于GP回归中的错误而捕获不确定性的过渡概率间隔。该框架利用现有的模型检查工具来验证对给定时间逻辑规范的不确定MDP抽象。我们建立将验证结果扩展到潜在部分可观察系统的抽象结果的正确性。我们表明框架的计算复杂性在数据集和离散抽象的大小中是多项式。复杂性分析说明了验证结果质量与处理较大数据集和更精细抽象的计算负担之间的权衡。最后,我们展示了我们的学习和验证框架在具有线性,非线性和切换动力系统的几种案例研究中的功效。
translated by 谷歌翻译
Automated synthesis of provably correct controllers for cyber-physical systems is crucial for deploying these systems in safety-critical scenarios. However, their hybrid features and stochastic or unknown behaviours make this synthesis problem challenging. In this paper, we propose a method for synthesizing controllers for Markov jump linear systems (MJLSs), a particular class of cyber-physical systems, that certifiably satisfy a requirement expressed as a specification in probabilistic computation tree logic (PCTL). An MJLS consists of a finite set of linear dynamics with unknown additive disturbances, where jumps between these modes are governed by a Markov decision process (MDP). We consider both the case where the transition function of this MDP is given by probability intervals or where it is completely unknown. Our approach is based on generating a finite-state abstraction which captures both the discrete and the continuous behaviour of the original system. We formalise such abstraction as an interval Markov decision process (iMDP): intervals of transition probabilities are computed using sampling techniques from the so-called "scenario approach", resulting in a probabilistically sound approximation of the MJLS. This iMDP abstracts both the jump dynamics between modes, as well as the continuous dynamics within the modes. To demonstrate the efficacy of our technique, we apply our method to multiple realistic benchmark problems, in particular, temperature control, and aerial vehicle delivery problems.
translated by 谷歌翻译
我们研究了由测量和过程噪声引起的不确定性的动态系统的规划问题。测量噪声导致系统状态可观察性有限,并且过程噪声在给定控制的结果中导致不确定性。问题是找到一个控制器,保证系统在有限时间内达到所需的目标状态,同时避免障碍物,至少需要一些所需的概率。由于噪音,此问题不承认一般的精确算法或闭合性解决方案。我们的主要贡献是一种新颖的规划方案,采用卡尔曼滤波作为状态估计器,以获得动态系统的有限状态抽象,我们将作为马尔可夫决策过程(MDP)正式化。通过延长概率间隔的MDP,我们可以增强模型对近似过渡概率的数值不精确的鲁棒性。对于这种所谓的间隔MDP(IMDP),我们采用最先进的验证技术来有效地计算最大化目标状态概率的计划。我们展示了抽象的正确性,并提供了几种优化,旨在平衡计划的质量和方法的可扩展性。我们展示我们的方法能够处理具有6维状态的系统,该系统导致具有数万个状态和数百万个过渡的IMDP。
translated by 谷歌翻译
在安全关键设置中运行的自治系统的控制器必须考虑随机扰动。这种干扰通常被建模为过程噪声,并且常见的假设是底层分布是已知的和/或高斯的。然而,在实践中,这些假设可能是不现实的并且可以导致真正噪声分布的近似值。我们提出了一种新的规划方法,不依赖于噪声分布的任何明确表示。特别是,我们解决了计算控制器的控制器,该控制器提供了安全地到达目标的概率保证。首先,我们将连续系统摘要进入一个离散状态模型,通过状态之间的概率转换捕获噪声。作为关键贡献,我们根据噪声的有限数量的样本来调整这些过渡概率的方案方法中的工具。我们在所谓的间隔马尔可夫决策过程(IMDP)的转换概率间隔中捕获这些界限。该IMDP在过渡概率中的不确定性稳健,并且可以通过样本的数量来控制概率间隔的紧张性。我们使用最先进的验证技术在IMDP上提供保证,并计算这些保证对自主系统的控制器。即使IMDP有数百万个州或过渡,也表明了我们方法的实际适用性。
translated by 谷歌翻译
强化学习(RL)是一种有希望的方法,对现实世界的应用程序取得有限,因为确保安全探索或促进充分利用是控制具有未知模型和测量不确定性的机器人系统的挑战。这种学习问题对于连续空间(状态空间和动作空间)的复杂任务变得更加棘手。在本文中,我们提出了一种由几个方面组成的基于学习的控制框架:(1)线性时间逻辑(LTL)被利用,以便于可以通过无限视野的复杂任务转换为新颖的自动化结构; (2)我们为RL-Agent提出了一种创新的奖励计划,正式保证,使全球最佳政策最大化满足LTL规范的概率; (3)基于奖励塑造技术,我们开发了利用自动机构结构的好处进行了模块化的政策梯度架构来分解整体任务,并促进学习控制器的性能; (4)通过纳入高斯过程(GPS)来估计不确定的动态系统,我们使用指数控制屏障功能(ECBF)综合基于模型的保障措施来解决高阶相对度的问题。此外,我们利用LTL自动化和ECBF的性质来构建引导过程,以进一步提高勘探效率。最后,我们通过多个机器人环境展示了框架的有效性。我们展示了这种基于ECBF的模块化深RL算法在训练期间实现了近乎完美的成功率和保护安全性,并且在训练期间具有很高的概率信心。
translated by 谷歌翻译
Capturing uncertainty in models of complex dynamical systems is crucial to designing safe controllers. Stochastic noise causes aleatoric uncertainty, whereas imprecise knowledge of model parameters leads to epistemic uncertainty. Several approaches use formal abstractions to synthesize policies that satisfy temporal specifications related to safety and reachability. However, the underlying models exclusively capture aleatoric but not epistemic uncertainty, and thus require that model parameters are known precisely. Our contribution to overcoming this restriction is a novel abstraction-based controller synthesis method for continuous-state models with stochastic noise and uncertain parameters. By sampling techniques and robust analysis, we capture both aleatoric and epistemic uncertainty, with a user-specified confidence level, in the transition probability intervals of a so-called interval Markov decision process (iMDP). We synthesize an optimal policy on this iMDP, which translates (with the specified confidence level) to a feedback controller for the continuous model with the same performance guarantees. Our experimental benchmarks confirm that accounting for epistemic uncertainty leads to controllers that are more robust against variations in parameter values.
translated by 谷歌翻译
Reinforcement learning is a powerful paradigm for learning optimal policies from experimental data. However, to find optimal policies, most reinforcement learning algorithms explore all possible actions, which may be harmful for real-world systems. As a consequence, learning algorithms are rarely applied on safety-critical systems in the real world. In this paper, we present a learning algorithm that explicitly considers safety, defined in terms of stability guarantees. Specifically, we extend control-theoretic results on Lyapunov stability verification and show how to use statistical models of the dynamics to obtain high-performance control policies with provable stability certificates. Moreover, under additional regularity assumptions in terms of a Gaussian process prior, we prove that one can effectively and safely collect data in order to learn about the dynamics and thus both improve control performance and expand the safe region of the state space. In our experiments, we show how the resulting algorithm can safely optimize a neural network policy on a simulated inverted pendulum, without the pendulum ever falling down.
translated by 谷歌翻译
考虑了建立UNKONWN地面真相函数值的样本外界限的问题。内核及其相关的希尔伯特空间是本文所采用的主要形式主义,以及一个观察模型,在该模型中,输出被有限的测量噪声损坏。噪声可以源于任何紧凑的分布,并且没有对可用数据进行独立假设。在这种情况下,我们显示计算紧密的,有限样本的不确定性范围等于求解参数四次约束线性程序。接下来,建立了我们方法的属性,并研究了其与另一种方法的关系。提出了数值实验,以说明如何在许多情况下应用理论,并将其与其他封闭形式的替代方案进行对比。
translated by 谷歌翻译
高斯流程已成为各种安全至关重要环境的有前途的工具,因为后方差可用于直接估计模型误差并量化风险。但是,针对安全 - 关键环境的最新技术取决于核超参数是已知的,这通常不适用。为了减轻这种情况,我们在具有未知的超参数的设置中引入了强大的高斯过程统一误差界。我们的方法计算超参数空间中的一个置信区域,这使我们能够获得具有任意超参数的高斯过程模型误差的概率上限。我们不需要对超参数的任何界限,这是相关工作中常见的假设。相反,我们能够以直观的方式从数据中得出界限。我们还采用了建议的技术来为一类基于学习的控制问题提供绩效保证。实验表明,界限的性能明显优于香草和完全贝叶斯高斯工艺。
translated by 谷歌翻译
We study the problem of learning controllers for discrete-time non-linear stochastic dynamical systems with formal reach-avoid guarantees. This work presents the first method for providing formal reach-avoid guarantees, which combine and generalize stability and safety guarantees, with a tolerable probability threshold $p\in[0,1]$ over the infinite time horizon. Our method leverages advances in machine learning literature and it represents formal certificates as neural networks. In particular, we learn a certificate in the form of a reach-avoid supermartingale (RASM), a novel notion that we introduce in this work. Our RASMs provide reachability and avoidance guarantees by imposing constraints on what can be viewed as a stochastic extension of level sets of Lyapunov functions for deterministic systems. Our approach solves several important problems -- it can be used to learn a control policy from scratch, to verify a reach-avoid specification for a fixed control policy, or to fine-tune a pre-trained policy if it does not satisfy the reach-avoid specification. We validate our approach on $3$ stochastic non-linear reinforcement learning tasks.
translated by 谷歌翻译
神经网络(NNS)已成功地用于代表复杂动力学系统的状态演变。这样的模型,称为NN动态模型(NNDMS),使用NN的迭代噪声预测来估计随时间推移系统轨迹的分布。尽管它们的准确性,但对NNDMS的安全分析仍然是一个具有挑战性的问题,并且在很大程度上尚未探索。为了解决这个问题,在本文中,我们介绍了一种为NNDM提供安全保证的方法。我们的方法基于随机屏障函数,其与安全性的关系类似于Lyapunov功能的稳定性。我们首先展示了通过凸优化问题合成NNDMS随机屏障函数的方法,该问题又为系统的安全概率提供了下限。我们方法中的一个关键步骤是,NNS的最新凸近似结果的利用是找到零件线性边界,这允许将屏障函数合成问题作为一个方形优化程序的制定。如果获得的安全概率高于所需的阈值,则该系统将获得认证。否则,我们引入了一种生成控制系统的方法,该系统以最小的侵入性方式稳健地最大化安全概率。我们利用屏障函数的凸属性来提出最佳控制合成问题作为线性程序。实验结果说明了该方法的功效。即,他们表明该方法可以扩展到具有多层和数百个神经元的多维NNDM,并且控制器可以显着提高安全性概率。
translated by 谷歌翻译
Safety is one of the biggest concerns to applying reinforcement learning (RL) to the physical world. In its core part, it is challenging to ensure RL agents persistently satisfy a hard state constraint without white-box or black-box dynamics models. This paper presents an integrated model learning and safe control framework to safeguard any agent, where its dynamics are learned as Gaussian processes. The proposed theory provides (i) a novel method to construct an offline dataset for model learning that best achieves safety requirements; (ii) a parameterization rule for safety index to ensure the existence of safe control; (iii) a safety guarantee in terms of probabilistic forward invariance when the model is learned using the aforementioned dataset. Simulation results show that our framework guarantees almost zero safety violation on various continuous control tasks.
translated by 谷歌翻译
Many applications require optimizing an unknown, noisy function that is expensive to evaluate. We formalize this task as a multiarmed bandit problem, where the payoff function is either sampled from a Gaussian process (GP) or has low RKHS norm. We resolve the important open problem of deriving regret bounds for this setting, which imply novel convergence rates for GP optimization. We analyze GP-UCB, an intuitive upper-confidence based algorithm, and bound its cumulative regret in terms of maximal information gain, establishing a novel connection between GP optimization and experimental design. Moreover, by bounding the latter in terms of operator spectra, we obtain explicit sublinear regret bounds for many commonly used covariance functions. In some important cases, our bounds have surprisingly weak dependence on the dimensionality. In our experiments on real sensor data, GP-UCB compares favorably with other heuristical GP optimization approaches.
translated by 谷歌翻译
动态系统的建模和仿真是许多控制方法的必要步骤。使用基于参数的基于参数的技术来建模现代系统,例如软机器人或人机交互,由于系统动态的复杂性,通常是挑战甚至不可行的。相比之下,数据驱动方法只需要最少的先验知识和规模,并以系统的复杂性规模。特别地,高斯过程动态模型(GPDMS)为复杂动态的建模提供了非常有前途的结果。然而,这些GP模型的控制特性刚刚稀疏地研究,这导致了建模和控制方案中的“黑箱”处理。此外,GPDMS对预测目的的采样,尊重其非参数性的非公平性,使得理论分析具有挑战性。在本文中,我们呈现近似的GPDM,它是马尔可夫的并分析它们的控制理论特性。其中,分析了近似的误差,提供了轨迹的界限条件。结果用数字示例说明,该数值示例显示近似模型的功率,而计算时间显着降低。
translated by 谷歌翻译
我们考虑在离散时间非线性随机控制系统中正式验证几乎核实(A.S.)渐近稳定性的问题。在文献中广泛研究确定性控制系统中的验证稳定性,验证随机控制系统中的验证稳定性是一个开放的问题。本主题的少数现有的作品只考虑专门的瞬间形式,或对系统进行限制性假设,使其无法与神经网络策略的学习算法不适用。在这项工作中,我们提出了一种具有两种新颖方面的一般非线性随机控制问题的方法:(a)Lyapunov函数的经典随机扩展,我们使用排名超大地区(RSMS)来证明〜渐近稳定性,以及(B)我们提出一种学习神经网络RSM的方法。我们证明我们的方法保证了系统的渐近稳定性,并提供了第一种方法来获得稳定时间的界限,其中随机Lyapunov功能不。最后,我们在通过神经网络政策的一套非线性随机强化学习环境上通过实验验证我们的方法。
translated by 谷歌翻译
深度加强学习是一种越来越流行的技术,用于综合政策以控制代理商与其环境的互动。正式验证此类策略是否正确并安全执行,并且安全地执行兴趣。通过建立现有工作来验证深神经网络和连续状态动态系统的现有工作,已经在这方面取得了进展。在本文中,我们解决了验证深度加强学习的概率政策的问题,这些政策用于例如解决对抗性环境,破坏对称和管理权衡。我们提出了一种基于间隔马尔可夫决策过程的抽象方法,它会产生策略的执行上的概率保证,并使用抽象解释,混合整数线性编程,基于熵的细化和概率模型检查来构建和解决这些模型的概率保证。我们实施了我们的方法,并说明了它在选择加强学习基准的效力。
translated by 谷歌翻译
Motivated by the fragility of neural network (NN) controllers in safety-critical applications, we present a data-driven framework for verifying the risk of stochastic dynamical systems with NN controllers. Given a stochastic control system, an NN controller, and a specification equipped with a notion of trace robustness (e.g., constraint functions or signal temporal logic), we collect trajectories from the system that may or may not satisfy the specification. In particular, each of the trajectories produces a robustness value that indicates how well (severely) the specification is satisfied (violated). We then compute risk metrics over these robustness values to estimate the risk that the NN controller will not satisfy the specification. We are further interested in quantifying the difference in risk between two systems, and we show how the risk estimated from a nominal system can provide an upper bound the risk of a perturbed version of the system. In particular, the tightness of this bound depends on the closeness of the systems in terms of the closeness of their system trajectories. For Lipschitz continuous and incrementally input-to-state stable systems, we show how to exactly quantify system closeness with varying degrees of conservatism, while we estimate system closeness for more general systems from data in our experiments. We demonstrate our risk verification approach on two case studies, an underwater vehicle and an F1/10 autonomous car.
translated by 谷歌翻译
马尔可夫决策过程(MDP)是在顺序决策中常用的正式模型。 MDP捕获了可能出现的随机性,例如,通过过渡函数中的概率从不精确的执行器中捕获。但是,在数据驱动的应用程序中,从(有限)数据中得出精确的概率引入了可能导致意外或不良结果的统计错误。不确定的MDP(UMDP)不需要精确的概率,而是在过渡中使用所谓的不确定性集,占此类有限的数据。正式验证社区中的工具有效地计算了强大的政策,这些政策在不确定性集中最坏的情况下,可以证明遵守正式规格,例如安全限制。我们不断地以强大的学习方法与将专用的贝叶斯推理方案与强大策略的计算结合在一起的任何时间学习方法中不断学习MDP的过渡概率。特别是,我们的方法(1)将概率近似为间隔,(2)适应可能与中间模型不一致的新数据,并且可以随时停止(3),以在UMDP上计算强大的策略,以忠实地捕获稳健的策略到目前为止的数据。我们展示了我们的方法的有效性,并将其与在几个基准的实验评估中对UMDP计算出的UMDP进行了比较。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
近年来,研究人员在设计了用于优化线性时间逻辑(LTL)目标和LTL的目标中的增强学习算法方面取得了重大进展。尽管有这些进步,但解决了这个问题的基本限制,以至于以前的研究暗示,但对我们的知识而言,尚未深入检查。在本文中,我们通过一般的LTL目标理解了学习的硬度。我们在马尔可夫决策过程(PAC-MDP)框架(PAC-MDP)框架中可能大致正确学习的问题正式化,这是一种测量加固学习中的样本复杂性的标准框架。在这一形式化中,我们证明,只有在LTL层次结构中最有限的类别中,才有于仅当公式中的最有限的类别,因此才能获得PAC-MDP的最佳政策。实际上,我们的结果意味着加强学习算法无法在与非有限范围可解除的LTL目标的无限环境的相互作用之后获得其学习政策的性能的PAC-MDP保证。
translated by 谷歌翻译