我们在非常严重的数据限制下开发一种基于学习的动态系统的控制算法。具体地,该算法只能从单个和正在进行的试验中访问流和嘈杂的数据。它通过有效地利用有关动力学的各种形式的侧面信息来实现这种性能,以降低样本复杂性。这些侧面信息通常来自系统的基本定律和系统的定性特性。更确切地说,该算法大致解决了编码系统所需行为的最佳控制问题。为此,它构建并迭代地改进数据驱动的差分包容,其包含动态的未知矢量字段。在间隔泰勒的方法中使用的差分包容使得能够过度近似于系统可能达到的状态。从理论上讲,我们在具有已知动态的最佳控制的最佳控制的近似解的次优化上建立了界限。我们展示了试验或更侧面信息的时间越长,界限更严格。凭经验,在高保真F-16飞机模拟器和Mujoco的环境中的实验说明,尽管数据稀缺,但算法可以提供与培训数百万环境相互作用的增强学习算法相当的性能。此外,我们表明该算法优于系统识别和模型预测控制的现有技术。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
数据科学和机器学习的进展已在非线性动力学系统的建模和模拟方面取得了重大改进。如今,可以准确预测复杂系统,例如天气,疾病模型或股市。预测方法通常被宣传为对控制有用,但是由于系统的复杂性,较大的数据集的需求以及增加的建模工作,这些细节经常没有得到解答。换句话说,自治系统的替代建模比控制系统要容易得多。在本文中,我们介绍了Quasimodo框架(量化模拟模拟模拟 - 优化),以将任意预测模型转换为控制系统,从而使数据驱动的替代模型的巨大进步可访问控制系统。我们的主要贡献是,我们通过自动化动力学(产生混合企业控制问题)来贸易控制效率,以获取任意,即使用的自主替代建模技术。然后,我们通过利用混合成员优化的最新结果来恢复原始问题的复杂性。 Quasimodo的优点是数据要求在控制维度方面的线性增加,性能保证仅依赖于使用的预测模型的准确性,而控制理论中的知识知识要求很少来解决复杂的控制问题。
translated by 谷歌翻译
Reinforcement learning is a powerful paradigm for learning optimal policies from experimental data. However, to find optimal policies, most reinforcement learning algorithms explore all possible actions, which may be harmful for real-world systems. As a consequence, learning algorithms are rarely applied on safety-critical systems in the real world. In this paper, we present a learning algorithm that explicitly considers safety, defined in terms of stability guarantees. Specifically, we extend control-theoretic results on Lyapunov stability verification and show how to use statistical models of the dynamics to obtain high-performance control policies with provable stability certificates. Moreover, under additional regularity assumptions in terms of a Gaussian process prior, we prove that one can effectively and safely collect data in order to learn about the dynamics and thus both improve control performance and expand the safe region of the state space. In our experiments, we show how the resulting algorithm can safely optimize a neural network policy on a simulated inverted pendulum, without the pendulum ever falling down.
translated by 谷歌翻译
在安全关键方案中利用自主系统需要在存在影响系统动态的不确定性和黑匣子组件存在下验证其行为。在本文中,我们开发了一个框架,用于验证部分可观察到的离散时间动态系统,从给定的输入输出数据集中具有针对时间逻辑规范的未暗模式可分散的动态系统。验证框架采用高斯进程(GP)回归,以了解数据集中的未知动态,并将连续空间系统抽象为有限状态,不确定的马尔可夫决策过程(MDP)。这种抽象依赖于通过使用可重复的内核Hilbert空间分析以及通过离散化引起的不确定性来捕获由于GP回归中的错误而捕获不确定性的过渡概率间隔。该框架利用现有的模型检查工具来验证对给定时间逻辑规范的不确定MDP抽象。我们建立将验证结果扩展到潜在部分可观察系统的抽象结果的正确性。我们表明框架的计算复杂性在数据集和离散抽象的大小中是多项式。复杂性分析说明了验证结果质量与处理较大数据集和更精细抽象的计算负担之间的权衡。最后,我们展示了我们的学习和验证框架在具有线性,非线性和切换动力系统的几种案例研究中的功效。
translated by 谷歌翻译
We introduce a class of first-order methods for smooth constrained optimization that are based on an analogy to non-smooth dynamical systems. Two distinctive features of our approach are that (i) projections or optimizations over the entire feasible set are avoided, in stark contrast to projected gradient methods or the Frank-Wolfe method, and (ii) iterates are allowed to become infeasible, which differs from active set or feasible direction methods, where the descent motion stops as soon as a new constraint is encountered. The resulting algorithmic procedure is simple to implement even when constraints are nonlinear, and is suitable for large-scale constrained optimization problems in which the feasible set fails to have a simple structure. The key underlying idea is that constraints are expressed in terms of velocities instead of positions, which has the algorithmic consequence that optimizations over feasible sets at each iteration are replaced with optimizations over local, sparse convex approximations. In particular, this means that at each iteration only constraints that are violated are taken into account. The result is a simplified suite of algorithms and an expanded range of possible applications in machine learning.
translated by 谷歌翻译
基于学习的控制方案最近表现出了出色的效力执行复杂的任务。但是,为了将它们部署在实际系统中,保证该系统在在线培训和执行过程中将保持安全至关重要。因此,我们需要安全的在线学习框架,能够自主地理论当前的信息是否足以确保安全或需要新的测量。在本文中,我们提出了一个由两个部分组成的框架:首先,在需要时积极收集测量的隔离外检测机制,以确保至少一个安全备份方向始终可供使用;其次,基于高斯的基于过程的概率安全 - 关键控制器可确保系统始终保持安全的可能性。我们的方法通过使用控制屏障功能来利用模型知识,并以事件触发的方式从在线数据流中收集测量,以确保学习的安全至关重要控制器的递归可行性。反过来,这又使我们能够提供具有很高概率的安全集的正式结果,即使在先验未开发的区域中也是如此。最后,我们在自适应巡航控制系统的数值模拟中验证了所提出的框架。
translated by 谷歌翻译
We present a new algorithm for automatically bounding the Taylor remainder series. In the special case of a scalar function $f: \mathbb{R} \mapsto \mathbb{R}$, our algorithm takes as input a reference point $x_0$, trust region $[a, b]$, and integer $k \ge 0$, and returns an interval $I$ such that $f(x) - \sum_{i=0}^k \frac {f^{(i)}(x_0)} {i!} (x - x_0)^i \in I (x - x_0)^{k+1}$ for all $x \in [a, b]$. As in automatic differentiation, the function $f$ is provided to the algorithm in symbolic form, and must be composed of known elementary functions. At a high level, our algorithm has two steps. First, for a variety of commonly-used elementary functions (e.g., $\exp$, $\log$), we derive sharp polynomial upper and lower bounds on the Taylor remainder series. We then recursively combine the bounds for the elementary functions using an interval arithmetic variant of Taylor-mode automatic differentiation. Our algorithm can make efficient use of machine learning hardware accelerators, and we provide an open source implementation in JAX. We then turn our attention to applications. Most notably, we use our new machinery to create the first universal majorization-minimization optimization algorithms: algorithms that iteratively minimize an arbitrary loss using a majorizer that is derived automatically, rather than by hand. Applied to machine learning, this leads to architecture-specific optimizers for training deep networks that converge from any starting point, without hyperparameter tuning. Our experiments show that for some optimization problems, these hyperparameter-free optimizers outperform tuned versions of gradient descent, Adam, and AdaGrad. We also show that our automatically-derived bounds can be used for verified global optimization and numerical integration, and to prove sharper versions of Jensen's inequality.
translated by 谷歌翻译
我们为具有有界过程和测量噪声的未知线性系统模型提供了一种强大的数据驱动控制方案。不取决于传统预测控制中的系统模型,提出了利用数据驱动的可达区域的控制器。数据驱动的可到达区域基于矩阵Zonotope递归,并且基于仅系统的轨迹的噪声输入输出数据来计算。我们假设测量和过程噪声包含在有界集中。虽然我们承担了这些界限的知识,但假设了关于噪声的统计特性的知识。在无噪声情况下,我们证明所呈现的纯粹数据驱动的控制方案导致等效的闭环行为到标称模型预测控制方案。在测量和过程噪声的情况下,我们提出的方案保证了强大的约束满足感,这在安全关键型应用中至关重要。数值实验表明了所提出的数据驱动控制器与基于模型的控制方案相比的有效性。
translated by 谷歌翻译
强化学习(RL)和连续的非线性控制已成功部署在复杂的顺序决策任务的多个领域中。但是,鉴于学习过程的探索性质和模型不确定性的存在,由于缺乏安全保证,将它们应用于安全至关重要的控制任务是一项挑战。另一方面,尽管将控制理论方法与学习算法相结合,但在安全RL应用中显示了希望,但安全数据收集过程的样本效率尚未得到很好的解决。在本文中,我们提出了一个\ emph {可证明的}示例有效的情节安全学习框架,用于在线控制任务,以利用未知的非线性动力学系统来利用安全的探索和剥削。特别是,框架1)在随机设置中扩展控制屏障功能(CBF),以在模型学习过程中实现可证明的高概率安全性,2)整合基于乐观的探索策略,以有效地将安全探索过程与学习的动态有效地指导安全探索过程对于\ emph {接近最佳}控制性能。我们对与理论保证的最佳控制器和概率安全性的偶发性遗憾进行了正式分析。提供了仿真结果以证明所提出算法的有效性和效率。
translated by 谷歌翻译
我们提出了Polar,A \ textbf {pol} ynomial \ textbf {ar} iThmetic框架,该框架利用多项式过度应用与间隔剩余的剩余,以进行界限时间到达的到达时间到达,对神经网络控制系统(NNCSS)的界限到达。与使用标准泰勒模型的现有算术方法相比,我们的框架使用一种新颖的方法来迭代过度陈化神经元的输出范围逐层范围均与伯恩斯坦多项式插值的组合,用于连续激活功能和其他操作的泰勒模型。这种方法可以克服标准泰勒模型算术中的主要缺点,即无法处理泰勒多项式无法很好地近似的功能,并显着提高了NNCS的可及状态计算的准确性和效率。为了进一步拧紧过度应用,我们的方法在估计神经网络的输出范围时,将泰勒模型保持在线性映射下的象征性。我们表明,极性可以与现有的泰勒模型流管构造技术无缝集成,并证明极性在一组基准测试套件上明显优于当前最新技术。
translated by 谷歌翻译
We propose a learning-based robust predictive control algorithm that compensates for significant uncertainty in the dynamics for a class of discrete-time systems that are nominally linear with an additive nonlinear component. Such systems commonly model the nonlinear effects of an unknown environment on a nominal system. We optimize over a class of nonlinear feedback policies inspired by certainty equivalent "estimate-and-cancel" control laws pioneered in classical adaptive control to achieve significant performance improvements in the presence of uncertainties of large magnitude, a setting in which existing learning-based predictive control algorithms often struggle to guarantee safety. In contrast to previous work in robust adaptive MPC, our approach allows us to take advantage of structure (i.e., the numerical predictions) in the a priori unknown dynamics learned online through function approximation. Our approach also extends typical nonlinear adaptive control methods to systems with state and input constraints even when we cannot directly cancel the additive uncertain function from the dynamics. We apply contemporary statistical estimation techniques to certify the system's safety through persistent constraint satisfaction with high probability. Moreover, we propose using Bayesian meta-learning algorithms that learn calibrated model priors to help satisfy the assumptions of the control design in challenging settings. Finally, we show in simulation that our method can accommodate more significant unknown dynamics terms than existing methods and that the use of Bayesian meta-learning allows us to adapt to the test environments more rapidly.
translated by 谷歌翻译
该论文提出了两种控制方法,用于用微型四轮驱动器进行反弹式操纵。首先,对专门为反转设计设计的现有前馈控制策略进行了修订和改进。使用替代高斯工艺模型的贝叶斯优化通过在模拟环境中反复执行翻转操作来找到最佳运动原语序列。第二种方法基于闭环控制,它由两个主要步骤组成:首先,即使在模型不确定性的情况下,自适应控制器也旨在提供可靠的参考跟踪。控制器是通过通过测量数据调整的高斯过程来增强无人机的标称模型来构建的。其次,提出了一种有效的轨迹计划算法,该算法仅使用二次编程来设计可行的轨迹为反弹操作设计。在模拟和使用BitCraze Crazyflie 2.1四肢旋转器中对两种方法进行了分析。
translated by 谷歌翻译
本文涉及专业示范的学习安全控制法。我们假设系统动态和输出测量图的适当模型以及相应的错误界限。我们首先提出强大的输出控制屏障功能(ROCBF)作为保证安全的手段,通过控制安全集的前向不变性定义。然后,我们提出了一个优化问题,以从展示安全系统行为的专家演示中学习RocBF,例如,从人类运营商收集的数据。随着优化问题,我们提供可验证条件,可确保获得的Rocbf的有效性。这些条件在数据的密度和学习函数的LipsChitz和Lipshitz和界限常数上说明,以及系统动态和输出测量图的模型。当ROCBF的参数化是线性的,然后,在温和的假设下,优化问题是凸的。我们在自动驾驶模拟器卡拉验证了我们的调查结果,并展示了如何从RGB相机图像中学习安全控制法。
translated by 谷歌翻译
This paper proposes embedded Gaussian Process Barrier States (GP-BaS), a methodology to safely control unmodeled dynamics of nonlinear system using Bayesian learning. Gaussian Processes (GPs) are used to model the dynamics of the safety-critical system, which is subsequently used in the GP-BaS model. We derive the barrier state dynamics utilizing the GP posterior, which is used to construct a safety embedded Gaussian process dynamical model (GPDM). We show that the safety-critical system can be controlled to remain inside the safe region as long as we can design a controller that renders the BaS-GPDM's trajectories bounded (or asymptotically stable). The proposed approach overcomes various limitations in early attempts at combining GPs with barrier functions due to the abstention of restrictive assumptions such as linearity of the system with respect to control, relative degree of the constraints and number or nature of constraints. This work is implemented on various examples for trajectory optimization and control including optimal stabilization of unstable linear system and safe trajectory optimization of a Dubins vehicle navigating through an obstacle course and on a quadrotor in an obstacle avoidance task using GP differentiable dynamic programming (GP-DDP). The proposed framework is capable of maintaining safe optimization and control of unmodeled dynamics and is purely data driven.
translated by 谷歌翻译
非线性自适应控制理论中的一个关键假设是系统的不确定性可以在一组已知基本函数的线性跨度中表示。虽然该假设导致有效的算法,但它将应用限制为非常特定的系统类别。我们介绍一种新的非参数自适应算法,其在参数上学习无限尺寸密度,以取消再现内核希尔伯特空间中的未知干扰。令人惊讶的是,所产生的控制输入承认,尽管其底层无限尺寸结构,但是尽管它的潜在无限尺寸结构实现了其实施的分析表达。虽然这种自适应输入具有丰富和富有敏感性的 - 例如,传统的线性参数化 - 其计算复杂性随时间线性增长,使其比其参数对应力相对较高。利用随机傅里叶特征的理论,我们提供了一种有效的随机实现,该实现恢复了经典参数方法的复杂性,同时可透明地保留非参数输入的表征性。特别地,我们的显式范围仅取决于系统的基础参数,允许我们所提出的算法有效地缩放到高维系统。作为该方法的说明,我们展示了随机近似算法学习由牛顿重力交互的十点批量组成的60维系统的预测模型的能力。
translated by 谷歌翻译
星际对象(ISO),与太阳相结合的无重力的天文对象,可能是原始材料的代表,在理解系外星系中无价。然而,由于其倾斜度通常很高和相对速度的限制性较差,因此,使用常规的人类在循环方法中探索ISO非常具有挑战性。本文介绍了神经汇聚 - 一个基于深度学习的指导和控制框架,用于遇到任何快速移动的对象,包括ISO,稳健,准确和实时自主。它在指导策略之上使用最小规范跟踪控制,该指南策略由频谱归一化的深神经网络建模,在该策略策略中,其超级参数通过新引入的损耗函数调节,直接惩罚了状态轨迹跟踪错误。我们严格地表明,即使在ISO探索的挑战性案例中,神经汇聚也提供了1)在预期的航天器递送误差上的高概率指数构成; 2)关于模型预测控制的解决方案的有限最优差距,这两者都是必不可少的,尤其是对于如此关键的空间任务。在数值模拟中,证明神经汇聚可以达到99%具有现实状态不确定性的ISO候选者的终末交付误差小于0.2 km,同时保留足以实现实时实施的计算效率。
translated by 谷歌翻译
我们考虑在一个有限时间范围内的离散时间随机动力系统的联合设计和控制。我们将问题作为一个多步优化问题,在寻求识别系统设计和控制政策的不确定性下,共同最大化所考虑的时间范围内收集的预期奖励总和。转换函数,奖励函数和策略都是参数化的,假设与其参数有所不同。然后,我们引入了一种深度加强学习算法,将策略梯度方法与基于模型的优化技术相结合以解决这个问题。从本质上讲,我们的算法迭代地估计通过Monte-Carlo采样和自动分化的预期返回的梯度,并在环境和策略参数空间中投影梯度上升步骤。该算法称为直接环境和策略搜索(DEPS)。我们评估我们算法在三个环境中的性能,分别在三种环境中进行了一个群众弹簧阻尼系统的设计和控制,分别小型离网电力系统和无人机。此外,我们的算法是针对用于解决联合设计和控制问题的最先进的深增强学习算法的基准测试。我们表明,在所有三种环境中,DEPS至少在或更好地执行,始终如一地产生更高的迭代返回的解决方案。最后,通过我们的算法产生的解决方案也与由算法产生的解决方案相比,不共同优化环境和策略参数,突出显示在执行联合优化时可以实现更高返回的事实。
translated by 谷歌翻译