收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
星际对象(ISO),与太阳相结合的无重力的天文对象,可能是原始材料的代表,在理解系外星系中无价。然而,由于其倾斜度通常很高和相对速度的限制性较差,因此,使用常规的人类在循环方法中探索ISO非常具有挑战性。本文介绍了神经汇聚 - 一个基于深度学习的指导和控制框架,用于遇到任何快速移动的对象,包括ISO,稳健,准确和实时自主。它在指导策略之上使用最小规范跟踪控制,该指南策略由频谱归一化的深神经网络建模,在该策略策略中,其超级参数通过新引入的损耗函数调节,直接惩罚了状态轨迹跟踪错误。我们严格地表明,即使在ISO探索的挑战性案例中,神经汇聚也提供了1)在预期的航天器递送误差上的高概率指数构成; 2)关于模型预测控制的解决方案的有限最优差距,这两者都是必不可少的,尤其是对于如此关键的空间任务。在数值模拟中,证明神经汇聚可以达到99%具有现实状态不确定性的ISO候选者的终末交付误差小于0.2 km,同时保留足以实现实时实施的计算效率。
translated by 谷歌翻译
本文提出了一种基于匹配不确定性的非线性系统的收缩指标和干扰估计的轨迹中心学习控制方法。该方法允许使用广泛的模型学习工具,包括深神经网络,以学习不确定的动态,同时仍然在整个学习阶段提供瞬态跟踪性能的保证,包括没有学习的特殊情况。在所提出的方法中,提出了一种扰动估计法,以估计不确定性的点值,具有预计估计误差限制(EEB)。学习的动态,估计的紊乱和EEB在强大的黎曼能量条件下并入,以计算控制法,即使学习模型较差,也能保证在整个学习阶段的所需轨迹对所需轨迹的指数趋同。另一方面,具有改进的精度,学习的模型可以在高级计划器中结合,以规划更好的性能,例如降低能耗和更短的旅行时间。建议的框架在平面Quadrotor导航示例上验证。
translated by 谷歌翻译
Learning-enabled control systems have demonstrated impressive empirical performance on challenging control problems in robotics, but this performance comes at the cost of reduced transparency and lack of guarantees on the safety or stability of the learned controllers. In recent years, new techniques have emerged to provide these guarantees by learning certificates alongside control policies -- these certificates provide concise, data-driven proofs that guarantee the safety and stability of the learned control system. These methods not only allow the user to verify the safety of a learned controller but also provide supervision during training, allowing safety and stability requirements to influence the training process itself. In this paper, we provide a comprehensive survey of this rapidly developing field of certificate learning. We hope that this paper will serve as an accessible introduction to the theory and practice of certificate learning, both to those who wish to apply these tools to practical robotics problems and to those who wish to dive more deeply into the theory of learning for control.
translated by 谷歌翻译
非线性自适应控制理论中的一个关键假设是系统的不确定性可以在一组已知基本函数的线性跨度中表示。虽然该假设导致有效的算法,但它将应用限制为非常特定的系统类别。我们介绍一种新的非参数自适应算法,其在参数上学习无限尺寸密度,以取消再现内核希尔伯特空间中的未知干扰。令人惊讶的是,所产生的控制输入承认,尽管其底层无限尺寸结构,但是尽管它的潜在无限尺寸结构实现了其实施的分析表达。虽然这种自适应输入具有丰富和富有敏感性的 - 例如,传统的线性参数化 - 其计算复杂性随时间线性增长,使其比其参数对应力相对较高。利用随机傅里叶特征的理论,我们提供了一种有效的随机实现,该实现恢复了经典参数方法的复杂性,同时可透明地保留非参数输入的表征性。特别地,我们的显式范围仅取决于系统的基础参数,允许我们所提出的算法有效地缩放到高维系统。作为该方法的说明,我们展示了随机近似算法学习由牛顿重力交互的十点批量组成的60维系统的预测模型的能力。
translated by 谷歌翻译
我们为一类不确定的控制型非线性系统提供了一种运动计划算法,该系统可以在使用高维传感器测量值(例如RGB-D图像)和反馈控制循环中的学习感知模块时确保运行时安全性和目标达到性能。首先,给定状态和观察数据集,我们训练一个感知系统,该系统试图从观察结果中倒入状态的一部分,并估计感知错误上的上限,该误差有效,在数据附近有可信赖的域中具有很高的概率。接下来,我们使用收缩理论来设计稳定的状态反馈控制器和收敛的动态观察者,该观察者使用学习的感知系统来更新其状态估计。当该控制器在动力学和不正确状态估计中遇到错误时,我们会在轨迹跟踪误差上得出一个绑定。最后,我们将此绑定到基于采样的运动计划器中,引导它返回可以使用传感器数据在运行时安全跟踪的轨迹。我们展示了我们在4D汽车上模拟的方法,6D平面四极管以及使用RGB(-D)传感器测量的17D操纵任务,这表明我们的方法安全可靠地将系统转向了目标,而无法考虑的基线,这些基线无法考虑。受信任的域或状态估计错误可能不安全。
translated by 谷歌翻译
我们呈现$ \ mathcal {cl} _1 $ - $ \ mathcal {gp} $,控制框架,使能安全同时学习和控制能够进行不确定因素的系统。这两个主要成分是基于收缩理论的$ \ mathcal {l} _1 $($ \ mathcal {cl} _1 $)控制和贝叶斯学习以高斯过程(GP)回归。$ \ mathcal {cl} _1 $控制器可确保在提供安全证书时满足控制目标。此外,$ \ mathcal {cl} _1 $ - $ \ mathcal {gp} $将任何可用数据纳入了GP的不确定因素模型,这提高了性能并使运动计划能够安全地实现最佳状态。这样,即使在学习瞬变期间,也可以保证系统的安全操作。我们提供了一些用于在各种环境中安全学习和控制平面的平面电路系统的说明性示例。
translated by 谷歌翻译
本文涉及专业示范的学习安全控制法。我们假设系统动态和输出测量图的适当模型以及相应的错误界限。我们首先提出强大的输出控制屏障功能(ROCBF)作为保证安全的手段,通过控制安全集的前向不变性定义。然后,我们提出了一个优化问题,以从展示安全系统行为的专家演示中学习RocBF,例如,从人类运营商收集的数据。随着优化问题,我们提供可验证条件,可确保获得的Rocbf的有效性。这些条件在数据的密度和学习函数的LipsChitz和Lipshitz和界限常数上说明,以及系统动态和输出测量图的模型。当ROCBF的参数化是线性的,然后,在温和的假设下,优化问题是凸的。我们在自动驾驶模拟器卡拉验证了我们的调查结果,并展示了如何从RGB相机图像中学习安全控制法。
translated by 谷歌翻译
在本文中,我们提出了一个新型的非线性观察者,称为神经观察者,以通过将神经网络(NN)引入观察者的设计,以实现线性时间传播(LTI)系统的观察任务和不确定的非线性系统。通过探索NN代表向NN映射矢量的方法,我们从LTI和不确定的非线性系统中得出了稳定性分析(例如,指数收敛速率),这些系统仅使用线性矩阵不平等(LMIS)为解决观察问题铺平了道路。值得注意的是,为不确定系统设计的神经观察者基于主动扰动拒绝控制(ADRC)的意识形态,该思想可以实时测量不确定性。 LMI结果也很重要,因为我们揭示了LMI溶液存在系统矩阵的可观察性和可控性。最后,我们在三个模拟案例上验证神经观察者的可用性,包括X-29A飞机模型,非线性摆和四轮转向车辆。
translated by 谷歌翻译
在安全关键系统的背景下将模拟缩小到现实差距的动机,我们考虑学习用于未知非线性动力系统的前列鲁棒稳定性证书。符合鲁棒控制的方法,我们考虑添加系统动态的添加剂和Lipschitz有界对手。我们表明,在基础系统上的增量稳定性的合适假设下,学习对抗稳定证明的统计成本相当于持续因素,以学习名义稳定证明。我们的结果铰接在新的导火颤机复杂性的新型界限,这可能是独立的兴趣。据我们所知,这是在对动态系统生成的数据进行对抗性学习时,对样本复杂性限制的第一次表征。我们还提供一种用于近似对抗训练算法的实用算法,并在阻尼摆锤示例上验证我们的发现。
translated by 谷歌翻译
本文开发了一种基于模型的强化学习(MBR)框架,用于在线在线学习无限范围最佳控制问题的价值函数,同时遵循表示为控制屏障功能(CBFS)的安全约束。我们的方法是通过开发一种新型的CBFS,称为Lyapunov样CBF(LCBF),其保留CBFS的有益特性,以开发最微创的安全控制政策,同时也具有阳性半自动等所需的Lyapunov样品质 - 义法。我们展示这些LCBFS如何用于增强基于学习的控制策略,以保证安全性,然后利用这种方法在MBRL设置中开发安全探索框架。我们表明,我们的开发方法可以通过各种数值示例来处理比较法的更通用的安全限制。
translated by 谷歌翻译
控制Lyapunov功能是稳定的中心工具。它将抽象的能量函数(lyapunov函数)概括为受控系统的情况。众所周知的事实是,大多数控制的Lyapunov函数都是非平滑的 - 在非全面系统中,例如轮式机器人和汽车也是如此。存在使用非平滑控制Lyapunov功能的稳定框架,例如DINI瞄准和最陡峭的下降。这项工作将相关结果推广到随机情况。作为基础工作,选择了采样控制方案,其中使用系统状态的离散测量在离散时刻计算控制动作。在这样的设置中,应特别注意控制Lyapunov功能的样本对样本行为。这里的一个特殊挑战是在系统上作用的随机噪声。这项工作的核心结果是一个定理,该定理大致指出,如果通常有一个不平滑的控制lyapunov函数,则可以在样本和持续模式下实际稳定给定的随机动力学系统,这意味着控制在抽样时间步骤中保持动作不变。选择的一种特定的控制方法是基于莫罗 - 耶西达的正则化,换句话说是对照lyapunov函数的Inf-consonvolution,但总体框架可扩展到进一步的控制方案。假定,尽管短暂地解决了无限噪声的情况,但几乎肯定会肯定会界定系统噪声。
translated by 谷歌翻译
响应于不同规格的产品的不断变化的原料供应和市场需求,需要在时变的操作条件和目标(例如,设定值)的过程中运行,以改善过程经济,与预定的传统过程操作相比均衡。本文开发了一种用于非线性化学过程的基于收缩理论的控制方法,以实现时变参考跟踪。这种方法利用神经网络的通用近似特征,采用离散时间收缩分析和控制。它涉及训练神经网络以学习嵌入基于收缩的控制器中的收缩度量和差分反馈增益。第二个,单独的神经网络也结合到控制循环中,以在线学习不确定系统模型参数。得到的控制方案能够实现有效的偏移跟踪时变的参考,其具有全范围的模型不确定性,而无需控制器结构作为参考变化重新设计。这是一种强大的方法,可以在工艺模型中处理流程模型中的有界参数不确定性,这些方法通常遇到工业(化学)过程中。这种方法还确保在线同时学习和控制期间的过程稳定性。提供模拟实施例以说明上述方法。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
We introduce a class of first-order methods for smooth constrained optimization that are based on an analogy to non-smooth dynamical systems. Two distinctive features of our approach are that (i) projections or optimizations over the entire feasible set are avoided, in stark contrast to projected gradient methods or the Frank-Wolfe method, and (ii) iterates are allowed to become infeasible, which differs from active set or feasible direction methods, where the descent motion stops as soon as a new constraint is encountered. The resulting algorithmic procedure is simple to implement even when constraints are nonlinear, and is suitable for large-scale constrained optimization problems in which the feasible set fails to have a simple structure. The key underlying idea is that constraints are expressed in terms of velocities instead of positions, which has the algorithmic consequence that optimizations over feasible sets at each iteration are replaced with optimizations over local, sparse convex approximations. In particular, this means that at each iteration only constraints that are violated are taken into account. The result is a simplified suite of algorithms and an expanded range of possible applications in machine learning.
translated by 谷歌翻译
影响模型预测控制(MPC)策略的神经网络(NN)近似的常见问题是缺乏分析工具来评估基于NN的控制器的动作下闭环系统的稳定性。我们介绍了一种通用过程来量化这种控制器的性能,或者设计具有整流的线性单元(Relus)的最小复杂性NN,其保留给定MPC方案的理想性质。通过量化基于NN和基于MPC的状态到输入映射之间的近似误差,我们首先建立适当的条件,涉及两个关键量,最坏情况误差和嘴唇截止恒定,保证闭环系统的稳定性。然后,我们开发了一个离线,混合整数的基于优化的方法,以确切地计算这些数量。这些技术共同提供足以认证MPC控制法的基于Relu的近似的稳定性和性能的条件。
translated by 谷歌翻译
直接政策搜索作为现代强化学习(RL)的工作人员之一,其在连续控制任务中的应用最近引起了不断的关注。在这项工作中,我们研究了用于学习线性风险敏感和鲁棒控制器的政策梯度(PG)方法的收敛理论。特别地,我们开发PG方法,可以通过采样系统轨迹以无衍生方式实现,并建立全球收敛性和样本复杂性,这导致风险敏感和强大控制中的两个基本环境的解决方案:有限地平线线性指数二次高斯,以及有限地平线线性二次干扰衰减问题。作为副产品,我们的结果还为解决零和线性二次动态游戏的PG方法的全局融合提供了第一种样本复杂性,这是一种非透明的极限优化问题,该问题用作多功能钢筋中的基线设置学习(Marl)与连续空间。我们的算法的一个特征是在学习阶段,保留了一定程度的控制器的鲁棒性/风险敏感性,因此我们被称为隐式正则化属性,并且是安全关键控制系统的基本要求。
translated by 谷歌翻译
强化学习通常与奖励最大化(或成本量化)代理的培训相关,换句话说是控制者。它可以使用先验或在线收集的系统数据以无模型或基于模型的方式应用,以培训涉及的参数体系结构。通常,除非通过学习限制或量身定制的培训规则采取特殊措施,否则在线增强学习不能保证闭环稳定性。特别有希望的是通过“经典”控制方法进行增强学习的混合体。在这项工作中,我们建议一种在纯粹的在线学习环境中,即没有离线培训的情况下,可以保证系统控制器闭环的实际稳定性。此外,我们仅假设对系统模型的部分知识。为了达到要求的结果,我们采用经典自适应控制技术。总体控制方案的实施是在数字,采样设置中明确提供的。也就是说,控制器接收系统的状态,并在离散的时间(尤其是等距的时刻)中计算控制动作。该方法在自适应牵引力控制和巡航控制中进行了测试,事实证明,该方法可显着降低成本。
translated by 谷歌翻译
这项工作开发了一种新的直接自适应控制框架,将确定性等效原理扩展到具有无与伦比的模型不确定性的一般非线性系统。该方法在线调整适应速率,以消除参数估计瞬变对闭环稳定性的影响。如果已知相应的模型参数化Lyapunov函数或收缩度量,则该方法可以立即结合先前设计或学习的反馈策略。具有无与伦比的不确定性的各种非线性系统的仿真结果证明了这种方法。
translated by 谷歌翻译
这项教程调查概述了统计学习理论中最新的非征血性进步与控制和系统识别相关。尽管在所有控制领域都取得了重大进展,但在线性系统的识别和学习线性二次调节器时,该理论是最发达的,这是本手稿的重点。从理论的角度来看,这些进步的大部分劳动都在适应现代高维统计和学习理论的工具。虽然与控制对机器学习的工具感兴趣的理论家高度相关,但基础材料并不总是容易访问。为了解决这个问题,我们提供了相关材料的独立介绍,概述了基于最新结果的所有关键思想和技术机械。我们还提出了许多开放问题和未来的方向。
translated by 谷歌翻译