本文介绍了一类时变植物的自适应控制的新参数估计算法。该算法的主要特征是时变的学习速率的矩阵,其使得每当满足激励条件时,使参数估计误差轨迹能够朝向紧凑型朝向紧凑型呈现快速。该算法用于在存在未知参数的大类问题中,并且是时变的。结果表明,该算法保证了系统的状态和参数误差的全局界限,并避免了用于构造密钥回归信号的经常使用过滤方法。另外,在存在有限和持久的激励的情况下,提供了这些误差趋向于紧凑型朝向紧凑型趋向于紧凑型的时间间隔。与时变忘记因素相比,投影运算符用于确保学习率矩阵的界限。提供了数值模拟以补充理论分析。
translated by 谷歌翻译
最近的四型车辆超越了常规设计,更加强调可折叠和可重构的身体。但是,最新的状态仍然着重于此类设计的机械可行性,在配置切换过程中有关车辆的跟踪性能的讨论有限。在本文中,我们提出了一个完整的控制和计划框架,用于在配置切换过程中进行态度跟踪并遏制任何基于开关的干扰,这可能导致违反安全限制并导致崩溃。控制框架包括一个具有估计器的形态感知自适应控制器,以说明参数变化和最小值轨迹计划器,以在切换时实现稳定的飞行。态度跟踪的稳定性分析是通过采用开关系统理论和仿真结果来验证了拟议的框架,该框架是通过通道通过通道的可折叠四极管飞行的框架。
translated by 谷歌翻译
收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
对于不确定的多个输入多输出(MIMO)非线性系统,实现渐近跟踪是不平凡的,并且大多数现有方法通常需要某些可控性条件,如果涉及意外的执行器故障,这些条件是相当限制性的,甚至是不切实际的。在本说明中,我们提出了一种能够实现具有较不保守(更实用)可控性条件的零误差稳态跟踪的方法。通过将新颖的Nussbaum增益技术和一些积极的集成函数纳入控制设计,我们为系统开发了强大的自适应渐近跟踪控制方案,随着时变的控制增益未知其幅度和方向。通过诉诸某些可行的辅助矩阵的存在,进一步放松了当前的最新可控性条件,从而扩大了可以在拟议的控制方案中考虑的系统类别。所有闭环信号均被确保在全球范围内最终均匀界定。此外,这种控制方法进一步扩展到涉及间歇性执行器断层以及适用于机器人系统的情况。最后,进行了模拟研究以证明该方法的有效性和灵活性。
translated by 谷歌翻译
本文开发了一种基于模型的强化学习(MBR)框架,用于在线在线学习无限范围最佳控制问题的价值函数,同时遵循表示为控制屏障功能(CBFS)的安全约束。我们的方法是通过开发一种新型的CBFS,称为Lyapunov样CBF(LCBF),其保留CBFS的有益特性,以开发最微创的安全控制政策,同时也具有阳性半自动等所需的Lyapunov样品质 - 义法。我们展示这些LCBFS如何用于增强基于学习的控制策略,以保证安全性,然后利用这种方法在MBRL设置中开发安全探索框架。我们表明,我们的开发方法可以通过各种数值示例来处理比较法的更通用的安全限制。
translated by 谷歌翻译
直接政策搜索作为现代强化学习(RL)的工作人员之一,其在连续控制任务中的应用最近引起了不断的关注。在这项工作中,我们研究了用于学习线性风险敏感和鲁棒控制器的政策梯度(PG)方法的收敛理论。特别地,我们开发PG方法,可以通过采样系统轨迹以无衍生方式实现,并建立全球收敛性和样本复杂性,这导致风险敏感和强大控制中的两个基本环境的解决方案:有限地平线线性指数二次高斯,以及有限地平线线性二次干扰衰减问题。作为副产品,我们的结果还为解决零和线性二次动态游戏的PG方法的全局融合提供了第一种样本复杂性,这是一种非透明的极限优化问题,该问题用作多功能钢筋中的基线设置学习(Marl)与连续空间。我们的算法的一个特征是在学习阶段,保留了一定程度的控制器的鲁棒性/风险敏感性,因此我们被称为隐式正则化属性,并且是安全关键控制系统的基本要求。
translated by 谷歌翻译
这项工作开发了一种新的直接自适应控制框架,将确定性等效原理扩展到具有无与伦比的模型不确定性的一般非线性系统。该方法在线调整适应速率,以消除参数估计瞬变对闭环稳定性的影响。如果已知相应的模型参数化Lyapunov函数或收缩度量,则该方法可以立即结合先前设计或学习的反馈策略。具有无与伦比的不确定性的各种非线性系统的仿真结果证明了这种方法。
translated by 谷歌翻译
非线性自适应控制理论中的一个关键假设是系统的不确定性可以在一组已知基本函数的线性跨度中表示。虽然该假设导致有效的算法,但它将应用限制为非常特定的系统类别。我们介绍一种新的非参数自适应算法,其在参数上学习无限尺寸密度,以取消再现内核希尔伯特空间中的未知干扰。令人惊讶的是,所产生的控制输入承认,尽管其底层无限尺寸结构,但是尽管它的潜在无限尺寸结构实现了其实施的分析表达。虽然这种自适应输入具有丰富和富有敏感性的 - 例如,传统的线性参数化 - 其计算复杂性随时间线性增长,使其比其参数对应力相对较高。利用随机傅里叶特征的理论,我们提供了一种有效的随机实现,该实现恢复了经典参数方法的复杂性,同时可透明地保留非参数输入的表征性。特别地,我们的显式范围仅取决于系统的基础参数,允许我们所提出的算法有效地缩放到高维系统。作为该方法的说明,我们展示了随机近似算法学习由牛顿重力交互的十点批量组成的60维系统的预测模型的能力。
translated by 谷歌翻译
本文考虑了线性二次双控制问题,其中需要识别系统参数,并且需要在该时期优化控制目标。与现有的数据驱动线性二次调节相反,这通常在某种概率内提供错误或后悔界限,我们提出了一种在线算法,可以在几乎肯定的意义上保证控制器的渐近最优性。我们的双重控制策略由两部分组成:基于勘探噪声和系统输出之间的互相关,具有时间衰减探索噪声和Markov参数推断的交换控制器。当实际状态显着地从目标状态偏离时,几乎肯定的性能保证是一个安全的交换控制策略,其返回到已知的保守但稳定的控制器。我们证明,此切换策略规定了从应用中的任何潜在的稳定控制器,而我们的交换策略与最佳线性状态反馈之间的性能差距是指数较小的。在我们的双控制方案下,参数推理误差尺度为$ O(t ^ {-1 / 4 + \ epsilon})$,而控制性能的子优相差距为$ o(t ^ { - 1/2 + \ epsilon})$,$ t $是时间步数,$ \ epsilon $是一个任意小的正数。提供了工业过程示例的仿真结果,以说明我们提出的策略的有效性。
translated by 谷歌翻译
在本文中,我们提出了一个新型的非线性观察者,称为神经观察者,以通过将神经网络(NN)引入观察者的设计,以实现线性时间传播(LTI)系统的观察任务和不确定的非线性系统。通过探索NN代表向NN映射矢量的方法,我们从LTI和不确定的非线性系统中得出了稳定性分析(例如,指数收敛速率),这些系统仅使用线性矩阵不平等(LMIS)为解决观察问题铺平了道路。值得注意的是,为不确定系统设计的神经观察者基于主动扰动拒绝控制(ADRC)的意识形态,该思想可以实时测量不确定性。 LMI结果也很重要,因为我们揭示了LMI溶液存在系统矩阵的可观察性和可控性。最后,我们在三个模拟案例上验证神经观察者的可用性,包括X-29A飞机模型,非线性摆和四轮转向车辆。
translated by 谷歌翻译
本文提出了一种基于匹配不确定性的非线性系统的收缩指标和干扰估计的轨迹中心学习控制方法。该方法允许使用广泛的模型学习工具,包括深神经网络,以学习不确定的动态,同时仍然在整个学习阶段提供瞬态跟踪性能的保证,包括没有学习的特殊情况。在所提出的方法中,提出了一种扰动估计法,以估计不确定性的点值,具有预计估计误差限制(EEB)。学习的动态,估计的紊乱和EEB在强大的黎曼能量条件下并入,以计算控制法,即使学习模型较差,也能保证在整个学习阶段的所需轨迹对所需轨迹的指数趋同。另一方面,具有改进的精度,学习的模型可以在高级计划器中结合,以规划更好的性能,例如降低能耗和更短的旅行时间。建议的框架在平面Quadrotor导航示例上验证。
translated by 谷歌翻译
We propose a learning-based robust predictive control algorithm that compensates for significant uncertainty in the dynamics for a class of discrete-time systems that are nominally linear with an additive nonlinear component. Such systems commonly model the nonlinear effects of an unknown environment on a nominal system. We optimize over a class of nonlinear feedback policies inspired by certainty equivalent "estimate-and-cancel" control laws pioneered in classical adaptive control to achieve significant performance improvements in the presence of uncertainties of large magnitude, a setting in which existing learning-based predictive control algorithms often struggle to guarantee safety. In contrast to previous work in robust adaptive MPC, our approach allows us to take advantage of structure (i.e., the numerical predictions) in the a priori unknown dynamics learned online through function approximation. Our approach also extends typical nonlinear adaptive control methods to systems with state and input constraints even when we cannot directly cancel the additive uncertain function from the dynamics. We apply contemporary statistical estimation techniques to certify the system's safety through persistent constraint satisfaction with high probability. Moreover, we propose using Bayesian meta-learning algorithms that learn calibrated model priors to help satisfy the assumptions of the control design in challenging settings. Finally, we show in simulation that our method can accommodate more significant unknown dynamics terms than existing methods and that the use of Bayesian meta-learning allows us to adapt to the test environments more rapidly.
translated by 谷歌翻译
Q学习长期以来一直是最受欢迎的强化学习算法之一,几十年来,Q学习的理论分析一直是一个活跃的研究主题。尽管对Q-学习的渐近收敛分析的研究具有悠久的传统,但非肿瘤收敛性直到最近才受到积极研究。本文的主要目的是通过控制系统的观点研究马尔可夫观察模型下异步Q学习的新有限时间分析。特别是,我们引入了Q学习的离散时间变化的开关系统模型,并减少了分析的步骤尺寸,这显着改善了使用恒定步骤尺寸的开关系统分析的最新开发,并导致\(\(\)(\) Mathcal {o} \ left(\ sqrt {\ frac {\ log k} {k}}} \ right)\)\)\)\)\)\)\)\)与大多数艺术状态相当或更好。同时,新应用了使用类似转换的技术,以避免通过减小的步骤尺寸提出的分析中的难度。提出的分析带来了其他见解,涵盖了不同的方案,并提供了新的简化模板,以通过其独特的连接与离散时间切换系统的独特联系来加深我们对Q学习的理解。
translated by 谷歌翻译
We introduce a class of first-order methods for smooth constrained optimization that are based on an analogy to non-smooth dynamical systems. Two distinctive features of our approach are that (i) projections or optimizations over the entire feasible set are avoided, in stark contrast to projected gradient methods or the Frank-Wolfe method, and (ii) iterates are allowed to become infeasible, which differs from active set or feasible direction methods, where the descent motion stops as soon as a new constraint is encountered. The resulting algorithmic procedure is simple to implement even when constraints are nonlinear, and is suitable for large-scale constrained optimization problems in which the feasible set fails to have a simple structure. The key underlying idea is that constraints are expressed in terms of velocities instead of positions, which has the algorithmic consequence that optimizations over feasible sets at each iteration are replaced with optimizations over local, sparse convex approximations. In particular, this means that at each iteration only constraints that are violated are taken into account. The result is a simplified suite of algorithms and an expanded range of possible applications in machine learning.
translated by 谷歌翻译
强化学习通常与奖励最大化(或成本量化)代理的培训相关,换句话说是控制者。它可以使用先验或在线收集的系统数据以无模型或基于模型的方式应用,以培训涉及的参数体系结构。通常,除非通过学习限制或量身定制的培训规则采取特殊措施,否则在线增强学习不能保证闭环稳定性。特别有希望的是通过“经典”控制方法进行增强学习的混合体。在这项工作中,我们建议一种在纯粹的在线学习环境中,即没有离线培训的情况下,可以保证系统控制器闭环的实际稳定性。此外,我们仅假设对系统模型的部分知识。为了达到要求的结果,我们采用经典自适应控制技术。总体控制方案的实施是在数字,采样设置中明确提供的。也就是说,控制器接收系统的状态,并在离散的时间(尤其是等距的时刻)中计算控制动作。该方法在自适应牵引力控制和巡航控制中进行了测试,事实证明,该方法可显着降低成本。
translated by 谷歌翻译
Gradient-based first-order convex optimization algorithms find widespread applicability in a variety of domains, including machine learning tasks. Motivated by the recent advances in fixed-time stability theory of continuous-time dynamical systems, we introduce a generalized framework for designing accelerated optimization algorithms with strongest convergence guarantees that further extend to a subclass of non-convex functions. In particular, we introduce the \emph{GenFlow} algorithm and its momentum variant that provably converge to the optimal solution of objective functions satisfying the Polyak-{\L}ojasiewicz (PL) inequality, in a fixed-time. Moreover for functions that admit non-degenerate saddle-points, we show that for the proposed GenFlow algorithm, the time required to evade these saddle-points is bounded uniformly for all initial conditions. Finally, for strongly convex-strongly concave minimax problems whose optimal solution is a saddle point, a similar scheme is shown to arrive at the optimal solution again in a fixed-time. The superior convergence properties of our algorithm are validated experimentally on a variety of benchmark datasets.
translated by 谷歌翻译
控制Lyapunov功能是稳定的中心工具。它将抽象的能量函数(lyapunov函数)概括为受控系统的情况。众所周知的事实是,大多数控制的Lyapunov函数都是非平滑的 - 在非全面系统中,例如轮式机器人和汽车也是如此。存在使用非平滑控制Lyapunov功能的稳定框架,例如DINI瞄准和最陡峭的下降。这项工作将相关结果推广到随机情况。作为基础工作,选择了采样控制方案,其中使用系统状态的离散测量在离散时刻计算控制动作。在这样的设置中,应特别注意控制Lyapunov功能的样本对样本行为。这里的一个特殊挑战是在系统上作用的随机噪声。这项工作的核心结果是一个定理,该定理大致指出,如果通常有一个不平滑的控制lyapunov函数,则可以在样本和持续模式下实际稳定给定的随机动力学系统,这意味着控制在抽样时间步骤中保持动作不变。选择的一种特定的控制方法是基于莫罗 - 耶西达的正则化,换句话说是对照lyapunov函数的Inf-consonvolution,但总体框架可扩展到进一步的控制方案。假定,尽管短暂地解决了无限噪声的情况,但几乎肯定会肯定会界定系统噪声。
translated by 谷歌翻译
Safety critical systems involve the tight coupling between potentially conflicting control objectives and safety constraints. As a means of creating a formal framework for controlling systems of this form, and with a view toward automotive applications, this paper develops a methodology that allows safety conditions-expressed as control barrier functionsto be unified with performance objectives-expressed as control Lyapunov functions-in the context of real-time optimizationbased controllers. Safety conditions are specified in terms of forward invariance of a set, and are verified via two novel generalizations of barrier functions; in each case, the existence of a barrier function satisfying Lyapunov-like conditions implies forward invariance of the set, and the relationship between these two classes of barrier functions is characterized. In addition, each of these formulations yields a notion of control barrier function (CBF), providing inequality constraints in the control input that, when satisfied, again imply forward invariance of the set. Through these constructions, CBFs can naturally be unified with control Lyapunov functions (CLFs) in the context of a quadratic program (QP); this allows for the achievement of control objectives (represented by CLFs) subject to conditions on the admissible states of the system (represented by CBFs). The mediation of safety and performance through a QP is demonstrated on adaptive cruise control and lane keeping, two automotive control problems that present both safety and performance considerations coupled with actuator bounds.
translated by 谷歌翻译
本文涉及未知离散时间非线性系统动态的有限时间学习的问题,而无需持久性激发。提出了一种有限时间的并发学习方法,以通过采用当前数据以及录制的经验丰富的数据,以满足记录的丰富度的易于检查等级条件的记录经验丰富的数据来近似离散时间非线性系统的不确定性与励磁条件持久性相比,数据不太限制。严格的证据保证了估计参数的有限时间收敛到基于离散时间的Lyapunov分析的优化值。与文献中的现有工作相比,仿真结果说明了所提出的方法可以及时,精确地近似于不确定性。
translated by 谷歌翻译
来自视觉信息的特征点的全局收敛位置观察者的设计是一个具有挑战性的问题,特别是对于仅具有惯性测量的情况,并且没有均匀可观察性的假设,这仍然长时间保持开放。我们在本文中提供了解决问题的解决方案,假设只有特征点的轴承,以及机器人的偏置线性加速度和机器人的旋转速度 - 都可以使用。此外,与现有相关结果相反,我们不需要重力常数的值。所提出的方法在最近开发的基于参数估计的观察者(Ortega等人,Syst。控制。Lett。,Vol.85,2015)及其在我们以前的工作中的矩阵群体的延伸。给出了观察者收敛的机器人轨迹的条件,这些条件比激发和均匀完全可观察性条件的标准持久性严格弱。最后,我们将建议的设计应用于视觉惯性导航问题。还提出了仿真结果以说明我们的观察者设计。
translated by 谷歌翻译