策略梯度算法在强化学习中的融合取决于基础最佳控制问题的优化格局。通常可以通过分析线性二次控制的理论见解来获取这些算法。但是,大多数现有文献仅考虑静态全州或输出反馈策略(控制器)的优化格局。我们研究了线性二次调节(缩写为DLQR)的动态输出反馈政策更具挑战性的案例,该策略在实践中很普遍,但具有相当复杂的优化景观。我们首先显示DLQR成本如何随动态控制器的坐标转换而变化,然后为给定可观察的稳定控制器得出最佳转换。我们结果的核心是可观察到DLQR的固定点的唯一性,这是基于观察者的控制器的简洁形式,具有最佳的相似性转换。这些结果阐明了设计有效的算法,这些算法是针对部分观察到的信息的一般决策问题。
translated by 谷歌翻译
直接政策搜索作为现代强化学习(RL)的工作人员之一,其在连续控制任务中的应用最近引起了不断的关注。在这项工作中,我们研究了用于学习线性风险敏感和鲁棒控制器的政策梯度(PG)方法的收敛理论。特别地,我们开发PG方法,可以通过采样系统轨迹以无衍生方式实现,并建立全球收敛性和样本复杂性,这导致风险敏感和强大控制中的两个基本环境的解决方案:有限地平线线性指数二次高斯,以及有限地平线线性二次干扰衰减问题。作为副产品,我们的结果还为解决零和线性二次动态游戏的PG方法的全局融合提供了第一种样本复杂性,这是一种非透明的极限优化问题,该问题用作多功能钢筋中的基线设置学习(Marl)与连续空间。我们的算法的一个特征是在学习阶段,保留了一定程度的控制器的鲁棒性/风险敏感性,因此我们被称为隐式正则化属性,并且是安全关键控制系统的基本要求。
translated by 谷歌翻译
多功能钢筋学习已成功应用于许多挑战性问题。尽管有这些经验成功,但对不同算法的理论理解缺乏,主要是由于状态 - 行动空间的指数增长与代理人数引起的维度诅咒。我们研究了多蛋白线性二次调节剂(LQR)的基本问题,在该刻度部分可互换的情况下。在此设置中,我们开发了一个分层演员 - 批评算法,其计算复杂性独立于代理总数,并证明了其全局线性融合到最佳政策。由于LQRS经常用于近似一般动态系统,本文提供了更好地理解一般分层平均场多功能增强学习的重要一步。
translated by 谷歌翻译
参与者 - 批评(AC)增强学习算法一直是许多具有挑战性的应用背后的强大力量。然而,它的收敛性一般都是脆弱的。为了研究其不稳定性,现有作品主要考虑具有有限状态和动作空间的罕见的双环变体或基本模型。我们研究了更实用的单样本两次尺度AC,用于解决规范线性二次调节器(LQR)问题,其中演员和评论家在每个迭代中仅在无界的连续状态和动作空间中使用单个迭代中的单个样本更新一次。现有的分析无法得出这样一个具有挑战性的情况的融合。我们开发了一个新的分析框架,该框架允许建立全局收敛到$ \ epsilon $ -optimal解决方案,最多最多是$ \ tilde {\ Mathcal {o}}}(\ epsilon^{ - 2.5})$样本复杂性。据我们所知,这是单个样本两次尺度AC的第一个有限时间收敛分析,用于以全球最优性求解LQR。样本复杂性通过订单改善了其他变体的复杂性,从而阐明了单个样品算法的实际智慧。我们还通过全面的模拟比较进一步验证了理论发现。
translated by 谷歌翻译
策略梯度方法适用于复杂的,不理解的,通过对参数化的策略进行随机梯度下降来控制问题。不幸的是,即使对于可以通过标准动态编程技术解决的简单控制问题,策略梯度算法也会面临非凸优化问题,并且被广泛理解为仅收敛到固定点。这项工作确定了结构属性 - 通过几个经典控制问题共享 - 确保策略梯度目标函数尽管是非凸面,但没有次优的固定点。当这些条件得到加强时,该目标满足了产生收敛速率的Polyak-lojasiewicz(梯度优势)条件。当其中一些条件放松时,我们还可以在任何固定点的最佳差距上提供界限。
translated by 谷歌翻译
我们考虑使用有限的地平线上具有随机动力学的通用N-N-玩家线性季度游戏,并证明了自然策略梯度方法与NASH平衡的全球收敛性。为了证明该方法的收敛性,我们需要系统中有一定数量的噪声。我们给出了一个条件,基本上是在模型参数方面对噪声的协方差的下限,以确保收敛。我们通过数值实验说明了我们的结果,以表明即使在策略梯度方法可能不会在确定性设置中收敛的情况下,噪声的添加也会导致收敛。
translated by 谷歌翻译
我们解决了通过在线后退地平线控制(RHC)的框架来控制控制未知线性动态系统的问题,以时代变化的成本函数。我们考虑控制算法不知道真正的系统模型的设置,并且只能访问固定长度(不与控制范围内的增长)预览未来成本函数。我们使用动态遗憾度量的算法表征了算法的性能,该算法被定义为算法产生的累积成本与后视行动中最佳动作顺序之间的差异。我们提出了两个不同的在线RHC算法来解决这个问题,即确定的等价RHC(CE-RHC)算法和乐观RHC(O-RHC)算法。我们表明,在模型估计的标准稳定假设下,CE-RHC算法实现$ \ Mathcal {O}(T ^ {2/3})$动态遗憾。然后,我们将此结果扩展到通过提出O-RHC算法仅适用于真实系统模型的稳定假设。我们表明O-RHC算法实现$ \ Mathcal {O}(T ^ {2/3})$动态遗憾,但有一些额外的计算。
translated by 谷歌翻译
我们从控制理论限制的角度研究随机策略梯度方法。我们的主要结果是,在Doyle的意义上,不可避免的线性系统不可避免地导致嘈杂的梯度估计。我们还举例说明了一类稳定系统的示例,其中政策梯度方法遭受了维度的诅咒。我们的结果适用于状态反馈和部分观察到的系统。
translated by 谷歌翻译
通过行业对非线性退化的地平线控制(RHC)策略的广泛采用导致了30多年的激烈研究工作,以为这些方法提供稳定性保证。但是,当前的理论保证要求可以将每个(通常是非covex)计划问题解决为(近似)全球最优性,这是基于衍生的基于衍生的局部优化方法的不现实要求,通常用于RHC的实际实现。本文迈出了第一步,当将内部计划问题解决到一阶固定点时,但不一定是全球最佳选择,可以理解非线性RHC的稳定性保证。特别注意反馈可线化的系统,并提供了正面和负面结果的混合物。我们确定,在某些强大条件下,一阶解决方案可实现RHC稳定可线化的系统。至关重要的是,这种保证要求将其应用于计划问题的状态成本在某种意义上与系统的全球几何形状兼容,并且一个简单的反示例证明了这种情况的必要性。这些结果突出了需要重新考虑基于优化的控制背景下全局几何形状的作用。
translated by 谷歌翻译
最近的研究表明,监督学习可以是为高维非线性动态系统设计最佳反馈控制器的有效工具。但是这些神经网络(NN)控制器的行为仍未得到很好的理解。在本文中,我们使用数值模拟来证明典型的测试精度度量没有有效地捕获NN控制器稳定系统的能力。特别是,具有高测试精度的一些NN不能稳定动态。为了解决这个问题,我们提出了两个NN架构,该架构在局部地近似线性二次调节器(LQR)。数值模拟确认了我们的直觉,即建议的架构可靠地产生稳定反馈控制器,而不会牺牲最佳状态。此外,我们介绍了描述这种NN控制系统的一些稳定性特性的初步理论结果。
translated by 谷歌翻译
We study the task of learning state representations from potentially high-dimensional observations, with the goal of controlling an unknown partially observable system. We pursue a direct latent model learning approach, where a dynamic model in some latent state space is learned by predicting quantities directly related to planning (e.g., costs) without reconstructing the observations. In particular, we focus on an intuitive cost-driven state representation learning method for solving Linear Quadratic Gaussian (LQG) control, one of the most fundamental partially observable control problems. As our main results, we establish finite-sample guarantees of finding a near-optimal state representation function and a near-optimal controller using the directly learned latent model. To the best of our knowledge, despite various empirical successes, prior to this work it was unclear if such a cost-driven latent model learner enjoys finite-sample guarantees. Our work underscores the value of predicting multi-step costs, an idea that is key to our theory, and notably also an idea that is known to be empirically valuable for learning state representations.
translated by 谷歌翻译
We address the problem of designing stabilizing control policies for nonlinear systems in discrete-time, while minimizing an arbitrary cost function. When the system is linear and the cost is convex, the System Level Synthesis (SLS) approach offers an effective solution based on convex programming. Beyond this case, a globally optimal solution cannot be found in a tractable way, in general. In this paper, we develop a parametrization of all and only the control policies stabilizing a given time-varying nonlinear system in terms of the combined effect of 1) a strongly stabilizing base controller and 2) a stable SLS operator to be freely designed. Based on this result, we propose a Neural SLS (Neur-SLS) approach guaranteeing closed-loop stability during and after parameter optimization, without requiring any constraints to be satisfied. We exploit recent Deep Neural Network (DNN) models based on Recurrent Equilibrium Networks (RENs) to learn over a rich class of nonlinear stable operators, and demonstrate the effectiveness of the proposed approach in numerical examples.
translated by 谷歌翻译
汤普森采样(TS)是在不确定性下进行决策的有效方法,其中从精心规定的分布中采样了动作,该分布根据观察到的数据进行更新。在这项工作中,我们研究了使用TS的可稳定线性季度调节剂(LQR)自适应控制的问题,其中系统动力学是未知的。先前的作品已经确定,$ \ tilde o(\ sqrt {t})$频繁的遗憾对于LQR的自适应控制是最佳的。但是,现有方法要么仅在限制性设置中起作用,需要先验已知的稳定控制器,要么使用计算上棘手的方法。我们提出了一种有效的TS算法,用于对LQR的自适应控制,TS基于TS的自适应控制,TSAC,该算法达到了$ \ tilde o(\ sqrt {t})$遗憾,即使对于多维系统和Lazaric(2018)。 TSAC不需要先验已知的稳定控制器,并通过在早期阶段有效探索环境来实现基础系统的快速稳定。我们的结果取决于开发新颖的下限TS提供乐观样本的概率。通过仔细规定早期的探索策略和政策更新规则,我们表明TS在适应性控制多维可稳定性LQR方面实现了最佳的遗憾。我们从经验上证明了TSAC在几个自适应控制任务中的性能和效率。
translated by 谷歌翻译
强化学习通常与奖励最大化(或成本量化)代理的培训相关,换句话说是控制者。它可以使用先验或在线收集的系统数据以无模型或基于模型的方式应用,以培训涉及的参数体系结构。通常,除非通过学习限制或量身定制的培训规则采取特殊措施,否则在线增强学习不能保证闭环稳定性。特别有希望的是通过“经典”控制方法进行增强学习的混合体。在这项工作中,我们建议一种在纯粹的在线学习环境中,即没有离线培训的情况下,可以保证系统控制器闭环的实际稳定性。此外,我们仅假设对系统模型的部分知识。为了达到要求的结果,我们采用经典自适应控制技术。总体控制方案的实施是在数字,采样设置中明确提供的。也就是说,控制器接收系统的状态,并在离散的时间(尤其是等距的时刻)中计算控制动作。该方法在自适应牵引力控制和巡航控制中进行了测试,事实证明,该方法可显着降低成本。
translated by 谷歌翻译
本文介绍了在最近开发的神经网络架构上的不确定系统构建的非线性控制器的参数化,称为经常性平衡网络(REN)以及YOULA参数化的非线性版本。拟议的框架具有“内置”保证稳定性,即搜索空间中的所有政策导致承包(全球指数稳定的)闭环系统。因此,它需要对成本函数的选择的非常温和的假设,并且可以推广稳定性属性以看不见的数据。这种方法的另一个有用特征是在没有任何约束的情况下直接参数化的策略,这简化了基于无约束优化的广泛的政策学习方法学习(例如随机梯度下降)。我们说明了具有各种模拟示例的所提出的方法。
translated by 谷歌翻译
萨顿(Sutton),szepesv \'{a} ri和maei引入了与线性函数近似和非政策训练兼容的第一个梯度时间差异(GTD)学习算法。本文的目的是(a)提出一些具有广泛比较分析的GTD的变体,以及(b)为GTD建立新的理论分析框架。这些变体基于GTD的凸 - 孔符号鞍点解释,该解释有效地将所有GTD统一为单个框架,并基于对原始偶型梯度动力学的最新结果提供简单的稳定性分析。最后,给出了数值比较分析以评估这些方法。
translated by 谷歌翻译
我们提出了基于最近开发的神经网络的线性动力系统的非线性输出反馈控制器参数化,称为经常性平衡网络(REN),以及YOULA参数化的非线性版本。我们的方法保证了部分可观察的线性动态系统的闭环稳定性,而不需要满足任何约束。这显着简化了模型拟合,因为任何无约束的优化程序都可以应用,同时仍然保持稳定性。我们展示了具有精确和近似梯度方法的加强学习任务的方法。仿真研究表明,我们的方法在相同的问题设置中明显更具可扩展性,并且显着优于其他方法。
translated by 谷歌翻译
本文考虑了线性二次双控制问题,其中需要识别系统参数,并且需要在该时期优化控制目标。与现有的数据驱动线性二次调节相反,这通常在某种概率内提供错误或后悔界限,我们提出了一种在线算法,可以在几乎肯定的意义上保证控制器的渐近最优性。我们的双重控制策略由两部分组成:基于勘探噪声和系统输出之间的互相关,具有时间衰减探索噪声和Markov参数推断的交换控制器。当实际状态显着地从目标状态偏离时,几乎肯定的性能保证是一个安全的交换控制策略,其返回到已知的保守但稳定的控制器。我们证明,此切换策略规定了从应用中的任何潜在的稳定控制器,而我们的交换策略与最佳线性状态反馈之间的性能差距是指数较小的。在我们的双控制方案下,参数推理误差尺度为$ O(t ^ {-1 / 4 + \ epsilon})$,而控制性能的子优相差距为$ o(t ^ { - 1/2 + \ epsilon})$,$ t $是时间步数,$ \ epsilon $是一个任意小的正数。提供了工业过程示例的仿真结果,以说明我们提出的策略的有效性。
translated by 谷歌翻译
由于它们的灵活性和富有效力,神经网络控制器在控制任务中变得流行。稳定性是安全关键动态系统的关键性质,而在许多情况下,部分观察到的系统的稳定化需要控制器保留和处理过去的长期记忆。我们将重要类别的经常性神经网络(RNN)视为非线性不确定部分观察系统的动态控制器,并基于积分二次约束,S-LEMMA和顺序凸化来推导凸稳定性条件。为了确保学习和控制过程中的稳定性,我们提出了一种预测的政策梯度方法,可迭代地强制执行关于系统动态的温和附加信息的重新制定空间中的稳定条件。数值实验表明,我们的方法在使用较少的样本并与政策梯度相比使用更高的样本并实现更高的最终性能时,学习稳定控制器。
translated by 谷歌翻译
本文介绍了局部最低限度的遗憾,用于自适应控制线性 - 四爵士(LQG)系统的下限。我们考虑平滑参数化实例,并在对数遗憾时提供了对实例的特定和灵活性,以考虑到问题结构。这种理解依赖于两个关键概念:局部无规格的概念;当最佳策略没有提供足够的激励以确定最佳政策,并产生退化的Fisher信息矩阵;以及信息遗憾的界限,当政策依赖信息矩阵的小特征值在该政策的遗憾方面是无限的。结合减少贝叶斯估计和范树的应用,这两个条件足以证明遗憾的界限为时间$ \ sqrt {t} $ \ sqrt {t} $ of the the theaign,$ t $。该方法产生低界,其具有与控制理论问题常数自然的紧密依赖性和规模。例如,我们能够证明在边缘稳定性附近运行的系统从根本上难以学习控制。我们进一步表明,大类系统满足这些条件,其中任何具有$ a $的状态反馈系统 - 和$ b $ -matrices未知。最重要的是,我们还建立了一个非活动类别的部分可观察系统,基本上是那些过度启动的那些满足这些条件,从而提供$ \ SQRT {T} $下限对部分可观察系统也有效。最后,我们转到两个简单的例子,表明我们的下限捕获了经典控制 - 理论直觉:我们的下限用于在边际稳定性附近或大过滤器增益的近方行,这些系统可以任意难以努力(学习到)控制。
translated by 谷歌翻译