考虑了具有主要代理和次要代理的分散式二次系统。主要代理会影响未成年人,但反之亦然。所有试剂都观察到了主要药物的状态。此外,未成年人对当地状态有嘈杂的观察。噪声过程是\ emph {not}是高斯。表征了最佳策略和最佳线性策略的结构。结果表明,主要代理的最佳控制动作是系统状态的主要代理MMSE(最小平方误差)的线性函数,而次要代理的最佳控制动作是主要代理的MMSE MMSE估算的线性函数以及一个“更正术语”,取决于未成年人对本地国家的MMSE估计以及主要代理商对未成年人当地国家的MMSE估算的差异。由于噪声是非高斯的,因此次要药物的MMSE估计是其观察的非线性函数。结果表明,替换次要代理的MMSE估计值(线性最小平方)估计值提供了最佳的线性控制策略。结果是使用基于条件独立性,基于共同信息的状态和控制措施的直接方法证明了结果,并根据条件独立性,正交性原理和正方形的完成来简化每步成本。
translated by 谷歌翻译
多功能钢筋学习已成功应用于许多挑战性问题。尽管有这些经验成功,但对不同算法的理论理解缺乏,主要是由于状态 - 行动空间的指数增长与代理人数引起的维度诅咒。我们研究了多蛋白线性二次调节剂(LQR)的基本问题,在该刻度部分可互换的情况下。在此设置中,我们开发了一个分层演员 - 批评算法,其计算复杂性独立于代理总数,并证明了其全局线性融合到最佳政策。由于LQRS经常用于近似一般动态系统,本文提供了更好地理解一般分层平均场多功能增强学习的重要一步。
translated by 谷歌翻译
本文介绍了局部最低限度的遗憾,用于自适应控制线性 - 四爵士(LQG)系统的下限。我们考虑平滑参数化实例,并在对数遗憾时提供了对实例的特定和灵活性,以考虑到问题结构。这种理解依赖于两个关键概念:局部无规格的概念;当最佳策略没有提供足够的激励以确定最佳政策,并产生退化的Fisher信息矩阵;以及信息遗憾的界限,当政策依赖信息矩阵的小特征值在该政策的遗憾方面是无限的。结合减少贝叶斯估计和范树的应用,这两个条件足以证明遗憾的界限为时间$ \ sqrt {t} $ \ sqrt {t} $ of the the theaign,$ t $。该方法产生低界,其具有与控制理论问题常数自然的紧密依赖性和规模。例如,我们能够证明在边缘稳定性附近运行的系统从根本上难以学习控制。我们进一步表明,大类系统满足这些条件,其中任何具有$ a $的状态反馈系统 - 和$ b $ -matrices未知。最重要的是,我们还建立了一个非活动类别的部分可观察系统,基本上是那些过度启动的那些满足这些条件,从而提供$ \ SQRT {T} $下限对部分可观察系统也有效。最后,我们转到两个简单的例子,表明我们的下限捕获了经典控制 - 理论直觉:我们的下限用于在边际稳定性附近或大过滤器增益的近方行,这些系统可以任意难以努力(学习到)控制。
translated by 谷歌翻译
We study the task of learning state representations from potentially high-dimensional observations, with the goal of controlling an unknown partially observable system. We pursue a direct latent model learning approach, where a dynamic model in some latent state space is learned by predicting quantities directly related to planning (e.g., costs) without reconstructing the observations. In particular, we focus on an intuitive cost-driven state representation learning method for solving Linear Quadratic Gaussian (LQG) control, one of the most fundamental partially observable control problems. As our main results, we establish finite-sample guarantees of finding a near-optimal state representation function and a near-optimal controller using the directly learned latent model. To the best of our knowledge, despite various empirical successes, prior to this work it was unclear if such a cost-driven latent model learner enjoys finite-sample guarantees. Our work underscores the value of predicting multi-step costs, an idea that is key to our theory, and notably also an idea that is known to be empirically valuable for learning state representations.
translated by 谷歌翻译
This paper revisits the work of Rauch et al. (1965) and develops a novel method for recursive maximum likelihood particle filtering for general state-space models. The new method is based on statistical analysis of incomplete observations of the systems. Score function and conditional observed information of the incomplete observations/data are introduced and their distributional properties are discussed. Some identities concerning the score function and information matrices of the incomplete data are derived. Maximum likelihood estimation of state-vector is presented in terms of the score function and observed information matrices. In particular, to deal with nonlinear state-space, a sequential Monte Carlo method is developed. It is given recursively by an EM-gradient-particle filtering which extends the work of Lange (1995) for state estimation. To derive covariance matrix of state-estimation errors, an explicit form of observed information matrix is proposed. It extends Louis (1982) general formula for the same matrix to state-vector estimation. Under (Neumann) boundary conditions of state transition probability distribution, the inverse of this matrix coincides with the Cramer-Rao lower bound on the covariance matrix of estimation errors of unbiased state-estimator. In the case of linear models, the method shows that the Kalman filter is a fully efficient state estimator whose covariance matrix of estimation error coincides with the Cramer-Rao lower bound. Some numerical examples are discussed to exemplify the main results.
translated by 谷歌翻译
我们考虑通过有限的地平线$ t $控制线性二次调节器(LQR)系统的问题,以固定和已知的成本矩阵$ q,r $但未知和非静止动力$ \ {a_t,b_t \} $。动态矩阵的序列可以是任意的,但总体变化,V_T $,假设为$ O(t)$和控制器未知。在假设所有$ $ $的稳定序列,但潜在的子最优控制器中,我们介绍了一种实现$ \ tilde {\ mathcal {o}} \ left的最佳动态遗憾的算法(v_t ^ { 2/5} t ^ {3/5} \右)$。通过分词恒定动态,我们的算法实现了$ \ tilde {\ mathcal {o}}(\ sqrt {st})$的最佳遗憾,其中$ s $是交换机的数量。我们的算法的关键是一种自适应的非平稳性检测策略,它在最近开发的用于上下文多武装匪徒问题的方法中构建。我们还争辩说,不适应忘记(例如,重新启动或使用静态窗口大小的滑动窗口学习)可能对LQR问题的后悔最佳,即使窗口大小以$ V_T $的知识最佳地调整。我们算法分析中的主要技术挑战是证明普通的最小二乘(OLS)估计器在待估计的参数是非静止的情况下具有小的偏差。我们的分析还突出了推动遗憾的关键主题是LQR问题在于LQR问题是具有线性反馈和局部二次成本的强盗问题。这个主题比LQR问题本身更普及,因此我们相信我们的结果应该找到更广泛的应用。
translated by 谷歌翻译
这项调查旨在提供线性模型及其背后的理论的介绍。我们的目标是对读者进行严格的介绍,并事先接触普通最小二乘。在机器学习中,输出通常是输入的非线性函数。深度学习甚至旨在找到需要大量计算的许多层的非线性依赖性。但是,这些算法中的大多数都基于简单的线性模型。然后,我们从不同视图中描述线性模型,并找到模型背后的属性和理论。线性模型是回归问题中的主要技术,其主要工具是最小平方近似,可最大程度地减少平方误差之和。当我们有兴趣找到回归函数时,这是一个自然的选择,该回归函数可以最大程度地减少相应的预期平方误差。这项调查主要是目的的摘要,即线性模型背后的重要理论的重要性,例如分布理论,最小方差估计器。我们首先从三种不同的角度描述了普通的最小二乘,我们会以随机噪声和高斯噪声干扰模型。通过高斯噪声,该模型产生了可能性,因此我们引入了最大似然估计器。它还通过这种高斯干扰发展了一些分布理论。最小二乘的分布理论将帮助我们回答各种问题并引入相关应用。然后,我们证明最小二乘是均值误差的最佳无偏线性模型,最重要的是,它实际上接近了理论上的极限。我们最终以贝叶斯方法及以后的线性模型结束。
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
反对派系统中最近的进展在贝叶斯视角下,逆滤成了显着的研究兴趣。例如,估计逆基金的卡尔曼滤波器跟踪估计的兴趣与预测对手的未来步骤的目的已经导致最近反向卡尔曼滤波器(I-KF)的配方。在逆滤波的这种情况下,我们通过提出反向扩展卡尔曼滤波器(I-EKF)来解决向前滤波器的非线性过程动态和未知输入的关键挑战。通过考虑前向和逆状态空间模型中的非线性,我们通过派生I-EKF而没有未知的输入。在此过程中,还获得了I-KF的输入。然后,我们使用界限非线性和未知的矩阵方法提供理论稳定性保证。我们进一步概括了这些制剂,并对高出高斯和抖动的I-EKF的案例概括。数值实验使用递归Cram \'ER-RAO作为基准验证各种提出的逆滤波器的方法。
translated by 谷歌翻译
这项教程调查概述了统计学习理论中最新的非征血性进步与控制和系统识别相关。尽管在所有控制领域都取得了重大进展,但在线性系统的识别和学习线性二次调节器时,该理论是最发达的,这是本手稿的重点。从理论的角度来看,这些进步的大部分劳动都在适应现代高维统计和学习理论的工具。虽然与控制对机器学习的工具感兴趣的理论家高度相关,但基础材料并不总是容易访问。为了解决这个问题,我们提供了相关材料的独立介绍,概述了基于最新结果的所有关键思想和技术机械。我们还提出了许多开放问题和未来的方向。
translated by 谷歌翻译
控制理论中的一个基本概念是可控性,可以通过适当的控制输入选择来达到任何系统状态。确实,大量的古典和现代方法是为可控的线性动力系统设计的。但是,在实践中,我们经常遇到系统,其中大量状态变量与控制输入无关。这样的系统仅是部分控制的。这项工作的重点是大量部分可控制的线性动力学系统,该系统由潜在的稀疏模式指定。我们的主要结果建立了结构性条件和有限样本保证,以学习控制此类系统。特别是,我们的结构结果是那些与最佳控制无关的状态变量的特征,该分析偏离了经典的控制技术。我们的算法结果适应了高维统计数据(尤其是软阈值和半参数最小二乘方形),以利用潜在的稀疏模式,以获得有限样本的保证,从而显着改善了基于一定程度等值的有限样本。我们还通过模拟研究证实了这些理论改进,而不是确定性等效控制。
translated by 谷歌翻译
我们研究有限的时间范围连续时间线性季节增强学习问题,在情节环境中,控制器的状态和控制系数都不清楚。我们首先提出了基于连续时间观察和控件的最小二乘算法,并建立对数的对数遗憾,以$ o((\ ln m)(\ ln \ ln m))$,$ m $是数字学习情节。该分析由两个部分组成:扰动分析,这些分析利用了相关的riccati微分方程的规律性和鲁棒性;和参数估计误差,依赖于连续的最小二乘估计器的亚指数属性。我们进一步提出了一种基于离散时间观察和分段恒定控制的实际实现最小二乘算法,该算法根据算法中使用的时间步骤明确地取决于额外的术语,从而实现相似的对数后悔。
translated by 谷歌翻译
This work studies networked agents cooperating to track a dynamical state of nature under partial information. The proposed algorithm is a distributed Bayesian filtering algorithm for finite-state hidden Markov models (HMMs). It can be used for sequential state estimation tasks, as well as for modeling opinion formation over social networks under dynamic environments. We show that the disagreement with the optimal centralized solution is asymptotically bounded for the class of geometrically ergodic state transition models, which includes rapidly changing models. We also derive recursions for calculating the probability of error and establish convergence under Gaussian observation models. Simulations are provided to illustrate the theory and to compare against alternative approaches.
translated by 谷歌翻译
本文考虑了线性二次双控制问题,其中需要识别系统参数,并且需要在该时期优化控制目标。与现有的数据驱动线性二次调节相反,这通常在某种概率内提供错误或后悔界限,我们提出了一种在线算法,可以在几乎肯定的意义上保证控制器的渐近最优性。我们的双重控制策略由两部分组成:基于勘探噪声和系统输出之间的互相关,具有时间衰减探索噪声和Markov参数推断的交换控制器。当实际状态显着地从目标状态偏离时,几乎肯定的性能保证是一个安全的交换控制策略,其返回到已知的保守但稳定的控制器。我们证明,此切换策略规定了从应用中的任何潜在的稳定控制器,而我们的交换策略与最佳线性状态反馈之间的性能差距是指数较小的。在我们的双控制方案下,参数推理误差尺度为$ O(t ^ {-1 / 4 + \ epsilon})$,而控制性能的子优相差距为$ o(t ^ { - 1/2 + \ epsilon})$,$ t $是时间步数,$ \ epsilon $是一个任意小的正数。提供了工业过程示例的仿真结果,以说明我们提出的策略的有效性。
translated by 谷歌翻译
本文研究了具有完全状态观测的自主交换线性系统系统识别问题。我们提出了用于识别切换线性系统的开关最小二乘法,表明该方法是强烈一致的,并导出数据相关和数据无关的收敛速率。特别是,我们的数据依赖率的收敛速度表明,几乎肯定地,系统识别错误是$ \ mathcal {o} \ big(\ sqrt {\ log(t)/ t}大)$ why $ t $时间地平线。这些结果表明,我们对切换线性系统的方法具有相同的收敛速度,不是非切换线性系统的最小二乘法。我们将我们的结果与文学中的结果进行比较。我们提供了数值例子以说明所提出的系统识别方法的性能。
translated by 谷歌翻译
直接政策搜索作为现代强化学习(RL)的工作人员之一,其在连续控制任务中的应用最近引起了不断的关注。在这项工作中,我们研究了用于学习线性风险敏感和鲁棒控制器的政策梯度(PG)方法的收敛理论。特别地,我们开发PG方法,可以通过采样系统轨迹以无衍生方式实现,并建立全球收敛性和样本复杂性,这导致风险敏感和强大控制中的两个基本环境的解决方案:有限地平线线性指数二次高斯,以及有限地平线线性二次干扰衰减问题。作为副产品,我们的结果还为解决零和线性二次动态游戏的PG方法的全局融合提供了第一种样本复杂性,这是一种非透明的极限优化问题,该问题用作多功能钢筋中的基线设置学习(Marl)与连续空间。我们的算法的一个特征是在学习阶段,保留了一定程度的控制器的鲁棒性/风险敏感性,因此我们被称为隐式正则化属性,并且是安全关键控制系统的基本要求。
translated by 谷歌翻译
本文研究了在线性季节控制设置中权力下放程度与分布式控制器的性能之间的权衡。我们在图形和分布式控制器上研究一个互连代理系统,称为$ \ kappa $分布式控件,该系统使代理可以根据距离$ \ kappa $在基础图上的状态信息做出控制决策。该控制器可以使用参数$ \ kappa $调整其权力下放化程度,从而允许表征权力下放和绩效之间的关系。我们表明,在温和的假设下,包括可稳定性,可检测性和次数增长的图形条件,$ \ kappa $分布式控制和集中式最佳控制之间的性能差异在$ \ kappa $中呈指数级较小。该结果表明,分布式控制可以通过中等程度的权力下放实现近乎最佳的性能,因此它是用于大规模网络系统的有效控制器体系结构。
translated by 谷歌翻译
我们研究了随机近似程序,以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后,我们证明了一种在适当平均迭代序列上的非渐近实例依赖性,具有匹配局部渐近最小的限制的领先术语,包括对参数$的敏锐依赖(d,t _ {\ mathrm {mix}}) $以高阶术语。我们将这些上限与非渐近Minimax的下限补充,该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD($ \ lambda $)算法,以便[0,1)$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门(例如,在运行TD($ \ Lambda $)算法时选择$ \ lambda $的值)。
translated by 谷歌翻译
最近的反对抗性系统设计问题促使贝叶斯过滤器的反向发展。例如,最近已经制定了逆卡尔曼过滤器(I-KF),以估算对手的卡尔曼滤波器跟踪估计值,因此可以预测对手的未来步骤。本文和伴随论文(第一部分)的目的是通过提出反向扩展的卡尔曼过滤器(I-EKF)来解决非线性系统中的反过滤问题。在同伴论文(第一部分)中,我们发展了I-EKF(有或没有未知输入)和I-KF(未知输入)的理论。在本文中,我们为高度非线性模型开发了这一理论,该模型采用了二阶,高斯总和和抖动的前向EKF。特别是,我们使用有界的非线性方法来得出二阶EKF的理论稳定性保证。为了解决系统模型和正向滤波器对防御者完全知道的标准I-EKF的限制,我们建议复制核基于Hilbert Space基于空间的EKF,以根据其观察值学习未知的系统动力学,可以用作该动态反向过滤器推断对手的估计值。数值实验证明了使用递归的cram \'{e} r-rao下限作为基准测试的拟议过滤器的状态估计性能。
translated by 谷歌翻译