双线性动力系统在许多不同的域中无处不在,也可以用于近似更通用的控制型系统。这激发了从系统状态和输入的单个轨迹中学习双线性系统的问题。在温和的边际均方稳定性假设下,我们确定需要多少数据来估算未知的双线性系统,直至具有高概率的所需精度。就轨迹长度,系统的维度和输入大小而言,我们的样本复杂性和统计错误率是最佳的。我们的证明技术依赖于Martingale小球条件的应用。这使我们能够正确捕获问题的属性,特别是我们的错误率不会随着不稳定性的增加而恶化。最后,我们表明数值实验与我们的理论结果良好。
translated by 谷歌翻译
学习如何有效地控制未知的动态系统对于智能自治系统至关重要。当潜在的动态随着时间的推移时,这项任务成为一个重大挑战。本文认为这一挑战,本文考虑了控制未知马尔可夫跳跃线性系统(MJS)的问题,以优化二次目标。通过采用基于模型的透视图,我们考虑对MJSS的识别自适应控制。我们首先为MJS提供系统识别算法,用于从系统状态,输入和模式的单个轨迹,从模式开关的演进中的底层中学习MJS的系统识别算法。通过混合时间参数,该算法的样本复杂性显示为$ \ mathcal {o}(1 / \ sqrt {t})$。然后,我们提出了一种自适应控制方案,其与确定性等效控制一起执行系统识别,以使控制器以焦化方式调整。 Combining our sample complexity results with recent perturbation results for certainty equivalent control, we prove that when the episode lengths are appropriately chosen, the proposed adaptive control scheme achieves $\mathcal{O}(\sqrt{T})$ regret, which can be改进了$ \ mathcal {o}(polylog(t))$与系统的部分了解。我们的证据策略介绍了在MJSS中处理马尔可维亚跳跃的创新和较弱的稳定概念。我们的分析提供了影响学习准确性和控制性能的系统理论量的见解。提出了数值模拟,以进一步加强这些见解。
translated by 谷歌翻译
我们考虑由非线性状态等式$ H_ {T + 1} = \ phi(h_t,u_t; \ theta)+ w_t $ toy的稳定系统的问题问题。在这里$ \ theta $是未知的系统动态,$ h_t $是状态,$ u_t $是输入,$ w_t $是附加噪音矢量。我们研究了基于梯度的算法,以了解从单个有限轨迹所获得的样本的系统动态$ \ theta $。如果系统通过稳定输入策略运行,我们表明可以通过I.i.d近似时间依赖的样本。使用混合时间参数通过截断参数示例。然后,我们为经验损失梯度的均匀收敛性开发新的保证。与现有的工作不同,我们的界限是噪声敏感,允许高精度和小样本复杂度学习地面真实动态。我们的结果在一起,促进了稳定政策下的一般非线性系统的高效学习。我们专注于进入明智的非线性激活的保证,并在各种数值实验中验证我们的理论
translated by 谷歌翻译
我们提出了一种确定性等效方案,以自适应控制标量线性系统,约为I.I.D.高斯干扰和有限的控制输入约束,而无需先验系统参数的界限,也不需要控制方向。假设该系统处于偏差稳定的范围内,则证明了闭环系统状态的均方根界。最后,提出了数值示例,以说明我们的结果。
translated by 谷歌翻译
我们解决了通过在线后退地平线控制(RHC)的框架来控制控制未知线性动态系统的问题,以时代变化的成本函数。我们考虑控制算法不知道真正的系统模型的设置,并且只能访问固定长度(不与控制范围内的增长)预览未来成本函数。我们使用动态遗憾度量的算法表征了算法的性能,该算法被定义为算法产生的累积成本与后视行动中最佳动作顺序之间的差异。我们提出了两个不同的在线RHC算法来解决这个问题,即确定的等价RHC(CE-RHC)算法和乐观RHC(O-RHC)算法。我们表明,在模型估计的标准稳定假设下,CE-RHC算法实现$ \ Mathcal {O}(T ^ {2/3})$动态遗憾。然后,我们将此结果扩展到通过提出O-RHC算法仅适用于真实系统模型的稳定假设。我们表明O-RHC算法实现$ \ Mathcal {O}(T ^ {2/3})$动态遗憾,但有一些额外的计算。
translated by 谷歌翻译
本文研究了具有完全状态观测的自主交换线性系统系统识别问题。我们提出了用于识别切换线性系统的开关最小二乘法,表明该方法是强烈一致的,并导出数据相关和数据无关的收敛速率。特别是,我们的数据依赖率的收敛速度表明,几乎肯定地,系统识别错误是$ \ mathcal {o} \ big(\ sqrt {\ log(t)/ t}大)$ why $ t $时间地平线。这些结果表明,我们对切换线性系统的方法具有相同的收敛速度,不是非切换线性系统的最小二乘法。我们将我们的结果与文学中的结果进行比较。我们提供了数值例子以说明所提出的系统识别方法的性能。
translated by 谷歌翻译
学习线性时间不变动态系统(LTID)的参数是当前兴趣的问题。在许多应用程序中,人们有兴趣联合学习多个相关LTID的参数,这仍然是未探究的日期。为此,我们开发一个联合估计器,用于学习共享常见基矩阵的LTID的过渡矩阵。此外,我们建立有限时间误差界限,取决于底层的样本大小,维度,任务数和转换矩阵的光谱属性。结果是在轻度规律假设下获得的,并在单独学习每个系统的比较中,展示从LTID的汇集信息汇总信息。我们还研究了错过过渡矩阵的联合结构的影响,并显示成立的结果在适度误操作的存在下是强大的。
translated by 谷歌翻译
我们在具有Martingale差异噪声的可实现的时间序列框架中学习正方形损失。我们的主要结果是一个快速率的多余风险结合,这表明每当轨迹超收缩条件成立时,依赖数据的最小二乘估计器的风险与燃烧时间后的IID速率订单匹配。相比之下,从依赖数据中学习的许多现有结果都具有有效的样本量,即使在燃烧时间之后,有效的样本量也被基础过程的混合时间降低。此外,我们的结果允许协变量过程表现出远距离相关性,这些相关性大大弱于几何牙齿。我们将这种现象学习称为几乎没有混合的方式,并为其示出了几个示例:$ l^2 $和$ l^{2+\ epsilon} $ norms的有界函数类是等效的,有限的有限态Markov链,各种参数模型,以及一个无限尺寸$ \ ell^2(\ mathbb {n})$椭圆形的广阔家族。通过将我们的主要结果实例化,以使用广义线性模型过渡对非线性动力学的系统识别,我们仅在多项式燃烧时间后获得了几乎最小的最佳超量风险。
translated by 谷歌翻译
我们重新求解用于时变线性回归的模型,该模型假定根据线性动力系统演变的未知参数。违反直接来看,我们表明,当潜在的动态稳定时,可以通过组合两个普通的最小二乘估计来估计该模型的参数。我们提供了在我们方法的估计误差上提供了有限的样本保证,并讨论了它过度期望 - 最大化(EM)的某些优势,这是事先工作提出的主要方法。
translated by 谷歌翻译
我们考虑载有X_ {t + 1} = \ phi(a ^ * x_t)+ \ eta_t $的设置,其中$ \ eta_t $是无偏见的噪音和$ \ phi:\ mathbb {r \ to \ mathbb {r} $是已知的链接功能,满足某些{\ em扩展性属性}。目标是从单个轨迹$ x_1,\ cdots,x_t $的{\ em依赖或相关}样本中学习$ a ^ * $。虽然在线性案例中,在线性案例中的问题很好,而$ \ phi $是身份,但对于非混音系统,最佳错误率,即使是非混音系统,也存在于非线性案例的结果仅适用于混合系统。在这项工作中,我们以多种方式改善了用于学习非线性系统的现有结果:a)我们提供了在没有混合假设的情况下学习非线性动态系统的第一个离线算法,B)我们显着提高了现有的样本复杂性结果混合系统,c)在更难的单遍,流媒体设置中,我们研究了一个具有反向体验的SGD($ \ MATHSF {SGD-RER} $)方法,并证明用于混合系统,它实现了相同的样本复杂性作为我们的离线算法,d)我们通过表示流行的Relu链接功能来证明扩张假设 - 一种与IID的非膨胀而易于学习的链接函数样本 - 任何方法都需要指数呈现许多样本(相对于X_T $的维度)来自动态系统。我们通过验证我们的结果。仿真并证明SGD的天真应用可以高度次优。实际上,我们的工作表明,对于相关的数据,专门用于数据中的依赖结构的专用方法可以显着优于基于标准的SGD方法。
translated by 谷歌翻译
本文考虑了线性二次双控制问题,其中需要识别系统参数,并且需要在该时期优化控制目标。与现有的数据驱动线性二次调节相反,这通常在某种概率内提供错误或后悔界限,我们提出了一种在线算法,可以在几乎肯定的意义上保证控制器的渐近最优性。我们的双重控制策略由两部分组成:基于勘探噪声和系统输出之间的互相关,具有时间衰减探索噪声和Markov参数推断的交换控制器。当实际状态显着地从目标状态偏离时,几乎肯定的性能保证是一个安全的交换控制策略,其返回到已知的保守但稳定的控制器。我们证明,此切换策略规定了从应用中的任何潜在的稳定控制器,而我们的交换策略与最佳线性状态反馈之间的性能差距是指数较小的。在我们的双控制方案下,参数推理误差尺度为$ O(t ^ {-1 / 4 + \ epsilon})$,而控制性能的子优相差距为$ o(t ^ { - 1/2 + \ epsilon})$,$ t $是时间步数,$ \ epsilon $是一个任意小的正数。提供了工业过程示例的仿真结果,以说明我们提出的策略的有效性。
translated by 谷歌翻译
这项教程调查概述了统计学习理论中最新的非征血性进步与控制和系统识别相关。尽管在所有控制领域都取得了重大进展,但在线性系统的识别和学习线性二次调节器时,该理论是最发达的,这是本手稿的重点。从理论的角度来看,这些进步的大部分劳动都在适应现代高维统计和学习理论的工具。虽然与控制对机器学习的工具感兴趣的理论家高度相关,但基础材料并不总是容易访问。为了解决这个问题,我们提供了相关材料的独立介绍,概述了基于最新结果的所有关键思想和技术机械。我们还提出了许多开放问题和未来的方向。
translated by 谷歌翻译
汤普森采样(TS)是在不确定性下进行决策的有效方法,其中从精心规定的分布中采样了动作,该分布根据观察到的数据进行更新。在这项工作中,我们研究了使用TS的可稳定线性季度调节剂(LQR)自适应控制的问题,其中系统动力学是未知的。先前的作品已经确定,$ \ tilde o(\ sqrt {t})$频繁的遗憾对于LQR的自适应控制是最佳的。但是,现有方法要么仅在限制性设置中起作用,需要先验已知的稳定控制器,要么使用计算上棘手的方法。我们提出了一种有效的TS算法,用于对LQR的自适应控制,TS基于TS的自适应控制,TSAC,该算法达到了$ \ tilde o(\ sqrt {t})$遗憾,即使对于多维系统和Lazaric(2018)。 TSAC不需要先验已知的稳定控制器,并通过在早期阶段有效探索环境来实现基础系统的快速稳定。我们的结果取决于开发新颖的下限TS提供乐观样本的概率。通过仔细规定早期的探索策略和政策更新规则,我们表明TS在适应性控制多维可稳定性LQR方面实现了最佳的遗憾。我们从经验上证明了TSAC在几个自适应控制任务中的性能和效率。
translated by 谷歌翻译
We study representation learning for efficient imitation learning over linear systems. In particular, we consider a setting where learning is split into two phases: (a) a pre-training step where a shared $k$-dimensional representation is learned from $H$ source policies, and (b) a target policy fine-tuning step where the learned representation is used to parameterize the policy class. We find that the imitation gap over trajectories generated by the learned target policy is bounded by $\tilde{O}\left( \frac{k n_x}{HN_{\mathrm{shared}}} + \frac{k n_u}{N_{\mathrm{target}}}\right)$, where $n_x > k$ is the state dimension, $n_u$ is the input dimension, $N_{\mathrm{shared}}$ denotes the total amount of data collected for each policy during representation learning, and $N_{\mathrm{target}}$ is the amount of target task data. This result formalizes the intuition that aggregating data across related tasks to learn a representation can significantly improve the sample efficiency of learning a target task. The trends suggested by this bound are corroborated in simulation.
translated by 谷歌翻译
本文介绍了局部最低限度的遗憾,用于自适应控制线性 - 四爵士(LQG)系统的下限。我们考虑平滑参数化实例,并在对数遗憾时提供了对实例的特定和灵活性,以考虑到问题结构。这种理解依赖于两个关键概念:局部无规格的概念;当最佳策略没有提供足够的激励以确定最佳政策,并产生退化的Fisher信息矩阵;以及信息遗憾的界限,当政策依赖信息矩阵的小特征值在该政策的遗憾方面是无限的。结合减少贝叶斯估计和范树的应用,这两个条件足以证明遗憾的界限为时间$ \ sqrt {t} $ \ sqrt {t} $ of the the theaign,$ t $。该方法产生低界,其具有与控制理论问题常数自然的紧密依赖性和规模。例如,我们能够证明在边缘稳定性附近运行的系统从根本上难以学习控制。我们进一步表明,大类系统满足这些条件,其中任何具有$ a $的状态反馈系统 - 和$ b $ -matrices未知。最重要的是,我们还建立了一个非活动类别的部分可观察系统,基本上是那些过度启动的那些满足这些条件,从而提供$ \ SQRT {T} $下限对部分可观察系统也有效。最后,我们转到两个简单的例子,表明我们的下限捕获了经典控制 - 理论直觉:我们的下限用于在边际稳定性附近或大过滤器增益的近方行,这些系统可以任意难以努力(学习到)控制。
translated by 谷歌翻译
反对派系统中最近的进展在贝叶斯视角下,逆滤成了显着的研究兴趣。例如,估计逆基金的卡尔曼滤波器跟踪估计的兴趣与预测对手的未来步骤的目的已经导致最近反向卡尔曼滤波器(I-KF)的配方。在逆滤波的这种情况下,我们通过提出反向扩展卡尔曼滤波器(I-EKF)来解决向前滤波器的非线性过程动态和未知输入的关键挑战。通过考虑前向和逆状态空间模型中的非线性,我们通过派生I-EKF而没有未知的输入。在此过程中,还获得了I-KF的输入。然后,我们使用界限非线性和未知的矩阵方法提供理论稳定性保证。我们进一步概括了这些制剂,并对高出高斯和抖动的I-EKF的案例概括。数值实验使用递归Cram \'ER-RAO作为基准验证各种提出的逆滤波器的方法。
translated by 谷歌翻译
我们研究了随机近似程序,以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后,我们证明了一种在适当平均迭代序列上的非渐近实例依赖性,具有匹配局部渐近最小的限制的领先术语,包括对参数$的敏锐依赖(d,t _ {\ mathrm {mix}}) $以高阶术语。我们将这些上限与非渐近Minimax的下限补充,该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD($ \ lambda $)算法,以便[0,1)$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门(例如,在运行TD($ \ Lambda $)算法时选择$ \ lambda $的值)。
translated by 谷歌翻译
Q学习长期以来一直是最受欢迎的强化学习算法之一,几十年来,Q学习的理论分析一直是一个活跃的研究主题。尽管对Q-学习的渐近收敛分析的研究具有悠久的传统,但非肿瘤收敛性直到最近才受到积极研究。本文的主要目的是通过控制系统的观点研究马尔可夫观察模型下异步Q学习的新有限时间分析。特别是,我们引入了Q学习的离散时间变化的开关系统模型,并减少了分析的步骤尺寸,这显着改善了使用恒定步骤尺寸的开关系统分析的最新开发,并导致\(\(\)(\) Mathcal {o} \ left(\ sqrt {\ frac {\ log k} {k}}} \ right)\)\)\)\)\)\)\)\)与大多数艺术状态相当或更好。同时,新应用了使用类似转换的技术,以避免通过减小的步骤尺寸提出的分析中的难度。提出的分析带来了其他见解,涵盖了不同的方案,并提供了新的简化模板,以通过其独特的连接与离散时间切换系统的独特联系来加深我们对Q学习的理解。
translated by 谷歌翻译
我们考虑通过流算法从单个轨迹估计线性时间不变(LTI)动态系统的问题,这在包括增强学习(RL)和时间序列分析的若干应用中遇到。虽然LTI系统估计问题在{\ em离线}设置中进行了很好地研究,但实际上重要的流媒体/在线设置很少受到关注。如随机梯度下降(SGD)等标准流动方法不太可能起作用,因为流点可以高度相关。在这项工作中,我们提出了一种新颖的流媒体算法,SGD具有反向体验的重播($ \ MATHSF {SGD} - \ MATHSF {RER),这是由RL文献中流行的体验重播(ER)技术的启发。 $ \ mathsf {sgd} - \ mathsf {rer} $划分为小缓冲区,并在存储在单个缓冲区中的数据后向后运行SGD。我们表明该算法精确地解构了依赖结构,并获得了从理论上最佳保证的信息,用于参数误差和预测误差。因此,我们提供了我们的第一至最佳的知识 - 最佳的SGD风格算法,用于使用一阶Oracle的线性系统识别的经典问题。此外,$ \ mathsf {sgd} - \ mathsf {rer} $可以应用于具有已知稀疏模式和非线性动态系统的稀疏LTI识别的更多常规设置。我们的工作表明,数据依赖性结构的知识可以帮助我们在统计上和计算上的算法设计中,这些算法可以“去相关”流样本。
translated by 谷歌翻译
Influence diagnostics such as influence functions and approximate maximum influence perturbations are popular in machine learning and in AI domain applications. Influence diagnostics are powerful statistical tools to identify influential datapoints or subsets of datapoints. We establish finite-sample statistical bounds, as well as computational complexity bounds, for influence functions and approximate maximum influence perturbations using efficient inverse-Hessian-vector product implementations. We illustrate our results with generalized linear models and large attention based models on synthetic and real data.
translated by 谷歌翻译