本文研究了具有完全状态观测的自主交换线性系统系统识别问题。我们提出了用于识别切换线性系统的开关最小二乘法,表明该方法是强烈一致的,并导出数据相关和数据无关的收敛速率。特别是,我们的数据依赖率的收敛速度表明,几乎肯定地,系统识别错误是$ \ mathcal {o} \ big(\ sqrt {\ log(t)/ t}大)$ why $ t $时间地平线。这些结果表明,我们对切换线性系统的方法具有相同的收敛速度,不是非切换线性系统的最小二乘法。我们将我们的结果与文学中的结果进行比较。我们提供了数值例子以说明所提出的系统识别方法的性能。
translated by 谷歌翻译
学习如何有效地控制未知的动态系统对于智能自治系统至关重要。当潜在的动态随着时间的推移时,这项任务成为一个重大挑战。本文认为这一挑战,本文考虑了控制未知马尔可夫跳跃线性系统(MJS)的问题,以优化二次目标。通过采用基于模型的透视图,我们考虑对MJSS的识别自适应控制。我们首先为MJS提供系统识别算法,用于从系统状态,输入和模式的单个轨迹,从模式开关的演进中的底层中学习MJS的系统识别算法。通过混合时间参数,该算法的样本复杂性显示为$ \ mathcal {o}(1 / \ sqrt {t})$。然后,我们提出了一种自适应控制方案,其与确定性等效控制一起执行系统识别,以使控制器以焦化方式调整。 Combining our sample complexity results with recent perturbation results for certainty equivalent control, we prove that when the episode lengths are appropriately chosen, the proposed adaptive control scheme achieves $\mathcal{O}(\sqrt{T})$ regret, which can be改进了$ \ mathcal {o}(polylog(t))$与系统的部分了解。我们的证据策略介绍了在MJSS中处理马尔可维亚跳跃的创新和较弱的稳定概念。我们的分析提供了影响学习准确性和控制性能的系统理论量的见解。提出了数值模拟,以进一步加强这些见解。
translated by 谷歌翻译
本文考虑了线性二次双控制问题,其中需要识别系统参数,并且需要在该时期优化控制目标。与现有的数据驱动线性二次调节相反,这通常在某种概率内提供错误或后悔界限,我们提出了一种在线算法,可以在几乎肯定的意义上保证控制器的渐近最优性。我们的双重控制策略由两部分组成:基于勘探噪声和系统输出之间的互相关,具有时间衰减探索噪声和Markov参数推断的交换控制器。当实际状态显着地从目标状态偏离时,几乎肯定的性能保证是一个安全的交换控制策略,其返回到已知的保守但稳定的控制器。我们证明,此切换策略规定了从应用中的任何潜在的稳定控制器,而我们的交换策略与最佳线性状态反馈之间的性能差距是指数较小的。在我们的双控制方案下,参数推理误差尺度为$ O(t ^ {-1 / 4 + \ epsilon})$,而控制性能的子优相差距为$ o(t ^ { - 1/2 + \ epsilon})$,$ t $是时间步数,$ \ epsilon $是一个任意小的正数。提供了工业过程示例的仿真结果,以说明我们提出的策略的有效性。
translated by 谷歌翻译
我们研究有限的时间范围连续时间线性季节增强学习问题,在情节环境中,控制器的状态和控制系数都不清楚。我们首先提出了基于连续时间观察和控件的最小二乘算法,并建立对数的对数遗憾,以$ o((\ ln m)(\ ln \ ln m))$,$ m $是数字学习情节。该分析由两个部分组成:扰动分析,这些分析利用了相关的riccati微分方程的规律性和鲁棒性;和参数估计误差,依赖于连续的最小二乘估计器的亚指数属性。我们进一步提出了一种基于离散时间观察和分段恒定控制的实际实现最小二乘算法,该算法根据算法中使用的时间步骤明确地取决于额外的术语,从而实现相似的对数后悔。
translated by 谷歌翻译
我们考虑与高斯数据的高维线性回归中的插值学习,并在类高斯宽度方面证明了任意假设类别中的内插器的泛化误差。将通用绑定到欧几里德常规球恢复了Bartlett等人的一致性结果。(2020)对于最小规范内插器,并确认周等人的预测。(2020)在高斯数据的特殊情况下,对于近乎最小常态的内插器。我们通过将其应用于单位来证明所界限的一般性,从而获得最小L1-NORM Interpoolator(基础追踪)的新型一致性结果。我们的结果表明,基于规范的泛化界限如何解释并用于分析良性过度装备,至少在某些设置中。
translated by 谷歌翻译
我们研究了随机近似程序,以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后,我们证明了一种在适当平均迭代序列上的非渐近实例依赖性,具有匹配局部渐近最小的限制的领先术语,包括对参数$的敏锐依赖(d,t _ {\ mathrm {mix}}) $以高阶术语。我们将这些上限与非渐近Minimax的下限补充,该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD($ \ lambda $)算法,以便[0,1)$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门(例如,在运行TD($ \ Lambda $)算法时选择$ \ lambda $的值)。
translated by 谷歌翻译
学习线性时间不变动态系统(LTID)的参数是当前兴趣的问题。在许多应用程序中,人们有兴趣联合学习多个相关LTID的参数,这仍然是未探究的日期。为此,我们开发一个联合估计器,用于学习共享常见基矩阵的LTID的过渡矩阵。此外,我们建立有限时间误差界限,取决于底层的样本大小,维度,任务数和转换矩阵的光谱属性。结果是在轻度规律假设下获得的,并在单独学习每个系统的比较中,展示从LTID的汇集信息汇总信息。我们还研究了错过过渡矩阵的联合结构的影响,并显示成立的结果在适度误操作的存在下是强大的。
translated by 谷歌翻译
我们研究了称为“乐观速率”(Panchenko 2002; Srebro等,2010)的统一收敛概念,用于与高斯数据的线性回归。我们的精致分析避免了现有结果中的隐藏常量和对数因子,这已知在高维设置中至关重要,特别是用于了解插值学习。作为一个特殊情况,我们的分析恢复了Koehler等人的保证。(2021年),在良性过度的过度条件下,严格地表征了低规范内插器的人口风险。但是,我们的乐观速度绑定还分析了具有任意训练错误的预测因子。这使我们能够在随机设计下恢复脊和套索回归的一些经典统计保障,并有助于我们在过度参数化制度中获得精确了解近端器的过度风险。
translated by 谷歌翻译
我们重新求解用于时变线性回归的模型,该模型假定根据线性动力系统演变的未知参数。违反直接来看,我们表明,当潜在的动态稳定时,可以通过组合两个普通的最小二乘估计来估计该模型的参数。我们提供了在我们方法的估计误差上提供了有限的样本保证,并讨论了它过度期望 - 最大化(EM)的某些优势,这是事先工作提出的主要方法。
translated by 谷歌翻译
我们提出了一种确定性等效方案,以自适应控制标量线性系统,约为I.I.D.高斯干扰和有限的控制输入约束,而无需先验系统参数的界限,也不需要控制方向。假设该系统处于偏差稳定的范围内,则证明了闭环系统状态的均方根界。最后,提出了数值示例,以说明我们的结果。
translated by 谷歌翻译
我们在具有Martingale差异噪声的可实现的时间序列框架中学习正方形损失。我们的主要结果是一个快速率的多余风险结合,这表明每当轨迹超收缩条件成立时,依赖数据的最小二乘估计器的风险与燃烧时间后的IID速率订单匹配。相比之下,从依赖数据中学习的许多现有结果都具有有效的样本量,即使在燃烧时间之后,有效的样本量也被基础过程的混合时间降低。此外,我们的结果允许协变量过程表现出远距离相关性,这些相关性大大弱于几何牙齿。我们将这种现象学习称为几乎没有混合的方式,并为其示出了几个示例:$ l^2 $和$ l^{2+\ epsilon} $ norms的有界函数类是等效的,有限的有限态Markov链,各种参数模型,以及一个无限尺寸$ \ ell^2(\ mathbb {n})$椭圆形的广阔家族。通过将我们的主要结果实例化,以使用广义线性模型过渡对非线性动力学的系统识别,我们仅在多项式燃烧时间后获得了几乎最小的最佳超量风险。
translated by 谷歌翻译
随机奇异值分解(RSVD)是用于计算大型数据矩阵截断的SVD的一类计算算法。给定A $ n \ times n $对称矩阵$ \ mathbf {m} $,原型RSVD算法输出通过计算$ \ mathbf {m mathbf {m} $的$ k $引导singular vectors的近似m}^{g} \ mathbf {g} $;这里$ g \ geq 1 $是一个整数,$ \ mathbf {g} \ in \ mathbb {r}^{n \ times k} $是一个随机的高斯素描矩阵。在本文中,我们研究了一般的“信号加上噪声”框架下的RSVD的统计特性,即,观察到的矩阵$ \ hat {\ mathbf {m}} $被认为是某种真实但未知的加法扰动信号矩阵$ \ mathbf {m} $。我们首先得出$ \ ell_2 $(频谱规范)和$ \ ell_ {2 \ to \ infty} $(最大行行列$ \ ell_2 $ norm)$ \ hat {\ hat {\ Mathbf {M}} $和信号矩阵$ \ Mathbf {M} $的真实单数向量。这些上限取决于信噪比(SNR)和功率迭代$ g $的数量。观察到一个相变现象,其中较小的SNR需要较大的$ g $值以保证$ \ ell_2 $和$ \ ell_ {2 \ to \ fo \ infty} $ distances的收敛。我们还表明,每当噪声矩阵满足一定的痕量生长条件时,这些相变发生的$ g $的阈值都会很清晰。最后,我们得出了近似奇异向量的行波和近似矩阵的进入波动的正常近似。我们通过将RSVD的几乎最佳性能保证在应用于三个统计推断问题的情况下,即社区检测,矩阵完成和主要的组件分析,并使用缺失的数据来说明我们的理论结果。
translated by 谷歌翻译
本文介绍了局部最低限度的遗憾,用于自适应控制线性 - 四爵士(LQG)系统的下限。我们考虑平滑参数化实例,并在对数遗憾时提供了对实例的特定和灵活性,以考虑到问题结构。这种理解依赖于两个关键概念:局部无规格的概念;当最佳策略没有提供足够的激励以确定最佳政策,并产生退化的Fisher信息矩阵;以及信息遗憾的界限,当政策依赖信息矩阵的小特征值在该政策的遗憾方面是无限的。结合减少贝叶斯估计和范树的应用,这两个条件足以证明遗憾的界限为时间$ \ sqrt {t} $ \ sqrt {t} $ of the the theaign,$ t $。该方法产生低界,其具有与控制理论问题常数自然的紧密依赖性和规模。例如,我们能够证明在边缘稳定性附近运行的系统从根本上难以学习控制。我们进一步表明,大类系统满足这些条件,其中任何具有$ a $的状态反馈系统 - 和$ b $ -matrices未知。最重要的是,我们还建立了一个非活动类别的部分可观察系统,基本上是那些过度启动的那些满足这些条件,从而提供$ \ SQRT {T} $下限对部分可观察系统也有效。最后,我们转到两个简单的例子,表明我们的下限捕获了经典控制 - 理论直觉:我们的下限用于在边际稳定性附近或大过滤器增益的近方行,这些系统可以任意难以努力(学习到)控制。
translated by 谷歌翻译
在非参数回归设置中,我们构建了一个估计器,该估计器是一个连续的函数,以高概率插值数据点,同时在H \ h \'较大级别的平均平方风险下达到最小的最佳速率,以适应未知的平滑度。
translated by 谷歌翻译
这项教程调查概述了统计学习理论中最新的非征血性进步与控制和系统识别相关。尽管在所有控制领域都取得了重大进展,但在线性系统的识别和学习线性二次调节器时,该理论是最发达的,这是本手稿的重点。从理论的角度来看,这些进步的大部分劳动都在适应现代高维统计和学习理论的工具。虽然与控制对机器学习的工具感兴趣的理论家高度相关,但基础材料并不总是容易访问。为了解决这个问题,我们提供了相关材料的独立介绍,概述了基于最新结果的所有关键思想和技术机械。我们还提出了许多开放问题和未来的方向。
translated by 谷歌翻译
我们重新审视汤普森采样算法以控制Ouyang等人最近提出的未知线性二次(LQ)系统(Arxiv:1709.04047)。该算法的遗憾是根据封闭环系统的诱导规范的技术假设得出的。在此技术说明中,我们表明,通过在算法中进行较小的修改(特别是确保发作不会太早结束),可以根据光谱来代替诱发规范的技术假设。闭环系统的半径。修改后的算法与$ \ tilde {\ Mathcal {o}}(\ sqrt {t})$具有相同的贝叶斯遗憾,其中$ t $是Time-Horizon和$ \ tilde {\ tilde {\ Mathcal {o}}(O}}(O}}(O}}(O}}(O}))(\ cdot)$ note法将对数术语隐藏在〜$ t $中。
translated by 谷歌翻译
Q学习长期以来一直是最受欢迎的强化学习算法之一,几十年来,Q学习的理论分析一直是一个活跃的研究主题。尽管对Q-学习的渐近收敛分析的研究具有悠久的传统,但非肿瘤收敛性直到最近才受到积极研究。本文的主要目的是通过控制系统的观点研究马尔可夫观察模型下异步Q学习的新有限时间分析。特别是,我们引入了Q学习的离散时间变化的开关系统模型,并减少了分析的步骤尺寸,这显着改善了使用恒定步骤尺寸的开关系统分析的最新开发,并导致\(\(\)(\) Mathcal {o} \ left(\ sqrt {\ frac {\ log k} {k}}} \ right)\)\)\)\)\)\)\)\)与大多数艺术状态相当或更好。同时,新应用了使用类似转换的技术,以避免通过减小的步骤尺寸提出的分析中的难度。提出的分析带来了其他见解,涵盖了不同的方案,并提供了新的简化模板,以通过其独特的连接与离散时间切换系统的独特联系来加深我们对Q学习的理解。
translated by 谷歌翻译
我们研究了具有连续状态的可观察到的马尔可夫决策过程(POMDPS)的非政策评估问题(OPE)。由最近提出的近端因果推理框架的动机,我们开发了一个非参数识别结果,以通过时间依赖性代理变量的帮助通过所谓的V-bridge函数来估算策略值。然后,我们开发一种拟合的Q评估类型算法来递归估算V桥功能,其中每个步骤都解决了非参数仪器变量(NPIV)问题。通过分析这个具有挑战性的顺序NPIV问题,我们建立了用于估计V桥功能的有限样本误差界限,并因此根据样本量,地平线和所谓(本地)度量来评估策略值,以评估策略值每个步骤都不适。据我们所知,这是非参数模型下POMDP中OPE绑定的第一个有限样本误差。
translated by 谷歌翻译
随机多变最小化 - 最小化(SMM)是大多数变化最小化的经典原则的在线延伸,这包括采样I.I.D。来自固定数据分布的数据点,并最小化递归定义的主函数的主要替代。在本文中,我们引入了随机块大大化 - 最小化,其中替代品现在只能块多凸,在半径递减内的时间优化单个块。在SMM中的代理人放松标准的强大凸起要求,我们的框架在内提供了更广泛的适用性,包括在线CANDECOMP / PARAFAC(CP)字典学习,并且尤其是当问题尺寸大时产生更大的计算效率。我们对所提出的算法提供广泛的收敛性分析,我们在可能的数据流下派生,放松标准i.i.d。对数据样本的假设。我们表明,所提出的算法几乎肯定会收敛于速率$ O((\ log n)^ {1+ \ eps} / n ^ {1/2})$的约束下的非凸起物镜的静止点集合。实证丢失函数和$ O((\ log n)^ {1+ \ eps} / n ^ {1/4})$的预期丢失函数,其中$ n $表示处理的数据样本数。在一些额外的假设下,后一趋同率可以提高到$ o((\ log n)^ {1+ \ eps} / n ^ {1/2})$。我们的结果为一般马尔维亚数据设置提供了各种在线矩阵和张量分解算法的第一融合率界限。
translated by 谷歌翻译
受欢迎的LSPE($ \ lambda $)策略评估算法被重新审视,以导出从一段时间内提供高概率性能保证的浓度。
translated by 谷歌翻译