反对派系统中最近的进展在贝叶斯视角下,逆滤成了显着的研究兴趣。例如,估计逆基金的卡尔曼滤波器跟踪估计的兴趣与预测对手的未来步骤的目的已经导致最近反向卡尔曼滤波器(I-KF)的配方。在逆滤波的这种情况下,我们通过提出反向扩展卡尔曼滤波器(I-EKF)来解决向前滤波器的非线性过程动态和未知输入的关键挑战。通过考虑前向和逆状态空间模型中的非线性,我们通过派生I-EKF而没有未知的输入。在此过程中,还获得了I-KF的输入。然后,我们使用界限非线性和未知的矩阵方法提供理论稳定性保证。我们进一步概括了这些制剂,并对高出高斯和抖动的I-EKF的案例概括。数值实验使用递归Cram \'ER-RAO作为基准验证各种提出的逆滤波器的方法。
translated by 谷歌翻译
最近的反对抗性系统设计问题促使贝叶斯过滤器的反向发展。例如,最近已经制定了逆卡尔曼过滤器(I-KF),以估算对手的卡尔曼滤波器跟踪估计值,因此可以预测对手的未来步骤。本文和伴随论文(第一部分)的目的是通过提出反向扩展的卡尔曼过滤器(I-EKF)来解决非线性系统中的反过滤问题。在同伴论文(第一部分)中,我们发展了I-EKF(有或没有未知输入)和I-KF(未知输入)的理论。在本文中,我们为高度非线性模型开发了这一理论,该模型采用了二阶,高斯总和和抖动的前向EKF。特别是,我们使用有界的非线性方法来得出二阶EKF的理论稳定性保证。为了解决系统模型和正向滤波器对防御者完全知道的标准I-EKF的限制,我们建议复制核基于Hilbert Space基于空间的EKF,以根据其观察值学习未知的系统动力学,可以用作该动态反向过滤器推断对手的估计值。数值实验证明了使用递归的cram \'{e} r-rao下限作为基准测试的拟议过滤器的状态估计性能。
translated by 谷歌翻译
本论文主要涉及解决深层(时间)高斯过程(DGP)回归问题的状态空间方法。更具体地,我们代表DGP作为分层组合的随机微分方程(SDES),并且我们通过使用状态空间过滤和平滑方法来解决DGP回归问题。由此产生的状态空间DGP(SS-DGP)模型生成丰富的电视等级,与建模许多不规则信号/功能兼容。此外,由于他们的马尔可道结构,通过使用贝叶斯滤波和平滑方法可以有效地解决SS-DGPS回归问题。本论文的第二次贡献是我们通过使用泰勒力矩膨胀(TME)方法来解决连续离散高斯滤波和平滑问题。这诱导了一类滤波器和SmooThers,其可以渐近地精确地预测随机微分方程(SDES)解决方案的平均值和协方差。此外,TME方法和TME过滤器和SmoOthers兼容模拟SS-DGP并解决其回归问题。最后,本文具有多种状态 - 空间(深)GPS的应用。这些应用主要包括(i)来自部分观察到的轨迹的SDES的未知漂移功能和信号的光谱 - 时间特征估计。
translated by 谷歌翻译
This paper revisits the work of Rauch et al. (1965) and develops a novel method for recursive maximum likelihood particle filtering for general state-space models. The new method is based on statistical analysis of incomplete observations of the systems. Score function and conditional observed information of the incomplete observations/data are introduced and their distributional properties are discussed. Some identities concerning the score function and information matrices of the incomplete data are derived. Maximum likelihood estimation of state-vector is presented in terms of the score function and observed information matrices. In particular, to deal with nonlinear state-space, a sequential Monte Carlo method is developed. It is given recursively by an EM-gradient-particle filtering which extends the work of Lange (1995) for state estimation. To derive covariance matrix of state-estimation errors, an explicit form of observed information matrix is proposed. It extends Louis (1982) general formula for the same matrix to state-vector estimation. Under (Neumann) boundary conditions of state transition probability distribution, the inverse of this matrix coincides with the Cramer-Rao lower bound on the covariance matrix of estimation errors of unbiased state-estimator. In the case of linear models, the method shows that the Kalman filter is a fully efficient state estimator whose covariance matrix of estimation error coincides with the Cramer-Rao lower bound. Some numerical examples are discussed to exemplify the main results.
translated by 谷歌翻译
学习线性时间不变动态系统(LTID)的参数是当前兴趣的问题。在许多应用程序中,人们有兴趣联合学习多个相关LTID的参数,这仍然是未探究的日期。为此,我们开发一个联合估计器,用于学习共享常见基矩阵的LTID的过渡矩阵。此外,我们建立有限时间误差界限,取决于底层的样本大小,维度,任务数和转换矩阵的光谱属性。结果是在轻度规律假设下获得的,并在单独学习每个系统的比较中,展示从LTID的汇集信息汇总信息。我们还研究了错过过渡矩阵的联合结构的影响,并显示成立的结果在适度误操作的存在下是强大的。
translated by 谷歌翻译
在这里,我们重新审视线性二次估计的经典问题,即估计线性动力系统从嘈杂测量的轨迹。当测量噪声是高斯时,庆祝的卡尔曼滤波器提供了最佳估计器,但是当一个人偏离这种假设时,广泛众所周知,众所周知会破裂。当噪音重尾时。许多临时启发式机启发式就是处理异常值的实践中。在开创性的工作中,Schick和Mitter在测量噪声是高斯的已知无穷无尽的扰动时给予了可证明的保证,并提出了一个可以获得类似的禁令的重要担保的重要问题。在这项工作中,我们给出了一个真正强大的过滤器:当甚至恒定的测量分数都存在对比腐败时,我们给出了线性二次估计的第一个强化保证。该框架可以模拟重型且甚至是非静止噪声过程。我们的算法在与知道损坏位置的最佳算法竞争的意义上强调了卡尔曼过滤器。我们的作品处于挑战性的贝叶斯环境,其中测量数量与我们需要估计的复杂性缩放。此外,在线性动态系统中过去信息随时间衰减。我们开发了一套新技术,以强大地提取不同时间步长和不同时间尺度的信息。
translated by 谷歌翻译
In this paper we derive a PAC-Bayesian-Like error bound for a class of stochastic dynamical systems with inputs, namely, for linear time-invariant stochastic state-space models (stochastic LTI systems for short). This class of systems is widely used in control engineering and econometrics, in particular, they represent a special case of recurrent neural networks. In this paper we 1) formalize the learning problem for stochastic LTI systems with inputs, 2) derive a PAC-Bayesian-Like error bound for such systems, 3) discuss various consequences of this error bound.
translated by 谷歌翻译
根据线性随机微分方程进化的扩散过程是连续时间动态决策模型的重要家族。最佳政策对它们进行了充分研究,并确定了漂移矩阵。然而,对于不确定的漂移矩阵的扩散过程的数据驱动的控制知之甚少,因为常规离散时间分析技术不适用。此外,尽管该任务可以被视为涉及探索和剥削权衡取舍的强化学习问题,但确保系统稳定性是设计最佳政策的基本组成部分。我们确定流行的汤普森采样算法可以快速学习最佳动作,仅产生了时间根的遗憾,并在短时间内稳定了系统。据我们所知,这是汤普森在扩散过程控制问题中抽样的第一个结果。我们通过从两个飞机和血糖控制的两个设置的实际参数矩阵的经验模拟来验证理论结果。此外,我们观察到,与最先进的算法相比,汤普森采样显着改善(最坏的)遗憾,这表明汤普森采样以一种更加保护的方式探索。我们的理论分析涉及特定的特定最优歧管,该歧管将漂移参数的局部几何形状与扩散过程的最佳控制。我们希望这项技术具有更广泛的兴趣。
translated by 谷歌翻译
我们研究有限的时间范围连续时间线性季节增强学习问题,在情节环境中,控制器的状态和控制系数都不清楚。我们首先提出了基于连续时间观察和控件的最小二乘算法,并建立对数的对数遗憾,以$ o((\ ln m)(\ ln \ ln m))$,$ m $是数字学习情节。该分析由两个部分组成:扰动分析,这些分析利用了相关的riccati微分方程的规律性和鲁棒性;和参数估计误差,依赖于连续的最小二乘估计器的亚指数属性。我们进一步提出了一种基于离散时间观察和分段恒定控制的实际实现最小二乘算法,该算法根据算法中使用的时间步骤明确地取决于额外的术语,从而实现相似的对数后悔。
translated by 谷歌翻译
汤普森采样(TS)是在不确定性下进行决策的有效方法,其中从精心规定的分布中采样了动作,该分布根据观察到的数据进行更新。在这项工作中,我们研究了使用TS的可稳定线性季度调节剂(LQR)自适应控制的问题,其中系统动力学是未知的。先前的作品已经确定,$ \ tilde o(\ sqrt {t})$频繁的遗憾对于LQR的自适应控制是最佳的。但是,现有方法要么仅在限制性设置中起作用,需要先验已知的稳定控制器,要么使用计算上棘手的方法。我们提出了一种有效的TS算法,用于对LQR的自适应控制,TS基于TS的自适应控制,TSAC,该算法达到了$ \ tilde o(\ sqrt {t})$遗憾,即使对于多维系统和Lazaric(2018)。 TSAC不需要先验已知的稳定控制器,并通过在早期阶段有效探索环境来实现基础系统的快速稳定。我们的结果取决于开发新颖的下限TS提供乐观样本的概率。通过仔细规定早期的探索策略和政策更新规则,我们表明TS在适应性控制多维可稳定性LQR方面实现了最佳的遗憾。我们从经验上证明了TSAC在几个自适应控制任务中的性能和效率。
translated by 谷歌翻译
本文研究了具有完全状态观测的自主交换线性系统系统识别问题。我们提出了用于识别切换线性系统的开关最小二乘法,表明该方法是强烈一致的,并导出数据相关和数据无关的收敛速率。特别是,我们的数据依赖率的收敛速度表明,几乎肯定地,系统识别错误是$ \ mathcal {o} \ big(\ sqrt {\ log(t)/ t}大)$ why $ t $时间地平线。这些结果表明,我们对切换线性系统的方法具有相同的收敛速度,不是非切换线性系统的最小二乘法。我们将我们的结果与文学中的结果进行比较。我们提供了数值例子以说明所提出的系统识别方法的性能。
translated by 谷歌翻译
收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
双线性动力系统在许多不同的域中无处不在,也可以用于近似更通用的控制型系统。这激发了从系统状态和输入的单个轨迹中学习双线性系统的问题。在温和的边际均方稳定性假设下,我们确定需要多少数据来估算未知的双线性系统,直至具有高概率的所需精度。就轨迹长度,系统的维度和输入大小而言,我们的样本复杂性和统计错误率是最佳的。我们的证明技术依赖于Martingale小球条件的应用。这使我们能够正确捕获问题的属性,特别是我们的错误率不会随着不稳定性的增加而恶化。最后,我们表明数值实验与我们的理论结果良好。
translated by 谷歌翻译
我们解决了通过在线后退地平线控制(RHC)的框架来控制控制未知线性动态系统的问题,以时代变化的成本函数。我们考虑控制算法不知道真正的系统模型的设置,并且只能访问固定长度(不与控制范围内的增长)预览未来成本函数。我们使用动态遗憾度量的算法表征了算法的性能,该算法被定义为算法产生的累积成本与后视行动中最佳动作顺序之间的差异。我们提出了两个不同的在线RHC算法来解决这个问题,即确定的等价RHC(CE-RHC)算法和乐观RHC(O-RHC)算法。我们表明,在模型估计的标准稳定假设下,CE-RHC算法实现$ \ Mathcal {O}(T ^ {2/3})$动态遗憾。然后,我们将此结果扩展到通过提出O-RHC算法仅适用于真实系统模型的稳定假设。我们表明O-RHC算法实现$ \ Mathcal {O}(T ^ {2/3})$动态遗憾,但有一些额外的计算。
translated by 谷歌翻译
本文考虑了线性二次双控制问题,其中需要识别系统参数,并且需要在该时期优化控制目标。与现有的数据驱动线性二次调节相反,这通常在某种概率内提供错误或后悔界限,我们提出了一种在线算法,可以在几乎肯定的意义上保证控制器的渐近最优性。我们的双重控制策略由两部分组成:基于勘探噪声和系统输出之间的互相关,具有时间衰减探索噪声和Markov参数推断的交换控制器。当实际状态显着地从目标状态偏离时,几乎肯定的性能保证是一个安全的交换控制策略,其返回到已知的保守但稳定的控制器。我们证明,此切换策略规定了从应用中的任何潜在的稳定控制器,而我们的交换策略与最佳线性状态反馈之间的性能差距是指数较小的。在我们的双控制方案下,参数推理误差尺度为$ O(t ^ {-1 / 4 + \ epsilon})$,而控制性能的子优相差距为$ o(t ^ { - 1/2 + \ epsilon})$,$ t $是时间步数,$ \ epsilon $是一个任意小的正数。提供了工业过程示例的仿真结果,以说明我们提出的策略的有效性。
translated by 谷歌翻译
我们研究了随机近似程序,以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后,我们证明了一种在适当平均迭代序列上的非渐近实例依赖性,具有匹配局部渐近最小的限制的领先术语,包括对参数$的敏锐依赖(d,t _ {\ mathrm {mix}}) $以高阶术语。我们将这些上限与非渐近Minimax的下限补充,该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD($ \ lambda $)算法,以便[0,1)$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门(例如,在运行TD($ \ Lambda $)算法时选择$ \ lambda $的值)。
translated by 谷歌翻译
我们考虑通过有限的地平线$ t $控制线性二次调节器(LQR)系统的问题,以固定和已知的成本矩阵$ q,r $但未知和非静止动力$ \ {a_t,b_t \} $。动态矩阵的序列可以是任意的,但总体变化,V_T $,假设为$ O(t)$和控制器未知。在假设所有$ $ $的稳定序列,但潜在的子最优控制器中,我们介绍了一种实现$ \ tilde {\ mathcal {o}} \ left的最佳动态遗憾的算法(v_t ^ { 2/5} t ^ {3/5} \右)$。通过分词恒定动态,我们的算法实现了$ \ tilde {\ mathcal {o}}(\ sqrt {st})$的最佳遗憾,其中$ s $是交换机的数量。我们的算法的关键是一种自适应的非平稳性检测策略,它在最近开发的用于上下文多武装匪徒问题的方法中构建。我们还争辩说,不适应忘记(例如,重新启动或使用静态窗口大小的滑动窗口学习)可能对LQR问题的后悔最佳,即使窗口大小以$ V_T $的知识最佳地调整。我们算法分析中的主要技术挑战是证明普通的最小二乘(OLS)估计器在待估计的参数是非静止的情况下具有小的偏差。我们的分析还突出了推动遗憾的关键主题是LQR问题在于LQR问题是具有线性反馈和局部二次成本的强盗问题。这个主题比LQR问题本身更普及,因此我们相信我们的结果应该找到更广泛的应用。
translated by 谷歌翻译
姿势估计对于机器人感知,路径计划等很重要。机器人姿势可以在基质谎言组上建模,并且通常通过基于滤波器的方法进行估算。在本文中,我们在存在随机噪声的情况下建立了不变扩展Kalman滤波器(IEKF)的误差公式,并将其应用于视觉辅助惯性导航。我们通过OpenVINS平台上的数值模拟和实验评估我们的算法。在Euroc公共MAV数据集上执行的仿真和实验都表明,我们的算法优于某些基于最先进的滤波器方法,例如基于Quaternion的EKF,首先估计Jacobian EKF等。
translated by 谷歌翻译
我们重新求解用于时变线性回归的模型,该模型假定根据线性动力系统演变的未知参数。违反直接来看,我们表明,当潜在的动态稳定时,可以通过组合两个普通的最小二乘估计来估计该模型的参数。我们提供了在我们方法的估计误差上提供了有限的样本保证,并讨论了它过度期望 - 最大化(EM)的某些优势,这是事先工作提出的主要方法。
translated by 谷歌翻译
学习如何有效地控制未知的动态系统对于智能自治系统至关重要。当潜在的动态随着时间的推移时,这项任务成为一个重大挑战。本文认为这一挑战,本文考虑了控制未知马尔可夫跳跃线性系统(MJS)的问题,以优化二次目标。通过采用基于模型的透视图,我们考虑对MJSS的识别自适应控制。我们首先为MJS提供系统识别算法,用于从系统状态,输入和模式的单个轨迹,从模式开关的演进中的底层中学习MJS的系统识别算法。通过混合时间参数,该算法的样本复杂性显示为$ \ mathcal {o}(1 / \ sqrt {t})$。然后,我们提出了一种自适应控制方案,其与确定性等效控制一起执行系统识别,以使控制器以焦化方式调整。 Combining our sample complexity results with recent perturbation results for certainty equivalent control, we prove that when the episode lengths are appropriately chosen, the proposed adaptive control scheme achieves $\mathcal{O}(\sqrt{T})$ regret, which can be改进了$ \ mathcal {o}(polylog(t))$与系统的部分了解。我们的证据策略介绍了在MJSS中处理马尔可维亚跳跃的创新和较弱的稳定概念。我们的分析提供了影响学习准确性和控制性能的系统理论量的见解。提出了数值模拟,以进一步加强这些见解。
translated by 谷歌翻译