从数据中学习动态系统的简单和可解释的方法是用内核插值其矢量字段。特别是,当内核使用内核流量(KF)〜\ Cite {OWHADI19}(使用基于梯度优化来学习内核时,该策略是高效的(在准确性和复杂性方面)高效(无论是准确性和复杂性)。如果有一半的数据用于插值,则内核是良好的,如果使用一半的准确性没有显着损失)。尽管其先前的成功,但这种策略(基于插值驾驶动态系统的矢量场)时,当观察时间序列不定期采样时,打破了。在这项工作中,我们建议通过在(kf)数据适应的内核中的观察之间的时间差异结合时间差来解决动态系统的矢量字段来解决这个问题。我们将我们的方法与古典的基准动态系统进行了比较,并表明它显着提高了预测精度,同时保持简单,快速,坚固。
translated by 谷歌翻译
本文介绍了在高斯过程回归/克里格替代建模技术中选择/设计内核的算法。我们在临时功能空间中采用内核方法解决方案的设置,即繁殖内核希尔伯特空间(RKHS),以解决在观察到它的观察值的情况下近似定期目标函数的问题,即监督学习。第一类算法是内核流,该算法是在机器学习中的分类中引入的。它可以看作是一个交叉验证过程,因此选择了“最佳”内核,从而最小化了通过删除数据集的某些部分(通常为一半)而产生的准确性损失。第二类算法称为光谱内核脊回归,旨在选择“最佳”核,以便在相关的RKHS中,要近似的函数的范围很小。在Mercer定理框架内,我们就目标函数的主要特征来获得该“最佳”内核的明确结构。从数据中学习内核的两种方法均通过有关合成测试功能的数值示例,以及在湍流建模验证二维机翼的湍流模型验证中的经典测试用例。
translated by 谷歌翻译
我们考虑了从一个示例轨迹中学习$ dx_t = f(x_t)dt+sigma(x_t)dw_t $的形式的随机微分方程的问题。这个问题比学习确定性动力学系统更具挑战性,因为一个示例轨迹仅提供有关未知功能$ f $,$ \ sigma $的间接信息,而随机过程$ dw_t $代表漂移,扩散和随机强迫术语,强迫术语,,分别。我们为此问题提出了一个简单的基于内核的解决方案,可以分解如下:(1)表示时间添加映射$ x_t \ rightarrow x_ {t+dt} $作为计算图,其中$ f $,$ \ \ Sigma $和$ DW_T $作为未知功能和随机变量出现。 (2)通过在未知函数上使用高斯过程(GP)先验的最大后验估计(给定数据)来完成图(近似未知的函数和随机变量)。 (3)从具有随机交叉验证的数据中学习GP先验的协方差函数(内核)。数值实验说明了我们方法的功效,鲁棒性和范围。
translated by 谷歌翻译
提出了用于基于合奏的估计和模拟高维动力系统(例如海洋或大气流)的方法学框架。为此,动态系统嵌入了一个由动力学驱动的内核功能的繁殖核Hilbert空间的家族中。这个家庭因其吸引人的财产而被昵称为仙境。在梦游仙境中,Koopman和Perron-Frobenius操作员是统一且均匀的。该属性保证它们可以在一系列可对角线的无限发电机中表达。访问Lyapunov指数和切线线性动力学的精确集合表达式也可以直接可用。仙境使我们能够根据轨迹样本的恒定时间线性组合来设计出惊人的简单集合数据同化方法。通过几个基本定理的完全合理的叠加原则,使这种令人尴尬的简单策略成为可能。
translated by 谷歌翻译
在许多学科中,动态系统的数据信息预测模型的开发引起了广泛的兴趣。我们提出了一个统一的框架,用于混合机械和机器学习方法,以从嘈杂和部分观察到的数据中识别动态系统。我们将纯数据驱动的学习与混合模型进行比较,这些学习结合了不完善的域知识。我们的公式与所选的机器学习模型不可知,在连续和离散的时间设置中都呈现,并且与表现出很大的内存和错误的模型误差兼容。首先,我们从学习理论的角度研究无内存线性(W.R.T.参数依赖性)模型误差,从而定义了过多的风险和概括误差。对于沿阵行的连续时间系统,我们证明,多余的风险和泛化误差都通过与T的正方形介于T的术语(指定训练数据的时间间隔)的术语界定。其次,我们研究了通过记忆建模而受益的方案,证明了两类连续时间复发性神经网络(RNN)的通用近似定理:两者都可以学习与内存有关的模型误差。此外,我们将一类RNN连接到储层计算,从而将学习依赖性错误的学习与使用随机特征在Banach空间之间进行监督学习的最新工作联系起来。给出了数值结果(Lorenz '63,Lorenz '96多尺度系统),以比较纯粹的数据驱动和混合方法,发现混合方法较少,渴望数据较少,并且更有效。最后,我们从数值上证明了如何利用数据同化来从嘈杂,部分观察到的数据中学习隐藏的动态,并说明了通过这种方法和培训此类模型来表示记忆的挑战。
translated by 谷歌翻译
A universal kernel is constructed whose sections approximate any causal and time-invariant filter in the fading memory category with inputs and outputs in a finite-dimensional Euclidean space. This kernel is built using the reservoir functional associated with a state-space representation of the Volterra series expansion available for any analytic fading memory filter. It is hence called the Volterra reservoir kernel. Even though the state-space representation and the corresponding reservoir feature map are defined on an infinite-dimensional tensor algebra space, the kernel map is characterized by explicit recursions that are readily computable for specific data sets when employed in estimation problems using the representer theorem. We showcase the performance of the Volterra reservoir kernel in a popular data science application in relation to bitcoin price prediction.
translated by 谷歌翻译
数据驱动的降级模型通常无法对沿坐标敏感的高维非线性系统进行准确的预测,因为这种坐标通常经常被截断,例如,通过正确的正交分解,核心成分分析和自动范围。这种系统在剪切主导的流体流中经常遇到,在剪切主导的流体流中,非正常性在障碍的生长中起着重要作用。为了解决这些问题,我们采用来自活跃子空间的想法来查找模型减少的坐标的低维系统,以平衡伴随的信息,以了解该系统的敏感性与沿轨迹的状态方差的敏感性。所得的方法是使用伴随快照(Cobras)称为协方差平衡降低,与平衡截断与状态和基于伴随的梯度协方差矩阵取代了系统gramians并遵守相同的关键转换定律。在这里,提取的坐标与可用于构建彼得罗夫 - 盖尔金还原模型的倾斜投影相关。我们提供了一种有效的基于快照的计算方法,类似于平衡的正交分解。这也导致观察到,可以单独依靠状态和梯度样品的内部产品来计算还原的坐标,从而使我们能够通过用核函数替换内部产品来找到丰富的非线性坐标。在这些坐标中,可以使用回归来学习减少的模型。我们演示了这些技术,并与简单但具有挑战性的三维系统和轴对称喷气流仿真进行比较,并具有$ 10^5 $状态变量。
translated by 谷歌翻译
内核方法是机器学习中最流行的技术之一,使用再现内核希尔伯特空间(RKHS)的属性来解决学习任务。在本文中,我们提出了一种新的数据分析框架,与再现内核Hilbert $ C ^ * $ - 模块(rkhm)和rkhm中的内核嵌入(kme)。由于RKHM包含比RKHS或VVRKHS)的更丰富的信息,因此使用RKHM的分析使我们能够捕获和提取诸如功能数据的结构属性。我们向RKHM展示了rkhm理论的分支,以适用于数据分析,包括代表性定理,以及所提出的KME的注射性和普遍性。我们还显示RKHM概括RKHS和VVRKHS。然后,我们提供采用RKHM和提议的KME对数据分析的具体程序。
translated by 谷歌翻译
Interacting particle or agent systems that display a rich variety of swarming behaviours are ubiquitous in science and engineering. A fundamental and challenging goal is to understand the link between individual interaction rules and swarming. In this paper, we study the data-driven discovery of a second-order particle swarming model that describes the evolution of $N$ particles in $\mathbb{R}^d$ under radial interactions. We propose a learning approach that models the latent radial interaction function as Gaussian processes, which can simultaneously fulfill two inference goals: one is the nonparametric inference of {the} interaction function with pointwise uncertainty quantification, and the other one is the inference of unknown scalar parameters in the non-collective friction forces of the system. We formulate the learning problem as a statistical inverse problem and provide a detailed analysis of recoverability conditions, establishing that a coercivity condition is sufficient for recoverability. Given data collected from $M$ i.i.d trajectories with independent Gaussian observational noise, we provide a finite-sample analysis, showing that our posterior mean estimator converges in a Reproducing kernel Hilbert space norm, at an optimal rate in $M$ equal to the one in the classical 1-dimensional Kernel Ridge regression. As a byproduct, we show we can obtain a parametric learning rate in $M$ for the posterior marginal variance using $L^{\infty}$ norm, and the rate could also involve $N$ and $L$ (the number of observation time instances for each trajectory), depending on the condition number of the inverse problem. Numerical results on systems that exhibit different swarming behaviors demonstrate efficient learning of our approach from scarce noisy trajectory data.
translated by 谷歌翻译
我们合并计算力学的因果状态(预测等同历史)的定义与再现 - 内核希尔伯特空间(RKHS)表示推断。结果是一种广泛适用的方法,可直接从系统行为的观察中迁移因果结构,无论它们是否超过离散或连续事件或时间。结构表示 - 有限或无限状态内核$ \ epsilon $ -Machine - 由减压变换提取,其提供了有效的因果状态及其拓扑。以这种方式,系统动态由用于在因果状态上的随机(普通或部分)微分方程表示。我们介绍了一种算法来估计相关的演化运营商。平行于Fokker-Plank方程,它有效地发展了因果状态分布,并通过RKHS功能映射在原始数据空间中进行预测。我们展示了这些技术,以及他们的预测能力,在离散时间的离散时间离散 - 有限的无限值Markov订单流程,其中有限状态隐藏马尔可夫模型与(i)有限或(ii)不可数 - 无限因果态和(iii)连续时间,由热驱动的混沌流产生的连续值处理。该方法在存在不同的外部和测量噪声水平和非常高的维数据存在下鲁棒地估计因果结构。
translated by 谷歌翻译
近年来目睹了采用灵活的机械学习模型进行乐器变量(IV)回归的兴趣,但仍然缺乏不确定性量化方法的发展。在这项工作中,我们为IV次数回归提出了一种新的Quasi-Bayesian程序,建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率,并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法,可以扩展到与宽神经网络模型一起工作。实证评价表明,我们的方法对复杂的高维问题产生了丰富的不确定性估计。
translated by 谷歌翻译
考虑了建立UNKONWN地面真相函数值的样本外界限的问题。内核及其相关的希尔伯特空间是本文所采用的主要形式主义,以及一个观察模型,在该模型中,输出被有限的测量噪声损坏。噪声可以源于任何紧凑的分布,并且没有对可用数据进行独立假设。在这种情况下,我们显示计算紧密的,有限样本的不确定性范围等于求解参数四次约束线性程序。接下来,建立了我们方法的属性,并研究了其与另一种方法的关系。提出了数值实验,以说明如何在许多情况下应用理论,并将其与其他封闭形式的替代方案进行对比。
translated by 谷歌翻译
在本文中,我们提出了一个被称为Rkhsmetamod的R包,其实现了估计复杂模型的元模型的过程。元模型近似于复杂模型的Hoeffding分解,并允许我们对其进行灵敏度分析。它属于一个再现内核希尔伯特空间,该空间被构造成作为希尔伯特空间的直接总和。元模型的估计是用Hilbert标准的总和和经验L ^ 2-Norm的最小化最小化的抵抗的经验性最小平方。此过程称为RKHS Ridge Group Sparse,允许选择和估算Hoeffding分解中的术语,因此选择和估计非零的Sobol指数。 RKHSMetamod包提供从R统计计算环境到C ++库EIGEN和GSL的接口。为了加快执行时间并优化存储内存,除了用R写入R的函数,可以使用RCPPeigen和RCPPGSL软件包使用高效的C ++库写入此包的所有功能。然后,这些功能在R环境中接通,以提出用户友好的包装。
translated by 谷歌翻译
我们建议采用统计回归作为投影操作员,以使数据驱动以数据为基础的Mori-Zwanzig形式主义中的运营商学习。我们提出了一种原则性方法,用于为任何回归模型提取Markov和内存操作员。我们表明,线性回归的选择导致了基于Mori的投影操作员最近提出的数据驱动的学习算法,这是一种高阶近似Koopman学习方法。我们表明,更具表现力的非线性回归模型自然填补了高度理想化和计算有效的MORI投影操作符和最佳迄今为止计算上最佳的Zwanzig投影仪之间的差距。我们进行了数值实验,并提取了一系列基于回归的投影的运算符,包括线性,多项式,样条和基于神经网络的回归,随着回归模型的复杂性的增加而显示出渐进的改进。我们的命题提供了一个通用框架来提取内存依赖性校正,并且可以轻松地应用于文献中固定动力学系统的一系列数据驱动的学习方法。
translated by 谷歌翻译
从嘈杂和稀疏数据中学习普通微分方程(ODES)的非参数系统$ \ dot x = f(t,x)$是一个新兴的机器学习主题。我们使用良好的复制内核希尔伯特空间(RKHS)的理论来定义$ f $的候选者,该候选者的解决方案存在且独特。Learning $ f $包括解决RKHS中的约束优化问题。我们提出了一种惩罚方法,该方法迭代使用代表定理和Euler近似来提供数值解决方案。我们证明了$ l^2 $距离$ x $及其估算器之间的概括。为Fitzhugh Nagumo振荡器提供了实验,并预测了衰老受试者皮质中的淀粉样蛋白水平。在这两种情况下,与最新技术相比,我们都表现出竞争成果。
translated by 谷歌翻译
Kernels are efficient in representing nonlocal dependence and they are widely used to design operators between function spaces. Thus, learning kernels in operators from data is an inverse problem of general interest. Due to the nonlocal dependence, the inverse problem can be severely ill-posed with a data-dependent singular inversion operator. The Bayesian approach overcomes the ill-posedness through a non-degenerate prior. However, a fixed non-degenerate prior leads to a divergent posterior mean when the observation noise becomes small, if the data induces a perturbation in the eigenspace of zero eigenvalues of the inversion operator. We introduce a data-adaptive prior to achieve a stable posterior whose mean always has a small noise limit. The data-adaptive prior's covariance is the inversion operator with a hyper-parameter selected adaptive to data by the L-curve method. Furthermore, we provide a detailed analysis on the computational practice of the data-adaptive prior, and demonstrate it on Toeplitz matrices and integral operators. Numerical tests show that a fixed prior can lead to a divergent posterior mean in the presence of any of the four types of errors: discretization error, model error, partial observation and wrong noise assumption. In contrast, the data-adaptive prior always attains posterior means with small noise limits.
translated by 谷歌翻译
非线性自适应控制理论中的一个关键假设是系统的不确定性可以在一组已知基本函数的线性跨度中表示。虽然该假设导致有效的算法,但它将应用限制为非常特定的系统类别。我们介绍一种新的非参数自适应算法,其在参数上学习无限尺寸密度,以取消再现内核希尔伯特空间中的未知干扰。令人惊讶的是,所产生的控制输入承认,尽管其底层无限尺寸结构,但是尽管它的潜在无限尺寸结构实现了其实施的分析表达。虽然这种自适应输入具有丰富和富有敏感性的 - 例如,传统的线性参数化 - 其计算复杂性随时间线性增长,使其比其参数对应力相对较高。利用随机傅里叶特征的理论,我们提供了一种有效的随机实现,该实现恢复了经典参数方法的复杂性,同时可透明地保留非参数输入的表征性。特别地,我们的显式范围仅取决于系统的基础参数,允许我们所提出的算法有效地缩放到高维系统。作为该方法的说明,我们展示了随机近似算法学习由牛顿重力交互的十点批量组成的60维系统的预测模型的能力。
translated by 谷歌翻译
We consider autocovariance operators of a stationary stochastic process on a Polish space that is embedded into a reproducing kernel Hilbert space. We investigate how empirical estimates of these operators converge along realizations of the process under various conditions. In particular, we examine ergodic and strongly mixing processes and obtain several asymptotic results as well as finite sample error bounds. We provide applications of our theory in terms of consistency results for kernel PCA with dependent data and the conditional mean embedding of transition probabilities. Finally, we use our approach to examine the nonparametric estimation of Markov transition operators and highlight how our theory can give a consistency analysis for a large family of spectral analysis methods including kernel-based dynamic mode decomposition.
translated by 谷歌翻译
数据科学和机器学习的进展已在非线性动力学系统的建模和模拟方面取得了重大改进。如今,可以准确预测复杂系统,例如天气,疾病模型或股市。预测方法通常被宣传为对控制有用,但是由于系统的复杂性,较大的数据集的需求以及增加的建模工作,这些细节经常没有得到解答。换句话说,自治系统的替代建模比控制系统要容易得多。在本文中,我们介绍了Quasimodo框架(量化模拟模拟模拟 - 优化),以将任意预测模型转换为控制系统,从而使数据驱动的替代模型的巨大进步可访问控制系统。我们的主要贡献是,我们通过自动化动力学(产生混合企业控制问题)来贸易控制效率,以获取任意,即使用的自主替代建模技术。然后,我们通过利用混合成员优化的最新结果来恢复原始问题的复杂性。 Quasimodo的优点是数据要求在控制维度方面的线性增加,性能保证仅依赖于使用的预测模型的准确性,而控制理论中的知识知识要求很少来解决复杂的控制问题。
translated by 谷歌翻译
神经普通微分方程模型的动态系统,\ textit {ode}由神经网络学习。但是,ODE从根本上是不足以建模具有长期依赖性或不连续性的系统,这些系统在工程和生物系统中很常见。已经提出了更广泛的微分方程(DE)类作为补救措施,包括延迟微分方程和整数差异方程。此外,当通过分段强迫函数对硬质量和odes进行建模时,神经颂歌会遭受数值的不稳定性。在这项工作中,我们提出了\ textit {neural laplace},这是一个学习不同类别的统一框架,包括上述所有类别。我们没有在时间域中对动态进行建模,而是在拉普拉斯域中对其进行建模,在拉普拉斯域中,可以将历史依赖性和时间的不连续性表示为复杂指数的求和。为了提高学习效率,我们使用Riemann Sphere的几何立体图来诱导Laplace域中的平滑度。在实验中,神经拉普拉斯在建模和推断DES类别的轨迹方面表现出卓越的性能,包括具有复杂历史依赖性和突然变化的DES类别。
translated by 谷歌翻译