本文介绍了在高斯过程回归/克里格替代建模技术中选择/设计内核的算法。我们在临时功能空间中采用内核方法解决方案的设置,即繁殖内核希尔伯特空间(RKHS),以解决在观察到它的观察值的情况下近似定期目标函数的问题,即监督学习。第一类算法是内核流,该算法是在机器学习中的分类中引入的。它可以看作是一个交叉验证过程,因此选择了“最佳”内核,从而最小化了通过删除数据集的某些部分(通常为一半)而产生的准确性损失。第二类算法称为光谱内核脊回归,旨在选择“最佳”核,以便在相关的RKHS中,要近似的函数的范围很小。在Mercer定理框架内,我们就目标函数的主要特征来获得该“最佳”内核的明确结构。从数据中学习内核的两种方法均通过有关合成测试功能的数值示例,以及在湍流建模验证二维机翼的湍流模型验证中的经典测试用例。
translated by 谷歌翻译
在本文中,我们提出了一个被称为Rkhsmetamod的R包,其实现了估计复杂模型的元模型的过程。元模型近似于复杂模型的Hoeffding分解,并允许我们对其进行灵敏度分析。它属于一个再现内核希尔伯特空间,该空间被构造成作为希尔伯特空间的直接总和。元模型的估计是用Hilbert标准的总和和经验L ^ 2-Norm的最小化最小化的抵抗的经验性最小平方。此过程称为RKHS Ridge Group Sparse,允许选择和估算Hoeffding分解中的术语,因此选择和估计非零的Sobol指数。 RKHSMetamod包提供从R统计计算环境到C ++库EIGEN和GSL的接口。为了加快执行时间并优化存储内存,除了用R写入R的函数,可以使用RCPPeigen和RCPPGSL软件包使用高效的C ++库写入此包的所有功能。然后,这些功能在R环境中接通,以提出用户友好的包装。
translated by 谷歌翻译
提出了用于基于合奏的估计和模拟高维动力系统(例如海洋或大气流)的方法学框架。为此,动态系统嵌入了一个由动力学驱动的内核功能的繁殖核Hilbert空间的家族中。这个家庭因其吸引人的财产而被昵称为仙境。在梦游仙境中,Koopman和Perron-Frobenius操作员是统一且均匀的。该属性保证它们可以在一系列可对角线的无限发电机中表达。访问Lyapunov指数和切线线性动力学的精确集合表达式也可以直接可用。仙境使我们能够根据轨迹样本的恒定时间线性组合来设计出惊人的简单集合数据同化方法。通过几个基本定理的完全合理的叠加原则,使这种令人尴尬的简单策略成为可能。
translated by 谷歌翻译
Efficient surrogate modelling is a key requirement for uncertainty quantification in data-driven scenarios. In this work, a novel approach of using Sparse Random Features for surrogate modelling in combination with self-supervised dimensionality reduction is described. The method is compared to other methods on synthetic and real data obtained from crashworthiness analyses. The results show a superiority of the here described approach over state of the art surrogate modelling techniques, Polynomial Chaos Expansions and Neural Networks.
translated by 谷歌翻译
替代模型用于减轻工程任务中的计算负担,这些计算负担需要重复评估计算要求的物理系统模型,例如不确定性的有效传播。对于显示出非常非线性依赖其输入参数的模型,标准的替代技术(例如多项式混沌膨胀)不足以获得原始模型响应的准确表示。通过应用有理近似,对于通过有理函数准确描述的模型可以有效地降低近似误差。具体而言,我们的目标是近似复杂值模型。获得替代系数的一种常见方法是最小化模型和替代物之间的基于样本的误差,从最小二乘意义上讲。为了获得原始模型的准确表示并避免过度拟合,样品集的量是扩展中多项式项数的两到三倍。对于需要高多项式程度或在其输入参数方面具有高维度的模型,该数字通常超过负担得起的计算成本。为了克服这个问题,我们将稀疏的贝叶斯学习方法应用于理性近似。通过特定的先前分布结构,在替代模型的系数中诱导稀疏性。分母的多项式系数以及问题的超参数是通过类型-II-Maximim-Maximim类似方法来确定的。我们应用了准牛顿梯度散发算法,以找到最佳的分母系数,并通过应用$ \ mathbb {cr} $ -Colculus来得出所需的梯度。
translated by 谷歌翻译
度量的运输提供了一种用于建模复杂概率分布的多功能方法,并具有密度估计,贝叶斯推理,生成建模及其他方法的应用。单调三角传输地图$ \ unicode {x2014} $近似值$ \ unicode {x2013} $ rosenblatt(kr)重新安排$ \ unicode {x2014} $是这些任务的规范选择。然而,此类地图的表示和参数化对它们的一般性和表现力以及对从数据学习地图学习(例如,通过最大似然估计)出现的优化问题的属性产生了重大影响。我们提出了一个通用框架,用于通过平滑函数的可逆变换来表示单调三角图。我们建立了有关转化的条件,以使相关的无限维度最小化问题没有伪造的局部最小值,即所有局部最小值都是全球最小值。我们展示了满足某些尾巴条件的目标分布,唯一的全局最小化器与KR地图相对应。鉴于来自目标的样品,我们提出了一种自适应算法,该算法估计了基础KR映射的稀疏半参数近似。我们证明了如何将该框架应用于关节和条件密度估计,无可能的推断以及有向图形模型的结构学习,并在一系列样本量之间具有稳定的概括性能。
translated by 谷歌翻译
NYSTR \“ OM方法是提高内核方法可伸缩性的最流行技术之一。但是,它尚未与经典PCA一致的核PCA得出。在本文中,我们使用NyStr \”来得出核PCA。OM方法,从而提供了使内核PCA可扩展的少数可用选项之一。我们通过与完整方法相比,通过有限样本的置信度结合了经验重建误差,进一步研究其统计精度。该方法和绑定的行为通过在多个现实世界数据集上的计算机实验进行说明。作为该方法的应用,我们使用NyStr \“ Om方法表示内核主成分回归,作为NyStr \“ Om内核脊回归的替代方案,可用于使用核有效正规化回归。
translated by 谷歌翻译
许多现代数据集,从神经影像和地统计数据等领域都以张量数据的随机样本的形式来说,这可以被理解为对光滑的多维随机功能的嘈杂观察。来自功能数据分析的大多数传统技术被维度的诅咒困扰,并且随着域的尺寸增加而迅速变得棘手。在本文中,我们提出了一种学习从多维功能数据样本的持续陈述的框架,这些功能是免受诅咒的几种表现形式的。这些表示由一组可分离的基函数构造,该函数被定义为最佳地适应数据。我们表明,通过仔细定义的数据的仔细定义的减少转换的张测仪分解可以有效地解决所得到的估计问题。使用基于差分运算符的惩罚,并入粗糙的正则化。也建立了相关的理论性质。在模拟研究中证明了我们对竞争方法的方法的优点。我们在神经影像动物中得出真正的数据应用。
translated by 谷歌翻译
神经切线核是根据无限宽度神经网络的参数分布定义的内核函数。尽管该极限不切实际,但神经切线内核允许对神经网络进行更直接的研究,并凝视着黑匣子的面纱。最近,从理论上讲,Laplace内核和神经切线内核在$ \ Mathbb {S}}^{D-1} $中共享相同的复制核Hilbert空间,暗示了它们的等价。在这项工作中,我们分析了两个内核的实际等效性。我们首先是通过与核的准确匹配,然后通过与高斯过程的后代匹配来进行匹配。此外,我们分析了$ \ mathbb {r}^d $中的内核,并在回归任务中进行实验。
translated by 谷歌翻译
嵌套模拟涉及通过模拟估算条件期望的功能。在本文中,我们提出了一种基于内核RIDGE回归的新方法,利用作为多维调节变量的函数的条件期望的平滑度。渐近分析表明,随着仿真预算的增加,所提出的方法可以有效地减轻了对收敛速度的维度诅咒,只要条件期望足够平滑。平滑度桥接立方根收敛速度之间的间隙(即标准嵌套模拟的最佳速率)和平方根收敛速率(即标准蒙特卡罗模拟的规范率)。我们通过来自投资组合风险管理和输入不确定性量化的数值例子来证明所提出的方法的性能。
translated by 谷歌翻译
神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括,以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似,使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外,我们介绍了四类运算符参数化:基于图形的运算符,低秩运算符,基于多极图形的运算符和傅里叶运算符,并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的:它们在底层函数空间的不同离散化之间共享相同的网络参数,并且可以用于零击超分辨率。在数值上,与现有的基于机器学习的方法,达西流程和Navier-Stokes方程相比,所提出的模型显示出卓越的性能,而与传统的PDE求解器相比,与现有的基于机器学习的方法有关的基于机器学习的方法。
translated by 谷歌翻译
This paper presents a surrogate modelling technique based on domain partitioning for Bayesian parameter inference of highly nonlinear engineering models. In order to alleviate the computational burden typically involved in Bayesian inference applications, a multielement Polynomial Chaos Expansion based Kriging metamodel is proposed. The developed surrogate model combines in a piecewise function an array of local Polynomial Chaos based Kriging metamodels constructed on a finite set of non-overlapping subdomains of the stochastic input space. Therewith, the presence of non-smoothness in the response of the forward model (e.g.~ nonlinearities and sparseness) can be reproduced by the proposed metamodel with minimum computational costs owing to its local adaptation capabilities. The model parameter inference is conducted through a Markov chain Monte Carlo approach comprising adaptive exploration and delayed rejection. The efficiency and accuracy of the proposed approach are validated through two case studies, including an analytical benchmark and a numerical case study. The latter relates the partial differential equation governing the hydrogen diffusion phenomenon of metallic materials in Thermal Desorption Spectroscopy tests.
translated by 谷歌翻译
Interacting particle or agent systems that display a rich variety of swarming behaviours are ubiquitous in science and engineering. A fundamental and challenging goal is to understand the link between individual interaction rules and swarming. In this paper, we study the data-driven discovery of a second-order particle swarming model that describes the evolution of $N$ particles in $\mathbb{R}^d$ under radial interactions. We propose a learning approach that models the latent radial interaction function as Gaussian processes, which can simultaneously fulfill two inference goals: one is the nonparametric inference of {the} interaction function with pointwise uncertainty quantification, and the other one is the inference of unknown scalar parameters in the non-collective friction forces of the system. We formulate the learning problem as a statistical inverse problem and provide a detailed analysis of recoverability conditions, establishing that a coercivity condition is sufficient for recoverability. Given data collected from $M$ i.i.d trajectories with independent Gaussian observational noise, we provide a finite-sample analysis, showing that our posterior mean estimator converges in a Reproducing kernel Hilbert space norm, at an optimal rate in $M$ equal to the one in the classical 1-dimensional Kernel Ridge regression. As a byproduct, we show we can obtain a parametric learning rate in $M$ for the posterior marginal variance using $L^{\infty}$ norm, and the rate could also involve $N$ and $L$ (the number of observation time instances for each trajectory), depending on the condition number of the inverse problem. Numerical results on systems that exhibit different swarming behaviors demonstrate efficient learning of our approach from scarce noisy trajectory data.
translated by 谷歌翻译
近年来目睹了采用灵活的机械学习模型进行乐器变量(IV)回归的兴趣,但仍然缺乏不确定性量化方法的发展。在这项工作中,我们为IV次数回归提出了一种新的Quasi-Bayesian程序,建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率,并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法,可以扩展到与宽神经网络模型一起工作。实证评价表明,我们的方法对复杂的高维问题产生了丰富的不确定性估计。
translated by 谷歌翻译
我们开发了一个计算程序,以估计具有附加噪声的半摩托车高斯过程回归模型的协方差超参数。也就是说,提出的方法可用于有效估计相关误差的方差,以及基于最大化边际似然函数的噪声方差。我们的方法涉及适当地降低超参数空间的维度,以简化单变量的根发现问题的估计过程。此外,我们得出了边际似然函数及其衍生物的边界和渐近线,这对于缩小高参数搜索的初始范围很有用。使用数值示例,我们证明了与传统参数优化相比,提出方法的计算优势和鲁棒性。
translated by 谷歌翻译
本论文主要涉及解决深层(时间)高斯过程(DGP)回归问题的状态空间方法。更具体地,我们代表DGP作为分层组合的随机微分方程(SDES),并且我们通过使用状态空间过滤和平滑方法来解决DGP回归问题。由此产生的状态空间DGP(SS-DGP)模型生成丰富的电视等级,与建模许多不规则信号/功能兼容。此外,由于他们的马尔可道结构,通过使用贝叶斯滤波和平滑方法可以有效地解决SS-DGPS回归问题。本论文的第二次贡献是我们通过使用泰勒力矩膨胀(TME)方法来解决连续离散高斯滤波和平滑问题。这诱导了一类滤波器和SmooThers,其可以渐近地精确地预测随机微分方程(SDES)解决方案的平均值和协方差。此外,TME方法和TME过滤器和SmoOthers兼容模拟SS-DGP并解决其回归问题。最后,本文具有多种状态 - 空间(深)GPS的应用。这些应用主要包括(i)来自部分观察到的轨迹的SDES的未知漂移功能和信号的光谱 - 时间特征估计。
translated by 谷歌翻译
我们介绍了一类小说的预计方法,对实际线上的概率分布数据集进行统计分析,具有2-Wassersein指标。我们特别关注主成分分析(PCA)和回归。为了定义这些模型,我们通过将数据映射到合适的线性空间并使用度量投影运算符来限制Wassersein空间中的结果来利用与其弱利米结构密切相关的Wasserstein空间的表示。通过仔细选择切线,我们能够推出快速的经验方法,利用受约束的B样条近似。作为我们方法的副产品,我们还能够为PCA的PCA进行更快的例程来获得分布。通过仿真研究,我们将我们的方法与先前提出的方法进行比较,表明我们预计的PCA具有类似的性能,即使在拼盘下也是极其灵活的。研究了模型的若干理论性质,并证明了渐近一致性。讨论了两个真实世界应用于美国和风速预测的Covid-19死亡率。
translated by 谷歌翻译
Koopman运算符是无限维的运算符,可全球线性化非线性动态系统,使其光谱信息可用于理解动态。然而,Koopman运算符可以具有连续的光谱和无限维度的子空间,使得它们的光谱信息提供相当大的挑战。本文介绍了具有严格融合的数据驱动算法,用于从轨迹数据计算Koopman运算符的频谱信息。我们引入了残余动态模式分解(ResDMD),它提供了第一种用于计算普通Koopman运算符的Spectra和PseudtoStra的第一种方案,无需光谱污染。使用解析器操作员和RESDMD,我们还计算与测量保存动态系统相关的光谱度量的平滑近似。我们证明了我们的算法的显式收敛定理,即使计算连续频谱和离散频谱的密度,也可以实现高阶收敛即使是混沌系统。我们展示了在帐篷地图,高斯迭代地图,非线性摆,双摆,洛伦茨系统和11美元延长洛伦兹系统的算法。最后,我们为具有高维状态空间的动态系统提供了我们的算法的核化变体。这使我们能够计算与具有20,046维状态空间的蛋白质分子的动态相关的光谱度量,并计算出湍流流过空气的误差界限的非线性Koopman模式,其具有雷诺数为$> 10 ^ 5 $。一个295,122维的状态空间。
translated by 谷歌翻译
我们研究了估计回归函数的导数的问题,该函数的衍生物具有广泛的应用,作为未知函数的关键非参数功能。标准分析可以定制为特定的衍生订单,参数调整仍然是一个艰巨的挑战,尤其是对于高阶导数。在本文中,我们提出了一个简单的插入式内核脊回归(KRR)估计器,其非参数回归中具有随机设计,该设计广泛适用于多维支持和任意混合派生衍生物。我们提供了非反应分析,以统一的方式研究提出的估计量的行为,该估计量涵盖回归函数及其衍生物,从而在强$ l_ \ infty $ norm中导致一般核类中的一般内核的两个误差范围。在专门针对多个多项式衰减特征值核的具体示例中,提出的估计器将最小值的最佳速率恢复到估计H \ h \ offormions ofergarithmic因子的最佳速率。因此,在任何衍生词的顺序中都选择了调整参数。因此,提出的估计器享受\ textIt {插件属性}的衍生物,因为它会自动适应要估计的衍生物顺序,从而可以轻松地在实践中调整。我们的仿真研究表明,相对于几种现有方法蓝色的几种现有方法的有限样本性能有限,并证实了其最小值最优性的理论发现。
translated by 谷歌翻译
高维偏微分方程(PDE)是一种流行的数学建模工具,其应用从财务到计算化学不等。但是,用于解决这些PDE的标准数值技术通常受维度的诅咒影响。在这项工作中,我们应对这一挑战,同时着重于在具有周期性边界条件的高维域上定义的固定扩散方程。受到高维度稀疏功能近似进展的启发,我们提出了一种称为压缩傅立叶搭配的新方法。结合了压缩感应和光谱搭配的想法,我们的方法取代了结构化置式网格用蒙特卡洛采样的使用,并采用了稀疏的恢复技术,例如正交匹配的追踪和$ \ ell^1 $最小化,以近似PDE的傅立叶系数解决方案。我们进行了严格的理论分析,表明所提出的方法的近似误差与最佳$ s $ term近似(相对于傅立叶基础)与解决方案相当。我们的分析使用了最近引入的随机采样框架,我们的分析表明,在足够条件下,根据扩散系数的规律性,压缩傅立叶搭配方法相对于搭配点的数量减轻了维数的诅咒。我们还提出了数值实验,以说明稀疏和可压缩溶液近似方法的准确性和稳定性。
translated by 谷歌翻译