智能论文笔记

A Data-Adaptive Prior for Bayesian Learning of Kernels in Operators

Neil K. Chada , Quanjun Lang , Fei Lu , Xiong Wang

分类： (统计)机器学习 | 机器学习

2022-12-29

Kernels are efficient in representing nonlocal dependence and they are widely used to design operators between function spaces. Thus, learning kernels in operators from data is an inverse problem of general interest. Due to the nonlocal dependence, the inverse problem can be severely ill-posed with a data-dependent singular inversion operator. The Bayesian approach overcomes the ill-posedness through a non-degenerate prior. However, a fixed non-degenerate prior leads to a divergent posterior mean when the observation noise becomes small, if the data induces a perturbation in the eigenspace of zero eigenvalues of the inversion operator. We introduce a data-adaptive prior to achieve a stable posterior whose mean always has a small noise limit. The data-adaptive prior's covariance is the inversion operator with a hyper-parameter selected adaptive to data by the L-curve method. Furthermore, we provide a detailed analysis on the computational practice of the data-adaptive prior, and demonstrate it on Toeplitz matrices and integral operators. Numerical tests show that a fixed prior can lead to a divergent posterior mean in the presence of any of the four types of errors: discretization error, model error, partial observation and wrong noise assumption. In contrast, the data-adaptive prior always attains posterior means with small noise limits.

translated by 谷歌翻译

Identifiability of interaction kernels in mean-field equations of interacting particles

Quanjun Lang , Fei Lu

分类： (统计)机器学习 | 机器学习

2021-06-10

我们为相互作用粒子系统的平均场方程中相互作用内核的可识别性提供了完整的表征。关键是识别概率二次损耗功能具有独特的最小化器的功能空间。我们考虑两个数据自适应$ l^2 $空间，一个带有Lebesgue度量，另一个具有均值固有的探索度量。对于每个$ l^2 $空间，损耗功能的Fr \'echet导数会导致半阳性的积分运算符，因此，可识别性在集成运算符的非零特征值和功能空间的特征空间上保留在特征空间上识别是与积分运算符相关的RKHS的$ l^2 $ clublosure。此外，仅当整体操作员严格呈正时，可识别性在$ l^2 $空间上。因此，逆问题是错误的，需要正则化。在截断的SVD正则化的背景下，我们从数值上证明了加权$ l^2 $空间比未加权的$ l^2 $空间更可取，因为它会导致更准确的正则化估计器。

translated by 谷歌翻译

Convergence Rates for Learning Linear Operators from Noisy Data

Maarten V. de Hoop , Nikola B. Kovachki , Nicholas H. Nelsen , Andrew M. Stuart

分类：机器学习 | (统计)机器学习

2021-08-27

本文研究了无限二维希尔伯特空间之间线性算子的学习。训练数据包括希尔伯特空间中的一对随机输入向量以及在未知的自我接合线性运算符下的嘈杂图像。假设操作员在已知的基础上是对角线化的，则该工作解决了给定数据估算操作员特征值的等效反问题。采用贝叶斯方法，理论分析在无限的数据限制中建立了后部收缩率，而高斯先验者与反向问题的正向图没有直接相关。主要结果还包括学习理论的概括错误保证了广泛的分配变化。这些收敛速率分别量化了数据平滑度和真实特征值衰减或生长的影响，分别是紧凑或无界操作员对样品复杂性的影响。数值证据支持对角线和非对角性环境中的理论。

translated by 谷歌翻译

Learning particle swarming models from data with Gaussian processes

Jinchao Feng , Charles Kulick , Yunxiang Ren , Sui Tang

分类： (统计)机器学习 | 机器学习

2021-06-04

Interacting particle or agent systems that display a rich variety of swarming behaviours are ubiquitous in science and engineering. A fundamental and challenging goal is to understand the link between individual interaction rules and swarming. In this paper, we study the data-driven discovery of a second-order particle swarming model that describes the evolution of $N$ particles in $\mathbb{R}^d$ under radial interactions. We propose a learning approach that models the latent radial interaction function as Gaussian processes, which can simultaneously fulfill two inference goals: one is the nonparametric inference of {the} interaction function with pointwise uncertainty quantification, and the other one is the inference of unknown scalar parameters in the non-collective friction forces of the system. We formulate the learning problem as a statistical inverse problem and provide a detailed analysis of recoverability conditions, establishing that a coercivity condition is sufficient for recoverability. Given data collected from $M$ i.i.d trajectories with independent Gaussian observational noise, we provide a finite-sample analysis, showing that our posterior mean estimator converges in a Reproducing kernel Hilbert space norm, at an optimal rate in $M$ equal to the one in the classical 1-dimensional Kernel Ridge regression. As a byproduct, we show we can obtain a parametric learning rate in $M$ for the posterior marginal variance using $L^{\infty}$ norm, and the rate could also involve $N$ and $L$ (the number of observation time instances for each trajectory), depending on the condition number of the inverse problem. Numerical results on systems that exhibit different swarming behaviors demonstrate efficient learning of our approach from scarce noisy trajectory data.

translated by 谷歌翻译

Unsupervised learning of observation functions in state-space models by nonparametric moment methods

Qingci An , Yannis Kevrekidis , Fei Lu , Mauro Maggioni

分类： (统计)机器学习 | 机器学习

2022-07-12

我们研究了非线性状态空间模型中对不可糊化的观察函数的无监督学习。假设观察过程的大量数据以及状态过程的分布，我们引入了一种非参数通用力矩方法，以通过约束回归来估计观察函数。主要的挑战来自观察函数的不可抑制性以及国家与观察之间缺乏数据对。我们解决了二次损失功能可识别性的基本问题，并表明可识别性的功能空间是闭合状态过程的RKHS。数值结果表明，前两个矩和时间相关以及上限和下限可以识别从分段多项式到平滑函数的功能，从而导致收敛估计器。还讨论了该方法的局限性，例如由于对称性和平稳性而引起的非识别性。

translated by 谷歌翻译

A rigorous introduction to linear models

Jun Lu

分类：机器学习 | (统计)机器学习

2021-05-10

这项调查旨在提供线性模型及其背后的理论的介绍。我们的目标是对读者进行严格的介绍，并事先接触普通最小二乘。在机器学习中，输出通常是输入的非线性函数。深度学习甚至旨在找到需要大量计算的许多层的非线性依赖性。但是，这些算法中的大多数都基于简单的线性模型。然后，我们从不同视图中描述线性模型，并找到模型背后的属性和理论。线性模型是回归问题中的主要技术，其主要工具是最小平方近似，可最大程度地减少平方误差之和。当我们有兴趣找到回归函数时，这是一个自然的选择，该回归函数可以最大程度地减少相应的预期平方误差。这项调查主要是目的的摘要，即线性模型背后的重要理论的重要性，例如分布理论，最小方差估计器。我们首先从三种不同的角度描述了普通的最小二乘，我们会以随机噪声和高斯噪声干扰模型。通过高斯噪声，该模型产生了可能性，因此我们引入了最大似然估计器。它还通过这种高斯干扰发展了一些分布理论。最小二乘的分布理论将帮助我们回答各种问题并引入相关应用。然后，我们证明最小二乘是均值误差的最佳无偏线性模型，最重要的是，它实际上接近了理论上的极限。我们最终以贝叶斯方法及以后的线性模型结束。

translated by 谷歌翻译

Interpolation and Learning with Scale Dependent Kernels

Nicolò Pagliana , Alessandro Rudi , Ernesto De Vito , Lorenzo Rosasco

分类： (统计)机器学习 | 机器学习

2020-06-17

我们研究了非参数脊的最小二乘的学习属性。特别是，我们考虑常见的估计人的估计案例，由比例依赖性内核定义，并专注于规模的作用。这些估计器内插数据，可以显示规模来通过条件号控制其稳定性。我们的分析表明，这是不同的制度，具体取决于样本大小，其尺寸与问题的平滑度之间的相互作用。实际上，当样本大小小于数据维度中的指数时，可以选择比例，以便学习错误减少。随着样本尺寸变大，总体错误停止减小但有趣地可以选择规模，使得噪声引起的差异仍然存在界线。我们的分析结合了概率，具有来自插值理论的许多分析技术。

translated by 谷歌翻译

Learning the optimal Tikhonov regularizer for inverse problems

Giovanni S. Alberti , Ernesto De Vito , Matti Lassas , Luca Ratti , Matteo Santacesaria

分类： (统计)机器学习 | 机器学习

2021-06-11

在这项工作中，我们考虑线性逆问题$ y = ax + \ epsilon $，其中$ a \ colon x \ to y $是可分离的hilbert spaces $ x $和$ y $之间的已知线性运算符，$ x $。 $ x $和$ \ epsilon $中的随机变量是$ y $的零平均随机过程。该设置涵盖成像中的几个逆问题，包括去噪，去束和X射线层析造影。在古典正规框架内，我们专注于正则化功能的情况下未能先验，而是从数据中学习。我们的第一个结果是关于均方误差的最佳广义Tikhonov规则器的表征。我们发现它完全独立于前向操作员$ a $，并仅取决于$ x $的平均值和协方差。然后，我们考虑从两个不同框架中设置的有限训练中学习常规程序的问题：一个监督，根据$ x $和$ y $的样本，只有一个无人监督，只基于$ x $的样本。在这两种情况下，我们证明了泛化界限，在X $和$ \ epsilon $的分发的一些弱假设下，包括子高斯变量的情况。我们的界限保持在无限尺寸的空间中，从而表明更精细和更细的离散化不会使这个学习问题更加困难。结果通过数值模拟验证。

translated by 谷歌翻译

Quasi-Bayesian Dual Instrumental Variable Regression

Ziyu Wang , Yuhao Zhou , Tongzheng Ren , Jun Zhu

分类： (统计)机器学习 | 机器学习

2021-06-16

近年来目睹了采用灵活的机械学习模型进行乐器变量（IV）回归的兴趣，但仍然缺乏不确定性量化方法的发展。在这项工作中，我们为IV次数回归提出了一种新的Quasi-Bayesian程序，建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率，并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法，可以扩展到与宽神经网络模型一起工作。实证评价表明，我们的方法对复杂的高维问题产生了丰富的不确定性估计。

translated by 谷歌翻译

Ensemble forecasts in reproducing kernel Hilbert space family: dynamical systems in Wonderland

Bérenger Hug , Etienne Memin , Gilles Tissot

分类：机器学习

2022-07-29

提出了用于基于合奏的估计和模拟高维动力系统（例如海洋或大气流）的方法学框架。为此，动态系统嵌入了一个由动力学驱动的内核功能的繁殖核Hilbert空间的家族中。这个家庭因其吸引人的财产而被昵称为仙境。在梦游仙境中，Koopman和Perron-Frobenius操作员是统一且均匀的。该属性保证它们可以在一系列可对角线的无限发电机中表达。访问Lyapunov指数和切线线性动力学的精确集合表达式也可以直接可用。仙境使我们能够根据轨迹样本的恒定时间线性组合来设计出惊人的简单集合数据同化方法。通过几个基本定理的完全合理的叠加原则，使这种令人尴尬的简单策略成为可能。

translated by 谷歌翻译

Noise Estimation in Gaussian Process Regression

Siavash Ameli , Shawn C. Shadden

分类：机器学习 | (统计)机器学习

2022-06-20

我们开发了一个计算程序，以估计具有附加噪声的半摩托车高斯过程回归模型的协方差超参数。也就是说，提出的方法可用于有效估计相关误差的方差，以及基于最大化边际似然函数的噪声方差。我们的方法涉及适当地降低超参数空间的维度，以简化单变量的根发现问题的估计过程。此外，我们得出了边际似然函数及其衍生物的边界和渐近线，这对于缩小高参数搜索的初始范围很有用。使用数值示例，我们证明了与传统参数优化相比，提出方法的计算优势和鲁棒性。

translated by 谷歌翻译

Reproducing kernel Hilbert C*-module and kernel mean embeddings

Yuka Hashimoto , Isao Ishikawa , Masahiro Ikeda , Fuyuta Komura , Takeshi Katsura , Yoshinobu Kawahara

分类： (统计)机器学习 | 机器学习

2021-01-27

内核方法是机器学习中最流行的技术之一，使用再现内核希尔伯特空间（RKHS）的属性来解决学习任务。在本文中，我们提出了一种新的数据分析框架，与再现内核Hilbert $ C ^ * $ - 模块（rkhm）和rkhm中的内核嵌入（kme）。由于RKHM包含比RKHS或VVRKHS）的更丰富的信息，因此使用RKHM的分析使我们能够捕获和提取诸如功能数据的结构属性。我们向RKHM展示了rkhm理论的分支，以适用于数据分析，包括代表性定理，以及所提出的KME的注射性和普遍性。我们还显示RKHM概括RKHS和VVRKHS。然后，我们提供采用RKHM和提议的KME对数据分析的具体程序。

translated by 谷歌翻译

Rigorous data-driven computation of spectral properties of Koopman operators for dynamical systems

Matthew J. Colbrook , Alex Townsend

分类：机器学习

2021-11-29

Koopman运算符是无限维的运算符，可全球线性化非线性动态系统，使其光谱信息可用于理解动态。然而，Koopman运算符可以具有连续的光谱和无限维度的子空间，使得它们的光谱信息提供相当大的挑战。本文介绍了具有严格融合的数据驱动算法，用于从轨迹数据计算Koopman运算符的频谱信息。我们引入了残余动态模式分解（ResDMD），它提供了第一种用于计算普通Koopman运算符的Spectra和PseudtoStra的第一种方案，无需光谱污染。使用解析器操作员和RESDMD，我们还计算与测量保存动态系统相关的光谱度量的平滑近似。我们证明了我们的算法的显式收敛定理，即使计算连续频谱和离散频谱的密度，也可以实现高阶收敛即使是混沌系统。我们展示了在帐篷地图，高斯迭代地图，非线性摆，双摆，洛伦茨系统和11美元延长洛伦兹系统的算法。最后，我们为具有高维状态空间的动态系统提供了我们的算法的核化变体。这使我们能够计算与具有20,046维状态空间的蛋白质分子的动态相关的光谱度量，并计算出湍流流过空气的误差界限的非线性Koopman模式，其具有雷诺数为$> 10 ^ 5 $。一个295,122维的状态空间。

translated by 谷歌翻译

Is completeness necessary? Estimation in nonidentified linear models

Andrii Babii , Jean-Pierre Florens

分类： (统计)机器学习

2017-09-11

我们显示基于光谱正则化的估计变换到一类非识别线性不良逆模型中的结构参数的最佳近似。重要的是，这种融合在均匀和希尔伯特空间规范中保持。当最佳近似与结构参数重合时，我们描述了几种情况，或者至少合理地近似，并且讨论我们的结果在部分识别设置中是如何有用的。最后，我们记录了识别失败对正规化估计器的线性功能的渐近分布具有重要意义，该估算器可以具有加权Chi平方组分。该理论被示出了各种高维和非参数IV回归。

translated by 谷歌翻译

Neural Operator: Learning Maps Between Function Spaces

Nikola Kovachki , Zongyi Li , Burigede Liu , Kamyar Azizzadenesheli , Kaushik Bhattacharya , Andrew Stuart , Anima Anandkumar

分类：机器学习

2021-08-19

神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括，以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似，使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外，我们介绍了四类运算符参数化：基于图形的运算符，低秩运算符，基于多极图形的运算符和傅里叶运算符，并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的：它们在底层函数空间的不同离散化之间共享相同的网络参数，并且可以用于零击超分辨率。在数值上，与现有的基于机器学习的方法，达西流程和Navier-Stokes方程相比，所提出的模型显示出卓越的性能，而与传统的PDE求解器相比，与现有的基于机器学习的方法有关的基于机器学习的方法。

translated by 谷歌翻译

Deep learning architectures for nonlinear operator functions and nonlinear inverse problems

Maarten V. de Hoop , Matti Lassas , Christopher A. Wong

分类：机器学习

2019-12-23

我们为特殊神经网络架构，称为运营商复发性神经网络的理论分析，用于近似非线性函数，其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量，因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此，我们介绍一个类似标准的神经网络架构的新系列，但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析，我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后，我们研究其表示属性以及其近似属性。我们还表明，可以引入明确的正则化，其可以从所述逆问题的数学分析导出，并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后，我们讨论如何将运营商复发网络视为深度学习模拟，以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。

translated by 谷歌翻译

Robust Generalised Bayesian Inference for Intractable Likelihoods

Takuo Matsubara , Jeremias Knoblauch , François-Xavier Briol , Chris. J. Oates

分类： (统计)机器学习

2021-04-15

广义贝叶斯推理使用损失函数而不是可能性的先前信仰更新，因此可以用于赋予鲁棒性，以防止可能的错误规范的可能性。在这里，我们认为广泛化的贝叶斯推论斯坦坦差异作为损失函数的损失，由应用程序的可能性含有难治性归一化常数。在这种情况下，斯坦因差异来避免归一化恒定的评估，并产生封闭形式或使用标准马尔可夫链蒙特卡罗的通用后出版物。在理论层面上，我们显示了一致性，渐近的正常性和偏见 - 稳健性，突出了这些物业如何受到斯坦因差异的选择。然后，我们提供关于一系列棘手分布的数值实验，包括基于内核的指数家庭模型和非高斯图形模型的应用。

translated by 谷歌翻译

A Spectral Representation of Kernel Stein Discrepancy with Application to Goodness-of-Fit Tests for Measures on Infinite Dimensional Hilbert Spaces

George Wynne , Mikołaj Kasprzak , Andrew B. Duncan

分类： (统计)机器学习

2022-06-09

内核Stein差异（KSD）是一种基于内核的广泛使用概率指标之间差异的非参数量度。它通常在用户从候选概率度量中收集的样本集合的情况下使用，并希望将它们与指定的目标概率度量进行比较。 KSD的一个有用属性是，它可以仅从候选度量的样本中计算出来，并且不知道目标度量的正常化常数。 KSD已用于一系列设置，包括合适的测试，参数推断，MCMC输出评估和生成建模。当前KSD方法论的两个主要问题是（i）超出有限维度欧几里得环境之外的适用性以及（ii）缺乏影响KSD性能的清晰度。本文提供了KSD的新频谱表示，这两种补救措施都使KSD适用于希尔伯特（Hilbert）评估数据，并揭示了内核和Stein oterator Choice对KSD的影响。我们通过在许多合成数据实验中对各种高斯和非高斯功能模型进行拟合优度测试来证明所提出的方法的功效。

translated by 谷歌翻译

Finding structure with randomness: Probabilistic algorithms for constructing approximate matrix decompositions

Nathan Halko , Per-Gunnar Martinsson , Joel A. Tropp

分类：

2009-09-22

Low-rank matrix approximations, such as the truncated singular value decomposition and the rank-revealing QR decomposition, play a central role in data analysis and scientific computing. This work surveys and extends recent research which demonstrates that randomization offers a powerful tool for performing low-rank matrix approximation. These techniques exploit modern computational architectures more fully than classical methods and open the possibility of dealing with truly massive data sets.This paper presents a modular framework for constructing randomized algorithms that compute partial matrix decompositions. These methods use random sampling to identify a subspace that captures most of the action of a matrix. The input matrix is then compressed-either explicitly or implicitly-to this subspace, and the reduced matrix is manipulated deterministically to obtain the desired low-rank factorization. In many cases, this approach beats its classical competitors in terms of accuracy, speed, and robustness. These claims are supported by extensive numerical experiments and a detailed error analysis.The specific benefits of randomized techniques depend on the computational environment. Consider the model problem of finding the k dominant components of the singular value decomposition of an m × n matrix. (i) For a dense input matrix, randomized algorithms require O(mn log(k)) floating-point operations (flops) in contrast with O(mnk) for classical algorithms. (ii) For a sparse input matrix, the flop count matches classical Krylov subspace methods, but the randomized approach is more robust and can easily be reorganized to exploit multi-processor architectures. (iii) For a matrix that is too large to fit in fast memory, the randomized techniques require only a constant number of passes over the data, as opposed to O(k) passes for classical algorithms. In fact, it is sometimes possible to perform matrix approximation with a single pass over the data.

translated by 谷歌翻译

Learning PSD-valued functions using kernel sums-of-squares

Boris Muzellec , Francis Bach , Alessandro Rudi

分类： (统计)机器学习 | 机器学习

2021-11-22

对于函数的矩阵或凸起的正半明确度（PSD）的形状约束在机器学习和科学的许多应用中起着核心作用，包括公制学习，最佳运输和经济学。然而，存在很少的功能模型，以良好的经验性能和理论担保来强制执行PSD-NESS或凸起。在本文中，我们介绍了用于在PSD锥中的值的函数的内核平方模型，其扩展了最近建议编码非负标量函数的内核平方型号。我们为这类PSD函数提供了一个代表性定理，表明它构成了PSD函数的普遍近似器，并在限定的平等约束的情况下导出特征值界限。然后，我们将结果应用于建模凸起函数，通过执行其Hessian的核心量子表示，并表明可以因此表示任何平滑且强凸的功能。最后，我们说明了我们在PSD矩阵值回归任务中的方法以及标准值凸起回归。

translated by 谷歌翻译