智能论文笔记

Learning Nonparametric Ordinary differential Equations: Application to Sparse and Noisy Data

Kamel Lahouel , Michael Wells , David Lovitz , Victor Rielly , Ethan Lew , Bruno Jedynak

分类： (统计)机器学习 | 机器学习

2022-06-30

从嘈杂和稀疏数据中学习普通微分方程（ODES）的非参数系统$ \ dot x = f（t，x）$是一个新兴的机器学习主题。我们使用良好的复制内核希尔伯特空间（RKHS）的理论来定义$ f $的候选者，该候选者的解决方案存在且独特。Learning $ f $包括解决RKHS中的约束优化问题。我们提出了一种惩罚方法，该方法迭代使用代表定理和Euler近似来提供数值解决方案。我们证明了$ l^2 $距离$ x $及其估算器之间的概括。为Fitzhugh Nagumo振荡器提供了实验，并预测了衰老受试者皮质中的淀粉样蛋白水平。在这两种情况下，与最新技术相比，我们都表现出竞争成果。

translated by 谷歌翻译

Learning particle swarming models from data with Gaussian processes

Jinchao Feng , Charles Kulick , Yunxiang Ren , Sui Tang

分类： (统计)机器学习 | 机器学习

2021-06-04

Interacting particle or agent systems that display a rich variety of swarming behaviours are ubiquitous in science and engineering. A fundamental and challenging goal is to understand the link between individual interaction rules and swarming. In this paper, we study the data-driven discovery of a second-order particle swarming model that describes the evolution of $N$ particles in $\mathbb{R}^d$ under radial interactions. We propose a learning approach that models the latent radial interaction function as Gaussian processes, which can simultaneously fulfill two inference goals: one is the nonparametric inference of {the} interaction function with pointwise uncertainty quantification, and the other one is the inference of unknown scalar parameters in the non-collective friction forces of the system. We formulate the learning problem as a statistical inverse problem and provide a detailed analysis of recoverability conditions, establishing that a coercivity condition is sufficient for recoverability. Given data collected from $M$ i.i.d trajectories with independent Gaussian observational noise, we provide a finite-sample analysis, showing that our posterior mean estimator converges in a Reproducing kernel Hilbert space norm, at an optimal rate in $M$ equal to the one in the classical 1-dimensional Kernel Ridge regression. As a byproduct, we show we can obtain a parametric learning rate in $M$ for the posterior marginal variance using $L^{\infty}$ norm, and the rate could also involve $N$ and $L$ (the number of observation time instances for each trajectory), depending on the condition number of the inverse problem. Numerical results on systems that exhibit different swarming behaviors demonstrate efficient learning of our approach from scarce noisy trajectory data.

translated by 谷歌翻译

Handling Hard Affine SDP Shape Constraints in RKHSs

Pierre-Cyril Aubin-Frankowski , Zoltan Szabo

分类： (统计)机器学习 | 机器学习

2021-01-05

形状约束，例如非负，单调性，凸度或超模型性，在机器学习和统计的各种应用中都起着关键作用。但是，将此方面的信息以艰苦的方式（例如，在间隔的所有点）纳入预测模型，这是一个众所周知的具有挑战性的问题。我们提出了一个统一和模块化的凸优化框架，依赖于二阶锥（SOC）拧紧，以编码属于矢量值重现的载体内核Hilbert Spaces（VRKHSS）的模型对函数衍生物的硬仿射SDP约束。所提出的方法的模块化性质允许同时处理多个形状约束，并将无限数量的约束限制为有限的许多。我们证明了所提出的方案的收敛及其自适应变体的收敛性，利用VRKHSS的几何特性。由于基于覆盖的拧紧构造，该方法特别适合具有小到中等输入维度的任务。该方法的效率在形状优化，机器人技术和计量经济学的背景下进行了说明。

translated by 谷歌翻译

Learning PSD-valued functions using kernel sums-of-squares

Boris Muzellec , Francis Bach , Alessandro Rudi

分类： (统计)机器学习 | 机器学习

2021-11-22

对于函数的矩阵或凸起的正半明确度（PSD）的形状约束在机器学习和科学的许多应用中起着核心作用，包括公制学习，最佳运输和经济学。然而，存在很少的功能模型，以良好的经验性能和理论担保来强制执行PSD-NESS或凸起。在本文中，我们介绍了用于在PSD锥中的值的函数的内核平方模型，其扩展了最近建议编码非负标量函数的内核平方型号。我们为这类PSD函数提供了一个代表性定理，表明它构成了PSD函数的普遍近似器，并在限定的平等约束的情况下导出特征值界限。然后，我们将结果应用于建模凸起函数，通过执行其Hessian的核心量子表示，并表明可以因此表示任何平滑且强凸的功能。最后，我们说明了我们在PSD矩阵值回归任务中的方法以及标准值凸起回归。

translated by 谷歌翻译

Breaking the Curse of Dimensionality with Convex Neural Networks

Francis Bach

分类：

2014-12-30

We consider neural networks with a single hidden layer and non-decreasing positively homogeneous activation functions like the rectified linear units. By letting the number of hidden units grow unbounded and using classical non-Euclidean regularization tools on the output weights, they lead to a convex optimization problem and we provide a detailed theoretical analysis of their generalization performance, with a study of both the approximation and the estimation errors. We show in particular that they are adaptive to unknown underlying linear structures, such as the dependence on the projection of the input variables onto a low-dimensional subspace. Moreover, when using sparsity-inducing norms on the input weights, we show that high-dimensional non-linear variable selection may be achieved, without any strong assumption regarding the data and with a total number of variables potentially exponential in the number of observations. However, solving this convex optimization problem in infinite dimensions is only possible if the non-convex subproblem of addition of a new unit can be solved efficiently. We provide a simple geometric interpretation for our choice of activation functions and describe simple conditions for convex relaxations of the finite-dimensional non-convex subproblem to achieve the same generalization error bounds, even when constant-factor approximations cannot be found. We were not able to find strong enough convex relaxations to obtain provably polynomial-time algorithms and leave open the existence or non-existence of such tractable algorithms with non-exponential sample complexities.

translated by 谷歌翻译

Regularized ERM on random subspaces

Andrea Della Vecchia , Jaouad Mourtada , Ernesto De Vito , Lorenzo Rosasco

分类： (统计)机器学习 | 机器学习

2022-12-04

We study a natural extension of classical empirical risk minimization, where the hypothesis space is a random subspace of a given space. In particular, we consider possibly data dependent subspaces spanned by a random subset of the data, recovering as a special case Nystrom approaches for kernel methods. Considering random subspaces naturally leads to computational savings, but the question is whether the corresponding learning accuracy is degraded. These statistical-computational tradeoffs have been recently explored for the least squares loss and self-concordant loss functions, such as the logistic loss. Here, we work to extend these results to convex Lipschitz loss functions, that might not be smooth, such as the hinge loss used in support vector machines. This unified analysis requires developing new proofs, that use different technical tools, such as sub-gaussian inputs, to achieve fast rates. Our main results show the existence of different settings, depending on how hard the learning problem is, for which computational efficiency can be improved with no loss in performance.

translated by 谷歌翻译

Robust Uncertainty Bounds in Reproducing Kernel Hilbert Spaces: A Convex Optimization Approach

Paul Scharnhorst , Emilio T. Maddalena , Yuning Jiang , Colin N. Jones

分类：机器学习

2021-04-19

考虑了建立UNKONWN地面真相函数值的样本外界限的问题。内核及其相关的希尔伯特空间是本文所采用的主要形式主义，以及一个观察模型，在该模型中，输出被有限的测量噪声损坏。噪声可以源于任何紧凑的分布，并且没有对可用数据进行独立假设。在这种情况下，我们显示计算紧密的，有限样本的不确定性范围等于求解参数四次约束线性程序。接下来，建立了我们方法的属性，并研究了其与另一种方法的关系。提出了数值实验，以说明如何在许多情况下应用理论，并将其与其他封闭形式的替代方案进行对比。

translated by 谷歌翻译

The Discovery of Dynamics via Linear Multistep Methods and Deep Learning: Error Estimation

Qiang Du , Yiqi Gu , Haizhao Yang , Chao Zhou

分类：机器学习

2021-03-21

在广泛的应用程序中，从观察到的数据中识别隐藏的动态是一项重大且具有挑战性的任务。最近，线性多步法方法（LMM）和深度学习的结合已成功地用于发现动力学，而对这种方法进行完整的收敛分析仍在开发中。在这项工作中，我们考虑了基于网络的深度LMM，以发现动态。我们使用深网的近似属性提出了这些方法的错误估计。它指出，对于某些LMMS的家庭，$ \ ell^2 $网格错误由$ O（H^p）$的总和和网络近似错误，其中$ h $是时间步长和$P $是本地截断错误顺序。提供了几个物理相关示例的数值结果，以证明我们的理论。

translated by 谷歌翻译

Nonparametric adaptive control and prediction: theory and randomized algorithms

Nicholas M. Boffi , Stephen Tu , Jean-Jacques E. Slotine

分类：机器学习

2021-06-07

非线性自适应控制理论中的一个关键假设是系统的不确定性可以在一组已知基本函数的线性跨度中表示。虽然该假设导致有效的算法，但它将应用限制为非常特定的系统类别。我们介绍一种新的非参数自适应算法，其在参数上学习无限尺寸密度，以取消再现内核希尔伯特空间中的未知干扰。令人惊讶的是，所产生的控制输入承认，尽管其底层无限尺寸结构，但是尽管它的潜在无限尺寸结构实现了其实施的分析表达。虽然这种自适应输入具有丰富和富有敏感性的 - 例如，传统的线性参数化 - 其计算复杂性随时间线性增长，使其比其参数对应力相对较高。利用随机傅里叶特征的理论，我们提供了一种有效的随机实现，该实现恢复了经典参数方法的复杂性，同时可透明地保留非参数输入的表征性。特别地，我们的显式范围仅取决于系统的基础参数，允许我们所提出的算法有效地缩放到高维系统。作为该方法的说明，我们展示了随机近似算法学习由牛顿重力交互的十点批量组成的60维系统的预测模型的能力。

translated by 谷歌翻译

A Framework for Machine Learning of Model Error in Dynamical Systems

Matthew E. Levine , Andrew M. Stuart

分类：机器学习 | (统计)机器学习

2021-07-14

在许多学科中，动态系统的数据信息预测模型的开发引起了广泛的兴趣。我们提出了一个统一的框架，用于混合机械和机器学习方法，以从嘈杂和部分观察到的数据中识别动态系统。我们将纯数据驱动的学习与混合模型进行比较，这些学习结合了不完善的域知识。我们的公式与所选的机器学习模型不可知，在连续和离散的时间设置中都呈现，并且与表现出很大的内存和错误的模型误差兼容。首先，我们从学习理论的角度研究无内存线性（W.R.T.参数依赖性）模型误差，从而定义了过多的风险和概括误差。对于沿阵行的连续时间系统，我们证明，多余的风险和泛化误差都通过与T的正方形介于T的术语（指定训练数据的时间间隔）的术语界定。其次，我们研究了通过记忆建模而受益的方案，证明了两类连续时间复发性神经网络（RNN）的通用近似定理：两者都可以学习与内存有关的模型误差。此外，我们将一类RNN连接到储层计算，从而将学习依赖性错误的学习与使用随机特征在Banach空间之间进行监督学习的最新工作联系起来。给出了数值结果（Lorenz '63，Lorenz '96多尺度系统），以比较纯粹的数据驱动和混合方法，发现混合方法较少，渴望数据较少，并且更有效。最后，我们从数值上证明了如何利用数据同化来从嘈杂，部分观察到的数据中学习隐藏的动态，并说明了通过这种方法和培训此类模型来表示记忆的挑战。

translated by 谷歌翻译

Asymptotic Errors for Teacher-Student Convex Generalized Linear Models (or : How to Prove Kabashima's Replica Formula)

Cedric Gerbelot , Alia Abbara , Florent Krzakala

分类： (统计)机器学习 | 机器学习

2020-06-11

最近有兴趣的兴趣在教师学生环境中的各种普遍性线性估计问题中的渐近重建性能研究，特别是对于I.I.D标准正常矩阵的案例。在这里，我们超越这些矩阵，并证明了具有具有任意界限频谱的旋转不变数据矩阵的凸遍的线性模型的重建性能的分析公式，严格地确认使用来自统计物理的副本衍生的猜想。该公式包括许多问题，例如压缩感测或稀疏物流分类。通过利用消息通过算法和迭代的统计特性来实现证明，允许表征估计器的渐近实证分布。我们的证据是基于构建Oracle多层向量近似消息传递算法的会聚序列的构建，其中通过检查等效动态系统的稳定性来完成收敛分析。我们说明了我们对主流学习方法的数值示例的要求，例如稀疏的逻辑回归和线性支持矢量分类器，显示中等大小模拟和渐近预测之间的良好一致性。

translated by 谷歌翻译

A Continuous-time Stochastic Gradient Descent Method for Continuous Data

Kexin Jin , Jonas Latz , Chenguang Liu , Carola-Bibiane Schönlieb

分类：机器学习

2021-12-07

连续数据的优化问题出现在，例如强大的机器学习，功能数据分析和变分推理。这里，目标函数被给出为一个（连续）索引目标函数的系列 - 相对于概率测量集成的族聚集。这些问题通常可以通过随机优化方法解决：在随机切换指标执行关于索引目标函数的优化步骤。在这项工作中，我们研究了随机梯度下降算法的连续时间变量，以进行连续数据的优化问题。该所谓的随机梯度过程包括最小化耦合与确定索引的连续时间索引过程的索引目标函数的梯度流程。索引过程是例如，反射扩散，纯跳跃过程或紧凑空间上的其他L evy过程。因此，我们研究了用于连续数据空间的多种采样模式，并允许在算法的运行时进行模拟或流式流的数据。我们分析了随机梯度过程的近似性质，并在恒定下进行了长时间行为和遍历的学习率。我们以噪声功能数据的多项式回归问题以及物理知识的神经网络在多项式回归问题中结束了随机梯度过程的适用性。

translated by 谷歌翻译

$p$-Sparsified Sketches for Fast Multiple Output Kernel Methods

Tamim El Ahmad , Pierre Laforgue , Florence d'Alché-Buc

分类： (统计)机器学习 | 机器学习

2022-06-08

内核方法是学习算法，这些算法享有坚实的理论基础，同时遭受了重要的计算局限性。素描包括在缩小尺寸的子空间中寻找解决方案，是一种经过广泛研究的方法来减轻这种数值负担。但是，快速的草图策略（例如非自适应子采样）大大降低了算法的保证，而理论上准确的草图（例如高斯曲线）在实践中的实践相对较慢。在本文中，我们介绍了$ p $ -sparsified的草图，这些草图结合了两种方法的好处，以实现统计准确性和计算效率之间的良好权衡。为了支持我们的方法，我们在单个和多个输出问题上得出了多余的风险范围，并具有通用Lipschitz损失，从可靠的回归到多个分位数回归为广泛的应用提供了新的保证。我们还提供了草图优于最近SOTA方法的优势的经验证据。

translated by 谷歌翻译

Deep learning architectures for nonlinear operator functions and nonlinear inverse problems

Maarten V. de Hoop , Matti Lassas , Christopher A. Wong

分类：机器学习

2019-12-23

我们为特殊神经网络架构，称为运营商复发性神经网络的理论分析，用于近似非线性函数，其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量，因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此，我们介绍一个类似标准的神经网络架构的新系列，但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析，我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后，我们研究其表示属性以及其近似属性。我们还表明，可以引入明确的正则化，其可以从所述逆问题的数学分析导出，并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后，我们讨论如何将运营商复发网络视为深度学习模拟，以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。

translated by 谷歌翻译

Quasi-Bayesian Dual Instrumental Variable Regression

Ziyu Wang , Yuhao Zhou , Tongzheng Ren , Jun Zhu

分类： (统计)机器学习 | 机器学习

2021-06-16

近年来目睹了采用灵活的机械学习模型进行乐器变量（IV）回归的兴趣，但仍然缺乏不确定性量化方法的发展。在这项工作中，我们为IV次数回归提出了一种新的Quasi-Bayesian程序，建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率，并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法，可以扩展到与宽神经网络模型一起工作。实证评价表明，我们的方法对复杂的高维问题产生了丰富的不确定性估计。

translated by 谷歌翻译

Learning "best" kernels from data in Gaussian process regression. With application to aerodynamics

Jean-Luc Akian , Luc Bonnet , Houman Owhadi , Éric Savin

分类： (统计)机器学习 | 机器学习

2022-06-03

本文介绍了在高斯过程回归/克里格替代建模技术中选择/设计内核的算法。我们在临时功能空间中采用内核方法解决方案的设置，即繁殖内核希尔伯特空间（RKHS），以解决在观察到它的观察值的情况下近似定期目标函数的问题，即监督学习。第一类算法是内核流，该算法是在机器学习中的分类中引入的。它可以看作是一个交叉验证过程，因此选择了“最佳”内核，从而最小化了通过删除数据集的某些部分（通常为一半）而产生的准确性损失。第二类算法称为光谱内核脊回归，旨在选择“最佳”核，以便在相关的RKHS中，要近似的函数的范围很小。在Mercer定理框架内，我们就目标函数的主要特征来获得该“最佳”内核的明确结构。从数据中学习内核的两种方法均通过有关合成测试功能的数值示例，以及在湍流建模验证二维机翼的湍流模型验证中的经典测试用例。

translated by 谷歌翻译

Minimum complexity interpolation in random features models

Michael Celentano , Theodor Misiakiewicz , Andrea Montanari

分类：机器学习 | (统计)机器学习

2021-03-30

尽管有许多有吸引力的财产，但内核方法受到维度的诅咒受到严重影响。例如，在$ \ mathbb {r} ^ d $的内部产品内核的情况下，再现内核希尔伯特空间（RKHS）规范对于依赖于小方向子集（RIDGE函数）的功能往往非常大。相应地，使用内核方法难以学习这样的功能。这种观察结果有动力研究内核方法的概括，由此rkhs规范 - 它等同于加权$ \ ell_2 $ norm - 被加权函数$ \ ell_p $ norm替换，我们将其称为$ \ mathcal {f} _p $ norm。不幸的是，这些方法的陶油是不清楚的。内核技巧不可用，最大限度地减少这些规范要求解决无限维凸面问题。我们将随机特征近似于这些规范，表明，对于$ p> 1 $，近似于原始学习问题所需的随机功能的数量是由样本大小的多项式的上限。因此，使用$ \ mathcal {f} _p $ norms在这些情况下是易行的。我们介绍了一种基于双重均匀浓度的证明技术，这可以对超分子化模型的研究更广泛。对于$ p = 1 $，我们对随机功能的保证近似分解。我们证明了使用$ \ mathcal {f} _1 $ norm的学习是在随机减少的$ \ mathsf {np} $ - 基于噪音的半个空间问题的问题。

translated by 谷歌翻译

Efficient MCMC Sampling with Dimension-Free Convergence Rate using ADMM-type Splitting

Maxime Vono , Daniel Paulin , Arnaud Doucet

分类： (统计)机器学习

2019-05-23

对复杂模型执行精确的贝叶斯推理是计算的难治性的。马尔可夫链蒙特卡罗（MCMC）算法可以提供后部分布的可靠近似，但对于大型数据集和高维模型昂贵。减轻这种复杂性的标准方法包括使用子采样技术或在群集中分发数据。然而，这些方法通常在高维方案中不可靠。我们在此处专注于最近的替代类别的MCMC方案，利用类似于乘客（ADMM）优化算法的庆祝交替方向使用的分裂策略。这些方法似乎提供了凭经验最先进的性能，但其高维层的理论行为目前未知。在本文中，我们提出了一个详细的理论研究，该算法之一称为分裂Gibbs采样器。在规律条件下，我们使用RICCI曲率和耦合思路为此方案建立了明确的收敛速率。我们以数字插图支持我们的理论。

translated by 谷歌翻译

Efficient Multidimensional Functional Data Analysis Using Marginal Product Basis Systems

William Consagra , Arun Venkataraman , Xing Qiu

分类： (统计)机器学习

2021-07-30

许多现代数据集，从神经影像和地统计数据等领域都以张量数据的随机样本的形式来说，这可以被理解为对光滑的多维随机功能的嘈杂观察。来自功能数据分析的大多数传统技术被维度的诅咒困扰，并且随着域的尺寸增加而迅速变得棘手。在本文中，我们提出了一种学习从多维功能数据样本的持续陈述的框架，这些功能是免受诅咒的几种表现形式的。这些表示由一组可分离的基函数构造，该函数被定义为最佳地适应数据。我们表明，通过仔细定义的数据的仔细定义的减少转换的张测仪分解可以有效地解决所得到的估计问题。使用基于差分运算符的惩罚，并入粗糙的正则化。也建立了相关的理论性质。在模拟研究中证明了我们对竞争方法的方法的优点。我们在神经影像动物中得出真正的数据应用。

translated by 谷歌翻译

Asymptotic consistency of the WSINDy algorithm in the limit of continuum data

Daniel A. Messenger , David M. Bortz

分类：机器学习 | (统计)机器学习

2022-11-29

In this work we study the asymptotic consistency of the weak-form sparse identification of nonlinear dynamics algorithm (WSINDy) in the identification of differential equations from noisy samples of solutions. We prove that the WSINDy estimator is unconditionally asymptotically consistent for a wide class of models which includes the Navier-Stokes equations and the Kuramoto-Sivashinsky equation. We thus provide a mathematically rigorous explanation for the observed robustness to noise of weak-form equation learning. Conversely, we also show that in general the WSINDy estimator is only conditionally asymptotically consistent, yielding discovery of spurious terms with probability one if the noise level is above some critical threshold and the nonlinearities exhibit sufficiently fast growth. We derive explicit bounds on the critical noise threshold in the case of Gaussian white noise and provide an explicit characterization of these spurious terms in the case of trigonometric and/or polynomial model nonlinearities. However, a silver lining to this negative result is that if the data is suitably denoised (a simple moving average filter is sufficient), then we recover unconditional asymptotic consistency on the class of models with locally-Lipschitz nonlinearities. Altogether, our results reveal several important aspects of weak-form equation learning which may be used to improve future algorithms. We demonstrate our results numerically using the Lorenz system, the cubic oscillator, a viscous Burgers growth model, and a Kuramoto-Sivashinsky-type higher-order PDE.

translated by 谷歌翻译