智能论文笔记

Scalable Gaussian-process regression and variable selection using Vecchia approximations

Jian Cao , Joseph Guinness , Marc G. Genton , Matthias Katzfuss

分类： (统计)机器学习

2022-02-25

高斯过程（GP）回归是一种灵活的，非参数回归的方法，自然量化不确定性。在许多应用中，响应和协变量的数量均大，目标是选择与响应相关的协变量。在这种情况下，我们提出了一种新颖的可扩展算法，即创建的VGPR，该算法基于Vecchia GP近似，优化了受惩罚的GP log-logikelihiens，这是空间统计的有序条件近似，这意味着精确矩阵的稀疏cholesky因子。我们将正则路径从强度惩罚到弱惩罚，依次添加基于对数似然梯度的候选协变量，并通过新的二次约束坐标下降算法取消了无关的协变量。我们提出了基于Vecchia的迷你批次亚采样，该子采样提供了无偏的梯度估计器。最终的过程可扩展到数百万个响应和数千个协变量。理论分析和数值研究表明，相对于现有方法，可伸缩性和准确性的提高。

translated by 谷歌翻译

The SKIM-FA Kernel: High-Dimensional Variable Selection and Nonlinear Interaction Discovery in Linear Time

Raj Agrawal , Tamara Broderick

分类： (统计)机器学习

2021-06-23

Many scientific problems require identifying a small set of covariates that are associated with a target response and estimating their effects. Often, these effects are nonlinear and include interactions, so linear and additive methods can lead to poor estimation and variable selection. Unfortunately, methods that simultaneously express sparsity, nonlinearity, and interactions are computationally intractable -- with runtime at least quadratic in the number of covariates, and often worse. In the present work, we solve this computational bottleneck. We show that suitable interaction models have a kernel representation, namely there exists a "kernel trick" to perform variable selection and estimation in $O$(# covariates) time. Our resulting fit corresponds to a sparse orthogonal decomposition of the regression function in a Hilbert space (i.e., a functional ANOVA decomposition), where interaction effects represent all variation that cannot be explained by lower-order effects. On a variety of synthetic and real data sets, our approach outperforms existing methods used for large, high-dimensional data sets while remaining competitive (or being orders of magnitude faster) in runtime.

translated by 谷歌翻译

Optimizing Neural Networks with Kronecker-factored Approximate Curvature

James Martens , Roger Grosse

分类：

2015-03-19

We propose an efficient method for approximating natural gradient descent in neural networks which we call Kronecker-factored Approximate Curvature (K-FAC). K-FAC is based on an efficiently invertible approximation of a neural network's Fisher information matrix which is neither diagonal nor low-rank, and in some cases is completely non-sparse. It is derived by approximating various large blocks of the Fisher (corresponding to entire layers) as being the Kronecker product of two much smaller matrices. While only several times more expensive to compute than the plain stochastic gradient, the updates produced by K-FAC make much more progress optimizing the objective, which results in an algorithm that can be much faster than stochastic gradient descent with momentum in practice. And unlike some previously proposed approximate natural-gradient/Newton methods which use high-quality non-diagonal curvature matrices (such as Hessian-free optimization), K-FAC works very well in highly stochastic optimization regimes. This is because the cost of storing and inverting K-FAC's approximation to the curvature matrix does not depend on the amount of data used to estimate it, which is a feature typically associated only with diagonal or low-rank approximations to the curvature matrix.

translated by 谷歌翻译

Quasi Black-Box Variational Inference with Natural Gradients for Bayesian Learning

Martin Magris , Mostafa Shabani , Alexandros Iosifidis

分类： (统计)机器学习 | 机器学习

2022-05-23

We develop an optimization algorithm suitable for Bayesian learning in complex models. Our approach relies on natural gradient updates within a general black-box framework for efficient training with limited model-specific derivations. It applies within the class of exponential-family variational posterior distributions, for which we extensively discuss the Gaussian case for which the updates have a rather simple form. Our Quasi Black-box Variational Inference (QBVI) framework is readily applicable to a wide class of Bayesian inference problems and is of simple implementation as the updates of the variational posterior do not involve gradients with respect to the model parameters, nor the prescription of the Fisher information matrix. We develop QBVI under different hypotheses for the posterior covariance matrix, discuss details about its robust and feasible implementation, and provide a number of real-world applications to demonstrate its effectiveness.

translated by 谷歌翻译

Variational Nearest Neighbor Gaussian Process

Luhuan Wu , Geoff Pleiss , John Cunningham

分类：机器学习 | (统计)机器学习

2022-02-03

与高斯过程（GPS）的变异近似通常使用一组诱导点来形成与协方差矩阵的低级别近似值。在这项工作中，我们相反利用了精度矩阵的稀疏近似。我们提出了差异最近的邻居高斯工艺（VNNGP），该过程引入了先验，该过程仅保留在k最近的邻居观测中的相关性，从而诱导稀疏精度结构。使用变分框架，可以将VNNGP的目标分解在观测值和诱导点上，从而以O（$ k^3 $）的时间复杂性实现随机优化。因此，我们可以任意扩展诱导点大小，甚至可以在每个观察到的位置放置诱导点。我们通过各种实验将VNNGP与其他可扩展的GP进行比较，并证明VNNGP（1）可以极大地超过低级别方法，而（2）比其他最近的邻居方法较不适合过度拟合。

translated by 谷歌翻译

Gaussian Process Boosting

Fabio Sigrist

分类：机器学习 | (统计)机器学习

2020-04-06

我们引入了一种新颖的方式，将增强功能与高斯工艺和混合效应模型相结合。首先，在高斯过程中先前的平均函数的零或线性假设可以放松，并以灵活的非参数方式分组随机效应模型，其次，第二个在大多数增强算法中做出的独立性假设。前者有利于预测准确性和避免模型错误。后者对于有效学习固定效应预测函数和获得概率预测很重要。我们提出的算法也是用于处理培养树木中高心电图分类变量的新颖解决方案。此外，我们提出了一个扩展名，该扩展是使用维奇亚近似为高斯工艺模型缩放到大数据的，该模型依靠新的结果进行协方差参数推断。与几个模拟和现实世界数据集的现有方法相比，我们获得了提高的预测准确性。

translated by 谷歌翻译

Pareto Smoothed Importance Sampling

Aki Vehtari , Daniel Simpson , Andrew Gelman , Yuling Yao , Jonah Gabry

分类： (统计)机器学习

2015-07-09

重要的加权是调整蒙特卡洛集成以说明错误分布中抽取的一种一般方法，但是当重要性比的右尾巴较重时，最终的估计值可能是高度可变的。当目标分布的某些方面无法通过近似分布捕获，在这种情况下，可以通过修改极端重要性比率来获得更稳定的估计。我们提出了一种新的方法，该方法使用拟合模拟重要性比率的上尾的广义帕累托分布来稳定重要性权重。该方法在经验上的性能要比现有方法稳定重要性采样估计值更好，包括稳定的有效样本量估计，蒙特卡洛误差估计和收敛诊断。提出的帕累托$ \ hat {k} $有限样本收敛率诊断对任何蒙特卡洛估计器都有用。

translated by 谷歌翻译

Bayes-Newton Methods for Approximate Bayesian Inference with PSD Guarantees

William J. Wilkinson , Simo Särkkä , Arno Solin

分类： (统计)机器学习 | 机器学习

2021-11-02

我们制定自然梯度变推理（VI），期望传播（EP），和后线性化（PL）作为牛顿法用于优化贝叶斯后验分布的参数扩展。这种观点明确地把数值优化框架下的推理算法。我们表明，通用近似牛顿法从优化文献，即高斯 - 牛顿和准牛顿方法（例如，该BFGS算法），仍然是这种“贝叶斯牛顿”框架下有效。这导致了一套这些都保证以产生半正定协方差矩阵，不像标准VI和EP新颖算法。我们统一的观点提供了新的见解各种推理方案之间的连接。所有提出的方法适用于具有高斯事先和非共轭的可能性，这是我们与（疏）高斯过程和状态空间模型展示任何模型。

translated by 谷歌翻译

Gaussian Process Inference Using Mini-batch Stochastic Gradient Descent: Convergence Guarantees and Empirical Benefits

Hao Chen , Lili Zheng , Raed Al Kontar , Garvesh Raskutti

分类： (统计)机器学习 | 机器学习

2021-11-19

随机梯度下降（SGD）及其变体已经建立为具有独立样本的大型机器学习问题的进入算法，由于其泛化性能和内在的计算优势。然而，随机梯度是具有相关样本的全梯度的偏置估计的事实导致了对SGD在相关环境中的表现和阻碍其在这种情况下使用的理解缺乏理论理解。在本文中，我们专注于高斯过程（GP）的近似参数估计，并通过证明小纤维SGD收敛到完整日志似然丢失功能的关键点来打破屏障的一步，并恢复速率$率的模型超参数o（\ frac {1} {k}）$ k $迭代，达到统计误差术语，具体取决于小靶大小。我们的理论担保仍然存在，内核功能表现出指数或多项式EIGENDECAY，这是通过GPS常用的各种核的满足。模拟和实时数据集的数值研究表明，Minibatch SGD在最先进的GP方法上具有更好的推广，同时降低了计算负担并开启了GPS的新的，先前未开发的数据大小制度。

translated by 谷歌翻译

A Framework and Benchmark for Deep Batch Active Learning for Regression

David Holzmüller , Viktor Zaverkin , Johannes Kästner , Ingo Steinwart

分类： (统计)机器学习 | 机器学习 | 神经与进化计算

2022-03-17

收购用于监督学习的标签可能很昂贵。为了提高神经网络回归的样本效率，我们研究了活跃的学习方法，这些方法可以适应地选择未标记的数据进行标记。我们提出了一个框架，用于从（与网络相关的）基础内核，内核转换和选择方法中构造此类方法。我们的框架涵盖了许多基于神经网络的高斯过程近似以及非乘式方法的现有贝叶斯方法。此外，我们建议用草图的有限宽度神经切线核代替常用的最后层特征，并将它们与一种新型的聚类方法结合在一起。为了评估不同的方法，我们引入了一个由15个大型表格回归数据集组成的开源基准。我们所提出的方法的表现优于我们的基准测试上的最新方法，缩放到大数据集，并在不调整网络体系结构或培训代码的情况下开箱即用。我们提供开源代码，包括所有内核，内核转换和选择方法的有效实现，并可用于复制我们的结果。

translated by 谷歌翻译

Correlated Product of Experts for Sparse Gaussian Process Regression

Manuel Schürch , Dario Azzimonti , Alessio Benavoli , Marco Zaffalon

分类： (统计)机器学习 | 机器学习

2021-12-17

高斯进程（GPS）是通过工程学的社会和自然科学的应用程序学习和统计数据的重要工具。它们构成具有良好校准的不确定性估计的强大的内核非参数方法，然而，由于其立方计算复杂度，从货架上的GP推理程序仅限于具有数千个数据点的数据集。因此，在过去几年中已经开发出许多稀疏的GPS技术。在本文中，我们专注于GP回归任务，并提出了一种基于来自几个本地和相关专家的聚合预测的新方法。因此，专家之间的相关程度可以在独立于完全相关的专家之间变化。考虑到他们的相关性导致了一致的不确定性估算，汇总了专家的个人预测。我们的方法在限制案件中恢复了专家的独立产品，稀疏GP和全GP。呈现的框架可以处理一般的内核函数和多个变量，并且具有时间和空间复杂性，在专家和数据样本的数量中是线性的，这使得我们的方法是高度可扩展的。我们展示了我们提出的方法的卓越性能，这是我们提出的综合性和几个实际数据集的最先进的GP近似方法的卓越性能，以及具有确定性和随机优化的若干现实世界数据集。

translated by 谷歌翻译

Noise Estimation in Gaussian Process Regression

Siavash Ameli , Shawn C. Shadden

分类：机器学习 | (统计)机器学习

2022-06-20

我们开发了一个计算程序，以估计具有附加噪声的半摩托车高斯过程回归模型的协方差超参数。也就是说，提出的方法可用于有效估计相关误差的方差，以及基于最大化边际似然函数的噪声方差。我们的方法涉及适当地降低超参数空间的维度，以简化单变量的根发现问题的估计过程。此外，我们得出了边际似然函数及其衍生物的边界和渐近线，这对于缩小高参数搜索的初始范围很有用。使用数值示例，我们证明了与传统参数优化相比，提出方法的计算优势和鲁棒性。

translated by 谷歌翻译

A flexible empirical Bayes approach to multiple linear regression and connections with penalized regression

Youngseok Kim , Wei Wang , Peter Carbonetto , Matthew Stephens

分类： (统计)机器学习

2022-08-23

我们引入了一种新的经验贝叶斯方法，用于大规模多线性回归。我们的方法结合了两个关键思想：（i）使用灵活的“自适应收缩”先验，该先验近似于正常分布的有限混合物，近似于正常分布的非参数家族；（ii）使用变分近似来有效估计先前的超参数并计算近似后期。将这两个想法结合起来，将快速，灵活的方法与计算速度相当，可与快速惩罚的回归方法（例如Lasso）相当，并在各种场景中具有出色的预测准确性。此外，我们表明，我们方法中的后验平均值可以解释为解决惩罚性回归问题，并通过直接解决优化问题（而不是通过交叉验证来调整）从数据中学到的惩罚函数的精确形式。。我们的方法是在r https://github.com/stephenslab/mr.ash.ash.alpha的r软件包中实现的

translated by 谷歌翻译

Statistical Inference with Stochastic Gradient Algorithms

Jeffrey Negrea , Jun Yang , Haoyue Feng , Daniel M. Roy , Jonathan H. Huggins

分类：机器学习 | (统计)机器学习

2022-07-25

随机梯度算法在大规模学习和推理问题中广泛用于优化和采样。但是，实际上，调整这些算法通常是使用启发式和反复试验而不是严格的，可概括的理论来完成的。为了解决理论和实践之间的这一差距，我们通过表征具有固定步长的非常通用的预处理随机梯度算法的迭代术的大样本行为来对调整参数的效果进行新的见解。在优化设置中，我们的结果表明，具有较大固定步长的迭代平均值可能会导致（局部）M-静态器的统计效率近似。在抽样环境中，我们的结果表明，通过适当的调整参数选择，限制固定协方差可以与Bernstein匹配 - 后验的von Mises限制，对模型错误指定后验的调整或MLE的渐近分布；而幼稚的调整极限与这些都不相对应。此外，我们认为可以在数据集对固定数量的通行证后获得基本独立的样本。我们使用模拟和真实数据通过多个实验来验证渐近样结果。总体而言，我们证明具有恒定步长的正确调整的随机梯度算法为获得点估计或后部样品提供了计算上有效且统计上健壮的方法。

translated by 谷歌翻译

State-space deep Gaussian processes with applications

Zheng Zhao

分类： (统计)机器学习

2021-11-24

本论文主要涉及解决深层（时间）高斯过程（DGP）回归问题的状态空间方法。更具体地，我们代表DGP作为分层组合的随机微分方程（SDES），并且我们通过使用状态空间过滤和平滑方法来解决DGP回归问题。由此产生的状态空间DGP（SS-DGP）模型生成丰富的电视等级，与建模许多不规则信号/功能兼容。此外，由于他们的马尔可道结构，通过使用贝叶斯滤波和平滑方法可以有效地解决SS-DGPS回归问题。本论文的第二次贡献是我们通过使用泰勒力矩膨胀（TME）方法来解决连续离散高斯滤波和平滑问题。这诱导了一类滤波器和SmooThers，其可以渐近地精确地预测随机微分方程（SDES）解决方案的平均值和协方差。此外，TME方法和TME过滤器和SmoOthers兼容模拟SS-DGP并解决其回归问题。最后，本文具有多种状态 - 空间（深）GPS的应用。这些应用主要包括（i）来自部分观察到的轨迹的SDES的未知漂移功能和信号的光谱 - 时间特征估计。

translated by 谷歌翻译

How Good are Low-Rank Approximations in Gaussian Process Regression?

Constantinos Daskalakis , Petros Dellaportas , Aristeidis Panos

分类： (统计)机器学习 | 机器学习

2020-04-03

我们提供了来自两个常见的低级内核近似产生的近似高斯过程（GP）回归的保证：基于随机傅里叶功能，并基于截断内核的Mercer扩展。特别地，我们将kullback-leibler在精确的gp和由一个上述低秩近似的一个与其内核中的一个引起的kullback-leibler发散相结合，以及它们的相应预测密度之间，并且我们还绑定了预测均值之间的误差使用近似GP使用精确的GP计算的矢量和预测协方差矩阵之间的载体。我们为模拟数据和标准基准提供了实验，以评估我们理论界的有效性。

translated by 谷歌翻译

Nonparametric Multi-shape Modeling with Uncertainty Quantification

Hengrui Luo , Justin D. Strait

分类： (统计)机器学习 | 机器学习

2022-06-18

封闭曲线的建模和不确定性量化是形状分析领域的重要问题，并且可以对随后的统计任务产生重大影响。这些任务中的许多涉及封闭曲线的集合，这些曲线通常在多个层面上表现出结构相似性。以有效融合这种曲线间依赖性的方式对多个封闭曲线进行建模仍然是一个具有挑战性的问题。在这项工作中，我们提出并研究了一个多数输出（又称多输出），多维高斯流程建模框架。我们说明了提出的方法学进步，并在几个曲线和形状相关的任务上证明了有意义的不确定性量化的实用性。这种基于模型的方法不仅解决了用内核构造对封闭曲线（及其形状）的推断问题，而且还为通常对功能对象的多层依赖性的非参数建模打开了门。

translated by 谷歌翻译

How Good are Low-Rank Approximations in Gaussian Process Regression?

Constantinos Daskalakis , Petros Dellaportas , Aristeidis Panos

分类： (统计)机器学习 | 机器学习

2021-12-13

translated by 谷歌翻译

Approximate Bayesian Computation via Classification

Yuexi Wang , Tetsuya Kaji , Veronika Ročková

分类： (统计)机器学习

2021-11-22

近似贝叶斯计算（ABC）使复杂模型中的统计推断能够计算，其可能性难以计算，但易于模拟。 ABC通过接受/拒绝机制构建到后部分布的内核类型近似，该机制比较真实和模拟数据的摘要统计信息。为了避免对汇总统计数据的需求，我们直接将经验分布与通过分类获得的Kullback-Leibler（KL）发散估计值进行比较。特别是，我们将灵活的机器学习分类器混合在ABC中以自动化虚假/真实数据比较。我们考虑传统的接受/拒绝内核以及不需要ABC接受阈值的指数加权方案。我们的理论结果表明，我们的ABC后部分布集中在真实参数周围的速率取决于分类器的估计误差。我们得出了限制后形状的结果，并找到了一个正确缩放的指数内核，渐近常态持有。我们展示了我们对模拟示例以及在股票波动率估计的背景下的真实数据的有用性。

translated by 谷歌翻译

Fast and robust Bayesian Inference using Gaussian Processes with GPry

Jonas El Gammal , Nils Schöneberg , Jesús Torrado , Christian Fidler

分类： (统计)机器学习

2022-11-03

We present the GPry algorithm for fast Bayesian inference of general (non-Gaussian) posteriors with a moderate number of parameters. GPry does not need any pre-training, special hardware such as GPUs, and is intended as a drop-in replacement for traditional Monte Carlo methods for Bayesian inference. Our algorithm is based on generating a Gaussian Process surrogate model of the log-posterior, aided by a Support Vector Machine classifier that excludes extreme or non-finite values. An active learning scheme allows us to reduce the number of required posterior evaluations by two orders of magnitude compared to traditional Monte Carlo inference. Our algorithm allows for parallel evaluations of the posterior at optimal locations, further reducing wall-clock times. We significantly improve performance using properties of the posterior in our active learning scheme and for the definition of the GP prior. In particular we account for the expected dynamical range of the posterior in different dimensionalities. We test our model against a number of synthetic and cosmological examples. GPry outperforms traditional Monte Carlo methods when the evaluation time of the likelihood (or the calculation of theoretical observables) is of the order of seconds; for evaluation times of over a minute it can perform inference in days that would take months using traditional methods. GPry is distributed as an open source Python package (pip install gpry) and can also be found at https://github.com/jonaselgammal/GPry.

translated by 谷歌翻译