智能论文笔记

Variational Nearest Neighbor Gaussian Process

Luhuan Wu , Geoff Pleiss , John Cunningham

分类：机器学习 | (统计)机器学习

2022-02-03

与高斯过程（GPS）的变异近似通常使用一组诱导点来形成与协方差矩阵的低级别近似值。在这项工作中，我们相反利用了精度矩阵的稀疏近似。我们提出了差异最近的邻居高斯工艺（VNNGP），该过程引入了先验，该过程仅保留在k最近的邻居观测中的相关性，从而诱导稀疏精度结构。使用变分框架，可以将VNNGP的目标分解在观测值和诱导点上，从而以O（$ k^3 $）的时间复杂性实现随机优化。因此，我们可以任意扩展诱导点大小，甚至可以在每个观察到的位置放置诱导点。我们通过各种实验将VNNGP与其他可扩展的GP进行比较，并证明VNNGP（1）可以极大地超过低级别方法，而（2）比其他最近的邻居方法较不适合过度拟合。

translated by 谷歌翻译

Correlated Product of Experts for Sparse Gaussian Process Regression

Manuel Schürch , Dario Azzimonti , Alessio Benavoli , Marco Zaffalon

分类： (统计)机器学习 | 机器学习

2021-12-17

高斯进程（GPS）是通过工程学的社会和自然科学的应用程序学习和统计数据的重要工具。它们构成具有良好校准的不确定性估计的强大的内核非参数方法，然而，由于其立方计算复杂度，从货架上的GP推理程序仅限于具有数千个数据点的数据集。因此，在过去几年中已经开发出许多稀疏的GPS技术。在本文中，我们专注于GP回归任务，并提出了一种基于来自几个本地和相关专家的聚合预测的新方法。因此，专家之间的相关程度可以在独立于完全相关的专家之间变化。考虑到他们的相关性导致了一致的不确定性估算，汇总了专家的个人预测。我们的方法在限制案件中恢复了专家的独立产品，稀疏GP和全GP。呈现的框架可以处理一般的内核函数和多个变量，并且具有时间和空间复杂性，在专家和数据样本的数量中是线性的，这使得我们的方法是高度可扩展的。我们展示了我们提出的方法的卓越性能，这是我们提出的综合性和几个实际数据集的最先进的GP近似方法的卓越性能，以及具有确定性和随机优化的若干现实世界数据集。

translated by 谷歌翻译

Gaussian Processes for Big Data

James Hensman , Nicolo Fusi , Neil D. Lawrence

分类：

2013-09-26

We introduce stochastic variational inference for Gaussian process models. This enables the application of Gaussian process (GP) models to data sets containing millions of data points. We show how GPs can be variationally decomposed to depend on a set of globally relevant inducing variables which factorize the model in the necessary manner to perform variational inference. Our approach is readily extended to models with non-Gaussian likelihoods and latent variable models based around Gaussian processes. We demonstrate the approach on a simple toy problem and two real world data sets.

translated by 谷歌翻译

Sparse Gaussian Process Hyperparameters: Optimize or Integrate?

Vidhi Lalchand , Wessel P. Bruinsma , David R. Burt , Carl E. Rasmussen

分类： (统计)机器学习 | 机器学习

2022-11-04

The kernel function and its hyperparameters are the central model selection choice in a Gaussian proces (Rasmussen and Williams, 2006). Typically, the hyperparameters of the kernel are chosen by maximising the marginal likelihood, an approach known as Type-II maximum likelihood (ML-II). However, ML-II does not account for hyperparameter uncertainty, and it is well-known that this can lead to severely biased estimates and an underestimation of predictive uncertainty. While there are several works which employ a fully Bayesian characterisation of GPs, relatively few propose such approaches for the sparse GPs paradigm. In this work we propose an algorithm for sparse Gaussian process regression which leverages MCMC to sample from the hyperparameter posterior within the variational inducing point framework of Titsias (2009). This work is closely related to Hensman et al. (2015b) but side-steps the need to sample the inducing points, thereby significantly improving sampling efficiency in the Gaussian likelihood case. We compare this scheme against natural baselines in literature along with stochastic variational GPs (SVGPs) along with an extensive computational analysis.

translated by 谷歌翻译

Function-space Inference with Sparse Implicit Processes

Simón Rodríguez Santana , Bryan Zaldivar , Daniel Hernández-Lobato

分类： (统计)机器学习 | 机器学习

2021-10-14

隐式过程（IPS）代表一个灵活的框架，可用于描述各种模型，从贝叶斯神经网络，神经抽样器和数据生成器到许多其他模型。 IP还允许在功能空间上进行大致推断。公式的这种变化解决了参数空间的固有退化问题近似推断，即参数数量及其在大型模型中的强大依赖性。为此，文献中先前的作品试图采用IPS来设置先验并近似产生的后部。但是，这被证明是一项具有挑战性的任务。现有的方法可以调整先前的IP导致高斯预测分布，该分布未能捕获重要的数据模式。相比之下，通过使用另一个IP近似后验过程产生灵活预测分布的方法不能将先前的IP调整到观察到的数据中。我们在这里建议第一个可以实现这两个目标的方法。为此，我们依赖于先前IP的诱导点表示，就像在稀疏高斯过程中所做的那样。结果是一种可扩展的方法，用于与IP的近似推断，可以将先前的IP参数调整到数据中，并提供准确的非高斯预测分布。

translated by 谷歌翻译

Variational learning of inducing variables in sparse Gaussian processes

分类：

Sparse Gaussian process methods that use inducing variables require the selection of the inducing inputs and the kernel hyperparameters. We introduce a variational formulation for sparse approximations that jointly infers the inducing inputs and the kernel hyperparameters by maximizing a lower bound of the true log marginal likelihood. The key property of this formulation is that the inducing inputs are defined to be variational parameters which are selected by minimizing the Kullback-Leibler divergence between the variational distribution and the exact posterior distribution over the latent function values. We apply this technique to regression and we compare it with other approaches in the literature.

translated by 谷歌翻译

How Good are Low-Rank Approximations in Gaussian Process Regression?

Constantinos Daskalakis , Petros Dellaportas , Aristeidis Panos

分类： (统计)机器学习 | 机器学习

2021-12-13

我们提供了来自两个常见的低级内核近似产生的近似高斯过程（GP）回归的保证：基于随机傅里叶功能，并基于截断内核的Mercer扩展。特别地，我们将kullback-leibler在精确的gp和由一个上述低秩近似的一个与其内核中的一个引起的kullback-leibler发散相结合，以及它们的相应预测密度之间，并且我们还绑定了预测均值之间的误差使用近似GP使用精确的GP计算的矢量和预测协方差矩阵之间的载体。我们为模拟数据和标准基准提供了实验，以评估我们理论界的有效性。

translated by 谷歌翻译

How Good are Low-Rank Approximations in Gaussian Process Regression?

Constantinos Daskalakis , Petros Dellaportas , Aristeidis Panos

分类： (统计)机器学习 | 机器学习

2020-04-03

translated by 谷歌翻译

Fast and Scalable Spike and Slab Variable Selection in High-Dimensional Gaussian Processes

Hugh Dance , Brooks Paige

分类： (统计)机器学习 | 机器学习

2021-11-08

高斯过程中的变量选择（GPS）通常通过阈值平衡“自动相关性确定”内核的逆宽度，但在高维数据集中，这种方法可能是不可靠的。更概率的原则性的替代方案是使用尖峰和平板前沿并推断可变包裹物的后验概率。但是，GPS中的现有实现是以高维和大量$ N $数据集运行的昂贵，或者对于大多数内核都是棘手的。因此，我们为具有任意微分内核的秒杀和平板GP开发了一种快速且可扩展的变分推理算法。我们提高了算法通过贝叶斯模型对普遍存在的模型进行平均来适应相关变量的稀疏性的能力，并使用零温度后部限制，辍学灌注和最近的邻米匹配来实现大量速度UPS。在实验中，我们的方法始终如一地优于Vanilla和稀疏变分的GPS，同时保留类似的运行时间（即使是N = 10 ^ 6美元），并且使用MCMC使用Spike和Slab GP竞争地执行，但速度最高可达1000美元。

translated by 谷歌翻译

Dual Parameterization of Sparse Variational Gaussian Processes

Vincent Adam , Paul E. Chang , Mohammad Emtiyaz Khan , Arno Solin

分类：机器学习 | (统计)机器学习

2021-11-05

稀疏变分高斯工艺（SVGP）方法是由于其计算效益的非共轭高斯工艺推论的常见选择。在本文中，我们通过使用双重参数化来提高其计算效率，其中每个数据示例被分配双参数，类似于期望传播中使用的站点参数。我们使用自然梯度下降的双重参数化速度推断，并提供了较小的证据，用于近似参数学习。该方法具有与当前SVGP方法相同的内存成本，但它更快，更准确。

translated by 谷歌翻译

Stochastic Collapsed Variational Inference for Structured Gaussian Process Regression Network

Rui Meng , Herbie Lee , Kristofer Bouchard

分类：机器学习 | (统计)机器学习

2021-06-01

本文提出了一种有效的变分推导框架，用于导出结构化高斯进程回归网络（SGPRN）模型的系列。关键的想法是将辅助诱导变量合并到潜在函数中，并共同处理诱导变量和超参数的分布作为变分参数。然后，我们提出了结构化可变分布和边缘化潜变量，这使得可分解的变分性下限并导致随机优化。我们推断方法能够建模数据，其中输出不共享具有与输入和输出大小无关的计算复杂性的公共输入集，因此容易处理具有缺失值的数据集。我们说明了我们对合成数据和真实数据集的方法的性能，并显示我们的模型通常提供比最先进的数据缺失数据的更好的估算结果。我们还提供了一种可视化方法，用于电职业学数据的输出中的输出的时变相关性，并且这些估计提供了了解神经群体动态的洞察力。

translated by 谷歌翻译

Revisiting Active Sets for Gaussian Process Decoders

Pablo Moreno-Muñoz , Cilie W Feldager , Søren Hauberg

分类： (统计)机器学习 | 机器学习

2022-09-10

基于高斯工艺（GP）建立的解码器由于非线性函数空间的边缘化而诱人。这样的模型（也称为GP-LVM）通常很昂贵且众所周知，在实践中训练，但可以使用变异推理和诱导点来缩放。在本文中，我们重新访问主动集近似值。我们基于最近发现的交叉验证链接来开发对数 - 边界可能性的新随机估计，并提出了其计算有效近似。我们证明，所得的随机活动集（SAS）近似显着提高了GP解码器训练的鲁棒性，同时降低了计算成本。SAS-GP在潜在空间中获得更多的结构，比例为许多数据点，并且比变异自动编码器更好地表示表示，这对于GP解码器来说很少是这种情况。

translated by 谷歌翻译

Bézier Gaussian Processes for Tall and Wide Data

Martin Jørgensen , Michael A. Osborne

分类： (统计)机器学习 | 机器学习

2022-09-01

现代对高斯工艺的近似适合“高数据”，其成本在观测值的数量中缩放，但在``宽数据''上表现不佳，在输入功能的数量方面缩小了很差。也就是说，随着输入功能的数量的增长，良好的预测性能需要汇总变量及其相关成本的数量才能快速增长。我们引入了一个内核，该内核允许汇总变量的数量通过输入功能的数量成倍增长，但在观测数和输入功能的数量中仅需要线性成本。通过引入B \'ezier Buttress来实现此缩放，该块允许在无需计算矩阵倒置或决定因素的情况下进行近似推断。我们表明，我们的内核与高斯流程回归中一些最常用的内核具有非常相似的相似之处，并从经验上证明了内核可以扩展到高大和宽的数据集的能力。

translated by 谷歌翻译

HTML版本

Variational multiple shooting for Bayesian ODEs with Gaussian processes

Pashupati Hegde , Çağatay Yıldız , Harri Lähdesmäki , Samuel Kaski , Markus Heinonen

分类：机器学习 | (统计)机器学习

2021-06-21

最近的机器学习进展已直接从数据中直接提出了对未知连续时间系统动力学的黑盒估计。但是，较早的作品基于近似ODE解决方案或点估计。我们提出了一种新型的贝叶斯非参数模型，该模型使用高斯工艺直接从数据中直接从数据中推断出未知ODE系统的后代。我们通过脱钩的功能采样得出稀疏的变异推断，以表示矢量场后代。我们还引入了一种概率的射击增强，以从任意长的轨迹中有效推断。该方法证明了计算矢量场后代的好处，预测不确定性得分优于多个ODE学习任务的替代方法。

translated by 谷歌翻译

Scalable Gaussian-process regression and variable selection using Vecchia approximations

Jian Cao , Joseph Guinness , Marc G. Genton , Matthias Katzfuss

分类： (统计)机器学习

2022-02-25

高斯过程（GP）回归是一种灵活的，非参数回归的方法，自然量化不确定性。在许多应用中，响应和协变量的数量均大，目标是选择与响应相关的协变量。在这种情况下，我们提出了一种新颖的可扩展算法，即创建的VGPR，该算法基于Vecchia GP近似，优化了受惩罚的GP log-logikelihiens，这是空间统计的有序条件近似，这意味着精确矩阵的稀疏cholesky因子。我们将正则路径从强度惩罚到弱惩罚，依次添加基于对数似然梯度的候选协变量，并通过新的二次约束坐标下降算法取消了无关的协变量。我们提出了基于Vecchia的迷你批次亚采样，该子采样提供了无偏的梯度估计器。最终的过程可扩展到数百万个响应和数千个协变量。理论分析和数值研究表明，相对于现有方法，可伸缩性和准确性的提高。

translated by 谷歌翻译

A similarity-based Bayesian mixture-of-experts model

Tianfang Zhang , Rasmus Bokrantz , Jimmy Olsson

分类： (统计)机器学习 | 机器学习

2020-12-03

我们提出了一种新的非参数混合物模型，用于多变量回归问题，灵感来自概率K-Nearthimest邻居算法。使用有条件指定的模型，对样本外输入的预测基于与每个观察到的数据点的相似性，从而产生高斯混合物表示的预测分布。在混合物组件的参数以及距离度量标准的参数上，使用平均场变化贝叶斯算法进行后推断，并具有基于随机梯度的优化过程。在与数据大小相比，输入 - 输出关系很复杂，预测分布可能偏向或多模式的情况下，输入相对较高的尺寸，该方法尤其有利。对五个数据集进行的计算研究，其中两个是合成生成的，这说明了我们的高维输入的专家混合物方法的明显优势，在验证指标和视觉检查方面都优于竞争者模型。

translated by 谷歌翻译

Pre-trained Gaussian processes for Bayesian optimization

Zi Wang , George E. Dahl , Kevin Swersky , Chansoo Lee , Zelda Mariet , Zachary Nado , Justin Gilmer , Jasper Snoek , Zoubin Ghahramani

分类：机器学习 | (统计)机器学习

2021-09-16

贝叶斯优化（BO）已成为许多昂贵现实世界功能的全球优化的流行策略。与普遍认为BO适合优化黑框功能的信念相反，它实际上需要有关这些功能特征的域知识才能成功部署BO。这样的领域知识通常表现在高斯流程先验中，这些先验指定了有关功能的初始信念。但是，即使有专家知识，选择先验也不是一件容易的事。对于复杂的机器学习模型上的超参数调谐问题尤其如此，在这种模型中，调整目标的景观通常很难理解。我们寻求一种设定这些功能性先验的替代实践。特别是，我们考虑了从类似功能的数据中，使我们可以先验地进行更紧密的分布。从理论上讲，我们与预先训练的先验表示对BO的遗憾。为了验证我们在现实的模型培训设置中的方法，我们通过训练在流行图像和文本数据集上的数以万计的近状态模型配置来收集了大型多任务超参数调谐数据集，以及蛋白质序列数据集。我们的结果表明，平均而言，我们的方法能够比最佳竞争方法更有效地定位良好的超参数。

translated by 谷歌翻译

Traversing Time with Multi-Resolution Gaussian Process State-Space Models

Krista Longi , Jakob Lindinger , Olaf Duennbier , Melih Kandemir , Arto Klami , Barbara Rakitsch

分类：机器学习 | (统计)机器学习

2021-12-06

高斯过程状态空间模型通过在转换功能上放置高斯过程来以原则方式捕获复杂的时间依赖性。这些模型具有自然的解释，作为离散的随机微分方程，但困难的长期序列的推断是困难的。快速过渡需要紧密离散化，而慢速转换需要在长副图层上备份梯度。我们提出了一种由多个组件组成的新型高斯过程状态空间架构，每个组件都培训不同的分辨率，以对不同时间尺度进行模拟效果。组合模型允许在自适应刻度上进行时间进行时间，为具有复杂动态的任意长序列提供有效推断。我们在半合成数据和发动机建模任务上基准我们的新方法。在这两个实验中，我们的方法对其最先进的替代品仅比单一时间级运行的最先进的替代品。

translated by 谷歌翻译

Shallow and Deep Nonparametric Convolutions for Gaussian Processes

Thomas M. McDonald , Magnus Ross , Michael T. Smith , Mauricio A. Álvarez

分类： (统计)机器学习 | 机器学习

2022-06-17

高斯流程（GPS）实际应用的主要挑战是选择适当的协方差函数。 GPS的移动平均值或过程卷积的构建可以提供一些额外的灵活性，但仍需要选择合适的平滑核，这是非平凡的。以前的方法通过在平滑内核上使用GP先验，并通过扩展协方差来构建协方差函数，以绕过预先指定它的需求。但是，这样的模型在几种方面受到限制：它们仅限于单维输入，例如时间;它们仅允许对单个输出进行建模，并且由于推理并不简单，因此不会扩展到大型数据集。在本文中，我们引入了GPS的非参数过程卷积公式，该公式通过使用基于Matheron规则的功能采样方法来减轻这些弱点，以使用诱导变量的间域间采样进行快速采样。此外，我们提出了这些非参数卷积的组成，可作为经典深度GP模型的替代方案，并允许从数据中推断中间层的协方差函数。我们测试了单个输出GP，多个输出GPS和DEEP GPS在基准测试上的模型性能，并发现在许多情况下，我们的方法可以提供比标准GP模型的改进。

translated by 谷歌翻译

Deep Variational Implicit Processes

Luis A. Ortega , Simón Rodríguez Santana , Daniel Hernández-Lobato

分类： (统计)机器学习 | 机器学习

2022-06-14

隐式过程（IP）是高斯过程（GPS）的概括。 IP可能缺乏封闭形式的表达，但很容易采样。例子包括贝叶斯神经网络或神经抽样器。 IP可以用作功能的先验，从而产生具有良好预测不确定性估计值的灵活模型。基于IP的方法通常进行函数空间近似推断，从而克服了参数空间近似推断的一些困难。然而，所采用的近似值通常会限制最终模型的表现力，结果是\ emph {e.g。}，在高斯预测分布中，这可能是限制的。我们在这里提出了IPS的多层概括，称为“深层隐式”过程（DVIP）。这种概括与GPS上的深GPS相似，但是由于使用IPs作为潜在函数的先前分布，因此更灵活。我们描述了用于训练DVIP的可扩展变异推理算法，并表明它的表现优于先前的基于IP的方法和深度GPS。我们通过广泛的回归和分类实验来支持这些主张。我们还在大型数据集上评估了DVIP，最多可达数百万个数据实例，以说明其良好的可扩展性和性能。

translated by 谷歌翻译