The kernel function and its hyperparameters are the central model selection choice in a Gaussian proces (Rasmussen and Williams, 2006). Typically, the hyperparameters of the kernel are chosen by maximising the marginal likelihood, an approach known as Type-II maximum likelihood (ML-II). However, ML-II does not account for hyperparameter uncertainty, and it is well-known that this can lead to severely biased estimates and an underestimation of predictive uncertainty. While there are several works which employ a fully Bayesian characterisation of GPs, relatively few propose such approaches for the sparse GPs paradigm. In this work we propose an algorithm for sparse Gaussian process regression which leverages MCMC to sample from the hyperparameter posterior within the variational inducing point framework of Titsias (2009). This work is closely related to Hensman et al. (2015b) but side-steps the need to sample the inducing points, thereby significantly improving sampling efficiency in the Gaussian likelihood case. We compare this scheme against natural baselines in literature along with stochastic variational GPs (SVGPs) along with an extensive computational analysis.
translated by 谷歌翻译
高斯工艺(GPS)模型是具有由内核功能控制的电感偏差的功能丰富的分布。通过使用边际似然作为目标优化内核超参数来实现学习。这种称为II类型最大似然(ML-II)的经典方法产生了高参数的点估计,并继续成为培训GPS的默认方法。然而,这种方法在低估预测不确定性并且易于在有许多近似数目时易于过度拟合。此外,基于梯度的优化使ML-II点估计高度易受局部最小值的存在。这项工作提出了一种替代的学习过程,其中核心函数的超参数使用嵌套采样(NS)被边缘化,这是一种非常适合于复杂的多模态分布来采样的技术。我们专注于具有频谱混合物(SM)粒子的回归任务,并发现定量模型不确定性的原则方法导致在一系列合成和基准数据集中的预测性能中的大量收益。在这种情况下,还发现嵌套的抽样在汉密尔顿蒙特卡罗(HMC)上提供了速度优势,广泛认为是基于MCMC推断的金标准。
translated by 谷歌翻译
Sparse Gaussian process methods that use inducing variables require the selection of the inducing inputs and the kernel hyperparameters. We introduce a variational formulation for sparse approximations that jointly infers the inducing inputs and the kernel hyperparameters by maximizing a lower bound of the true log marginal likelihood. The key property of this formulation is that the inducing inputs are defined to be variational parameters which are selected by minimizing the Kullback-Leibler divergence between the variational distribution and the exact posterior distribution over the latent function values. We apply this technique to regression and we compare it with other approaches in the literature.
translated by 谷歌翻译
隐式过程(IPS)代表一个灵活的框架,可用于描述各种模型,从贝叶斯神经网络,神经抽样器和数据生成器到许多其他模型。 IP还允许在功能空间上进行大致推断。公式的这种变化解决了参数空间的固有退化问题近似推断,即参数数量及其在大型模型中的强大依赖性。为此,文献中先前的作品试图采用IPS来设置先验并近似产生的后部。但是,这被证明是一项具有挑战性的任务。现有的方法可以调整先前的IP导致高斯预测分布,该分布未能捕获重要的数据模式。相比之下,通过使用另一个IP近似后验过程产生灵活预测分布的方法不能将先前的IP调整到观察到的数据中。我们在这里建议第一个可以实现这两个目标的方法。为此,我们依赖于先前IP的诱导点表示,就像在稀疏高斯过程中所做的那样。结果是一种可扩展的方法,用于与IP的近似推断,可以将先前的IP参数调整到数据中,并提供准确的非高斯预测分布。
translated by 谷歌翻译
与高斯过程(GPS)的变异近似通常使用一组诱导点来形成与协方差矩阵的低级别近似值。在这项工作中,我们相反利用了精度矩阵的稀疏近似。我们提出了差异最近的邻居高斯工艺(VNNGP),该过程引入了先验,该过程仅保留在k最近的邻居观测中的相关性,从而诱导稀疏精度结构。使用变分框架,可以将VNNGP的目标分解在观测值和诱导点上,从而以O($ k^3 $)的时间复杂性实现随机优化。因此,我们可以任意扩展诱导点大小,甚至可以在每个观察到的位置放置诱导点。我们通过各种实验将VNNGP与其他可扩展的GP进行比较,并证明VNNGP(1)可以极大地超过低级别方法,而(2)比其他最近的邻居方法较不适合过度拟合。
translated by 谷歌翻译
We introduce stochastic variational inference for Gaussian process models. This enables the application of Gaussian process (GP) models to data sets containing millions of data points. We show how GPs can be variationally decomposed to depend on a set of globally relevant inducing variables which factorize the model in the necessary manner to perform variational inference. Our approach is readily extended to models with non-Gaussian likelihoods and latent variable models based around Gaussian processes. We demonstrate the approach on a simple toy problem and two real world data sets.
translated by 谷歌翻译
高斯流程(GPS)实际应用的主要挑战是选择适当的协方差函数。 GPS的移动平均值或过程卷积的构建可以提供一些额外的灵活性,但仍需要选择合适的平滑核,这是非平凡的。以前的方法通过在平滑内核上使用GP先验,并通过扩展协方差来构建协方差函数,以绕过预先指定它的需求。但是,这样的模型在几种方面受到限制:它们仅限于单维输入,例如时间;它们仅允许对单个输出进行建模,并且由于推理并不简单,因此不会扩展到大型数据集。在本文中,我们引入了GPS的非参数过程卷积公式,该公式通过使用基于Matheron规则的功能采样方法来减轻这些弱点,以使用诱导变量的间域间采样进行快速采样。此外,我们提出了这些非参数卷积的组成,可作为经典深度GP模型的替代方案,并允许从数据中推断中间层的协方差函数。我们测试了单个输出GP,多个输出GPS和DEEP GPS在基准测试上的模型性能,并发现在许多情况下,我们的方法可以提供比标准GP模型的改进。
translated by 谷歌翻译
贝叶斯神经网络和深度集合代表了深入学习中不确定性量化的两种现代范式。然而,这些方法主要因内存低效率问题而争取,因为它们需要比其确定性对应物高出几倍的参数储存。为了解决这个问题,我们使用少量诱导重量增强每层的重量矩阵,从而将不确定性定量突出到这种低尺寸空间中。我们进一步扩展了Matheron的有条件高斯采样规则,以实现快速的重量采样,这使得我们的推理方法能够与合并相比保持合理的运行时间。重要的是,我们的方法在具有完全连接的神经网络和RESNET的预测和不确定性估算任务中实现了竞争性能,同时将参数大小减少到$单辆$ \ LEQ 24.3 \%$的参数大小神经网络。
translated by 谷歌翻译
高斯过程中的变量选择(GPS)通常通过阈值平衡“自动相关性确定”内核的逆宽度,但在高维数据集中,这种方法可能是不可靠的。更概率的原则性的替代方案是使用尖峰和平板前沿并推断可变包裹物的后验概率。但是,GPS中的现有实现是以高维和大量$ N $数据集运行的昂贵,或者对于大多数内核都是棘手的。因此,我们为具有任意微分内核的秒杀和平板GP开发了一种快速且可扩展的变分推理算法。我们提高了算法通过贝叶斯模型对普遍存在的模型进行平均来适应相关变量的稀疏性的能力,并使用零温度后部限制,辍学灌注和最近的邻米匹配来实现大量速度UPS。在实验中,我们的方法始终如一地优于Vanilla和稀疏变分的GPS,同时保留类似的运行时间(即使是N = 10 ^ 6美元),并且使用MCMC使用Spike和Slab GP竞争地执行,但速度最高可达1000美元。
translated by 谷歌翻译
We present the GPry algorithm for fast Bayesian inference of general (non-Gaussian) posteriors with a moderate number of parameters. GPry does not need any pre-training, special hardware such as GPUs, and is intended as a drop-in replacement for traditional Monte Carlo methods for Bayesian inference. Our algorithm is based on generating a Gaussian Process surrogate model of the log-posterior, aided by a Support Vector Machine classifier that excludes extreme or non-finite values. An active learning scheme allows us to reduce the number of required posterior evaluations by two orders of magnitude compared to traditional Monte Carlo inference. Our algorithm allows for parallel evaluations of the posterior at optimal locations, further reducing wall-clock times. We significantly improve performance using properties of the posterior in our active learning scheme and for the definition of the GP prior. In particular we account for the expected dynamical range of the posterior in different dimensionalities. We test our model against a number of synthetic and cosmological examples. GPry outperforms traditional Monte Carlo methods when the evaluation time of the likelihood (or the calculation of theoretical observables) is of the order of seconds; for evaluation times of over a minute it can perform inference in days that would take months using traditional methods. GPry is distributed as an open source Python package (pip install gpry) and can also be found at https://github.com/jonaselgammal/GPry.
translated by 谷歌翻译
我们制定自然梯度变推理(VI),期望传播(EP),和后线性化(PL)作为牛顿法用于优化贝叶斯后验分布的参数扩展。这种观点明确地把数值优化框架下的推理算法。我们表明,通用近似牛顿法从优化文献,即高斯 - 牛顿和准牛顿方法(例如,该BFGS算法),仍然是这种“贝叶斯牛顿”框架下有效。这导致了一套这些都保证以产生半正定协方差矩阵,不像标准VI和EP新颖算法。我们统一的观点提供了新的见解各种推理方案之间的连接。所有提出的方法适用于具有高斯事先和非共轭的可能性,这是我们与(疏)高斯过程和状态空间模型展示任何模型。
translated by 谷歌翻译
使用马尔可夫链蒙特卡洛(Monte Carlo)以贝叶斯方式将理论模型拟合到实验数据中,通常需要一个评估数千(或数百万)型的型号。当模型是慢速到计算的物理模拟时,贝叶斯模型拟合就变得不可行。为了解决这个问题,可以使用模拟输出的第二个统计模型,该模型可以用来代替模型拟合期间的完整仿真。选择的典型仿真器是高斯过程(GP),这是一种灵活的非线性模型,在每个输入点提供了预测均值和方差。高斯流程回归对少量培训数据($ n <10^3 $)非常有效,但是当数据集大小变大时,训练和用于预测的速度慢。可以使用各种方法来加快中高级数据集制度($ n> 10^5 $)的加快高斯流程,从而使人们的预测准确性大大降低了。这项工作研究了几种近似高斯过程模型的准确度折叠 - 稀疏的变异GP,随机变异GP和深内核学习的GP - 在模拟密度功能理论(DFT)模型的预测时。此外,我们使用模拟器以贝叶斯的方式校准DFT模型参数,使用观察到的数据,解决数据集大小所施加的计算屏障,并将校准结果与先前的工作进行比较。这些校准的DFT模型的实用性是根据观察到的数据对实验意义的核素的性质进行预测,例如超重核。
translated by 谷歌翻译
本文提出了一种有效的变分推导框架,用于导出结构化高斯进程回归网络(SGPRN)模型的系列。关键的想法是将辅助诱导变量合并到潜在函数中,并共同处理诱导变量和超参数的分布作为变分参数。然后,我们提出了结构化可变分布和边缘化潜变量,这使得可分解的变分性下限并导致随机优化。我们推断方法能够建模数据,其中输出不共享具有与输入和输出大小无关的计算复杂性的公共输入集,因此容易处理具有缺失值的数据集。我们说明了我们对合成数据和真实数据集的方法的性能,并显示我们的模型通常提供比最先进的数据缺失数据的更好的估算结果。我们还提供了一种可视化方法,用于电职业学数据的输出中的输出的时变相关性,并且这些估计提供了了解神经群体动态的洞察力。
translated by 谷歌翻译
随机过程提供了数学上优雅的方式模型复杂数据。从理论上讲,它们为可以编码广泛有趣的假设的功能类提供了灵活的先验。但是,实际上,难以通过优化或边缘化来有效推断,这一问题进一步加剧了大数据和高维输入空间。我们提出了一种新颖的变性自动编码器(VAE),称为先前的编码变量自动编码器($ \ pi $ vae)。 $ \ pi $ vae是有限的交换且Kolmogorov一致的,因此是一个连续的随机过程。我们使用$ \ pi $ vae学习功能类的低维嵌入。我们表明,我们的框架可以准确地学习表达功能类,例如高斯流程,也可以学习函数的属性以启用统计推断(例如log高斯过程的积分)。对于流行的任务,例如空间插值,$ \ pi $ vae在准确性和计算效率方面都达到了最先进的性能。也许最有用的是,我们证明了所学的低维独立分布的潜在空间表示提供了一种优雅,可扩展的方法,可以在概率编程语言(例如Stan)中对随机过程进行贝叶斯推断。
translated by 谷歌翻译
许多机器学习问题可以在估计功能的背景下构成,并且通常是时间依赖的功能,随着观察结果的到来,这些功能是实时估计的。高斯工艺(GPS)是建模实现非线性函数的吸引人选择,这是由于其灵活性和不确定性定量。但是,典型的GP回归模型有几个缺点:1)相对于观测值的常规GP推理量表$ O(n^{3})$; 2)顺序更新GP模型并非微不足道; 3)协方差内核通常在该函数上执行平稳性约束,而具有非平稳协方差内核的GP通常在实践中使用了很难使用。为了克服这些问题,我们提出了一种顺序的蒙特卡洛算法,以适合GP的无限混合物,这些混合物捕获非平稳行为,同时允许在线分布式推理。我们的方法从经验上改善了在时间序列数据中存在非平稳性的在线GP估计的最先进方法的性能。为了证明我们在应用设置中提出的在线高斯流程混合物方法的实用性,我们表明我们可以使用在线高斯工艺匪徒成功实现优化算法。
translated by 谷歌翻译
隐式过程(IP)是高斯过程(GPS)的概括。 IP可能缺乏封闭形式的表达,但很容易采样。例子包括贝叶斯神经网络或神经抽样器。 IP可以用作功能的先验,从而产生具有良好预测不确定性估计值的灵活模型。基于IP的方法通常进行函数空间近似推断,从而克服了参数空间近似推断的一些困难。然而,所采用的近似值通常会限制最终模型的表现力,结果是\ emph {e.g。},在高斯预测分布中,这可能是限制的。我们在这里提出了IPS的多层概括,称为“深层隐式”过程(DVIP)。这种概括与GPS上的深GPS相似,但是由于使用IPs作为潜在函数的先前分布,因此更灵活。我们描述了用于训练DVIP的可扩展变异推理算法,并表明它的表现优于先前的基于IP的方法和深度GPS。我们通过广泛的回归和分类实验来支持这些主张。我们还在大型数据集上评估了DVIP,最多可达数百万个数据实例,以说明其良好的可扩展性和性能。
translated by 谷歌翻译
最近的机器学习进展已直接从数据中直接提出了对未知连续时间系统动力学的黑盒估计。但是,较早的作品基于近似ODE解决方案或点估计。我们提出了一种新型的贝叶斯非参数模型,该模型使用高斯工艺直接从数据中直接从数据中推断出未知ODE系统的后代。我们通过脱钩的功能采样得出稀疏的变异推断,以表示矢量场后代。我们还引入了一种概率的射击增强,以从任意长的轨迹中有效推断。该方法证明了计算矢量场后代的好处,预测不确定性得分优于多个ODE学习任务的替代方法。
translated by 谷歌翻译
稀疏变分高斯工艺(SVGP)方法是由于其计算效益的非共轭高斯工艺推论的常见选择。在本文中,我们通过使用双重参数化来提高其计算效率,其中每个数据示例被分配双参数,类似于期望传播中使用的站点参数。我们使用自然梯度下降的双重参数化速度推断,并提供了较小的证据,用于近似参数学习。该方法具有与当前SVGP方法相同的内存成本,但它更快,更准确。
translated by 谷歌翻译
现代对高斯工艺的近似适合“高数据”,其成本在观测值的数量中缩放,但在``宽数据''上表现不佳,在输入功能的数量方面缩小了很差。也就是说,随着输入功能的数量的增长,良好的预测性能需要汇总变量及其相关成本的数量才能快速增长。我们引入了一个内核,该内核允许汇总变量的数量通过输入功能的数量成倍增长,但在观测数和输入功能的数量中仅需要线性成本。通过引入B \'ezier Buttress来实现此缩放,该块允许在无需计算矩阵倒置或决定因素的情况下进行近似推断。我们表明,我们的内核与高斯流程回归中一些最常用的内核具有非常相似的相似之处,并从经验上证明了内核可以扩展到高大和宽的数据集的能力。
translated by 谷歌翻译
We provide a new unifying view, including all existing proper probabilistic sparse approximations for Gaussian process regression. Our approach relies on expressing the effective prior which the methods are using. This allows new insights to be gained, and highlights the relationship between existing methods. It also allows for a clear theoretically justified ranking of the closeness of the known approximations to the corresponding full GPs. Finally we point directly to designs of new better sparse approximations, combining the best of the existing strategies, within attractive computational constraints.
translated by 谷歌翻译