现代对高斯工艺的近似适合“高数据”,其成本在观测值的数量中缩放,但在``宽数据''上表现不佳,在输入功能的数量方面缩小了很差。也就是说,随着输入功能的数量的增长,良好的预测性能需要汇总变量及其相关成本的数量才能快速增长。我们引入了一个内核,该内核允许汇总变量的数量通过输入功能的数量成倍增长,但在观测数和输入功能的数量中仅需要线性成本。通过引入B \'ezier Buttress来实现此缩放,该块允许在无需计算矩阵倒置或决定因素的情况下进行近似推断。我们表明,我们的内核与高斯流程回归中一些最常用的内核具有非常相似的相似之处,并从经验上证明了内核可以扩展到高大和宽的数据集的能力。
translated by 谷歌翻译
高斯流程(GPS)实际应用的主要挑战是选择适当的协方差函数。 GPS的移动平均值或过程卷积的构建可以提供一些额外的灵活性,但仍需要选择合适的平滑核,这是非平凡的。以前的方法通过在平滑内核上使用GP先验,并通过扩展协方差来构建协方差函数,以绕过预先指定它的需求。但是,这样的模型在几种方面受到限制:它们仅限于单维输入,例如时间;它们仅允许对单个输出进行建模,并且由于推理并不简单,因此不会扩展到大型数据集。在本文中,我们引入了GPS的非参数过程卷积公式,该公式通过使用基于Matheron规则的功能采样方法来减轻这些弱点,以使用诱导变量的间域间采样进行快速采样。此外,我们提出了这些非参数卷积的组成,可作为经典深度GP模型的替代方案,并允许从数据中推断中间层的协方差函数。我们测试了单个输出GP,多个输出GPS和DEEP GPS在基准测试上的模型性能,并发现在许多情况下,我们的方法可以提供比标准GP模型的改进。
translated by 谷歌翻译
The kernel function and its hyperparameters are the central model selection choice in a Gaussian proces (Rasmussen and Williams, 2006). Typically, the hyperparameters of the kernel are chosen by maximising the marginal likelihood, an approach known as Type-II maximum likelihood (ML-II). However, ML-II does not account for hyperparameter uncertainty, and it is well-known that this can lead to severely biased estimates and an underestimation of predictive uncertainty. While there are several works which employ a fully Bayesian characterisation of GPs, relatively few propose such approaches for the sparse GPs paradigm. In this work we propose an algorithm for sparse Gaussian process regression which leverages MCMC to sample from the hyperparameter posterior within the variational inducing point framework of Titsias (2009). This work is closely related to Hensman et al. (2015b) but side-steps the need to sample the inducing points, thereby significantly improving sampling efficiency in the Gaussian likelihood case. We compare this scheme against natural baselines in literature along with stochastic variational GPs (SVGPs) along with an extensive computational analysis.
translated by 谷歌翻译
与高斯过程(GPS)的变异近似通常使用一组诱导点来形成与协方差矩阵的低级别近似值。在这项工作中,我们相反利用了精度矩阵的稀疏近似。我们提出了差异最近的邻居高斯工艺(VNNGP),该过程引入了先验,该过程仅保留在k最近的邻居观测中的相关性,从而诱导稀疏精度结构。使用变分框架,可以将VNNGP的目标分解在观测值和诱导点上,从而以O($ k^3 $)的时间复杂性实现随机优化。因此,我们可以任意扩展诱导点大小,甚至可以在每个观察到的位置放置诱导点。我们通过各种实验将VNNGP与其他可扩展的GP进行比较,并证明VNNGP(1)可以极大地超过低级别方法,而(2)比其他最近的邻居方法较不适合过度拟合。
translated by 谷歌翻译
隐式过程(IP)是高斯过程(GPS)的概括。 IP可能缺乏封闭形式的表达,但很容易采样。例子包括贝叶斯神经网络或神经抽样器。 IP可以用作功能的先验,从而产生具有良好预测不确定性估计值的灵活模型。基于IP的方法通常进行函数空间近似推断,从而克服了参数空间近似推断的一些困难。然而,所采用的近似值通常会限制最终模型的表现力,结果是\ emph {e.g。},在高斯预测分布中,这可能是限制的。我们在这里提出了IPS的多层概括,称为“深层隐式”过程(DVIP)。这种概括与GPS上的深GPS相似,但是由于使用IPs作为潜在函数的先前分布,因此更灵活。我们描述了用于训练DVIP的可扩展变异推理算法,并表明它的表现优于先前的基于IP的方法和深度GPS。我们通过广泛的回归和分类实验来支持这些主张。我们还在大型数据集上评估了DVIP,最多可达数百万个数据实例,以说明其良好的可扩展性和性能。
translated by 谷歌翻译
贝叶斯优化(BO)被广泛用于优化随机黑匣子功能。尽管大多数BO方法都集中在优化条件期望上,但许多应用程序都需要规避风险的策略,并且需要考虑分配尾巴的替代标准。在本文中,我们提出了针对贝叶斯分位数和预期回归的新变异模型,这些模型非常适合异形的噪声设置。我们的模型分别由有条件分位数(或期望)的两个潜在高斯过程和不对称可能性函数的比例参数组成。此外,我们提出了基于最大值熵搜索和汤普森采样的两种BO策略,这些策略是针对此类型号量身定制的,可以容纳大量点。与现有的BO进行规避风险优化的方法相反,我们的策略可以直接针对分位数和预期进行优化,而无需复制观测值或假设噪声的参数形式。如实验部分所示,所提出的方法清楚地表现出异质的非高斯案例中的最新状态。
translated by 谷歌翻译
神经网络和高斯过程的优势和劣势是互补的。更好地了解他们的关系伴随着使每个方法从另一个方法中受益的承诺。在这项工作中,我们建立了神经网络的前进通行证与(深)稀疏高斯工艺模型之间的等价。我们开发的理论是基于解释激活函数作为跨域诱导功能,通过对激活函数和内核之间的相互作用进行严格分析。这导致模型可以被视为具有改善的不确定性预测或深度高斯过程的神经网络,其具有提高的预测精度。这些权利要求通过对回归和分类数据集进行实验结果来支持。
translated by 谷歌翻译
We provide a new unifying view, including all existing proper probabilistic sparse approximations for Gaussian process regression. Our approach relies on expressing the effective prior which the methods are using. This allows new insights to be gained, and highlights the relationship between existing methods. It also allows for a clear theoretically justified ranking of the closeness of the known approximations to the corresponding full GPs. Finally we point directly to designs of new better sparse approximations, combining the best of the existing strategies, within attractive computational constraints.
translated by 谷歌翻译
高斯进程(GPS)是非参数贝叶斯模型,广泛用于各种预测任务。以前的工作在通过差异隐私(DP)向GPS增加了强大的隐私保护,仅限于仅保护预测目标的隐私(模型输出)而不是输入。我们通过为模型输入和输出引入DP保护而引入GPS来打破此限制。我们通过使用稀疏GP方法来实现这一目标,并在已知的诱导点上发布私有变分近似。近似协方差调整到大约占DP噪声的增加的不确定性。近似可用于使用标准稀疏GP技术计算任意预测。我们提出了一种使用应用于验证设置日志可能性的私有选择协议的超参数学习方法。我们的实验表明,考虑到足够量的数据,该方法可以在强大的隐私保护下产生准确的模型。
translated by 谷歌翻译
高斯流程(GP)模型是一类灵活的非参数模型,具有丰富的代表力。通过使用具有添加剂结构的高斯工艺,可以在保持解释性的同时对复杂的响应进行建模。先前的工作表明,加性高斯工艺模型需要高维相互作用项。我们提出了正交添加剂(OAK),该核(OAK)对添加功能施加正交性约束,从而实现了功能关系的可识别,低维表示。我们将OAK内核连接到功能方差分析分解,并显示出稀疏计算方法的收敛速率。与黑盒模型相比,我们只有少量的添加剂低维术语,在保持可解释性的同时,橡木模型的预测性能相似或更好。
translated by 谷歌翻译
我们提供了来自两个常见的低级内核近似产生的近似高斯过程(GP)回归的保证:基于随机傅里叶功能,并基于截断内核的Mercer扩展。特别地,我们将kullback-leibler在精确的gp和由一个上述低秩近似的一个与其内核中的一个引起的kullback-leibler发散相结合,以及它们的相应预测密度之间,并且我们还绑定了预测均值之间的误差使用近似GP使用精确的GP计算的矢量和预测协方差矩阵之间的载体。我们为模拟数据和标准基准提供了实验,以评估我们理论界的有效性。
translated by 谷歌翻译
我们提供了来自两个常见的低级内核近似产生的近似高斯过程(GP)回归的保证:基于随机傅里叶功能,并基于截断内核的Mercer扩展。特别地,我们将kullback-leibler在精确的gp和由一个上述低秩近似的一个与其内核中的一个引起的kullback-leibler发散相结合,以及它们的相应预测密度之间,并且我们还绑定了预测均值之间的误差使用近似GP使用精确的GP计算的矢量和预测协方差矩阵之间的载体。我们为模拟数据和标准基准提供了实验,以评估我们理论界的有效性。
translated by 谷歌翻译
We introduce stochastic variational inference for Gaussian process models. This enables the application of Gaussian process (GP) models to data sets containing millions of data points. We show how GPs can be variationally decomposed to depend on a set of globally relevant inducing variables which factorize the model in the necessary manner to perform variational inference. Our approach is readily extended to models with non-Gaussian likelihoods and latent variable models based around Gaussian processes. We demonstrate the approach on a simple toy problem and two real world data sets.
translated by 谷歌翻译
基于高斯工艺(GP)建立的解码器由于非线性函数空间的边缘化而诱人。这样的模型(也称为GP-LVM)通常很昂贵且众所周知,在实践中训练,但可以使用变异推理和诱导点来缩放。在本文中,我们重新访问主动集近似值。我们基于最近发现的交叉验证链接来开发对数 - 边界可能性的新随机估计,并提出了其计算有效近似。我们证明,所得的随机活动集(SAS)近似显着提高了GP解码器训练的鲁棒性,同时降低了计算成本。SAS-GP在潜在空间中获得更多的结构,比例为许多数据点,并且比变异自动编码器更好地表示表示,这对于GP解码器来说很少是这种情况。
translated by 谷歌翻译
高斯进程(GPS)是通过工程学的社会和自然科学的应用程序学习和统计数据的重要工具。它们构成具有良好校准的不确定性估计的强大的内核非参数方法,然而,由于其立方计算复杂度,从货架上的GP推理程序仅限于具有数千个数据点的数据集。因此,在过去几年中已经开发出许多稀疏的GPS技术。在本文中,我们专注于GP回归任务,并提出了一种基于来自几个本地和相关专家的聚合预测的新方法。因此,专家之间的相关程度可以在独立于完全相关的专家之间变化。考虑到他们的相关性导致了一致的不确定性估算,汇总了专家的个人预测。我们的方法在限制案件中恢复了专家的独立产品,稀疏GP和全GP。呈现的框架可以处理一般的内核函数和多个变量,并且具有时间和空间复杂性,在专家和数据样本的数量中是线性的,这使得我们的方法是高度可扩展的。我们展示了我们提出的方法的卓越性能,这是我们提出的综合性和几个实际数据集的最先进的GP近似方法的卓越性能,以及具有确定性和随机优化的若干现实世界数据集。
translated by 谷歌翻译
内核选择在确定高斯过程(GP)模型中的性能方面发挥着核心作用,因为所选择的内核在之前的GP下确定了电感偏差和在GP下的功能的先前支持。这项工作解决了为高维GP回归模型构建自定义内核功能的挑战。从最近的深度学习进步中汲取灵感,我们介绍了一个名为Kitt的新方法:通过变压器识别内核识别。 KITT利用基于变压器的架构,以在0.1秒内生成内核建议,这比传统的内核搜索算法快几个数量级。我们使用从已知内核的词汇表中从前线生成的合成数据训练我们的模型。通过利用自我关注机制的性质,KITT能够处理具有任意尺寸的输入的数据集。我们证明,KITT选择的内核会在各种回归基准集合中产生强烈的表现。
translated by 谷歌翻译
隐式过程(IPS)代表一个灵活的框架,可用于描述各种模型,从贝叶斯神经网络,神经抽样器和数据生成器到许多其他模型。 IP还允许在功能空间上进行大致推断。公式的这种变化解决了参数空间的固有退化问题近似推断,即参数数量及其在大型模型中的强大依赖性。为此,文献中先前的作品试图采用IPS来设置先验并近似产生的后部。但是,这被证明是一项具有挑战性的任务。现有的方法可以调整先前的IP导致高斯预测分布,该分布未能捕获重要的数据模式。相比之下,通过使用另一个IP近似后验过程产生灵活预测分布的方法不能将先前的IP调整到观察到的数据中。我们在这里建议第一个可以实现这两个目标的方法。为此,我们依赖于先前IP的诱导点表示,就像在稀疏高斯过程中所做的那样。结果是一种可扩展的方法,用于与IP的近似推断,可以将先前的IP参数调整到数据中,并提供准确的非高斯预测分布。
translated by 谷歌翻译
贝叶斯后期和模型证据的计算通常需要数值整合。贝叶斯正交(BQ)是一种基于替代模型的数值整合方法,能够具有出色的样品效率,但其缺乏并行化阻碍了其实际应用。在这项工作中,我们提出了一种并行的(批次)BQ方法,该方法采用了核正素的技术,该技术具有证明是指数的收敛速率。另外,与嵌套采样一样,我们的方法允许同时推断后期和模型证据。重新选择了来自BQ替代模型的样品,通过内核重组算法获得一组稀疏的样品,需要可忽略的额外时间来增加批处理大小。从经验上讲,我们发现我们的方法显着优于在包括锂离子电池分析在内的各种现实世界数据集中,最先进的BQ技术和嵌套采样的采样效率。
translated by 谷歌翻译
引入了涉及高斯流程(GPS)的模型,以同时处理多个功能数据的多任务学习,聚类和预测。该过程充当了功能数据的基于模型的聚类方法,也是对新任务进行后续预测的学习步骤。该模型是将多任务GPS与常见平均过程的混合物实例化。得出了一种用于处理超参数的优化以及超构件对潜在变量和过程的估计的优化。我们建立了明确的公式,用于将平均过程和潜在聚类变量整合到预测分布中,这是两个方面的不确定性。该分布定义为集群特异性GP预测的混合物,在处理组结构数据时,可以增强性能。该模型处理观察的不规则网格,并提供了关于协方差结构的不同假设,用于在任务之间共享其他信息。聚类和预测任务上的性能将通过各种模拟方案和真实数据集进行评估。总体算法称为magmaclust,可公开作为R包。
translated by 谷歌翻译
使用马尔可夫链蒙特卡洛(Monte Carlo)以贝叶斯方式将理论模型拟合到实验数据中,通常需要一个评估数千(或数百万)型的型号。当模型是慢速到计算的物理模拟时,贝叶斯模型拟合就变得不可行。为了解决这个问题,可以使用模拟输出的第二个统计模型,该模型可以用来代替模型拟合期间的完整仿真。选择的典型仿真器是高斯过程(GP),这是一种灵活的非线性模型,在每个输入点提供了预测均值和方差。高斯流程回归对少量培训数据($ n <10^3 $)非常有效,但是当数据集大小变大时,训练和用于预测的速度慢。可以使用各种方法来加快中高级数据集制度($ n> 10^5 $)的加快高斯流程,从而使人们的预测准确性大大降低了。这项工作研究了几种近似高斯过程模型的准确度折叠 - 稀疏的变异GP,随机变异GP和深内核学习的GP - 在模拟密度功能理论(DFT)模型的预测时。此外,我们使用模拟器以贝叶斯的方式校准DFT模型参数,使用观察到的数据,解决数据集大小所施加的计算屏障,并将校准结果与先前的工作进行比较。这些校准的DFT模型的实用性是根据观察到的数据对实验意义的核素的性质进行预测,例如超重核。
translated by 谷歌翻译