隐式过程(IP)是高斯过程(GPS)的概括。 IP可能缺乏封闭形式的表达,但很容易采样。例子包括贝叶斯神经网络或神经抽样器。 IP可以用作功能的先验,从而产生具有良好预测不确定性估计值的灵活模型。基于IP的方法通常进行函数空间近似推断,从而克服了参数空间近似推断的一些困难。然而,所采用的近似值通常会限制最终模型的表现力,结果是\ emph {e.g。},在高斯预测分布中,这可能是限制的。我们在这里提出了IPS的多层概括,称为“深层隐式”过程(DVIP)。这种概括与GPS上的深GPS相似,但是由于使用IPs作为潜在函数的先前分布,因此更灵活。我们描述了用于训练DVIP的可扩展变异推理算法,并表明它的表现优于先前的基于IP的方法和深度GPS。我们通过广泛的回归和分类实验来支持这些主张。我们还在大型数据集上评估了DVIP,最多可达数百万个数据实例,以说明其良好的可扩展性和性能。
translated by 谷歌翻译
隐式过程(IPS)代表一个灵活的框架,可用于描述各种模型,从贝叶斯神经网络,神经抽样器和数据生成器到许多其他模型。 IP还允许在功能空间上进行大致推断。公式的这种变化解决了参数空间的固有退化问题近似推断,即参数数量及其在大型模型中的强大依赖性。为此,文献中先前的作品试图采用IPS来设置先验并近似产生的后部。但是,这被证明是一项具有挑战性的任务。现有的方法可以调整先前的IP导致高斯预测分布,该分布未能捕获重要的数据模式。相比之下,通过使用另一个IP近似后验过程产生灵活预测分布的方法不能将先前的IP调整到观察到的数据中。我们在这里建议第一个可以实现这两个目标的方法。为此,我们依赖于先前IP的诱导点表示,就像在稀疏高斯过程中所做的那样。结果是一种可扩展的方法,用于与IP的近似推断,可以将先前的IP参数调整到数据中,并提供准确的非高斯预测分布。
translated by 谷歌翻译
机器学习中的模型选择(ML)是贝叶斯学习程序的关键部分。模型选择可能会对由此产生的预测施加强大的偏见,这可能会阻碍贝叶斯神经网络和神经采样器等方法的性能。另一方面,贝叶斯ML的新提出的方法具有隐式随机过程(高斯过程的概括)的功能空间中近似推断的特征。在这方面,稀疏隐式过程(SIP)的方法特别成功,因为它是完全可训练的,并且可以实现灵活的预测。在这里,我们扩展了原始实验,以表明当数据生成机制与模型所隐含的机制大不相同时,SIP能够纠正模型偏差。我们使用合成数据集证明SIP能够提供预测性分布,这些分布比初始模型的初始模型的确切预测更好地反映了数据。
translated by 谷歌翻译
高斯流程(GPS)实际应用的主要挑战是选择适当的协方差函数。 GPS的移动平均值或过程卷积的构建可以提供一些额外的灵活性,但仍需要选择合适的平滑核,这是非平凡的。以前的方法通过在平滑内核上使用GP先验,并通过扩展协方差来构建协方差函数,以绕过预先指定它的需求。但是,这样的模型在几种方面受到限制:它们仅限于单维输入,例如时间;它们仅允许对单个输出进行建模,并且由于推理并不简单,因此不会扩展到大型数据集。在本文中,我们引入了GPS的非参数过程卷积公式,该公式通过使用基于Matheron规则的功能采样方法来减轻这些弱点,以使用诱导变量的间域间采样进行快速采样。此外,我们提出了这些非参数卷积的组成,可作为经典深度GP模型的替代方案,并允许从数据中推断中间层的协方差函数。我们测试了单个输出GP,多个输出GPS和DEEP GPS在基准测试上的模型性能,并发现在许多情况下,我们的方法可以提供比标准GP模型的改进。
translated by 谷歌翻译
本文提出了一种有效的变分推导框架,用于导出结构化高斯进程回归网络(SGPRN)模型的系列。关键的想法是将辅助诱导变量合并到潜在函数中,并共同处理诱导变量和超参数的分布作为变分参数。然后,我们提出了结构化可变分布和边缘化潜变量,这使得可分解的变分性下限并导致随机优化。我们推断方法能够建模数据,其中输出不共享具有与输入和输出大小无关的计算复杂性的公共输入集,因此容易处理具有缺失值的数据集。我们说明了我们对合成数据和真实数据集的方法的性能,并显示我们的模型通常提供比最先进的数据缺失数据的更好的估算结果。我们还提供了一种可视化方法,用于电职业学数据的输出中的输出的时变相关性,并且这些估计提供了了解神经群体动态的洞察力。
translated by 谷歌翻译
The kernel function and its hyperparameters are the central model selection choice in a Gaussian proces (Rasmussen and Williams, 2006). Typically, the hyperparameters of the kernel are chosen by maximising the marginal likelihood, an approach known as Type-II maximum likelihood (ML-II). However, ML-II does not account for hyperparameter uncertainty, and it is well-known that this can lead to severely biased estimates and an underestimation of predictive uncertainty. While there are several works which employ a fully Bayesian characterisation of GPs, relatively few propose such approaches for the sparse GPs paradigm. In this work we propose an algorithm for sparse Gaussian process regression which leverages MCMC to sample from the hyperparameter posterior within the variational inducing point framework of Titsias (2009). This work is closely related to Hensman et al. (2015b) but side-steps the need to sample the inducing points, thereby significantly improving sampling efficiency in the Gaussian likelihood case. We compare this scheme against natural baselines in literature along with stochastic variational GPs (SVGPs) along with an extensive computational analysis.
translated by 谷歌翻译
Deep learning tools have gained tremendous attention in applied machine learning. However such tools for regression and classification do not capture model uncertainty. In comparison, Bayesian models offer a mathematically grounded framework to reason about model uncertainty, but usually come with a prohibitive computational cost. In this paper we develop a new theoretical framework casting dropout training in deep neural networks (NNs) as approximate Bayesian inference in deep Gaussian processes. A direct result of this theory gives us tools to model uncertainty with dropout NNsextracting information from existing models that has been thrown away so far. This mitigates the problem of representing uncertainty in deep learning without sacrificing either computational complexity or test accuracy. We perform an extensive study of the properties of dropout's uncertainty. Various network architectures and nonlinearities are assessed on tasks of regression and classification, using MNIST as an example. We show a considerable improvement in predictive log-likelihood and RMSE compared to existing state-of-the-art methods, and finish by using dropout's uncertainty in deep reinforcement learning.
translated by 谷歌翻译
Large multilayer neural networks trained with backpropagation have recently achieved state-ofthe-art results in a wide range of problems. However, using backprop for neural net learning still has some disadvantages, e.g., having to tune a large number of hyperparameters to the data, lack of calibrated probabilistic predictions, and a tendency to overfit the training data. In principle, the Bayesian approach to learning neural networks does not have these problems. However, existing Bayesian techniques lack scalability to large dataset and network sizes. In this work we present a novel scalable method for learning Bayesian neural networks, called probabilistic backpropagation (PBP). Similar to classical backpropagation, PBP works by computing a forward propagation of probabilities through the network and then doing a backward computation of gradients. A series of experiments on ten real-world datasets show that PBP is significantly faster than other techniques, while offering competitive predictive abilities. Our experiments also show that PBP provides accurate estimates of the posterior variance on the network weights.
translated by 谷歌翻译
神经网络和高斯过程的优势和劣势是互补的。更好地了解他们的关系伴随着使每个方法从另一个方法中受益的承诺。在这项工作中,我们建立了神经网络的前进通行证与(深)稀疏高斯工艺模型之间的等价。我们开发的理论是基于解释激活函数作为跨域诱导功能,通过对激活函数和内核之间的相互作用进行严格分析。这导致模型可以被视为具有改善的不确定性预测或深度高斯过程的神经网络,其具有提高的预测精度。这些权利要求通过对回归和分类数据集进行实验结果来支持。
translated by 谷歌翻译
目前,难以获得贝叶斯方法深入学习的好处,这允许明确的知识规范,准确地捕获模型不确定性。我们呈现先前数据拟合网络(PFN)。 PFN利用大规模机器学习技术来近似一组一组后索。 PFN唯一要求工作的要求是能够从先前分配通过监督的学习任务(或函数)来采样。我们的方法将后近似的目标重新定为具有带有值的输入的监督分类问题:它反复从先前绘制任务(或功能),从中绘制一组数据点及其标签,掩盖其中一个标签并学习基于其余数据点的设定值输入对其进行概率预测。呈现来自新的监督学习任务的一组样本作为输入,PFNS在单个前向传播中对任意其他数据点进行概率预测,从而学习到近似贝叶斯推断。我们展示了PFN可以接近完全模仿高斯过程,并且还可以实现高效的贝叶斯推理对难以处理的问题,与当前方法相比,多个设置中有超过200倍的加速。我们在非常多样化的地区获得强烈的结果,如高斯过程回归,贝叶斯神经网络,小型表格数据集的分类,以及少量图像分类,展示了PFN的一般性。代码和培训的PFN在https://github.com/automl/transformerscandobayesianinference发布。
translated by 谷歌翻译
基于高斯工艺(GP)建立的解码器由于非线性函数空间的边缘化而诱人。这样的模型(也称为GP-LVM)通常很昂贵且众所周知,在实践中训练,但可以使用变异推理和诱导点来缩放。在本文中,我们重新访问主动集近似值。我们基于最近发现的交叉验证链接来开发对数 - 边界可能性的新随机估计,并提出了其计算有效近似。我们证明,所得的随机活动集(SAS)近似显着提高了GP解码器训练的鲁棒性,同时降低了计算成本。SAS-GP在潜在空间中获得更多的结构,比例为许多数据点,并且比变异自动编码器更好地表示表示,这对于GP解码器来说很少是这种情况。
translated by 谷歌翻译
高斯进程(GPS)是通过工程学的社会和自然科学的应用程序学习和统计数据的重要工具。它们构成具有良好校准的不确定性估计的强大的内核非参数方法,然而,由于其立方计算复杂度,从货架上的GP推理程序仅限于具有数千个数据点的数据集。因此,在过去几年中已经开发出许多稀疏的GPS技术。在本文中,我们专注于GP回归任务,并提出了一种基于来自几个本地和相关专家的聚合预测的新方法。因此,专家之间的相关程度可以在独立于完全相关的专家之间变化。考虑到他们的相关性导致了一致的不确定性估算,汇总了专家的个人预测。我们的方法在限制案件中恢复了专家的独立产品,稀疏GP和全GP。呈现的框架可以处理一般的内核函数和多个变量,并且具有时间和空间复杂性,在专家和数据样本的数量中是线性的,这使得我们的方法是高度可扩展的。我们展示了我们提出的方法的卓越性能,这是我们提出的综合性和几个实际数据集的最先进的GP近似方法的卓越性能,以及具有确定性和随机优化的若干现实世界数据集。
translated by 谷歌翻译
现代对高斯工艺的近似适合“高数据”,其成本在观测值的数量中缩放,但在``宽数据''上表现不佳,在输入功能的数量方面缩小了很差。也就是说,随着输入功能的数量的增长,良好的预测性能需要汇总变量及其相关成本的数量才能快速增长。我们引入了一个内核,该内核允许汇总变量的数量通过输入功能的数量成倍增长,但在观测数和输入功能的数量中仅需要线性成本。通过引入B \'ezier Buttress来实现此缩放,该块允许在无需计算矩阵倒置或决定因素的情况下进行近似推断。我们表明,我们的内核与高斯流程回归中一些最常用的内核具有非常相似的相似之处,并从经验上证明了内核可以扩展到高大和宽的数据集的能力。
translated by 谷歌翻译
贝叶斯神经网络和深度集合代表了深入学习中不确定性量化的两种现代范式。然而,这些方法主要因内存低效率问题而争取,因为它们需要比其确定性对应物高出几倍的参数储存。为了解决这个问题,我们使用少量诱导重量增强每层的重量矩阵,从而将不确定性定量突出到这种低尺寸空间中。我们进一步扩展了Matheron的有条件高斯采样规则,以实现快速的重量采样,这使得我们的推理方法能够与合并相比保持合理的运行时间。重要的是,我们的方法在具有完全连接的神经网络和RESNET的预测和不确定性估算任务中实现了竞争性能,同时将参数大小减少到$单辆$ \ LEQ 24.3 \%$的参数大小神经网络。
translated by 谷歌翻译
与高斯过程(GPS)的变异近似通常使用一组诱导点来形成与协方差矩阵的低级别近似值。在这项工作中,我们相反利用了精度矩阵的稀疏近似。我们提出了差异最近的邻居高斯工艺(VNNGP),该过程引入了先验,该过程仅保留在k最近的邻居观测中的相关性,从而诱导稀疏精度结构。使用变分框架,可以将VNNGP的目标分解在观测值和诱导点上,从而以O($ k^3 $)的时间复杂性实现随机优化。因此,我们可以任意扩展诱导点大小,甚至可以在每个观察到的位置放置诱导点。我们通过各种实验将VNNGP与其他可扩展的GP进行比较,并证明VNNGP(1)可以极大地超过低级别方法,而(2)比其他最近的邻居方法较不适合过度拟合。
translated by 谷歌翻译
随机过程提供了数学上优雅的方式模型复杂数据。从理论上讲,它们为可以编码广泛有趣的假设的功能类提供了灵活的先验。但是,实际上,难以通过优化或边缘化来有效推断,这一问题进一步加剧了大数据和高维输入空间。我们提出了一种新颖的变性自动编码器(VAE),称为先前的编码变量自动编码器($ \ pi $ vae)。 $ \ pi $ vae是有限的交换且Kolmogorov一致的,因此是一个连续的随机过程。我们使用$ \ pi $ vae学习功能类的低维嵌入。我们表明,我们的框架可以准确地学习表达功能类,例如高斯流程,也可以学习函数的属性以启用统计推断(例如log高斯过程的积分)。对于流行的任务,例如空间插值,$ \ pi $ vae在准确性和计算效率方面都达到了最先进的性能。也许最有用的是,我们证明了所学的低维独立分布的潜在空间表示提供了一种优雅,可扩展的方法,可以在概率编程语言(例如Stan)中对随机过程进行贝叶斯推断。
translated by 谷歌翻译
We introduce stochastic variational inference for Gaussian process models. This enables the application of Gaussian process (GP) models to data sets containing millions of data points. We show how GPs can be variationally decomposed to depend on a set of globally relevant inducing variables which factorize the model in the necessary manner to perform variational inference. Our approach is readily extended to models with non-Gaussian likelihoods and latent variable models based around Gaussian processes. We demonstrate the approach on a simple toy problem and two real world data sets.
translated by 谷歌翻译
我们提供了来自两个常见的低级内核近似产生的近似高斯过程(GP)回归的保证:基于随机傅里叶功能,并基于截断内核的Mercer扩展。特别地,我们将kullback-leibler在精确的gp和由一个上述低秩近似的一个与其内核中的一个引起的kullback-leibler发散相结合,以及它们的相应预测密度之间,并且我们还绑定了预测均值之间的误差使用近似GP使用精确的GP计算的矢量和预测协方差矩阵之间的载体。我们为模拟数据和标准基准提供了实验,以评估我们理论界的有效性。
translated by 谷歌翻译
我们提供了来自两个常见的低级内核近似产生的近似高斯过程(GP)回归的保证:基于随机傅里叶功能,并基于截断内核的Mercer扩展。特别地,我们将kullback-leibler在精确的gp和由一个上述低秩近似的一个与其内核中的一个引起的kullback-leibler发散相结合,以及它们的相应预测密度之间,并且我们还绑定了预测均值之间的误差使用近似GP使用精确的GP计算的矢量和预测协方差矩阵之间的载体。我们为模拟数据和标准基准提供了实验,以评估我们理论界的有效性。
translated by 谷歌翻译
不确定性估计(UE)技术 - 例如高斯过程(GP),贝叶斯神经网络(BNN),蒙特卡罗辍学(MCDropout) - 旨在通过为每个分配估计的不确定性值来提高机器学习模型的可解释性他们的预测输出。然而,由于过高的不确定性估计可以在实践中具有致命的后果,因此本文分析了上述技术。首先,我们表明GP方法始终会产生高不确定性估计(OOD)数据。其次,我们在2D玩具示例中显示了BNN和MCDRopout在OOD样品上没有提供高不确定性估计。最后,我们凭经验展示了这种BNNS和MCDRopout的陷阱也在现实世界数据集中持有。我们的见解(i)提高了对深度学习中目前流行的UE方法更加谨慎使用的认识,(ii)鼓励开发UE方法,这些方法近似于基于GP的方法 - 而不是BNN和MCDROPOUT,以及我们的经验设置可用于验证任何其他UE方法的ood性能。源代码在https://github.com/epfml/unctemationsiapity-娱乐中获得。
translated by 谷歌翻译