不确定性估计(UE)技术 - 例如高斯过程(GP),贝叶斯神经网络(BNN),蒙特卡罗辍学(MCDropout) - 旨在通过为每个分配估计的不确定性值来提高机器学习模型的可解释性他们的预测输出。然而,由于过高的不确定性估计可以在实践中具有致命的后果,因此本文分析了上述技术。首先,我们表明GP方法始终会产生高不确定性估计(OOD)数据。其次,我们在2D玩具示例中显示了BNN和MCDRopout在OOD样品上没有提供高不确定性估计。最后,我们凭经验展示了这种BNNS和MCDRopout的陷阱也在现实世界数据集中持有。我们的见解(i)提高了对深度学习中目前流行的UE方法更加谨慎使用的认识,(ii)鼓励开发UE方法,这些方法近似于基于GP的方法 - 而不是BNN和MCDROPOUT,以及我们的经验设置可用于验证任何其他UE方法的ood性能。源代码在https://github.com/epfml/unctemationsiapity-娱乐中获得。
translated by 谷歌翻译
Accurate uncertainty quantification is a major challenge in deep learning, as neural networks can make overconfident errors and assign high confidence predictions to out-of-distribution (OOD) inputs. The most popular approaches to estimate predictive uncertainty in deep learning are methods that combine predictions from multiple neural networks, such as Bayesian neural networks (BNNs) and deep ensembles. However their practicality in real-time, industrial-scale applications are limited due to the high memory and computational cost. Furthermore, ensembles and BNNs do not necessarily fix all the issues with the underlying member networks. In this work, we study principled approaches to improve uncertainty property of a single network, based on a single, deterministic representation. By formalizing the uncertainty quantification as a minimax learning problem, we first identify distance awareness, i.e., the model's ability to quantify the distance of a testing example from the training data, as a necessary condition for a DNN to achieve high-quality (i.e., minimax optimal) uncertainty estimation. We then propose Spectral-normalized Neural Gaussian Process (SNGP), a simple method that improves the distance-awareness ability of modern DNNs with two simple changes: (1) applying spectral normalization to hidden weights to enforce bi-Lipschitz smoothness in representations and (2) replacing the last output layer with a Gaussian process layer. On a suite of vision and language understanding benchmarks, SNGP outperforms other single-model approaches in prediction, calibration and out-of-domain detection. Furthermore, SNGP provides complementary benefits to popular techniques such as deep ensembles and data augmentation, making it a simple and scalable building block for probabilistic deep learning. Code is open-sourced at https://github.com/google/uncertainty-baselines
translated by 谷歌翻译
贝叶斯范式有可能解决深度神经网络的核心问题,如校准和数据效率低差。唉,缩放贝叶斯推理到大量的空间通常需要限制近似。在这项工作中,我们表明它足以通过模型权重的小子集进行推动,以便获得准确的预测后断。另一个权重被保存为点估计。该子网推断框架使我们能够在这些子集上使用表现力,否则难以相容的后近近似。特别是,我们将子网线性化LAPLACE作为一种简单,可扩展的贝叶斯深度学习方法:我们首先使用线性化的拉普拉斯近似来获得所有重量的地图估计,然后在子网上推断出全协方差高斯后面。我们提出了一个子网选择策略,旨在最大限度地保护模型的预测性不确定性。经验上,我们的方法对整个网络的集合和较少的表达后近似进行了比较。
translated by 谷歌翻译
Deep learning tools have gained tremendous attention in applied machine learning. However such tools for regression and classification do not capture model uncertainty. In comparison, Bayesian models offer a mathematically grounded framework to reason about model uncertainty, but usually come with a prohibitive computational cost. In this paper we develop a new theoretical framework casting dropout training in deep neural networks (NNs) as approximate Bayesian inference in deep Gaussian processes. A direct result of this theory gives us tools to model uncertainty with dropout NNsextracting information from existing models that has been thrown away so far. This mitigates the problem of representing uncertainty in deep learning without sacrificing either computational complexity or test accuracy. We perform an extensive study of the properties of dropout's uncertainty. Various network architectures and nonlinearities are assessed on tasks of regression and classification, using MNIST as an example. We show a considerable improvement in predictive log-likelihood and RMSE compared to existing state-of-the-art methods, and finish by using dropout's uncertainty in deep reinforcement learning.
translated by 谷歌翻译
随着我们远离数据,预测不确定性应该增加,因为各种各样的解释与鲜为人知的信息一致。我们引入了远距离感知的先验(DAP)校准,这是一种纠正训练域之外贝叶斯深度学习模型过度自信的方法。我们将DAPS定义为模型参数的先验分布,该模型参数取决于输入,通过其与训练集的距离度量。DAP校准对后推理方法不可知,可以作为后处理步骤进行。我们证明了其在各种分类和回归问题中对几个基线的有效性,包括旨在测试远离数据的预测分布质量的基准。
translated by 谷歌翻译
最近,深度学习中的不确定性估计已成为提高安全至关重要应用的可靠性和鲁棒性的关键领域。尽管有许多提出的方法要么关注距离感知模型的不确定性,要么是分布式检测的不确定性,要么是针对分布校准的输入依赖性标签不确定性,但这两种类型的不确定性通常都是必要的。在这项工作中,我们提出了用于共同建模模型和数据不确定性的HETSNGP方法。我们表明,我们提出的模型在这两种类型的不确定性之间提供了有利的组合,因此在包括CIFAR-100C,ImagEnet-C和Imagenet-A在内的一些具有挑战性的分发数据集上优于基线方法。此外,我们提出了HETSNGP Ensemble,这是我们方法的结合版本,该版本还对网络参数的不确定性进行建模,并优于其他集合基线。
translated by 谷歌翻译
部署在医学成像任务上的机器学习模型必须配备分布外检测功能,以避免错误的预测。不确定依赖于深神经网络的分布外检测模型是否适合检测医学成像中的域移位。高斯流程可以通过其数学结构可靠地与分布数据点可靠地分开分发数据点。因此,我们为分层卷积高斯工艺提出了一个参数有效的贝叶斯层,该过程融合了在Wasserstein-2空间中运行的高斯过程,以可靠地传播不确定性。这直接用远距离的仿射操作员在分布中直接取代了高斯流程。我们对脑组织分割的实验表明,所得的架构接近了确定性分割算法(U-NET)的性能,而先前的层次高斯过程尚未实现。此外,通过将相同的分割模型应用于分布外数据(即具有病理学(例如脑肿瘤)的图像),我们表明我们的不确定性估计导致分布外检测,以优于以前的贝叶斯网络和以前的贝叶斯网络的功能基于重建的方法学习规范分布。为了促进未来的工作,我们的代码公开可用。
translated by 谷歌翻译
随机过程提供了数学上优雅的方式模型复杂数据。从理论上讲,它们为可以编码广泛有趣的假设的功能类提供了灵活的先验。但是,实际上,难以通过优化或边缘化来有效推断,这一问题进一步加剧了大数据和高维输入空间。我们提出了一种新颖的变性自动编码器(VAE),称为先前的编码变量自动编码器($ \ pi $ vae)。 $ \ pi $ vae是有限的交换且Kolmogorov一致的,因此是一个连续的随机过程。我们使用$ \ pi $ vae学习功能类的低维嵌入。我们表明,我们的框架可以准确地学习表达功能类,例如高斯流程,也可以学习函数的属性以启用统计推断(例如log高斯过程的积分)。对于流行的任务,例如空间插值,$ \ pi $ vae在准确性和计算效率方面都达到了最先进的性能。也许最有用的是,我们证明了所学的低维独立分布的潜在空间表示提供了一种优雅,可扩展的方法,可以在概率编程语言(例如Stan)中对随机过程进行贝叶斯推断。
translated by 谷歌翻译
目前,难以获得贝叶斯方法深入学习的好处,这允许明确的知识规范,准确地捕获模型不确定性。我们呈现先前数据拟合网络(PFN)。 PFN利用大规模机器学习技术来近似一组一组后索。 PFN唯一要求工作的要求是能够从先前分配通过监督的学习任务(或函数)来采样。我们的方法将后近似的目标重新定为具有带有值的输入的监督分类问题:它反复从先前绘制任务(或功能),从中绘制一组数据点及其标签,掩盖其中一个标签并学习基于其余数据点的设定值输入对其进行概率预测。呈现来自新的监督学习任务的一组样本作为输入,PFNS在单个前向传播中对任意其他数据点进行概率预测,从而学习到近似贝叶斯推断。我们展示了PFN可以接近完全模仿高斯过程,并且还可以实现高效的贝叶斯推理对难以处理的问题,与当前方法相比,多个设置中有超过200倍的加速。我们在非常多样化的地区获得强烈的结果,如高斯过程回归,贝叶斯神经网络,小型表格数据集的分类,以及少量图像分类,展示了PFN的一般性。代码和培训的PFN在https://github.com/automl/transformerscandobayesianinference发布。
translated by 谷歌翻译
神经线性模型(NLM)是深度贝叶斯模型,通过从数据中学习特征,然后对这些特征进行贝叶斯线性回归来产生预测的不确定性。尽管他们受欢迎,但很少有作品专注于有条理地评估这些模型的预测性不确定性。在这项工作中,我们证明了NLMS的传统培训程序急剧低估了分发输入的不确定性,因此它们不能在风险敏感的应用中暂时部署。我们确定了这种行为的基本原因,并提出了一种新的培训框架,捕获下游任务的有用预测不确定性。
translated by 谷歌翻译
已知神经网络模型加强隐藏的数据偏差,使它们不可靠且难以解释。我们试图通过在功能空间中引入归纳偏差来构建“知道他们不知道的内容”。我们表明贝叶斯神经网络的定期激活功能在网络权重和平移 - 不变,静止的高斯过程前沿建立了连接之间的连接。此外,我们表明,通过覆盖三角波和周期性的Relu激活功能,该链接超出了正弦波(傅里叶)激活。在一系列实验中,我们表明定期激活功能获得了域内数据的可比性,并捕获对深度神经网络中的扰动输入的灵敏度进行域名检测。
translated by 谷歌翻译
贝叶斯神经网络(BNNS)通过考虑为每个输入的权重和采样不同模型的分布,提供了一种工具来估计神经网络的不确定性。在本文中,我们提出了一种称为变异神经网络的神经网络中不确定性估计的方法,该方法通过使用可学习的子层转换其输入来生成层的输出分布的参数,而是为层的输出分布生成参数。在不确定性质量估计实验中,我们表明VNN与通过反向传播方法相比,VNN比Monte Carlo辍学或贝叶斯获得更好的不确定性质量。
translated by 谷歌翻译
We introduce ensembles of stochastic neural networks to approximate the Bayesian posterior, combining stochastic methods such as dropout with deep ensembles. The stochastic ensembles are formulated as families of distributions and trained to approximate the Bayesian posterior with variational inference. We implement stochastic ensembles based on Monte Carlo dropout, DropConnect and a novel non-parametric version of dropout and evaluate them on a toy problem and CIFAR image classification. For CIFAR, the stochastic ensembles are quantitatively compared to published Hamiltonian Monte Carlo results for a ResNet-20 architecture. We also test the quality of the posteriors directly against Hamiltonian Monte Carlo simulations in a simplified toy model. Our results show that in a number of settings, stochastic ensembles provide more accurate posterior estimates than regular deep ensembles.
translated by 谷歌翻译
我们研究了回归中神经网络(NNS)的模型不确定性的方法。为了隔离模型不确定性的效果,我们专注于稀缺训练数据的无噪声环境。我们介绍了关于任何方法都应满足的模型不确定性的五个重要的逃亡者。但是,我们发现,建立的基准通常无法可靠地捕获其中一些逃避者,即使是贝叶斯理论要求的基准。为了解决这个问题,我们介绍了一种新方法来捕获NNS的模型不确定性,我们称之为基于神经优化的模型不确定性(NOMU)。 NOMU的主要思想是设计一个由两个连接的子NN组成的网络体系结构,一个用于模型预测,一个用于模型不确定性,并使用精心设计的损耗函数进行训练。重要的是,我们的设计执行NOMU满足我们的五个Desiderata。由于其模块化体系结构,NOMU可以为任何给定(先前训练)NN提供模型不确定性,如果访问其培训数据。我们在各种回归任务和无嘈杂的贝叶斯优化(BO)中评估NOMU,并具有昂贵的评估。在回归中,NOMU至少和最先进的方法。在BO中,Nomu甚至胜过所有考虑的基准。
translated by 谷歌翻译
现代深度学习方法构成了令人难以置信的强大工具,以解决无数的挑战问题。然而,由于深度学习方法作为黑匣子运作,因此与其预测相关的不确定性往往是挑战量化。贝叶斯统计数据提供了一种形式主义来理解和量化与深度神经网络预测相关的不确定性。本教程概述了相关文献和完整的工具集,用于设计,实施,列车,使用和评估贝叶斯神经网络,即使用贝叶斯方法培训的随机人工神经网络。
translated by 谷歌翻译
We investigate the efficacy of treating all the parameters in a Bayesian neural network stochastically and find compelling theoretical and empirical evidence that this standard construction may be unnecessary. To this end, we prove that expressive predictive distributions require only small amounts of stochasticity. In particular, partially stochastic networks with only $n$ stochastic biases are universal probabilistic predictors for $n$-dimensional predictive problems. In empirical investigations, we find no systematic benefit of full stochasticity across four different inference modalities and eight datasets; partially stochastic networks can match and sometimes even outperform fully stochastic networks, despite their reduced memory costs.
translated by 谷歌翻译
We propose SWA-Gaussian (SWAG), a simple, scalable, and general purpose approach for uncertainty representation and calibration in deep learning. Stochastic Weight Averaging (SWA), which computes the first moment of stochastic gradient descent (SGD) iterates with a modified learning rate schedule, has recently been shown to improve generalization in deep learning. With SWAG, we fit a Gaussian using the SWA solution as the first moment and a low rank plus diagonal covariance also derived from the SGD iterates, forming an approximate posterior distribution over neural network weights; we then sample from this Gaussian distribution to perform Bayesian model averaging. We empirically find that SWAG approximates the shape of the true posterior, in accordance with results describing the stationary distribution of SGD iterates. Moreover, we demonstrate that SWAG performs well on a wide variety of tasks, including out of sample detection, calibration, and transfer learning, in comparison to many popular alternatives including MC dropout, KFAC Laplace, SGLD, and temperature scaling.
translated by 谷歌翻译
隐式过程(IP)是高斯过程(GPS)的概括。 IP可能缺乏封闭形式的表达,但很容易采样。例子包括贝叶斯神经网络或神经抽样器。 IP可以用作功能的先验,从而产生具有良好预测不确定性估计值的灵活模型。基于IP的方法通常进行函数空间近似推断,从而克服了参数空间近似推断的一些困难。然而,所采用的近似值通常会限制最终模型的表现力,结果是\ emph {e.g。},在高斯预测分布中,这可能是限制的。我们在这里提出了IPS的多层概括,称为“深层隐式”过程(DVIP)。这种概括与GPS上的深GPS相似,但是由于使用IPs作为潜在函数的先前分布,因此更灵活。我们描述了用于训练DVIP的可扩展变异推理算法,并表明它的表现优于先前的基于IP的方法和深度GPS。我们通过广泛的回归和分类实验来支持这些主张。我们还在大型数据集上评估了DVIP,最多可达数百万个数据实例,以说明其良好的可扩展性和性能。
translated by 谷歌翻译
深度神经网络易于对异常值过度自信的预测。贝叶斯神经网络和深度融合都已显示在某种程度上减轻了这个问题。在这项工作中,我们的目标是通过提议预测由高斯混合模型的后续的高斯混合模型来结合这两种方法的益处,该高斯混合模型包括独立培训的深神经网络的LAPPALL近似的加权和。该方法可以与任何一组预先训练的网络一起使用,并且与常规合并相比,只需要小的计算和内存开销。理论上我们验证了我们的方法从训练数据中的培训数据和虚拟化的基本线上的标准不确定量级基准测试中的“远离”的过度控制。
translated by 谷歌翻译
隐式过程(IPS)代表一个灵活的框架,可用于描述各种模型,从贝叶斯神经网络,神经抽样器和数据生成器到许多其他模型。 IP还允许在功能空间上进行大致推断。公式的这种变化解决了参数空间的固有退化问题近似推断,即参数数量及其在大型模型中的强大依赖性。为此,文献中先前的作品试图采用IPS来设置先验并近似产生的后部。但是,这被证明是一项具有挑战性的任务。现有的方法可以调整先前的IP导致高斯预测分布,该分布未能捕获重要的数据模式。相比之下,通过使用另一个IP近似后验过程产生灵活预测分布的方法不能将先前的IP调整到观察到的数据中。我们在这里建议第一个可以实现这两个目标的方法。为此,我们依赖于先前IP的诱导点表示,就像在稀疏高斯过程中所做的那样。结果是一种可扩展的方法,用于与IP的近似推断,可以将先前的IP参数调整到数据中,并提供准确的非高斯预测分布。
translated by 谷歌翻译