在不确定,嘈杂或对抗性环境中学习是深度神经网络(DNN)的具有挑战性的任务。我们提出了一种在贝叶斯估计和变分推理时构建的强大学习的新理论上和有效的方法。我们制定通过DNN层层的密度传播的问题,并使用集合密度传播(ENDP)方案来解决它。ENPP方法允许我们在贝叶斯DNN的层上传播变分概率分布的片段,使得能够估计模型输出的预测分布的平均值和协方差。我们使用Mnist和CiFar-10数据集的实验表明,训练有素的模型的鲁棒性与随机噪声和对抗性攻击的稳健性显着改善。
translated by 谷歌翻译
鉴于其精确,效率和客观性,深入学习(DL)在重塑医疗保健系统方面具有很大的承诺。然而,DL模型到嘈杂和分发输入的脆性是在诊所的部署中的疾病。大多数系统产生点估计,无需进一步了解模型不确定性或信心。本文介绍了一个新的贝叶斯深度学习框架,用于分割神经网络中的不确定量化,特别是编码器解码器架构。所提出的框架使用一阶泰勒级近似传播,并学习模型参数分布的前两个矩(均值和协方差,通过最大化培训数据来最大限度地提高界限。输出包括两个地图:分段图像和分段的不确定性地图。细分决定中的不确定性被预测分配的协方差矩阵捕获。我们评估了从磁共振成像和计算机断层扫描的医学图像分割数据上提出的框架。我们在多个基准数据集上的实验表明,与最先进的分割模型相比,所提出的框架对噪声和对抗性攻击更加稳健。此外,所提出的框架的不确定性地图将低置信度(或等效高不确定性)与噪声,伪像或对抗攻击损坏的测试输入图像中的贴片。因此,当通过在不确定性地图中呈现更高的值,该模型可以自评测出现错误预测或错过分割结构的一部分,例如肿瘤。
translated by 谷歌翻译
机器学习模型在各种任务中取得了人力级别的性能。此成功以高成本的计算和存储开销,这使得机器学习算法难以在边缘设备上部署。通常,必须部分地牺牲精度,有利于在降低内存使用和能量消耗方面进行量化的性能。目前的方法通过减少参数的精度或通过消除冗余的方法压缩网络。在本文中,我们提出了通过贝叶斯框架的网络压缩的新洞察力。我们展示贝叶斯神经网络在模型参数中自动发现冗余,从而启用自压缩,这与通过网络层的不确定性传播链接。我们的实验结果表明,网络架构可以通过删除网络本身识别的参数来成功压缩,同时保持相同的准确度。
translated by 谷歌翻译
贝叶斯神经网络(BNNS)已成为缓解深度学习中过度自信预测的主要方法,但由于大量分布参数,它们经常遭受扩展问题。在本文中,我们发现在单独再培训时,深网络的第一层拥有多个不同的Optima。这表示当第一层由贝叶斯层改变时的大后差,这使我们能够设计空间融合BNN(STF-BNN),以便有效地将BNN缩放到大型模型:(1)首先常常培训一个神经网络网络从头开始实现快速训练; (2)第一层被转换为贝叶斯和通过采用随机变分推断推断,而其他层是固定的。与香草BNN相比,我们的方法可以大大减少训练时间和参数的数量,这有助于高效地缩放BNN。我们进一步提供了对概括性和缓解STF-BNN过度限制的能力的理论保障。综合实验表明,STF-BNN(1)实现了最先进的性能,以进行预测和不确定量化; (2)显着提高对抗性鲁棒性和隐私保护; (3)大大降低了培训时间和内存成本。
translated by 谷歌翻译
尽管基于卷积神经网络(CNN)的组织病理学图像的分类模型,但量化其不确定性是不可行的。此外,当数据偏置时,CNN可以遭受过度装备。我们展示贝叶斯-CNN可以通过自动规范并通过量化不确定性来克服这些限制。我们开发了一种新颖的技术,利用贝叶斯-CNN提供的不确定性,这显着提高了大部分测试数据的性能(约为77%的测试数据的准确性提高了约6%)。此外,我们通过非线性维度降低技术将数据投射到低尺寸空间来提供对不确定性的新颖解释。该维度降低能够通过可视化解释测试数据,并在低维特征空间中揭示数据的结构。我们表明,贝叶斯-CNN可以通过分别将假阴性和假阳性降低11%和7.7%的最先进的转移学习CNN(TL-CNN)来表现出远得更好。它具有仅为186万个参数的这种性能,而TL-CNN的参数仅为134.33亿。此外,我们通过引入随机自适应激活功能来修改贝叶斯-CNN。修改后的贝叶斯-CNN在所有性能指标上的贝叶斯-CNN略胜一筹,并显着降低了误报和误报的数量(两者减少了3%)。我们还表明,通过执行McNemar的统计显着性测试,这些结果具有统计学意义。这项工作显示了贝叶斯-CNN对现有技术的优势,解释并利用组织病理学图像的不确定性。它应该在各种医学图像分类中找到应用程序。
translated by 谷歌翻译
与传统的神经网络(TNN)不同,贝叶斯神经网络(BNNS)是通过掺入随机性来处理对抗性攻击的鲁棒和熟练。这种随机性提高了不确定性的估计,在TNN中缺乏特征。因此,我们研究了BNNS与使用多个贝叶斯神经架构的白盒攻击的鲁棒性。此外,我们通过将这种干预与对抗训练结合起来,通过将贝叶斯推动(即变分别贝叶斯)融合到DENSenet架构和BDAV来创建我们的BNN-DenSenet。实验在CiFar-10和FGVC飞机数据集上进行。我们用强大的白盒攻击攻击模型($ l_ \ infty $ -fgsm,$ l_ \ infty $ -pgd,$ l_2 $ -pgd,eot $ l_ \ idty $ -fgsm,和eot $ l_ \ infty $ - PGD​​)。在所有实验中,至少一个BNN在对抗性攻击场景期间优于传统的神经网络。在大多数实验中,普遍训练的BNN优于非贝叶斯,过性训练的对应物,通常由显着的边缘。最后,我们调查网络校准并发现BNN没有过度自信预测,提供证据,即BNN在测量不确定性时也更好。
translated by 谷歌翻译
Compared to point estimates calculated by standard neural networks, Bayesian neural networks (BNN) provide probability distributions over the output predictions and model parameters, i.e., the weights. Training the weight distribution of a BNN, however, is more involved due to the intractability of the underlying Bayesian inference problem and thus, requires efficient approximations. In this paper, we propose a novel approach for BNN learning via closed-form Bayesian inference. For this purpose, the calculation of the predictive distribution of the output and the update of the weight distribution are treated as Bayesian filtering and smoothing problems, where the weights are modeled as Gaussian random variables. This allows closed-form expressions for training the network's parameters in a sequential/online fashion without gradient descent. We demonstrate our method on several UCI datasets and compare it to the state of the art.
translated by 谷歌翻译
贝叶斯神经网络(BNNS)通过考虑为每个输入的权重和采样不同模型的分布,提供了一种工具来估计神经网络的不确定性。在本文中,我们提出了一种称为变异神经网络的神经网络中不确定性估计的方法,该方法通过使用可学习的子层转换其输入来生成层的输出分布的参数,而是为层的输出分布生成参数。在不确定性质量估计实验中,我们表明VNN与通过反向传播方法相比,VNN比Monte Carlo辍学或贝叶斯获得更好的不确定性质量。
translated by 谷歌翻译
提高黑箱逃避攻击的可转移性的一种既定方法是在基于合奏的替代物上制作对抗性例子,以提高多样性。我们认为可转移性与不确定性根本相关。基于一种最先进的贝叶斯深度学习技术,我们提出了一种新方法,通过大约从神经网络权重的后验分布进行采样来有效地构建代理,这代表了每个参数的价值的信念。我们对Imagenet,CIFAR-10和MNIST进行的广泛实验表明,在内部结构和结构转移性中,我们的方法显着提高了四个最新攻击的成功率(高达83.2个百分点)。在Imagenet上,与经过独立训练的DNN合奏相比,我们的方法可以达到成功率的94%,同时将训练计算从11.6降低到2.4个Exaflops。与为此目的设计的三种测试时间技术相比,我们的香草代理人的可传递性高87.5%。我们的工作表明,训练代理人的方法被忽略了,尽管这是基于转移攻击的重要组成部分。因此,我们是第一个回顾几种培训方法在提高可传递性方面的有效性的。我们提供了新的方向,以更好地了解可转移性现象,并为将来的工作提供简单但强大的基线。
translated by 谷歌翻译
已知深度神经网络(DNN)容易受到用不可察觉的扰动制作的对抗性示例的影响,即,输入图像的微小变化会引起错误的分类,从而威胁着基于深度学习的部署系统的可靠性。经常采用对抗训练(AT)来通过训练损坏和干净的数据的混合物来提高DNN的鲁棒性。但是,大多数基于AT的方法在处理\ textit {转移的对抗示例}方面是无效的,这些方法是生成以欺骗各种防御模型的生成的,因此无法满足现实情况下提出的概括要求。此外,对抗性训练一般的国防模型不能对具有扰动的输入产生可解释的预测,而不同的领域专家则需要一个高度可解释的强大模型才能了解DNN的行为。在这项工作中,我们提出了一种基于Jacobian规范和选择性输入梯度正则化(J-SIGR)的方法,该方法通过Jacobian归一化提出了线性化的鲁棒性,还将基于扰动的显着性图正规化,以模仿模型的可解释预测。因此,我们既可以提高DNN的防御能力和高解释性。最后,我们评估了跨不同体系结构的方法,以针对强大的对抗性攻击。实验表明,提出的J-Sigr赋予了针对转移的对抗攻击的鲁棒性,我们还表明,来自神经网络的预测易于解释。
translated by 谷歌翻译
We propose SWA-Gaussian (SWAG), a simple, scalable, and general purpose approach for uncertainty representation and calibration in deep learning. Stochastic Weight Averaging (SWA), which computes the first moment of stochastic gradient descent (SGD) iterates with a modified learning rate schedule, has recently been shown to improve generalization in deep learning. With SWAG, we fit a Gaussian using the SWA solution as the first moment and a low rank plus diagonal covariance also derived from the SGD iterates, forming an approximate posterior distribution over neural network weights; we then sample from this Gaussian distribution to perform Bayesian model averaging. We empirically find that SWAG approximates the shape of the true posterior, in accordance with results describing the stationary distribution of SGD iterates. Moreover, we demonstrate that SWAG performs well on a wide variety of tasks, including out of sample detection, calibration, and transfer learning, in comparison to many popular alternatives including MC dropout, KFAC Laplace, SGLD, and temperature scaling.
translated by 谷歌翻译
贝叶斯范式有可能解决深度神经网络的核心问题,如校准和数据效率低差。唉,缩放贝叶斯推理到大量的空间通常需要限制近似。在这项工作中,我们表明它足以通过模型权重的小子集进行推动,以便获得准确的预测后断。另一个权重被保存为点估计。该子网推断框架使我们能够在这些子集上使用表现力,否则难以相容的后近近似。特别是,我们将子网线性化LAPLACE作为一种简单,可扩展的贝叶斯深度学习方法:我们首先使用线性化的拉普拉斯近似来获得所有重量的地图估计,然后在子网上推断出全协方差高斯后面。我们提出了一个子网选择策略,旨在最大限度地保护模型的预测性不确定性。经验上,我们的方法对整个网络的集合和较少的表达后近似进行了比较。
translated by 谷歌翻译
深度神经网络易于对异常值过度自信的预测。贝叶斯神经网络和深度融合都已显示在某种程度上减轻了这个问题。在这项工作中,我们的目标是通过提议预测由高斯混合模型的后续的高斯混合模型来结合这两种方法的益处,该高斯混合模型包括独立培训的深神经网络的LAPPALL近似的加权和。该方法可以与任何一组预先训练的网络一起使用,并且与常规合并相比,只需要小的计算和内存开销。理论上我们验证了我们的方法从训练数据中的培训数据和虚拟化的基本线上的标准不确定量级基准测试中的“远离”的过度控制。
translated by 谷歌翻译
贝叶斯神经网络和深度集合代表了深入学习中不确定性量化的两种现代范式。然而,这些方法主要因内存低效率问题而争取,因为它们需要比其确定性对应物高出几倍的参数储存。为了解决这个问题,我们使用少量诱导重量增强每层的重量矩阵,从而将不确定性定量突出到这种低尺寸空间中。我们进一步扩展了Matheron的有条件高斯采样规则,以实现快速的重量采样,这使得我们的推理方法能够与合并相比保持合理的运行时间。重要的是,我们的方法在具有完全连接的神经网络和RESNET的预测和不确定性估算任务中实现了竞争性能,同时将参数大小减少到$单辆$ \ LEQ 24.3 \%$的参数大小神经网络。
translated by 谷歌翻译
在这项工作中,我们使用变分推论来量化无线电星系分类的深度学习模型预测的不确定性程度。我们表明,当标记无线电星系时,个体测试样本的模型后差水平与人类不确定性相关。我们探讨了各种不同重量前沿的模型性能和不确定性校准,并表明稀疏事先产生更良好的校准不确定性估计。使用单个重量的后部分布,我们表明我们可以通过从最低信噪比(SNR)中除去权重来修剪30%的完全连接的层权重,而无需显着损失性能。我们证明,可以使用基于Fisher信息的排名来实现更大程度的修剪,但我们注意到两种修剪方法都会影响Failaroff-Riley I型和II型无线电星系的不确定性校准。最后,我们表明,与此领域的其他工作相比,我们经历了冷的后效,因此后部必须缩小后加权以实现良好的预测性能。我们检查是否调整成本函数以适应模型拼盘可以弥补此效果,但发现它不会产生显着差异。我们还研究了原则数据增强的效果,并发现这改善了基线,而且还没有弥补观察到的效果。我们将其解释为寒冷的后效,因为我们的培训样本过于有效的策划导致可能性拼盘,并将其提高到未来无线电银行分类的潜在问题。
translated by 谷歌翻译
Deep neural networks (DNNs) are one of the most prominent technologies of our time, as they achieve state-of-the-art performance in many machine learning tasks, including but not limited to image classification, text mining, and speech processing. However, recent research on DNNs has indicated ever-increasing concern on the robustness to adversarial examples, especially for security-critical tasks such as traffic sign identification for autonomous driving. Studies have unveiled the vulnerability of a well-trained DNN by demonstrating the ability of generating barely noticeable (to both human and machines) adversarial images that lead to misclassification. Furthermore, researchers have shown that these adversarial images are highly transferable by simply training and attacking a substitute model built upon the target model, known as a black-box attack to DNNs.Similar to the setting of training substitute models, in this paper we propose an effective black-box attack that also only has access to the input (images) and the output (confidence scores) of a targeted DNN. However, different from leveraging attack transferability from substitute models, we propose zeroth order optimization (ZOO) based attacks to directly estimate the gradients of the targeted DNN for generating adversarial examples. We use zeroth order stochastic coordinate descent along with dimension reduction, hierarchical attack and importance sampling techniques to * Pin-Yu Chen and Huan Zhang contribute equally to this work.
translated by 谷歌翻译
We investigate a local reparameterizaton technique for greatly reducing the variance of stochastic gradients for variational Bayesian inference (SGVB) of a posterior over model parameters, while retaining parallelizability. This local reparameterization translates uncertainty about global parameters into local noise that is independent across datapoints in the minibatch. Such parameterizations can be trivially parallelized and have variance that is inversely proportional to the minibatch size, generally leading to much faster convergence. Additionally, we explore a connection with dropout: Gaussian dropout objectives correspond to SGVB with local reparameterization, a scale-invariant prior and proportionally fixed posterior variance. Our method allows inference of more flexibly parameterized posteriors; specifically, we propose variational dropout, a generalization of Gaussian dropout where the dropout rates are learned, often leading to better models. The method is demonstrated through several experiments.
translated by 谷歌翻译
现代深度学习方法构成了令人难以置信的强大工具,以解决无数的挑战问题。然而,由于深度学习方法作为黑匣子运作,因此与其预测相关的不确定性往往是挑战量化。贝叶斯统计数据提供了一种形式主义来理解和量化与深度神经网络预测相关的不确定性。本教程概述了相关文献和完整的工具集,用于设计,实施,列车,使用和评估贝叶斯神经网络,即使用贝叶斯方法培训的随机人工神经网络。
translated by 谷歌翻译
对对抗攻击的脆弱性是在安全至关重要应用中采用深度学习的主要障碍之一。尽管做出了巨大的努力,但无论是实用还是理论上的,培训深度学习模型对对抗性攻击仍然是一个悬而未决的问题。在本文中,我们分析了大数据,贝叶斯神经网络(BNNS)中的对抗性攻击的几何形状。我们表明,在限制下,由于数据分布的堕落而产生了基于梯度的攻击的脆弱性,即当数据位于环境空间的较低维度的亚策略上时。直接结果,我们证明,在此限制下,BNN后代对基于梯度的对抗性攻击是强大的。至关重要的是,我们证明,即使从后部采样的每个神经网络都很容易受到基于梯度的攻击,因此相对于BNN后验分布的预期损失梯度正在消失。 MNIST,时尚MNIST和半卫星数据集的实验结果,代表有限的数据制度,并接受了汉密尔顿蒙特卡洛和变异推理的BNN,支持这一论点,表明BNN可以在清洁数据和稳健性上表现出很高的精度对基于梯度和无梯度的对抗性攻击。
translated by 谷歌翻译
Modern machine learning methods including deep learning have achieved great success in predictive accuracy for supervised learning tasks, but may still fall short in giving useful estimates of their predictive uncertainty. Quantifying uncertainty is especially critical in real-world settings, which often involve input distributions that are shifted from the training distribution due to a variety of factors including sample bias and non-stationarity. In such settings, well calibrated uncertainty estimates convey information about when a model's output should (or should not) be trusted. Many probabilistic deep learning methods, including Bayesian-and non-Bayesian methods, have been proposed in the literature for quantifying predictive uncertainty, but to our knowledge there has not previously been a rigorous largescale empirical comparison of these methods under dataset shift. We present a largescale benchmark of existing state-of-the-art methods on classification problems and investigate the effect of dataset shift on accuracy and calibration. We find that traditional post-hoc calibration does indeed fall short, as do several other previous methods. However, some methods that marginalize over models give surprisingly strong results across a broad spectrum of tasks.
translated by 谷歌翻译