贝叶斯神经网络(BNNS)已成为缓解深度学习中过度自信预测的主要方法,但由于大量分布参数,它们经常遭受扩展问题。在本文中,我们发现在单独再培训时,深网络的第一层拥有多个不同的Optima。这表示当第一层由贝叶斯层改变时的大后差,这使我们能够设计空间融合BNN(STF-BNN),以便有效地将BNN缩放到大型模型:(1)首先常常培训一个神经网络网络从头开始实现快速训练; (2)第一层被转换为贝叶斯和通过采用随机变分推断推断,而其他层是固定的。与香草BNN相比,我们的方法可以大大减少训练时间和参数的数量,这有助于高效地缩放BNN。我们进一步提供了对概括性和缓解STF-BNN过度限制的能力的理论保障。综合实验表明,STF-BNN(1)实现了最先进的性能,以进行预测和不确定量化; (2)显着提高对抗性鲁棒性和隐私保护; (3)大大降低了培训时间和内存成本。
translated by 谷歌翻译
与传统的神经网络(TNN)不同,贝叶斯神经网络(BNNS)是通过掺入随机性来处理对抗性攻击的鲁棒和熟练。这种随机性提高了不确定性的估计,在TNN中缺乏特征。因此,我们研究了BNNS与使用多个贝叶斯神经架构的白盒攻击的鲁棒性。此外,我们通过将这种干预与对抗训练结合起来,通过将贝叶斯推动(即变分别贝叶斯)融合到DENSenet架构和BDAV来创建我们的BNN-DenSenet。实验在CiFar-10和FGVC飞机数据集上进行。我们用强大的白盒攻击攻击模型($ l_ \ infty $ -fgsm,$ l_ \ infty $ -pgd,$ l_2 $ -pgd,eot $ l_ \ idty $ -fgsm,和eot $ l_ \ infty $ - PGD​​)。在所有实验中,至少一个BNN在对抗性攻击场景期间优于传统的神经网络。在大多数实验中,普遍训练的BNN优于非贝叶斯,过性训练的对应物,通常由显着的边缘。最后,我们调查网络校准并发现BNN没有过度自信预测,提供证据,即BNN在测量不确定性时也更好。
translated by 谷歌翻译
对对抗攻击的脆弱性是在安全至关重要应用中采用深度学习的主要障碍之一。尽管做出了巨大的努力,但无论是实用还是理论上的,培训深度学习模型对对抗性攻击仍然是一个悬而未决的问题。在本文中,我们分析了大数据,贝叶斯神经网络(BNNS)中的对抗性攻击的几何形状。我们表明,在限制下,由于数据分布的堕落而产生了基于梯度的攻击的脆弱性,即当数据位于环境空间的较低维度的亚策略上时。直接结果,我们证明,在此限制下,BNN后代对基于梯度的对抗性攻击是强大的。至关重要的是,我们证明,即使从后部采样的每个神经网络都很容易受到基于梯度的攻击,因此相对于BNN后验分布的预期损失梯度正在消失。 MNIST,时尚MNIST和半卫星数据集的实验结果,代表有限的数据制度,并接受了汉密尔顿蒙特卡洛和变异推理的BNN,支持这一论点,表明BNN可以在清洁数据和稳健性上表现出很高的精度对基于梯度和无梯度的对抗性攻击。
translated by 谷歌翻译
We present a new algorithm to learn a deep neural network model robust against adversarial attacks. Previous algorithms demonstrate an adversarially trained Bayesian Neural Network (BNN) provides improved robustness. We recognize the adversarial learning approach for approximating the multi-modal posterior distribution of a Bayesian model can lead to mode collapse; consequently, the model's achievements in robustness and performance are sub-optimal. Instead, we first propose preventing mode collapse to better approximate the multi-modal posterior distribution. Second, based on the intuition that a robust model should ignore perturbations and only consider the informative content of the input, we conceptualize and formulate an information gain objective to measure and force the information learned from both benign and adversarial training instances to be similar. Importantly. we prove and demonstrate that minimizing the information gain objective allows the adversarial risk to approach the conventional empirical risk. We believe our efforts provide a step toward a basis for a principled method of adversarially training BNNs. Our model demonstrate significantly improved robustness--up to 20%--compared with adversarial training and Adv-BNN under PGD attacks with 0.035 distortion on both CIFAR-10 and STL-10 datasets.
translated by 谷歌翻译
We propose SWA-Gaussian (SWAG), a simple, scalable, and general purpose approach for uncertainty representation and calibration in deep learning. Stochastic Weight Averaging (SWA), which computes the first moment of stochastic gradient descent (SGD) iterates with a modified learning rate schedule, has recently been shown to improve generalization in deep learning. With SWAG, we fit a Gaussian using the SWA solution as the first moment and a low rank plus diagonal covariance also derived from the SGD iterates, forming an approximate posterior distribution over neural network weights; we then sample from this Gaussian distribution to perform Bayesian model averaging. We empirically find that SWAG approximates the shape of the true posterior, in accordance with results describing the stationary distribution of SGD iterates. Moreover, we demonstrate that SWAG performs well on a wide variety of tasks, including out of sample detection, calibration, and transfer learning, in comparison to many popular alternatives including MC dropout, KFAC Laplace, SGLD, and temperature scaling.
translated by 谷歌翻译
虽然已知辍学是一种成功的正规化技术,但仍缺乏对导致成功的机制的见解。我们介绍了\ emph {重量膨胀}的概念,这增加了由权重协方差矩阵的列或行载体跨越的并行曲线的签名体积,并表明重量膨胀是增加PAC中概括的有效手段。 - bayesian设置。我们提供了一个理论上的论点,即辍学会导致体重扩大和对辍学和体重扩张之间相关性的广泛经验支持。为了支持我们的假设,即可以将重量扩张视为增强的概括能力的\ emph {指示器},而不仅仅是副产品,我们还研究了实现重量扩展的其他方法(resp。\ contraction \ contraction ),发现它们通常会导致(分别\ \降低)的概括能力。这表明辍学是一种有吸引力的正规化器,因为它是一种用于获得体重扩展的计算廉价方法。这种洞察力证明了辍学者作为正规化器的作用,同时为确定正规化器铺平了道路,这些正规化器有望通过体重扩张来改善概括。
translated by 谷歌翻译
本文研究了用于训练过度参数化制度中的贝叶斯神经网络(BNN)的变异推理(VI),即当神经元的数量趋于无穷大时。更具体地说,我们考虑过度参数化的两层BNN,并指出平均VI训练中的关键问题。这个问题来自于证据(ELBO)的下限分解为两个术语:一个与模型的可能性函数相对应,第二个对应于kullback-leibler(KL)差异(KL)差异。特别是,我们从理论和经验上都表明,只有当根据观测值和神经元之间的比率适当地重新缩放KL时,在过度参数化制度中,这两个术语之间存在权衡。我们还通过数值实验来说明我们的理论结果,这些实验突出了该比率的关键选择。
translated by 谷歌翻译
Kullback-Leibler(KL)差异广泛用于贝叶斯神经网络(BNNS)的变异推理。然而,KL差异具有无限性和不对称性等局限性。我们检查了更通用,有限和对称的詹森 - 香农(JS)差异。我们根据几何JS差异为BNN制定新的损失函数,并表明基于KL差异的常规损失函数是其特殊情况。我们以封闭形式的高斯先验评估拟议损失函数的差异部分。对于任何其他一般的先验,都可以使用蒙特卡洛近似值。我们提供了实施这两种情况的算法。我们证明所提出的损失函数提供了一个可以调整的附加参数,以控制正则化程度。我们得出了所提出的损失函数在高斯先验和后代的基于KL差异的损失函数更好的条件。我们证明了基于嘈杂的CIFAR数据集和有偏见的组织病理学数据集的最新基于KL差异的BNN的性能提高。
translated by 谷歌翻译
Accurate uncertainty quantification is a major challenge in deep learning, as neural networks can make overconfident errors and assign high confidence predictions to out-of-distribution (OOD) inputs. The most popular approaches to estimate predictive uncertainty in deep learning are methods that combine predictions from multiple neural networks, such as Bayesian neural networks (BNNs) and deep ensembles. However their practicality in real-time, industrial-scale applications are limited due to the high memory and computational cost. Furthermore, ensembles and BNNs do not necessarily fix all the issues with the underlying member networks. In this work, we study principled approaches to improve uncertainty property of a single network, based on a single, deterministic representation. By formalizing the uncertainty quantification as a minimax learning problem, we first identify distance awareness, i.e., the model's ability to quantify the distance of a testing example from the training data, as a necessary condition for a DNN to achieve high-quality (i.e., minimax optimal) uncertainty estimation. We then propose Spectral-normalized Neural Gaussian Process (SNGP), a simple method that improves the distance-awareness ability of modern DNNs with two simple changes: (1) applying spectral normalization to hidden weights to enforce bi-Lipschitz smoothness in representations and (2) replacing the last output layer with a Gaussian process layer. On a suite of vision and language understanding benchmarks, SNGP outperforms other single-model approaches in prediction, calibration and out-of-domain detection. Furthermore, SNGP provides complementary benefits to popular techniques such as deep ensembles and data augmentation, making it a simple and scalable building block for probabilistic deep learning. Code is open-sourced at https://github.com/google/uncertainty-baselines
translated by 谷歌翻译
深度神经网络易于对异常值过度自信的预测。贝叶斯神经网络和深度融合都已显示在某种程度上减轻了这个问题。在这项工作中,我们的目标是通过提议预测由高斯混合模型的后续的高斯混合模型来结合这两种方法的益处,该高斯混合模型包括独立培训的深神经网络的LAPPALL近似的加权和。该方法可以与任何一组预先训练的网络一起使用,并且与常规合并相比,只需要小的计算和内存开销。理论上我们验证了我们的方法从训练数据中的培训数据和虚拟化的基本线上的标准不确定量级基准测试中的“远离”的过度控制。
translated by 谷歌翻译
在不确定,嘈杂或对抗性环境中学习是深度神经网络(DNN)的具有挑战性的任务。我们提出了一种在贝叶斯估计和变分推理时构建的强大学习的新理论上和有效的方法。我们制定通过DNN层层的密度传播的问题,并使用集合密度传播(ENDP)方案来解决它。ENPP方法允许我们在贝叶斯DNN的层上传播变分概率分布的片段,使得能够估计模型输出的预测分布的平均值和协方差。我们使用Mnist和CiFar-10数据集的实验表明,训练有素的模型的鲁棒性与随机噪声和对抗性攻击的稳健性显着改善。
translated by 谷歌翻译
贝叶斯神经网络和深度集合代表了深入学习中不确定性量化的两种现代范式。然而,这些方法主要因内存低效率问题而争取,因为它们需要比其确定性对应物高出几倍的参数储存。为了解决这个问题,我们使用少量诱导重量增强每层的重量矩阵,从而将不确定性定量突出到这种低尺寸空间中。我们进一步扩展了Matheron的有条件高斯采样规则,以实现快速的重量采样,这使得我们的推理方法能够与合并相比保持合理的运行时间。重要的是,我们的方法在具有完全连接的神经网络和RESNET的预测和不确定性估算任务中实现了竞争性能,同时将参数大小减少到$单辆$ \ LEQ 24.3 \%$的参数大小神经网络。
translated by 谷歌翻译
提高黑箱逃避攻击的可转移性的一种既定方法是在基于合奏的替代物上制作对抗性例子,以提高多样性。我们认为可转移性与不确定性根本相关。基于一种最先进的贝叶斯深度学习技术,我们提出了一种新方法,通过大约从神经网络权重的后验分布进行采样来有效地构建代理,这代表了每个参数的价值的信念。我们对Imagenet,CIFAR-10和MNIST进行的广泛实验表明,在内部结构和结构转移性中,我们的方法显着提高了四个最新攻击的成功率(高达83.2个百分点)。在Imagenet上,与经过独立训练的DNN合奏相比,我们的方法可以达到成功率的94%,同时将训练计算从11.6降低到2.4个Exaflops。与为此目的设计的三种测试时间技术相比,我们的香草代理人的可传递性高87.5%。我们的工作表明,训练代理人的方法被忽略了,尽管这是基于转移攻击的重要组成部分。因此,我们是第一个回顾几种培训方法在提高可传递性方面的有效性的。我们提供了新的方向,以更好地了解可转移性现象,并为将来的工作提供简单但强大的基线。
translated by 谷歌翻译
Deep neural networks achieve high prediction accuracy when the train and test distributions coincide. In practice though, various types of corruptions occur which deviate from this setup and cause severe performance degradations. Few methods have been proposed to address generalization in the presence of unforeseen domain shifts. In particular, digital noise corruptions arise commonly in practice during the image acquisition stage and present a significant challenge for current robustness approaches. In this paper, we propose a diverse Gaussian noise consistency regularization method for improving robustness of image classifiers under a variety of noise corruptions while still maintaining high clean accuracy. We derive bounds to motivate and understand the behavior of our Gaussian noise consistency regularization using a local loss landscape analysis. We show that this simple approach improves robustness against various unforeseen noise corruptions by 4.2-18.4% over adversarial training and other strong diverse data augmentation baselines across several benchmarks. Furthermore, when combined with state-of-the-art diverse data augmentation techniques, experiments against state-of-the-art show our method further improves robustness accuracy by 3.7% and uncertainty calibration by 5.5% for all common corruptions on several image classification benchmarks.
translated by 谷歌翻译
本文试图通过域的适应来建立新兴超模型范式的理论基础,其中首先训练一个非常大的模型,{\ it i.e.},超级模型(或其他论文中的基础模型),大量数据,然后将其调整到各种特定域。超模型范式有助于减少计算和数据成本和碳排放,这对AI行业至关重要,尤其是中小型企业。我们将超模型范式建模为两个阶段的扩散过程:(1)在训练阶段,模型参数从随机缩写和收敛到稳定分布; (2)在微调阶段,模型参数被运输到另一个稳定分布。两个训练阶段都可以通过Uhlenbeck-ornstein过程进行数学建模,该过程分别收敛到两个Maxwell-Boltzmann分布,每个分布都表征了相应的收敛模型。然后,通过PAC-Bayesian Framework建立了$ \ Mathcal O(1/\ sqrt {n})$概括。该理论发现,微调阶段的概括误差在域适应中是主要的。此外,我们的理论表明,概括是由一种新的度量确定的,该新度量是根据协方差矩阵和融合局部最小值的转移来表征源域和目标域之间域差异的。
translated by 谷歌翻译
现代深度学习方法构成了令人难以置信的强大工具,以解决无数的挑战问题。然而,由于深度学习方法作为黑匣子运作,因此与其预测相关的不确定性往往是挑战量化。贝叶斯统计数据提供了一种形式主义来理解和量化与深度神经网络预测相关的不确定性。本教程概述了相关文献和完整的工具集,用于设计,实施,列车,使用和评估贝叶斯神经网络,即使用贝叶斯方法培训的随机人工神经网络。
translated by 谷歌翻译
现代神经网络Excel在图像分类中,但它们仍然容易受到常见图像损坏,如模糊,斑点噪音或雾。最近的方法关注这个问题,例如Augmix和Deepaulment,引入了在预期运行的防御,以期望图像损坏分布。相比之下,$ \ ell_p $ -norm界限扰动的文献侧重于针对最坏情况损坏的防御。在这项工作中,我们通过提出防范内人来调和两种方法,这是一种优化图像到图像模型的参数来产生对外损坏的增强图像的技术。我们理论上激发了我们的方法,并为其理想化版本的一致性以及大纲领提供了足够的条件。我们的分类机器在预期对CiFar-10-C进行的常见图像腐败基准上提高了最先进的,并改善了CIFAR-10和ImageNet上的$ \ ell_p $ -norm有界扰动的最坏情况性能。
translated by 谷歌翻译
在对抗文献中,鲁棒性和准确性之间的权衡得到了广泛的研究。尽管仍然有争议,但普遍的观点是,从经验或理论上,这种权衡是固有的。因此,我们在对抗训练中挖掘了这种权衡的起源,发现它可能源于不当定义的可靠错误,该错误施加了局部不变性的诱导偏见 - 对平稳性的过度校正。鉴于此,我们主张采用局部模棱两可来描述健壮模型的理想行为,从而导致自洽的强大错误称为得分。根据定义,得分有助于稳健性与准确性之间的对帐,同时仍通过稳健优化处理最坏情况的不确定性。通过简单地将KL差异替换为距离指标的变体,得分可以有效地最小化。从经验上讲,我们的模型在AutoAttact下的强力板上实现了最高的性能。此外,得分提供了指导性见解,以解释在健壮模型上观察到的过度拟合现象和语义输入梯度。代码可在https://github.com/p2333/score上找到。
translated by 谷歌翻译
从历史上看,机器学习方法尚未考虑安全性。反过来,这使得对普发阿的例子产生了上升,仔细扰动的输入样本旨在在测试时间误导检测,这已被应用于攻击垃圾邮件和恶意软件分类,以及最近攻击图像分类。因此,对设计对逆势示例具有鲁棒的机器学习方法已经致力于设计丰富的研究。不幸的是,除了坚固的机器学习模型必须满足,如公平和隐私,还有颠覆性。宋等人最近的工作。 (2019)经验上显示,强大和私人机器学习模型之间存在权衡。设计为强大的对抗性示例的模型通常会在培训数据上过度超过标准(非鲁棒)模型。如果数据集包含私人信息,那么通过观察模型的输出分隔训练和测试数据的任何统计测试都可以代表隐私漏洞,如果培训数据的模型过度,这些统计测试变得更容易。在这项工作中,我们确定标准型号在与强大的模型相比的更大程度上的设置,以及在以前的作品中经验观察到的情况,发生相反行为的设置。因此,不一定是必须牺牲隐私以实现稳健性的情况。过度的程度自然取决于可用于培训的数据量。我们继续,以培训在简单的高斯数据任务中培训强大的模型,培训培训规模因素的特点是如何通过培训一个强大的高斯数据任务,并验证我们的研究结果在图像分类基准数据集上,例如Cifar-10和CiFar-100 。
translated by 谷歌翻译
对抗性可转移性是一种有趣的性质 - 针对一个模型制作的对抗性扰动也是对另一个模型有效的,而这些模型来自不同的模型家庭或培训过程。为了更好地保护ML系统免受对抗性攻击,提出了几个问题:对抗性转移性的充分条件是什么,以及如何绑定它?有没有办法降低对抗的转移性,以改善合奏ML模型的鲁棒性?为了回答这些问题,在这项工作中,我们首先在理论上分析和概述了模型之间的对抗性可转移的充分条件;然后提出一种实用的算法,以减少集合内基础模型之间的可转换,以提高其鲁棒性。我们的理论分析表明,只有促进基础模型梯度之间的正交性不足以确保低可转移性;与此同时,模型平滑度是控制可转移性的重要因素。我们还在某些条件下提供了对抗性可转移性的下界和上限。灵感来自我们的理论分析,我们提出了一种有效的可转让性,减少了平滑(TRS)集合培训策略,以通过实施基础模型之间的梯度正交性和模型平滑度来培训具有低可转换性的强大集成。我们对TRS进行了广泛的实验,并与6个最先进的集合基线进行比较,防止不同数据集的8个白箱攻击,表明所提出的TRS显着优于所有基线。
translated by 谷歌翻译