本文提供了解释深层网络模型并解释其预测问题的切入点。它基于ICASSP 2017的一个教程。它介绍了最近提出的一些解释技术,以及理论,技巧和建议,以便在真实数据上充分利用这些技术。它还讨论了许多实用的应用程序。
translated by 谷歌翻译
Even though probabilistic treatments of neural networks have a long history, they have not found widespread use in practice. Sampling approaches are often too slow already for simple networks. The size of the inputs and the depth of typical CNN architectures in computer vision only compound this problem. Uncertainty in neural networks has thus been largely ignored in practice, despite the fact that it may provide important information about the reliability of predictions and the inner workings of the network. In this paper, we introduce two lightweight approaches to making supervised learning with probabilistic deep networks practical: First, we suggest probabilistic output layers for classification and regression that require only minimal changes to existing networks. Second, we employ assumed density filtering and show that activation uncertainties can be propagated in a practical fashion through the entire network, again with minor changes. Both probabilistic networks retain the predictive power of the deterministic counterpart, but yield uncertainties that correlate well with the empirical error induced by their predictions. Moreover, the ro-bustness to adversarial examples is significantly increased.
translated by 谷歌翻译
我们表明,使用批量归一化训练深度网络相当于贝叶斯模型中的近似推理。我们进一步证明,这种求解允许我们使用常规架构对模型不确定性进行有意义的估计,而无需修改网络或训练过程。通过在不同任务的一系列实证实验中测量不确定性的质量,我们的方法得到了充分的验证。它优于具有强统计显着性的基线,并且通过最近的贝叶斯方法显示出竞争性的表现。
translated by 谷歌翻译
人工神经网络是连接系统,它通过学习实例而无需事先了解任务来执行给定任务。这是通过找到每个节点中权重的最佳点估计来完成的。通常,使用点估计作为权重的网络在大数据集中表现良好,但是它们无法在数据很少或没有数据的区域中表达不确定性,从而导致过度自信的决策。在本文中,提出了使用变分推理的贝叶斯卷积神经网络(BayesCNN),它引入了权重的概率分布。此外,所提出的BayesCNN架构适用于图像分类,图像超分辨率和生成对抗网络等。将结果与用于ImageCLassification任务的MNIST,CIFAR-10和CIFAR-100数据集的基于点估计的基础设施,用于图像超分辨率任务的BSD300数据集和用于生成对抗网络任务的onCIFAR10数据集进行比较。 BayesCNN基于Backes的Bayes,它推导出真正的后验变异。因此,我们引入了应用两个卷积运算的想法,一个用于均值,一个用于方差。我们提出的方法不仅在相同的体系结构中实现了等效的tofrequentist推理,而且还包含了不确定性和正则化的测量。它进一步消除了模型中丢失的使用。此外,我们预测模型预测的确定性基于认知和任意不确定性,并根据经验显示不确定性如何降低,使得网络做出的决策随着训练准确性的提高而变得更加确定。最后,我们提出了修剪贝叶斯体系结构并使其更具计算性和时间效率的方法。
translated by 谷歌翻译
深度神经网络(DNN)越来越多地被用于各种安全和关键任务系统中的传感和控制功能,如集体驾驶汽车,自动飞行器,医疗诊断和工业机器人。此类系统的故障可能导致生命或财产损失,这需要严格的验证和验证以提供高保真。虽然正在研究形式验证方法,但测试仍然是评估此类系统可靠性的主要技术。由于DNN处理的任务的性质,获得测试oracle数据的成本---给定输入的预期输出a.k.a.标签是高的,这显着影响了可以执行的测试的数量和质量。因此,优先考虑输入数据以有意义的方式测试DNN以降低标签成本可以大大提高测试效率。本文提出使用DNN的情绪量表来源于模型执行的计算,作为识别输入的手段好像要揭示弱点。我们通过实证评估了三种情感措施的优先级 - 信心,不确定性和企业 - 的效力,并比较了它们在揭示错误的能力和再培训效率方面的有效性。结果表明,情绪措施可以有效地标记暴露不可接受的DNN行为的输入。对于MNIST模型,正确标记的平均输入百分比范围为88%至94.8%。
translated by 谷歌翻译
We are interested in the development of surrogate models for uncertainty quantification and propagation in problems governed by stochastic PDEs using a deep convolutional encoder-decoder network in a similar fashion to approaches considered in deep learning for image-to-image regression tasks. Since normal neural networks are data intensive and cannot provide predic-tive uncertainty, we propose a Bayesian approach to convolutional neural nets. A recently introduced variational gradient descent algorithm based on Stein's method is scaled to deep convolutional networks to perform approximate Bayesian inference on millions of uncertain network parameters. This approach achieves state of the art performance in terms of predictive accuracy and uncertainty quantification in comparison to other approaches in Bayesian neural networks as well as techniques that include Gaussian processes and ensemble methods even when the training data size is relatively small. To evaluate the performance of this approach, we consider standard uncertainty quantification benchmark problems including flow in heterogeneous media defined in terms of limited data-driven permeability realizations. The performance of the surrogate model developed is very good even though there is no underlying structure shared between the input (permeability) and output (flow/pressure) fields as is often the case in the image-to-image regression models used in computer vision problems. Studies are performed with an underlying stochastic input dimensionality up to 4, 225 where most other uncertainty quantification methods fail. Uncertainty propagation tasks are considered and the predictive output Bayesian statistics are compared to those obtained with Monte Carlo estimates.
translated by 谷歌翻译
深度神经网络中的不确定性估计对于设计可靠且稳健的AI系统至关重要。用于识别可疑活动的视频监控等应用程序采用深度神经网络(DNN)设计,但DNN不提供不确定性估计。在安全和安全关键应用程序中捕获可靠的不确定性估计将有助于建立对AI系统的信任。我们的贡献是将贝叶斯深度学习框架应用于视觉活动识别应用和量化模型的不确定性以及原则信心。我们利用变分推理技术训练贝叶斯DNN,推断模型参数周围的近似分布,并在模型参数的后验进行蒙特卡罗采样,以获得预测分布。通过与传统DNN相比,应用于DNN的贝叶斯推断为视觉活动识别任务提供了可靠的置信度测量。我们还表明,与非贝叶斯基线相比,我们的方法将视觉活动识别精度 - 回忆得分提高了6%。我们通过选择分布式视频样本和分布式视频样本的子集来评估我们的Moments-In-Time(MiT)活动识别数据集的模型。
translated by 谷歌翻译
深度神经网络(DNN)已经证明了令人印象深刻的性能不复杂的机器学习任务,如图像分类或语音识别。然而,由于它们的多层非线性结构,它们不是透明的,即,在给定新的看不见的数据样本的情况下,很难掌握使它们到达特定分类或识别决策的原因。最近,已经提出了几种方法,使得人们能够理解和解释DNN中体现的单个testimage的推理。这些方法根据分类决策量化单个像素的“重要性”,并允许根据像素/输入空间中的热图进行可视化。虽然热图的有用性可以由人主观判断,但缺少客观的质量测量。在本文中,我们提出了基于区域扰动的年龄方法,用于评估像素的有序选择,如热图。我们比较了由SUN397,ILSVRC2012和MIT Places数据集上的三种不同方法计算出的热图。我们的主要结果是,最近提出的层次关联传播(LRP)算法定性地和定量地提供了比基于灵敏度的方法或反卷积方法使DNN达到特定分类决策的更好解释。我们提供理论上的解释来解释这个结果并讨论它的实际意义。最后,我们研究了使用热图来进行无监督的神经网络性能评估。
translated by 谷歌翻译
虽然神经网络可以在各种不同的任务(如图像识别或自然语言处理)上实现非常高的预测性能,但它们通常被视为不透明的“黑匣子”。解释神经网络预测的难度常常会妨碍其在可解释性很重要的地方使用,例如监管机构和审计师经常坚持这方面的金融行业。在本文中,我们提出了一种基于模型输出相对于其输入的灵敏度来评估神经网络的相对输入特征重要性的方法。这种方法具有快速计算的优点,它可以提供全局和本地级别的解释,并且适用于许多类型的神经网络架构。我们在合成和实际数据上说明了这种方法的性能,并将其与其他解释技术进行了比较。该方法被实现为一个开源Python包,允许其使用者轻松生成和可视化其神经网络的解释。
translated by 谷歌翻译
虽然机器学习传统上是一项资源密集型任务,但嵌入式系统,自主导航和物联网的愿景加剧了对资源有效方法的兴趣。这些方法需要在性能和资源消耗计算和能量之间进行权衡选择。除此之外,除了最简单的机器学习系统应用之外,以一致的方式处理不确定性至关重要。特别是,任何现实世界系统的需求都要在存在异常值和损坏的数据时保持稳健,以及“了解”其限制,即系统应该保持并提供对其自身预测的不确定性估计。这些复杂的需求是当前机器学习研究中的主要挑战,也是确保机器学习技术顺利过渡到日常应用的关键。在本文中,我们概述了促进这些现实世界的机器学习技术的现状。要求。首先,我们对深度神经网络中的资源效率进行了全面的回顾,重点关注模型尺寸缩小,压缩和降低精度的技术。这些技术可以在训练或aspost处理期间应用,并且被广泛用于降低计算复杂性和内存占用。由于大多数(实际)神经网络在处理不确定性方面受到限制,我们将它们与概率图形模型进行对比,概率图形模型通过概率推理很容易满足这些需求。通过这种方式,我们提供了对现实世界系统中当前最先进的机器人和高效机器学习的广泛概述。
translated by 谷歌翻译
虽然深度神经网络(DNN)的成功在各个领域都已得到很好的建立,但我们解释和解释这些方法的能力是有限的。与先前提出的试图解释特定分类决策的本地方法不同,我们关注全局可解释性并提出一个普遍适用的问题:给定一个训练有素的模型,哪个特征最重要?在神经网络的背景下,一个特征本身并不重要,因此我们的策略专门用于利用部分协方差结构并将变量依赖结合到特征区域中。我们在本文中的方法论贡献是双重的。首先,我们提出了适用于具有高共线预测器(在计算机视觉中普遍存在)的应用的DNN的效应大小模拟。其次,我们将最近提出的“Relative cEntrality”(RATE)度量(Crawford etal。,2019)扩展到贝叶斯深度学习环境。 RATE将信息理论标准应用于效应大小的后验分布,以评估特征意义。我们将框架应用于三个广泛的应用领域:计算机视觉,自然语言处理和社会科学。
translated by 谷歌翻译
PDE系统的替代建模和不确定性量化任务通常被认为是监督学习问题,其中输入和输出数据对用于训练。这种仿真器的构造是通过定义一个小数据问题,这对于已经开发用于在大数据机制中运行的深度学习方法提出了挑战。即使已经证明这些模型在高维度上具有良好的预测能力,它们也无法解决由PD模型隐含的数据中的约束。本文提供了一种方法,将损失/可能性函数中的物理模型的管理方程结合起来。得到的物理学约束的深度学习模型在没有任何标记数据的情况下进行训练(例如仅使用输入数据),并且在遵守手头问题的约束的同时提供与数据驱动模型的可比较的预测响应。这项工作采用卷积编码器 - 解码器神经网络方法以及基于条件流的生成模型,用于解决偏微分方程,替代模型构建和不确定性量化任务。方法论被认为是模型预测密度与参考条件密度之间的反向Kullback-Leibler(KL)偏差的最小化问题,其中后者被定义为给定逆温度下的玻尔兹曼 - 吉布斯分布,其具有与PDE系统相关的潜在电位。出于兴趣。考虑这些模型对分布外输入的泛化能力。针对许多问题提供了预测不确定性的量化和解释。
translated by 谷歌翻译
诸如深度神经网络(DNN)的非线性方法是各种具有挑战性的机器学习问题的金标准,例如图像分类,自然语言处理或人类动作识别。尽管这些方法表现出色,但它们具有明显的缺点,缺乏透明性,限制了解决方案的可解释性,因此限制了实际应用的范围。特别是DNN由于其多层非线性结构而充当黑盒子。在本文中,我们介绍了一种通过将网络分类决策分解为其输入元素的贡献来解释通用多层神经网络的新方法。虽然我们的重点是图像分类,但该方法适用于广泛的输入数据,学习任务和网络架构。我们的方法基于深度泰勒分解,并通过反向传播从输出到输入层的解释来有效地利用网络的结构。我们根据MNIST和ILSVRC数据集凭经验评估所提出的方法。
translated by 谷歌翻译
我们提出了一种适用于信念和神经网络的前馈推理方法。在信念网络中,该方法估计给定输入的所有隐藏单元的近似因子化后验。在神经网络中,该方法通过所有层传播输入的不确定性。在具有注入噪声的神经网络中,该方法在分析上考虑了由该噪声引起的不确定性。这种前馈分析传播在参数上是不同的,并且可以端对端地进行训练。比较标准NN,它可以被视为仅传播均值,我们传播均值和方差。该方法可用于需要知道神经元统计数据的所有场景,例如,在处理不确定输入时,考虑将S形激活作为伯努利单位的概率,训练通过注入噪声(丢失)正则化的模型或估计数据集上的激活统计(根据标准化方法的需要)。在实验中,我们展示了该方法在所有这些任务中的可能效用以及其当前的局限性。
translated by 谷歌翻译
估计AI系统在预测中的不确定性对于提高此类系统的安全性非常重要。预测的不确定性可能源于模型参数的不确定性,不可减少的数据不确定性以及测试和训练数据分布之间分布不匹配的不确定性。根据不确定性的来源可能采取不同的行动,因此能够区分它们是很重要的。最近,已经确定了基线任务和指标,并且已经开发了几种估算不确定性的实用方法。然而,这些方法由于分布不匹配而暗中通过模型不确定性或作为数据不确定性来尝试模型不确定性。这项工作提出了一种新的预测不确定性建模框架,称为先验网络(PNs),它可以明确地模拟分布不确定性。 PN通过在预测分布上参数化aprior分布来实现此目的。这项工作侧重于分类的不确定性,并评估PN识别分布(OOD)样本和检测MNISTdataset错误分类的任务,发现它们优于以前的方法。对合成和MNIST和CIFAR-10数据的实验表明,与以前的非贝叶斯方法不同,PN能够区分数据和分布不确定性。
translated by 谷歌翻译
获得神经网络预测的可靠不确定性估计是一直存在的挑战。贝叶斯神经网络已经被提出作为解决方案,但它仍然是如何指定先验的。特别是,在权重空间中标准正态先验的常规实践仅强加了弱的不规则性,导致后面的函数可能在分布式输入上概括出未预见的方式。我们提出噪声对比驱动器(NCP)。关键思想是训练模型以输出训练分布之外的数据点的高不确定性。 NCP使用inputprior来实现,它将噪声添加到当前迷你批次的输入,以及outputprior,这是给定这些输入的广泛分布。 NCP与任何代表预测不确定性的模型兼容,易于扩展,并且在整个培训过程中具有可靠的不确定性估计。根据经验,我们证明了NCP作为现有基线的补充提供了明显的改进。我们展示了航班延误数据集的可扩展性,其中对先前公布的结果有显着改善。
translated by 谷歌翻译
Deep neural networks are complex and opaque. As they enter application in a variety of important and safety critical domains, users seek methods to explain their output predictions. We develop an approach to explaining deep neural networks by constructing causal models on salient concepts contained in a CNN. We develop methods to extract salient concepts throughout a target network by using autoencoders trained to extract human-understandable representations of network activations. We then build a bayesian causal model using these extracted concepts as variables in order to explain image classification. Finally, we use this causal model to identify and visualize features with significant causal influence on final classification.
translated by 谷歌翻译
可解释的机器学习解决了人类无法理解复杂机器学习模型的行为以及这些分类器如何得出特定决策的重要问题。尽管已经提出了许多方法,但仍然缺乏对成就和挑战的全面理解。本文提供了一项涵盖现有技术和方法的调查,以提高机器学习模型的可解释性,并讨论了未来工作中需要考虑的关键问题,如解释设计原则和评估指标,以推进可解释的机器学习领域。
translated by 谷歌翻译
已经证明深度学习算法在许多经典的机器学习问题上表现得非常好。然而,最近的研究表明,与其他机器学习技术一样,深度学习容易受到对抗样本的影响:强制深入神经网络(DNN)提供的输入提供了对手选择的输出。这种攻击可能严重破坏DNN支持的系统的安全性,有时会带来毁灭性的后果。例如,自动驾驶车辆可能会崩溃,非法内容可以绕过内容过滤器,或者可以操纵生物识别身份验证系统以允许不正当访问。在这项工作中,我们引入了称为防御性蒸馏的防御机制,以降低DNN上对抗性样品的有效性。我们分析性地研究了在训练DNN时使用防御蒸馏所赋予的可归一性和稳健性。我们还通过实证研究了我们的防御机制对两种处于对抗环境中的DNN的有效性。研究表明,在研究的DNN上,防御性蒸馏可以将样品产生的有效性从95%降低到0.5%以下。这种戏剧性的收益可以通过以下事实来解释:蒸馏导致在对侧样本创建中使用的梯度减少10 ^ 30倍。我们还发现,蒸馏增加了需要修改的特征的平均最小数量,以便在我们测试的其中一个DNN上创建对抗样本约800%。
translated by 谷歌翻译
Modern learning algorithms excel at producing accurate but complex models of the data. However, deploying such models in the real-world requires extra care: we must ensure their reliability, robustness, and absence of undesired biases. This motivates development of models that are equally accurate but can be also easily inspected and assessed beyond their predictive performance. To this end, we introduce contextual explanation networks (CENs)-a class of architectures that learn to predict by generating and utilizing intermediate, simplified probabilistic models. Specifically, CENs generate parameters for intermediate graphical models which are further used for prediction and play the role of explanations. Contrary to the existing post-hoc model-explanation tools, CENs learn to predict and to explain jointly. Our approach offers two major advantages: (i) for each prediction, valid, instance-specific explanations are generated with no computational overhead and (ii) prediction via explanation acts as a regularizer and boosts performance in low-resource settings. We analyze the proposed framework theoretically and experimentally. Our results on image and text classification and survival analysis tasks demonstrate that CENs are not only competitive with the state-of-the-art methods but also offer additional insights behind each prediction, that are valuable for decision support. We also show that while post-hoc methods may produce misleading explanations in certain cases, CENs are always consistent and allow to detect such cases systematically.
translated by 谷歌翻译