显着的方法已被广泛用于突出模型预测中的重要输入功能。大多数现有方法在修改的渐变函数上使用BackPropagation来生成显着性图。因此,嘈杂的渐变可能会导致不忠的特征属性。在本文中,我们解决了这个问题,并为神经网络引入了一个{\ IT显着指导训练}程序,以减少预测中使用的嘈杂渐变,同时保留了模型的预测性能。我们的显着指导训练程序迭代地掩盖小型和潜在的嘈杂渐变的功能,同时最大化模型输出的相似性,对于屏蔽和揭示的输入。我们将显着的指导培训程序从计算机视觉,自然语言处理和时间序列中的各种合成和实际数据集应用于各种神经结构,包括经常性神经网络,卷积网络和变压器。通过定性和定量评估,我们表明,在保留其预测性能的同时,显着的导向培训程序显着提高了各个领域的模型解释性。
translated by 谷歌翻译
深度神经网络的可解释性方法主要集中于类得分相对于原始或扰动输入的敏感性,通常使用实际或修改的梯度测量。某些方法还使用模型不足的方法来理解每个预测背后的基本原理。在本文中,我们争论并证明了模型参数空间相对于输入的局部几何形状也可以有益于改善事后解释。为了实现这一目标,我们引入了一种称为“几何引导的集成梯度”的可解释性方法,该方法沿线性路径的梯度计算以传统上用于集成梯度方法中的方式构建。但是,我们的方法没有集成梯度信息,而是从输入的多个缩放版本中探索了模型的动态行为,并捕获了每个输入的最佳归因。我们通过广泛的实验证明,所提出的方法在主观和定量评估中的表现优于香草和综合梯度。我们还提出了“模型扰动”理智检查,以补充传统使用的“模型随机化”测试。
translated by 谷歌翻译
Explainability has been widely stated as a cornerstone of the responsible and trustworthy use of machine learning models. With the ubiquitous use of Deep Neural Network (DNN) models expanding to risk-sensitive and safety-critical domains, many methods have been proposed to explain the decisions of these models. Recent years have also seen concerted efforts that have shown how such explanations can be distorted (attacked) by minor input perturbations. While there have been many surveys that review explainability methods themselves, there has been no effort hitherto to assimilate the different methods and metrics proposed to study the robustness of explanations of DNN models. In this work, we present a comprehensive survey of methods that study, understand, attack, and defend explanations of DNN models. We also present a detailed review of different metrics used to evaluate explanation methods, as well as describe attributional attack and defense methods. We conclude with lessons and take-aways for the community towards ensuring robust explanations of DNN model predictions.
translated by 谷歌翻译
众所周知,端到端的神经NLP体系结构很难理解,这引起了近年来为解释性建模的许多努力。模型解释的基本原则是忠诚,即,解释应准确地代表模型预测背后的推理过程。这项调查首先讨论了忠诚的定义和评估及其对解释性的意义。然后,我们通过将方法分为五类来介绍忠实解释的最新进展:相似性方法,模型内部结构的分析,基于反向传播的方法,反事实干预和自我解释模型。每个类别将通过其代表性研究,优势和缺点来说明。最后,我们从它们的共同美德和局限性方面讨论了上述所有方法,并反思未来的工作方向忠实的解释性。对于有兴趣研究可解释性的研究人员,这项调查将为该领域提供可访问且全面的概述,为进一步探索提供基础。对于希望更好地了解自己的模型的用户,该调查将是一项介绍性手册,帮助选择最合适的解释方法。
translated by 谷歌翻译
随着深度神经网络的兴起,解释这些网络预测的挑战已经越来越识别。虽然存在许多用于解释深度神经网络的决策的方法,但目前没有关于如何评估它们的共识。另一方面,鲁棒性是深度学习研究的热门话题;但是,在最近,几乎没有谈论解释性。在本教程中,我们首先呈现基于梯度的可解释性方法。这些技术使用梯度信号来分配对输入特征的决定的负担。后来,我们讨论如何为其鲁棒性和对抗性的鲁棒性在具有有意义的解释中扮演的作用来评估基于梯度的方法。我们还讨论了基于梯度的方法的局限性。最后,我们提出了在选择解释性方法之前应检查的最佳实践和属性。我们结束了未来在稳健性和解释性融合的地区研究的研究。
translated by 谷歌翻译
As the societal impact of Deep Neural Networks (DNNs) grows, the goals for advancing DNNs become more complex and diverse, ranging from improving a conventional model accuracy metric to infusing advanced human virtues such as fairness, accountability, transparency (FaccT), and unbiasedness. Recently, techniques in Explainable Artificial Intelligence (XAI) are attracting considerable attention, and have tremendously helped Machine Learning (ML) engineers in understanding AI models. However, at the same time, we started to witness the emerging need beyond XAI among AI communities; based on the insights learned from XAI, how can we better empower ML engineers in steering their DNNs so that the model's reasonableness and performance can be improved as intended? This article provides a timely and extensive literature overview of the field Explanation-Guided Learning (EGL), a domain of techniques that steer the DNNs' reasoning process by adding regularization, supervision, or intervention on model explanations. In doing so, we first provide a formal definition of EGL and its general learning paradigm. Secondly, an overview of the key factors for EGL evaluation, as well as summarization and categorization of existing evaluation procedures and metrics for EGL are provided. Finally, the current and potential future application areas and directions of EGL are discussed, and an extensive experimental study is presented aiming at providing comprehensive comparative studies among existing EGL models in various popular application domains, such as Computer Vision (CV) and Natural Language Processing (NLP) domains.
translated by 谷歌翻译
越来越多的电子健康记录(EHR)数据和深度学习技术进步的越来越多的可用性(DL)已经引发了在开发基于DL的诊断,预后和治疗的DL临床决策支持系统中的研究兴趣激增。尽管承认医疗保健的深度学习的价值,但由于DL的黑匣子性质,实际医疗环境中进一步采用的障碍障碍仍然存在。因此,有一个可解释的DL的新兴需求,它允许最终用户评估模型决策,以便在采用行动之前知道是否接受或拒绝预测和建议。在这篇综述中,我们专注于DL模型在医疗保健中的可解释性。我们首先引入深入解释性的方法,并作为该领域的未来研究人员或临床从业者的方法参考。除了这些方法的细节之外,我们还包括对这些方法的优缺点以及它们中的每个场景都适合的讨论,因此感兴趣的读者可以知道如何比较和选择它们供使用。此外,我们讨论了这些方法,最初用于解决一般域问题,已经适应并应用于医疗保健问题以及如何帮助医生更好地理解这些数据驱动技术。总的来说,我们希望这项调查可以帮助研究人员和从业者在人工智能(AI)和临床领域了解我们为提高其DL模型的可解释性并相应地选择最佳方法。
translated by 谷歌翻译
深层神经网络以其对各种机器学习和人工智能任务的精湛处理而闻名。但是,由于其过度参数化的黑盒性质,通常很难理解深层模型的预测结果。近年来,已经提出了许多解释工具来解释或揭示模型如何做出决策。在本文中,我们回顾了这一研究,并尝试进行全面的调查。具体来说,我们首先介绍并阐明了人们通常会感到困惑的两个基本概念 - 解释和解释性。为了解决解释中的研究工作,我们通过提出新的分类法来阐述许多解释算法的设计。然后,为了了解解释结果,我们还调查了评估解释算法的性能指标。此外,我们总结了使用“可信赖”解释算法评估模型的解释性的当前工作。最后,我们审查并讨论了深层模型的解释与其他因素之间的联系,例如对抗性鲁棒性和从解释中学习,并介绍了一些开源库,以解释算法和评估方法。
translated by 谷歌翻译
深度学习的显着成功引起了人们对医学成像诊断的应用的兴趣。尽管最新的深度学习模型在分类不同类型的医学数据方面已经达到了人类水平的准确性,但这些模型在临床工作流程中几乎不采用,这主要是由于缺乏解释性。深度学习模型的黑盒子性提出了制定策略来解释这些模型的决策过程的必要性,从而导致了可解释的人工智能(XAI)主题的创建。在这种情况下,我们对应用于医学成像诊断的XAI进行了详尽的调查,包括视觉,基于示例和基于概念的解释方法。此外,这项工作回顾了现有的医学成像数据集和现有的指标,以评估解释的质量。此外,我们还包括一组基于报告生成的方法的性能比较。最后,还讨论了将XAI应用于医学成像以及有关该主题的未来研究指示的主要挑战。
translated by 谷歌翻译
Saliency methods compute heat maps that highlight portions of an input that were most {\em important} for the label assigned to it by a deep net. Evaluations of saliency methods convert this heat map into a new {\em masked input} by retaining the $k$ highest-ranked pixels of the original input and replacing the rest with \textquotedblleft uninformative\textquotedblright\ pixels, and checking if the net's output is mostly unchanged. This is usually seen as an {\em explanation} of the output, but the current paper highlights reasons why this inference of causality may be suspect. Inspired by logic concepts of {\em completeness \& soundness}, it observes that the above type of evaluation focuses on completeness of the explanation, but ignores soundness. New evaluation metrics are introduced to capture both notions, while staying in an {\em intrinsic} framework -- i.e., using the dataset and the net, but no separately trained nets, human evaluations, etc. A simple saliency method is described that matches or outperforms prior methods in the evaluations. Experiments also suggest new intrinsic justifications, based on soundness, for popular heuristic tricks such as TV regularization and upsampling.
translated by 谷歌翻译
采用注意机制的普遍性引起了人们对注意力分布的解释性的关注。尽管它提供了有关模型如何运行的见解,但由于对模型预测的解释仍然非常怀疑,但它利用了注意力。社区仍在寻求更容易解释的策略,以更好地识别最终决定最大的本地活跃地区。为了提高现有注意模型的解释性,我们提出了一种新型的双线性代表性非参数注意(BR-NPA)策略,该策略捕获了与任务相关的人类解剖信息。目标模型首先要蒸馏以具有高分辨率中间特征图。然后,根据本地成对特征相似性将代表性特征分组,以产生更精确的,更精确的注意力图,突出显示输入的任务相关部分。获得的注意图根据化合物特征的活性水平进行对,该功能提供了有关突出显示区域的重要水平的信息。提出的模型可以很容易地在涉及分类的各种现代深层模型中进行调整。与最先进的注意力模型和可视化方法相比,广泛的定量和定性实验显示了更全面和准确的视觉解释,以及跨多个任务的可视化方法,包括细粒度的图像分类,很少的射击分类和人重新识别,而无需损害该方法分类精度。提出的可视化模型急切地阐明了神经网络如何在不同任务中以不同的方式“注意他们的注意力”。
translated by 谷歌翻译
缺失或缺乏输入功能,是许多模型调试工具的基础概念。但是,在计算机视觉中,不能简单地从图像中删除像素。因此,一种倾向于诉诸启发式方法,例如涂黑像素,这反过来又可能引入调试过程中的偏见。我们研究了这样的偏见,特别是展示了基于变压器的架构如何使遗失性更自然地实施,哪些侧架来侧翼这些问题并提高了实践中模型调试的可靠性。我们的代码可从https://github.com/madrylab/missingness获得
translated by 谷歌翻译
作为当今最受欢迎的机器学习模型之一,Graph神经网络(GNN)最近引起了激烈的兴趣,其解释性也引起了人们的兴趣。用户对更好地了解GNN模型及其结果越来越感兴趣。不幸的是,当今的GNN评估框架通常依赖于合成数据集,从而得出有限范围的结论,因为问题实例缺乏复杂性。由于GNN模型被部署到更关键的任务应用程序中,因此我们迫切需要使用GNN解释性方法的共同评估协议。在本文中,据我们最大的知识,我们提出了针对GNN解释性的第一个系统评估框架,考虑了三种不同的“用户需求”的解释性:解释焦点,掩盖性质和掩蔽转换。我们提出了一个独特的指标,该指标将忠诚度措施结合在一起,并根据其足够或必要的质量对解释进行分类。我们将自己范围用于节点分类任务,并比较GNN的输入级解释性领域中最具代表性的技术。对于广泛使用的合成基准测试,令人惊讶的是,诸如个性化Pagerank之类的浅水技术在最小计算时间内具有最佳性能。但是,当图形结构更加复杂并且节点具有有意义的特征时,根据我们的评估标准,基于梯度的方法,尤其是显着性。但是,没有人在所有评估维度上占主导地位,而且总会有一个权衡。我们在eBay图上的案例研究中进一步应用了我们的评估协议,以反映生产环境。
translated by 谷歌翻译
当代预测模型很难解释,因为他们的深网利用了输入要素之间的许多复杂关系。这项工作通过测量相关特征对网络相对于输入的功能熵的贡献,提出了模型可解释性的理论框架。我们依赖于对数 - 索波列夫的不等式,该不平等是通过功能性渔民信息与数据的协方差界定功能熵的。这提供了一种衡量特征子集对决策功能的信息贡献的原则方法。通过广泛的实验,我们表明我们的方法超过了基于图像,文本和音频等各种数据信号的现有基于基于可解释性抽样的方法。
translated by 谷歌翻译
这项工作解决了中央机器学习问题的问题,即在分布(OOD)测试集上的性能降解问题。这个问题在基于医学成像的诊断系统中尤为明显,该系统似乎是准确的,但在新医院/数据集中进行测试时失败。最近的研究表明,该系统可能会学习快捷方式和非相关功能,而不是可推广的功能,即所谓的良好功能。我们假设对抗性训练可以消除快捷方式功能,而显着性训练可以滤除非相关功能。两者都是OOD测试集的性能降解的滋扰功能。因此,我们为深度神经网络制定了一种新颖的模型培训方案,以学习分类和/或检测任务的良好功能,以确保在OOD测试集上的概括性性能。实验结果定性和定量证明了我们使用基准CXR图像数据集在分类任务上的基准CXR图像数据集的出色性能。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
了解深度神经网络的结果是朝着更广泛接受深度学习算法的重要步骤。许多方法解决了解释人工神经网络的问题,但通常提供不同的解释。此外,不同的解释方法的超级公路可能导致互相冲突。在本文中,我们提出了一种使用受限制的Boltzmann机器(RBMS)来聚合不同解释算法的特征归属的技术,以实现对深神经网络的更可靠和坚固的解释。关于现实世界数据集的几个具有挑战性的实验表明,所提出的RBM方法优于流行的特征归因方法和基本集合技术。
translated by 谷歌翻译
Deep Learning and Machine Learning based models have become extremely popular in text processing and information retrieval. However, the non-linear structures present inside the networks make these models largely inscrutable. A significant body of research has focused on increasing the transparency of these models. This article provides a broad overview of research on the explainability and interpretability of natural language processing and information retrieval methods. More specifically, we survey approaches that have been applied to explain word embeddings, sequence modeling, attention modules, transformers, BERT, and document ranking. The concluding section suggests some possible directions for future research on this topic.
translated by 谷歌翻译
We propose an empirical measure of the approximate accuracy of feature importance estimates in deep neural networks. Our results across several large-scale image classification datasets show that many popular interpretability methods produce estimates of feature importance that are not better than a random designation of feature importance. Only certain ensemble based approaches-VarGrad and SmoothGrad-Squared-outperform such a random assignment of importance. The manner of ensembling remains critical, we show that some approaches do no better then the underlying method but carry a far higher computational burden.
translated by 谷歌翻译