尽管在最近的文献中提出了几种类型的事后解释方法(例如,特征归因方法),但在系统地以有效且透明的方式进行系统基准测试这些方法几乎没有工作。在这里,我们介绍了OpenXai,这是一个全面且可扩展的开源框架,用于评估和基准测试事后解释方法。 OpenXAI由以下关键组件组成:(i)灵活的合成数据生成器以及各种现实世界数据集,预训练的模型和最新功能属性方法的集合,(ii)开源实现22个定量指标,用于评估忠诚,稳定性(稳健性)和解释方法的公平性,以及(iii)有史以来第一个公共XAI XAI排行榜对基准解释。 OpenXAI很容易扩展,因为用户可以轻松地评估自定义说明方法并将其纳入我们的排行榜。总体而言,OpenXAI提供了一种自动化的端到端管道,该管道不仅简化并标准化了事后解释方法的评估,而且还促进了基准这些方法的透明度和可重复性。 OpenXAI数据集和数据加载程序,最先进的解释方法的实现和评估指标以及排行榜,可在https://open-xai.github.io/上公开获得。
translated by 谷歌翻译
由于事后解释方法越来越多地被利用以在高风险环境中解释复杂的模型,因此确保在包括少数群体在内的各个种群亚组中,所得解释的质量始终高。例如,与与其他性别相关的实例(例如,女性)相关的实例(例如,女性)的说明不应该是与其他性别相关的解释。但是,几乎没有研究能够评估通过最先进的解释方法在输出的解释质量上是否存在这种基于群体的差异。在这项工作中,我们通过启动确定基于群体的解释质量差异的研究来解决上述差距。为此,我们首先概述了构成解释质量以及差异尤其有问题的关键属性。然后,我们利用这些属性提出了一个新的评估框架,该框架可以通过最新方法定量测量解释质量的差异。使用此框架,我们进行了严格的经验分析,以了解是否出现了解释质量的基于小组的差异。我们的结果表明,当所解释的模型复杂且高度非线性时,这种差异更可能发生。此外,我们还观察到某些事后解释方法(例如,综合梯度,外形)更有可能表现出上述差异。据我们所知,这项工作是第一个强调和研究解释质量差异的问题。通过这样做,我们的工作阐明了以前未开发的方式,其中解释方法可能在现实世界决策中引入不公平。
translated by 谷歌翻译
As machine learning black boxes are increasingly being deployed in domains such as healthcare and criminal justice, there is growing emphasis on building tools and techniques for explaining these black boxes in an interpretable manner. Such explanations are being leveraged by domain experts to diagnose systematic errors and underlying biases of black boxes. In this paper, we demonstrate that post hoc explanations techniques that rely on input perturbations, such as LIME and SHAP, are not reliable. Specifically, we propose a novel scaffolding technique that effectively hides the biases of any given classifier by allowing an adversarial entity to craft an arbitrary desired explanation. Our approach can be used to scaffold any biased classifier in such a way that its predictions on the input data distribution still remain biased, but the post hoc explanations of the scaffolded classifier look innocuous. Using extensive evaluation with multiple real world datasets (including COMPAS), we demonstrate how extremely biased (racist) classifiers crafted by our framework can easily fool popular explanation techniques such as LIME and SHAP into generating innocuous explanations which do not reflect the underlying biases. CCS CONCEPTS• Computing methodologies → Machine learning; Supervised learning by classification; • Human-centered computing → Interactive systems and tools.
translated by 谷歌翻译
Explainability has been widely stated as a cornerstone of the responsible and trustworthy use of machine learning models. With the ubiquitous use of Deep Neural Network (DNN) models expanding to risk-sensitive and safety-critical domains, many methods have been proposed to explain the decisions of these models. Recent years have also seen concerted efforts that have shown how such explanations can be distorted (attacked) by minor input perturbations. While there have been many surveys that review explainability methods themselves, there has been no effort hitherto to assimilate the different methods and metrics proposed to study the robustness of explanations of DNN models. In this work, we present a comprehensive survey of methods that study, understand, attack, and defend explanations of DNN models. We also present a detailed review of different metrics used to evaluate explanation methods, as well as describe attributional attack and defense methods. We conclude with lessons and take-aways for the community towards ensuring robust explanations of DNN model predictions.
translated by 谷歌翻译
由于机器学习模型变得越来越复杂和他们的应用程序变得越来越高赌注的,用于解释模型预测工具已经变得越来越重要。这促使模型explainability研究乱舞,并已引起了功能属性的方法,如石灰和SHAP。尽管它们的广泛使用,评价和比较不同功能属性的方法仍然具有挑战性:评价非常需要人的研究,以及实证评价指标往往是数据密集型或真实世界的数据集的计算望而却步。与基准特征归属算法库以及一套综合数据集:在这项工作中,我们通过释放XAI,台式解决这个问题。不同于现实世界的数据集,合成数据集允许那些需要评估地面实况夏普利值等指标的条件期望值的高效计算。我们释放合成的数据集提供了多种可配置模拟真实世界的数据参数。我们通过在多个评价指标和跨多种设置基准流行explainability技术展示我们的图书馆的力量。我们图书馆的多功能性和效率将有助于研究人员把他们的explainability方法从开发到部署。我们的代码可在https://github.com/abacusai/xai-bench。
translated by 谷歌翻译
Interpretability provides a means for humans to verify aspects of machine learning (ML) models and empower human+ML teaming in situations where the task cannot be fully automated. Different contexts require explanations with different properties. For example, the kind of explanation required to determine if an early cardiac arrest warning system is ready to be integrated into a care setting is very different from the type of explanation required for a loan applicant to help determine the actions they might need to take to make their application successful. Unfortunately, there is a lack of standardization when it comes to properties of explanations: different papers may use the same term to mean different quantities, and different terms to mean the same quantity. This lack of a standardized terminology and categorization of the properties of ML explanations prevents us from both rigorously comparing interpretable machine learning methods and identifying what properties are needed in what contexts. In this work, we survey properties defined in interpretable machine learning papers, synthesize them based on what they actually measure, and describe the trade-offs between different formulations of these properties. In doing so, we enable more informed selection of task-appropriate formulations of explanation properties as well as standardization for future work in interpretable machine learning.
translated by 谷歌翻译
由于事后解释越来越多地用于了解图神经网络(GNN)的行为,因此评估GNN解释的质量和可靠性至关重要。但是,评估GNN解释的质量是具有挑战性的,因为现有的图形数据集对给定任务没有或不可靠的基础真相解释。在这里,我们介绍了一个合成图数据生成器ShapeGgen,该生成可以生成各种基准数据集(例如,不同的图形大小,度分布,同粒细胞与异性图)以及伴随着地面真相解释。此外,生成各种合成数据集和相应的基础真相解释的灵活性使我们能够模仿各种现实世界应用程序生成的数据。我们将ShapeGgen和几个现实图形数据集包括在开源图形图库GraphXai中。除了带有基础真相说明的合成和现实图形数据集外,GraphXAI还提供数据加载程序,数据处理功能,可视化器,GNN模型实现和评估指标,以基准基准GNN解释性方法的性能。
translated by 谷歌翻译
由于黑匣子的解释越来越多地用于在高赌注设置中建立模型可信度,重要的是确保这些解释准确可靠。然而,事先工作表明,最先进的技术产生的解释是不一致的,不稳定的,并且提供了对它们的正确性和可靠性的极少了解。此外,这些方法也在计算上效率低下,并且需要显着的超参数调谐。在本文中,我们通过开发一种新的贝叶斯框架来涉及用于产生当地解释以及相关的不确定性来解决上述挑战。我们将本框架实例化以获取贝叶斯版本的石灰和kernelshap,其为特征重要性输出可靠的间隔,捕获相关的不确定性。由此产生的解释不仅使我们能够对其质量进行具体推论(例如,有95%的几率是特征重要性在给定范围内),但也是高度一致和稳定的。我们执行了一个详细的理论分析,可以利用上述不确定性来估计对样品的扰动有多少,以及如何进行更快的收敛。这项工作首次尝试在一次拍摄中通过流行的解释方法解决几个关键问题,从而以计算上有效的方式产生一致,稳定和可靠的解释。具有多个真实世界数据集和用户研究的实验评估表明,提出的框架的功效。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
许多可解释性工具使从业人员和研究人员可以解释自然语言处理系统。但是,每个工具都需要不同的配置,并提供不同形式的解释,从而阻碍了评估和比较它们的可能性。原则上的统一评估基准将指导用户解决中心问题:哪种解释方法对我的用例更可靠?我们介绍了雪貂,这是一个易于使用的,可扩展的Python库,以解释与拥抱面枢纽集成的基于变形金刚的模型。它提供了一个统一的基准测试套件来测试和比较任何文本或可解释性语料库的广泛最先进的解释器。此外,雪貂提供方便的编程摘要,以促进新的解释方法,数据集或评估指标的引入。
translated by 谷歌翻译
由于算法预测对人类的影响增加,模型解释性已成为机器学习(ML)的重要问题。解释不仅可以帮助用户了解为什么ML模型做出某些预测,还可以帮助用户了解这些预测如何更改。在本论文中,我们研究了从三个有利位置的ML模型的解释性:算法,用户和教学法,并为解释性问题贡献了一些新颖的解决方案。
translated by 谷歌翻译
这项研究通过对三种不同类型的模型进行基准评估来调查机器学习模型对产生反事实解释的影响:决策树(完全透明,可解释的,白色盒子模型),随机森林(一种半解释,灰色盒模型)和神经网络(完全不透明的黑盒模型)。我们在五个不同数据集(Compas,成人,德国,德语,糖尿病和乳腺癌)中使用四种算法(DICE,WatchERCF,原型和GrowingSpheresCF)测试了反事实生成过程。我们的发现表明:(1)不同的机器学习模型对反事实解释的产生没有影响; (2)基于接近性损失函数的唯一算法是不可行的,不会提供有意义的解释; (3)在不保证反事实生成过程中的合理性的情况下,人们无法获得有意义的评估结果。如果对当前的最新指标进行评估,则不考虑其内部机制中不合理的算法将导致偏见和不可靠的结论; (4)强烈建议对定性分析(以及定量分析),以确保对反事实解释和偏见的潜在识别进行强有力的分析。
translated by 谷歌翻译
Post-hoc explanations of machine learning models are crucial for people to understand and act on algorithmic predictions. An intriguing class of explanations is through counterfactuals, hypothetical examples that show people how to obtain a different prediction. We posit that effective counterfactual explanations should satisfy two properties: feasibility of the counterfactual actions given user context and constraints, and diversity among the counterfactuals presented. To this end, we propose a framework for generating and evaluating a diverse set of counterfactual explanations based on determinantal point processes. To evaluate the actionability of counterfactuals, we provide metrics that enable comparison of counterfactual-based methods to other local explanation methods. We further address necessary tradeoffs and point to causal implications in optimizing for counterfactuals. Our experiments on four real-world datasets show that our framework can generate a set of counterfactuals that are diverse and well approximate local decision boundaries, outperforming prior approaches to generating diverse counterfactuals. We provide an implementation of the framework at https://github.com/microsoft/DiCE. CCS CONCEPTS• Applied computing → Law, social and behavioral sciences.
translated by 谷歌翻译
在文献中提出了各种各样的公平度量和可解释的人工智能(XAI)方法,以确定在关键现实环境中使用的机器学习模型中的偏差。但是,仅报告模型的偏差,或使用现有XAI技术生成解释不足以定位并最终减轻偏差源。在这项工作中,我们通过识别对这种行为的根本原因的训练数据的连贯子集来引入Gopher,该系统产生紧凑,可解释和意外模型行为的偏差或意外模型行为。具体而言,我们介绍了因果责任的概念,这些责任通过删除或更新其数据集来解决培训数据的程度可以解决偏差。建立在这一概念上,我们开发了一种有效的方法,用于生成解释模型偏差的顶级模式,该模型偏置利用来自ML社区的技术来实现因果责任,并使用修剪规则来管理模式的大搜索空间。我们的实验评估表明了Gopher在为识别和调试偏置来源产生可解释解释时的有效性。
translated by 谷歌翻译
A critical problem in post hoc explainability is the lack of a common foundational goal among methods. For example, some methods are motivated by function approximation, some by game theoretic notions, and some by obtaining clean visualizations. This fragmentation of goals causes not only an inconsistent conceptual understanding of explanations but also the practical challenge of not knowing which method to use when. In this work, we begin to address these challenges by unifying eight popular post hoc explanation methods (LIME, C-LIME, SHAP, Occlusion, Vanilla Gradients, Gradients x Input, SmoothGrad, and Integrated Gradients). We show that these methods all perform local function approximation of the black-box model, differing only in the neighbourhood and loss function used to perform the approximation. This unification enables us to (1) state a no free lunch theorem for explanation methods which demonstrates that no single method can perform optimally across all neighbourhoods, and (2) provide a guiding principle to choose among methods based on faithfulness to the black-box model. We empirically validate these theoretical results using various real-world datasets, model classes, and prediction tasks. By bringing diverse explanation methods into a common framework, this work (1) advances the conceptual understanding of these methods, revealing their shared local function approximation objective, properties, and relation to one another, and (2) guides the use of these methods in practice, providing a principled approach to choose among methods and paving the way for the creation of new ones.
translated by 谷歌翻译
人工智能(AI)和机器学习(ML)在网络安全挑战中的应用已在行业和学术界的吸引力,部分原因是对关键系统(例如云基础架构和政府机构)的广泛恶意软件攻击。入侵检测系统(IDS)使用某些形式的AI,由于能够以高预测准确性处理大量数据,因此获得了广泛的采用。这些系统托管在组织网络安全操作中心(CSOC)中,作为一种防御工具,可监视和检测恶意网络流,否则会影响机密性,完整性和可用性(CIA)。 CSOC分析师依靠这些系统来决定检测到的威胁。但是,使用深度学习(DL)技术设计的IDS通常被视为黑匣子模型,并且没有为其预测提供理由。这为CSOC分析师造成了障碍,因为他们无法根据模型的预测改善决策。解决此问题的一种解决方案是设计可解释的ID(X-IDS)。这项调查回顾了可解释的AI(XAI)的最先进的ID,目前的挑战,并讨论了这些挑战如何涉及X-ID的设计。特别是,我们全面讨论了黑匣子和白盒方法。我们还在这些方法之间的性能和产生解释的能力方面提出了权衡。此外,我们提出了一种通用体系结构,该建筑认为人类在循环中,该架构可以用作设计X-ID时的指南。研究建议是从三个关键观点提出的:需要定义ID的解释性,需要为各种利益相关者量身定制的解释以及设计指标来评估解释的需求。
translated by 谷歌翻译
众所周知,端到端的神经NLP体系结构很难理解,这引起了近年来为解释性建模的许多努力。模型解释的基本原则是忠诚,即,解释应准确地代表模型预测背后的推理过程。这项调查首先讨论了忠诚的定义和评估及其对解释性的意义。然后,我们通过将方法分为五类来介绍忠实解释的最新进展:相似性方法,模型内部结构的分析,基于反向传播的方法,反事实干预和自我解释模型。每个类别将通过其代表性研究,优势和缺点来说明。最后,我们从它们的共同美德和局限性方面讨论了上述所有方法,并反思未来的工作方向忠实的解释性。对于有兴趣研究可解释性的研究人员,这项调查将为该领域提供可访问且全面的概述,为进一步探索提供基础。对于希望更好地了解自己的模型的用户,该调查将是一项介绍性手册,帮助选择最合适的解释方法。
translated by 谷歌翻译
越来越多的研究进行了人类主题评估,以研究为用户提供机器学习模型的解释是否可以帮助他们制定实际现实世界中的用例。但是,运行的用户研究具有挑战性且昂贵,因此每个研究通常只评估有限的不同设置,例如,研究通常只评估一些任意选择的解释方法。为了应对这些挑战和援助用户研究设计,我们介绍了用用例的模拟评估(Simevals)。 SIMEVALS涉及培训算法剂,以输入信息内容(例如模型解释),这些信息内容将在人类学科研究中提交给每个参与者,以预测感兴趣的用例的答案。算法代理的测试集精度提供了衡量下游用例信息内容的预测性。我们对三种现实世界用例(正向模拟,模型调试和反事实推理)进行全面评估,以证明Simevals可以有效地确定哪种解释方法将为每个用例提供帮助。这些结果提供了证据表明,Simevals可用于有效筛选一组重要的用户研究设计决策,例如在进行潜在昂贵的用户研究之前,选择应向用户提供哪些解释。
translated by 谷歌翻译
异构表格数据是最常用的数据形式,对于众多关键和计算要求的应用程序至关重要。在同质数据集上,深度神经网络反复显示出卓越的性能,因此被广泛采用。但是,它们适应了推理或数据生成任务的表格数据仍然具有挑战性。为了促进该领域的进一步进展,这项工作概述了表格数据的最新深度学习方法。我们将这些方法分为三组:数据转换,专业体系结构和正则化模型。对于每个小组,我们的工作提供了主要方法的全面概述。此外,我们讨论了生成表格数据的深度学习方法,并且还提供了有关解释对表格数据的深层模型的策略的概述。因此,我们的第一个贡献是解决上述领域中的主要研究流和现有方法,同时强调相关的挑战和开放研究问题。我们的第二个贡献是在传统的机器学习方法中提供经验比较,并在五个流行的现实世界中的十种深度学习方法中,具有不同规模和不同的学习目标的经验比较。我们已将作为竞争性基准公开提供的结果表明,基于梯度增强的树合奏的算法仍然大多在监督学习任务上超过了深度学习模型,这表明对表格数据的竞争性深度学习模型的研究进度停滞不前。据我们所知,这是对表格数据深度学习方法的第一个深入概述。因此,这项工作可以成为有价值的起点,以指导对使用表格数据深入学习感兴趣的研究人员和从业人员。
translated by 谷歌翻译
There exist several methods that aim to address the crucial task of understanding the behaviour of AI/ML models. Arguably, the most popular among them are local explanations that focus on investigating model behaviour for individual instances. Several methods have been proposed for local analysis, but relatively lesser effort has gone into understanding if the explanations are robust and accurately reflect the behaviour of underlying models. In this work, we present a survey of the works that analysed the robustness of two classes of local explanations (feature importance and counterfactual explanations) that are popularly used in analysing AI/ML models in finance. The survey aims to unify existing definitions of robustness, introduces a taxonomy to classify different robustness approaches, and discusses some interesting results. Finally, the survey introduces some pointers about extending current robustness analysis approaches so as to identify reliable explainability methods.
translated by 谷歌翻译