Besides accuracy, recent studies on machine learning models have been addressing the question on how the obtained results can be interpreted. Indeed, while complex machine learning models are able to provide very good results in terms of accuracy even in challenging applications, it is difficult to interpret them. Aiming at providing some interpretability for such models, one of the most famous methods, called SHAP, borrows the Shapley value concept from game theory in order to locally explain the predicted outcome of an instance of interest. As the SHAP values calculation needs previous computations on all possible coalitions of attributes, its computational cost can be very high. Therefore, a SHAP-based method called Kernel SHAP adopts an efficient strategy that approximate such values with less computational effort. In this paper, we also address local interpretability in machine learning based on Shapley values. Firstly, we provide a straightforward formulation of a SHAP-based method for local interpretability by using the Choquet integral, which leads to both Shapley values and Shapley interaction indices. Moreover, we also adopt the concept of $k$-additive games from game theory, which contributes to reduce the computational effort when estimating the SHAP values. The obtained results attest that our proposal needs less computations on coalitions of attributes to approximate the SHAP values.
translated by 谷歌翻译
在人类循环机器学习应用程序的背景下,如决策支持系统,可解释性方法应在不使用户等待的情况下提供可操作的见解。在本文中,我们提出了加速的模型 - 不可知论解释(ACME),一种可解释的方法,即在全球和本地层面迅速提供特征重要性分数。可以将acme应用于每个回归或分类模型的后验。 ACME计算功能排名不仅提供了一个什么,但它还提供了一个用于评估功能值的变化如何影响模型预测的原因 - 如果分析工具。我们评估了综合性和现实世界数据集的建议方法,同时也与福芙添加剂解释(Shap)相比,我们制作了灵感的方法,目前是最先进的模型无关的解释性方法。我们在生产解释的质量方面取得了可比的结果,同时急剧减少计算时间并为全局和局部解释提供一致的可视化。为了促进该领域的研究,为重复性,我们还提供了一种存储库,其中代码用于实验。
translated by 谷歌翻译
即使有效,模型的使用也必须伴随着转换数据的各个级别的理解(上游和下游)。因此,需求增加以定义单个数据与算法可以根据其分析可以做出的选择(例如,一种产品或一种促销报价的建议,或代表风险的保险费率)。模型用户必须确保模型不会区分,并且也可以解释其结果。本文介绍了模型解释的重要性,并解决了模型透明度的概念。在保险环境中,它专门说明了如何使用某些工具来强制执行当今可以利用机器学习的精算模型的控制。在一个简单的汽车保险中损失频率估计的示例中,我们展示了一些解释性方法的兴趣,以适应目标受众的解释。
translated by 谷歌翻译
基于Shapley值的功能归因在解释机器学习模型中很受欢迎。但是,从理论和计算的角度来看,它们的估计是复杂的。我们将这种复杂性分解为两个因素:(1)〜删除特征信息的方法,以及(2)〜可拖动估计策略。这两个因素提供了一种天然镜头,我们可以更好地理解和比较24种不同的算法。基于各种特征删除方法,我们描述了多种类型的Shapley值特征属性和计算每个类型的方法。然后,基于可进行的估计策略,我们表征了两个不同的方法家族:模型 - 不合时宜的和模型特定的近似值。对于模型 - 不合稳定的近似值,我们基准了广泛的估计方法,并将其与Shapley值的替代性但等效的特征联系起来。对于特定于模型的近似值,我们阐明了对每种方法的线性,树和深模型的障碍至关重要的假设。最后,我们确定了文献中的差距以及有希望的未来研究方向。
translated by 谷歌翻译
Understanding why a model makes a certain prediction can be as crucial as the prediction's accuracy in many applications. However, the highest accuracy for large modern datasets is often achieved by complex models that even experts struggle to interpret, such as ensemble or deep learning models, creating a tension between accuracy and interpretability. In response, various methods have recently been proposed to help users interpret the predictions of complex models, but it is often unclear how these methods are related and when one method is preferable over another. To address this problem, we present a unified framework for interpreting predictions, SHAP (SHapley Additive exPlanations). SHAP assigns each feature an importance value for a particular prediction. Its novel components include: (1) the identification of a new class of additive feature importance measures, and (2) theoretical results showing there is a unique solution in this class with a set of desirable properties. The new class unifies six existing methods, notable because several recent methods in the class lack the proposed desirable properties. Based on insights from this unification, we present new methods that show improved computational performance and/or better consistency with human intuition than previous approaches.
translated by 谷歌翻译
Shap是一种衡量机器学习模型中可变重要性的流行方法。在本文中,我们研究了用于估计外形评分的算法,并表明它是功能性方差分析分解的转换。我们使用此连接表明,在Shap近似中的挑战主要与选择功能分布的选择以及估计的$ 2^p $ ANOVA条款的数量有关。我们认为,在这种情况下,机器学习解释性和敏感性分析之间的联系是有照明的,但是直接的实际后果并不明显,因为这两个领域面临着不同的约束。机器学习的解释性问题模型可评估,但通常具有数百个(即使不是数千个)功能。敏感性分析通常处理物理或工程的模型,这些模型可能非常耗时,但在相对较小的输入空间上运行。
translated by 谷歌翻译
在机器学习中,使用算法 - 不足的方法是一个新兴领域,用于解释单个特征对预测结果的贡献。尽管重点放在解释预测本身上,但已经做了一些解释这些模型的鲁棒性,即每个功能如何有助于实现这种鲁棒性。在本文中,我们建议使用沙普利值来解释每个特征对模型鲁棒性的贡献,该功能以接收器操作特性(ROC)曲线和ROC曲线(AUC)下的面积来衡量。在一个说明性示例的帮助下,我们证明了解释ROC曲线的拟议思想,并可以看到这些曲线中的不确定性。对于不平衡的数据集,使用Precision-Recall曲线(PRC)被认为更合适,因此我们还演示了如何借助Shapley值解释PRC。
translated by 谷歌翻译
This paper proposes a novel approach to explain the predictions made by data-driven methods. Since such predictions rely heavily on the data used for training, explanations that convey information about how the training data affects the predictions are useful. The paper proposes a novel approach to quantify how different data-clusters of the training data affect a prediction. The quantification is based on Shapley values, a concept which originates from coalitional game theory, developed to fairly distribute the payout among a set of cooperating players. A player's Shapley value is a measure of that player's contribution. Shapley values are often used to quantify feature importance, ie. how features affect a prediction. This paper extends this to cluster importance, letting clusters of the training data act as players in a game where the predictions are the payouts. The novel methodology proposed in this paper lets us explore and investigate how different clusters of the training data affect the predictions made by any black-box model, allowing new aspects of the reasoning and inner workings of a prediction model to be conveyed to the users. The methodology is fundamentally different from existing explanation methods, providing insight which would not be available otherwise, and should complement existing explanation methods, including explanations based on feature importance.
translated by 谷歌翻译
We introduce the XPER (eXplainable PERformance) methodology to measure the specific contribution of the input features to the predictive or economic performance of a model. Our methodology offers several advantages. First, it is both model-agnostic and performance metric-agnostic. Second, XPER is theoretically founded as it is based on Shapley values. Third, the interpretation of the benchmark, which is inherent in any Shapley value decomposition, is meaningful in our context. Fourth, XPER is not plagued by model specification error, as it does not require re-estimating the model. Fifth, it can be implemented either at the model level or at the individual level. In an application based on auto loans, we find that performance can be explained by a surprisingly small number of features. XPER decompositions are rather stable across metrics, yet some feature contributions switch sign across metrics. Our analysis also shows that explaining model forecasts and model performance are two distinct tasks.
translated by 谷歌翻译
与经典的统计学习方法相比,机器和深度学习生存模型表现出相似甚至改进事件的预测能力,但太复杂了,无法被人类解释。有几种模型不合时宜的解释可以克服这个问题。但是,没有一个直接解释生存函数预测。在本文中,我们介绍了Survhap(t),这是第一个允许解释生存黑盒模型的解释。它基于Shapley添加性解释,其理论基础稳定,并在机器学习从业人员中广泛采用。拟议的方法旨在增强精确诊断和支持领域的专家做出决策。关于合成和医学数据的实验证实,survhap(t)可以检测具有时间依赖性效果的变量,并且其聚集是对变量对预测的重要性的决定因素,而不是存活。 survhap(t)是模型不可屈服的,可以应用于具有功能输出的所有型号。我们在http://github.com/mi2datalab/survshap中提供了python中时间相关解释的可访问实现。
translated by 谷歌翻译
在本文中,我们对在表格数据的情况下进行了详尽的理论分析。我们证明,在较大的样本限制中,可以按照算法参数的函数以及与黑框模型相关的一些期望计算来计算表格石灰提供的可解释系数。当要解释的函数具有一些不错的代数结构(根据坐标的子集,线性,乘法或稀疏)时,我们的分析提供了对Lime提供的解释的有趣见解。这些可以应用于一系列机器学习模型,包括高斯内核或卡车随机森林。例如,对于线性函数,我们表明Lime具有理想的属性,可以提供与函数系数成正比的解释,以解释并忽略该函数未使用的坐标来解释。对于基于分区的回归器,另一方面,我们表明石灰会产生可能提供误导性解释的不希望的人工制品。
translated by 谷歌翻译
机器学习模型,尤其是人工神经网络,越来越多地用于为在各个领域的高风险场景中(从金融服务,公共安全和医疗保健服务)提供信息。尽管神经网络在许多情况下都取得了出色的性能,但它们的复杂性质引起了人们对现实情况下的可靠性,可信赖性和公平性的关注。结果,已经提出了几种A-tostori解释方法来突出影响模型预测的特征。值得注意的是,Shapley的价值 - 一种满足几种理想特性的游戏理论数量 - 在机器学习解释性文献中获得了知名度。然而,更传统上,在统计学习中的特征是通过有条件独立性正式化的,而对其进行测试的标准方法是通过有条件的随机测试(CRT)。到目前为止,有关解释性和特征重要性的这两个观点已被认为是独特的和独立的。在这项工作中,我们表明基于沙普利的解释方法和针对特征重要性的有条件独立性测试密切相关。更确切地说,我们证明,通过类似于CRT的程序实现了一组特定的条件独立性测试,评估了Shapley系数量,以执行特定的条件独立性测试,但用于不同的零假设。此外,获得的游戏理论值上限限制了此类测试的$ p $值。结果,我们授予大型Shapley系数具有精确的统计意义,并具有控制I型错误。
translated by 谷歌翻译
在可解释的机器学习中,当地的事后解释算法和固有的可解释模型通常被视为竞争方法。在这项工作中,提供了有关Shapley Values的新颖观点,即Shapley Values,这是一种突出的事后解释技术,并表明它与玻璃盒 - 玻璃盒 - gams密切相关,Glassbox-Gam是一种流行的可解释模型。我们介绍了$ n $ -Shapley值,这是Shapley值的自然扩展,该值解释了具有交互条款的个人预测,直到$ n $。随着$ n $的增加,$ n $ shapley的值会收敛于Shapley-Gam,这是原始功能的独特确定分解。从Shapley-GAM中,我们可以计算出任意秩序的Shapley值,从而确切的见解对这些解释的局限性。然后,我们证明Shapley值恢复了订单$ n $的通用添加剂模型,假设我们允许交互条款在解释中订购$ n $。这意味着原始的Shapley值恢复了玻璃盒煤气。在技​​术端,我们表明,选择值函数的不同方式与原始函数的不同功能分解之间存在一对一的对应关系。这为如何选择值函数的问题提供了一个新的观点。我们还对各种标准分类器中存在的可变相互作用程度进行了经验分析,并讨论了我们结果对算法解释的含义。一个用于计算$ n $ shapley值的Python软件包,并在本文中复制结果,请访问\ url {https://github.com/tml-tuebingen/nshap}。
translated by 谷歌翻译
本文研究了与可解释的AI(XAI)实践有关的两个不同但相关的问题。机器学习(ML)在金融服务中越来越重要,例如预批准,信用承销,投资以及各种前端和后端活动。机器学习可以自动检测培训数据中的非线性和相互作用,从而促进更快,更准确的信用决策。但是,机器学习模型是不透明的,难以解释,这是建立可靠技术所需的关键要素。该研究比较了各种机器学习模型,包括单个分类器(逻辑回归,决策树,LDA,QDA),异质集合(Adaboost,随机森林)和顺序神经网络。结果表明,整体分类器和神经网络的表现优于表现。此外,使用基于美国P2P贷款平台Lending Club提供的开放式访问数据集评估了两种先进的事后不可解释能力 - 石灰和外形来评估基于ML的信用评分模型。对于这项研究,我们还使用机器学习算法来开发新的投资模型,并探索可以最大化盈利能力同时最大程度地降低风险的投资组合策略。
translated by 谷歌翻译
使用福利值的添加特征说明已经成为为每个特征的相对重要性提供给机器学习模型的个人预测的透明度。虽然福利值在合作博弈论中提供了独特的添加剂特征归因,但即使是单机学习模型也可以生成的福利值远非独特,具有影响所产生的血统的理论和实施决策。在这里,我们考虑福利值的应用解释决策树集合,并提出了一种可以应用于随机林和提升决策树的基于福芙值的特征归属的新方法。这种新方法提供了准确地反映各个实例的模型预测算法的细节的属性,同时使用最广泛使用的当前方法之一进行计算竞争。我们解释了标准和新颖方法之间的理论差异,并使用合成和实数据进行比较它们的绩效。
translated by 谷歌翻译
在本文中,我们提出了一种新的可解释性形式主义,旨在阐明测试集的每个输入变量如何影响机器学习模型的预测。因此,我们根据训练有素的机器学习决策规则提出了一个群体的解释性形式,它们是根据其对输入变量分布的可变性的反应。为了强调每个输入变量的影响,这种形式主义使用信息理论框架,该框架量化了基于熵投影的所有输入输出观测值的影响。因此,这是第一个统一和模型不可知的形式主义,使数据科学家能够解释输入变量之间的依赖性,它们对预测错误的影响以及它们对输出预测的影响。在大型样本案例中提供了熵投影的收敛速率。最重要的是,我们证明,计算框架中的解释具有低算法的复杂性,使其可扩展到现实生活中的大数据集。我们通过解释通过在各种数据集上使用XGBoost,随机森林或深层神经网络分类器(例如成人收入,MNIST,CELEBA,波士顿住房,IRIS以及合成的)上使用的复杂决策规则来说明我们的策略。最终,我们明确了基于单个观察结果的解释性策略石灰和摇摆的差异。可以通过使用自由分布的Python工具箱https://gems-ai.aniti.fr/来复制结果。
translated by 谷歌翻译
由于其理想的特性,与Shapley相关的技术已成为全球和局部解释工具的关注。但是,他们使用条件期望的计算在计算上是昂贵的。文献中建议的近似方法有局限性。本文提出了基于条件期望的基于替代模型的树来计算沙普利和塑造值。仿真研究表明,拟议的算法可提供准确性的提高,统一全球沙普利和外形解释,而阈值方法为折衷运行时间和准确性提供了一种方法。
translated by 谷歌翻译
随着现代复杂的神经网络不断破坏记录并解决更严重的问题,它们的预测也变得越来越少。目前缺乏解释性通常会破坏敏感设置中精确的机器学习工具的部署。在这项工作中,我们提出了一种基于Shapley系数的层次扩展的图像分类的模型 - 不足的解释方法 - 层次结构(H-SHAP)(H-SHAP) - 解决了当前方法的某些局限性。与其他基于沙普利的解释方法不同,H-shap是可扩展的,并且可以计算而无需近似。在某些分布假设下,例如在多个实例学习中常见的假设,H-shap检索了确切的Shapley系数,并具有指数改善的计算复杂性。我们将我们的分层方法与基于Shapley的流行基于Shapley和基于Shapley的方法进行比较,而基于Shapley的方法,医学成像方案以及一般的计算机视觉问题,表明H-Shap在准确性和运行时都超过了最先进的状态。代码和实验已公开可用。
translated by 谷歌翻译
Explainable artificial intelligence is proposed to provide explanations for reasoning performed by an Artificial Intelligence. There is no consensus on how to evaluate the quality of these explanations, since even the definition of explanation itself is not clear in the literature. In particular, for the widely known Local Linear Explanations, there are qualitative proposals for the evaluation of explanations, although they suffer from theoretical inconsistencies. The case of image is even more problematic, where a visual explanation seems to explain a decision while detecting edges is what it really does. There are a large number of metrics in the literature specialized in quantitatively measuring different qualitative aspects so we should be able to develop metrics capable of measuring in a robust and correct way the desirable aspects of the explanations. In this paper, we propose a procedure called REVEL to evaluate different aspects concerning the quality of explanations with a theoretically coherent development. This procedure has several advances in the state of the art: it standardizes the concepts of explanation and develops a series of metrics not only to be able to compare between them but also to obtain absolute information regarding the explanation itself. The experiments have been carried out on image four datasets as benchmark where we show REVEL's descriptive and analytical power.
translated by 谷歌翻译
研究人员提出了多种模型解释方法,但目前尚不清楚大多数方法如何相关或何时一种方法比另一种方法更可取。我们研究了文献,发现许多方法都是基于通过删除来解释的共同原理 - 本质上是测量从模型中删除一组特征的影响。这些方法在几个方面有所不同,因此我们为基于删除的解释开发了一个沿三个维度表征每个方法的框架:1)该方法如何删除特征,2)该方法解释的模型行为以及3)方法如何汇总每个方法功能的影响。我们的框架统一了26种现有方法,其中包括几种最广泛使用的方法(Shap,Lime,有意义的扰动,排列测试)。揭露这些方法之间的基本相似性使用户能够推荐使用哪种工具,并为正在进行的模型解释性研究提出了有希望的方向。
translated by 谷歌翻译