尽管Shapley值为DNN模型预测提供了有效的解释,但该计算依赖于所有可能的输入特征联盟的枚举,这导致了指数增长的复杂性。为了解决这个问题,我们提出了一种新颖的方法剪切,以显着加速DNN模型的Shapley解释,其中计算中只有几个输入特征的联盟。特征联盟的选择遵循我们提出的Shapley链规则,以最大程度地减少地面shapley值的绝对误差,从而使计算既有效又准确。为了证明有效性,我们全面评估了跨多个指标的剪切,包括地面真相shapley价值的绝对误差,解释的忠诚和跑步速度。实验结果表明,剪切始终优于不同评估指标的最先进的基线方法,这证明了其在计算资源受到限制的现实应用程序中的潜力。
translated by 谷歌翻译
关于公平建模的现有工作通常假设所有实例的敏感属性都已完全可用,由于获取敏感信息的高成本,在许多现实世界中,这可能并非如此。当未披露或可用的敏感属性时,需要手动注释培训数据的一小部分以减轻偏见。但是,跨不同敏感组的偏斜分布保留了带注释的子集中原始数据集的偏度,这导致了非最佳偏置缓解。为了应对这一挑战,我们提出了对歧视(APOD)的积极惩罚,这是一个交互式框架,以指导有限的注释以最大程度地消除算法偏见的影响。拟议的APOD将歧视惩罚与主动实例选择集成在一起,以有效利用有限的注释预算,从理论上讲,它可以限制算法偏见。根据五个基准数据集的评估,APOD在有限的注释预算下优于最先进的基线方法,并显示出与完全注释的偏见缓解相当的性能,这表明APOD可以使真实世界应用程序受益于敏感信息时的应用是有限的。
translated by 谷歌翻译
在人类循环机器学习应用程序的背景下,如决策支持系统,可解释性方法应在不使用户等待的情况下提供可操作的见解。在本文中,我们提出了加速的模型 - 不可知论解释(ACME),一种可解释的方法,即在全球和本地层面迅速提供特征重要性分数。可以将acme应用于每个回归或分类模型的后验。 ACME计算功能排名不仅提供了一个什么,但它还提供了一个用于评估功能值的变化如何影响模型预测的原因 - 如果分析工具。我们评估了综合性和现实世界数据集的建议方法,同时也与福芙添加剂解释(Shap)相比,我们制作了灵感的方法,目前是最先进的模型无关的解释性方法。我们在生产解释的质量方面取得了可比的结果,同时急剧减少计算时间并为全局和局部解释提供一致的可视化。为了促进该领域的研究,为重复性,我们还提供了一种存储库,其中代码用于实验。
translated by 谷歌翻译
沙普利价值是衡量单个特征影响的流行方法。尽管Shapley功能归因是基于游戏理论的Desiderata,但在某些机器学习设置中,其某些约束可能不太自然,从而导致不直觉的模型解释。特别是,Shapley值对所有边际贡献都使用相同的权重 - 即,当给出大量其他功能时,当给出少数其他功能时,它具有相同的重要性。如果较大的功能集比较小的功能集更具信息性,则此属性可能是有问题的。我们的工作对沙普利特征归因的潜在局限性进行了严格的分析。我们通过为较小的影响力特征分配较大的属性来确定Shapley值在数学上是次优的设置。在这一观察结果的驱动下,我们提出了加权图,它概括了沙普利的价值,并了解到直接从数据中关注哪些边际贡献。在几个现实世界数据集上,我们证明,与沙普利值确定的功能相比,加权图确定的有影响力的特征可以更好地概括模型的预测。
translated by 谷歌翻译
本文研究了数据估值对嘈杂模型性能得分的鲁棒性。特别是,我们发现广泛使用的随机梯度下降的固有随机性会导致现有的数据值概念(例如,沙普利值和剩余错误),以在不同运行中产生不一致的数据值排名。为了应对这一挑战,我们首先提出一个正式的框架,在该框架中可以测量数据值概念的鲁棒性。我们表明,Banzhaf的价值是一个源自合作游戏理论文献的价值概念,它在所有半估计中实现了最大的鲁棒性 - 一类价值概念满足ML应用程序所带来的重要属性。我们提出了一种算法,以根据最大样本重用(MSR)原理有效地估计Banzhaf值。我们得出了Banzhaf值近似的下限样品复杂性,并表明我们的MSR算法的样品复杂性几乎与下限匹配。我们的评估表明,Banzhaf值的表现优于几个下游ML任务(例如使用加权样品学习和嘈杂的标签检测)的现有基于半半数的数据值概念。总体而言,我们的研究表明,当基础ML算法是随机的时,Banzhaf值是基于半杂志的数据值方案的有前途的替代方法,因为其计算优势和能力可靠地区分数据质量。
translated by 谷歌翻译
激活压缩训练〜(ACT)已被证明是减少训练深神经网络中记忆消耗的一种有希望的方法。但是,现有的ACT工作依赖于在深神经网络(DNN)训练期间寻找最佳的位宽度以减少量化噪声,从而使过程变得复杂且透明。为此,我们提出了一种简单有效的DNN培训方法。我们的方法是由观察结果激励的:\ emph {DNN向后传播主要取决于激活图的低频组分〜(LFC),而不是高频组件〜(HFC)}。它表明激活图的HFC在DNN训练过程中是高度冗余和可压缩的,这激发了我们提出的双重激活精度〜(分裂)。在培训期间,分裂估计激活图的LFC和HFC,并将HFC压缩到低精度副本中以消除冗余。这可以大大减少记忆消耗,而不会对DNN向后传播的精度产生负面影响。这样,部门可以实现可比的表现与正常培训。三个基准数据集的实验结果表明,在记忆消耗,模型准确性和跑步速度方面,分裂的表现优于最先进的基线方法。
translated by 谷歌翻译
Data valuation, especially quantifying data value in algorithmic prediction and decision-making, is a fundamental problem in data trading scenarios. The most widely used method is to define the data Shapley and approximate it by means of the permutation sampling algorithm. To make up for the large estimation variance of the permutation sampling that hinders the development of the data marketplace, we propose a more robust data valuation method using stratified sampling, named variance reduced data Shapley (VRDS for short). We theoretically show how to stratify, how many samples are taken at each stratum, and the sample complexity analysis of VRDS. Finally, the effectiveness of VRDS is illustrated in different types of datasets and data removal applications.
translated by 谷歌翻译
We introduce the XPER (eXplainable PERformance) methodology to measure the specific contribution of the input features to the predictive or economic performance of a model. Our methodology offers several advantages. First, it is both model-agnostic and performance metric-agnostic. Second, XPER is theoretically founded as it is based on Shapley values. Third, the interpretation of the benchmark, which is inherent in any Shapley value decomposition, is meaningful in our context. Fourth, XPER is not plagued by model specification error, as it does not require re-estimating the model. Fifth, it can be implemented either at the model level or at the individual level. In an application based on auto loans, we find that performance can be explained by a surprisingly small number of features. XPER decompositions are rather stable across metrics, yet some feature contributions switch sign across metrics. Our analysis also shows that explaining model forecasts and model performance are two distinct tasks.
translated by 谷歌翻译
Besides accuracy, recent studies on machine learning models have been addressing the question on how the obtained results can be interpreted. Indeed, while complex machine learning models are able to provide very good results in terms of accuracy even in challenging applications, it is difficult to interpret them. Aiming at providing some interpretability for such models, one of the most famous methods, called SHAP, borrows the Shapley value concept from game theory in order to locally explain the predicted outcome of an instance of interest. As the SHAP values calculation needs previous computations on all possible coalitions of attributes, its computational cost can be very high. Therefore, a SHAP-based method called Kernel SHAP adopts an efficient strategy that approximate such values with less computational effort. In this paper, we also address local interpretability in machine learning based on Shapley values. Firstly, we provide a straightforward formulation of a SHAP-based method for local interpretability by using the Choquet integral, which leads to both Shapley values and Shapley interaction indices. Moreover, we also adopt the concept of $k$-additive games from game theory, which contributes to reduce the computational effort when estimating the SHAP values. The obtained results attest that our proposal needs less computations on coalitions of attributes to approximate the SHAP values.
translated by 谷歌翻译
机器学习模型,尤其是人工神经网络,越来越多地用于为在各个领域的高风险场景中(从金融服务,公共安全和医疗保健服务)提供信息。尽管神经网络在许多情况下都取得了出色的性能,但它们的复杂性质引起了人们对现实情况下的可靠性,可信赖性和公平性的关注。结果,已经提出了几种A-tostori解释方法来突出影响模型预测的特征。值得注意的是,Shapley的价值 - 一种满足几种理想特性的游戏理论数量 - 在机器学习解释性文献中获得了知名度。然而,更传统上,在统计学习中的特征是通过有条件独立性正式化的,而对其进行测试的标准方法是通过有条件的随机测试(CRT)。到目前为止,有关解释性和特征重要性的这两个观点已被认为是独特的和独立的。在这项工作中,我们表明基于沙普利的解释方法和针对特征重要性的有条件独立性测试密切相关。更确切地说,我们证明,通过类似于CRT的程序实现了一组特定的条件独立性测试,评估了Shapley系数量,以执行特定的条件独立性测试,但用于不同的零假设。此外,获得的游戏理论值上限限制了此类测试的$ p $值。结果,我们授予大型Shapley系数具有精确的统计意义,并具有控制I型错误。
translated by 谷歌翻译
基于Shapley值的功能归因在解释机器学习模型中很受欢迎。但是,从理论和计算的角度来看,它们的估计是复杂的。我们将这种复杂性分解为两个因素:(1)〜删除特征信息的方法,以及(2)〜可拖动估计策略。这两个因素提供了一种天然镜头,我们可以更好地理解和比较24种不同的算法。基于各种特征删除方法,我们描述了多种类型的Shapley值特征属性和计算每个类型的方法。然后,基于可进行的估计策略,我们表征了两个不同的方法家族:模型 - 不合时宜的和模型特定的近似值。对于模型 - 不合稳定的近似值,我们基准了广泛的估计方法,并将其与Shapley值的替代性但等效的特征联系起来。对于特定于模型的近似值,我们阐明了对每种方法的线性,树和深模型的障碍至关重要的假设。最后,我们确定了文献中的差距以及有希望的未来研究方向。
translated by 谷歌翻译
基于可解释的机器学习,提出了一种名为InterOPT优化操作参数的算法,并通过优化页岩气体开发来证明。InterOpt由三个部分组成:神经网络用于构建矢量空间中实际钻孔和液压压裂过程的模拟器(即虚拟环境);可解释的机器学习中的Sharpley价值方法用于分析每个井中地质和操作参数的影响(即单个井功能影响分析);并进行集合随机最大似然(ENRML)以优化操作参数,以全面提高页岩气发展的效率并降低平均成本。在实验中,InterOPT根据其特定地质条件为每个井提供了不同的钻孔和破裂计划,并最终在104井的案例研究中获得了9.7%的平均成本降低9.7%。
translated by 谷歌翻译
Understanding why a model makes a certain prediction can be as crucial as the prediction's accuracy in many applications. However, the highest accuracy for large modern datasets is often achieved by complex models that even experts struggle to interpret, such as ensemble or deep learning models, creating a tension between accuracy and interpretability. In response, various methods have recently been proposed to help users interpret the predictions of complex models, but it is often unclear how these methods are related and when one method is preferable over another. To address this problem, we present a unified framework for interpreting predictions, SHAP (SHapley Additive exPlanations). SHAP assigns each feature an importance value for a particular prediction. Its novel components include: (1) the identification of a new class of additive feature importance measures, and (2) theoretical results showing there is a unique solution in this class with a set of desirable properties. The new class unifies six existing methods, notable because several recent methods in the class lack the proposed desirable properties. Based on insights from this unification, we present new methods that show improved computational performance and/or better consistency with human intuition than previous approaches.
translated by 谷歌翻译
随着现代复杂的神经网络不断破坏记录并解决更严重的问题,它们的预测也变得越来越少。目前缺乏解释性通常会破坏敏感设置中精确的机器学习工具的部署。在这项工作中,我们提出了一种基于Shapley系数的层次扩展的图像分类的模型 - 不足的解释方法 - 层次结构(H-SHAP)(H-SHAP) - 解决了当前方法的某些局限性。与其他基于沙普利的解释方法不同,H-shap是可扩展的,并且可以计算而无需近似。在某些分布假设下,例如在多个实例学习中常见的假设,H-shap检索了确切的Shapley系数,并具有指数改善的计算复杂性。我们将我们的分层方法与基于Shapley的流行基于Shapley和基于Shapley的方法进行比较,而基于Shapley的方法,医学成像方案以及一般的计算机视觉问题,表明H-Shap在准确性和运行时都超过了最先进的状态。代码和实验已公开可用。
translated by 谷歌翻译
由于机器学习模型变得越来越复杂和他们的应用程序变得越来越高赌注的,用于解释模型预测工具已经变得越来越重要。这促使模型explainability研究乱舞,并已引起了功能属性的方法,如石灰和SHAP。尽管它们的广泛使用,评价和比较不同功能属性的方法仍然具有挑战性:评价非常需要人的研究,以及实证评价指标往往是数据密集型或真实世界的数据集的计算望而却步。与基准特征归属算法库以及一套综合数据集:在这项工作中,我们通过释放XAI,台式解决这个问题。不同于现实世界的数据集,合成数据集允许那些需要评估地面实况夏普利值等指标的条件期望值的高效计算。我们释放合成的数据集提供了多种可配置模拟真实世界的数据参数。我们通过在多个评价指标和跨多种设置基准流行explainability技术展示我们的图书馆的力量。我们图书馆的多功能性和效率将有助于研究人员把他们的explainability方法从开发到部署。我们的代码可在https://github.com/abacusai/xai-bench。
translated by 谷歌翻译
在可解释的机器学习中,当地的事后解释算法和固有的可解释模型通常被视为竞争方法。在这项工作中,提供了有关Shapley Values的新颖观点,即Shapley Values,这是一种突出的事后解释技术,并表明它与玻璃盒 - 玻璃盒 - gams密切相关,Glassbox-Gam是一种流行的可解释模型。我们介绍了$ n $ -Shapley值,这是Shapley值的自然扩展,该值解释了具有交互条款的个人预测,直到$ n $。随着$ n $的增加,$ n $ shapley的值会收敛于Shapley-Gam,这是原始功能的独特确定分解。从Shapley-GAM中,我们可以计算出任意秩序的Shapley值,从而确切的见解对这些解释的局限性。然后,我们证明Shapley值恢复了订单$ n $的通用添加剂模型,假设我们允许交互条款在解释中订购$ n $。这意味着原始的Shapley值恢复了玻璃盒煤气。在技​​术端,我们表明,选择值函数的不同方式与原始函数的不同功能分解之间存在一对一的对应关系。这为如何选择值函数的问题提供了一个新的观点。我们还对各种标准分类器中存在的可变相互作用程度进行了经验分析,并讨论了我们结果对算法解释的含义。一个用于计算$ n $ shapley值的Python软件包,并在本文中复制结果,请访问\ url {https://github.com/tml-tuebingen/nshap}。
translated by 谷歌翻译
由于其强大的理论属性,Shapley的价值已经变得非常流行,以解释黑匣子模型做出的预测。不幸的是,大多数计算沙普利值的现有技术在计算上非常昂贵。我们提出了PDD-shap,这是一种使用基于ANOVA的功能分解模型来近似所解释的黑框模型的算法。这使我们能够比大型数据集的现有方法快地计算出Shapley值的数量级,从而大大降低了计算Shapley值的摊销成本,当需要解释许多预测时。
translated by 谷歌翻译
福利值广泛用作模型不可知的解释框架,以解释复杂的预测机器学习模型。福利值具有理想的理论特性和声音数学基础。精确的福芙值估计依赖数据依赖于所有特征组合之间的依赖性的准确建模。在本文中,我们使用具有任意调节(VAEAC)的变形AutoEncoder来同时建模所有特征依赖性。我们通过全面的仿真研究证明了VAEAC对于连续和混合依赖特征的各种环境来说,VAEAC优于最先进的方法。最后,我们将VAEAC应用于从UCI机器学习存储库中的鲍鱼数据集。
translated by 谷歌翻译
While preference modelling is becoming one of the pillars of machine learning, the problem of preference explanation remains challenging and underexplored. In this paper, we propose \textsc{Pref-SHAP}, a Shapley value-based model explanation framework for pairwise comparison data. We derive the appropriate value functions for preference models and further extend the framework to model and explain \emph{context specific} information, such as the surface type in a tennis game. To demonstrate the utility of \textsc{Pref-SHAP}, we apply our method to a variety of synthetic and real-world datasets and show that richer and more insightful explanations can be obtained over the baseline.
translated by 谷歌翻译
我们开发了一种新的原则性算法,用于估计培训数据点对深度学习模型的行为的贡献,例如它做出的特定预测。我们的算法估计了AME,该数量量衡量了将数据点添加到训练数据子集中的预期(平均)边际效应,并从给定的分布中采样。当从均匀分布中采样子集时,AME将还原为众所周知的Shapley值。我们的方法受因果推断和随机实验的启发:我们采样了训练数据的不同子集以训练多个子模型,并评估每个子模型的行为。然后,我们使用套索回归来基于子集组成共同估计每个数据点的AME。在稀疏假设($ k \ ll n $数据点具有较大的AME)下,我们的估计器仅需要$ O(k \ log n)$随机的子模型培训,从而改善了最佳先前的Shapley值估算器。
translated by 谷歌翻译