为了解释任何模型的决定,我们延长了概率充分解释(P-SE)的概念。对于每个实例,该方法选择足以产生具有高概率的相同预测的最小特征子集,同时删除其他特征。 P-SE的关键是计算保持相同预测的条件概率。因此,我们通过随机林为任何数据$(\ boldsymbol {x},y)$,并通过理论分析来介绍这种概率的准确和快速估计器,并通过理论分析来展示其一致性的理论分析。结果,我们将P-SE扩展到回归问题。此外,我们处理非二进制特征,而无需学习$ x $的分发,也不会使模型进行预测。最后,我们基于P-SE介绍基于数分的回归/分类的解释,并比较我们的方法W.R.T其他可解释的AI方法。这些方法是公开可用作\ url {www.github.com/salimamoukou/acv00}的python包。
translated by 谷歌翻译
在尚未解决反事实解释的挑战中(CE),存在稳定性,各种CE的综合以及缺乏合理性/稀疏性保证。从更实用的角度来看,最近的研究表明,规定的反事实回复通常并非完全由个人实现,并证明大多数最先进的CE算法在这种嘈杂的环境中很可能会失败。为了解决这些问题,我们提出了一个概率框架,为每个观察结果提供了稀疏的本地反事实规则:我们提供的规则可以提供一系列可以用给定的高概率改变决策的价值观,而不是给出不同的CE。此外,通过构造从这些规则中得出的回报是可靠的。这些本地规则被汇总为区域反事实规则,以确保跨观察结果的反事实解释的稳定性。我们的本地和区域规则保证了recourse忠实于数据分布,因为我们的规则使用一致的估计器对基于随机森林的决定的概率进行了始终如一的估计。此外,当我们选择具有更改决策概率的最小变量时,这些概率给出了可解释和稀疏的规则。可以使用计算反事实规则的代码,我们将其相关性与标准CE和最近的类似尝试进行比较。
translated by 谷歌翻译
可变重要性措施是分析随机林的黑盒机制的主要工具。虽然平均值降低精度(MDA)被广泛接受作为随机森林最有效的可变重要性措施,但对其统计特性知之甚少。实际上,确切的MDA定义在主随机林软件上变化。在本文中,我们的目标是严格分析主要MDA实施的行为。因此,我们在数学上正式地形化各种实施的MDA算法,然后在样本量增加时建立限制。特别是,我们在三个组件中分解了这些限制:第一个与Sobol指数有关,这是对响应方差的协变度贡献的明确定义措施,广泛应用于敏感性分析领域,而不是TheThird术语,谁的价值随着协变量的依赖而增加。因此,我们理论上证明了MDA在协变者依赖时,MDA不会瞄准正确的数量,这是实验发现的事实。为了解决这个问题,我们为随机林,Sobol-MDA定义了一个新的重要性测量,它修复了原始MDA的缺陷。我们证明了Sobol-MDA的一致性,并表明Sobol-MDA在模拟和实际数据上经验胜过其竞争对手。 R和C ++中的开源实现可在线获取。
translated by 谷歌翻译
树合奏方法如随机森林[Breiman,2001]非常受欢迎,以处理高维表格数据集,特别是因为它们的预测精度良好。然而,当机器学习用于决策问题时,由于开明的决策需要对算法预测过程的深入理解来实现最佳预测程序的解决可能是不合理的。不幸的是,由于他们的预测结果从平均数百个决策树的预测结果,随机森林并不是本质上可解释的。在这种所谓的黑盒算法上获得知识的经典方法是计算可变重要性,这些重点是评估每个输入变量的预测影响。然后使用可变重要性对等变量进行排名或选择变量,从而在数据分析中发挥着重要作用。然而,没有理由使用随机森林变量以这种方式:我们甚至不知道这些数量估计。在本文中,我们分析了两个众所周知的随机森林可变重大之一,平均减少杂质(MDI)。我们证明,如果输入变量是独立的并且在没有相互作用的情况下,MDI提供了输出的方差分解,其中清楚地识别了每个变量的贡献。我们还研究表现出输入变量或交互之间的依赖性的模型,其中变量重要性本质上是不明的。我们的分析表明,与一棵树相比,可能存在使用森林的一些好处。
translated by 谷歌翻译
Many scientific and engineering challenges-ranging from personalized medicine to customized marketing recommendations-require an understanding of treatment effect heterogeneity. In this paper, we develop a non-parametric causal forest for estimating heterogeneous treatment effects that extends Breiman's widely used random forest algorithm. In the potential outcomes framework with unconfoundedness, we show that causal forests are pointwise consistent for the true treatment effect, and have an asymptotically Gaussian and centered sampling distribution. We also discuss a practical method for constructing asymptotic confidence intervals for the true treatment effect that are centered at the causal forest estimates. Our theoretical results rely on a generic Gaussian theory for a large family of random forest algorithms. To our knowledge, this is the first set of results that allows any type of random forest, including classification and regression forests, to be used for provably valid statistical inference. In experiments, we find causal forests to be substantially more powerful than classical methods based on nearest-neighbor matching, especially in the presence of irrelevant covariates.
translated by 谷歌翻译
在本文中,我们对在表格数据的情况下进行了详尽的理论分析。我们证明,在较大的样本限制中,可以按照算法参数的函数以及与黑框模型相关的一些期望计算来计算表格石灰提供的可解释系数。当要解释的函数具有一些不错的代数结构(根据坐标的子集,线性,乘法或稀疏)时,我们的分析提供了对Lime提供的解释的有趣见解。这些可以应用于一系列机器学习模型,包括高斯内核或卡车随机森林。例如,对于线性函数,我们表明Lime具有理想的属性,可以提供与函数系数成正比的解释,以解释并忽略该函数未使用的坐标来解释。对于基于分区的回归器,另一方面,我们表明石灰会产生可能提供误导性解释的不希望的人工制品。
translated by 谷歌翻译
在本文中,我们提出了一种新的可解释性形式主义,旨在阐明测试集的每个输入变量如何影响机器学习模型的预测。因此,我们根据训练有素的机器学习决策规则提出了一个群体的解释性形式,它们是根据其对输入变量分布的可变性的反应。为了强调每个输入变量的影响,这种形式主义使用信息理论框架,该框架量化了基于熵投影的所有输入输出观测值的影响。因此,这是第一个统一和模型不可知的形式主义,使数据科学家能够解释输入变量之间的依赖性,它们对预测错误的影响以及它们对输出预测的影响。在大型样本案例中提供了熵投影的收敛速率。最重要的是,我们证明,计算框架中的解释具有低算法的复杂性,使其可扩展到现实生活中的大数据集。我们通过解释通过在各种数据集上使用XGBoost,随机森林或深层神经网络分类器(例如成人收入,MNIST,CELEBA,波士顿住房,IRIS以及合成的)上使用的复杂决策规则来说明我们的策略。最终,我们明确了基于单个观察结果的解释性策略石灰和摇摆的差异。可以通过使用自由分布的Python工具箱https://gems-ai.aniti.fr/来复制结果。
translated by 谷歌翻译
We discuss an application of Generalized Random Forests (GRF) proposed by Athey et al.(2019) to quantile regression for time series data. We extracted the theoretical results of the GRF consistency for i.i.d. data to time series data. In particular, in the main theorem, based only on the general assumptions for time series data in Davis and Nielsen (2020), and trees in Athey et al.(2019), we show that the tsQRF (time series Quantile Regression Forests) estimator is consistent. Davis and Nielsen (2020) also discussed the estimation problem using Random Forests (RF) for time series data, but the construction procedure of the RF treated by the GRF is essentially different, and different ideas are used throughout the theoretical proof. In addition, a simulation and real data analysis were conducted.In the simulation, the accuracy of the conditional quantile estimation was evaluated under time series models. In the real data using the Nikkei Stock Average, our estimator is demonstrated to be more sensitive than the others in terms of volatility, thus preventing underestimation of risk.
translated by 谷歌翻译
In this paper, we strengthen the previous weak consistency proof method of random forest variants into a strong consistency proof method, and strengthen the data-driven degree of RF variants, so as to obtain better theoretical properties and experimental performance. In addition, we also propose a data-driven multinomial random forest (DMRF) based on the multinomial random forest (MRF), which meets the strong consistency and has lower complexity than MRF, and the effect is equal to or better than MRF. As far as we know, DMRF algorithm is a variant of RF with low algorithm complexity and excellent performance.
translated by 谷歌翻译
基于森林的方法最近在非参数治疗效应估计中获得了普及。在这一工作方面,我们引入了因果生存森林,可用于在可能右估计结果的生存和观察环境中估计异质治疗效果。我们的方法依赖于正交估计方程来在不满意的情况下对审查和选择效果进行鲁棒性调整。在我们的实验中,我们发现相对于许多基线的表现良好的方法。
translated by 谷歌翻译
决策森林(森林),尤其是随机森林和梯度促进树木,与许多监督学习场景中的其他方法相比,已经证明了最先进的准确性。尤其是,森林在表格数据中占主导地位,即当特征空间非结构化时,因此信号是特征指数置换的不变性。然而,在存在于多种多样(例如图像,文本和语音)深网(网络)(特别是卷积深网(Convnets))上的结构化数据中,倾向于优于森林。我们猜想至少部分原因是网络的输入不仅仅是特征幅度,也是其索引。相反,天真的森林实施未能明确考虑特征指数。最近提出的森林方法表明,对于每个节点,森林从某些特定分布中隐式采样一个随机矩阵。这些森林像某些类别的网络一样,通过将特征空间划分为对应于线性函数的凸多物体来学习。我们以这种方法为基础,并表明人们可以以多种感知方式选择分布来纳入特征区域。我们在数据上活在三个不同的流形上的数据上证明了经验性能:圆环,图像和时间序列。此外,我们证明了其在多元模拟环境中的强度,并且在预测癫痫患者的手术结果方面也表现出了优越性,并从非运动脑区域的原始立体定向EEG数据中预测运动方向。在所有模拟和真实数据中,歧管随机森林(MORF)算法的表现优于忽略特征空间结构并挑战Convnets的性能。此外,MORF运行迅速,并保持解释性和理论上的理由。
translated by 谷歌翻译
开发了一种使用多个辅助变量的非静止空间建模算法。它将Geodatistics与Simitile随机林结合起来,以提供一种新的插值和随机仿真算法。本文介绍了该方法,并表明它具有与施加地统计学建模和定量随机森林的那些相似的一致性结果。该方法允许嵌入更简单的插值技术,例如Kriging,以进一步调节模型。该算法通过估计每个目标位置处的目标变量的条件分布来工作。这种分布的家庭称为目标变量的包络。由此,可以获得空间估计,定量和不确定性。还开发了一种从包络产生条件模拟的算法。随着它们从信封中的样本,因此通过相对变化的次要变量,趋势和可变性的相对变化局部地影响。
translated by 谷歌翻译
随机森林仍然是最受欢迎的现成监督学习算法之一。尽管他们记录了良好的经验成功,但直到最近,很少有很少的理论结果来描述他们的表现和行为。在这项工作中,我们通过建立随机森林和其他受监督学习集合的融合率来推动最近的一致性和渐近正常的工作。我们培养了广义U形统计的概念,并显示在此框架内,随机森林预测可能对比以前建立的较大的子样本尺寸可能保持渐近正常。我们还提供Berry-esseen的界限,以量化这种收敛的速度,使得分列大小的角色和确定随机森林预测分布的树木的角色。
translated by 谷歌翻译
由于它们在建模复杂的问题和处理高维数据集的有效性,因此已显示深神网络(DNN)在广泛的应用领域中的传统机器学习算法优于传统的机器学习算法。但是,许多现实生活数据集具有越来越高的维度,其中大量功能可能与手头的任务无关。包含此类功能不仅会引入不必要的噪声,还会提高计算复杂性。此外,由于许多特征之间的非线性和依赖性高,DNN模型往往不可避免地是不透明的,并且被视为黑盒方法,因为它们的内部功能不佳。解释良好的模型可以识别具有统计学意义的特征,并解释其影响模型结果的方式。在本文中,我们提出了一种有效的方法,可以在高维数据集的情况下提高黑框模型的分类任务。为此,我们首先在高维数据集上训练黑框模型,以了解执行分类的嵌入。为了分解黑框模型的内部工作原理并确定TOP-K重要特征,我们采用了不同的探测和扰动技术。然后,我们通过在TOP-K特征空间上通过可解释的替代模型来近似黑框模型的行为。最后,我们从替代模型中得出决策规则和本地解释,以解释个人决策。当在不同数据集上测试,尺寸在50到20,000之间的不同数据集上进行测试时,我们的方法优于最先进的方法,例如TABNET,XGBOOST和基于Shap的可解释性技术。
translated by 谷歌翻译
由于其理想的特性,与Shapley相关的技术已成为全球和局部解释工具的关注。但是,他们使用条件期望的计算在计算上是昂贵的。文献中建议的近似方法有局限性。本文提出了基于条件期望的基于替代模型的树来计算沙普利和塑造值。仿真研究表明,拟议的算法可提供准确性的提高,统一全球沙普利和外形解释,而阈值方法为折衷运行时间和准确性提供了一种方法。
translated by 谷歌翻译
基于Shapley值的功能归因在解释机器学习模型中很受欢迎。但是,从理论和计算的角度来看,它们的估计是复杂的。我们将这种复杂性分解为两个因素:(1)〜删除特征信息的方法,以及(2)〜可拖动估计策略。这两个因素提供了一种天然镜头,我们可以更好地理解和比较24种不同的算法。基于各种特征删除方法,我们描述了多种类型的Shapley值特征属性和计算每个类型的方法。然后,基于可进行的估计策略,我们表征了两个不同的方法家族:模型 - 不合时宜的和模型特定的近似值。对于模型 - 不合稳定的近似值,我们基准了广泛的估计方法,并将其与Shapley值的替代性但等效的特征联系起来。对于特定于模型的近似值,我们阐明了对每种方法的线性,树和深模型的障碍至关重要的假设。最后,我们确定了文献中的差距以及有希望的未来研究方向。
translated by 谷歌翻译
近年来目睹了采用灵活的机械学习模型进行乐器变量(IV)回归的兴趣,但仍然缺乏不确定性量化方法的发展。在这项工作中,我们为IV次数回归提出了一种新的Quasi-Bayesian程序,建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率,并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法,可以扩展到与宽神经网络模型一起工作。实证评价表明,我们的方法对复杂的高维问题产生了丰富的不确定性估计。
translated by 谷歌翻译
Explainability of a classification model is crucial when deployed in real-world decision support systems. Explanations make predictions actionable to the user and should inform about the capabilities and limitations of the system. Existing explanation methods, however, typically only provide explanations for individual predictions. Information about conditions under which the classifier is able to support the decision maker is not available, while for instance information about when the system is not able to differentiate classes can be very helpful. In the development phase it can support the search for new features or combining models, and in the operational phase it supports decision makers in deciding e.g. not to use the system. This paper presents a method to explain the qualities of a trained base classifier, called PERFormance EXplainer (PERFEX). Our method consists of a meta tree learning algorithm that is able to predict and explain under which conditions the base classifier has a high or low error or any other classification performance metric. We evaluate PERFEX using several classifiers and datasets, including a case study with urban mobility data. It turns out that PERFEX typically has high meta prediction performance even if the base classifier is hardly able to differentiate classes, while giving compact performance explanations.
translated by 谷歌翻译
我们举例说明数据生成模型的示例,其中Breiman的随机森林可能极慢地收敛到最佳预测器,甚至无法保持一致。为这些属性提供的证据是基于主要是直观的论点,类似于前面使用的那些具有更简单的示例以及数值实验。虽然可以始终选择随机森林表现得非常严重的模型,但我们表明基于“变量使用”和“变量重要性”统计的简单方法通常可用于构建基于“许多武装”的更好的预测因子通过强制初始拆分获得的随机森林,该变量是算法的默认版本倾向于忽略的变量。
translated by 谷歌翻译
在过去几十年中,已经提出了各种方法,用于估计回归设置中的预测间隔,包括贝叶斯方法,集合方法,直接间隔估计方法和保形预测方法。重要问题是这些方法的校准:生成的预测间隔应该具有预定义的覆盖水平,而不会过于保守。在这项工作中,我们从概念和实验的角度审查上述四类方法。结果来自各个域的基准数据集突出显示从一个数据集中的性能的大波动。这些观察可能归因于违反某些类别的某些方法所固有的某些假设。我们说明了如何将共形预测用作提供不具有校准步骤的方法的方法的一般校准程序。
translated by 谷歌翻译