黑盒机器学习模型被批评为缺乏可解释性,尽管它们往往具有良好的预测准确性。知识蒸馏(KD)是一种新兴工具,可以通过将知识提炼成透明模型来解释黑框模型。具有众所周知的解释优势,决策树是透明模型的竞争候选者。但是,对KD过程产生的决策树的理论或经验理解是有限的。在本文中,我们将这种决策树命名为蒸馏决策树(DDT),并为树结构稳定性的理论基础奠定了决定DDT解释的有效性的理论基础。我们证明,在某些温和的假设下,DDT的结构可以实现稳定(收敛性)。同时,我们开发了用于稳定DDT诱导的算法,提出了提高算法的计算效率的并行策略,并引入了一种边缘主体组件分析方法来克服采样中维度的诅咒。模拟和真实的数据研究证明了我们的理论结果,验证算法的疗效,并证明DDT可以在模型的预测准确性和可解释性之间取得良好的平衡。
translated by 谷歌翻译
Model distillation has been a popular method for producing interpretable machine learning. It uses an interpretable "student" model to mimic the predictions made by the black box "teacher" model. However, when the student model is sensitive to the variability of the data sets used for training, the corresponded interpretation is not reliable. Existing strategies stabilize model distillation by checking whether a large enough corpus of pseudo-data is generated to reliably reproduce student models, but methods to do so have so far been developed for a specific student model. In this paper, we develop a generic approach for stable model distillation based on central limit theorem for the average loss. We start with a collection of candidate student models and search for candidates that reasonably agree with the teacher. Then we construct a multiple testing framework to select a corpus size such that the consistent student model would be selected under different pseudo sample. We demonstrate the application of our proposed approach on three commonly used intelligible models: decision trees, falling rule lists and symbolic regression. Finally, we conduct simulation experiments on Mammographic Mass and Breast Cancer datasets and illustrate the testing procedure throughout a theoretical analysis with Markov process.
translated by 谷歌翻译
树合奏方法如随机森林[Breiman,2001]非常受欢迎,以处理高维表格数据集,特别是因为它们的预测精度良好。然而,当机器学习用于决策问题时,由于开明的决策需要对算法预测过程的深入理解来实现最佳预测程序的解决可能是不合理的。不幸的是,由于他们的预测结果从平均数百个决策树的预测结果,随机森林并不是本质上可解释的。在这种所谓的黑盒算法上获得知识的经典方法是计算可变重要性,这些重点是评估每个输入变量的预测影响。然后使用可变重要性对等变量进行排名或选择变量,从而在数据分析中发挥着重要作用。然而,没有理由使用随机森林变量以这种方式:我们甚至不知道这些数量估计。在本文中,我们分析了两个众所周知的随机森林可变重大之一,平均减少杂质(MDI)。我们证明,如果输入变量是独立的并且在没有相互作用的情况下,MDI提供了输出的方差分解,其中清楚地识别了每个变量的贡献。我们还研究表现出输入变量或交互之间的依赖性的模型,其中变量重要性本质上是不明的。我们的分析表明,与一棵树相比,可能存在使用森林的一些好处。
translated by 谷歌翻译
可变重要性措施是分析随机林的黑盒机制的主要工具。虽然平均值降低精度(MDA)被广泛接受作为随机森林最有效的可变重要性措施,但对其统计特性知之甚少。实际上,确切的MDA定义在主随机林软件上变化。在本文中,我们的目标是严格分析主要MDA实施的行为。因此,我们在数学上正式地形化各种实施的MDA算法,然后在样本量增加时建立限制。特别是,我们在三个组件中分解了这些限制:第一个与Sobol指数有关,这是对响应方差的协变度贡献的明确定义措施,广泛应用于敏感性分析领域,而不是TheThird术语,谁的价值随着协变量的依赖而增加。因此,我们理论上证明了MDA在协变者依赖时,MDA不会瞄准正确的数量,这是实验发现的事实。为了解决这个问题,我们为随机林,Sobol-MDA定义了一个新的重要性测量,它修复了原始MDA的缺陷。我们证明了Sobol-MDA的一致性,并表明Sobol-MDA在模拟和实际数据上经验胜过其竞争对手。 R和C ++中的开源实现可在线获取。
translated by 谷歌翻译
预测一组结果 - 而不是独特的结果 - 是统计学习中不确定性定量的有前途的解决方案。尽管有关于构建具有统计保证的预测集的丰富文献,但适应未知的协变量转变(实践中普遍存在的问题)还是一个严重的未解决的挑战。在本文中,我们表明具有有限样本覆盖范围保证的预测集是非信息性的,并提出了一种新型的无灵活分配方法PredSet-1Step,以有效地构建了在未知协方差转移下具有渐近覆盖范围保证的预测集。我们正式表明我们的方法是\ textIt {渐近上可能是近似正确},对大型样本的置信度有很好的覆盖误差。我们说明,在南非队列研究中,它在许多实验和有关HIV风险预测的数据集中实现了名义覆盖范围。我们的理论取决于基于一般渐近线性估计器的WALD置信区间覆盖范围的融合率的新结合。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
开发了一种使用多个辅助变量的非静止空间建模算法。它将Geodatistics与Simitile随机林结合起来,以提供一种新的插值和随机仿真算法。本文介绍了该方法,并表明它具有与施加地统计学建模和定量随机森林的那些相似的一致性结果。该方法允许嵌入更简单的插值技术,例如Kriging,以进一步调节模型。该算法通过估计每个目标位置处的目标变量的条件分布来工作。这种分布的家庭称为目标变量的包络。由此,可以获得空间估计,定量和不确定性。还开发了一种从包络产生条件模拟的算法。随着它们从信封中的样本,因此通过相对变化的次要变量,趋势和可变性的相对变化局部地影响。
translated by 谷歌翻译
Many scientific and engineering challenges-ranging from personalized medicine to customized marketing recommendations-require an understanding of treatment effect heterogeneity. In this paper, we develop a non-parametric causal forest for estimating heterogeneous treatment effects that extends Breiman's widely used random forest algorithm. In the potential outcomes framework with unconfoundedness, we show that causal forests are pointwise consistent for the true treatment effect, and have an asymptotically Gaussian and centered sampling distribution. We also discuss a practical method for constructing asymptotic confidence intervals for the true treatment effect that are centered at the causal forest estimates. Our theoretical results rely on a generic Gaussian theory for a large family of random forest algorithms. To our knowledge, this is the first set of results that allows any type of random forest, including classification and regression forests, to be used for provably valid statistical inference. In experiments, we find causal forests to be substantially more powerful than classical methods based on nearest-neighbor matching, especially in the presence of irrelevant covariates.
translated by 谷歌翻译
We develop a general framework for distribution-free predictive inference in regression, using conformal inference. The proposed methodology allows for the construction of a prediction band for the response variable using any estimator of the regression function. The resulting prediction band preserves the consistency properties of the original estimator under standard assumptions, while guaranteeing finite-sample marginal coverage even when these assumptions do not hold. We analyze and compare, both empirically and theoretically, the two major variants of our conformal framework: full conformal inference and split conformal inference, along with a related jackknife method. These methods offer different tradeoffs between statistical accuracy (length of resulting prediction intervals) and computational efficiency. As extensions, we develop a method for constructing valid in-sample prediction intervals called rank-one-out conformal inference, which has essentially the same computational efficiency as split conformal inference. We also describe an extension of our procedures for producing prediction bands with locally varying length, in order to adapt to heteroskedascity in the data. Finally, we propose a model-free notion of variable importance, called leave-one-covariate-out or LOCO inference. Accompanying this paper is an R package conformalInference that implements all of the proposals we have introduced. In the spirit of reproducibility, all of our empirical results can also be easily (re)generated using this package.
translated by 谷歌翻译
In this paper, we strengthen the previous weak consistency proof method of random forest variants into a strong consistency proof method, and strengthen the data-driven degree of RF variants, so as to obtain better theoretical properties and experimental performance. In addition, we also propose a data-driven multinomial random forest (DMRF) based on the multinomial random forest (MRF), which meets the strong consistency and has lower complexity than MRF, and the effect is equal to or better than MRF. As far as we know, DMRF algorithm is a variant of RF with low algorithm complexity and excellent performance.
translated by 谷歌翻译
我们提出了一种无监督的树,用于推断I.I.D的基础采样分布。基于拟合添加树的样本,以类似于监督的树木增强的时尚。算法的积分是概率分布的“添加”的新概念,该概率分布导致“残差”的连贯概念,即从观察值中减去概率分布,从后者的采样分布中去除分布结构。我们表明,由于单变量CDF的几种“类似”特性,这些概念通过累积分布函数(CDF)转换和组成自然出现。尽管传统的多元CDF不能保留这些属性,但多元CDF的新定义可以恢复这些属性,从而允许为多元设置制定“添加”和“残差”的概念。然后,这产生了基于添加树合奏的前阶段拟合的无监督算法,从而依次降低了kullback-leibler的差异。该算法允许对拟合密度进行分析评估,并输出可以轻松从中采样的生成模型。我们通过依赖比例的收缩和两阶段的策略来增强算法,该策略分别适合边缘和copula。然后,该算法在多个基准数据集的多元密度估计中竞争性地进行了最新的深度学习方法。
translated by 谷歌翻译
我们考虑在具有多个可用的多个辅助来源的主要兴趣样本中最佳决策问题。感兴趣的结果是有限的,因为它仅在主要样本中观察到。实际上,这种多个数据源可能属于异质研究,因此不能直接组合。本文提出了一种新的框架来处理异构研究,并通过新的校准最佳决策(CODA)方法同时解决有限的结果,通过利用多种数据来源的常见中间结果来解决。具体地,CODA允许跨不同样品的基线协变量具有均匀或异质的分布。在温和和可测试的假设下,不同样本中的中间结果的条件方法等于基线协变量和治疗信息,我们表明,条件平均结果的提议CODA估计是渐近正常的和更有效的,而不是使用主要样品。此外,由于速率双重稳健性,可以使用简单的插件方法轻松获得CODA估计器的方差。对模拟数据集的广泛实验显示了使用CoDa的经验有效性和提高效率,然后是与来自Eicu的辅助数据的主要样本是MIMIC-III数据集的真实应用程序。
translated by 谷歌翻译
自动化的HyperParameter优化(HPO)可以支持从业者在机器学习模型中获得峰值性能。然而,通常缺乏有价值的见解,以对不同的超参数对最终模型性能的影响。这种缺乏可解释性使得难以信任并理解自动化的HPO过程及其结果。我们建议使用可解释的机器学习(IML)从HPO中获得的实验数据与贝叶斯优化(BO)一起获得见解。 BO倾向于专注于具有潜在高性能配置的有前途的区域,从而诱导采样偏差。因此,许多IML技术,例如部分依赖曲线(PDP),承载产生偏置解释的风险。通过利用BO代理模型的后部不确定性,我们引入了具有估计置信带的PDP的变种。我们建议分区Quand参数空间以获得相关子区域的更自信和可靠的PDP。在一个实验研究中,我们为子区域内PDP的质量提高提供了定量证据。
translated by 谷歌翻译
由于其出色的经验表现,随机森林是过去十年中使用的机器学习方法之一。然而,由于其黑框的性质,在许多大数据应用中很难解释随机森林的结果。量化各个特征在随机森林中的实用性可以大大增强其解释性。现有的研究表明,一些普遍使用的特征对随机森林的重要性措施遭受了偏见问题。此外,对于大多数现有方法,缺乏全面的规模和功率分析。在本文中,我们通过假设检验解决了问题,并提出了一个自由化特征 - 弥散性相关测试(事实)的框架,以评估具有偏见性属性的随机森林模型中给定特征的重要性,我们零假设涉及该特征是否与所有其他特征有条件地独立于响应。关于高维随机森林一致性的一些最新发展,对随机森林推断的这种努力得到了赋予的能力。在存在功能依赖性的情况下,我们的事实测试的香草版可能会遇到偏见问题。我们利用偏置校正的不平衡和调节技术。我们通过增强功率的功能转换将合奏的想法进一步纳入事实统计范围。在相当普遍的具有依赖特征的高维非参数模型设置下,我们正式确定事实可以提供理论上合理的随机森林具有P值,并通过非催化分析享受吸引人的力量。新建议的方法的理论结果和有限样本优势通过几个模拟示例和与Covid-19的经济预测应用进行了说明。
translated by 谷歌翻译
在监督学习中,培训和测试数据集通常从不同的分布中采样。因此需要域改性技术。当域才因特征边际分布而不同时,协变速适配会产生良好的泛化性能。 Covariate换档适应通常使用重要性加权实施,这可能根据常见智慧而失败,由于较小的有效样本尺寸(ESS)。以前的研究认为,这种情况在高维设置中更常见。然而,考虑到协变转变适应的背景,在监督学习中,如何在监督学习方面与效率有效,维度和模型性能/泛化是多么难以置信。因此,主要挑战是呈现连接这些点的统一理论。因此,在本文中,我们专注于构建连接ESS,数据维度和泛化在协变速改编的背景下的统一视图。此外,我们还证明了减少量度或特征选择如何增加ESS,并认为我们的结果在协会变化适应之前支持维度减少,作为一种良好的做法。
translated by 谷歌翻译
虽然黑匣子预测因子对于许多复杂任务是最先进的,但它们通常无法正确量化预测性的不确定性,并且可以为不熟悉的数据提供不恰当的预测。相反,我们可以通过让它们在不确定性高时输出预测集或弃权来了解更多可靠的模型。我们建议使用不确定性感知损耗最小化框架培训这些选择性预测集模型,从而统一决策理论和强大的最大可能性的思路。此外,由于黑盒方法不保证输出良好的预测集,我们展示了如何计算任何选择性预测集模型的真实覆盖点的点估计和置信区间,以及k设定模型的均匀混合从k折叠样品分裂获得。当应用于预测医院内部死亡率和ICU患者的逗留时间时,我们的模型优于样本内和样本龄群体的现有方法,我们的重新校准方法提供了准确的推理,用于预测集覆盖。
translated by 谷歌翻译
In many applications, heterogeneous treatment effects on a censored response variable are of primary interest, and it is natural to evaluate the effects at different quantiles (e.g., median). The large number of potential effect modifiers, the unknown structure of the treatment effects, and the presence of right censoring pose significant challenges. In this paper, we develop a hybrid forest approach called Hybrid Censored Quantile Regression Forest (HCQRF) to assess the heterogeneous effects varying with high-dimensional variables. The hybrid estimation approach takes advantage of the random forests and the censored quantile regression. We propose a doubly-weighted estimation procedure that consists of a redistribution-of-mass weight to handle censoring and an adaptive nearest neighbor weight derived from the forest to handle high-dimensional effect functions. We propose a variable importance decomposition to measure the impact of a variable on the treatment effect function. Extensive simulation studies demonstrate the efficacy and stability of HCQRF. The result of the simulation study also convinces us of the effectiveness of the variable importance decomposition. We apply HCQRF to a clinical trial of colorectal cancer. We achieve insightful estimations of the treatment effect and meaningful variable importance results. The result of the variable importance also confirms the necessity of the decomposition.
translated by 谷歌翻译
我们查看模型可解释性的特定方面:模型通常需要限制在大小上才能被认为是可解释的,例如,深度5的决策树比深度50中的一个更容易解释。但是,较小的模型也倾向于高偏见。这表明可解释性和准确性之间的权衡。我们提出了一种模型不可知论技术,以最大程度地减少这种权衡。我们的策略是首先学习甲骨文,这是培训数据上高度准确的概率模型。 Oracle预测的不确定性用于学习培训数据的抽样分布。然后,对使用此分布获得的数据样本进行了可解释的模型,通常会导致精确度明显更高。我们将抽样策略作为优化问题。我们的解决方案1具有以下关键的有利属性:(1)它使用固定数量的七个优化变量,而与数据的维度(2)无关,它是模型不可知的 - 因为可解释的模型和甲骨文都可能属于任意性模型家族(3)它具有模型大小的灵活概念,并且可以容纳向量大小(4)它是一个框架,使其能够从优化领域的进度中受益。我们还提出了以下有趣的观察结果:(a)通常,小型模型大小的最佳训练分布与测试分布不同; (b)即使可解释的模型和甲骨文来自高度截然不同的模型家族,也存在这种效果:我们通过使用封闭的复发单位网络作为甲骨文来提高决策树的序列分类精度,从而在文本分类任务上显示此效果。使用字符n-grams; (c)对于模型,我们的技术可用于确定给定样本量的最佳训练样本。
translated by 谷歌翻译
Off-Policy evaluation (OPE) is concerned with evaluating a new target policy using offline data generated by a potentially different behavior policy. It is critical in a number of sequential decision making problems ranging from healthcare to technology industries. Most of the work in existing literature is focused on evaluating the mean outcome of a given policy, and ignores the variability of the outcome. However, in a variety of applications, criteria other than the mean may be more sensible. For example, when the reward distribution is skewed and asymmetric, quantile-based metrics are often preferred for their robustness. In this paper, we propose a doubly-robust inference procedure for quantile OPE in sequential decision making and study its asymptotic properties. In particular, we propose utilizing state-of-the-art deep conditional generative learning methods to handle parameter-dependent nuisance function estimation. We demonstrate the advantages of this proposed estimator through both simulations and a real-world dataset from a short-video platform. In particular, we find that our proposed estimator outperforms classical OPE estimators for the mean in settings with heavy-tailed reward distributions.
translated by 谷歌翻译
我们提出了一种基于配对构造的模型组件的广义添加剂模型,并以预测为主要目的。该模型组件的设计使我们的模型可以捕获响应协变量之间关系中潜在的复杂相互作用效应。此外,我们的模型不需要连续协变量的离散化,因此适用于许多此类协变量的问题。此外,我们设计了一种受梯度增强启发的拟合算法,以及通过对模型空间和近似值的限制来加快时间对比计算的限制,用于模型选择和模型选择的有效程序。除了我们的模型在更高维度中成为现实的选择绝对必要外,这些技术还可以作为设计有效模型选择算法的其他类型的Copula回归模型的基础。我们已经在模拟研究中探索了我们方法的特征,特别是将其与自然替代方案进行比较,例如逻辑回归,经典增强模型和受到惩罚的逻辑回归。我们还展示了我们在威斯康星州乳腺癌数据集和波士顿住房数据集上的方法。结果表明,即使离散协变量的比例很高,我们的方法的预测性能要么比其他方法更好或可比其他方法媲美。
translated by 谷歌翻译