R包Doubleml实现了Chernozhukov等人的双重/辩护机器学习框架。 (2018)。它提供了基于机器学习方法的因果模型中估计参数的功能。双机器学习框架由三个关键成分组成:Neyman正交性,高质量的机器学习估计和样品拆分。可以通过MLR3生态系统中可用的各种最新机器学习方法来执行滋扰组件的估计。 Doubleml使得可以在各种因果模型中进行推断,包括部分线性和交互式回归模型及其扩展到仪器变量估计。 Doubleml的面向对象的实现为模型规范具有很高的灵活性,并使其易于扩展。本文是对双机器学习框架和R软件包DOUBLEML的介绍。在具有模拟和真实数据集的可再现代码示例中,我们演示了Doubleml用户如何基于机器学习方法执行有效的推断。
translated by 谷歌翻译
Doubleml是一个开源的Python库,实现Chernozhukov等人的双层机器学习框架。(2018)适用于各种因果模型。它包含有效统计推断对因果参数的有效推断的功能基于机器学习方法。面向对象的Doublem实施在型号规格方面提供了很高的灵活性,并使其轻松伸展。该包在麻省理工学院许可下分发,并依赖于科学Python生态系统的核心库:Scikit-Learn,Numpy,Pandas,Scipy,StatsModels和Joblib。源代码,文档和广泛的用户指南可以在https://github.com/doubleml/doubleml-for -py和https://docs.doubleml.org找到。
translated by 谷歌翻译
大型观察数据越来越多地提供健康,经济和社会科学等学科,研究人员对因果问题而不是预测感兴趣。在本文中,从旨在调查参与学校膳食计划对健康指标的实证研究,研究了使用非参数回归的方法估算异质治疗效果的问题。首先,我们介绍了与观察或非完全随机数据进行因果推断相关的设置和相关的问题,以及如何在统计学习工具的帮助下解决这些问题。然后,我们审查并制定现有最先进的框架的统一分类,允许通过非参数回归模型来估算单个治疗效果。在介绍模型选择问题的简要概述后,我们说明了一些关于三种不同模拟研究的方法的性能。我们通过展示一些关于学校膳食计划数据的实证分析的一些方法的使用来结束。
translated by 谷歌翻译
在本文中,我们提出了一种非参数估计的方法,并推断了一般样本选择模型中因果效应参数的异质界限,初始治疗可能会影响干预后结果是否观察到。可观察到的协变量可能会混淆治疗选择,而观察结果和不可观察的结果可能会混淆。该方法提供条件效应界限作为策略相关的预处理变量的功能。它允许对身份不明的条件效应曲线进行有效的统计推断。我们使用灵活的半参数脱偏机学习方法,该方法可以适应柔性功能形式和治疗,选择和结果过程之间的高维混杂变量。还提供了易于验证的高级条件,以进行估计和错误指定的鲁棒推理保证。
translated by 谷歌翻译
我们考虑在估计涉及依赖参数的高维滋扰的估计方程中估计一个低维参数。一个中心示例是因果推理中(局部)分位数处理效应((L)QTE)的有效估计方程,涉及在分位数以估计的分位数评估的协方差累积分布函数。借记机学习(DML)是一种使用灵活的机器学习方法估算高维滋扰的数据分解方法,但是将其应用于参数依赖性滋扰的问题是不切实际的。对于(L)QTE,DML要求我们学习整个协变量累积分布函数。相反,我们提出了局部偏见的机器学习(LDML),该学习避免了这一繁重的步骤,并且只需要对参数进行一次初始粗糙猜测而估算烦恼。对于(L)QTE,LDML仅涉及学习两个回归功能,这是机器学习方法的标准任务。我们证明,在松弛速率条件下,我们的估计量与使用未知的真实滋扰的不可行的估计器具有相同的有利渐近行为。因此,LDML值得注意的是,当我们必须控制许多协变量和/或灵活的关系时,如(l)QTES在((l)QTES)中,实际上可以有效地估算重要数量,例如(l)QTES。
translated by 谷歌翻译
预测一组结果 - 而不是独特的结果 - 是统计学习中不确定性定量的有前途的解决方案。尽管有关于构建具有统计保证的预测集的丰富文献,但适应未知的协变量转变(实践中普遍存在的问题)还是一个严重的未解决的挑战。在本文中,我们表明具有有限样本覆盖范围保证的预测集是非信息性的,并提出了一种新型的无灵活分配方法PredSet-1Step,以有效地构建了在未知协方差转移下具有渐近覆盖范围保证的预测集。我们正式表明我们的方法是\ textIt {渐近上可能是近似正确},对大型样本的置信度有很好的覆盖误差。我们说明,在南非队列研究中,它在许多实验和有关HIV风险预测的数据集中实现了名义覆盖范围。我们的理论取决于基于一般渐近线性估计器的WALD置信区间覆盖范围的融合率的新结合。
translated by 谷歌翻译
We develop a general framework for distribution-free predictive inference in regression, using conformal inference. The proposed methodology allows for the construction of a prediction band for the response variable using any estimator of the regression function. The resulting prediction band preserves the consistency properties of the original estimator under standard assumptions, while guaranteeing finite-sample marginal coverage even when these assumptions do not hold. We analyze and compare, both empirically and theoretically, the two major variants of our conformal framework: full conformal inference and split conformal inference, along with a related jackknife method. These methods offer different tradeoffs between statistical accuracy (length of resulting prediction intervals) and computational efficiency. As extensions, we develop a method for constructing valid in-sample prediction intervals called rank-one-out conformal inference, which has essentially the same computational efficiency as split conformal inference. We also describe an extension of our procedures for producing prediction bands with locally varying length, in order to adapt to heteroskedascity in the data. Finally, we propose a model-free notion of variable importance, called leave-one-covariate-out or LOCO inference. Accompanying this paper is an R package conformalInference that implements all of the proposals we have introduced. In the spirit of reproducibility, all of our empirical results can also be easily (re)generated using this package.
translated by 谷歌翻译
基于森林的方法最近在非参数治疗效应估计中获得了普及。在这一工作方面,我们引入了因果生存森林,可用于在可能右估计结果的生存和观察环境中估计异质治疗效果。我们的方法依赖于正交估计方程来在不满意的情况下对审查和选择效果进行鲁棒性调整。在我们的实验中,我们发现相对于许多基线的表现良好的方法。
translated by 谷歌翻译
感兴趣的许多因果和政策效应都是由高维或非参数回归函数的线性功能定义的。 $ \ sqrt {n} $ - 对目标对象的一致且渐近地正常估计需要偏见,以减少正则化和/或模型选择对感兴趣对象的影响。通常,通过将校正项添加到功能的插件估计器中来实现,从而导致属性,例如半参数效率,双重鲁棒性和Neyman正交性。我们基于自动学习使用神经网和随机森林的Riesz表示的自动偏差程序。我们的方法仅依赖于黑框评估Oracle访问线性功能,并且不需要其分析形式的知识。我们提出了一种多任务神经网络偏见方法,具有随机梯度下降最小化的Riesz代表和回归损失,同时共享这两个函数的表示层。我们还提出了一种随机森林方法,该方法了解Riesz函数的局部线性表示。即使我们的方法适用于任意功能,我们在实验上发现它的性能与Shi等人的最先进的神经网状算法相比。 (2019)对于平均治疗效果功能的情况。我们还使用汽油需求的汽油价格变化的半合成数据来评估我们的方法,即通过连续处理估算平均边缘效应的问题。
translated by 谷歌翻译
This paper provides estimation and inference methods for a conditional average treatment effects (CATE) characterized by a high-dimensional parameter in both homogeneous cross-sectional and unit-heterogeneous dynamic panel data settings. In our leading example, we model CATE by interacting the base treatment variable with explanatory variables. The first step of our procedure is orthogonalization, where we partial out the controls and unit effects from the outcome and the base treatment and take the cross-fitted residuals. This step uses a novel generic cross-fitting method we design for weakly dependent time series and panel data. This method "leaves out the neighbors" when fitting nuisance components, and we theoretically power it by using Strassen's coupling. As a result, we can rely on any modern machine learning method in the first step, provided it learns the residuals well enough. Second, we construct an orthogonal (or residual) learner of CATE -- the Lasso CATE -- that regresses the outcome residual on the vector of interactions of the residualized treatment with explanatory variables. If the complexity of CATE function is simpler than that of the first-stage regression, the orthogonal learner converges faster than the single-stage regression-based learner. Third, we perform simultaneous inference on parameters of the CATE function using debiasing. We also can use ordinary least squares in the last two steps when CATE is low-dimensional. In heterogeneous panel data settings, we model the unobserved unit heterogeneity as a weakly sparse deviation from Mundlak (1978)'s model of correlated unit effects as a linear function of time-invariant covariates and make use of L1-penalization to estimate these models. We demonstrate our methods by estimating price elasticities of groceries based on scanner data. We note that our results are new even for the cross-sectional (i.i.d) case.
translated by 谷歌翻译
关于日益增长的直播媒介的一种普遍信念是,其价值在于其“实时”组成部分。我们通过比较实时事件需求的价格弹性如何在直播中和之后的生活中进行了比较,从而研究了这种信念。我们使用来自大型直播平台的独特且丰富的数据来做到这一点,该数据使消费者可以在流中期后购买录制版本的直播版本。在我们背景下的一个挑战是,存在高维混杂因素,其与治疗政策(即价格)和兴趣结果(即需求)的关系是复杂的,并且仅部分知道。我们通过使用广义正交随机森林框架来解决这一挑战,以进行异质治疗效果估计。我们发现在整个事件生命周期中,需求价格弹性的时间弹性都显着。具体而言,随着时间的流逝,需求变得越来越敏感,直到直播一天,那天就变成了无弹性。在生活后的时期,对录制版本的需求仍然对价格敏感,但远低于在播放前的时期。我们进一步表明,价格弹性的这种时间变化是由此类事件固有的质量不确定性以及在直播过程中与内容创建者进行实时互动的机会所驱动的。
translated by 谷歌翻译
在许多学科中,在大量解释变量中推断反应变量的直接因果父母的问题具有很高的实际意义。但是,建立的方法通常至少会随着解释变量的数量而呈指数级扩展,难以扩展到非线性关系,并且很难扩展到周期性数据。受{\ em Debiased}机器学习方法的启发,我们研究了一种单Vs.-the-Rest特征选择方法,以发现响应的直接因果父母。我们提出了一种用于纯观测数据的算法,同时还提供理论保证,包括可能在周期存在下的部分非线性关系的情况。由于它仅需要对每个变量进行一个估计,因此我们的方法甚至适用于大图。与既定方法相比,我们证明了显着改善。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
Causal mediation analysis can unpack the black box of causality and is therefore a powerful tool for disentangling causal pathways in biomedical and social sciences, and also for evaluating machine learning fairness. To reduce bias for estimating Natural Direct and Indirect Effects in mediation analysis, we propose a new method called DeepMed that uses deep neural networks (DNNs) to cross-fit the infinite-dimensional nuisance functions in the efficient influence functions. We obtain novel theoretical results that our DeepMed method (1) can achieve semiparametric efficiency bound without imposing sparsity constraints on the DNN architecture and (2) can adapt to certain low dimensional structures of the nuisance functions, significantly advancing the existing literature on DNN-based semiparametric causal inference. Extensive synthetic experiments are conducted to support our findings and also expose the gap between theory and practice. As a proof of concept, we apply DeepMed to analyze two real datasets on machine learning fairness and reach conclusions consistent with previous findings.
translated by 谷歌翻译
通常使用参数模型进行经验领域的参数估计,并且此类模型很容易促进统计推断。不幸的是,它们不太可能足够灵活,无法充分建模现实现象,并可能产生偏见的估计。相反,非参数方法是灵活的,但不容易促进统计推断,并且仍然可能表现出残留的偏见。我们探索了影响功能(IFS)的潜力(a)改善初始估计器而无需更多数据(b)增加模型的鲁棒性和(c)促进统计推断。我们首先对IFS进行广泛的介绍,并提出了一种神经网络方法“ Multinet”,该方法使用单个体系结构寻求合奏的多样性。我们还介绍了我们称为“ Multistep”的IF更新步骤的变体,并对不同方法提供了全面的评估。发现这些改进是依赖数据集的,这表明所使用的方法与数据生成过程的性质之间存在相互作用。我们的实验强调了从业人员需要通过不同的估计器组合进行多次分析来检查其发现的一致性。我们还表明,可以改善“自由”的现有神经网络,而无需更多数据,而无需重新训练。
translated by 谷歌翻译
Many scientific and engineering challenges-ranging from personalized medicine to customized marketing recommendations-require an understanding of treatment effect heterogeneity. In this paper, we develop a non-parametric causal forest for estimating heterogeneous treatment effects that extends Breiman's widely used random forest algorithm. In the potential outcomes framework with unconfoundedness, we show that causal forests are pointwise consistent for the true treatment effect, and have an asymptotically Gaussian and centered sampling distribution. We also discuss a practical method for constructing asymptotic confidence intervals for the true treatment effect that are centered at the causal forest estimates. Our theoretical results rely on a generic Gaussian theory for a large family of random forest algorithms. To our knowledge, this is the first set of results that allows any type of random forest, including classification and regression forests, to be used for provably valid statistical inference. In experiments, we find causal forests to be substantially more powerful than classical methods based on nearest-neighbor matching, especially in the presence of irrelevant covariates.
translated by 谷歌翻译
我们考虑随机对照试验的差异问题,通过使用与结果相关的协变量但与治疗无关。我们提出了一种机器学习回归调整的处理效果估算器,我们称之为Mlrate。 Mlrate使用机器学习预测结果来降低估计方差。它采用交叉配件来避免过度偏置,在一般条件下,我们证明了一致性和渐近正常性。 Mlrate对机器学习的预测较差的鲁棒步骤:如果预测与结果不相关,则估计器执行渐近的差异,而不是标准差异估计器,而如果预测与结果高度相关,则效率提升大。在A / A测试中,对于在Facebook实验中通常监测的一组48个结果指标,估计器的差异比简单差分估计器差异超过70%,比仅调整的共同单变量过程约19%用于结果的预测值。
translated by 谷歌翻译
在许多学科中,异质治疗效果(HTE)的估计至关重要,从个性化医学到经济学等等。在随机试验和观察性研究中,随机森林已被证明是一种灵活而有力的HTE估计方法。尤其是Athey,Tibshirani和Wager(2019)引入的“因果森林”,以及包装GRF中的R实施。 Seibold,Zeileis和Hothorn(2018)引入了一种称为“基于模型的森林”的相关方法,该方法旨在随机试验,并同时捕获预后和预测变量的效果,并在R包装模型中进行模块化实现。 。在这里,我们提出了一种统一的观点,它超出了理论动机,并研究了哪些计算元素使因果森林如此成功,以及如何将它们与基于模型的森林的优势融合在一起。为此,我们表明,可以通过相同的参数和L2损耗下加性模型的模型假设来理解这两种方法。这种理论上的见解使我们能够实施“基于模型的因果林”的几种口味,并在计算机中剖析其不同元素。将原始的因果森林和基于模型的森林与基准研究中的新混合版本进行了比较,该研究探讨了随机试验和观察环境。在随机设置中,两种方法都执行了AKIN。如果在数据生成过程中存在混淆,我们发现与相应倾向的治疗指标的局部核心是良好性能的主要驱动力。结果的局部核心不太重要,并且可以通过相对于预后和预测效应的同时拆分选择来代替或增强。
translated by 谷歌翻译
内核正规化最小二乘(KRLS)是一种流行的方法,用于灵活估算可能在变量之间具有复杂关系的模型。但是,其对许多研究人员的有用性受到限制,原因有两个。首先,现有的方法不灵活,不允许KRL与理论动机的扩展(例如固定效应或非线性结果)结合使用。其次,对于甚至适度尺寸的数据集,估计在计算上是非常强大的。我们的论文通过引入广义KRL(GKRL)来解决这两种问题。我们注意到,可以将KRLS重新构造为层次模型,从而允许轻松推理和模块化模型构建。在计算上,我们还实施随机草图以显着加速估计,同时估计质量的罚款有限。我们证明,GKRL可以在一分钟内进行数万观察到的数据集中。此外,可以迅速估计需要在十二次(例如元学习者)中安装模型的最新技术。
translated by 谷歌翻译
治疗效应估计的因果推理方法通常假设独立的实验单位。但是,由于实验单元可能会相互作用,因此这种假设通常值得怀疑。我们开发了增强的反可能性加权(AIPW),以估计和推断因果治疗对依赖观察数据的影响。我们的框架涵盖了网络中相互作用的单位引起的溢出效应的非常普遍的案例。我们使用插件机学习来估计无限维的滋扰成分,导致一致的治疗效应估计器以参数速率收敛,渐近地遵循高斯分布。
translated by 谷歌翻译