我们提出了一种评估真正因果效应对未测量混杂性的敏感性的方法。该方法要求分析师设置两个直观的参数。否则,该方法是无假设的。该方法返回包含真正因果效果的间隔,并且其界限是尖锐的,即它。我们通过实验展示我们的界限可以比通过丁和vanderweele(2016a)的方法所获得的界限更敏锐,而且,这需要比我们的方法设置一个参数。最后,当有测量的调解员和未测量的暴露 - 结果混淆时,我们将我们的方法扩展到结合自然直接和间接效应。
translated by 谷歌翻译
我们研究病例对照和病例人口抽样下的因果推断。为此,我们专注于二进制结果和二进制处理情况下,如果感兴趣的参数是因果相,并通过潜在的结果框架中定义归因危险。结果表明,强ignorability并不总是有力,因为它是根据随机取样和某些单调的假设产生了鲜明的识别的时间间隔的条件比较的结果。具体而言,通常的比值比被示出为一锋利的识别上下单调治疗反应和单调治疗选择的假设因果相对风险的上限。然后,我们讨论的平均条件(对数)的比值比,当平均是依据只能是在数据确定的协变量的(条件)分布提出的算法semiparametrically有效的估计。我们还为因果推理算法,如果协变量的真实人口分布是理想的聚集。我们证明我们的方法通过研究,从社会科学两个经验的例子用处:就读私立学校进入巴基斯坦一所名牌大学并留校和卷入与巴西贩毒团伙之间的因果关系的好处。
translated by 谷歌翻译
This review presents empirical researchers with recent advances in causal inference, and stresses the paradigmatic shifts that must be undertaken in moving from traditional statistical analysis to causal analysis of multivariate data. Special emphasis is placed on the assumptions that underly all causal inferences, the languages used in formulating those assumptions, the conditional nature of all causal and counterfactual claims, and the methods that have been developed for the assessment of such claims. These advances are illustrated using a general theory of causation based on the Structural Causal Model (SCM) described in Pearl (2000a), which subsumes and unifies other approaches to causation, and provides a coherent mathematical foundation for the analysis of causes and counterfactuals. In particular, the paper surveys the development of mathematical tools for inferring (from a combination of data and assumptions) answers to three types of causal queries: (1) queries about the effects of potential interventions, (also called "causal effects" or "policy evaluation") (2) queries about probabilities of counterfactuals, (including assessment of "regret," "attribution" or "causes of effects") and (3) queries about direct and indirect effects (also known as "mediation"). Finally, the paper defines the formal and conceptual relationships between the structural and potential-outcome frameworks and presents tools for a symbiotic analysis that uses the strong features of both.
translated by 谷歌翻译
We consider the estimation of average treatment effects in observational studies without the standard assumption of unconfoundedness. We propose a new framework of robust causal inference under the general observational study setting with the possible existence of unobserved confounders. Our approach is based on the method of distributionally robust optimization and proceeds in two steps. We first specify the maximal degree to which the distribution of unobserved potential outcomes may deviate from that of obsered outcomes. We then derive sharp bounds on the average treatment effects under this assumption. Our framework encompasses the popular marginal sensitivity model as a special case and can be extended to the difference-in-difference and regression discontinuity designs as well as instrumental variables. Through simulation and empirical studies, we demonstrate the applicability of the proposed methodology to real-world settings.
translated by 谷歌翻译
在TAN(2006)边缘敏感模型下,在不观察到的混淆存在下构建平均处理效应的界限问题。结合涉及对冲倾向分数的现有表征具有对问题的新的分布稳健特征,我们提出了我们称之为“双重有效/双重尖锐”(DVD)估计的这些界限的新颖估算器。双重清晰度对应于DVD估计始终估计灵敏度模型所暗示的最有可能(即,夏普)的界限,即使当所有滋扰参数都适当一致时,即使在两个滋扰参数中的一个被击败并实现半污染参数之一。双倍有效性是部分识别的全新财产:DVD估计仍然提供有效,但即使在大多数滋扰参数都被遗漏时,仍然没有锐利。实际上,即使在DVDS点估计无法渐近正常的情况下,标准沃尔德置信区间也可能保持有效。在二进制结果的情况下,DVD估计是特别方便的并且在结果回归和倾向评分方面具有闭合形式的表达。我们展示了模拟研究中的DVD估计,以及对右心导管插入的案例研究。
translated by 谷歌翻译
我们推出了一般,但简单,尖锐的界限,用于广泛的因果参数的省略可变偏置,可以被识别为结果的条件期望函数的线性功能。这些功能包括许多传统的因果推断研究中的调查目标,例如(加权)平均潜在结果,平均治疗效果(包括亚组效应,例如对处理的效果),(加权)平均值来自协变态分布的转变的衍生品和政策影响 - 所有是一般的非参数因果模型。我们的建设依赖于目标功能的riesz-frechet表示。具体而言,我们展示了偏差的绑定如何仅取决于潜在变量在结果中创建的附加变型以及用于感兴趣的参数的RIESZ代表。此外,在许多重要病例中(例如,部分线性模型中的平均治疗效果,或在具有二元处理的不可分配模型中),所示的界定依赖于两个易于解释的数量:非参数部分$ r ^ 2 $(Pearson的相关性与治疗和结果的未观察变量的比例“。因此,对省略变量的最大解释力(在解释处理和结果变化时)的简单合理性判断足以将整体界限放置在偏置的尺寸上。最后,利用脱叠机器学习,我们提供灵活有效的统计推理方法,以估计从观察到的分布识别的界限的组件。
translated by 谷歌翻译
我们基于从多个数据集的合并信息介绍了一种反事实推断的方法。我们考虑了统计边际问题的因果重新重新制定:鉴于边际结构因果模型(SCM)的集合在不同但重叠的变量集上,请确定与边际相反一致的关节SCMS集。我们使用响应函数配方对分类SCM进行了形式化这种方法,并表明它降低了允许的边际和关节SCM的空间。因此,我们的工作通过其他变量突出了一种通过其他变量的新模式,与统计数据相反。
translated by 谷歌翻译
Statistical risk assessments inform consequential decisions such as pretrial release in criminal justice, and loan approvals in consumer finance. Such risk assessments make counterfactual predictions, predicting the likelihood of an outcome under a proposed decision (e.g., what would happen if we approved this loan?). A central challenge, however, is that there may have been unmeasured confounders that jointly affected past decisions and outcomes in the historical data. This paper proposes a tractable mean outcome sensitivity model that bounds the extent to which unmeasured confounders could affect outcomes on average. The mean outcome sensitivity model partially identifies the conditional likelihood of the outcome under the proposed decision, popular predictive performance metrics (e.g., accuracy, calibration, TPR, FPR), and commonly-used predictive disparities. We derive their sharp identified sets, and we then solve three tasks that are essential to deploying statistical risk assessments in high-stakes settings. First, we propose a doubly-robust learning procedure for the bounds on the conditional likelihood of the outcome under the proposed decision. Second, we translate our estimated bounds on the conditional likelihood of the outcome under the proposed decision into a robust, plug-in decision-making policy. Third, we develop doubly-robust estimators of the bounds on the predictive performance of an existing risk assessment.
translated by 谷歌翻译
在制定政策指南时,随机对照试验(RCT)代表了黄金标准。但是,RCT通常是狭窄的,并且缺乏更广泛的感兴趣人群的数据。这些人群中的因果效应通常是使用观察数据集估算的,这可能会遭受未观察到的混杂和选择偏见。考虑到一组观察估计(例如,来自多项研究),我们提出了一个试图拒绝偏见的观察性估计值的元偏值。我们使用验证效应,可以从RCT和观察数据中推断出的因果效应。在拒绝未通过此测试的估计器之后,我们对RCT中未观察到的亚组的外推性效应产生了保守的置信区间。假设至少一个观察估计量在验证和外推效果方面是渐近正常且一致的,我们为我们算法输出的间隔的覆盖率概率提供了保证。为了促进在跨数据集的因果效应运输的设置中,我们给出的条件下,即使使用灵活的机器学习方法用于估计滋扰参数,群体平均治疗效应的双重稳定估计值也是渐近的正常。我们说明了方法在半合成和现实世界数据集上的特性,并表明它与标准的荟萃分析技术相比。
translated by 谷歌翻译
我们提出了一个新的灵敏度分析模型,该模型结合了Copulas和在未观察到的混杂状态下的因果推断的标准化。我们将新模型称为$ \ rho $ -gnf($ \ rho $ - graphical正常化流),其中$ \ rho {\ in} [ - 1,+1] $是一个有界灵敏度参数,表示后门非 - 由于未观察到的混杂而引起的因果关系,使用研究最丰富且广泛流行的高斯副群建模。具体而言,$ \ rho $ -gnf使我们能够估计和分析前门因果效应或平均因果效应(ACE)作为$ \ rho $的函数。我们将其称为$ \ rho_ {curve} $。 $ \ rho_ {curve} $使我们能够指定无王牌所需的混杂力量。我们将其称为$ \ rho_ {value} $。此外,$ \ rho_ {curve} $还使我们能够为$ \ rho $ values的间隔提供ACE的界限。我们说明了$ \ rho $ -gnf的好处,并通过对我们的经验王牌界限的实验比其他流行的王牌范围更狭窄。
translated by 谷歌翻译
在本文中,我们提出了一种非参数估计的方法,并推断了一般样本选择模型中因果效应参数的异质界限,初始治疗可能会影响干预后结果是否观察到。可观察到的协变量可能会混淆治疗选择,而观察结果和不可观察的结果可能会混淆。该方法提供条件效应界限作为策略相关的预处理变量的功能。它允许对身份不明的条件效应曲线进行有效的统计推断。我们使用灵活的半参数脱偏机学习方法,该方法可以适应柔性功能形式和治疗,选择和结果过程之间的高维混杂变量。还提供了易于验证的高级条件,以进行估计和错误指定的鲁棒推理保证。
translated by 谷歌翻译
现代纵向研究在许多时间点收集特征数据,通常是相同的样本大小顺序。这些研究通常受到{辍学}和积极违规的影响。我们通过概括近期增量干预的效果(转换倾向分数而不是设置治疗价值)来解决这些问题,以适应多种结果和主题辍学。当条件忽略(不需要治疗阳性)时,我们给出了识别表达式的增量干预效果,并导出估计这些效果的非参数效率。然后我们提出了高效的非参数估计器,表明它们以快速参数速率收敛并产生均匀的推理保证,即使在较慢的速率下灵活估计滋扰函数。我们还研究了新型无限时间范围设置中的更传统的确定性效果的增量干预效应的方差比,其中时间点的数量可以随着样本大小而生长,并显示增量干预效果在统计精度下产生近乎指数的收益这个设置。最后,我们通过模拟得出结论,并在研究低剂量阿司匹林对妊娠结果的研究中进行了方法。
translated by 谷歌翻译
估计平均因果效应的理想回归(如果有)是什么?我们在离散协变量的设置中研究了这个问题,从而得出了各种分层估计器的有限样本方差的表达式。这种方法阐明了许多广泛引用的结果的基本统计现象。我们的博览会结合了研究因果效应估计的三种不同的方法论传统的见解:潜在结果,因果图和具有加性误差的结构模型。
translated by 谷歌翻译
This work shows how to leverage causal inference to understand the behavior of complex learning systems interacting with their environment and predict the consequences of changes to the system. Such predictions allow both humans and algorithms to select the changes that would have improved the system performance. This work is illustrated by experiments on the ad placement system associated with the Bing search engine.
translated by 谷歌翻译
当并非观察到所有混杂因子并获得负面对照时,我们研究因果参数的估计。最近的工作表明,这些方法如何通过两个所谓的桥梁函数来实现识别和有效估计。在本文中,我们使用阴性对照来应对因果推断的主要挑战:这些桥梁功能的识别和估计。先前的工作依赖于这些功能的完整性条件,以识别因果参数并在估计中需要进行独特性假设,并且还集中于桥梁函数的参数估计。相反,我们提供了一种新的识别策略,以避免完整性条件。而且,我们根据最小学习公式为这些功能提供新的估计量。这些估计值适合通用功能类别,例如重现Hilbert空间和神经网络。我们研究了有限样本收敛的结果,既可以估计桥梁功能本身,又要在各种假设组合下对因果参数进行最终估计。我们尽可能避免桥梁上的独特条件。
translated by 谷歌翻译
由于平均治疗效果(ATE)可以衡量社会福利的变化,即使是积极的,也存在对大约10%人口的负面影响的风险。但是,评估这种风险是困难的,因为从未观察到任何一个单独的治疗效果(ITE),因此无法识别出10%的最差影响,而分布治疗效果仅比较每个治疗组中的第一个十分限到任何10%的人群。在本文中,我们考虑如何评估这一重要风险措施,正式为ITE分布的风险(CVAR)的条件价值。我们利用预处理协变量的可用性,并表征了协变量平均治疗效果(CATE)功能给出的ITE-VAR上最紧密的上限和下限。然后,我们继续研究如何从数据中有效估计这些界限并构建置信区间。即使在随机实验中,这也是一个挑战,因为它需要了解未知CATE函数的分布,如果我们使用富协变量以最佳控制异质性,这可能非常复杂。我们开发了一种偏见的方法,该方法克服了这一点,并证明即使CATE和其他令人讨厌的统计属性是通过Black-Box机器学习估算甚至不一致的。我们研究对法国搜索咨询服务的假设变化,我们的界限和推论表明,一个小的社会利益对实质性亚人群产生负面影响。
translated by 谷歌翻译
因果关系是理解世界的科学努力的基本组成部分。不幸的是,在心理学和社会科学中,因果关系仍然是禁忌。由于越来越多的建议采用因果方法进行研究的重要性,我们重新制定了心理学研究方法的典型方法,以使不可避免的因果理论与其余的研究渠道协调。我们提出了一个新的过程,该过程始于从因果发现和机器学习的融合中纳入技术的发展,验证和透明的理论形式规范。然后,我们提出将完全指定的理论模型的复杂性降低到与给定目标假设相关的基本子模型中的方法。从这里,我们确定利息量是否可以从数据中估算出来,如果是的,则建议使用半参数机器学习方法来估计因果关系。总体目标是介绍新的研究管道,该管道可以(a)促进与测试因果理论的愿望兼容的科学询问(b)鼓励我们的理论透明代表作为明确的数学对象,(c)将我们的统计模型绑定到我们的统计模型中该理论的特定属性,因此减少了理论到模型间隙通常引起的规范不足问题,以及(d)产生因果关系和可重复性的结果和估计。通过具有现实世界数据的教学示例来证明该过程,我们以摘要和讨论来结论。
translated by 谷歌翻译
基于AI和机器学习的决策系统已在各种现实世界中都使用,包括医疗保健,执法,教育和金融。不再是牵强的,即设想一个未来,自治系统将推动整个业务决策,并且更广泛地支持大规模决策基础设施以解决社会最具挑战性的问题。当人类做出决定时,不公平和歧视的问题普遍存在,并且当使用几乎没有透明度,问责制和公平性的机器做出决定时(或可能会放大)。在本文中,我们介绍了\ textit {Causal公平分析}的框架,目的是填补此差距,即理解,建模,并可能解决决策设置中的公平性问题。我们方法的主要见解是将观察到数据中存在的差异的量化与基本且通常是未观察到的因果机制收集的因果机制的收集,这些机制首先会产生差异,挑战我们称之为因果公平的基本问题分析(FPCFA)。为了解决FPCFA,我们研究了分解差异和公平性的经验度量的问题,将这种变化归因于结构机制和人群的不同单位。我们的努力最终达到了公平地图,这是组织和解释文献中不同标准之间关系的首次系统尝试。最后,我们研究了进行因果公平分析并提出一本公平食谱的最低因果假设,该假设使数据科学家能够评估不同影响和不同治疗的存在。
translated by 谷歌翻译
因果效应估计对于自然和社会科学中的许多任务很重要。但是,如果没有做出强大的,通常无法测试的假设,就无法从观察数据中识别效果。我们考虑了部分识别问题的算法,当未衡量的混淆使鉴定不可能鉴定时,多变量,连续处理的界限治疗效果。我们考虑一个框架,即可观察的证据与基于规范标准在因果模型中编码的约束的含义相匹配。这纯粹是基于生成模型来概括经典方法。将因果关系施放为在受约束优化问题中的目标函数,我们将灵活的学习算法与蒙特卡洛方法相结合,以随机因果节目的名义实施解决方案家族。特别是,我们提出了可以通过因果或观察到的数据模型而没有可能性功能的参数功能的这种约束优化问题的方式,从而降低了任务的计算和统计复杂性。
translated by 谷歌翻译
因果推断能够估计治疗效果(即,治疗结果的因果效果),使各个领域的决策受益。本研究中的一个基本挑战是观察数据的治疗偏见。为了提高对因果推断的观察研究的有效性,基于代表的方法作为最先进的方法表明了治疗效果估计的卓越性能。基于大多数基于表示的方法假设所有观察到的协变量都是预处理的(即,不受治疗影响的影响),并学习这些观察到的协变量的平衡表示,以估算治疗效果。不幸的是,这种假设往往在实践中往往是太严格的要求,因为一些协调因子是通过对治疗的干预进行改变(即,后治疗)来改变。相比之下,从不变的协变量中学到的平衡表示因此偏置治疗效果估计。
translated by 谷歌翻译