There is intense interest in applying machine learning to problems of causal inference in fields such as healthcare, economics and education. In particular, individual-level causal inference has important applications such as precision medicine. We give a new theoretical analysis and family of algorithms for predicting individual treatment effect (ITE) from observational data, under the assumption known as strong ignorability. The algorithms learn a "balanced" representation such that the induced treated and control distributions look similar. We give a novel, simple and intuitive generalization-error bound showing that the expected ITE estimation error of a representation is bounded by a sum of the standard generalization-error of that representation and the distance between the treated and control distributions induced by the representation. We use Integral Probability Metrics to measure distances between distributions, deriving explicit bounds for the Wasserstein and Maximum Mean Discrepancy (MMD) distances. Experiments on real and simulated data show the new algorithms match or outperform the state-of-the-art.
translated by 谷歌翻译
Observational studies are rising in importance due to the widespread accumulation of data in fields such as healthcare, education, employment and ecology. We consider the task of answering counterfactual questions such as, "Would this patient have lower blood sugar had she received a different medication?". We propose a new algorithmic framework for counterfactual inference which brings together ideas from domain adaptation and representation learning. In addition to a theoretical justification, we perform an empirical comparison with previous approaches to causal inference from observational data. Our deep learning algorithm significantly outperforms the previous state-of-the-art.
translated by 谷歌翻译
因果推断能够估计治疗效果(即,治疗结果的因果效果),使各个领域的决策受益。本研究中的一个基本挑战是观察数据的治疗偏见。为了提高对因果推断的观察研究的有效性,基于代表的方法作为最先进的方法表明了治疗效果估计的卓越性能。基于大多数基于表示的方法假设所有观察到的协变量都是预处理的(即,不受治疗影响的影响),并学习这些观察到的协变量的平衡表示,以估算治疗效果。不幸的是,这种假设往往在实践中往往是太严格的要求,因为一些协调因子是通过对治疗的干预进行改变(即,后治疗)来改变。相比之下,从不变的协变量中学到的平衡表示因此偏置治疗效果估计。
translated by 谷歌翻译
对于许多具有观察数据的生物医学应用,估计治疗效果至关重要。特别是,对于许多生物医学研究人员来说,可解释性可解释性。在本文中,我们首先提供理论分析,并在强大的无知性假设下获得平均治疗效果(ATE)估计的偏差的上限。通过利用加权能量距离的吸引力性能得出,我们的上限比文献中报道的更紧密。在理论分析的激励下,我们提出了一个新的目标函数,用于估计使用能量距离平衡评分的ATE,因此不需要正确规范倾向得分模型。我们还利用最近开发的神经添加剂模型来改善用于潜在结果预测的深度学习模型的可解释性。我们通过能量距离平衡评分加权正则化进一步增强了我们提出的模型。在半合成实验中,使用两个基准数据集(即IHDP和ACIC)证明了我们提出的模型比当前最新方法的优势。
translated by 谷歌翻译
加权方法是偏离因果效应的估计的常见工具。虽然越来越多的看似不同的方法,但其中许多可以折叠成一个统一的制度:因果最佳运输。这种新方法通过最小化治疗和对照组之间的最佳运输距离,或者更一般地,在源和目标群体之间直接针对分布平衡。我们的方法是半富集的有效和无模型,但也可以包含研究人员希望平衡的协变量的时刻或任何其他重要的功能。我们发现因果最佳运输优于竞争对手的方法,当错过倾向分数和结果模型时,表明它是一种稳健的替代普通加权方法。最后,我们证明了我们在外部对照研究中的效用检查米索前列醇与催产素治疗后骨髓出血的影响。
translated by 谷歌翻译
传统的因果推理方法利用观察性研究数据来估计潜在治疗的观察到的差异和未观察到的结果,称为条件平均治疗效果(CATE)。然而,凯特就对应于仅第一刻的比较,因此可能不足以反映治疗效果的全部情况。作为替代方案,估计全部潜在结果分布可以提供更多的见解。但是,估计治疗效果的现有方法潜在的结果分布通常对这些分布施加限制性或简单的假设。在这里,我们提出了合作因果网络(CCN),这是一种新颖的方法,它通过学习全部潜在结果分布而超出了CATE的估计。通过CCN框架估算结果分布不需要对基础数据生成过程的限制性假设。此外,CCN促进了每种可能处理的效用的估计,并允许通过效用函数进行特定的特定变异。 CCN不仅将结果估计扩展到传统的风险差异之外,而且还可以通过定义灵活的比较来实现更全面的决策过程。根据因果文献中通常做出的假设,我们表明CCN学习了渐近捕获真正潜在结果分布的分布。此外,我们提出了一种调整方法,该方法在经验上可以有效地减轻观察数据中治疗组之间的样本失衡。最后,我们评估了CCN在多个合成和半合成实验中的性能。我们证明,与现有的贝叶斯和深层生成方法相比,CCN学会了改进的分布估计值,以及对各种效用功能的改进决策。
translated by 谷歌翻译
尽管现代的大规模数据集通常由异质亚群(例如,多个人口统计组或多个文本语料库)组成 - 最小化平均损失的标准实践并不能保证所有亚人群中均匀的低损失。我们提出了一个凸面程序,该过程控制给定尺寸的所有亚群中最差的表现。我们的程序包括有限样本(非参数)收敛的保证,可以保证最坏的亚群。从经验上讲,我们观察到词汇相似性,葡萄酒质量和累犯预测任务,我们最糟糕的程序学习了对不看到看不见的亚人群的模型。
translated by 谷歌翻译
Causal inference is the process of using assumptions, study designs, and estimation strategies to draw conclusions about the causal relationships between variables based on data. This allows researchers to better understand the underlying mechanisms at work in complex systems and make more informed decisions. In many settings, we may not fully observe all the confounders that affect both the treatment and outcome variables, complicating the estimation of causal effects. To address this problem, a growing literature in both causal inference and machine learning proposes to use Instrumental Variables (IV). This paper serves as the first effort to systematically and comprehensively introduce and discuss the IV methods and their applications in both causal inference and machine learning. First, we provide the formal definition of IVs and discuss the identification problem of IV regression methods under different assumptions. Second, we categorize the existing work on IV methods into three streams according to the focus on the proposed methods, including two-stage least squares with IVs, control function with IVs, and evaluation of IVs. For each stream, we present both the classical causal inference methods, and recent developments in the machine learning literature. Then, we introduce a variety of applications of IV methods in real-world scenarios and provide a summary of the available datasets and algorithms. Finally, we summarize the literature, discuss the open problems and suggest promising future research directions for IV methods and their applications. We also develop a toolkit of IVs methods reviewed in this survey at https://github.com/causal-machine-learning-lab/mliv.
translated by 谷歌翻译
比较概率分布是许多机器学习算法的关键。最大平均差异(MMD)和最佳运输距离(OT)是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件,可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习(CSL)理论的推动,资源有效的大规模学习的一般框架,其中训练数据总结在单个向量(称为草图)中,该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发,我们介绍了H \“较旧的较低限制的等距属性(H \”较旧的LRIP)并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系,我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证,即概率分布之间的某些特定于特定的特定度量,可以由Wassersein界定距离。
translated by 谷歌翻译
我们提出了基于内核Ridge回归的估计估算师,用于非参数结构功能(也称为剂量响应曲线)和半甲酰胺处理效果。治疗和协变量可以是离散的或连续的,低,高或无限的尺寸。与其他机器学习范例不同,降低了具有闭合形式解决方案的内核脊回归组合的因果估计和推理,这些ridge回归的组合,并通过矩阵操作轻松计算。这种计算简单允许我们在两个方向上扩展框架:从意味着增加和分布反事实结果;从完整人口参数到群体和替代人口的参数。对于结构函数,我们证明了具有有限样本速率的均匀一致性。对于治疗效果,我们通过新的双光谱鲁棒性属性证明$ \ sqrt {n} $一致性,高斯近似和半甲效率。我们对美国职能培训计划进行仿真和估计平均,异构和增量结构职能。
translated by 谷歌翻译
协调因子的匹配是估计观察研究中因果效应的既定框架。这些设置中的主要挑战源于问题的经常高维结构。已经引入了许多方法来处理这一挑战,在计算和统计性能和解释性中具有不同的优点和缺点。此外,该方法的重点是在二元治疗场景中匹配两个样本,但是一项专用方法可以在多种治疗中最佳地平衡样本的方法。本文介绍了基于熵的自然最佳匹配方法,该方法具有许多有用的属性来解决这些挑战。它提供了可解释的匹配个体的重量,该匹配的个体可以通过经典迭代比例配合过程有效地实现参数速率的参数速率,并且甚至可以同时匹配几个治疗臂。它还具有优异的有限样品性质。
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
Learning individual-level causal effects from observational data, such as inferring the most effective medication for a specific patient, is a problem of growing importance for policy makers. The most important aspect of inferring causal effects from observational data is the handling of confounders, factors that affect both an intervention and its outcome. A carefully designed observational study attempts to measure all important confounders. However, even if one does not have direct access to all confounders, there may exist noisy and uncertain measurement of proxies for confounders. We build on recent advances in latent variable modeling to simultaneously estimate the unknown latent space summarizing the confounders and the causal effect. Our method is based on Variational Autoencoders (VAE) which follow the causal structure of inference with proxies. We show our method is significantly more robust than existing methods, and matches the state-of-the-art on previous benchmarks focused on individual treatment effects.
translated by 谷歌翻译
估计平均因果效应的理想回归(如果有)是什么?我们在离散协变量的设置中研究了这个问题,从而得出了各种分层估计器的有限样本方差的表达式。这种方法阐明了许多广泛引用的结果的基本统计现象。我们的博览会结合了研究因果效应估计的三种不同的方法论传统的见解:潜在结果,因果图和具有加性误差的结构模型。
translated by 谷歌翻译
负面对照是在存在未衡量混杂的情况下学习治疗与结果之间因果关系的策略。但是,如果有两个辅助变量可用:阴性对照治疗(对实际结果没有影响),并且可以确定治疗效果,并且可以识别出负面对照的结果(不受实际治疗的影响)。这些辅助变量也可以看作是一组传统控制变量的代理,并且与仪器变量相似。我提出了一种基于内核脊回归的算法系列,用于学习非参数治疗效果,并具有阴性对照。例子包括剂量反应曲线,具有分布转移的剂量反应曲线以及异质治疗效果。数据可能是离散的或连续的,并且低,高或无限的尺寸。我证明一致性均匀,并提供有限的收敛速率。我使用宾夕法尼亚州1989年至1991年之间在宾夕法尼亚州的单身人士出生的数据集对婴儿的出生体重进行了吸烟的剂量反应曲线,以调整未观察到的混杂因素。
translated by 谷歌翻译
我们提出了用于中介分析和动态治疗效果的内核脊回归估计。我们允许治疗,协变量和介质是离散或连续的,低,高或无限的尺寸。我们在内核矩阵操作方面提出了具有封闭式解决方案的依据,增量和分布的估算者。对于连续治疗案例,我们证明了具有有限样本速率的均匀一致性。对于离散处理案例,我们证明了根 - N一致性,高斯近似和半占用效率。我们进行仿真,然后估计美国职务团计划的介导和动态治疗效果,弱势青少年。
translated by 谷歌翻译
当并非观察到所有混杂因子并获得负面对照时,我们研究因果参数的估计。最近的工作表明,这些方法如何通过两个所谓的桥梁函数来实现识别和有效估计。在本文中,我们使用阴性对照来应对因果推断的主要挑战:这些桥梁功能的识别和估计。先前的工作依赖于这些功能的完整性条件,以识别因果参数并在估计中需要进行独特性假设,并且还集中于桥梁函数的参数估计。相反,我们提供了一种新的识别策略,以避免完整性条件。而且,我们根据最小学习公式为这些功能提供新的估计量。这些估计值适合通用功能类别,例如重现Hilbert空间和神经网络。我们研究了有限样本收敛的结果,既可以估计桥梁功能本身,又要在各种假设组合下对因果参数进行最终估计。我们尽可能避免桥梁上的独特条件。
translated by 谷歌翻译
由于选择偏差,观察数据估算平均治疗效果(ATE)是有挑战性的。现有作品主要以两种方式应对这一挑战。一些研究人员建议构建满足正交条件的分数函数,该函数确保已建立的估计量“正交”更加健壮。其他人探索表示模型,以实现治疗组和受控群体之间的平衡表示。但是,现有研究未能进行1)在表示空间中歧视受控单元以避免过度平衡的问题; 2)充分利用“正交信息”。在本文中,我们提出了一个基于最新协变量平衡表示方法和正交机器学习理论的中等平衡的表示学习(MBRL)框架。该框架可保护表示形式免于通过多任务学习过度平衡。同时,MBRL将噪声正交性信息纳入培训和验证阶段,以实现更好的ATE估计。与现有的最新方法相比,基准和模拟数据集的全面实验表明,我们方法对治疗效应估计的优越性和鲁棒性。
translated by 谷歌翻译
在制定政策指南时,随机对照试验(RCT)代表了黄金标准。但是,RCT通常是狭窄的,并且缺乏更广泛的感兴趣人群的数据。这些人群中的因果效应通常是使用观察数据集估算的,这可能会遭受未观察到的混杂和选择偏见。考虑到一组观察估计(例如,来自多项研究),我们提出了一个试图拒绝偏见的观察性估计值的元偏值。我们使用验证效应,可以从RCT和观察数据中推断出的因果效应。在拒绝未通过此测试的估计器之后,我们对RCT中未观察到的亚组的外推性效应产生了保守的置信区间。假设至少一个观察估计量在验证和外推效果方面是渐近正常且一致的,我们为我们算法输出的间隔的覆盖率概率提供了保证。为了促进在跨数据集的因果效应运输的设置中,我们给出的条件下,即使使用灵活的机器学习方法用于估计滋扰参数,群体平均治疗效应的双重稳定估计值也是渐近的正常。我们说明了方法在半合成和现实世界数据集上的特性,并表明它与标准的荟萃分析技术相比。
translated by 谷歌翻译
因果关系的概念在人类认知中起着重要作用。在过去的几十年中,在许多领域(例如计算机科学,医学,经济学和教育)中,因果推论已经得到很好的发展。随着深度学习技术的发展,它越来越多地用于针对反事实数据的因果推断。通常,深层因果模型将协变量的特征映射到表示空间,然后设计各种客观优化函数,以根据不同的优化方法公正地估算反事实数据。本文重点介绍了深层因果模型的调查,其核心贡献如下:1)我们在多种疗法和连续剂量治疗下提供相关指标; 2)我们从时间开发和方法分类的角度综合了深层因果模型的全面概述; 3)我们协助有关相关数据集和源代码的详细且全面的分类和分析。
translated by 谷歌翻译