因果效应估计对于自然和社会科学中的许多任务很重要。但是,如果没有做出强大的,通常无法测试的假设,就无法从观察数据中识别效果。我们考虑了部分识别问题的算法,当未衡量的混淆使鉴定不可能鉴定时,多变量,连续处理的界限治疗效果。我们考虑一个框架,即可观察的证据与基于规范标准在因果模型中编码的约束的含义相匹配。这纯粹是基于生成模型来概括经典方法。将因果关系施放为在受约束优化问题中的目标函数,我们将灵活的学习算法与蒙特卡洛方法相结合,以随机因果节目的名义实施解决方案家族。特别是,我们提出了可以通过因果或观察到的数据模型而没有可能性功能的参数功能的这种约束优化问题的方式,从而降低了任务的计算和统计复杂性。
translated by 谷歌翻译
因果推断对于跨业务参与,医疗和政策制定等领域的数据驱动决策至关重要。然而,关于因果发现的研究已经与推理方法分开发展,从而阻止了两个领域方法的直接组合。在这项工作中,我们开发了深层端到端因果推理(DECI),这是一种基于流动的非线性添加噪声模型,该模型具有观察数据,并且可以执行因果发现和推理,包括有条件的平均治疗效果(CATE) )估计。我们提供了理论上的保证,即DECI可以根据标准因果发现假设恢复地面真实因果图。受应用影响的激励,我们将该模型扩展到具有缺失值的异质,混合型数据,从而允许连续和离散的治疗决策。我们的结果表明,与因果发现的相关基线相比,DECI的竞争性能和(c)在合成数据集和因果机器学习基准测试基准的一千多个实验中,跨数据类型和缺失水平进行了估计。
translated by 谷歌翻译
不观察到的混淆是估算因果效应时的主要挑战之一。我们提出了一种因果还原方法,给出因果模型,用一个潜在的混淆器取代了一个任意数量的可能的高维潜在混淆,这些混淆是在同一空间中的价值观,而不改变原因的观察和介入分布模特需要。这使我们能够以合并数据的原则方式估计因果效应而不依赖于普遍但往往不切实际的假设,即所有的混乱。我们在三种不同的设置中应用了我们的因果化。在第一个设置中,我们假设治疗和结果是离散的。随后的因果还原暗示可以利用估计目的的观察和介入分布之间的界限。在某些情况下具有高度不平衡的观察样本的情况下,通过掺入观察数据,可以提高因果效应估计的准确性。其次,对于连续变量并假设线性高斯模型,我们导出了对观察和介入分布的参数的平等约束。第三,对于一般连续设置(可能是非线性或非高斯),我们使用标准化流量参数化减少的因果模型,灵活的易于可逆的非线性变换。我们对合成数据进行一系列实验,发现在几个情况下,在不牺牲精度的情况下添加观察训练样本时,可以减少介入样本的数量。
translated by 谷歌翻译
Causal inference is the process of using assumptions, study designs, and estimation strategies to draw conclusions about the causal relationships between variables based on data. This allows researchers to better understand the underlying mechanisms at work in complex systems and make more informed decisions. In many settings, we may not fully observe all the confounders that affect both the treatment and outcome variables, complicating the estimation of causal effects. To address this problem, a growing literature in both causal inference and machine learning proposes to use Instrumental Variables (IV). This paper serves as the first effort to systematically and comprehensively introduce and discuss the IV methods and their applications in both causal inference and machine learning. First, we provide the formal definition of IVs and discuss the identification problem of IV regression methods under different assumptions. Second, we categorize the existing work on IV methods into three streams according to the focus on the proposed methods, including two-stage least squares with IVs, control function with IVs, and evaluation of IVs. For each stream, we present both the classical causal inference methods, and recent developments in the machine learning literature. Then, we introduce a variety of applications of IV methods in real-world scenarios and provide a summary of the available datasets and algorithms. Finally, we summarize the literature, discuss the open problems and suggest promising future research directions for IV methods and their applications. We also develop a toolkit of IVs methods reviewed in this survey at https://github.com/causal-machine-learning-lab/mliv.
translated by 谷歌翻译
This review presents empirical researchers with recent advances in causal inference, and stresses the paradigmatic shifts that must be undertaken in moving from traditional statistical analysis to causal analysis of multivariate data. Special emphasis is placed on the assumptions that underly all causal inferences, the languages used in formulating those assumptions, the conditional nature of all causal and counterfactual claims, and the methods that have been developed for the assessment of such claims. These advances are illustrated using a general theory of causation based on the Structural Causal Model (SCM) described in Pearl (2000a), which subsumes and unifies other approaches to causation, and provides a coherent mathematical foundation for the analysis of causes and counterfactuals. In particular, the paper surveys the development of mathematical tools for inferring (from a combination of data and assumptions) answers to three types of causal queries: (1) queries about the effects of potential interventions, (also called "causal effects" or "policy evaluation") (2) queries about probabilities of counterfactuals, (including assessment of "regret," "attribution" or "causes of effects") and (3) queries about direct and indirect effects (also known as "mediation"). Finally, the paper defines the formal and conceptual relationships between the structural and potential-outcome frameworks and presents tools for a symbiotic analysis that uses the strong features of both.
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
估计平均因果效应的理想回归(如果有)是什么?我们在离散协变量的设置中研究了这个问题,从而得出了各种分层估计器的有限样本方差的表达式。这种方法阐明了许多广泛引用的结果的基本统计现象。我们的博览会结合了研究因果效应估计的三种不同的方法论传统的见解:潜在结果,因果图和具有加性误差的结构模型。
translated by 谷歌翻译
基于AI和机器学习的决策系统已在各种现实世界中都使用,包括医疗保健,执法,教育和金融。不再是牵强的,即设想一个未来,自治系统将推动整个业务决策,并且更广泛地支持大规模决策基础设施以解决社会最具挑战性的问题。当人类做出决定时,不公平和歧视的问题普遍存在,并且当使用几乎没有透明度,问责制和公平性的机器做出决定时(或可能会放大)。在本文中,我们介绍了\ textit {Causal公平分析}的框架,目的是填补此差距,即理解,建模,并可能解决决策设置中的公平性问题。我们方法的主要见解是将观察到数据中存在的差异的量化与基本且通常是未观察到的因果机制收集的因果机制的收集,这些机制首先会产生差异,挑战我们称之为因果公平的基本问题分析(FPCFA)。为了解决FPCFA,我们研究了分解差异和公平性的经验度量的问题,将这种变化归因于结构机制和人群的不同单位。我们的努力最终达到了公平地图,这是组织和解释文献中不同标准之间关系的首次系统尝试。最后,我们研究了进行因果公平分析并提出一本公平食谱的最低因果假设,该假设使数据科学家能够评估不同影响和不同治疗的存在。
translated by 谷歌翻译
因果关系是理解世界的科学努力的基本组成部分。不幸的是,在心理学和社会科学中,因果关系仍然是禁忌。由于越来越多的建议采用因果方法进行研究的重要性,我们重新制定了心理学研究方法的典型方法,以使不可避免的因果理论与其余的研究渠道协调。我们提出了一个新的过程,该过程始于从因果发现和机器学习的融合中纳入技术的发展,验证和透明的理论形式规范。然后,我们提出将完全指定的理论模型的复杂性降低到与给定目标假设相关的基本子模型中的方法。从这里,我们确定利息量是否可以从数据中估算出来,如果是的,则建议使用半参数机器学习方法来估计因果关系。总体目标是介绍新的研究管道,该管道可以(a)促进与测试因果理论的愿望兼容的科学询问(b)鼓励我们的理论透明代表作为明确的数学对象,(c)将我们的统计模型绑定到我们的统计模型中该理论的特定属性,因此减少了理论到模型间隙通常引起的规范不足问题,以及(d)产生因果关系和可重复性的结果和估计。通过具有现实世界数据的教学示例来证明该过程,我们以摘要和讨论来结论。
translated by 谷歌翻译
结构方程模型(SEM)是一种有效的框架,其原因是通过定向非循环图(DAG)表示的因果关系。最近的进步使得能够从观察数据中实现了DAG的最大似然点估计。然而,在实际场景中,可以不能准确地捕获在推断下面的底层图中的不确定性,其中真正的DAG是不可识别的并且/或观察到的数据集是有限的。我们提出了贝叶斯因果发现网(BCD网),一个变分推理框架,用于估算表征线性高斯SEM的DAG的分布。由于图形的离散和组合性质,开发一个完整的贝叶斯后面是挑战。我们通过表达变分别家庭分析可扩展VI的可扩展VI的关键设计选择,例如1)表达性变分别家庭,2)连续弛豫,使低方差随机优化和3)在潜在变量上具有合适的前置。我们提供了一系列关于实际和合成数据的实验,显示BCD网在低数据制度中的标准因果发现度量上的最大似然方法,例如结构汉明距离。
translated by 谷歌翻译
我们提供了一种主动识别分布的小小的变化的方法,从而导致模型性能差异很大。为了确保这些转移是合理的,我们会以观察到的变量的因果机制的可解释变化来对其进行参数化。这定义了合理分布的参数鲁棒性集和相应的最坏情况损失。虽然可以通过重新加权技术(例如重要性抽样)来估算单个参数转移下的损失,但最终的最坏情况优化问题是非convex,并且估计值可能遭受较大的差异。但是,对于小移位,我们可以构建局部二阶近似值,以构建损失的损失,并提出找到最坏情况下的最差偏移作为特定的非凸二次二次优化问题,为此有效算法可用。我们证明,可以直接估计条件指数族模型中的移位,并且绑定了近似误差。我们将方法应用于计算机视觉任务(从图像中对性别进行分类),从而揭示了对非毒物属性转变的敏感性。
translated by 谷歌翻译
度量的运输提供了一种用于建模复杂概率分布的多功能方法,并具有密度估计,贝叶斯推理,生成建模及其他方法的应用。单调三角传输地图$ \ unicode {x2014} $近似值$ \ unicode {x2013} $ rosenblatt(kr)重新安排$ \ unicode {x2014} $是这些任务的规范选择。然而,此类地图的表示和参数化对它们的一般性和表现力以及对从数据学习地图学习(例如,通过最大似然估计)出现的优化问题的属性产生了重大影响。我们提出了一个通用框架,用于通过平滑函数的可逆变换来表示单调三角图。我们建立了有关转化的条件,以使相关的无限维度最小化问题没有伪造的局部最小值,即所有局部最小值都是全球最小值。我们展示了满足某些尾巴条件的目标分布,唯一的全局最小化器与KR地图相对应。鉴于来自目标的样品,我们提出了一种自适应算法,该算法估计了基础KR映射的稀疏半参数近似。我们证明了如何将该框架应用于关节和条件密度估计,无可能的推断以及有向图形模型的结构学习,并在一系列样本量之间具有稳定的概括性能。
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
In this review, we discuss approaches for learning causal structure from data, also called causal discovery. In particular, we focus on approaches for learning directed acyclic graphs (DAGs) and various generalizations which allow for some variables to be unobserved in the available data. We devote special attention to two fundamental combinatorial aspects of causal structure learning. First, we discuss the structure of the search space over causal graphs. Second, we discuss the structure of equivalence classes over causal graphs, i.e., sets of graphs which represent what can be learned from observational data alone, and how these equivalence classes can be refined by adding interventional data.
translated by 谷歌翻译
This work shows how to leverage causal inference to understand the behavior of complex learning systems interacting with their environment and predict the consequences of changes to the system. Such predictions allow both humans and algorithms to select the changes that would have improved the system performance. This work is illustrated by experiments on the ad placement system associated with the Bing search engine.
translated by 谷歌翻译
作为因果推断中的重要问题,我们讨论了治疗效果(TES)的估计。代表混淆器作为潜在的变量,我们提出了完整的VAE,这是一个变形AutoEncoder(VAE)的新变种,其具有足以识别TES的预后分数的动机。我们的VAE也自然地提供了使用其之前用于治疗组的陈述。(半)合成数据集的实验显示在各种环境下的最先进的性能,包括不观察到的混淆。基于我们模型的可识别性,我们在不协调下证明TES的识别,并讨论(可能)扩展到更难的设置。
translated by 谷歌翻译
在考虑混杂变量时估计干预措施的效果是因果推断的关键任务。通常,混杂因素没有观察到,但是我们可以访问大量的非结构化数据(图像,文本),这些数据包含有关缺失混杂因素的有价值的代理信号。本文表明,利用通常被现有算法未使用的非结构化数据提高了因果效应估计的准确性。具体而言,我们引入了深层多模式结构方程,这是一个生成模型,其中混杂因素是潜在变量,非结构化数据是代理变量。该模型支持多个多模式代理(图像,文本)以及缺少数据。我们从经验上证明了基因组学和医疗保健的任务,我们的方法纠正了使用非结构化输入混淆,从而有可能使用以前在因果推理中不使用的大量数据。
translated by 谷歌翻译
我们提出了一个新的灵敏度分析模型,该模型结合了Copulas和在未观察到的混杂状态下的因果推断的标准化。我们将新模型称为$ \ rho $ -gnf($ \ rho $ - graphical正常化流),其中$ \ rho {\ in} [ - 1,+1] $是一个有界灵敏度参数,表示后门非 - 由于未观察到的混杂而引起的因果关系,使用研究最丰富且广泛流行的高斯副群建模。具体而言,$ \ rho $ -gnf使我们能够估计和分析前门因果效应或平均因果效应(ACE)作为$ \ rho $的函数。我们将其称为$ \ rho_ {curve} $。 $ \ rho_ {curve} $使我们能够指定无王牌所需的混杂力量。我们将其称为$ \ rho_ {value} $。此外,$ \ rho_ {curve} $还使我们能够为$ \ rho $ values的间隔提供ACE的界限。我们说明了$ \ rho $ -gnf的好处,并通过对我们的经验王牌界限的实验比其他流行的王牌范围更狭窄。
translated by 谷歌翻译
近年来目睹了采用灵活的机械学习模型进行乐器变量(IV)回归的兴趣,但仍然缺乏不确定性量化方法的发展。在这项工作中,我们为IV次数回归提出了一种新的Quasi-Bayesian程序,建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率,并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法,可以扩展到与宽神经网络模型一起工作。实证评价表明,我们的方法对复杂的高维问题产生了丰富的不确定性估计。
translated by 谷歌翻译
通常使用参数模型进行经验领域的参数估计,并且此类模型很容易促进统计推断。不幸的是,它们不太可能足够灵活,无法充分建模现实现象,并可能产生偏见的估计。相反,非参数方法是灵活的,但不容易促进统计推断,并且仍然可能表现出残留的偏见。我们探索了影响功能(IFS)的潜力(a)改善初始估计器而无需更多数据(b)增加模型的鲁棒性和(c)促进统计推断。我们首先对IFS进行广泛的介绍,并提出了一种神经网络方法“ Multinet”,该方法使用单个体系结构寻求合奏的多样性。我们还介绍了我们称为“ Multistep”的IF更新步骤的变体,并对不同方法提供了全面的评估。发现这些改进是依赖数据集的,这表明所使用的方法与数据生成过程的性质之间存在相互作用。我们的实验强调了从业人员需要通过不同的估计器组合进行多次分析来检查其发现的一致性。我们还表明,可以改善“自由”的现有神经网络,而无需更多数据,而无需重新训练。
translated by 谷歌翻译