在制造过程中通常检查因果关系,以支持故障调查,进行干预并做出战略决策。行业4.0已获得越来越多的数据,可实现数据驱动的因果发现(CD)。考虑到最近提出的CD方法的数量越来越多,有必要在公开可用的数据集上引入严格的基准测试程序,因为它们代表了公平比较和验证不同方法的基础。这项工作在连续制造过程中介绍了两个用于CD的新型公共数据集。第一个数据集使用著名的田纳西州伊士曼模拟器进行故障检测和过程控制。第二个数据集是从超级加工的食品制造厂中提取的,其中包括对该工厂的描述以及多个地面真相。这些数据集用于基于不同的指标提出基准测试程序,并对多种CD算法进行了评估。这项工作允许在现实条件下测试CD方法,从而为特定目标应用程序选择最合适的方法。数据集可在以下链接中找到:https://github.com/giovannimen
translated by 谷歌翻译
重建我们观察到的现象背后的因果关系是科学所有领域的基本挑战。在复杂的系统中,通过实验发现因果关系通常是不可行的,不道德的或昂贵的。但是,计算能力的增加使我们能够处理现代科学生成的不断增长的数据,从而从观察数据中引起对因果发现问题的新兴兴趣。这项工作评估了LPCMCI算法,该算法旨在找到与多维,高度相关的时间序列兼容的生成器,而某些变量则未观察到。我们发现LPCMCI的性能要比模仿什么都不了解的随机算法要好得多,但距离最佳检测仍然很远。此外,LPCMCI在自动依赖性,然后是同时的依赖性方面表现最佳,并且在滞后依赖性方面最挣扎。该项目的源代码可在线获得。
translated by 谷歌翻译
We explore how observational and interventional causal discovery methods can be combined. A state-of-the-art observational causal discovery algorithm for time series capable of handling latent confounders and contemporaneous effects, called LPCMCI, is extended to profit from casual constraints found through randomized control trials. Numerical results show that, given perfect interventional constraints, the reconstructed structural causal models (SCMs) of the extended LPCMCI allow 84.6% of the time for the optimal prediction of the target variable. The implementation of interventional and observational causal discovery is modular, allowing causal constraints from other sources. The second part of this thesis investigates the question of regret minimizing control by simultaneously learning a causal model and planning actions through the causal model. The idea is that an agent to optimize a measured variable first learns the system's mechanics through observational causal discovery. The agent then intervenes on the most promising variable with randomized values allowing for the exploitation and generation of new interventional data. The agent then uses the interventional data to enhance the causal model further, allowing improved actions the next time. The extended LPCMCI can be favorable compared to the original LPCMCI algorithm. The numerical results show that detecting and using interventional constraints leads to reconstructed SCMs that allow 60.9% of the time for the optimal prediction of the target variable in contrast to the baseline of 53.6% when using the original LPCMCI algorithm. Furthermore, the induced average regret decreases from 1.2 when using the original LPCMCI algorithm to 1.0 when using the extended LPCMCI algorithm with interventional discovery.
translated by 谷歌翻译
考虑基于AI和ML的决策对这些新兴技术的安全和可接受的使用的决策的社会和道德后果至关重要。公平,特别是保证ML决定不会导致对个人或少数群体的歧视。使用因果关系,可以更好地实现和衡量可靠的公平/歧视,从而更好地实现了敏感属性(例如性别,种族,宗教等)之间的因果关系,仅仅是仅仅是关联,例如性别,种族,宗教等(例如,雇用工作,贷款授予等) )。然而,对因果关系解决公平性的最大障碍是因果模型的不可用(通常表示为因果图)。文献中现有的因果关系方法并不能解决此问题,并假设可获得因果模型。在本文中,我们没有做出这样的假设,并且我们回顾了从可观察数据中发现因果关系的主要算法。这项研究的重点是因果发现及其对公平性的影响。特别是,我们展示了不同的因果发现方法如何导致不同的因果模型,最重要的是,即使因果模型之间的轻微差异如何对公平/歧视结论产生重大影响。通过使用合成和标准公平基准数据集的经验分析来巩固这些结果。这项研究的主要目标是强调因果关系使用因果关系适当解决公平性的因果发现步骤的重要性。
translated by 谷歌翻译
因果关系是理解世界的科学努力的基本组成部分。不幸的是,在心理学和社会科学中,因果关系仍然是禁忌。由于越来越多的建议采用因果方法进行研究的重要性,我们重新制定了心理学研究方法的典型方法,以使不可避免的因果理论与其余的研究渠道协调。我们提出了一个新的过程,该过程始于从因果发现和机器学习的融合中纳入技术的发展,验证和透明的理论形式规范。然后,我们提出将完全指定的理论模型的复杂性降低到与给定目标假设相关的基本子模型中的方法。从这里,我们确定利息量是否可以从数据中估算出来,如果是的,则建议使用半参数机器学习方法来估计因果关系。总体目标是介绍新的研究管道,该管道可以(a)促进与测试因果理论的愿望兼容的科学询问(b)鼓励我们的理论透明代表作为明确的数学对象,(c)将我们的统计模型绑定到我们的统计模型中该理论的特定属性,因此减少了理论到模型间隙通常引起的规范不足问题,以及(d)产生因果关系和可重复性的结果和估计。通过具有现实世界数据的教学示例来证明该过程,我们以摘要和讨论来结论。
translated by 谷歌翻译
我们的许多实验旨在发现数据生成机制(即现象)背后的原因和效果。最重要的是,阐明一个模型,该模型可以使我们能够进一步探索手头上的现象和/或允许我们准确预测它。从根本上讲,这种模型可能是通过因果方法来得出的(与观察或经验平均值相反)。在这种方法中,需要因果发现来创建因果模型,然后可以应用该因果模型来推断干预措施的影响,并回答我们可能拥有的任何假设问题(即以什么IFS的形式)。本文为因果发现和因果推断提供了一个案例,并与传统的机器学习方法进行了对比。都是从公民和结构工程的角度来看。更具体地说,本文概述了因果关系的关键原理以及因果发现和因果推断的最常用算法和包。最后,本文还提出了一系列示例和案例研究,介绍了如何为我们的领域采用因果概念。
translated by 谷歌翻译
In this review, we discuss approaches for learning causal structure from data, also called causal discovery. In particular, we focus on approaches for learning directed acyclic graphs (DAGs) and various generalizations which allow for some variables to be unobserved in the available data. We devote special attention to two fundamental combinatorial aspects of causal structure learning. First, we discuss the structure of the search space over causal graphs. Second, we discuss the structure of equivalence classes over causal graphs, i.e., sets of graphs which represent what can be learned from observational data alone, and how these equivalence classes can be refined by adding interventional data.
translated by 谷歌翻译
Causal learning has attracted much attention in recent years because causality reveals the essential relationship between things and indicates how the world progresses. However, there are many problems and bottlenecks in traditional causal learning methods, such as high-dimensional unstructured variables, combinatorial optimization problems, unknown intervention, unobserved confounders, selection bias and estimation bias. Deep causal learning, that is, causal learning based on deep neural networks, brings new insights for addressing these problems. While many deep learning-based causal discovery and causal inference methods have been proposed, there is a lack of reviews exploring the internal mechanism of deep learning to improve causal learning. In this article, we comprehensively review how deep learning can contribute to causal learning by addressing conventional challenges from three aspects: representation, discovery, and inference. We point out that deep causal learning is important for the theoretical extension and application expansion of causal science and is also an indispensable part of general artificial intelligence. We conclude the article with a summary of open issues and potential directions for future work.
translated by 谷歌翻译
了解因果关系有助于构建干预措施,以实现特定的目标并在干预下实现预测。随着学习因果关系的越来越重要,因果发现任务已经从使用传统方法推断出潜在的因果结构从观察数据到深度学习涉及的模式识别领域。大量数据的快速积累促进了具有出色可扩展性的因果搜索方法的出现。因果发现方法的现有摘要主要集中在基于约束,分数和FCM的传统方法上,缺乏针对基于深度学习的方法的完美分类和阐述,还缺乏一些考虑和探索因果关系的角度来探索因果发现方法范式。因此,我们根据变量范式将可能的因果发现任务分为三种类型,并分别给出三个任务的定义,定义和实例化每个任务的相关数据集以及同时构建的最终因果模型,然后审查不同任务的主要因果发现方法。最后,我们从不同角度提出了一些路线图,以解决因果发现领域的当前研究差距,并指出未来的研究方向。
translated by 谷歌翻译
结构性因果模型(SCM)提供了一种原则方法,可以从经济学到医学的学科中的观察和实验数据中识别因果关系。但是,通常以图形模型表示的SCM不仅可以依靠数据,而要支持域知识的支持。在这种情况下,一个关键的挑战是缺乏以系统的方式将先验(背景知识)编码为因果模型的方法学框架。我们提出了一个称为因果知识层次结构(CKH)的抽象,用于将先验编码为因果模型。我们的方法基于医学中“证据水平”的基础,重点是对因果信息的信心。使用CKH,我们提出了一个方法学框架,用于编码来自各种信息源的因果研究,并将它们组合起来以得出SCM。我们在模拟数据集上评估了我们的方法,并与敏感性分析的地面真实因果模型相比,证明了整体性能。
translated by 谷歌翻译
$ \ texttt {gcastle} $是一个端到端Python工具箱,用于因果结构学习。它提供了从模拟器或现实世界数据集的生成数据,从数据学习因果结构的功能,以及评估学到的图表,以及有用的实践,例如先验知识插入,初步邻域选择和后处理以删除错误发现。与相关包相比,$ \ texttt {gcastle} $包括许多最近开发的基于渐变的因果发现方法,具有可选的GPU加速。$ \ texttt {gcastle} $为可以直接尝试代码以及具有图形用户干扰的从业者来为研究人员提供方便。当前版本也提供了电信中的三个现实世界数据集。$ \ texttt {gcastle} $可在Apache许可证2.0下获得\ url {https://github.com/huawei-noah/trustworthyai/tree/master/gcastle}。
translated by 谷歌翻译
Causal structure learning from observational data remains a non-trivial task due to various factors such as finite sampling, unobserved confounding factors, and measurement errors. Constraint-based and score-based methods tend to suffer from high computational complexity due to the combinatorial nature of estimating the directed acyclic graph (DAG). Motivated by the `Cause-Effect Pair' NIPS 2013 Workshop on Causality Challenge, in this paper, we take a different approach and generate a probability distribution over all possible graphs informed by the cause-effect pair features proposed in response to the workshop challenge. The goal of the paper is to propose new methods based on this probabilistic information and compare their performance with traditional and state-of-the-art approaches. Our experiments, on both synthetic and real datasets, show that our proposed methods not only have statistically similar or better performances than some traditional approaches but also are computationally faster.
translated by 谷歌翻译
时间序列数据收集之间的因果发现可以帮助诊断症状的原因,并希望在发生故障之前防止故障。然而,可靠的因果发现可能非常具有挑战性,特别是当数据采集率变化(即,不均匀的数据采样)时,或在存在丢失的数据点(例如,稀疏数据采样)时。为了解决这些问题,我们提出了一个由两个部分组成的新系统,第一部分填充了具有高斯进程回归的缺失数据,第二部分利用了回声状态网络,即储层计算机(即,用于混沌的类型系统建模)对于因果发现。我们评估我们提出的系统对其他三个现成的因果发现算法的性能,即结构期望 - 最大化,子采样的线性自动回归绝对系数,以及使用田纳西州伊斯曼的传染媒介自回归的多变量格兰杰因果关系化学数据集;我们报告了它们对应的Matthews相关系数(MCC)和接收器操作特征曲线(ROC),并表明所提出的系统优于现有的算法,展示了我们在缺失条目中发现复杂系统中的因果关系的可行性。
translated by 谷歌翻译
因果推断对于跨业务参与,医疗和政策制定等领域的数据驱动决策至关重要。然而,关于因果发现的研究已经与推理方法分开发展,从而阻止了两个领域方法的直接组合。在这项工作中,我们开发了深层端到端因果推理(DECI),这是一种基于流动的非线性添加噪声模型,该模型具有观察数据,并且可以执行因果发现和推理,包括有条件的平均治疗效果(CATE) )估计。我们提供了理论上的保证,即DECI可以根据标准因果发现假设恢复地面真实因果图。受应用影响的激励,我们将该模型扩展到具有缺失值的异质,混合型数据,从而允许连续和离散的治疗决策。我们的结果表明,与因果发现的相关基线相比,DECI的竞争性能和(c)在合成数据集和因果机器学习基准测试基准的一千多个实验中,跨数据类型和缺失水平进行了估计。
translated by 谷歌翻译
数据科学任务可以被视为了解数据的感觉或测试关于它的假设。从数据推断的结论可以极大地指导我们做出信息做出决定。大数据使我们能够与机器学习结合执行无数的预测任务,例如鉴定患有某种疾病的高风险患者并采取可预防措施。然而,医疗保健从业者不仅仅是仅仅预测的内容 - 它们也对输入特征和临床结果之间的原因关系感兴趣。了解这些关系将有助于医生治疗患者并有效降低风险。通常通过随机对照试验鉴定因果关系。当科学家和研究人员转向观察研究并试图吸引推论时,这种试验通常是不可行的。然而,观察性研究也可能受到选择和/或混淆偏差的影响,这可能导致错误的因果结论。在本章中,我们将尝试突出传统机器学习和统计方法中可能出现的一些缺点,以分析观察数据,特别是在医疗保健数据分析域中。我们将讨论因果化推理和方法,以发现医疗领域的观测研究原因。此外,我们将展示因果推断在解决某些普通机器学习问题等中的应用,例如缺少数据和模型可运输性。最后,我们将讨论将加强学习与因果关系相结合的可能性,作为反击偏见的一种方式。
translated by 谷歌翻译
本文提出了一种新的因果发现方法,即结构不可知的建模(SAM)。SAM利用条件独立性和分布不对称性,旨在从观察数据中找到潜在的因果结构。该方法基于不同玩家之间的游戏,该游戏将每个变量分布有条件地作为神经网估算,而对手则旨在区分生成的数据与原始数据。结合分布估计,稀疏性和无环限制的学习标准用于通过随机梯度下降来实施图形结构和参数的优化。SAM在合成和真实数据上进行了实验验证。
translated by 谷歌翻译
在学习从观察数据中学习贝叶斯网络的图形结构是描述和帮助了解复杂应用程序中的数据生成过程的关键,而任务由于其计算复杂性而构成了相当大的挑战。代表贝叶斯网络模型的定向非循环图(DAG)通常不会从观察数据识别,并且存在各种方法来估计其等价类。在某些假设下,流行的PC算法可以通过测试条件独立(CI)一致地始终恢复正确的等价类,从边际独立关系开始,逐步扩展调节集。这里,我们提出了一种通过利用协方差与精密矩阵之间的反向关系来执行PC算法内的CI测试的新颖方案。值得注意的是,精密矩阵的元素与高斯数据的部分相关性。然后,我们的算法利用对协方差和精密矩阵的块矩阵逆转,同时对互补(或双)调节集的部分相关性进行测试。因此,双PC算法的多个CI测试首先考虑边缘和全阶CI关系并逐步地移动到中心顺序。仿真研究表明,双PC算法在运行时和恢复底层网络结构方面都优于经典PC算法。
translated by 谷歌翻译
发现新药是寻求并证明因果关系。作为一种新兴方法利用人类的知识和创造力,数据和机器智能,因果推论具有减少认知偏见并改善药物发现决策的希望。尽管它已经在整个价值链中应用了,但因子推理的概念和实践对许多从业者来说仍然晦涩难懂。本文提供了有关因果推理的非技术介绍,审查了其最新应用,并讨论了在药物发现和开发中采用因果语言的机会和挑战。
translated by 谷歌翻译
在科学研究和现实世界应用的许多领域中,非实验数据的因果效应的无偏估计对于理解数据的基础机制以及对有效响应或干预措施的决策至关重要。从不同角度对这个具有挑战性的问题进行了大量研究。对于数据中的因果效应估计,始终做出诸如马尔可夫财产,忠诚和因果关系之类的假设。在假设下,仍然需要一组协变量或基本因果图之类的全部知识。一个实用的挑战是,在许多应用程序中,没有这样的全部知识或只有某些部分知识。近年来,研究已经出现了基于图形因果模型的搜索策略,以从数据中发现有用的知识,以进行因果效应估计,并具有一些温和的假设,并在应对实际挑战方面表现出了诺言。在这项调查中,我们回顾了方法,并关注数据驱动方法所面临的挑战。我们讨论数据驱动方法的假设,优势和局限性。我们希望这篇综述将激励更多的研究人员根据图形因果建模设计更好的数据驱动方法,以解决因果效应估计的具有挑战性的问题。
translated by 谷歌翻译
在许多学科中,在大量解释变量中推断反应变量的直接因果父母的问题具有很高的实际意义。但是,建立的方法通常至少会随着解释变量的数量而呈指数级扩展,难以扩展到非线性关系,并且很难扩展到周期性数据。受{\ em Debiased}机器学习方法的启发,我们研究了一种单Vs.-the-Rest特征选择方法,以发现响应的直接因果父母。我们提出了一种用于纯观测数据的算法,同时还提供理论保证,包括可能在周期存在下的部分非线性关系的情况。由于它仅需要对每个变量进行一个估计,因此我们的方法甚至适用于大图。与既定方法相比,我们证明了显着改善。
translated by 谷歌翻译