提供强大分布概括和快速适应的学习模型是现代机器学习的关键挑战。将因果结构建模到神经网络中,有望实现稳健的零和几乎没有适应性。可区分因果发现的最新进展提出,将数据生成过程分配到一组模块中,即每个变量的条件分布的一个模块,而只有因果父母仅将因果父母用作预测因素。这种知识模块化分解可以通过仅更新参数的子集来适应分布的转移。在这项工作中,我们通过将其与单片模型和结构化模型进行比较,在该模块上,我们系统地研究了这种模块化神经因果模型的概括和适应性性能,在该模型中,预测因子集不受因果父母的约束。我们的分析表明,模块化神经因果模型在低数据制度中的零和少数适应性上都优于其他模型,并提供了强大的概括。我们还发现,与较密集的图相比,对于稀疏图而言,这种效果更为重要。
translated by 谷歌翻译
因果推断对于跨业务参与,医疗和政策制定等领域的数据驱动决策至关重要。然而,关于因果发现的研究已经与推理方法分开发展,从而阻止了两个领域方法的直接组合。在这项工作中,我们开发了深层端到端因果推理(DECI),这是一种基于流动的非线性添加噪声模型,该模型具有观察数据,并且可以执行因果发现和推理,包括有条件的平均治疗效果(CATE) )估计。我们提供了理论上的保证,即DECI可以根据标准因果发现假设恢复地面真实因果图。受应用影响的激励,我们将该模型扩展到具有缺失值的异质,混合型数据,从而允许连续和离散的治疗决策。我们的结果表明,与因果发现的相关基线相比,DECI的竞争性能和(c)在合成数据集和因果机器学习基准测试基准的一千多个实验中,跨数据类型和缺失水平进行了估计。
translated by 谷歌翻译
因果表示学习是识别基本因果变量及其从高维观察(例如图像)中的关系的任务。最近的工作表明,可以从观测的时间序列中重建因果变量,假设它们之间没有瞬时因果关系。但是,在实际应用中,我们的测量或帧速率可能比许多因果效应要慢。这有效地产生了“瞬时”效果,并使以前的可识别性结果无效。为了解决这个问题,我们提出了ICITRI,这是一种因果表示学习方法,当具有已知干预目标的完美干预措施时,可以在时间序列中处理瞬时效应。 Icitris从时间观察中识别因果因素,同时使用可区分的因果发现方法来学习其因果图。在三个视频数据集的实验中,Icitris准确地识别了因果因素及其因果图。
translated by 谷歌翻译
Inferring causal structure poses a combinatorial search problem that typically involves evaluating structures with a score or independence test. The resulting search is costly, and designing suitable scores or tests that capture prior knowledge is difficult. In this work, we propose to amortize causal structure learning. Rather than searching over structures, we train a variational inference model to directly predict the causal structure from observational or interventional data. This allows our inference model to acquire domain-specific inductive biases for causal discovery solely from data generated by a simulator, bypassing both the hand-engineering of suitable score functions and the search over graphs. The architecture of our inference model emulates permutation invariances that are crucial for statistical efficiency in structure learning, which facilitates generalization to significantly larger problem instances than seen during training. On synthetic data and semisynthetic gene expression data, our models exhibit robust generalization capabilities when subject to substantial distribution shifts and significantly outperform existing algorithms, especially in the challenging genomics domain. Our code and models are publicly available at: https://github.com/larslorch/avici.
translated by 谷歌翻译
模拟DAG模型可能表现出属性,也许无意中,使其结构识别和意外地影响结构学习算法。在这里,我们表明边缘方差往往沿着仿制性添加添加剂噪声模型的因果顺序增加。我们将Varsortable介绍为衡量衡量边际差异和因果顺序的秩序之间的协议。对于通常采样的图形和模型参数,我们表明,一些连续结构学习算法的显着性能可以通过高的Varsortable解释,并通过简单的基线方法匹配。然而,这种性能可能不会转移到真实世界的数据,其中VARS使性可能是中等或取决于测量尺度的选择。在标准化数据上,相同的算法无法识别地面真理DAG或其Markov等价类。虽然标准化在边缘方差中删除了模式,但我们表明,数据产生过程,其产生高VILS使性也留下了即使在标准化之后也可以利用不同的协方差模式。我们的调查结果挑战了独立绘制参数的通用基准的重要性。代码可在https://github.com/scriddie/varsortable获得。
translated by 谷歌翻译
学习数据背后的因果结构对于改善概括和获得高质量的解释是无价的。我们提出了一个新颖的框架,不变结构学习(ISL),旨在通过利用概括作为指示来改善因果结构发现。 ISL将数据分配到不同的环境中,并通过施加一致性约束来学习一个在不同环境中不变的结构。然后,聚集机制基于图形结构选择最佳分类器,该图形结构与从单个环境中学到的结构相比,更准确地反映了数据中的因果机制。此外,我们将ISL扩展到一个自制的学习环境,在该设置中,准确的因果结构发现不依赖任何标签。这种自我监督的ISL通过迭代设置不同的节点作为目标来利用不变的因果关系。在合成和现实世界数据集上,我们证明了ISL准确地发现因果结构,优于替代方法,并且对具有显着分布变化的数据集产生了卓越的概括。
translated by 谷歌翻译
一个令人着迷的假设是,人类和动物的智力可以通过一些原则(而不是启发式方法的百科全书清单)来解释。如果这个假设是正确的,我们可以更容易地理解自己的智能并建造智能机器。就像物理学一样,原理本身不足以预测大脑等复杂系统的行为,并且可能需要大量计算来模拟人类式的智力。这一假设将表明,研究人类和动物所剥削的归纳偏见可以帮助阐明这些原则,并为AI研究和神经科学理论提供灵感。深度学习已经利用了几种关键的归纳偏见,这项工作考虑了更大的清单,重点是关注高级和顺序有意识的处理的工作。阐明这些特定原则的目的是,它们有可能帮助我们建立从人类的能力中受益于灵活分布和系统概括的能力的AI系统,目前,这是一个领域艺术机器学习和人类智力。
translated by 谷歌翻译
结构方程模型(SEM)是一种有效的框架,其原因是通过定向非循环图(DAG)表示的因果关系。最近的进步使得能够从观察数据中实现了DAG的最大似然点估计。然而,在实际场景中,可以不能准确地捕获在推断下面的底层图中的不确定性,其中真正的DAG是不可识别的并且/或观察到的数据集是有限的。我们提出了贝叶斯因果发现网(BCD网),一个变分推理框架,用于估算表征线性高斯SEM的DAG的分布。由于图形的离散和组合性质,开发一个完整的贝叶斯后面是挑战。我们通过表达变分别家庭分析可扩展VI的可扩展VI的关键设计选择,例如1)表达性变分别家庭,2)连续弛豫,使低方差随机优化和3)在潜在变量上具有合适的前置。我们提供了一系列关于实际和合成数据的实验,显示BCD网在低数据制度中的标准因果发现度量上的最大似然方法,例如结构汉明距离。
translated by 谷歌翻译
缺少数据是机器学习实践中的一个重要问题。从估算方法应保留数据的因果结构的前提下,我们开发了一个正则化方案,鼓励任何基线估算方法与底层数据产生机制发生因果关系。我们的提议是一个因果感知估算算法(奇迹)。奇迹通过同时建模缺失产生机制,令人振奋的归咎与数据的因果结构一致,迭代地改进基线的归纳。我们对综合和各种公开可用数据集进行了广泛的实验,以表明奇迹能够在所有三个缺失场景中始终如一地改善对各种基准方法的归力:随机,完全随意,而不是随机。
translated by 谷歌翻译
因果推断的一个共同主题是学习观察到的变量(也称为因果发现)之间的因果关系。考虑到大量候选因果图和搜索空间的组合性质,这通常是一项艰巨的任务。也许出于这个原因,到目前为止,大多数研究都集中在相对较小的因果图上,并具有多达数百个节点。但是,诸如生物学之类的领域的最新进展使生成实验数据集,并进行了数千种干预措施,然后进行了数千个变量的丰富分析,从而增加了机会和迫切需要大量因果图模型。在这里,我们介绍了因子定向无环图(F-DAG)的概念,是将搜索空间限制为非线性低级别因果相互作用模型的一种方法。将这种新颖的结构假设与最近的进步相结合,弥合因果发现与连续优化之间的差距,我们在数千个变量上实现了因果发现。此外,作为统计噪声对此估计程序的影响的模型,我们根据随机图研究了F-DAG骨架的边缘扰动模型,并量化了此类扰动对F-DAG等级的影响。该理论分析表明,一组候选F-DAG比整个DAG空间小得多,因此在很难评估基础骨架的高维度中更统计学上的稳定性。我们提出了因子图(DCD-FG)的可区分因果发现,这是对高维介入数据的F-DAG约束因果发现的可扩展实现。 DCD-FG使用高斯非线性低级结构方程模型,并且在模拟中的最新方法以及最新的大型单细胞RNA测序数据集中,与最新方法相比显示出显着改善遗传干预措施。
translated by 谷歌翻译
因果学习的基本难度是通常不能根据观察数据完全识别因果模型。介入数据,即源自不同实验环境的数据,提高了可识别性。然而,改善统治性取决于每个实验中的干预措施的目标和性质。由于在实际应用实验往往是昂贵的,因此需要执行正确的干预措施,使得尽可能少。在这项工作中,我们提出了一种基于不变因果预测(ICP)的新的主动学习(即实验选择)框架(A-ICP)(Peters等,2016)。对于一般结构因果模型,我们的表征干预对所谓的稳定集的影响,由(Pfister等,2019)引入的概念。我们利用这些结果提出了用于A-ICP的几个干预选择策略,该策略快速揭示了因果图中响应变量的直接原因,同时保持ICP中固有的错误控制。经验上,我们分析了拟议的拟议政策在人口和有限政府实验中的表现。
translated by 谷歌翻译
域的概括(DG)通过利用来自多个相关分布或域的标记培训数据在看不见的测试分布上表现良好的预测因子。为了实现这一目标,标准公式优化了所有可能域的最差性能。但是,由于最糟糕的转变在实践中的转变极不可能,这通常会导致过度保守的解决方案。实际上,最近的一项研究发现,没有DG算法在平均性能方面优于经验风险最小化。在这项工作中,我们认为DG既不是最坏的问题,也不是一个普通的问题,而是概率问题。为此,我们为DG提出了一个概率框架,我们称之为可能的域概括,其中我们的关键想法是在训练期间看到的分配变化应在测试时告诉我们可能的变化。为了实现这一目标,我们将培训和测试域明确关联为从同一基础元分布中获取的,并提出了一个新的优化问题 - 分数风险最小化(QRM) - 要求该预测因子以很高的概率概括。然后,我们证明了QRM:(i)产生的预测因子,这些预测因素将具有所需概率的新域(给定足够多的域和样本); (ii)随着概括的所需概率接近一个,恢复因果预测因子。在我们的实验中,我们引入了针对DG的更全面的以分位数评估协议,并表明我们的算法在真实和合成数据上的最先进基准都优于最先进的基准。
translated by 谷歌翻译
潜在世界模型使代理商可以对具有高维度观察的复杂环境进行推理。但是,适应新环境并有效利用先前的知识仍然是重大挑战。我们提出了变异因果动力学(VCD),这是一种结构化的世界模型,可利用跨环境的因果机制的不变性,以实现快速和模块化的适应性。通过因果分解过渡模型,VCD能够识别在不同环境中可重复使用的组件。这是通过结合因果发现和变异推断来以无监督方式共同学习潜在表示和过渡模型来实现的。具体而言,我们在表示模型和作为因果图形模型结构的过渡模型上优化了较低限制的证据。在对具有状态和图像观察的模拟环境的评估中,我们表明VCD能够成功识别因果变量,并在不同环境中发现一致的因果结构。此外,鉴于在以前看不见的中间环境中进行了少量观察,VCD能够识别动力学的稀疏变化并有效地适应。在此过程中,VCD显着扩展了潜在世界模型中当前最新的功能,同时在预测准确性方面也可以进行比较。
translated by 谷歌翻译
贝叶斯结构学习允许从数据推断贝叶斯网络结构,同时推理认识性不确定性 - 朝着实现现实世界系统的主动因果发现和设计干预的关键因素。在这项工作中,我们为贝叶斯结构学习(DIBS)提出了一般,完全可微分的框架,其在潜在概率图表表示的连续空间中运行。与现有的工作相反,DIBS对局部条件分布的形式不可知,并且允许图形结构和条件分布参数的关节后部推理。这使得我们的配方直接适用于复杂贝叶斯网络模型的后部推理,例如,具有由神经网络编码的非线性依赖性。使用DIBS,我们设计了一种高效,通用的变分推理方法,用于近似结构模型的分布。在模拟和现实世界数据的评估中,我们的方法显着优于关节后部推理的相关方法。
translated by 谷歌翻译
本文提出了一种有效的方法,以基于原始和新分布的条件概率差异来学习解除戒开的陈述。我们近似模型泛化能力的差异,使其适合标准机器学习框架,可以有效地计算。与最先进的方法相比,依赖于学习者的适应速度到新分布,所提出的方法只需要评估模型的泛化能力。我们为所提出的方法的优势提供理论解释,我们的实验表明,所提出的技术是1.9--11.0 $ \ times $比以前的各种任务的方法更快地获得9.4--32.4倍。源代码可用于\ url {https:/github.com/yuanpeng16/edcr}。
translated by 谷歌翻译
会员推理(MI)攻击突出了当前神经网络随机培训方法中的隐私弱点。然而,它为什么出现。它们仅是不完美概括的自然结果吗?在培训期间,我们应该解决哪些根本原因以减轻这些攻击?为了回答此类问题,我们提出了第一种解释MI攻击及其基于原则性因果推理的概括的方法。我们提供因果图,以定量地解释以$ 6 $攻击变体获得的观察到的MI攻击性能。我们驳斥了几种先前的非量化假设,这些假设过于简化或过度估计潜在原因的影响,从而未能捕获几个因素之间的复杂相互作用。我们的因果模型还通过共同的因果因素显示了概括和MI攻击之间的新联系。我们的因果模型具有很高的预测能力($ 0.90 $),即它们的分析预测与经常看不见的实验中的观察结果相匹配,这使得通过它们的分析成为务实的替代方案。
translated by 谷歌翻译
从观察数据中学习因果结构是机器学习的基本挑战。但是,大多数常用的可区分因果发现方法是不可识别的,这将此问题变成了容易发生数据偏差的连续优化任务。在许多现实生活中,数据是从不同环境中收集的,在不同的环境中,功能关系在整个环境中保持一致,而添加噪声的分布可能会有所不同。本文提出了可区分的因果发现(DICD),利用基于可区分框架的多环境信息,以避免学习虚假边缘和错误的因果方向。具体而言,DICD旨在在消除环境依赖性相关性的同时发现环境不变的因果关系。我们进一步制定了强制执行目标结构方程模型的约束,以在整个环境中保持最佳状态。在温和条件下提供了足够的环境,提供了针对拟议DICD的可识别性的理论保证。关于合成和现实世界数据集的广泛实验验证了DICD优于最先进的因果发现方法,而SHD中最高36%。我们的代码将是开源的。
translated by 谷歌翻译
本文研究了从观察数据学习因果关系的问题。我们用二进制图邻接矩阵参数化的形式重整结构方程模型(SEM),并显示,如果原始SEM是可识别的,则可以识别二进制邻接矩阵到真实因果图的超图在温和的条件下。然后,我们利用所述重新设计的SEM来开发一种因果结构学习方法,可以通过利用对非循环性和Gumbel-Softmax方法的平滑表征来实现基于梯度的优化来有效地接受训练,以近似于二进制邻接矩阵。发现获得的条目通常在零或一个附近,并且可以容易地阈值以识别边缘。我们对合成和实时数据集进行实验,以验证所提出的方法的有效性,并表明它容易包括不同的平滑模型功能,并在考虑大多数数据集中实现了大大提高的性能。
translated by 谷歌翻译
从视觉观察中了解动态系统的潜在因果因素被认为是对复杂环境中推理的推理的关键步骤。在本文中,我们提出了Citris,这是一种变异自动编码器框架,从图像的时间序列中学习因果表示,其中潜在的因果因素可能已被干预。与最近的文献相反,Citris利用了时间性和观察干预目标,以鉴定标量和多维因果因素,例如3D旋转角度。此外,通过引入归一化流,可以轻松扩展柑橘,以利用和删除已验证的自动编码器获得的删除表示形式。在标量因果因素上扩展了先前的结果,我们在更一般的环境中证明了可识别性,其中仅因果因素的某些成分受干预措施影响。在对3D渲染图像序列的实验中,柑橘类似于恢复基本因果变量的先前方法。此外,使用预验证的自动编码器,Citris甚至可以概括为因果因素的实例化,从而在SIM到现实的概括中开放了未来的研究领域,以进行因果关系学习。
translated by 谷歌翻译
Bayesian causal structure learning aims to learn a posterior distribution over directed acyclic graphs (DAGs), and the mechanisms that define the relationship between parent and child variables. By taking a Bayesian approach, it is possible to reason about the uncertainty of the causal model. The notion of modelling the uncertainty over models is particularly crucial for causal structure learning since the model could be unidentifiable when given only a finite amount of observational data. In this paper, we introduce a novel method to jointly learn the structure and mechanisms of the causal model using Variational Bayes, which we call Variational Bayes-DAG-GFlowNet (VBG). We extend the method of Bayesian causal structure learning using GFlowNets to learn not only the posterior distribution over the structure, but also the parameters of a linear-Gaussian model. Our results on simulated data suggest that VBG is competitive against several baselines in modelling the posterior over DAGs and mechanisms, while offering several advantages over existing methods, including the guarantee to sample acyclic graphs, and the flexibility to generalize to non-linear causal mechanisms.
translated by 谷歌翻译