从数据中学习的定向无环图(DAG)的组合问题最近被构成了纯连续优化问题,它通过基于矩阵指数函数的痕迹利用DAG的可区分无环表征。现有的无环特征基于以下想法:邻接矩阵的功率包含有关步行和周期的信息。在这项工作中,我们提出了一个基于log-determinant(log-det)函数的$ \ textit {根本不同的} $ acyclicity表征,该功能利用了dags的nilpotency属性。为了处理DAG的固有不对称性,我们将日志数据表征的域与$ \ textit {m-matrices} $的集合联系起来,这是与锥体定义的经典日志函数的关键区别积极的矩阵。与先前提出的无环函数相似,我们的表征也是精确且可区分的。但是,与现有特征相比,我们的对数数据函数:(1)更好地检测大周期; (2)行为更好的梯度; (3)它的运行时间在实践中的数量级更快。从优化侧,我们删除了典型的增强拉格朗日方案,并提出了Dagma($ \ textit {ocyclicity} $的M-矩阵{textIt {定向无环形图),这种方法类似于屏障方法的中心路径。 DAGMA的中心路径中的每个点都是通过我们的log-det函数正常的无约束问题的解决方案,然后我们证明在中心路径的极限下,保证解决方案是DAG。最后,我们为$ \ textit {linear} $和$ \ textit {nonlinear} $ sem提供了广泛的实验,并证明我们的方法可以达到针对最先进方法的大加速和较小的结构锤距。
translated by 谷歌翻译
Estimating the structure of directed acyclic graphs (DAGs, also known as Bayesian networks) is a challenging problem since the search space of DAGs is combinatorial and scales superexponentially with the number of nodes. Existing approaches rely on various local heuristics for enforcing the acyclicity constraint. In this paper, we introduce a fundamentally different strategy: We formulate the structure learning problem as a purely continuous optimization problem over real matrices that avoids this combinatorial constraint entirely. This is achieved by a novel characterization of acyclicity that is not only smooth but also exact. The resulting problem can be efficiently solved by standard numerical algorithms, which also makes implementation effortless. The proposed method outperforms existing ones, without imposing any structural assumptions on the graph such as bounded treewidth or in-degree. Code implementing the proposed algorithm is open-source and publicly available at https://github.com/xunzheng/notears.
translated by 谷歌翻译
从观察数据中恢复基本的定向无环形结构(DAG),由于DAG受限的优化问题的组合性质,因此极具挑战性。最近,通过将DAG约束将DAG的限制定义为平滑的平等性,通常基于邻接矩阵上的多项式,将DAG学习作为连续优化问题。现有方法将非常小的系数放在高阶多项式术语上以进行稳定,因为它们认为由于数字爆炸而导致高阶项上的大系数有害。相反,我们发现,高阶术语上的大系数对DAG学习有益,当邻接矩阵的光谱辐射小时,高阶术语的较大系数可以比小尺寸近似于小的限制。同行。基于此,我们提出了一种具有有效截短的矩阵功率迭代的新型DAG学习方法,以近似于基于几何序列的DAG约束。从经验上讲,我们的DAG学习方法在各种环境中的表现优于先前的最新方法,在结构锤距离上通常以3倍或以上的倍数。
translated by 谷歌翻译
因果推断的一个共同主题是学习观察到的变量(也称为因果发现)之间的因果关系。考虑到大量候选因果图和搜索空间的组合性质,这通常是一项艰巨的任务。也许出于这个原因,到目前为止,大多数研究都集中在相对较小的因果图上,并具有多达数百个节点。但是,诸如生物学之类的领域的最新进展使生成实验数据集,并进行了数千种干预措施,然后进行了数千个变量的丰富分析,从而增加了机会和迫切需要大量因果图模型。在这里,我们介绍了因子定向无环图(F-DAG)的概念,是将搜索空间限制为非线性低级别因果相互作用模型的一种方法。将这种新颖的结构假设与最近的进步相结合,弥合因果发现与连续优化之间的差距,我们在数千个变量上实现了因果发现。此外,作为统计噪声对此估计程序的影响的模型,我们根据随机图研究了F-DAG骨架的边缘扰动模型,并量化了此类扰动对F-DAG等级的影响。该理论分析表明,一组候选F-DAG比整个DAG空间小得多,因此在很难评估基础骨架的高维度中更统计学上的稳定性。我们提出了因子图(DCD-FG)的可区分因果发现,这是对高维介入数据的F-DAG约束因果发现的可扩展实现。 DCD-FG使用高斯非线性低级结构方程模型,并且在模拟中的最新方法以及最新的大型单细胞RNA测序数据集中,与最新方法相比显示出显着改善遗传干预措施。
translated by 谷歌翻译
本文研究了从观察数据学习因果关系的问题。我们用二进制图邻接矩阵参数化的形式重整结构方程模型(SEM),并显示,如果原始SEM是可识别的,则可以识别二进制邻接矩阵到真实因果图的超图在温和的条件下。然后,我们利用所述重新设计的SEM来开发一种因果结构学习方法,可以通过利用对非循环性和Gumbel-Softmax方法的平滑表征来实现基于梯度的优化来有效地接受训练,以近似于二进制邻接矩阵。发现获得的条目通常在零或一个附近,并且可以容易地阈值以识别边缘。我们对合成和实时数据集进行实验,以验证所提出的方法的有效性,并表明它容易包括不同的平滑模型功能,并在考虑大多数数据集中实现了大大提高的性能。
translated by 谷歌翻译
State-of-the-art causal discovery methods usually assume that the observational data is complete. However, the missing data problem is pervasive in many practical scenarios such as clinical trials, economics, and biology. One straightforward way to address the missing data problem is first to impute the data using off-the-shelf imputation methods and then apply existing causal discovery methods. However, such a two-step method may suffer from suboptimality, as the imputation algorithm may introduce bias for modeling the underlying data distribution. In this paper, we develop a general method, which we call MissDAG, to perform causal discovery from data with incomplete observations. Focusing mainly on the assumptions of ignorable missingness and the identifiable additive noise models (ANMs), MissDAG maximizes the expected likelihood of the visible part of observations under the expectation-maximization (EM) framework. In the E-step, in cases where computing the posterior distributions of parameters in closed-form is not feasible, Monte Carlo EM is leveraged to approximate the likelihood. In the M-step, MissDAG leverages the density transformation to model the noise distributions with simpler and specific formulations by virtue of the ANMs and uses a likelihood-based causal discovery algorithm with directed acyclic graph constraint. We demonstrate the flexibility of MissDAG for incorporating various causal discovery algorithms and its efficacy through extensive simulations and real data experiments.
translated by 谷歌翻译
学习由有针对性的无环图(DAG)代表的基本休闲结构,这些事件来自完全观察到的事件是因果推理的关键部分,但由于组合和较大的搜索空间,这是一项挑战。最近的一系列发展通过利用代数平等表征,将该组合问题重新生要重现为一个连续的优化问题。但是,这些方法在优化之后遭受了固定阈值的措施,这不是一种灵活而系统的方法,可以排除诱导周期的边缘或错误的发现边缘,其边缘具有由数值精度引起的较小值。在本文中,我们开发了一种数据驱动的DAG结构学习方法,而没有预定义阈值,称为自适应宣传[30],该方法通过在正则化项中对每个参数应用自适应惩罚水平来实现。我们表明,在某些特定条件下,自适应宣传符合Oracle属性。此外,模拟实验结果验证了我们方法的有效性,而没有设置边缘重量的任何间隙。
translated by 谷歌翻译
因果推断对于跨业务参与,医疗和政策制定等领域的数据驱动决策至关重要。然而,关于因果发现的研究已经与推理方法分开发展,从而阻止了两个领域方法的直接组合。在这项工作中,我们开发了深层端到端因果推理(DECI),这是一种基于流动的非线性添加噪声模型,该模型具有观察数据,并且可以执行因果发现和推理,包括有条件的平均治疗效果(CATE) )估计。我们提供了理论上的保证,即DECI可以根据标准因果发现假设恢复地面真实因果图。受应用影响的激励,我们将该模型扩展到具有缺失值的异质,混合型数据,从而允许连续和离散的治疗决策。我们的结果表明,与因果发现的相关基线相比,DECI的竞争性能和(c)在合成数据集和因果机器学习基准测试基准的一千多个实验中,跨数据类型和缺失水平进行了估计。
translated by 谷歌翻译
结构方程模型(SEM)是一种有效的框架,其原因是通过定向非循环图(DAG)表示的因果关系。最近的进步使得能够从观察数据中实现了DAG的最大似然点估计。然而,在实际场景中,可以不能准确地捕获在推断下面的底层图中的不确定性,其中真正的DAG是不可识别的并且/或观察到的数据集是有限的。我们提出了贝叶斯因果发现网(BCD网),一个变分推理框架,用于估算表征线性高斯SEM的DAG的分布。由于图形的离散和组合性质,开发一个完整的贝叶斯后面是挑战。我们通过表达变分别家庭分析可扩展VI的可扩展VI的关键设计选择,例如1)表达性变分别家庭,2)连续弛豫,使低方差随机优化和3)在潜在变量上具有合适的前置。我们提供了一系列关于实际和合成数据的实验,显示BCD网在低数据制度中的标准因果发现度量上的最大似然方法,例如结构汉明距离。
translated by 谷歌翻译
模拟DAG模型可能表现出属性,也许无意中,使其结构识别和意外地影响结构学习算法。在这里,我们表明边缘方差往往沿着仿制性添加添加剂噪声模型的因果顺序增加。我们将Varsortable介绍为衡量衡量边际差异和因果顺序的秩序之间的协议。对于通常采样的图形和模型参数,我们表明,一些连续结构学习算法的显着性能可以通过高的Varsortable解释,并通过简单的基线方法匹配。然而,这种性能可能不会转移到真实世界的数据,其中VARS使性可能是中等或取决于测量尺度的选择。在标准化数据上,相同的算法无法识别地面真理DAG或其Markov等价类。虽然标准化在边缘方差中删除了模式,但我们表明,数据产生过程,其产生高VILS使性也留下了即使在标准化之后也可以利用不同的协方差模式。我们的调查结果挑战了独立绘制参数的通用基准的重要性。代码可在https://github.com/scriddie/varsortable获得。
translated by 谷歌翻译
在本文中,我们考虑了一个$ {\ rm u}(1)$ - 连接图,也就是说,每个方向的边缘都赋予了一个单位模量复杂的数字,该数字在方向翻转下简单地结合了。当时,组合laplacian的自然替代品是所谓的磁性拉普拉斯(Hermitian Matrix),其中包括有关图形连接的信息。连接图和磁性拉普拉斯人出现,例如在角度同步问题中。在较大且密集的图的背景下,我们在这里研究了磁性拉普拉斯的稀疏器,即基于边缘很少的子图的光谱近似值。我们的方法依赖于使用自定义的确定点过程对跨越森林(MTSF)进行取样,这是一种比偏爱多样性的边缘的分布。总而言之,MTSF是一个跨越子图,其连接的组件是树或周期根的树。后者部分捕获了连接图的角不一致,因此提供了一种压缩连接中包含的信息的方法。有趣的是,当此连接图具有弱不一致的周期时,可以通过使用循环弹出的随机行走来获得此分布的样本。我们为选择Laplacian的自然估计量提供了统计保证,并调查了我们的Sparsifier在两个应用中的实际应用。
translated by 谷歌翻译
We consider the problem of recovering the causal structure underlying observations from different experimental conditions when the targets of the interventions in each experiment are unknown. We assume a linear structural causal model with additive Gaussian noise and consider interventions that perturb their targets while maintaining the causal relationships in the system. Different models may entail the same distributions, offering competing causal explanations for the given observations. We fully characterize this equivalence class and offer identifiability results, which we use to derive a greedy algorithm called GnIES to recover the equivalence class of the data-generating model without knowledge of the intervention targets. In addition, we develop a novel procedure to generate semi-synthetic data sets with known causal ground truth but distributions closely resembling those of a real data set of choice. We leverage this procedure and evaluate the performance of GnIES on synthetic, real, and semi-synthetic data sets. Despite the strong Gaussian distributional assumption, GnIES is robust to an array of model violations and competitive in recovering the causal structure in small- to large-sample settings. We provide, in the Python packages "gnies" and "sempler", implementations of GnIES and our semi-synthetic data generation procedure.
translated by 谷歌翻译
众所周知,许多网络系统,例如电网,大脑和舆论动态社交网络,都可以遵守保护法。这种现象的例子包括电网中的基尔乔夫法律和社交网络中的意见共识。网络系统中的保护定律可以建模为$ x = b^{*} y $的平衡方程,其中$ b^{*} $的稀疏模式捕获了网络的连接,$ y,x \在\ mathbb {r}^p $中分别是节点上“电势”和“注入流”的向量。节点电位$ y $会导致跨边缘的流量,并且在节点上注入的流量$ x $是网络动力学的无关紧要的。在几个实用的系统中,网络结构通常是未知的,需要从数据估算。为此,可以访问节点电位$ y $的样本,但只有节点注射$ x $的统计信息。在这个重要问题的激励下,我们研究了$ n $ y $ y $ y $ y $ y $ y $ y $ y $ b^{*} $稀疏结构的估计,假设节点注射$ x $遵循高斯分布,并带有已知的发行协方差$ \ sigma_x $。我们建议在高维度中为此问题的新$ \ ell_ {1} $ - 正则最大似然估计器,网络的大小$ p $大于样本量$ n $。我们表明,此优化问题是目标中的凸,并接受了独特的解决方案。在新的相互不一致的条件下,我们在三重$(n,p,d)$上建立了足够的条件,对于$ b^{*} $的精确稀疏恢复是可能的; $ d $是图的程度。我们还建立了在元素最大,Frobenius和运营商规范中回收$ b^{*} $的保证。最后,我们通过对拟议估计量对合成和现实世界数据的性能进行实验验证来补充这些理论结果。
translated by 谷歌翻译
在非参数环境中,因果结构通常仅在马尔可夫等效性上可识别,并且出于因果推断的目的,学习马尔可夫等效类(MEC)的图形表示很有用。在本文中,我们重新审视了贪婪的等效搜索(GES)算法,该算法被广泛引用为一种基于分数的算法,用于学习基本因果结构的MEC。我们观察到,为了使GES算法在非参数设置中保持一致,不必设计评估图的评分度量。取而代之的是,足以插入有条件依赖度量的一致估计器来指导搜索。因此,我们提出了GES算法的重塑,该算法比基于标准分数的版本更灵活,并且很容易将自己带到非参数设置,并具有条件依赖性的一般度量。此外,我们提出了一种神经条件依赖性(NCD)度量,该措施利用深神经网络的表达能力以非参数方式表征条件独立性。我们根据标准假设建立了重新构架GES算法的最佳性,并使用我们的NCD估计器来决定条件独立性的一致性。这些结果共同证明了拟议的方法。实验结果证明了我们方法在因果发现中的有效性,以及使用我们的NCD度量而不是基于内核的措施的优势。
translated by 谷歌翻译
我们研究了估计多元高斯分布中的精度矩阵的问题,其中所有部分相关性都是非负面的,也称为多变量完全阳性的顺序阳性($ \ mathrm {mtp} _2 $)。近年来,这种模型得到了重大关注,主要是由于有趣的性质,例如,无论底层尺寸如何,最大似然估计值都存在于两个观察。我们将此问题作为加权$ \ ell_1 $ -norm正常化高斯的最大似然估计下$ \ mathrm {mtp} _2 $约束。在此方向上,我们提出了一种新颖的预计牛顿样算法,该算法包含精心设计的近似牛顿方向,这导致我们具有与一阶方法相同的计算和内存成本的算法。我们证明提出的预计牛顿样算法会聚到问题的最小值。从理论和实验中,我们进一步展示了我们使用加权$ \ ell_1 $ -norm的制剂的最小化器能够正确地恢复基础精密矩阵的支持,而无需在$ \ ell_1 $ -norm中存在不连贯状态方法。涉及合成和实世界数据的实验表明,我们所提出的算法从计算时间透视比最先进的方法显着更有效。最后,我们在金融时序数据中应用我们的方法,这些数据对于显示积极依赖性,在那里我们在学习金融网络上的模块间值方面观察到显着性能。
translated by 谷歌翻译
从观察数据中学习因果结构是机器学习的基本挑战。但是,大多数常用的可区分因果发现方法是不可识别的,这将此问题变成了容易发生数据偏差的连续优化任务。在许多现实生活中,数据是从不同环境中收集的,在不同的环境中,功能关系在整个环境中保持一致,而添加噪声的分布可能会有所不同。本文提出了可区分的因果发现(DICD),利用基于可区分框架的多环境信息,以避免学习虚假边缘和错误的因果方向。具体而言,DICD旨在在消除环境依赖性相关性的同时发现环境不变的因果关系。我们进一步制定了强制执行目标结构方程模型的约束,以在整个环境中保持最佳状态。在温和条件下提供了足够的环境,提供了针对拟议DICD的可识别性的理论保证。关于合成和现实世界数据集的广泛实验验证了DICD优于最先进的因果发现方法,而SHD中最高36%。我们的代码将是开源的。
translated by 谷歌翻译
Kernel matrices, as well as weighted graphs represented by them, are ubiquitous objects in machine learning, statistics and other related fields. The main drawback of using kernel methods (learning and inference using kernel matrices) is efficiency -- given $n$ input points, most kernel-based algorithms need to materialize the full $n \times n$ kernel matrix before performing any subsequent computation, thus incurring $\Omega(n^2)$ runtime. Breaking this quadratic barrier for various problems has therefore, been a subject of extensive research efforts. We break the quadratic barrier and obtain $\textit{subquadratic}$ time algorithms for several fundamental linear-algebraic and graph processing primitives, including approximating the top eigenvalue and eigenvector, spectral sparsification, solving linear systems, local clustering, low-rank approximation, arboricity estimation and counting weighted triangles. We build on the recent Kernel Density Estimation framework, which (after preprocessing in time subquadratic in $n$) can return estimates of row/column sums of the kernel matrix. In particular, we develop efficient reductions from $\textit{weighted vertex}$ and $\textit{weighted edge sampling}$ on kernel graphs, $\textit{simulating random walks}$ on kernel graphs, and $\textit{importance sampling}$ on matrices to Kernel Density Estimation and show that we can generate samples from these distributions in $\textit{sublinear}$ (in the support of the distribution) time. Our reductions are the central ingredient in each of our applications and we believe they may be of independent interest. We empirically demonstrate the efficacy of our algorithms on low-rank approximation (LRA) and spectral sparsification, where we observe a $\textbf{9x}$ decrease in the number of kernel evaluations over baselines for LRA and a $\textbf{41x}$ reduction in the graph size for spectral sparsification.
translated by 谷歌翻译
因果发现旨在从观察数据中学习因果图。迄今为止,大多数因果发现方法需要将数据存储在中央服务器中。但是,数据所有者逐渐拒绝分享他们的个性化数据以避免隐私泄漏,使这项任务通过切断第一步来更加麻烦。出现拼图:$ \ texit {如何从分散数据的原因关系推断出来自分散数据的因果关系?} $本文,具有数据的添加性噪声模型假设,我们参加了开发基于渐变的学习框架命名为DAG共享的渐变学习框架联邦因果发现(DS-FCD),可以在不直接触摸本地数据的情况下学习因果图,并自然地处理数据异质性。 DS-FCD受益于每个本地模型的两级结构。第一级别学习因果图并与服务器通信以获取来自其他客户端的模型信息,而第二级别近似于因果机制,并且从其自身的数据逐步更新以适应数据异质性。此外,DS-FCD通过利用平等的非循环性约束,将整体学习任务制定为连续优化问题,这可以通过梯度下降方法自然地解决。对合成和现实世界数据集的广泛实验验证了所提出的方法的功效。
translated by 谷歌翻译
我们开发了一种高效的随机块模型中的弱恢复算法。该算法与随机块模型的Vanilla版本的最佳已知算法的统计保证匹配。从这个意义上讲,我们的结果表明,随机块模型没有稳健性。我们的工作受到最近的银行,Mohanty和Raghavendra(SODA 2021)的工作,为相应的区别问题提供了高效的算法。我们的算法及其分析显着脱离了以前的恢复。关键挑战是我们算法的特殊优化景观:种植的分区可能远非最佳意义,即完全不相关的解决方案可以实现相同的客观值。这种现象与PCA的BBP相转变的推出效应有关。据我们所知,我们的算法是第一个在非渐近设置中存在这种推出效果的鲁棒恢复。我们的算法是基于凸优化的框架的实例化(与平方和不同的不同),这对于其他鲁棒矩阵估计问题可能是有用的。我们的分析的副产物是一种通用技术,其提高了任意强大的弱恢复算法的成功(输入的随机性)从恒定(或缓慢消失)概率以指数高概率。
translated by 谷歌翻译
Graph clustering is a fundamental problem in unsupervised learning, with numerous applications in computer science and in analysing real-world data. In many real-world applications, we find that the clusters have a significant high-level structure. This is often overlooked in the design and analysis of graph clustering algorithms which make strong simplifying assumptions about the structure of the graph. This thesis addresses the natural question of whether the structure of clusters can be learned efficiently and describes four new algorithmic results for learning such structure in graphs and hypergraphs. All of the presented theoretical results are extensively evaluated on both synthetic and real-word datasets of different domains, including image classification and segmentation, migration networks, co-authorship networks, and natural language processing. These experimental results demonstrate that the newly developed algorithms are practical, effective, and immediately applicable for learning the structure of clusters in real-world data.
translated by 谷歌翻译