大多数现代的潜在变量和概率生成模型,例如变异自动编码器(VAE),即使有无限的数据也无法解决,这些模型也无法解决。此类模型的最新应用表明需要强烈可识别的模型,其中观察结果与唯一的潜在代码相对应。在维持灵活性的同时,取得了进展,最著名的是IVAE(Arxiv:1907.04809 [stat.ml]),该模型排除了许多(但不是全部 - 不确定)。我们构建了一个完整的理论框架,用于分析潜在变量模型的不确定性,并根据生成器函数的属性和潜在变量先验分布精确表征它们。为了说明,我们应用框架以更好地了解最近的可识别性结果的结构。然后,我们研究如何指定强烈识别的潜在变量模型,并构建两个这样的模型。一种是对ivae的直接修饰。另一个想法从最佳运输和导致新颖的模型和连接到最近的工作。
translated by 谷歌翻译
潜在变量模型(LVM)的无监督学习被广泛用于表示机器学习中的数据。当这样的模型反映了地面真理因素和将它们映射到观察的机制时,有理由期望它们允许在下游任务中进行概括。但是,众所周知,如果不在模型类上施加限制,通常无法实现此类可识别性保证。非线性独立组件分析是如此,其中LVM通过确定性的非线性函数将统计上独立的变量映射到观察。几个伪造解决方案的家庭完全适合数据,但是可以在通用环境中构建与地面真相因素相对应的。但是,最近的工作表明,限制此类模型的功能类别可能会促进可识别性。具体而言,已经提出了在Jacobian矩阵中收集的部分衍生物的函数类,例如正交坐标转换(OCT),它们强加了Jacobian柱的正交性。在目前的工作中,我们证明了这些转换的子类,共形图,是可识别的,并提供了新颖的理论结果,这表明OCT具有防止虚假解决方案家族在通用环境中破坏可识别性的特性。
translated by 谷歌翻译
The framework of variational autoencoders allows us to efficiently learn deep latent-variable models, such that the model's marginal distribution over observed variables fits the data. Often, we're interested in going a step further, and want to approximate the true joint distribution over observed and latent variables, including the true prior and posterior distributions over latent variables. This is known to be generally impossible due to unidentifiability of the model. We address this issue by showing that for a broad family of deep latentvariable models, identification of the true joint distribution over observed and latent variables is actually possible up to very simple transformations, thus achieving a principled and powerful form of disentanglement. Our result requires a factorized prior distribution over the latent variables that is conditioned on an additionally observed variable, such as a class label or almost any other observation. We build on recent developments in nonlinear ICA, which we extend to the case with noisy or undercomplete observations, integrated in a maximum likelihood framework. The result also trivially contains identifiable flow-based generative models as a special case.
translated by 谷歌翻译
也称为(非参数)结构方程模型(SEMS)的结构因果模型(SCM)被广泛用于因果建模目的。特别是,也称为递归SEM的无循环SCMS,形成了一个研究的SCM的良好的子类,概括了因果贝叶斯网络来允许潜在混淆。在本文中,我们调查了更多普通环境中的SCM,允许存在潜在混杂器和周期。我们展示在存在周期中,无循环SCM的许多方便的性质通常不会持有:它们并不总是有解决方案;它们并不总是诱导独特的观察,介入和反事实分布;边缘化并不总是存在,如果存在边缘模型并不总是尊重潜在的投影;他们并不总是满足马尔可夫财产;他们的图表并不总是与他们的因果语义一致。我们证明,对于SCM一般,这些属性中的每一个都在某些可加工条件下保持。我们的工作概括了SCM的结果,迄今为止仅针对某些特殊情况所知的周期。我们介绍了将循环循环设置扩展到循环设置的简单SCM的类,同时保留了许多方便的无环SCM的性能。用本文,我们的目标是为SCM提供统计因果建模的一般理论的基础。
translated by 谷歌翻译
我们证明了(a)具有通用近似功能的广泛的深层变量模型的可识别性,并且(b)是通常在实践中使用的变异自动编码器的解码器。与现有工作不同,我们的分析不需要弱监督,辅助信息或潜在空间中的条件。最近,研究了此类模型的可识别性。在这些作品中,主要的假设是,还可以观察到辅助变量$ u $(也称为侧面信息)。同时,几项作品从经验上观察到,这在实践中似乎并不是必需的。在这项工作中,我们通过证明具有通用近似功能的广泛生成(即无监督的)模型来解释这种行为,无需侧面信息$ u $:我们证明了整个生成模型的可识别性$ u $,仅观察数据$ x $。我们考虑的模型与实践中使用的自动编码器体系结构紧密连接,该体系结构利用了潜在空间中的混合先验和编码器中的Relu/Leaky-Relu激活。我们的主要结果是可识别性层次结构,该层次结构显着概括了先前的工作,并揭示了不同的假设如何导致可识别性的“优势”不同。例如,我们最薄弱的结果确定了(无监督的)可识别性,直到仿射转换已经改善了现有工作。众所周知,这些模型具有通用近似功能,而且它们已被广泛用于实践中来学习数据表示。
translated by 谷歌翻译
这项工作介绍了一种新颖的原则,我们通过机制稀疏正规调用解剖学,基于高级概念的动态往往稀疏的想法。我们提出了一种表示学习方法,可以通过同时学习与它们相关的潜在因子和稀疏因果图形模型来引起解剖学。我们开发了一个严谨的可识别性理论,建立在最近的非线性独立分量分析(ICA)结果中,结果是模拟这一原理,并展示了如何恢复潜在变量,如果一个规则大致潜在机制为稀疏,如果某些图形连接标准通过数据生成过程满足。作为我们框架的特殊情况,我们展示了如何利用未知目标的干预措施来解除潜在因子,从而借鉴ICA和因果关系之间的进一步联系。我们还提出了一种基于VAE的方法,其中通过二进制掩码来学习和正规化潜在机制,并通过表明它学会在模拟中的解散表示来验证我们的理论。
translated by 谷歌翻译
我们研究是否使用两个条件型号$ p(x | z)$和$ q(z | x)$,以使用循环的两个条件型号,我们如何建模联合分配$ p(x,z)$。这是通过观察到深入生成模型的动机,除了可能的型号$ p(x | z)$,通常也使用推理型号$ q(z | x)$来提取表示,但它们通常依赖不表征的先前分配$ P(z)$来定义联合分布,这可能会使后塌和歧管不匹配等问题。为了探讨仅使用$ p(x | z)$和$ q(z | x)$模拟联合分布的可能性,我们研究其兼容性和确定性,对应于其条件分布一致的联合分布的存在和唯一性跟他们。我们为可操作的等价标准开发了一般理论,以实现兼容性,以及足够的确定条件。基于该理论,我们提出了一种新颖的生成建模框架来源,仅使用两个循环条件模型。我们开发方法以实现兼容性和确定性,并使用条件模型适合和生成数据。通过预先删除的约束,Cygen更好地适合数据并捕获由合成和现实世界实验支持的更多代表性特征。
translated by 谷歌翻译
最近引入了通过机制稀疏性进行的解剖,作为一种原则方法,可以在没有监督的情况下提取潜在因素,而当及时关联它们的因果图很少,并且/或当观察到动作并稀少地影响它们时。但是,该理论仅适用于满足特定标准的基础图。在这项工作中,我们介绍了该理论的概括,该理论适用于任何地面图形,并通过与我们称之为一致性的模型的新等价关系进行定性地指定了如何删除学习的表示形式。这种等效性捕获了哪些因素预计将保持纠缠,哪些因素不基于地面图形的特定形式。我们称这种较弱的可识别性部分分解形式。允许在早期作品中提出的完全分解的图形标准可以作为我们理论的特殊情况得出。最后,我们以约束优化的方式执行图形稀疏性,并在模拟中说明了我们的理论和算法。
translated by 谷歌翻译
最近的工作突出了因果关系在设计公平决策算法中的作用。但是,尚不清楚现有的公平因果概念如何相互关系,或者将这些定义作为设计原则的后果是什么。在这里,我们首先将算法公平性的流行因果定义组装成两个广泛的家庭:(1)那些限制决策对反事实差异的影响的家庭; (2)那些限制了法律保护特征(如种族和性别)对决策的影响。然后,我们在分析和经验上表明,两个定义的家庭\ emph {几乎总是总是} - 从一种理论意义上讲 - 导致帕累托占主导地位的决策政策,这意味着每个利益相关者都有一个偏爱的替代性,不受限制的政策从大型自然级别中绘制。例如,在大学录取决定的情况下,每位利益相关者都不支持任何对学术准备和多样性的中立或积极偏好的利益相关者,将不利于因果公平定义的政策。的确,在因果公平的明显定义下,我们证明了由此产生的政策要求承认所有具有相同概率的学生,无论学术资格或小组成员身份如何。我们的结果突出了正式的局限性和因果公平的常见数学观念的潜在不利后果。
translated by 谷歌翻译
本文介绍了在结构因果模型(SCM)的一般空间上定义的一系列拓扑结构,介绍了因果推断的拓扑学习 - 理论观点。作为框架的说明,我们证明了拓扑因果层次结构定理,表明只有在微薄的SCM集中就可以实现了无实体的假设因果推断。由于弱拓扑结构和统计上可验证假设的开放集之间的已知对应关系,我们的结果表明,原则上的归纳假设足以许可有效的因果推论是统计上无可核实的。类似于无午餐定理的统计推断,目前的结果阐明了因果推断的实质性假设的必然性。我们拓扑方法的额外好处是它很容易容纳具有无限变量的SCM。我们终于建议该框架对探索和评估替代因果归纳的积极项目有所帮助。
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
本文提出了在适当的监督信息下进行分解的生成因果代表(亲爱的)学习方法。与实施潜在变量独立性的现有分解方法不同,我们考虑了一种基本利益因素可以因果关系相关的一般情况。我们表明,即使在监督下,先前具有独立先验的方法也无法解散因果关系。在这一发现的激励下,我们提出了一种称为DEAR的新的解开学习方法,该方法可以使因果可控的产生和因果代表学习。这种新公式的关键要素是使用结构性因果模型(SCM)作为双向生成模型的先验分布。然后,使用合适的GAN算法与发电机和编码器共同训练了先验,并与有关地面真相因子及其基本因果结构的监督信息合并。我们提供了有关该方法的可识别性和渐近收敛性的理论理由。我们对合成和真实数据集进行了广泛的实验,以证明DEAR在因果可控生成中的有效性,以及在样本效率和分布鲁棒性方面,学到的表示表示对下游任务的好处。
translated by 谷歌翻译
我们研究了由覆盖在R ^ M中的N维歧管支持的概率措施的近似 - 由可逆流和单层注射部件组成的神经网络。当M <= 3N时,我们显示R ^ n和r ^ m之间的注射流量在可扩展的嵌入物图像中支持的普遍近似措施,这是标准嵌入的适当子集。在这个制度拓扑障碍物中,拓扑障碍能够作为可允许的目标。当m> = 3n + 1时,我们使用称为*清洁技巧*的代数拓扑的论点来证明拓扑障碍物消失和注射般的流动普遍近似任何可分辨率的嵌入。沿途,我们表明,可以在Brehmer et Cranmer 2020中的猜想中建立“反向”可以建立铭刻流动网络的最优性。此外,设计的网络可以简单,它们可以配备其他属性,例如一个新的投影结果。
translated by 谷歌翻译
本文介绍了一种新的基于仿真的推理程序,以对访问I.I.D. \ samples的多维概率分布进行建模和样本,从而规避明确建模密度函数或设计Markov Chain Monte Carlo的通常方法。我们提出了一个称为可逆的Gromov-monge(RGM)距离的新概念的距离和同构的动机,并研究了RGM如何用于设计新的转换样本,以执行基于模拟的推断。我们的RGM采样器还可以估计两个异质度量度量空间之间的最佳对齐$(\ cx,\ mu,c _ {\ cx})$和$(\ cy,\ cy,\ nu,c _ {\ cy})$从经验数据集中,估计的地图大约将一个量度$ \ mu $推向另一个$ \ nu $,反之亦然。我们研究了RGM距离的分析特性,并在轻度条件下得出RGM等于经典的Gromov-Wasserstein距离。奇怪的是,与Brenier的两极分解结合了连接,我们表明RGM采样器以$ C _ {\ cx} $和$ C _ {\ cy} $的正确选择诱导了强度同构的偏见。研究了有关诱导采样器的收敛,表示和优化问题的统计率。还展示了展示RGM采样器有效性的合成和现实示例。
translated by 谷歌翻译
我们提出了一种统一的技术,用于顺序估计分布之间的凸面分歧,包括内核最大差异等积分概率度量,$ \ varphi $ - 像Kullback-Leibler发散,以及最佳运输成本,例如Wassersein距离的权力。这是通过观察到经验凸起分歧(部分有序)反向半角分离的实现来实现的,而可交换过滤耦合,其具有这些方法的最大不等式。这些技术似乎是对置信度序列和凸分流的现有文献的互补和强大的补充。我们构建一个离线到顺序设备,将各种现有的离线浓度不等式转换为可以连续监测的时间均匀置信序列,在任意停止时间提供有效的测试或置信区间。得到的顺序边界仅在相应的固定时间范围内支付迭代对数价格,保留对问题参数的相同依赖性(如适用的尺寸或字母大小)。这些结果也适用于更一般的凸起功能,如负差分熵,实证过程的高度和V型统计。
translated by 谷歌翻译
比较概率分布是许多机器学习算法的关键。最大平均差异(MMD)和最佳运输距离(OT)是在过去几年吸引丰富的关注的概率措施之间的两类距离。本文建立了一些条件,可以通过MMD规范控制Wassersein距离。我们的作品受到压缩统计学习(CSL)理论的推动,资源有效的大规模学习的一般框架,其中训练数据总结在单个向量(称为草图)中,该训练数据捕获与所考虑的学习任务相关的信息。在CSL中的现有结果启发,我们介绍了H \“较旧的较低限制的等距属性(H \”较旧的LRIP)并表明这家属性具有有趣的保证对压缩统计学习。基于MMD与Wassersein距离之间的关系,我们通过引入和研究学习任务的Wassersein可读性的概念来提供压缩统计学习的保证,即概率分布之间的某些特定于特定的特定度量,可以由Wassersein界定距离。
translated by 谷歌翻译
我们介绍了统计实验的两种新的信息度量,它们概括和包含$ \ phi $ -diverences,积分概率指标,$ \ mathfrak {n} $ - distances(mmd)和$(f,\ gamma)$ divergences $ divergences在两个或多个分布之间。这使我们能够在信息的度量与统计决策问题的贝叶斯风险之间得出简单的几何关系,从而将变异的$ \ phi $ -divergence代表扩展到多个分布,以完全对称的方式。在马尔可夫运营商的行动下,新的分歧家庭被关闭,该家族产生了信息处理平等,这是经典数据处理不平等的完善和概括。这种平等使人深入了解假设类别在经典风险最小化中的重要性。
translated by 谷歌翻译
我们基于电子价值开发假设检测理论,这是一种与p值不同的证据,允许毫不费力地结合来自常见场景中的几项研究的结果,其中决定执行新研究可能取决于以前的结果。基于E-V值的测试是安全的,即它们在此类可选的延续下保留I型错误保证。我们将增长速率最优性(GRO)定义为可选的连续上下文中的电力模拟,并且我们展示了如何构建GRO E-VARIABLE,以便为复合空缺和替代,强调模型的常规测试问题,并强调具有滋扰参数的模型。 GRO E值采取具有特殊前瞻的贝叶斯因子的形式。我们使用几种经典示例说明了该理论,包括一个样本安全T检验(其中右哈尔前方的右手前锋为GE)和2x2差价表(其中GRE之前与标准前沿不同)。分享渔业,奈曼和杰弗里斯·贝叶斯解释,电子价值观和相应的测试可以提供所有三所学校的追随者可接受的方法。
translated by 谷歌翻译
我们研究了对识别的非唯一麻烦的线性功能的通用推断,该功能定义为未识别条件矩限制的解决方案。这个问题出现在各种应用中,包括非参数仪器变量模型,未衡量的混杂性下的近端因果推断以及带有阴影变量的丢失 - 与随机数据。尽管感兴趣的线性功能(例如平均治疗效应)在适当的条件下是可以识别出的,但令人讨厌的非独家性对统计推断构成了严重的挑战,因为在这种情况下,常见的滋扰估计器可能是不稳定的,并且缺乏固定限制。在本文中,我们提出了对滋扰功能的受惩罚的最小估计器,并表明它们在这种挑战性的环境中有效推断。提出的滋扰估计器可以适应灵活的功能类别,重要的是,无论滋扰是否是唯一的,它们都可以融合到由惩罚确定的固定限制。我们使用受惩罚的滋扰估计器来形成有关感兴趣的线性功能的依据估计量,并在通用高级条件下证明其渐近正态性,这提供了渐近有效的置信区间。
translated by 谷歌翻译
基于AI和机器学习的决策系统已在各种现实世界中都使用,包括医疗保健,执法,教育和金融。不再是牵强的,即设想一个未来,自治系统将推动整个业务决策,并且更广泛地支持大规模决策基础设施以解决社会最具挑战性的问题。当人类做出决定时,不公平和歧视的问题普遍存在,并且当使用几乎没有透明度,问责制和公平性的机器做出决定时(或可能会放大)。在本文中,我们介绍了\ textit {Causal公平分析}的框架,目的是填补此差距,即理解,建模,并可能解决决策设置中的公平性问题。我们方法的主要见解是将观察到数据中存在的差异的量化与基本且通常是未观察到的因果机制收集的因果机制的收集,这些机制首先会产生差异,挑战我们称之为因果公平的基本问题分析(FPCFA)。为了解决FPCFA,我们研究了分解差异和公平性的经验度量的问题,将这种变化归因于结构机制和人群的不同单位。我们的努力最终达到了公平地图,这是组织和解释文献中不同标准之间关系的首次系统尝试。最后,我们研究了进行因果公平分析并提出一本公平食谱的最低因果假设,该假设使数据科学家能够评估不同影响和不同治疗的存在。
translated by 谷歌翻译