概率主成分分析(PPCA)是高斯潜在变量模型的框架下主成分分析(PCA)的概率重构。为了提高PPCA的稳健性,已经提出将潜在的高斯分布改变为多元$ T $-DRIBIRATIONS。基于$ T $的表示,作为高斯分布的规模混合,分层模型用于实施。然而,在现有文献中,实现的分层模型不会产生等同的解释。在本文中,我们在高级多元$ T $ -PPCA框架和用于实现的层次模型之间存在两组等效关系。在这样做时,我们通过指定正确的对应来阐明文献中的当前歪曲。此外,我们讨论了理论和仿真研究的不同多元$ T $鲁棒PPCA方法的性能,并提出了一种新颖的蒙特卡罗期望 - 最大化(MCEM)算法,实现了一种常规类型的这种模型。
translated by 谷歌翻译
期望 - 最大化(EM)算法是一种简单的元叠加,当观察到的数据中缺少测量值或数据由可观察到的数据组成时,它已多年来用作统计推断的方法。它的一般属性进行了充分的研究,而且还有无数方法将其应用于个人问题。在本文中,我们介绍了$ em $ $ and算法,EM算法的信息几何公式及其扩展和应用程序以及各种问题。具体而言,我们将看到,可以制定一个异常稳定推理算法,用于计算通道容量的算法,概率单纯性的参数估计方法,特定的多变量分析方法,例如概率模型中的主要组件分析和模态回归中的主成分分析,基质分解和学习生成模型,这些模型最近从几何学角度引起了深度学习的关注。
translated by 谷歌翻译
How can we perform efficient inference and learning in directed probabilistic models, in the presence of continuous latent variables with intractable posterior distributions, and large datasets? We introduce a stochastic variational inference and learning algorithm that scales to large datasets and, under some mild differentiability conditions, even works in the intractable case. Our contributions is two-fold. First, we show that a reparameterization of the variational lower bound yields a lower bound estimator that can be straightforwardly optimized using standard stochastic gradient methods. Second, we show that for i.i.d. datasets with continuous latent variables per datapoint, posterior inference can be made especially efficient by fitting an approximate inference model (also called a recognition model) to the intractable posterior using the proposed lower bound estimator. Theoretical advantages are reflected in experimental results.
translated by 谷歌翻译
主成分分析(PCA)是一种用于矢量数据的流行尺寸减少技术。因子PCA(FPCA)是PCA的PCA用于矩阵数据的概率扩展,这可以大大降低PCA中的参数数,同时产生令人满意的性能。然而,FPCA基于高斯假设,从而易于异常值。虽然将多元$ T $分布作为矢量数据的强大建模工具具有很长的历史,但其对矩阵数据的应用非常有限。主要原因是矢量化矩阵数据的维度通常非常高,尺寸越高,测量稳健性的击穿点越低。为了解决FPCA遭受的稳健性问题,并使其适用于矩阵数据,本文提出了一种强大的FPCA(RFPCA)的扩展,这是一个被称为矩阵 - 变化$ T $分布的$ T $ -Type分布。与多元$ T $分布一样,Matrix-Variate $ T $分布可以自适应地降价异常值并屈服于强大的估计。我们开发了一种用于参数估计的快速EM型算法。综合性和现实世界数据集的实验表明,RFPCA比较有利地与若干相关方法,RFPCA是一个简单但有力的矩阵值异常检测工具。
translated by 谷歌翻译
One of the core problems of modern statistics is to approximate difficult-to-compute probability densities. This problem is especially important in Bayesian statistics, which frames all inference about unknown quantities as a calculation involving the posterior density. In this paper, we review variational inference (VI), a method from machine learning that approximates probability densities through optimization. VI has been used in many applications and tends to be faster than classical methods, such as Markov chain Monte Carlo sampling. The idea behind VI is to first posit a family of densities and then to find the member of that family which is close to the target. Closeness is measured by Kullback-Leibler divergence. We review the ideas behind mean-field variational inference, discuss the special case of VI applied to exponential family models, present a full example with a Bayesian mixture of Gaussians, and derive a variant that uses stochastic optimization to scale up to massive data. We discuss modern research in VI and highlight important open problems. VI is powerful, but it is not yet well understood. Our hope in writing this paper is to catalyze statistical research on this class of algorithms.
translated by 谷歌翻译
变异推理(VI)的核心原理是将计算复杂后概率密度计算的统计推断问题转换为可拖动的优化问题。该属性使VI比几种基于采样的技术更快。但是,传统的VI算法无法扩展到大型数据集,并且无法轻易推断出越野数据点,而无需重新运行优化过程。该领域的最新发展,例如随机,黑框和摊销VI,已帮助解决了这些问题。如今,生成的建模任务广泛利用摊销VI来实现其效率和可扩展性,因为它利用参数化函数来学习近似的后验密度参数。在本文中,我们回顾了各种VI技术的数学基础,以构成理解摊销VI的基础。此外,我们还概述了最近解决摊销VI问题的趋势,例如摊销差距,泛化问题,不一致的表示学习和后验崩溃。最后,我们分析了改善VI优化的替代差异度量。
translated by 谷歌翻译
统计模型是机器学习的核心,具有广泛适用性,跨各种下游任务。模型通常由通过最大似然估计从数据估计的自由参数控制。但是,当面对现实世界数据集时,许多模型运行到一个关键问题:它们是在完全观察到的数据方面配制的,而在实践中,数据集会困扰缺失数据。来自不完整数据的统计模型估计理论在概念上类似于潜在变量模型的估计,其中存在强大的工具,例如变分推理(VI)。然而,与标准潜在变量模型相比,具有不完整数据的参数估计通常需要估计缺失变量的指数 - 许多条件分布,因此使标准的VI方法是棘手的。通过引入变分Gibbs推理(VGI),是一种新的通用方法来解决这个差距,以估计来自不完整数据的统计模型参数。我们在一组合成和实际估算任务上验证VGI,从不完整的数据中估算重要的机器学习模型,VAE和标准化流程。拟议的方法,同时通用,实现比现有的特定模型特定估计方法竞争或更好的性能。
translated by 谷歌翻译
重度抑郁症(MDD)需要研究患者的大脑功能连通性改变,可以通过静止状态功能磁共振成像(RS-FMRI)数据发现。我们考虑确定单个MDD患者大脑功能连通性改变的问题。这是特别困难的,因为在fMRI扫描期间收集的数据量过于限制,无法为个人分析提供足够的信息。此外,RS-FMRI数据通常具有不完整,稀疏性,可变性,高维度和高噪声的特征。为了解决这些问题,我们提出了一个多任务高斯贝叶斯网络(MTGBN)框架,该框架能够识别MDD患者的个体疾病诱导的改变。我们假设这种疾病引起的改变显示了与该工具相似的程度,以学习从观察到了解系统如何共同从相关任务结构构造的网络结构。首先,我们将每类观察中的每个患者视为一项任务,然后通过从共享编码先验知识的默认协方差矩阵的所有任务中学习该数据类的高斯贝叶斯网络(GBN)。此设置可以帮助我们从有限的数据中学习更多信息。接下来,我们得出了完整的似然函数的封闭式公式,并使用蒙特卡洛期望 - 最大化(MCEM)算法有效地搜索大约最佳的贝叶斯网络结构。最后,我们通过模拟和现实世界的RS-FMRI数据评估方法的性能。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact
translated by 谷歌翻译
为了避免维度的诅咒,聚集高维数据的一种常见方法是首先将数据投射到缩小尺寸的空间中,然后将投影数据聚集。尽管有效,但这种两阶段的方法阻止了降低维度降低和聚类模型的关节优化,并掩盖了完整模型描述数据的很好。在这里,我们展示了如何将这样的两阶段模型的家族组合成一个单一的分层模型,我们称之为高斯(HMOG)的分层混合物。 HMOG同时捕获了降低性降低和聚类,并且其性能通过似然函数以封闭形式量化。通过用指数式的家庭理论制定和扩展现有模型,我们展示了如何最大程度地提高HMOGS具有期望最大化的可能性。我们将HMOGS应用于合成数据和RNA测序数据,并演示它们如何超过两阶段模型的局限性。最终,HMOG是对共同统计框架的严格概括,并为研究人员提供了一种在聚集高维数据时改善模型性能的方法。
translated by 谷歌翻译
The framework of variational autoencoders allows us to efficiently learn deep latent-variable models, such that the model's marginal distribution over observed variables fits the data. Often, we're interested in going a step further, and want to approximate the true joint distribution over observed and latent variables, including the true prior and posterior distributions over latent variables. This is known to be generally impossible due to unidentifiability of the model. We address this issue by showing that for a broad family of deep latentvariable models, identification of the true joint distribution over observed and latent variables is actually possible up to very simple transformations, thus achieving a principled and powerful form of disentanglement. Our result requires a factorized prior distribution over the latent variables that is conditioned on an additionally observed variable, such as a class label or almost any other observation. We build on recent developments in nonlinear ICA, which we extend to the case with noisy or undercomplete observations, integrated in a maximum likelihood framework. The result also trivially contains identifiable flow-based generative models as a special case.
translated by 谷歌翻译
我们提出了一种新的非参数混合物模型,用于多变量回归问题,灵感来自概率K-Nearthimest邻居算法。使用有条件指定的模型,对样本外输入的预测基于与每个观察到的数据点的相似性,从而产生高斯混合物表示的预测分布。在混合物组件的参数以及距离度量标准的参数上,使用平均场变化贝叶斯算法进行后推断,并具有基于随机梯度的优化过程。在与数据大小相比,输入 - 输出关系很复杂,预测分布可能偏向或多模式的情况下,输入相对较高的尺寸,该方法尤其有利。对五个数据集进行的计算研究,其中两个是合成生成的,这说明了我们的高维输入的专家混合物方法的明显优势,在验证指标和视觉检查方面都优于竞争者模型。
translated by 谷歌翻译
We marry ideas from deep neural networks and approximate Bayesian inference to derive a generalised class of deep, directed generative models, endowed with a new algorithm for scalable inference and learning. Our algorithm introduces a recognition model to represent an approximate posterior distribution and uses this for optimisation of a variational lower bound. We develop stochastic backpropagation -rules for gradient backpropagation through stochastic variables -and derive an algorithm that allows for joint optimisation of the parameters of both the generative and recognition models. We demonstrate on several real-world data sets that by using stochastic backpropagation and variational inference, we obtain models that are able to generate realistic samples of data, allow for accurate imputations of missing data, and provide a useful tool for high-dimensional data visualisation.
translated by 谷歌翻译
This paper extends quantile factor analysis to a probabilistic variant that incorporates regularization and computationally efficient variational approximations. By means of synthetic and real data experiments it is established that the proposed estimator can achieve, in many cases, better accuracy than a recently proposed loss-based estimator. We contribute to the literature on measuring uncertainty by extracting new indexes of low, medium and high economic policy uncertainty, using the probabilistic quantile factor methodology. Medium and high indexes have clear contractionary effects, while the low index is benign for the economy, showing that not all manifestations of uncertainty are the same.
translated by 谷歌翻译
福利值广泛用作模型不可知的解释框架,以解释复杂的预测机器学习模型。福利值具有理想的理论特性和声音数学基础。精确的福芙值估计依赖数据依赖于所有特征组合之间的依赖性的准确建模。在本文中,我们使用具有任意调节(VAEAC)的变形AutoEncoder来同时建模所有特征依赖性。我们通过全面的仿真研究证明了VAEAC对于连续和混合依赖特征的各种环境来说,VAEAC优于最先进的方法。最后,我们将VAEAC应用于从UCI机器学习存储库中的鲍鱼数据集。
translated by 谷歌翻译
近似复杂的概率密度是现代统计中的核心问题。在本文中,我们介绍了变分推理(VI)的概念,这是一种机器学习中的流行方法,该方法使用优化技术来估计复杂的概率密度。此属性允许VI汇聚速度比经典方法更快,例如Markov Chain Monte Carlo采样。概念上,VI通过选择一个概率密度函数,然后找到最接近实际概率密度的家庭 - 通常使用Kullback-Leibler(KL)发散作为优化度量。我们介绍了缩窄的证据,以促进近似的概率密度,我们审查了平均场变分推理背后的想法。最后,我们讨论VI对变分式自动编码器(VAE)和VAE-生成的对抗网络(VAE-GAN)的应用。用本文,我们的目标是解释VI的概念,并通过这种方法协助协助。
translated by 谷歌翻译
我们提出了一种使用边缘似然的分布式贝叶斯模型选择的一般方法,其中数据集被分开在非重叠子集中。这些子集仅由个别工人本地访问,工人之间没有共享数据。我们近似通过在每个子集的每个子集上从后部采样通过Monte Carlo采样的完整数据的模型证据。结果使用一种新的方法来组合,该方法校正使用所产生的样本的汇总统计分裂。我们的鸿沟和征服方法使贝叶斯模型在大型数据设置中选择,利用所有可用信息,而是限制工人之间的沟通。我们派生了理论误差界限,这些错误界限量化了计算增益与精度损失之间的结果。当我们的真实世界实验所示,令人尴尬的平行性质在大规模数据集时产生了重要的速度。此外,我们展示了如何在可逆跳转设置中扩展建议的方法以在可逆跳转设置中进行模型选择,该跳转设置在一个运行中探讨多个特征组合。
translated by 谷歌翻译
重要的加权是调整蒙特卡洛集成以说明错误分布中抽取的一种一般方法,但是当重要性比的右尾巴较重时,最终的估计值可能是高度可变的。当目标分布的某些方面无法通过近似分布捕获,在这种情况下,可以通过修改极端重要性比率来获得更稳定的估计。我们提出了一种新的方法,该方法使用拟合模拟重要性比率的上尾的广义帕累托分布来稳定重要性权重。该方法在经验上的性能要比现有方法稳定重要性采样估计值更好,包括稳定的有效样本量估计,蒙特卡洛误差估计和收敛诊断。提出的帕累托$ \ hat {k} $有限样本收敛率诊断对任何蒙特卡洛估计器都有用。
translated by 谷歌翻译
潜在位置网络模型是网络科学的多功能工具;应用程序包括集群实体,控制因果混淆,并在未观察的图形上定义前提。估计每个节点的潜在位置通常是贝叶斯推理问题的群体,吉布斯内的大都市是最流行的近似后分布的工具。然而,众所周知,GIBBS内的大都市对于大型网络而言是低效;接受比计算成本昂贵,并且所得到的后绘高度相关。在本文中,我们提出了一个替代的马尔可夫链蒙特卡罗战略 - 使用分裂哈密顿蒙特卡罗和萤火虫蒙特卡罗的组合定义 - 利用后部分布的功能形式进行更有效的后退计算。我们展示了这些战略在吉布斯和综合网络上的其他算法中优于大都市,以及学区的教师和工作人员的真正信息共享网络。
translated by 谷歌翻译