局部线性嵌入(LLE)是一种非线性光谱维度降低和多种学习方法。它有两个主要步骤,分别是线性重建和分别在输入空间和嵌入空间中的点的线性嵌入。在这项工作中,我们从随机的角度看线性重建步骤,其中假定每个数据点都以其线性重建权重为潜在因素。 LLE的随机线性重建是使用预期最大化解决的。我们表明,三种基本维度降低方法(即LLE,因子分析和概率主体组件分析(PCA))之间存在理论上的联系。 LLE的随机线性重建与因子分析和概率PCA相似。这也解释了为什么因子分析和概率PCA是线性的,而LLE是一种非线性方法。这项工作结合了两种降低维度的广泛方法,即光谱和概率算法。
translated by 谷歌翻译
概率主成分分析(PPCA)是高斯潜在变量模型的框架下主成分分析(PCA)的概率重构。为了提高PPCA的稳健性,已经提出将潜在的高斯分布改变为多元$ T $-DRIBIRATIONS。基于$ T $的表示,作为高斯分布的规模混合,分层模型用于实施。然而,在现有文献中,实现的分层模型不会产生等同的解释。在本文中,我们在高级多元$ T $ -PPCA框架和用于实现的层次模型之间存在两组等效关系。在这样做时,我们通过指定正确的对应来阐明文献中的当前歪曲。此外,我们讨论了理论和仿真研究的不同多元$ T $鲁棒PPCA方法的性能,并提出了一种新颖的蒙特卡罗期望 - 最大化(MCEM)算法,实现了一种常规类型的这种模型。
translated by 谷歌翻译
为了避免维度的诅咒,聚集高维数据的一种常见方法是首先将数据投射到缩小尺寸的空间中,然后将投影数据聚集。尽管有效,但这种两阶段的方法阻止了降低维度降低和聚类模型的关节优化,并掩盖了完整模型描述数据的很好。在这里,我们展示了如何将这样的两阶段模型的家族组合成一个单一的分层模型,我们称之为高斯(HMOG)的分层混合物。 HMOG同时捕获了降低性降低和聚类,并且其性能通过似然函数以封闭形式量化。通过用指数式的家庭理论制定和扩展现有模型,我们展示了如何最大程度地提高HMOGS具有期望最大化的可能性。我们将HMOGS应用于合成数据和RNA测序数据,并演示它们如何超过两阶段模型的局限性。最终,HMOG是对共同统计框架的严格概括,并为研究人员提供了一种在聚集高维数据时改善模型性能的方法。
translated by 谷歌翻译
期望 - 最大化(EM)算法是一种简单的元叠加,当观察到的数据中缺少测量值或数据由可观察到的数据组成时,它已多年来用作统计推断的方法。它的一般属性进行了充分的研究,而且还有无数方法将其应用于个人问题。在本文中,我们介绍了$ em $ $ and算法,EM算法的信息几何公式及其扩展和应用程序以及各种问题。具体而言,我们将看到,可以制定一个异常稳定推理算法,用于计算通道容量的算法,概率单纯性的参数估计方法,特定的多变量分析方法,例如概率模型中的主要组件分析和模态回归中的主成分分析,基质分解和学习生成模型,这些模型最近从几何学角度引起了深度学习的关注。
translated by 谷歌翻译
How can we perform efficient inference and learning in directed probabilistic models, in the presence of continuous latent variables with intractable posterior distributions, and large datasets? We introduce a stochastic variational inference and learning algorithm that scales to large datasets and, under some mild differentiability conditions, even works in the intractable case. Our contributions is two-fold. First, we show that a reparameterization of the variational lower bound yields a lower bound estimator that can be straightforwardly optimized using standard stochastic gradient methods. Second, we show that for i.i.d. datasets with continuous latent variables per datapoint, posterior inference can be made especially efficient by fitting an approximate inference model (also called a recognition model) to the intractable posterior using the proposed lower bound estimator. Theoretical advantages are reflected in experimental results.
translated by 谷歌翻译
矩阵正常模型,高斯矩阵变化分布的系列,其协方差矩阵是两个较低尺寸因子的Kronecker乘积,经常用于模拟矩阵变化数据。张量正常模型将该家庭推广到三个或更多因素的Kronecker产品。我们研究了矩阵和张量模型中协方差矩阵的Kronecker因子的估计。我们向几个自然度量中的最大似然估计器(MLE)实现的误差显示了非因素界限。与现有范围相比,我们的结果不依赖于条件良好或稀疏的因素。对于矩阵正常模型,我们所有的所有界限都是最佳的对数因子最佳,对于张量正常模型,我们对最大因数和整体协方差矩阵的绑定是最佳的,所以提供足够的样品以获得足够的样品以获得足够的样品常量Frobenius错误。在与我们的样本复杂性范围相同的制度中,我们表明迭代程序计算称为触发器算法称为触发器算法的MLE的线性地收敛,具有高概率。我们的主要工具是Fisher信息度量诱导的正面矩阵的几何中的测地强凸性。这种强大的凸起由某些随机量子通道的扩展来决定。我们还提供了数值证据,使得将触发器算法与简单的收缩估计器组合可以提高缺乏采样制度的性能。
translated by 谷歌翻译
由于本地潜在变量的数量与数据集缩放,因此难以使用分层模型中的变分推理。因此,分层模型中的推断仍然是大规模的挑战。使用与后部匹配的结构进行变形家庭是有帮助的,但由于局部分布的巨大数量,优化仍然缓慢。相反,本文建议摊销方法,其中共享参数同时表示所有本地分布。这种方法类似地是使用给定的联合分布(例如,全级高斯),但在数据集上是可行的,这些数量幅度较大。它也比使用结构化的变分布速度更快。
translated by 谷歌翻译
本文开发了一个贝叶斯图形模型,用于融合不同类型的计数数据。激励的应用是从不同治疗方法收集的各种高维特征的细菌群落研究。在这样的数据集中,社区之间没有明确的对应关系,每个对应都与不同的因素相对应,从而使数据融合具有挑战性。我们引入了一种灵活的多项式高斯生成模型,用于共同建模此类计数数据。该潜在变量模型通过共同的多元高斯潜在空间共同表征了观察到的数据,该空间参数化了转录组计数的多项式概率集。潜在变量的协方差矩阵诱导所有转录本之间共同依赖性的协方差矩阵,有效地融合了多个数据源。我们提出了一种可扩展的可扩展性变异期望最大化(EM)算法,用于推断模型的潜在变量和参数。推断的潜在变量为可视化数据提供了常见的维度降低,而推断的参数则提供了预测性的后验分布。除了证明变异性程序的模拟研究外,我们还将模型应用于细菌微生物组数据集。
translated by 谷歌翻译
概率分布允许从业者发现数据中的隐藏结构,并构建模型,以使用有限的数据解决监督的学习问题。该报告的重点是变异自动编码器,这是一种学习大型复杂数据集概率分布的方法。该报告提供了对变异自动编码器的理论理解,并巩固了该领域的当前研究。该报告分为多个章节,第一章介绍了问题,描述了变异自动编码器并标识了该领域的关键研究方向。第2、3、4和5章深入研究了每个关键研究领域的细节。第6章总结了报告,并提出了未来工作的指示。具有机器学习基本思想但想了解机器学习研究中的一般主题的读者可以从报告中受益。该报告解释了有关学习概率分布的中心思想,人们为使这种危险做些什么,并介绍了有关当前如何应用深度学习的细节。该报告还为希望为这个子场做出贡献的人提供了温和的介绍。
translated by 谷歌翻译
这是一份有关降低光谱维度降低方法统一的教程和调查论文,通过半决赛编程(SDP)学习内核学习,最大方差展开(MVU)或半芬特嵌入(SDE)及其变体。我们首先解释了如何将频谱降低方法降低方法统一为具有不同内核的内核主成分分析(PCA)。在距离矩阵方面,该统一可以解释为内核的本本函数学习或表示。然后,由于光谱方法被统一为内核PCA,因此我们说,让我们学习将数据的歧管展开至最大方差的最佳内核。我们首先简要介绍了SDP的内核学习来进行转导任务。然后,我们详细解释MVU。解释了使用最近的邻居图,通过课堂展开,Fisher Criterion和通过彩色MVU进行的各种监督MVU。我们还使用本征函数和内核映射解释了MVU的样本外扩展。最后,我们介绍了MVU的其他变体,包括尊重嵌入,放松的MVU和Landmark MVU的动作,以获取大数据。
translated by 谷歌翻译
We marry ideas from deep neural networks and approximate Bayesian inference to derive a generalised class of deep, directed generative models, endowed with a new algorithm for scalable inference and learning. Our algorithm introduces a recognition model to represent an approximate posterior distribution and uses this for optimisation of a variational lower bound. We develop stochastic backpropagation -rules for gradient backpropagation through stochastic variables -and derive an algorithm that allows for joint optimisation of the parameters of both the generative and recognition models. We demonstrate on several real-world data sets that by using stochastic backpropagation and variational inference, we obtain models that are able to generate realistic samples of data, allow for accurate imputations of missing data, and provide a useful tool for high-dimensional data visualisation.
translated by 谷歌翻译
One of the core problems of modern statistics is to approximate difficult-to-compute probability densities. This problem is especially important in Bayesian statistics, which frames all inference about unknown quantities as a calculation involving the posterior density. In this paper, we review variational inference (VI), a method from machine learning that approximates probability densities through optimization. VI has been used in many applications and tends to be faster than classical methods, such as Markov chain Monte Carlo sampling. The idea behind VI is to first posit a family of densities and then to find the member of that family which is close to the target. Closeness is measured by Kullback-Leibler divergence. We review the ideas behind mean-field variational inference, discuss the special case of VI applied to exponential family models, present a full example with a Bayesian mixture of Gaussians, and derive a variant that uses stochastic optimization to scale up to massive data. We discuss modern research in VI and highlight important open problems. VI is powerful, but it is not yet well understood. Our hope in writing this paper is to catalyze statistical research on this class of algorithms.
translated by 谷歌翻译
主成分分析(PCA)是一种用于矢量数据的流行尺寸减少技术。因子PCA(FPCA)是PCA的PCA用于矩阵数据的概率扩展,这可以大大降低PCA中的参数数,同时产生令人满意的性能。然而,FPCA基于高斯假设,从而易于异常值。虽然将多元$ T $分布作为矢量数据的强大建模工具具有很长的历史,但其对矩阵数据的应用非常有限。主要原因是矢量化矩阵数据的维度通常非常高,尺寸越高,测量稳健性的击穿点越低。为了解决FPCA遭受的稳健性问题,并使其适用于矩阵数据,本文提出了一种强大的FPCA(RFPCA)的扩展,这是一个被称为矩阵 - 变化$ T $分布的$ T $ -Type分布。与多元$ T $分布一样,Matrix-Variate $ T $分布可以自适应地降价异常值并屈服于强大的估计。我们开发了一种用于参数估计的快速EM型算法。综合性和现实世界数据集的实验表明,RFPCA比较有利地与若干相关方法,RFPCA是一个简单但有力的矩阵值异常检测工具。
translated by 谷歌翻译
本文考虑了非线性状态空间模型的参数估计,这是一个重要但具有挑战性的问题。我们通过采用差异推理(VI)方法来应对这一挑战,该方法是一种与最大似然估计有着深厚的联系的原则方法。这种VI方法最终提供了对模型的估计,作为对优化问题的解决方案,该解决方案是确定性的,可进行的,可以使用标准优化工具来解决。还详细介绍了具有加性高斯噪声的系统的这种方法的专业化。在数值上对所提出的方法进行了数值检查,该方法涉及一系列的模拟和真实示例,重点是参数初始化的鲁棒性。此外,还与最先进的替代方案进行了有利的比较。
translated by 谷歌翻译
Variational autoencoders (VAEs) are one class of generative probabilistic latent-variable models designed for inference based on known data. We develop three variations on VAEs by introducing a second parameterized encoder/decoder pair and, for one variation, an additional fixed encoder. The parameters of the encoders/decoders are to be learned with a neural network. The fixed encoder is obtained by probabilistic-PCA. The variations are compared to the Evidence Lower Bound (ELBO) approximation to the original VAE. One variation leads to an Evidence Upper Bound (EUBO) that can be used in conjunction with the original ELBO to interrogate the convergence of the VAE.
translated by 谷歌翻译
变异推理(VI)的核心原理是将计算复杂后概率密度计算的统计推断问题转换为可拖动的优化问题。该属性使VI比几种基于采样的技术更快。但是,传统的VI算法无法扩展到大型数据集,并且无法轻易推断出越野数据点,而无需重新运行优化过程。该领域的最新发展,例如随机,黑框和摊销VI,已帮助解决了这些问题。如今,生成的建模任务广泛利用摊销VI来实现其效率和可扩展性,因为它利用参数化函数来学习近似的后验密度参数。在本文中,我们回顾了各种VI技术的数学基础,以构成理解摊销VI的基础。此外,我们还概述了最近解决摊销VI问题的趋势,例如摊销差距,泛化问题,不一致的表示学习和后验崩溃。最后,我们分析了改善VI优化的替代差异度量。
translated by 谷歌翻译
我们重新求解用于时变线性回归的模型,该模型假定根据线性动力系统演变的未知参数。违反直接来看,我们表明,当潜在的动态稳定时,可以通过组合两个普通的最小二乘估计来估计该模型的参数。我们提供了在我们方法的估计误差上提供了有限的样本保证,并讨论了它过度期望 - 最大化(EM)的某些优势,这是事先工作提出的主要方法。
translated by 谷歌翻译
统计模型是机器学习的核心,具有广泛适用性,跨各种下游任务。模型通常由通过最大似然估计从数据估计的自由参数控制。但是,当面对现实世界数据集时,许多模型运行到一个关键问题:它们是在完全观察到的数据方面配制的,而在实践中,数据集会困扰缺失数据。来自不完整数据的统计模型估计理论在概念上类似于潜在变量模型的估计,其中存在强大的工具,例如变分推理(VI)。然而,与标准潜在变量模型相比,具有不完整数据的参数估计通常需要估计缺失变量的指数 - 许多条件分布,因此使标准的VI方法是棘手的。通过引入变分Gibbs推理(VGI),是一种新的通用方法来解决这个差距,以估计来自不完整数据的统计模型参数。我们在一组合成和实际估算任务上验证VGI,从不完整的数据中估算重要的机器学习模型,VAE和标准化流程。拟议的方法,同时通用,实现比现有的特定模型特定估计方法竞争或更好的性能。
translated by 谷歌翻译
稀疏变分高斯工艺(SVGP)方法是由于其计算效益的非共轭高斯工艺推论的常见选择。在本文中,我们通过使用双重参数化来提高其计算效率,其中每个数据示例被分配双参数,类似于期望传播中使用的站点参数。我们使用自然梯度下降的双重参数化速度推断,并提供了较小的证据,用于近似参数学习。该方法具有与当前SVGP方法相同的内存成本,但它更快,更准确。
translated by 谷歌翻译
这是关于Boltzmann机器(BM),受限玻尔兹曼机器(RBM)和Deep信念网络(DBN)的教程和调查论文。我们从概率图形模型,Markov随机字段,Gibbs采样,统计物理学,ISING模型和Hopfield网络的必需背景开始。然后,我们介绍BM和RBM的结构。解释了可见变量和隐藏变量的条件分布,RBM中的GIBBS采样以生成变量,通过最大似然估计训练BM和RBM以及对比度差异。然后,我们讨论变量的不同可能的离散和连续分布。我们介绍有条件的RBM及其训练方式。最后,我们将深度信念网络解释为RBM模型的一堆。本文有关玻尔兹曼机器的论文在包括数据科学,统计,神经计算和统计物理学在内的各个领域都有用。
translated by 谷歌翻译