主成分分析(PCA)是一种用于矢量数据的流行尺寸减少技术。因子PCA(FPCA)是PCA的PCA用于矩阵数据的概率扩展,这可以大大降低PCA中的参数数,同时产生令人满意的性能。然而,FPCA基于高斯假设,从而易于异常值。虽然将多元$ T $分布作为矢量数据的强大建模工具具有很长的历史,但其对矩阵数据的应用非常有限。主要原因是矢量化矩阵数据的维度通常非常高,尺寸越高,测量稳健性的击穿点越低。为了解决FPCA遭受的稳健性问题,并使其适用于矩阵数据,本文提出了一种强大的FPCA(RFPCA)的扩展,这是一个被称为矩阵 - 变化$ T $分布的$ T $ -Type分布。与多元$ T $分布一样,Matrix-Variate $ T $分布可以自适应地降价异常值并屈服于强大的估计。我们开发了一种用于参数估计的快速EM型算法。综合性和现实世界数据集的实验表明,RFPCA比较有利地与若干相关方法,RFPCA是一个简单但有力的矩阵值异常检测工具。
translated by 谷歌翻译
信息技术的进步导致了非常大的数据集,通常保存在不同的存储中心。必须适于现有的统计方法来克服所产生的计算障碍,同时保持统计有效性和效率。分裂和征服方法已应用于许多领域,包括分位式流程,回归分析,主偶数和指数家庭。我们研究了有限高斯混合的分布式学习的分裂和征服方法。我们建议减少策略并开发一种有效的MM算法。新估计器显示在某些一般条件下保持一致并保留根 - N一致性。基于模拟和现实世界数据的实验表明,如果后者是可行的,所提出的分离和征管方法具有基于完整数据集的全球估计的统计性能。如果模型假设与真实数据不匹配,甚至可以略高于全局估算器。它还具有比某些现有方法更好的统计和计算性能。
translated by 谷歌翻译
JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact
translated by 谷歌翻译
高维领域的数据经常在许多学科中自然地或由于初步处理而产生并且可以具有需要理解的复杂依赖结构。我们开发了对预计的正态分布的探索性因子分析,以解释使用少数容易解释的潜在因子来解释这些数据的可变性。我们的方法通过新颖的快速交替期望简档条件最大化算法提供了最大似然估计。结果仿真实验在各种环境中均匀优异。我们的方法在2018年12月初使用$ \#Metoo $哈希特方式时,提供可解释和富有洞察力的结果,以时间课程的平均青少年大脑的时间函数磁共振图像在休息,表征手写的数字和基因来自癌症基因组地图集中癌细胞的表达数据。
translated by 谷歌翻译
概率主成分分析(PPCA)是高斯潜在变量模型的框架下主成分分析(PCA)的概率重构。为了提高PPCA的稳健性,已经提出将潜在的高斯分布改变为多元$ T $-DRIBIRATIONS。基于$ T $的表示,作为高斯分布的规模混合,分层模型用于实施。然而,在现有文献中,实现的分层模型不会产生等同的解释。在本文中,我们在高级多元$ T $ -PPCA框架和用于实现的层次模型之间存在两组等效关系。在这样做时,我们通过指定正确的对应来阐明文献中的当前歪曲。此外,我们讨论了理论和仿真研究的不同多元$ T $鲁棒PPCA方法的性能,并提出了一种新颖的蒙特卡罗期望 - 最大化(MCEM)算法,实现了一种常规类型的这种模型。
translated by 谷歌翻译
相协方差矩阵的通常的最小协方差决定因素(MCD)估计器与casewise Outliers具有鲁棒性。这些情况(即数据矩阵的行)与大多数案件的行为不同,引起了人们的怀疑,认为它们可能属于不同的人群。另一方面,单元格离群值是数据矩阵中的单个单元格。当行包含一个或多个外围的单元时,同一行中的另一个单元格仍然包含我们希望保留的有用信息。我们提出了一种称为CellMCD的MCD方法的细胞稳健版本。观察到其主要的构件可能性和对标记的细胞离群值数量的稀疏性罚款。它具有良好的分解属性。我们基于浓度步骤(C步长)构建一种快速算法,该算法始终降低目标。该方法在具有单元格离群值的模拟中表现良好,并且在干净的数据上具有很高的有限样本效率。它在带有结果可视化的真实数据上进行了说明。
translated by 谷歌翻译
我们开发了一个计算程序,以估计具有附加噪声的半摩托车高斯过程回归模型的协方差超参数。也就是说,提出的方法可用于有效估计相关误差的方差,以及基于最大化边际似然函数的噪声方差。我们的方法涉及适当地降低超参数空间的维度,以简化单变量的根发现问题的估计过程。此外,我们得出了边际似然函数及其衍生物的边界和渐近线,这对于缩小高参数搜索的初始范围很有用。使用数值示例,我们证明了与传统参数优化相比,提出方法的计算优势和鲁棒性。
translated by 谷歌翻译
本文解决了缺少嘈杂和非高斯数据数据的数据的问题。与其他流行的方法相比,一种经典的插补方法,即高斯混合模型的期望最大化(EM)算法,它显示出有趣的特性,例如基于K-Neartivt邻居或通过链式方程式进行多个归纳的方法。然而,已知高斯混合模型对异质数据不舒适,当数据被异常值污染或遵循非高斯分布时,这可能导致估计性能差。为了克服这个问题,研究了一种新的EM算法,用于椭圆形分布的混合物与处理潜在丢失数据的特性。本文表明,此问题减少了在通用假设下的角度高斯分布的混合物的估计(即,每个样品都是从椭圆形分布的混合物中绘制的,对于一个样品而言,这可能是不同的)。在这种情况下,与椭圆形分布的混合物相关的完整数据可能非常适合EM框架,由于其条件分布而缺少数据,这被证明是多元$ t $分布。合成数据的实验结果表明,所提出的算法对异常值是可靠的,可以与非高斯数据一起使用。此外,在现实世界数据集上进行的实验表明,与其他经典插补方法相比,该算法非常有竞争力。
translated by 谷歌翻译
本文开发了一个贝叶斯图形模型,用于融合不同类型的计数数据。激励的应用是从不同治疗方法收集的各种高维特征的细菌群落研究。在这样的数据集中,社区之间没有明确的对应关系,每个对应都与不同的因素相对应,从而使数据融合具有挑战性。我们引入了一种灵活的多项式高斯生成模型,用于共同建模此类计数数据。该潜在变量模型通过共同的多元高斯潜在空间共同表征了观察到的数据,该空间参数化了转录组计数的多项式概率集。潜在变量的协方差矩阵诱导所有转录本之间共同依赖性的协方差矩阵,有效地融合了多个数据源。我们提出了一种可扩展的可扩展性变异期望最大化(EM)算法,用于推断模型的潜在变量和参数。推断的潜在变量为可视化数据提供了常见的维度降低,而推断的参数则提供了预测性的后验分布。除了证明变异性程序的模拟研究外,我们还将模型应用于细菌微生物组数据集。
translated by 谷歌翻译
监督字典学习(SDL)是一种经典的机器学习方法,同时寻求特征提取和分类任务,不一定是先验的目标。 SDL的目的是学习类歧视性词典,这是一组潜在特征向量,可以很好地解释特征以及观察到的数据的标签。在本文中,我们提供了SDL的系统研究,包括SDL的理论,算法和应用。首先,我们提供了一个新颖的框架,该框架将“提升” SDL作为组合因子空间中的凸问题,并提出了一种低级别的投影梯度下降算法,该算法将指数成倍收敛于目标的全局最小化器。我们还制定了SDL的生成模型,并根据高参数制度提供真实参数的全局估计保证。其次,我们被视为一个非convex约束优化问题,我们为SDL提供了有效的块坐标下降算法,该算法可以保证在$ O(\ varepsilon^{ - 1}(\ log)中找到$ \ varepsilon $ - 定位点(\ varepsilon \ varepsilon^{ - 1})^{2})$ iterations。对于相应的生成模型,我们为受约束和正则化的最大似然估计问题建立了一种新型的非反应局部一致性结果,这可能是独立的。第三,我们将SDL应用于监督主题建模和胸部X射线图像中的肺炎检测中,以进行不平衡的文档分类。我们还提供了模拟研究,以证明当最佳的重建性和最佳判别词典之间存在差异时,SDL变得更加有效。
translated by 谷歌翻译
重度抑郁症(MDD)需要研究患者的大脑功能连通性改变,可以通过静止状态功能磁共振成像(RS-FMRI)数据发现。我们考虑确定单个MDD患者大脑功能连通性改变的问题。这是特别困难的,因为在fMRI扫描期间收集的数据量过于限制,无法为个人分析提供足够的信息。此外,RS-FMRI数据通常具有不完整,稀疏性,可变性,高维度和高噪声的特征。为了解决这些问题,我们提出了一个多任务高斯贝叶斯网络(MTGBN)框架,该框架能够识别MDD患者的个体疾病诱导的改变。我们假设这种疾病引起的改变显示了与该工具相似的程度,以学习从观察到了解系统如何共同从相关任务结构构造的网络结构。首先,我们将每类观察中的每个患者视为一项任务,然后通过从共享编码先验知识的默认协方差矩阵的所有任务中学习该数据类的高斯贝叶斯网络(GBN)。此设置可以帮助我们从有限的数据中学习更多信息。接下来,我们得出了完整的似然函数的封闭式公式,并使用蒙特卡洛期望 - 最大化(MCEM)算法有效地搜索大约最佳的贝叶斯网络结构。最后,我们通过模拟和现实世界的RS-FMRI数据评估方法的性能。
translated by 谷歌翻译
We develop an optimization algorithm suitable for Bayesian learning in complex models. Our approach relies on natural gradient updates within a general black-box framework for efficient training with limited model-specific derivations. It applies within the class of exponential-family variational posterior distributions, for which we extensively discuss the Gaussian case for which the updates have a rather simple form. Our Quasi Black-box Variational Inference (QBVI) framework is readily applicable to a wide class of Bayesian inference problems and is of simple implementation as the updates of the variational posterior do not involve gradients with respect to the model parameters, nor the prescription of the Fisher information matrix. We develop QBVI under different hypotheses for the posterior covariance matrix, discuss details about its robust and feasible implementation, and provide a number of real-world applications to demonstrate its effectiveness.
translated by 谷歌翻译
This work considers a computationally and statistically efficient parameter estimation method for a wide class of latent variable models-including Gaussian mixture models, hidden Markov models, and latent Dirichlet allocation-which exploits a certain tensor structure in their low-order observable moments (typically, of second-and third-order). Specifically, parameter estimation is reduced to the problem of extracting a certain (orthogonal) decomposition of a symmetric tensor derived from the moments; this decomposition can be viewed as a natural generalization of the singular value decomposition for matrices. Although tensor decompositions are generally intractable to compute, the decomposition of these specially structured tensors can be efficiently obtained by a variety of approaches, including power iterations and maximization approaches (similar to the case of matrices). A detailed analysis of a robust tensor power method is provided, establishing an analogue of Wedin's perturbation theorem for the singular vectors of matrices. This implies a robust and computationally tractable estimation approach for several popular latent variable models.
translated by 谷歌翻译
我们提出了一种新的非参数混合物模型,用于多变量回归问题,灵感来自概率K-Nearthimest邻居算法。使用有条件指定的模型,对样本外输入的预测基于与每个观察到的数据点的相似性,从而产生高斯混合物表示的预测分布。在混合物组件的参数以及距离度量标准的参数上,使用平均场变化贝叶斯算法进行后推断,并具有基于随机梯度的优化过程。在与数据大小相比,输入 - 输出关系很复杂,预测分布可能偏向或多模式的情况下,输入相对较高的尺寸,该方法尤其有利。对五个数据集进行的计算研究,其中两个是合成生成的,这说明了我们的高维输入的专家混合物方法的明显优势,在验证指标和视觉检查方面都优于竞争者模型。
translated by 谷歌翻译
现代高维方法经常采用“休稀稀物”的原则,而在监督多元学习统计学中可能面临着大量非零系数的“密集”问题。本文提出了一种新的聚类减少秩(CRL)框架,其施加了两个联合矩阵规范化,以自动分组构建预测因素的特征。 CRL比低级别建模更具可解释,并放松变量选择中的严格稀疏假设。在本文中,提出了新的信息 - 理论限制,揭示了寻求集群的内在成本,以及多元学习中的维度的祝福。此外,开发了一种有效的优化算法,其执行子空间学习和具有保证融合的聚类。所获得的定点估计器虽然不一定是全局最佳的,但在某些规则条件下享有超出标准似然设置的所需的统计准确性。此外,提出了一种新的信息标准,以及其无垢形式,用于集群和秩选择,并且具有严格的理论支持,而不假设无限的样本大小。广泛的模拟和实数据实验证明了所提出的方法的统计准确性和可解释性。
translated by 谷歌翻译
Mixtures of von Mises-Fisher distributions can be used to cluster data on the unit hypersphere. This is particularly adapted for high-dimensional directional data such as texts. We propose in this article to estimate a von Mises mixture using a l 1 penalized likelihood. This leads to sparse prototypes that improve clustering interpretability. We introduce an expectation-maximisation (EM) algorithm for this estimation and explore the trade-off between the sparsity term and the likelihood one with a path following algorithm. The model's behaviour is studied on simulated data and, we show the advantages of the approach on real data benchmark. We also introduce a new data set on financial reports and exhibit the benefits of our method for exploratory analysis.
translated by 谷歌翻译
缺少价值估算对于现实世界数据科学工作流程至关重要。在线设置中的估算更加困难,因为它需要归纳方法本身能够随着时间的推移而发展。对于实际应用,估算算法应产生符合真实数据分布的避免,处理混合类型的数据,包括序数,布尔和连续变量,并缩放到大型数据集。在这项工作中,我们使用高斯Copula开发了一种新的在线估算算法,用于混合数据。在线高斯Copula模型符合所有Desiderata:其避免符合混合数据的数据分布,当流数据具有变化的分布时的准确性,以及速度(最多级)的精度上的离线对应物匹配。特别是在大规模的数据集上。通过将Copula模型拟合到在线数据,我们还提供了一种新方法,可以使用缺失值检测多变量依赖结构中的变化点。合成和现实世界数据的实验结果验证了所提出的方法的性能。
translated by 谷歌翻译
期望 - 最大化(EM)算法是一种简单的元叠加,当观察到的数据中缺少测量值或数据由可观察到的数据组成时,它已多年来用作统计推断的方法。它的一般属性进行了充分的研究,而且还有无数方法将其应用于个人问题。在本文中,我们介绍了$ em $ $ and算法,EM算法的信息几何公式及其扩展和应用程序以及各种问题。具体而言,我们将看到,可以制定一个异常稳定推理算法,用于计算通道容量的算法,概率单纯性的参数估计方法,特定的多变量分析方法,例如概率模型中的主要组件分析和模态回归中的主成分分析,基质分解和学习生成模型,这些模型最近从几何学角度引起了深度学习的关注。
translated by 谷歌翻译
替代模型用于减轻工程任务中的计算负担,这些计算负担需要重复评估计算要求的物理系统模型,例如不确定性的有效传播。对于显示出非常非线性依赖其输入参数的模型,标准的替代技术(例如多项式混沌膨胀)不足以获得原始模型响应的准确表示。通过应用有理近似,对于通过有理函数准确描述的模型可以有效地降低近似误差。具体而言,我们的目标是近似复杂值模型。获得替代系数的一种常见方法是最小化模型和替代物之间的基于样本的误差,从最小二乘意义上讲。为了获得原始模型的准确表示并避免过度拟合,样品集的量是扩展中多项式项数的两到三倍。对于需要高多项式程度或在其输入参数方面具有高维度的模型,该数字通常超过负担得起的计算成本。为了克服这个问题,我们将稀疏的贝叶斯学习方法应用于理性近似。通过特定的先前分布结构,在替代模型的系数中诱导稀疏性。分母的多项式系数以及问题的超参数是通过类型-II-Maximim-Maximim类似方法来确定的。我们应用了准牛顿梯度散发算法,以找到最佳的分母系数,并通过应用$ \ mathbb {cr} $ -Colculus来得出所需的梯度。
translated by 谷歌翻译
为了避免维度的诅咒,聚集高维数据的一种常见方法是首先将数据投射到缩小尺寸的空间中,然后将投影数据聚集。尽管有效,但这种两阶段的方法阻止了降低维度降低和聚类模型的关节优化,并掩盖了完整模型描述数据的很好。在这里,我们展示了如何将这样的两阶段模型的家族组合成一个单一的分层模型,我们称之为高斯(HMOG)的分层混合物。 HMOG同时捕获了降低性降低和聚类,并且其性能通过似然函数以封闭形式量化。通过用指数式的家庭理论制定和扩展现有模型,我们展示了如何最大程度地提高HMOGS具有期望最大化的可能性。我们将HMOGS应用于合成数据和RNA测序数据,并演示它们如何超过两阶段模型的局限性。最终,HMOG是对共同统计框架的严格概括,并为研究人员提供了一种在聚集高维数据时改善模型性能的方法。
translated by 谷歌翻译