主题模型为学习,提取和发现大型文本语料库中的潜在结构提供了有用的文本挖掘工具。尽管已经为主题建模提出了大量方法,但文献缺乏是对潜在主题估计的统计识别性和准确性的正式理论研究。在本文中,我们提出了一个基于特定的集成可能性的潜在主题的最大似然估计量(MLE),该主题自然地与该概念相连,在计算几何学中,体积最小化。我们的理论介绍了主题模型可识别性的一组新几何条件,这些条件比常规的可分离性条件弱,这些条件通常依赖于纯主题文档或锚定词的存在。较弱的条件允许更广泛的调查,因此可能会更加富有成果的研究。我们对拟议的估计器进行有限样本误差分析,并讨论我们的结果与先前研究的结果之间的联系。我们以使用模拟和真实数据集的实证研究结论。
translated by 谷歌翻译
本文研究了主题模型中高维,离散,可能稀疏的混合模型的估计。数据包括在$ n $独立文档中观察到的$ p $单词的多项式计数。在主题模型中,$ p \ times n $预期的单词频率矩阵被认为被分解为$ p \ times k $ word-top-topic矩阵$ a $ a $和a $ k \ times n $ topic-document $ t $ t $ 。由于两个矩阵的列代表属于概率简单的条件概率,因此$ a $的列被视为$ p $ - 二维混合组件,这些混合组件是所有文档共有的,而$ t $的列被视为$ k $二维的混合物特定文档并允许稀疏的权重。主要的兴趣是提供鲜明的,有限的样本,$ \ ell_1 $ norm收敛速率,用于混合物重量$ t $的估计量,当$ a $是已知或未知时。对于已知的$ a $,我们建议MLE估计为$ t $。我们对MLE的非标准分析不仅建立了其$ \ ell_1 $收敛率,而且揭示了一个非凡的属性:MLE,没有额外的正则化,可能完全稀疏,并且包含$ t $的真实零模式。我们进一步表明,MLE既是最佳的最佳选择,又适应了一大批稀疏主题分布中未知的稀疏性。当$ a $未知时,我们通过优化与$ a $ a $的插件的可能性功能来估计$ t $。对于任何满足与$ a $ $ a $的详细条件的估计器$ \ hat {a} $,显示出$ t $的估计器可保留为MLE建立的属性。环境尺寸$ k $和$ p $可以随着样本量而增长。我们的应用是对文档生成分布之间1-Wasserstein距离的估计。我们建议,估计和分析两个概率文档表示之间的新1-Wasserstein距离。
translated by 谷歌翻译
The estimation of cumulative distribution functions (CDFs) is an important learning task with a great variety of downstream applications, such as risk assessments in predictions and decision making. In this paper, we study functional regression of contextual CDFs where each data point is sampled from a linear combination of context dependent CDF basis functions. We propose functional ridge-regression-based estimation methods that estimate CDFs accurately everywhere. In particular, given $n$ samples with $d$ basis functions, we show estimation error upper bounds of $\widetilde{O}(\sqrt{d/n})$ for fixed design, random design, and adversarial context cases. We also derive matching information theoretic lower bounds, establishing minimax optimality for CDF functional regression. Furthermore, we remove the burn-in time in the random design setting using an alternative penalized estimator. Then, we consider agnostic settings where there is a mismatch in the data generation process. We characterize the error of the proposed estimators in terms of the mismatched error, and show that the estimators are well-behaved under model mismatch. Finally, to complete our study, we formalize infinite dimensional models where the parameter space is an infinite dimensional Hilbert space, and establish self-normalized estimation error upper bounds for this setting.
translated by 谷歌翻译
这项调查旨在提供线性模型及其背后的理论的介绍。我们的目标是对读者进行严格的介绍,并事先接触普通最小二乘。在机器学习中,输出通常是输入的非线性函数。深度学习甚至旨在找到需要大量计算的许多层的非线性依赖性。但是,这些算法中的大多数都基于简单的线性模型。然后,我们从不同视图中描述线性模型,并找到模型背后的属性和理论。线性模型是回归问题中的主要技术,其主要工具是最小平方近似,可最大程度地减少平方误差之和。当我们有兴趣找到回归函数时,这是一个自然的选择,该回归函数可以最大程度地减少相应的预期平方误差。这项调查主要是目的的摘要,即线性模型背后的重要理论的重要性,例如分布理论,最小方差估计器。我们首先从三种不同的角度描述了普通的最小二乘,我们会以随机噪声和高斯噪声干扰模型。通过高斯噪声,该模型产生了可能性,因此我们引入了最大似然估计器。它还通过这种高斯干扰发展了一些分布理论。最小二乘的分布理论将帮助我们回答各种问题并引入相关应用。然后,我们证明最小二乘是均值误差的最佳无偏线性模型,最重要的是,它实际上接近了理论上的极限。我们最终以贝叶斯方法及以后的线性模型结束。
translated by 谷歌翻译
作为一种特殊的无限级矢量自回旋(VAR)模型,矢量自回归移动平均值(VARMA)模型比广泛使用的有限级var模型可以捕获更丰富的时间模式。然而,长期以来,其实用性一直受到其不可识别性,计算疾病性和解释相对难度的阻碍。本文介绍了一种新颖的无限级VAR模型,该模型不仅避免了VARMA模型的缺点,而且继承了其有利的时间模式。作为另一个有吸引力的特征,可以单独解释该模型的时间和横截面依赖性结构,因为它们的特征是不同的参数集。对于高维时间序列,这种分离激发了我们对确定横截面依赖性的参数施加稀疏性。结果,可以在不牺牲任何时间信息的情况下实现更高的统计效率和可解释性。我们为提出的模型引入了一个$ \ ell_1 $调查估计量,并得出相应的非反应误差边界。开发了有效的块坐标下降算法和一致的模型顺序选择方法。拟议方法的优点得到了模拟研究和现实世界的宏观经济数据分析的支持。
translated by 谷歌翻译
找到给定矩阵的独特低维分解的问题是许多领域的基本和经常发生的问题。在本文中,我们研究了寻求一个唯一分解的问题,以\ mathbb {r} ^ {p \ times n} $ in \ mathbb {p \ time n} $。具体来说,我们考虑$ y = ax \ in \ mathbb {r} ^ {p \ time n} $,其中矩阵$ a \ in \ mathbb {r} ^ {p \ times r} $具有全列等级,带有$ r <\ min \ {n,p \} $,矩阵$ x \ in \ mathbb {r} ^ {r \ times n} $是元素 - 方向稀疏。我们证明,可以唯一确定$ y $的稀疏分解,直至某些内在签名排列。我们的方法依赖于解决在单位球体上限制的非凸优化问题。我们对非透露优化景观的几何分析表明,任何{\ em strict}本地解决方案靠近地面真相解决方案,可以通过任何二阶序列算法遵循的简单数据驱动初始化恢复。最后,我们用数值实验证实了这些理论结果。
translated by 谷歌翻译
In a mixed generalized linear model, the objective is to learn multiple signals from unlabeled observations: each sample comes from exactly one signal, but it is not known which one. We consider the prototypical problem of estimating two statistically independent signals in a mixed generalized linear model with Gaussian covariates. Spectral methods are a popular class of estimators which output the top two eigenvectors of a suitable data-dependent matrix. However, despite the wide applicability, their design is still obtained via heuristic considerations, and the number of samples $n$ needed to guarantee recovery is super-linear in the signal dimension $d$. In this paper, we develop exact asymptotics on spectral methods in the challenging proportional regime in which $n, d$ grow large and their ratio converges to a finite constant. By doing so, we are able to optimize the design of the spectral method, and combine it with a simple linear estimator, in order to minimize the estimation error. Our characterization exploits a mix of tools from random matrices, free probability and the theory of approximate message passing algorithms. Numerical simulations for mixed linear regression and phase retrieval display the advantage enabled by our analysis over existing designs of spectral methods.
translated by 谷歌翻译
合奏方法(例如随机森林)由于其高预测精度而在应用中很受欢迎。现有文献将随机的森林预测视为无限顺序不完整的U统计量,以量化其不确定性。但是,这些方法集中在每棵树的小次采样大小上,这在理论上是有效但实际上有限的。本文基于不完整的U统计数据,开发了公正的方差估计器,该估计量可以与整体样本量相当,从而使统计推断在更广泛的实际应用中成为可能。仿真结果表明,我们的估计量没有额外的计算成本,估计器的偏见和更准确的覆盖率。我们还提出了一项局部平滑过程,以减少估计器的变化,当树木数量相对较小时,该过程显示出改善的数值性能。此外,我们研究了在特定方案下提出的方差估计器的比率一致性。特别是,我们开发了一种新的“双U统计”公式,以分析估算器差异的HOFFING分解。
translated by 谷歌翻译
当可用时,我们继续研究宠物或SPECT等抛光断层凝视的不确定性量化问题。为了解决上述问题,我们将最近提出的非参数后学习技术适应排放断层扫描中泊松型数据的背景。使用这种方法,我们推出了采样算法,这些算法是微不一性的,可扩展的,非常容易实现。此外,我们证明了在小噪声极限中分布产生的样品的条件一致性和紧密性(即,当采集时间趋于无穷大时)并导出必须使用MRI图像的新几何和必要条件。这种情况自然出现在错过的广义泊松模型的可识别性问题的背景下。我们还将我们的方法与贝叶斯马尔可夫链蒙特卡罗采样进行了鲜明对比,基于一个数据增强方案,这在宠物或SPECT的期望最大化算法中非常流行。我们理论上展示了这些数据增强显着增加了马尔可夫链的混合时间。鉴于此,我们的算法似乎在设计复杂性,可扩展性,数值负荷和不确定性评估之间提供合理的权衡。
translated by 谷歌翻译
素描的Wasserstein距离($ W^S $)是专门针对有限混合物分布的新概率距离。给定概率分布的集合$ \ MATHCAL {a} $定义的任何度量$ d $,$ w^s $定义为该指标的最判别凸扩展为space $ \ mathcal {s} = \ textrm {cons}(\ Mathcal {a})$ \ Mathcal {a} $的元素混合物的$。我们的表示定理表明,以这种方式构建的空间$(\ MATHCAL {S},w^s)$对$ \ MATHCAL {x} =(\ Mathcal {a},d)$的wasserstein空间是同构的。该结果为Wasserstein距离建立了普遍性,表明它们的特征是它们具有有限混合物的判别能力。我们利用此表示定理提出了基于Kantorovich--Rubenstein二元性的估计方法,并证明了一般定理,该定理表明其估计误差可以由任何估计混合物重量和混合物组件的误差的总和来限制。这些数量的估计器。在$ p $二维离散$ k $ -mixtures的情况下,我们得出了估计$ w^s $的尖锐统计属性,我们显示的可以估计的速率与$ \ sqrt {k/n} $,达到对数因素。我们对这些边界进行了互补,以估计$ k $ - 点度量空间上的分布之间的瓦斯汀距离的风险,这与我们的上限与对数因素相匹配。该结果是用于估计离散分布之间的Wasserstein距离的第一个接近最小的下限。此外,我们构造了混合物权重的$ \ sqrt {n} $渐变正常的估计器,并得出了我们$ w^s $的估计器的$ \ sqrt {n} $分布限制。仿真研究和数据分析为新素描的瓦斯汀距离的适用性提供了强有力的支持。
translated by 谷歌翻译
随机奇异值分解(RSVD)是用于计算大型数据矩阵截断的SVD的一类计算算法。给定A $ n \ times n $对称矩阵$ \ mathbf {m} $,原型RSVD算法输出通过计算$ \ mathbf {m mathbf {m} $的$ k $引导singular vectors的近似m}^{g} \ mathbf {g} $;这里$ g \ geq 1 $是一个整数,$ \ mathbf {g} \ in \ mathbb {r}^{n \ times k} $是一个随机的高斯素描矩阵。在本文中,我们研究了一般的“信号加上噪声”框架下的RSVD的统计特性,即,观察到的矩阵$ \ hat {\ mathbf {m}} $被认为是某种真实但未知的加法扰动信号矩阵$ \ mathbf {m} $。我们首先得出$ \ ell_2 $(频谱规范)和$ \ ell_ {2 \ to \ infty} $(最大行行列$ \ ell_2 $ norm)$ \ hat {\ hat {\ Mathbf {M}} $和信号矩阵$ \ Mathbf {M} $的真实单数向量。这些上限取决于信噪比(SNR)和功率迭代$ g $的数量。观察到一个相变现象,其中较小的SNR需要较大的$ g $值以保证$ \ ell_2 $和$ \ ell_ {2 \ to \ fo \ infty} $ distances的收敛。我们还表明,每当噪声矩阵满足一定的痕量生长条件时,这些相变发生的$ g $的阈值都会很清晰。最后,我们得出了近似奇异向量的行波和近似矩阵的进入波动的正常近似。我们通过将RSVD的几乎最佳性能保证在应用于三个统计推断问题的情况下,即社区检测,矩阵完成和主要的组件分析,并使用缺失的数据来说明我们的理论结果。
translated by 谷歌翻译
我们研究了张量张量的回归,其中的目标是将张量的响应与张量协变量与塔克等级参数张量/矩阵连接起来,而没有其内在等级的先验知识。我们提出了Riemannian梯度下降(RGD)和Riemannian Gauss-Newton(RGN)方法,并通过研究等级过度参数化的影响来应对未知等级的挑战。我们通过表明RGD和RGN分别线性地和四边形地收敛到两个等级的统计最佳估计值,从而为一般的张量调节回归提供了第一个收敛保证。我们的理论揭示了一种有趣的现象:Riemannian优化方法自然地适应了过度参数化,而无需修改其实施。我们还为低度多项式框架下的标量调整回归中的统计计算差距提供了第一个严格的证据。我们的理论证明了``统计计算差距的祝福''现象:在张张量的张量回归中,对于三个或更高的张紧器,在张张量的张量回归中,计算所需的样本量与中等级别相匹配的计算量相匹配。在考虑计算可行的估计器时,虽然矩阵设置没有此类好处。这表明中等等级的过度参数化本质上是``在张量调整的样本量三分或更高的样本大小上,三分或更高的样本量。最后,我们进行仿真研究以显示我们提出的方法的优势并证实我们的理论发现。
translated by 谷歌翻译
我们调查与高斯的混合的数据分享共同但未知,潜在虐待协方差矩阵的数据。我们首先考虑具有两个等级大小的组件的高斯混合,并根据最大似然估计导出最大切割整数程序。当样品的数量在维度下线性增长时,我们证明其解决方案实现了最佳的错误分类率,直到对数因子。但是,解决最大切割问题似乎是在计算上棘手的。为了克服这一点,我们开发了一种高效的频谱算法,该算法达到最佳速率,但需要一种二次样本量。虽然这种样本复杂性比最大切割问题更差,但我们猜测没有多项式方法可以更好地执行。此外,我们收集了支持统计计算差距存在的数值和理论证据。最后,我们将MAX-CUT程序概括为$ k $ -means程序,该程序处理多组分混合物的可能性不平等。它享有相似的最优性保证,用于满足运输成本不平等的分布式的混合物,包括高斯和强烈的对数的分布。
translated by 谷歌翻译
This work considers a computationally and statistically efficient parameter estimation method for a wide class of latent variable models-including Gaussian mixture models, hidden Markov models, and latent Dirichlet allocation-which exploits a certain tensor structure in their low-order observable moments (typically, of second-and third-order). Specifically, parameter estimation is reduced to the problem of extracting a certain (orthogonal) decomposition of a symmetric tensor derived from the moments; this decomposition can be viewed as a natural generalization of the singular value decomposition for matrices. Although tensor decompositions are generally intractable to compute, the decomposition of these specially structured tensors can be efficiently obtained by a variety of approaches, including power iterations and maximization approaches (similar to the case of matrices). A detailed analysis of a robust tensor power method is provided, establishing an analogue of Wedin's perturbation theorem for the singular vectors of matrices. This implies a robust and computationally tractable estimation approach for several popular latent variable models.
translated by 谷歌翻译
基本上有三种不确定性量化方法(UQ):(a)强大的优化,(b)贝叶斯,(c)决策理论。尽管(a)坚固,但在准确性和数据同化方面是不利的。 (b)需要先验,通常是脆弱的,后验估计可能很慢。尽管(c)导致对最佳先验的识别,但其近似遭受了维度的诅咒,风险的概念是相对于数据分布的平均值。我们引入了第四种,它是(a),(b),(c)和假设检验之间的杂种。可以总结为在观察样本$ x $之后,(1)通过相对可能性定义了可能性区域,(2)在该区域玩Minmax游戏以定义最佳估计器及其风险。最终的方法具有几种理想的属性(a)测量数据后确定了最佳先验,并且风险概念是后部的,(b)确定最佳估计值,其风险可以降低到计算最小封闭的最小封闭式。利益图量下的可能性区域图像的球(这是快速的,不受维数的诅咒)。该方法的特征在于$ [0,1] $中的参数,该参数是在观察到的数据(相对可能性)的稀有度上被假定的下限。当该参数接近$ 1 $时,该方法会产生一个后分布,该分布集中在最大似然估计的情况下,并具有较低的置信度UQ估计值。当该参数接近$ 0 $时,该方法会产生最大风险后验分布,并具有很高的信心UQ估计值。除了导航准确性不确定性权衡外,该建议的方法还通过导航与数据同化相关的稳健性 - 准确性权衡解决了贝叶斯推断的脆弱性。
translated by 谷歌翻译
Mixtures of regression are a powerful class of models for regression learning with respect to a highly uncertain and heterogeneous response variable of interest. In addition to being a rich predictive model for the response given some covariates, the parameters in this model class provide useful information about the heterogeneity in the data population, which is represented by the conditional distributions for the response given the covariates associated with a number of distinct but latent subpopulations. In this paper, we investigate conditions of strong identifiability, rates of convergence for conditional density and parameter estimation, and the Bayesian posterior contraction behavior arising in finite mixture of regression models, under exact-fitted and over-fitted settings and when the number of components is unknown. This theory is applicable to common choices of link functions and families of conditional distributions employed by practitioners. We provide simulation studies and data illustrations, which shed some light on the parameter learning behavior found in several popular regression mixture models reported in the literature.
translated by 谷歌翻译
本文研究了聚类基质值观测值的计算和统计限制。我们提出了一个低级别的混合模型(LRMM),该模型适用于经典的高斯混合模型(GMM)来处理基质值观测值,该观测值假设人口中心矩阵的低级别。通过集成Lloyd算法和低级近似值设计了一种计算有效的聚类方法。一旦定位良好,该算法将快速收敛并达到最小值最佳的指数型聚类错误率。同时,我们表明一种基于张量的光谱方法可提供良好的初始聚类。与GMM相当,最小值最佳聚类错误率是由分离强度(即种群中心矩阵之间的最小距离)决定的。通过利用低级度,提出的算法对分离强度的要求较弱。但是,与GMM不同,LRMM的统计难度和计算难度的特征是信号强度,即最小的人口中心矩阵的非零奇异值。提供了证据表明,即使信号强度不够强,即使分离强度很强,也没有多项式时间算法是一致的。在高斯以下噪声下进一步证明了我们低级劳埃德算法的性能。讨论了LRMM下估计和聚类之间的有趣差异。通过全面的仿真实验证实了低级劳埃德算法的优点。最后,我们的方法在现实世界数据集的文献中优于其他方法。
translated by 谷歌翻译
变性推理(VI)为基于传统的采样方法提供了一种吸引人的替代方法,用于实施贝叶斯推断,因为其概念性的简单性,统计准确性和计算可扩展性。然而,常见的变分近似方案(例如平均场(MF)近似)需要某些共轭结构以促进有效的计算,这可能会增加不必要的限制对可行的先验分布家族,并对变异近似族对差异进行进一步的限制。在这项工作中,我们开发了一个通用计算框架,用于实施MF-VI VIA WASSERSTEIN梯度流(WGF),这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时,我们将分析基于时间消化的WGF交替最小化方案的算法收敛,用于实现MF近似。特别是,所提出的算法类似于EM算法的分布版本,包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性,以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型,即高斯混合模型和回归模型的混合物。还进行了数值实验,以补充这两个模型下的理论发现。
translated by 谷歌翻译
We study a double robust Bayesian inference procedure on the average treatment effect (ATE) under unconfoundedness. Our Bayesian approach involves a correction term for prior distributions adjusted by the propensity score. We prove asymptotic equivalence of our Bayesian estimator and efficient frequentist estimators by establishing a new semiparametric Bernstein-von Mises theorem under double robustness; i.e., the lack of smoothness of conditional mean functions can be compensated by high regularity of the propensity score and vice versa. Consequently, the resulting Bayesian point estimator internalizes the bias correction as the frequentist-type doubly robust estimator, and the Bayesian credible sets form confidence intervals with asymptotically exact coverage probability. In simulations, we find that this corrected Bayesian procedure leads to significant bias reduction of point estimation and accurate coverage of confidence intervals, especially when the dimensionality of covariates is large relative to the sample size and the underlying functions become complex. We illustrate our method in an application to the National Supported Work Demonstration.
translated by 谷歌翻译
我们认为,从其嘈杂的瞬间信息中,在任何维度上学习$ k $ spike混合物的稀疏力矩问题。我们使用运输距离来测量学习混合物的准确性。先前的算法要么假设某些分离假设,使用更多的恢复力矩,要么在(超级)指数时间内运行。我们针对一维问题的算法(也称为稀疏Hausdorff Moment问题)是经典Prony方法的强大版本,我们的贡献主要在于分析。我们比以前的工作进行了全球和更严格的分析(分析了Prony方法的中间结果的扰动)。有用的技术成分是由Vandermonde矩阵定义的线性系统与Schur多项式之间的连接,这使我们能够提供独立于分离的紧密扰动,并且在其他情况下可能很有用。为了解决高维问题,我们首先通过将1维算法和分析扩展到复数来解决二维问题。我们针对高维情况的算法通过将混合物的1-D投影与随机矢量和一组混合物的一组2D投影来确定每个尖峰的坐标。我们的结果在学习主题模型和高斯混合物中有应用,这意味着改善了样本复杂性结果或在先前的工作中运行时间。
translated by 谷歌翻译