本文研究了主题模型中高维,离散,可能稀疏的混合模型的估计。数据包括在$ n $独立文档中观察到的$ p $单词的多项式计数。在主题模型中,$ p \ times n $预期的单词频率矩阵被认为被分解为$ p \ times k $ word-top-topic矩阵$ a $ a $和a $ k \ times n $ topic-document $ t $ t $ 。由于两个矩阵的列代表属于概率简单的条件概率,因此$ a $的列被视为$ p $ - 二维混合组件,这些混合组件是所有文档共有的,而$ t $的列被视为$ k $二维的混合物特定文档并允许稀疏的权重。主要的兴趣是提供鲜明的,有限的样本,$ \ ell_1 $ norm收敛速率,用于混合物重量$ t $的估计量,当$ a $是已知或未知时。对于已知的$ a $,我们建议MLE估计为$ t $。我们对MLE的非标准分析不仅建立了其$ \ ell_1 $收敛率,而且揭示了一个非凡的属性:MLE,没有额外的正则化,可能完全稀疏,并且包含$ t $的真实零模式。我们进一步表明,MLE既是最佳的最佳选择,又适应了一大批稀疏主题分布中未知的稀疏性。当$ a $未知时,我们通过优化与$ a $ a $的插件的可能性功能来估计$ t $。对于任何满足与$ a $ $ a $的详细条件的估计器$ \ hat {a} $,显示出$ t $的估计器可保留为MLE建立的属性。环境尺寸$ k $和$ p $可以随着样本量而增长。我们的应用是对文档生成分布之间1-Wasserstein距离的估计。我们建议,估计和分析两个概率文档表示之间的新1-Wasserstein距离。
translated by 谷歌翻译
素描的Wasserstein距离($ W^S $)是专门针对有限混合物分布的新概率距离。给定概率分布的集合$ \ MATHCAL {a} $定义的任何度量$ d $,$ w^s $定义为该指标的最判别凸扩展为space $ \ mathcal {s} = \ textrm {cons}(\ Mathcal {a})$ \ Mathcal {a} $的元素混合物的$。我们的表示定理表明,以这种方式构建的空间$(\ MATHCAL {S},w^s)$对$ \ MATHCAL {x} =(\ Mathcal {a},d)$的wasserstein空间是同构的。该结果为Wasserstein距离建立了普遍性,表明它们的特征是它们具有有限混合物的判别能力。我们利用此表示定理提出了基于Kantorovich--Rubenstein二元性的估计方法,并证明了一般定理,该定理表明其估计误差可以由任何估计混合物重量和混合物组件的误差的总和来限制。这些数量的估计器。在$ p $二维离散$ k $ -mixtures的情况下,我们得出了估计$ w^s $的尖锐统计属性,我们显示的可以估计的速率与$ \ sqrt {k/n} $,达到对数因素。我们对这些边界进行了互补,以估计$ k $ - 点度量空间上的分布之间的瓦斯汀距离的风险,这与我们的上限与对数因素相匹配。该结果是用于估计离散分布之间的Wasserstein距离的第一个接近最小的下限。此外,我们构造了混合物权重的$ \ sqrt {n} $渐变正常的估计器,并得出了我们$ w^s $的估计器的$ \ sqrt {n} $分布限制。仿真研究和数据分析为新素描的瓦斯汀距离的适用性提供了强有力的支持。
translated by 谷歌翻译
在因果推理和强盗文献中,基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序,然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限:这些边界表明,为了获得非反应性最佳程序,应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序,并通过匹配非轴突局部局部最小值下限,在有限样品中建立了实例依赖性最优性。这些结果表明,除了取决于渐近效率方差之外,最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。
translated by 谷歌翻译
我们调查与高斯的混合的数据分享共同但未知,潜在虐待协方差矩阵的数据。我们首先考虑具有两个等级大小的组件的高斯混合,并根据最大似然估计导出最大切割整数程序。当样品的数量在维度下线性增长时,我们证明其解决方案实现了最佳的错误分类率,直到对数因子。但是,解决最大切割问题似乎是在计算上棘手的。为了克服这一点,我们开发了一种高效的频谱算法,该算法达到最佳速率,但需要一种二次样本量。虽然这种样本复杂性比最大切割问题更差,但我们猜测没有多项式方法可以更好地执行。此外,我们收集了支持统计计算差距存在的数值和理论证据。最后,我们将MAX-CUT程序概括为$ k $ -means程序,该程序处理多组分混合物的可能性不平等。它享有相似的最优性保证,用于满足运输成本不平等的分布式的混合物,包括高斯和强烈的对数的分布。
translated by 谷歌翻译
套索是一种高维回归的方法,当时,当协变量$ p $的订单数量或大于观测值$ n $时,通常使用它。由于两个基本原因,经典的渐近态性理论不适用于该模型:$(1)$正规风险是非平滑的; $(2)$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果,标准的扰动论点是渐近正态性的传统基础。另一方面,套索估计器可以精确地以$ n $和$ p $大,$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量:在这里,我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限,它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序,我们研究了借助拉索的分布,并表明需要校正程度对于计算有效的置信区间是必要的。
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
主题模型为学习,提取和发现大型文本语料库中的潜在结构提供了有用的文本挖掘工具。尽管已经为主题建模提出了大量方法,但文献缺乏是对潜在主题估计的统计识别性和准确性的正式理论研究。在本文中,我们提出了一个基于特定的集成可能性的潜在主题的最大似然估计量(MLE),该主题自然地与该概念相连,在计算几何学中,体积最小化。我们的理论介绍了主题模型可识别性的一组新几何条件,这些条件比常规的可分离性条件弱,这些条件通常依赖于纯主题文档或锚定词的存在。较弱的条件允许更广泛的调查,因此可能会更加富有成果的研究。我们对拟议的估计器进行有限样本误差分析,并讨论我们的结果与先前研究的结果之间的联系。我们以使用模拟和真实数据集的实证研究结论。
translated by 谷歌翻译
近似消息传递(AMP)是解决高维统计问题的有效迭代范式。但是,当迭代次数超过$ o \ big(\ frac {\ log n} {\ log log \ log \ log n} \时big)$(带有$ n $问题维度)。为了解决这一不足,本文开发了一个非吸附框架,用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项,我们布置了一个分析配方,以表征在存在独立初始化的情况下AMP的有限样本行为,该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果:(i)求解$ \ mathbb {z} _2 $同步时,我们预测了频谱初始化AMP的行为,最高为$ o \ big(\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big)$迭代,表明该算法成功而无需随后的细化阶段(如最近由\ citet {celentano2021local}推测); (ii)我们表征了稀疏PCA中AMP的非反应性行为(在尖刺的Wigner模型中),以广泛的信噪比。
translated by 谷歌翻译
由于在数据稀缺的设置中,交叉验证的性能不佳,我们提出了一个新颖的估计器,以估计数据驱动的优化策略的样本外部性能。我们的方法利用优化问题的灵敏度分析来估计梯度关于数据中噪声量的最佳客观值,并利用估计的梯度将策略的样本中的表现为依据。与交叉验证技术不同,我们的方法避免了为测试集牺牲数据,在训练和因此非常适合数据稀缺的设置时使用所有数据。我们证明了我们估计量的偏见和方差范围,这些问题与不确定的线性目标优化问题,但已知的,可能是非凸的,可行的区域。对于更专业的优化问题,从某种意义上说,可行区域“弱耦合”,我们证明结果更强。具体而言,我们在估算器的错误上提供明确的高概率界限,该估计器在策略类别上均匀地保持,并取决于问题的维度和策略类的复杂性。我们的边界表明,在轻度条件下,随着优化问题的尺寸的增长,我们的估计器的误差也会消失,即使可用数据的量仍然很小且恒定。说不同的是,我们证明我们的估计量在小型数据中的大规模政权中表现良好。最后,我们通过数值将我们提出的方法与最先进的方法进行比较,通过使用真实数据调度紧急医疗响应服务的案例研究。我们的方法提供了更准确的样本外部性能估计,并学习了表现更好的政策。
translated by 谷歌翻译
本文为信号去噪提供了一般交叉验证框架。然后将一般框架应用于非参数回归方法,例如趋势过滤和二元推车。然后显示所得到的交叉验证版本以获得最佳调谐的类似物所熟知的几乎相同的收敛速度。没有任何先前的趋势过滤或二元推车的理论分析。为了说明框架的一般性,我们还提出并研究了两个基本估算器的交叉验证版本;套索用于高维线性回归和矩阵估计的奇异值阈值阈值。我们的一般框架是由Chatterjee和Jafarov(2015)的想法的启发,并且可能适用于使用调整参数的广泛估算方法。
translated by 谷歌翻译
Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.
translated by 谷歌翻译
我们重新审视有限混合模型中最大似然估计量(MLE)的收敛速率的经典问题。 Wasserstein距离已成为分析这些模型参数估计的标准损耗函数,部分原因是其绕过标签切换的能力并准确地表征了具有消失权重的拟合混合物组件的行为。但是,Wasserstein距离只能捕获其余拟合混合物组件中最坏的案例收敛速率。我们证明,当对数似然函数受到惩罚以阻止消失的混合权重时,可以得出更强大的损失函数以解决Wasserstein距离的这种缺点。这些新的损失功能准确地捕获了拟合混合物组件的收敛速率的异质性,并且我们使用它们在各种混合模型中使用它们来锐化现有的侧重和均匀收敛速率。特别是,这些结果表明,受惩罚MLE的组成部分的子集通常比过去的工作预期的要快得多。我们进一步表明,其中一些结论扩展到了传统的MLE。我们的理论发现得到了一项模拟研究的支持,以说明这些改善的收敛速率。
translated by 谷歌翻译
This work considers a computationally and statistically efficient parameter estimation method for a wide class of latent variable models-including Gaussian mixture models, hidden Markov models, and latent Dirichlet allocation-which exploits a certain tensor structure in their low-order observable moments (typically, of second-and third-order). Specifically, parameter estimation is reduced to the problem of extracting a certain (orthogonal) decomposition of a symmetric tensor derived from the moments; this decomposition can be viewed as a natural generalization of the singular value decomposition for matrices. Although tensor decompositions are generally intractable to compute, the decomposition of these specially structured tensors can be efficiently obtained by a variety of approaches, including power iterations and maximization approaches (similar to the case of matrices). A detailed analysis of a robust tensor power method is provided, establishing an analogue of Wedin's perturbation theorem for the singular vectors of matrices. This implies a robust and computationally tractable estimation approach for several popular latent variable models.
translated by 谷歌翻译
随机奇异值分解(RSVD)是用于计算大型数据矩阵截断的SVD的一类计算算法。给定A $ n \ times n $对称矩阵$ \ mathbf {m} $,原型RSVD算法输出通过计算$ \ mathbf {m mathbf {m} $的$ k $引导singular vectors的近似m}^{g} \ mathbf {g} $;这里$ g \ geq 1 $是一个整数,$ \ mathbf {g} \ in \ mathbb {r}^{n \ times k} $是一个随机的高斯素描矩阵。在本文中,我们研究了一般的“信号加上噪声”框架下的RSVD的统计特性,即,观察到的矩阵$ \ hat {\ mathbf {m}} $被认为是某种真实但未知的加法扰动信号矩阵$ \ mathbf {m} $。我们首先得出$ \ ell_2 $(频谱规范)和$ \ ell_ {2 \ to \ infty} $(最大行行列$ \ ell_2 $ norm)$ \ hat {\ hat {\ Mathbf {M}} $和信号矩阵$ \ Mathbf {M} $的真实单数向量。这些上限取决于信噪比(SNR)和功率迭代$ g $的数量。观察到一个相变现象,其中较小的SNR需要较大的$ g $值以保证$ \ ell_2 $和$ \ ell_ {2 \ to \ fo \ infty} $ distances的收敛。我们还表明,每当噪声矩阵满足一定的痕量生长条件时,这些相变发生的$ g $的阈值都会很清晰。最后,我们得出了近似奇异向量的行波和近似矩阵的进入波动的正常近似。我们通过将RSVD的几乎最佳性能保证在应用于三个统计推断问题的情况下,即社区检测,矩阵完成和主要的组件分析,并使用缺失的数据来说明我们的理论结果。
translated by 谷歌翻译
我们研究了情节块MDP中模型估计和无奖励学习的问题。在这些MDP中,决策者可以访问少数潜在状态产生的丰富观察或上下文。我们首先对基于固定行为策略生成的数据估算潜在状态解码功能(从观测到潜在状态的映射)感兴趣。我们在估计此功能的错误率上得出了信息理论的下限,并提出了接近此基本限制的算法。反过来,我们的算法还提供了MDP的所有组件的估计值。然后,我们研究在无奖励框架中学习近乎最佳政策的问题。根据我们有效的模型估计算法,我们表明我们可以以最佳的速度推断出策略(随着收集样品的数量增长大)的最佳策略。有趣的是,我们的分析提供了必要和充分的条件,在这些条件下,利用块结构可以改善样本复杂性,以识别近乎最佳的策略。当满足这些条件时,Minimax无奖励设置中的样本复杂性将通过乘法因子$ n $提高,其中$ n $是可能的上下文数量。
translated by 谷歌翻译
Bradley-terry-luce(BTL)模型是一种流行的统计方法,用于使用成对比较估算项目集合的全局排名。为了确保准确的排名,必须在$ \ ell _ {\ infty} $损失中获得模型参数的精确估计。该任务的难度取决于给定项目对成对比较图的拓扑。但是,除了很少有良好的情况外,例如完整和ERD \“ OS-r \'enyi比较图,对$ \ ell_中BTL模型参数的最大似然估计量mLE的性能鲜为人知。 {\ infty} $ - 在更通用的图形拓扑下的损失。在本文中,我们在$ \ ell _ {\ infty} $估计错误的btl mLE估计误差上得出了小说的一般上限,该错误明确取决于比较的代数连接性图,跨项目和样本复杂性的最大性能差距。我们证明,与使用不同的损失函数以及更受限制的假设和图形拓扑获得的已知结果相比,派生的界限性能很好,并且在某些情况下相比更为敏锐。我们将结果仔细比较我们的结果与我们的结果进行比较。 Yan等人(2012年),它在精神上最接近我们的工作。我们进一步提供了$ \ ell _ {\ infty} $下的最小值下限 - 错误几乎与一类足够常规的图形拓扑相匹配。最后。 ,我们St udy,我们的$ \ ell _ {\ infty} $的含义是高效(离线)锦标赛设计的界限。我们通过各种示例和模拟来说明和讨论我们的发现。
translated by 谷歌翻译
我们研究了称为“乐观速率”(Panchenko 2002; Srebro等,2010)的统一收敛概念,用于与高斯数据的线性回归。我们的精致分析避免了现有结果中的隐藏常量和对数因子,这已知在高维设置中至关重要,特别是用于了解插值学习。作为一个特殊情况,我们的分析恢复了Koehler等人的保证。(2021年),在良性过度的过度条件下,严格地表征了低规范内插器的人口风险。但是,我们的乐观速度绑定还分析了具有任意训练错误的预测因子。这使我们能够在随机设计下恢复脊和套索回归的一些经典统计保障,并有助于我们在过度参数化制度中获得精确了解近端器的过度风险。
translated by 谷歌翻译
假设我们在$ \ mathbb {r} ^ d $和predictor x中的响应变量y在$ \ mathbb {r} ^ d $,以便为$ d \ geq 1 $。在置换或未解释的回归中,我们可以访问x和y上的单独无序数据,而不是在通常回归中的(x,y)-pabes上的数据。到目前为止,在文献中,案件$ d = 1 $已收到关注,请参阅例如近期的纸张和杂草[信息和推理,8,619--717]和Balabdaoui等人。 [J.马赫。学习。 res,22(172),1-60]。在本文中,我们考虑使用$ d \ geq 1 $的一般多变量设置。我们表明回归函数的周期性单调性的概念足以用于置换/未解释的回归模型中的识别和估计。我们在允许的回归设置中研究置换恢复,并在基于Kiefer-WolfoItz的基于代索的计算高效且易用算法[ANN。数学。统计部。,27,887--906]非参数最大似然估计和来自最佳运输理论的技术。我们在高斯噪声的相关均方方向误差误差上提供显式上限。与之前的案件的工作$ d = 1 $一样,置换/未解释的设置涉及潜在的解卷积问题的慢速(对数)收敛率。数值研究证实了我们的理论分析,并表明所提出的方法至少根据上述事先工作中的方法进行了比例,同时在计算复杂性方面取得了大量减少。
translated by 谷歌翻译
在稀疏线性建模 - 最佳子集选择中,研究了一个看似意外的,相对不太理解的基本工具的过度选择,这最小化了对非零系数的约束的限制的剩余平方和。虽然当信噪比(SNR)高时,最佳子集选择过程通常被视为稀疏学习中的“黄金标准”,但是当SNR低时,其预测性能会恶化。特别是,它通过连续收缩方法而言,例如脊回归和套索。我们研究了高噪声制度中最佳子集选择的行为,并提出了一种基于最小二乘标准的正则化版本的替代方法。我们提出的估算员(a)在很大程度上减轻了高噪声制度的最佳次集选择的可预测性能差。 (b)相对于通过脊回归和套索的最佳预测模型,通常递送大幅稀疏模型的同时表现出有利的。我们对所提出的方法的预测性质进行广泛的理论分析,并在噪声水平高时提供相对于最佳子集选择的优越预测性能的理由。我们的估算器可以表达为混合整数二阶圆锥优化问题的解决方案,因此,来自数学优化的现代计算工具可供使用。
translated by 谷歌翻译
我们研究了随机近似程序,以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后,我们证明了一种在适当平均迭代序列上的非渐近实例依赖性,具有匹配局部渐近最小的限制的领先术语,包括对参数$的敏锐依赖(d,t _ {\ mathrm {mix}}) $以高阶术语。我们将这些上限与非渐近Minimax的下限补充,该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD($ \ lambda $)算法,以便[0,1)$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门(例如,在运行TD($ \ Lambda $)算法时选择$ \ lambda $的值)。
translated by 谷歌翻译