稀疏PCA是一种广泛用于高维数据分析的技术。在本文中,我们提出了一种称为低秩主要特征矩阵分析的新方法。与稀疏PCA不同,主要特征向量被允许密集,但是当被适当地指定时被假设具有低秩结构。这种结构在几种实际情况中自然产生:实际上,当适当地指定时,循环矩阵的顶部特征向量是秩-1矩阵。我们提出了一种可以有效实现并确定其计算和统计特性的基质排序截断功率方法。对几种合成数据集的广泛实验证明了我们方法的竞争性经验表现。
translated by 谷歌翻译
Deep learning has arguably achieved tremendous success in recent years. In simple words, deep learning uses the composition of many nonlinear functions to model the complex dependency between input features and labels. While neural networks have a long history, recent advances have greatly improved their performance in computer vision, natural language processing, etc. From the statistical and scientific perspective, it is natural to ask: What is deep learning? What are the new characteristics of deep learning, compared with classical methods? What are the theoretical foundations of deep learning? To answer these questions, we introduce common neural network models (e.g., convolutional neural nets, recurrent neural nets, generative adversarial nets) and training techniques (e.g., stochastic gradient descent, dropout, batch normalization) from a statistical point of view. Along the way, we highlight new characteristics of deep learning (including depth and over-parametrization) and explain their practical and theoretical benefits. We also sample recent results on theories of deep learning, many of which are only suggestive. While a complete understanding of deep learning remains elusive, we hope that our perspectives and discussions serve as a stimulus for new statistical research.
translated by 谷歌翻译
本文关注光谱估计中的奇怪现象。假设我们感兴趣的是秩1和对称矩阵$ \ boldsymbol {M} ^ {\ star} \ in \ mathbb {R} ^ {n \ times n} $ ,但只观察到随机扰动的版本$ \ boldsymbol {M} $。扰动\,/ \,noisematrix $ \ boldsymbol {M} - \ boldsymbol {M} ^ {\ star} $由独立的和零均值条目组成,不是对称的。例如,当我们为$ \ boldsymbol {M} ^ {\ star} $的每个条目分配两个独立样本并将它们排列成{\ em不对称}数据矩阵$ \ boldsymbol {M} $时,可能会出现这种情况。目的是估计$ \ boldsymbol {M} ^ {\ star} $的主要特征值和特征向量。出乎意料的是,我们的研究结果表明,数据矩阵$ \ boldsymbol {M} $的主要特征值可以是$ \ sqrt {n比特征值估计中的引导奇异值更精确$倍。此外,$ \ boldsymbol {M} $(例如〜entrywiseeigenvector perturbation)的前导特征向量的任何线性形式的扰动可证明是良好控制的。我们进一步为更一般的rank-$ r $案例提供了部分理论;这允许我们通过考虑相关的秩-2扩张矩阵的特征分解来解决当$ \ boldsymbol {M} ^ {\ star} $是秩-1但不对称时的情况。接收消息是这样的:以非对称方式排列数据样本并且执行特征分解(与SVD相反)有时可能是非常有益的。
translated by 谷歌翻译
我们研究了高维异构数据分析中统计精度和计算易处理性之间的基本权衡。作为例子,我们研究了稀疏高斯混合模型,sparselinear回归的混合和稀疏相位检索模型。对于这些模型,我们开发基于oracle的计算模型,以建立无猜想计算可行的极小极大下界,从而量化任何算法存在所需的最小信号强度,该算法既易于计算,又具有统计精确性。我们的分析表明,计算上可行的极小极大风险与经典风险之间存在显着差距。这些差距量化了我们必须支付的统计价格,以便在存在数据异质性的情况下实现计算易处理性。我们的结果涵盖了检测,估计,支持恢复和聚类的问题,而且解决了Azizyan等人的几个猜想。 (2013,2015); Verzelen和Arias-Castro(2017年);蔡等人。 (2016)。有趣的是,我们的结果揭示了异构数据分析中一种新的反直觉现象,即更多数据可能导致更少的计算复杂性。
translated by 谷歌翻译
因子模型是一类强大的统计模型,广泛用于处理从基因组学和神经科学到经济学和金融学的各种应用中经常出现的依赖性测量。随着数据的收集规模不断扩大,统计机器学习面临一些新的挑战:高维度,观察变量之间的强依赖性,重尾变量和异质性。高维鲁棒因子分析是一个强大的工具包,可以克服这些挑战。本文对高维因子模型及其在统计学中的应用进行了选择性概述,包括因子调整的轮回模型选择(FarmSelect)和因子调整的鲁棒多重检验(FarmTest)。我们表明,经典方法,特别是主成分分析(PCA),可以适应许多新问题,并提供强大的统计估计和推理工具。我们强调PCA及其与矩阵扰动理论,稳健统计,随机投影,失败发现率等的联系,并通过几个应用说明这些领域的见解如何为现代挑战提供解决方案。我们还提出了因子模型和流行的统计学习问题之间的远距离联系,包括网络分析和低秩矩阵恢复。
translated by 谷歌翻译
受高维大数据集中常见的抽样问题和异质性问题的影响,我们考虑了一类不一致的附加指数模型。我们提出了基于矩的方法,用于在低维和高维设置中估计这种不一致的附加指数模型的指示。我们的估算器基于对某些矩量张量进行分解,并且也适用于过完备设置,其中索引的数量大于数据集的维数。此外,我们在高维和低维设置中提供估算器的收敛速度。建立这样的结果需要得出可能具有独立意义的张量运算符范数集中不等式。最后,我们提供支持我们理论的模拟结果。除了在理解这种张量方法的理论性质方面取得进展之外,我们的贡献还包括新模型的张量方法的适用性。
translated by 谷歌翻译
This paper considers the problem of solving systems of quadratic equations, namely, recovering an object of interest x ∈ R n from m quadratic equations / samples yi = (a i x) 2 , 1 ≤ i ≤ m. This problem, also dubbed as phase retrieval, spans multiple domains including physical sciences and machine learning. We investigate the efficacy of gradient descent (or Wirtinger flow) designed for the nonconvex least squares problem. We prove that under Gaussian designs, gradient descent-when randomly initialized-yields an-accurate solution in O log n + log(1//) iterations given nearly minimal samples, thus achieving near-optimal computational and sample complexities at once. This provides the first global convergence guarantee concerning vanilla gradient descent for phase retrieval, without the need of (i) carefully-designed initialization, (ii) sample splitting, or (iii) sophisticated saddle-point escaping schemes. All of these are achieved by exploiting the statistical models in analyzing optimization algorithms, via a leave-one-out approach that enables the decoupling of certain statistical dependency between the gradient descent iterates and the data.
translated by 谷歌翻译
本文关注的是成对比较中top-$ K $排名的问题。给定$ n $项目的集合以及它们之间的几个成对比较,人们希望识别接收最高等级的$ K $项目集合。为了解决这个问题,我们采用了逻辑参数模型--- Bradley-Terry-Luce模型,其中每个项目都被赋予了一个潜在偏好分数,并且每个成对比较的结果仅取决于所涉及的两个项目的相对分数。最近的工作在表征几种经典方法(包括谱方法和最大似然估计量(MLE))的性能(例如,估计得分的均方误差)方面取得了显着进展。然而,他们关于最高$ K $排名的立场仍未解决。我们证明,在自然随机抽样模型下,单独的光谱方法,或单独的正则化MLE,就样本复杂性而言是最小极大的 - 确保精确的$ K $识别所需的配对比较的数量,对于固定的动态范围制度。这是通过对得分估计的入门误差进行最优控制来完成的。我们通过数值实验补充了我们的理论研究,证实了这两种方法产生的低入门误差用于估计潜在得分。我们的理论是通过一种新颖的留一法手来建立的,这对于分析迭代和非迭代过程都是有效的。在此过程中,我们推导出概率转移矩阵的基本特征向量扰动界,它与Davis-Kahan $ \ sin \ Theta $定理forsymmetric矩阵相似。这也允许我们缩小频谱方法的$ \ ell_2 $误差上限和极小极大下限之间的差距。
translated by 谷歌翻译
Measuring conditional dependence is an important topic in econometrics with broad applications including graphical models. Under a factor model setting, a new conditional dependence measure based on projection is proposed. The corresponding conditional independence test is developed with the asymptotic null distribution unveiled where the number of factors could be high-dimensional. It is also shown that the new test has control over the asymptotic type I error and can be calculated efficiently. A generic method for building dependency graphs without Gaussian assumption using the new test is elaborated. Numerical results and real data analysis show the superiority of the new method. JEL classification: C13; C14
translated by 谷歌翻译
在本文中,我们提出了一个新的实体关系提取任务范例。我们将任务转换为多回合问题回答问题,即,实体和关系的提取被转换为从上下文识别答案跨度的任务。这种多转QA形式化有几个关键优势:首先,问题查询编码我们想要识别的实体/关系类的重要信息;其次,QA提供了一种自然的方式来联合建模实体和关系;第三,它允许我们利用完善的机器阅读理解(MRC)模型。在ACE和CoNLL04公司的实验表明,所提出的范例明显优于以前的最佳模型。我们能够获得所有ACE04,ACE05和CoNLL04数据集的最新结果,增加了三个数据集的SOTA结果49.6(+1.2),60.3(+0.7)和69.2(+1.4) , 分别。此外,我们构建了一个新开发的数据集RESUME,它需要多步推理来构造实体依赖关系,而不是先前数据集中三元组提取中的单步依赖提取。提出的多转QA模型也在RESUME数据集上实现了最佳性能。
translated by 谷歌翻译