在本说明中,我们调查我们如何从少量其条目重建大矩阵的最佳排名 - $ rysimation。我们表明即使数据矩阵是完整等级并且不能通过低秩矩阵近似近似的数据矩阵,其最佳低秩近似可能仍然可以从少量其条目中可靠地计算或估计其最佳的低秩近似。与统计观点特别相关:数据矩阵的最佳低秩近似通常比自身更具感兴趣,因为它们捕获更稳定的数据生成模型的更加稳定和多个可再现特性。特别是,我们调查了两种不可知论者方法:第一个基于光谱截断;第二个是投影梯度基于下降的优化过程。我们认为,虽然第一种方法是直观且合理有效的,但后者通常具有较高的性能。我们表明错误取决于矩阵对低等级的关闭程度。提出了理论和数值证据,以证明所提出的方法的有效性。
translated by 谷歌翻译
We consider a problem of considerable practical interest: the recovery of a data matrix from a sampling of its entries. Suppose that we observe m entries selected uniformly at random from a matrix M . Can we complete the matrix and recover the entries that we have not seen?We show that one can perfectly recover most low-rank matrices from what appears to be an incomplete set of entries. We prove that if the number m of sampled entries obeys m ≥ C n 1.2 r log n for some positive numerical constant C, then with very high probability, most n × n matrices of rank r can be perfectly recovered by solving a simple convex optimization program. This program finds the matrix with minimum nuclear norm that fits the data. The condition above assumes that the rank is not too large. However, if one replaces the 1.2 exponent with 1.25, then the result holds for all values of the rank. Similar results hold for arbitrary rectangular matrices as well. Our results are connected with the recent literature on compressed sensing, and show that objects other than signals and images can be perfectly reconstructed from very limited information.
translated by 谷歌翻译
随机奇异值分解(RSVD)是用于计算大型数据矩阵截断的SVD的一类计算算法。给定A $ n \ times n $对称矩阵$ \ mathbf {m} $,原型RSVD算法输出通过计算$ \ mathbf {m mathbf {m} $的$ k $引导singular vectors的近似m}^{g} \ mathbf {g} $;这里$ g \ geq 1 $是一个整数,$ \ mathbf {g} \ in \ mathbb {r}^{n \ times k} $是一个随机的高斯素描矩阵。在本文中,我们研究了一般的“信号加上噪声”框架下的RSVD的统计特性,即,观察到的矩阵$ \ hat {\ mathbf {m}} $被认为是某种真实但未知的加法扰动信号矩阵$ \ mathbf {m} $。我们首先得出$ \ ell_2 $(频谱规范)和$ \ ell_ {2 \ to \ infty} $(最大行行列$ \ ell_2 $ norm)$ \ hat {\ hat {\ Mathbf {M}} $和信号矩阵$ \ Mathbf {M} $的真实单数向量。这些上限取决于信噪比(SNR)和功率迭代$ g $的数量。观察到一个相变现象,其中较小的SNR需要较大的$ g $值以保证$ \ ell_2 $和$ \ ell_ {2 \ to \ fo \ infty} $ distances的收敛。我们还表明,每当噪声矩阵满足一定的痕量生长条件时,这些相变发生的$ g $的阈值都会很清晰。最后,我们得出了近似奇异向量的行波和近似矩阵的进入波动的正常近似。我们通过将RSVD的几乎最佳性能保证在应用于三个统计推断问题的情况下,即社区检测,矩阵完成和主要的组件分析,并使用缺失的数据来说明我们的理论结果。
translated by 谷歌翻译
This paper is about a curious phenomenon. Suppose we have a data matrix, which is the superposition of a low-rank component and a sparse component. Can we recover each component individually? We prove that under some suitable assumptions, it is possible to recover both the low-rank and the sparse components exactly by solving a very convenient convex program called Principal Component Pursuit; among all feasible decompositions, simply minimize a weighted combination of the nuclear norm and of the 1 norm. This suggests the possibility of a principled approach to robust principal component analysis since our methodology and results assert that one can recover the principal components of a data matrix even though a positive fraction of its entries are arbitrarily corrupted. This extends to the situation where a fraction of the entries are missing as well. We discuss an algorithm for solving this optimization problem, and present applications in the area of video surveillance, where our methodology allows for the detection of objects in a cluttered background, and in the area of face recognition, where it offers a principled way of removing shadows and specularities in images of faces.
translated by 谷歌翻译
本文研究了在存在重尾且可能是不对称噪声的情况下,低级矩阵的完成,我们旨在估计一组高度不完整的噪声条目,以估算一个基础的低级矩阵。尽管在过去的十年中,矩阵的完成问题吸引了很多关注,但是当观察结果被重尾噪音污染时,仍然缺乏理论上的理解。先前的理论缺乏解释经验结果,无法捕获估计误差对噪声水平的最佳依赖性。在本文中,我们采用自适应的Huber损失来容纳重尾噪声,当损失函数中的参数经过精心设计以平衡异常值的大偏差和稳健性时,这是对大型且可能不对称的误差的鲁棒性。然后,我们通过平衡的低级数burer-monteiro矩阵分解和梯度不错,并具有稳健的光谱初始化,提出了有效的非凸算法。我们证明,在仅在误差分布上的第二刻条件下,而不是次高斯的假设下,由提议的算法生成的迭代元素的欧几里得误差会快速减少几何,直到达到最小值 - 最佳统计估计误差,这具有相同的相同在次级案件中订购。这一重大进步背后的关键技术是一个强大的一对一分析框架。我们的模拟研究证实了理论结果。
translated by 谷歌翻译
低秩矩阵恢复的现有结果在很大程度上专注于二次损失,这享有有利的性质,例如限制强的强凸/平滑度(RSC / RSM)以及在所有低等级矩阵上的良好调节。然而,许多有趣的问题涉及更一般,非二次损失,这不满足这些属性。对于这些问题,标准的非耦合方法,例如秩约为秩约为预定的梯度下降(A.K.A.迭代硬阈值)和毛刺蒙特罗分解可能具有差的经验性能,并且没有令人满意的理论保证了这些算法的全球和快速收敛。在本文中,我们表明,具有非二次损失的可证实低级恢复中的关键组成部分是规律性投影oracle。该Oracle限制在适当的界限集中迭代到低级矩阵,损耗功能在其上表现良好并且满足一组近似RSC / RSM条件。因此,我们分析配备有这样的甲骨文的(平均)投影的梯度方法,并证明它在全球和线性地收敛。我们的结果适用于广泛的非二次低级估计问题,包括一个比特矩阵感测/完成,个性化排名聚集,以及具有等级约束的更广泛的广义线性模型。
translated by 谷歌翻译
在本文中,我们提出了一种均匀抖动的一位量化方案,以进行高维统计估计。该方案包含截断,抖动和量化,作为典型步骤。作为规范示例,量化方案应用于三个估计问题:稀疏协方差矩阵估计,稀疏线性回归和矩阵完成。我们研究了高斯和重尾政权,假定重尾数据的基本分布具有有限的第二或第四刻。对于每个模型,我们根据一位量化的数据提出新的估计器。在高斯次级政权中,我们的估计器达到了对数因素的最佳最小速率,这表明我们的量化方案几乎没有额外的成本。在重尾状态下,虽然我们的估计量基本上变慢,但这些结果是在这种单位量化和重型尾部设置中的第一个结果,或者比现有可比结果表现出显着改善。此外,我们为一位压缩传感和一位矩阵完成的问题做出了巨大贡献。具体而言,我们通过凸面编程将一位压缩感传感扩展到次高斯甚至是重尾传感向量。对于一位矩阵完成,我们的方法与标准似然方法基本不同,并且可以处理具有未知分布的预量化随机噪声。提出了有关合成数据的实验结果,以支持我们的理论分析。
translated by 谷歌翻译
我们研究了自然非凸形公式下的不对称矩阵分解问题,并具有任意的过多参数化。考虑了无模型设置,对观察到的矩阵的秩或单数值的假设最小,在该矩阵的秩或奇异值中,全局最优值证明过度拟合。我们表明,带有小随机初始化的香草梯度下降顺序恢复了观察到的矩阵的主要成分。因此,当配备适当的早期停止时,梯度下降会产生观察到的矩阵的最佳低级别近似,而无需显式正则化。我们提供了近似误差,迭代复杂性,初始化大小和步骤大小之间关系的尖锐表征。我们的复杂性界限几乎不含尺寸,并取决于对数近似误差,与先前的工作相比,对步骤和初始化的宽大要求明显更大。我们的理论结果为行为梯度下降提供了准确的预测,显示了与数值实验的良好一致性。
translated by 谷歌翻译
近似消息传递(AMP)是解决高维统计问题的有效迭代范式。但是,当迭代次数超过$ o \ big(\ frac {\ log n} {\ log log \ log \ log n} \时big)$(带有$ n $问题维度)。为了解决这一不足,本文开发了一个非吸附框架,用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项,我们布置了一个分析配方,以表征在存在独立初始化的情况下AMP的有限样本行为,该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果:(i)求解$ \ mathbb {z} _2 $同步时,我们预测了频谱初始化AMP的行为,最高为$ o \ big(\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big)$迭代,表明该算法成功而无需随后的细化阶段(如最近由\ citet {celentano2021local}推测); (ii)我们表征了稀疏PCA中AMP的非反应性行为(在尖刺的Wigner模型中),以广泛的信噪比。
translated by 谷歌翻译
在本文中,我们研究了经验$ \ ell_2 $最小化(erm)的估计性能(标准)阶段检索(NPR),由$ y_k = | \ alpha_k^*x_0 |^2+\ eta_k $,或嘈杂的广义阶段检索(NGPR)以$ y_k = x_0^*a_kx_0 + \ eta_k $,其中$ x_0 \ in \ mathbb {k}^d $是所需的信号,$ n $是样本大小,$ \ eta =(\ eta_1,...,\ eta_n)^\ top $是噪声向量。我们在不同的噪声模式下建立了新的错误界限,我们的证明对$ \ mathbb {k} = \ mathbb {r} $和$ \ mathbb {k} = \ mathbb {c} $有效。在任意噪声向量$ \ eta $下的NPR中,我们得出了一个新的错误$ o \ big(\ | \ eta \ | _ \ | _ \ infty \ sqrt {\ frac {d} {1}^\ top \ eta |} {n} \ big)$,它比当前已知的一个$ o \ big(\ frac {\ | \ eTa \ |} {\ sqrt {\ sqrt {n}} \ big big )$在许多情况下。在NGPR中,我们显示了$ o \ big(\ | \ eta \ | \ frac {\ sqrt {d}}} {n} {n} \ big)$ for nutary $ \ eta $。在这两个问题上,任意噪声的范围立即引起$ \ tilde {o}(\ sqrt {\ frac {d} {n}}}})$,用于次高斯或次指数随机噪声,带有一些常规但不可吻的去除或削弱的假设(例如,独立或均值均值的条件)。此外,我们首次尝试在假定$ l $ -th时刻的重尾随机噪声下进行ERM。为了实现偏见和差异之间的权衡,我们截断了响应并提出了相应的稳健ERM估计器,该估计量具有保证$ \ tilde {o} \ big(\ big [\ sqrt {\ frac {\ frac {d}) {n}} \ big]^{1-1/l} \ big)$在NPR,NGPR中。所有错误都直接扩展到等级$ r $矩阵恢复的更普遍的问题,这些结果得出的结论是,全级框架$ \ {a_k \} _ {k = 1}^n $ in ngpr是比级别1帧$ \ {\ alpha_k \ alpha_k^*\} _ {k = 1}^n $在npr中更强大。提出了广泛的实验结果,以说明我们的理论发现。
translated by 谷歌翻译
提供了一种强大而灵活的模型,可用于代表多属数据和多种方式相互作用,在科学和工程中的各个领域中发挥着现代数据科学中的不可或缺的作用。基本任务是忠实地以统计和计算的有效方式从高度不完整的测量中恢复张量。利用Tucker分解中的张量的低级别结构,本文开发了一个缩放的梯度下降(Scaledgd)算法,可以直接恢复具有定制频谱初始化的张量因子,并表明它以与条件号无关的线性速率收敛对于两个规范问题的地面真理张量 - 张量完成和张量回归 - 一旦样本大小高于$ n ^ {3/2} $忽略其他参数依赖项,$ n $是维度张量。这导致与现有技术相比的低秩张力估计的极其可扩展的方法,这些方法具有以下至少一个缺点:对记忆和计算方面的对不良,偏移成本高的极度敏感性,或差样本复杂性保证。据我们所知,Scaledgd是第一算法,它可以同时实现近最佳统计和计算复杂性,以便与Tucker分解进行低级张力完成。我们的算法突出了加速非耦合统计估计在加速非耦合统计估计中的适当预处理的功率,其中迭代改复的预处理器促进轨迹的所需的不变性属性相对于低级张量分解中的底层对称性。
translated by 谷歌翻译
Higher-order multiway data is ubiquitous in machine learning and statistics and often exhibits community-like structures, where each component (node) along each different mode has a community membership associated with it. In this paper we propose the tensor mixed-membership blockmodel, a generalization of the tensor blockmodel positing that memberships need not be discrete, but instead are convex combinations of latent communities. We establish the identifiability of our model and propose a computationally efficient estimation procedure based on the higher-order orthogonal iteration algorithm (HOOI) for tensor SVD composed with a simplex corner-finding algorithm. We then demonstrate the consistency of our estimation procedure by providing a per-node error bound, which showcases the effect of higher-order structures on estimation accuracy. To prove our consistency result, we develop the $\ell_{2,\infty}$ tensor perturbation bound for HOOI under independent, possibly heteroskedastic, subgaussian noise that may be of independent interest. Our analysis uses a novel leave-one-out construction for the iterates, and our bounds depend only on spectral properties of the underlying low-rank tensor under nearly optimal signal-to-noise ratio conditions such that tensor SVD is computationally feasible. Whereas other leave-one-out analyses typically focus on sequences constructed by analyzing the output of a given algorithm with a small part of the noise removed, our leave-one-out analysis constructions use both the previous iterates and the additional tensor structure to eliminate a potential additional source of error. Finally, we apply our methodology to real and simulated data, including applications to two flight datasets and a trade network dataset, demonstrating some effects not identifiable from the model with discrete community memberships.
translated by 谷歌翻译
本文研究了聚类基质值观测值的计算和统计限制。我们提出了一个低级别的混合模型(LRMM),该模型适用于经典的高斯混合模型(GMM)来处理基质值观测值,该观测值假设人口中心矩阵的低级别。通过集成Lloyd算法和低级近似值设计了一种计算有效的聚类方法。一旦定位良好,该算法将快速收敛并达到最小值最佳的指数型聚类错误率。同时,我们表明一种基于张量的光谱方法可提供良好的初始聚类。与GMM相当,最小值最佳聚类错误率是由分离强度(即种群中心矩阵之间的最小距离)决定的。通过利用低级度,提出的算法对分离强度的要求较弱。但是,与GMM不同,LRMM的统计难度和计算难度的特征是信号强度,即最小的人口中心矩阵的非零奇异值。提供了证据表明,即使信号强度不够强,即使分离强度很强,也没有多项式时间算法是一致的。在高斯以下噪声下进一步证明了我们低级劳埃德算法的性能。讨论了LRMM下估计和聚类之间的有趣差异。通过全面的仿真实验证实了低级劳埃德算法的优点。最后,我们的方法在现实世界数据集的文献中优于其他方法。
translated by 谷歌翻译
我们的目标是在沿着张量模式的协变量信息存在中可获得稀疏和高度缺失的张量。我们的动机来自在线广告,在各种设备上的广告上的用户点击率(CTR)形成了大约96%缺失条目的CTR张量,并且在非缺失条目上有许多零,这使得独立的张量完井方法不满意。除了CTR张量旁边,额外的广告功能或用户特性通常可用。在本文中,我们提出了协助协助的稀疏张力完成(Costco),以合并复苏恢复稀疏张量的协变量信息。关键思想是共同提取来自张量和协变矩阵的潜伏组分以学习合成表示。从理论上讲,我们导出了恢复的张量组件的错误绑定,并明确地量化了由于协变量引起的显露概率条件和张量恢复精度的改进。最后,我们将Costco应用于由CTR张量和广告协变矩阵组成的广告数据集,从而通过基线的23%的准确性改进。重要的副产品是来自Costco的广告潜在组件显示有趣的广告集群,这对于更好的广告目标是有用的。
translated by 谷歌翻译
特征向量扰动分析在各种数据科学应用中起着至关重要的作用。然而,大量的先前作品着重于建立$ \ ell_ {2} $ eigenVector扰动边界,这些范围通常在解决依赖特征向量的细粒度行为的任务方面非常不足。本文通过研究未知特征向量的线性函数的扰动来取得进展。在存在高斯噪声的情况下,着重于两个基本问题 - 矩阵denoising和主成分分析 - 我们开发了一个统计理论的套件,该理论表征了未知特征向量的任意线性函数的扰动。为了减轻自然``插件''估计器固有的不可忽略的偏见问题,我们开发了偏低的估计器,即(1)(1)为场景家庭实现最小的下限(模仿某些对数因素),并且(2)可以以数据驱动的方式计算,而无需样品分裂。值得注意的是,即使相关的特征间隙{\ em少于先前的统计理论所要求的,提出的估计器几乎是最佳的最佳选择。
translated by 谷歌翻译
库存记录不正确,经常发生,某些措施的年销售额约为4%。手动检测库存不准确性的成本较高,现有算法解决方案几乎完全依赖于从纵向数据中学习,这在现代零售操作引起的动态环境中不足。取而代之的是,我们提出了基于商店和SKU上的横截面数据的解决方案,观察到检测库存不准确性可以被视为识别(低级别)泊松矩阵中异常的问题。在低级别矩阵中检测到的最先进的方法显然不足。具体而言,从理论的角度来看,这些方法的恢复保证要求需要观察到无反对的条目,而噪音消失了(在我们的问题中,在许多应用中都不是这种情况)。如此有动力,我们提出了一种在概念上简单的入门方法,以在低级别的泊松矩阵中进行异常检测。我们的方法适合一类概率异常模型。我们表明,我们的算法所产生的成本以最低最佳最佳速率接近最佳算法。使用来自消费品零售商的合成数据和真实数据,我们表明我们的方法可提供超过现有检测方法的10倍成本降低。在此过程中,我们建立了最新的工作,该工作寻求矩阵完成的入门错误保证,并为次指定矩阵确定此类保证,这是独立利益的结果。
translated by 谷歌翻译
我们在具有固定设计的高维错误设置中分析主组件回归(PCR)。在适当的条件下,我们表明PCR始终以最小$ \ ell_2 $ -norm识别唯一模型,并且是最小的最佳模型。这些结果使我们能够建立非质子化的样本外预测,以确保提高最著名的速率。在我们的分析中,我们在样本外协变量之间引入了天然的线性代数条件,这使我们能够避免分布假设。我们的模拟说明了即使在协变量转移的情况下,这种条件对于概括的重要性。作为副产品,我们的结果还导致了合成控制文献的新结果,这是政策评估的主要方法。特别是,我们的minimax结果表明,在众多变体中,基于PCR的方法具有吸引力。据我们所知,我们对固定设计设置的预测保证在高维错误和合成控制文献中都是难以捉摸的。
translated by 谷歌翻译
In this paper, we study the trace regression when a matrix of parameters B* is estimated via the convex relaxation of a rank-regularized regression or via regularized non-convex optimization. It is known that these estimators satisfy near-optimal error bounds under assumptions on the rank, coherence, and spikiness of B*. We start by introducing a general notion of spikiness for B* that provides a generic recipe to prove the restricted strong convexity of the sampling operator of the trace regression and obtain near-optimal and non-asymptotic error bounds for the estimation error. Similar to the existing literature, these results require the regularization parameter to be above a certain theory-inspired threshold that depends on observation noise that may be unknown in practice. Next, we extend the error bounds to cases where the regularization parameter is chosen via cross-validation. This result is significant in that existing theoretical results on cross-validated estimators (Kale et al., 2011; Kumar et al., 2013; Abou-Moustafa and Szepesvari, 2017) do not apply to our setting since the estimators we study are not known to satisfy their required notion of stability. Finally, using simulations on synthetic and real data, we show that the cross-validated estimator selects a near-optimal penalty parameter and outperforms the theory-inspired approach of selecting the parameter.
translated by 谷歌翻译
Tensor完成是矩阵完成的自然高阶泛化,其中目标是从其条目的稀疏观察中恢复低级张量。现有算法在没有可证明的担保的情况下是启发式,基于解决运行不切实际的大型半纤维程序,或者需要强大的假设,例如需要因素几乎正交。在本文中,我们介绍了交替最小化的新变型,其又通过了解如何对矩阵设置中的交替最小化的收敛性的进展措施来调整到张量设置的启发。我们展示了强大的可证明的保证,包括表明我们的算法即使当因素高度相关时,我们的算法也会在真正的张量线上会聚,并且可以在几乎线性的时间内实现。此外,我们的算法也非常实用,我们表明我们可以完成具有千维尺寸的三阶张量,从观察其条目的微小一部分。相比之下,有些令人惊讶的是,我们表明,如果没有我们的新扭曲,则表明交替最小化的标准版本可以在实践中以急剧速度收敛。
translated by 谷歌翻译
我们调查与高斯的混合的数据分享共同但未知,潜在虐待协方差矩阵的数据。我们首先考虑具有两个等级大小的组件的高斯混合,并根据最大似然估计导出最大切割整数程序。当样品的数量在维度下线性增长时,我们证明其解决方案实现了最佳的错误分类率,直到对数因子。但是,解决最大切割问题似乎是在计算上棘手的。为了克服这一点,我们开发了一种高效的频谱算法,该算法达到最佳速率,但需要一种二次样本量。虽然这种样本复杂性比最大切割问题更差,但我们猜测没有多项式方法可以更好地执行。此外,我们收集了支持统计计算差距存在的数值和理论证据。最后,我们将MAX-CUT程序概括为$ k $ -means程序,该程序处理多组分混合物的可能性不平等。它享有相似的最优性保证,用于满足运输成本不平等的分布式的混合物,包括高斯和强烈的对数的分布。
translated by 谷歌翻译