我们提出了选择性多功能迭代(SMPI),一种新的算法来解决重要的张量PCA问题,该问题由高斯噪声Tensor $ \ BF {z损坏的峰值$ \ bf {v_0} ^ {\ otimesk} $损坏} \ in(\ mathbb {r} ^ n)^ {\ otimes k} $,使得$ \ bf {t} = \ sqrt {n} \ beta \ bf {v_0} ^ {\ otimesk} + \ bf { $ \ beta $的$ \β$是信噪比(SNR)。 SMPI在于生成多项式的随机初始化,在每次初始化上执行对称性的张力功率迭代的多项式数量,然后选择最大化$ \ langle \ bf {t},\ bf {v} ^ {\ otimesk}的那个\ rangle $。通常考虑范围的$ K = 3美元的各种数值模拟$ N \ LEQ 1000 $表明SMPI的实验性能急剧改善存在于存在的算法上,并且与理论最佳恢复相当。我们表明这些意外的表现是由于强大的机制,其中噪声对信号恢复发挥着关键作用,并且在低$ \ beta $处发生。此外,这种机制是由SMPI的五个基本特征产生,它基于功率迭代将其与先前的算法区分开来。这些显着的结果可能对张量PCA的实际和理论应用产生强烈影响。 (i)我们提供了这种算法的变体来解决低秩CP张量分解。即使在实际数据上,这些所提出的算法也优于存在的方法,这对于实际应用具有巨大的潜在影响。 (ii)我们对各种机器学习问题中存在的高维非凸景观优化的SMPI和梯度下降方法的行为进行了新的理论见解。 (iii)我们预计这些结果可能有助于讨论猜测统计算法间隙的存在。
translated by 谷歌翻译
依靠随机矩阵理论(RMT),本文研究了不对称的秩序与高斯噪声的D $ Spiked张量模型。使用奇异矢量的变分定义和[LIM,2005]的值,我们表明所考虑的模型的分析归结为分析了由此构造的等效尖刺对称\ XYLY矩阵的分析研究的统计{凹陷}与最佳等级-1近似相关的奇异矢量。我们的方法允许确切地表征几乎肯定的渐近奇异值和相应的奇异矢量与真正的尖峰组件的对齐,当$ \ frac {n_i} {\ sum_ {j = 1} ^ d n_j} \ to c_i \中[0,1] $ $ N_I $的张量尺寸。与大多数依赖于统计物理学的工具依赖于统计物理学的其他作品相比,我们的结果仅依赖于古典RMT工具,如Stein的引理。最后,有关尖刺随机矩阵的经典RMT结果被恢复为特定情况。
translated by 谷歌翻译
张量模型在许多领域中起着越来越重要的作用,特别是在机器学习中。在几种应用中,例如社区检测,主题建模和高斯混合物学习,必须估算噪声张量的低级别信号。因此,了解该信号的估计器的基本限制不可避免地要求研究随机张量。最近,在大维限制中,该主题取得了实质性进展。然而,其中一些最重要的结果(尤其是对突然的相变(相对于信噪比)的精确表征),该表现控制着对称等级的最大可能性(ML)估计器的性能 - 具有高斯噪声的模型 - 基于平均场自旋玻璃理论得出,非专家不容易访问。在这项工作中,我们依靠标准但强大的工具开发出一种截然不同,更基本的方法,这是由随机矩阵理论的多年进步带来的。关键思想是研究由给定随机张量的收缩引起的随机矩阵的光谱。我们展示了如何访问随机张量本身的光谱属性。对于上述排名衡量模型,我们的技术产生了迄今未知的固定点方程,其解决方案与第三阶情况下的相变阈值高于相变阈值的ML估计器的渐近性能。数值验证提供了证据,表明订单4和5相同,导致我们猜想,对于任何顺序,我们的定点方程等于已知的ML估计性能的表征,这些表现通过依靠旋转玻璃而获得。此外,我们的方法阐明了ML问题景观的某些特性,可以扩展到其他模型,例如不对称和非高斯。
translated by 谷歌翻译
高维非正交掺入张量的CP分解是许多学科的广泛应用的重要问题。然而,以前的理论保证的工作通常在CP组分的基础载体上承担限制性的不连贯条件。在本文中,我们提出了新的计算高效的复合PCA和并发正交化算法,以便在轻度不连结条件下的理论保证。复合PCA将主成分或奇异值分解应用于张量数据的矩阵,以获得奇异矢量,然后在第一步骤中获得的奇异载体的基质折叠。它可以用作Tensor CP分解的任何迭代优化方案的初始化。并发正交化算法通过将突起同时施加到其他模式中的其他模式所产生的空格的正交补充,迭代地估计张量的每个模式的基础向量。旨在改善具有低或中等高CP等级的张量的交替的最小二乘估计器和其他形式的高阶正交迭代,并且当任何给定的初始估计器的错误被小常数界定时,它保证快速收敛。我们的理论调查为两种提出的算法提供了估算准确性和收敛速率。我们对合成数据的实施表明了我们对现有方法的方法的显着实际优势。
translated by 谷歌翻译
A simple model to study subspace clustering is the high-dimensional $k$-Gaussian mixture model where the cluster means are sparse vectors. Here we provide an exact asymptotic characterization of the statistically optimal reconstruction error in this model in the high-dimensional regime with extensive sparsity, i.e. when the fraction of non-zero components of the cluster means $\rho$, as well as the ratio $\alpha$ between the number of samples and the dimension are fixed, while the dimension diverges. We identify the information-theoretic threshold below which obtaining a positive correlation with the true cluster means is statistically impossible. Additionally, we investigate the performance of the approximate message passing (AMP) algorithm analyzed via its state evolution, which is conjectured to be optimal among polynomial algorithm for this task. We identify in particular the existence of a statistical-to-computational gap between the algorithm that require a signal-to-noise ratio $\lambda_{\text{alg}} \ge k / \sqrt{\alpha} $ to perform better than random, and the information theoretic threshold at $\lambda_{\text{it}} \approx \sqrt{-k \rho \log{\rho}} / \sqrt{\alpha}$. Finally, we discuss the case of sub-extensive sparsity $\rho$ by comparing the performance of the AMP with other sparsity-enhancing algorithms, such as sparse-PCA and diagonal thresholding.
translated by 谷歌翻译
网络数据通常在各种应用程序中收集,代表感兴趣的功能之间直接测量或统计上推断的连接。在越来越多的域中,这些网络会随着时间的流逝而收集,例如不同日子或多个主题之间的社交媒体平台用户之间的交互,例如在大脑连接性的多主体研究中。在分析多个大型网络时,降低降低技术通常用于将网络嵌入更易于处理的低维空间中。为此,我们通过专门的张量分解来开发用于网络集合的主组件分析(PCA)的框架,我们将半对称性张量PCA或SS-TPCA术语。我们得出计算有效的算法来计算我们提出的SS-TPCA分解,并在标准的低级别信号加噪声模型下建立方法的统计效率。值得注意的是,我们表明SS-TPCA具有与经典矩阵PCA相同的估计精度,并且与网络中顶点数的平方根成正比,而不是预期的边缘数。我们的框架继承了古典PCA的许多优势,适用于广泛的无监督学习任务,包括识别主要网络,隔离有意义的更改点或外出观察,以及表征最不同边缘的“可变性网络”。最后,我们证明了我们的提案对模拟数据的有效性以及经验法律研究的示例。用于建立我们主要一致性结果的技术令人惊讶地简单明了,可能会在其他各种网络分析问题中找到使用。
translated by 谷歌翻译
This paper is about a curious phenomenon. Suppose we have a data matrix, which is the superposition of a low-rank component and a sparse component. Can we recover each component individually? We prove that under some suitable assumptions, it is possible to recover both the low-rank and the sparse components exactly by solving a very convenient convex program called Principal Component Pursuit; among all feasible decompositions, simply minimize a weighted combination of the nuclear norm and of the 1 norm. This suggests the possibility of a principled approach to robust principal component analysis since our methodology and results assert that one can recover the principal components of a data matrix even though a positive fraction of its entries are arbitrarily corrupted. This extends to the situation where a fraction of the entries are missing as well. We discuss an algorithm for solving this optimization problem, and present applications in the area of video surveillance, where our methodology allows for the detection of objects in a cluttered background, and in the area of face recognition, where it offers a principled way of removing shadows and specularities in images of faces.
translated by 谷歌翻译
Tensor decomposition serves as a powerful primitive in statistics and machine learning. In this paper, we focus on using power iteration to decompose an overcomplete random tensor. Past work studying the properties of tensor power iteration either requires a non-trivial data-independent initialization, or is restricted to the undercomplete regime. Moreover, several papers implicitly suggest that logarithmically many iterations (in terms of the input dimension) are sufficient for the power method to recover one of the tensor components. In this paper, we analyze the dynamics of tensor power iteration from random initialization in the overcomplete regime. Surprisingly, we show that polynomially many steps are necessary for convergence of tensor power iteration to any of the true component, which refutes the previous conjecture. On the other hand, our numerical experiments suggest that tensor power iteration successfully recovers tensor components for a broad range of parameters, despite that it takes at least polynomially many steps to converge. To further complement our empirical evidence, we prove that a popular objective function for tensor decomposition is strictly increasing along the power iteration path. Our proof is based on the Gaussian conditioning technique, which has been applied to analyze the approximate message passing (AMP) algorithm. The major ingredient of our argument is a conditioning lemma that allows us to generalize AMP-type analysis to non-proportional limit and polynomially many iterations of the power method.
translated by 谷歌翻译
This survey provides an overview of higher-order tensor decompositions, their applications, and available software. A tensor is a multidimensional or N -way array. Decompositions of higher-order tensors (i.e., N -way arrays with N ≥ 3) have applications in psychometrics, chemometrics, signal processing, numerical linear algebra, computer vision, numerical analysis, data mining, neuroscience, graph analysis, and elsewhere. Two particular tensor decompositions can be considered to be higher-order extensions of the matrix singular value decomposition: CANDECOMP/PARAFAC (CP) decomposes a tensor as a sum of rank-one tensors, and the Tucker decomposition is a higher-order form of principal component analysis. There are many other tensor decompositions, including INDSCAL, PARAFAC2, CANDELINC, DEDICOM, and PARATUCK2 as well as nonnegative variants of all of the above. The N-way Toolbox, Tensor Toolbox, and Multilinear Engine are examples of software packages for working with tensors.
translated by 谷歌翻译
随机块模型(SBM)是一个随机图模型,其连接不同的顶点组不同。它被广泛用作研究聚类和社区检测的规范模型,并提供了肥沃的基础来研究组合统计和更普遍的数据科学中出现的信息理论和计算权衡。该专着调查了最近在SBM中建立社区检测的基本限制的最新发展,无论是在信息理论和计算方案方面,以及各种恢复要求,例如精确,部分和弱恢复。讨论的主要结果是在Chernoff-Hellinger阈值中进行精确恢复的相转换,Kesten-Stigum阈值弱恢复的相变,最佳的SNR - 单位信息折衷的部分恢复以及信息理论和信息理论之间的差距计算阈值。该专着给出了在寻求限制时开发的主要算法的原则推导,特别是通过绘制绘制,半定义编程,(线性化)信念传播,经典/非背带频谱和图形供电。还讨论了其他块模型的扩展,例如几何模型和一些开放问题。
translated by 谷歌翻译
FIG. 1. Schematic diagram of a Variational Quantum Algorithm (VQA). The inputs to a VQA are: a cost function C(θ), with θ a set of parameters that encodes the solution to the problem, an ansatz whose parameters are trained to minimize the cost, and (possibly) a set of training data {ρ k } used during the optimization. Here, the cost can often be expressed in the form in Eq. ( 3), for some set of functions {f k }. Also, the ansatz is shown as a parameterized quantum circuit (on the left), which is analogous to a neural network (also shown schematically on the right). At each iteration of the loop one uses a quantum computer to efficiently estimate the cost (or its gradients). This information is fed into a classical computer that leverages the power of optimizers to navigate the cost landscape C(θ) and solve the optimization problem in Eq. ( 1). Once a termination condition is met, the VQA outputs an estimate of the solution to the problem. The form of the output depends on the precise task at hand. The red box indicates some of the most common types of outputs.
translated by 谷歌翻译
最近以来,在理解与overparameterized模型非凸损失基于梯度的方法收敛性和泛化显著的理论进展。尽管如此,优化和推广,尤其是小的随机初始化的关键作用的许多方面都没有完全理解。在本文中,我们迈出玄机通过证明小的随机初始化这个角色的步骤,然后通过梯度下降的行为类似于流行谱方法的几个迭代。我们还表明,从小型随机初始化,这可证明是用于overparameterized车型更加突出这种隐含的光谱偏差,也使梯度下降迭代在一个特定的轨迹走向,不仅是全局最优的,但也很好期广义的解决方案。具体而言,我们专注于通过天然非凸制剂重构从几个测量值的低秩矩阵的问题。在该设置中,我们表明,从小的随机初始化的梯度下降迭代的轨迹可以近似分解为三个阶段:(Ⅰ)的光谱或对准阶段,其中,我们表明,该迭代具有一个隐含的光谱偏置类似于频谱初始化允许我们表明,在该阶段中进行迭代,并且下面的低秩矩阵的列空间被充分对准的端部,(II)一鞍回避/细化阶段,我们表明,该梯度的轨迹从迭代移动离开某些简并鞍点,和(III)的本地细化阶段,其中,我们表明,避免了鞍座后的迭代快速收敛到底层低秩矩阵。底层我们的分析是,可能有超出低等级的重建计算问题影响overparameterized非凸优化方案的分析见解。
translated by 谷歌翻译
我们的目标是在沿着张量模式的协变量信息存在中可获得稀疏和高度缺失的张量。我们的动机来自在线广告,在各种设备上的广告上的用户点击率(CTR)形成了大约96%缺失条目的CTR张量,并且在非缺失条目上有许多零,这使得独立的张量完井方法不满意。除了CTR张量旁边,额外的广告功能或用户特性通常可用。在本文中,我们提出了协助协助的稀疏张力完成(Costco),以合并复苏恢复稀疏张量的协变量信息。关键思想是共同提取来自张量和协变矩阵的潜伏组分以学习合成表示。从理论上讲,我们导出了恢复的张量组件的错误绑定,并明确地量化了由于协变量引起的显露概率条件和张量恢复精度的改进。最后,我们将Costco应用于由CTR张量和广告协变矩阵组成的广告数据集,从而通过基线的23%的准确性改进。重要的副产品是来自Costco的广告潜在组件显示有趣的广告集群,这对于更好的广告目标是有用的。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
与经典线性模型不同,非线性生成模型在统计学习的文献中被稀疏地解决。这项工作旨在引起对这些模型及其保密潜力的关注。为此,我们调用了复制方法,以在反相反的问题中得出渐近归一化的横熵,其生成模型由具有通用协方差函数的高斯随机场描述。我们的推导进一步证明了贝叶斯估计量的渐近统计解耦,并为给定的非线性模型指定了解耦设置。复制解决方案描述了严格的非线性模型建立了全有或全无的相变:存在一个关键负载,最佳贝叶斯推断从完美的学习变为不相关的学习。基于这一发现,我们设计了一种新的安全编码方案,该方案可实现窃听通道的保密能力。这个有趣的结果意味着,严格的非线性生成模型是完美的,没有任何安全编码。我们通过分析说明性模型的完全安全和可靠的推论来证明后一种陈述是合理的。
translated by 谷歌翻译
我们使用张量奇异值分解(T-SVD)代数框架提出了一种新的快速流算法,用于抵抗缺失的低管级张量的缺失条目。我们展示T-SVD是三阶张量的研究型块术语分解的专业化,我们在该模型下呈现了一种算法,可以跟踪从不完全流2-D数据的可自由子模块。所提出的算法使用来自子空间的基层歧管的增量梯度下降的原理,以解决线性复杂度和时间样本的恒定存储器的张量完成问题。我们为我们的算法提供了局部预期的线性收敛结果。我们的经验结果在精确态度上具有竞争力,但在计算时间内比实际应用上的最先进的张量完成算法更快,以在有限的采样下恢复时间化疗和MRI数据。
translated by 谷歌翻译
提供了一种强大而灵活的模型,可用于代表多属数据和多种方式相互作用,在科学和工程中的各个领域中发挥着现代数据科学中的不可或缺的作用。基本任务是忠实地以统计和计算的有效方式从高度不完整的测量中恢复张量。利用Tucker分解中的张量的低级别结构,本文开发了一个缩放的梯度下降(Scaledgd)算法,可以直接恢复具有定制频谱初始化的张量因子,并表明它以与条件号无关的线性速率收敛对于两个规范问题的地面真理张量 - 张量完成和张量回归 - 一旦样本大小高于$ n ^ {3/2} $忽略其他参数依赖项,$ n $是维度张量。这导致与现有技术相比的低秩张力估计的极其可扩展的方法,这些方法具有以下至少一个缺点:对记忆和计算方面的对不良,偏移成本高的极度敏感性,或差样本复杂性保证。据我们所知,Scaledgd是第一算法,它可以同时实现近最佳统计和计算复杂性,以便与Tucker分解进行低级张力完成。我们的算法突出了加速非耦合统计估计在加速非耦合统计估计中的适当预处理的功率,其中迭代改复的预处理器促进轨迹的所需的不变性属性相对于低级张量分解中的底层对称性。
translated by 谷歌翻译
随着科学和工程的越来越多的数据驱动,优化的作用已经扩展到几乎触及数据分析管道的每个阶段,从信号和数据获取到建模和预测。实践中遇到的优化问题通常是非convex。尽管挑战因问题而异,但非概念性的一个共同来源是数据或测量模型中的非线性。非线性模型通常表现出对称性,创建具有多种等效解决方案的复杂,非凸客观的景观。然而,简单的方法(例如,梯度下降)在实践中通常表现出色。这项调查的目的是突出一类可进行的非概念问题,可以通过对称性的镜头来理解。这些问题表现出特征性的几何结构:局部最小化是单个“地面真实”解决方案的对称副本,而其他关键点出现在地面真理的对称副本的平衡叠加上,并在破坏对称性的方向上表现出负曲率。该结构使有效的方法获得了全局最小化。我们讨论了由于成像,信号处理和数据分析中广泛的问题而引起的这种现象的示例。我们强调了对称性在塑造客观景观中的关键作用,并讨论旋转和离散对称性的不同作用。该区域充满了观察到的现象和开放问题。我们通过强调未来研究的方向结束。
translated by 谷歌翻译
The stochastic block model (SBM) is a random graph model with planted clusters. It is widely employed as a canonical model to study clustering and community detection, and provides generally a fertile ground to study the statistical and computational tradeoffs that arise in network and data sciences.This note surveys the recent developments that establish the fundamental limits for community detection in the SBM, both with respect to information-theoretic and computational thresholds, and for various recovery requirements such as exact, partial and weak recovery (a.k.a., detection). The main results discussed are the phase transitions for exact recovery at the Chernoff-Hellinger threshold, the phase transition for weak recovery at the Kesten-Stigum threshold, the optimal distortion-SNR tradeoff for partial recovery, the learning of the SBM parameters and the gap between information-theoretic and computational thresholds.The note also covers some of the algorithms developed in the quest of achieving the limits, in particular two-round algorithms via graph-splitting, semi-definite programming, linearized belief propagation, classical and nonbacktracking spectral methods. A few open problems are also discussed.
translated by 谷歌翻译
大型神经回路的全面突触接线图的出现已经创造了连接组学领域,并引起了许多开放研究问题。一个问题是,鉴于其突触连接矩阵,是否可以重建存储在神经元网络中的信息。在这里,我们通过确定在特定的吸引力网络模型中可以解决这种推理问题何时解决这个问题,并提供一种实用算法来解决这个问题。该算法基于从统计物理学到进行近似贝叶斯推论的思想,并且可以进行精确的分析。我们在三种不同模型上研究了它的性能,将算法与PCA等标准算法进行比较,并探讨了从突触连通性中重建存储模式的局限性。
translated by 谷歌翻译