This survey provides an overview of higher-order tensor decompositions, their applications, and available software. A tensor is a multidimensional or N -way array. Decompositions of higher-order tensors (i.e., N -way arrays with N ≥ 3) have applications in psychometrics, chemometrics, signal processing, numerical linear algebra, computer vision, numerical analysis, data mining, neuroscience, graph analysis, and elsewhere. Two particular tensor decompositions can be considered to be higher-order extensions of the matrix singular value decomposition: CANDECOMP/PARAFAC (CP) decomposes a tensor as a sum of rank-one tensors, and the Tucker decomposition is a higher-order form of principal component analysis. There are many other tensor decompositions, including INDSCAL, PARAFAC2, CANDELINC, DEDICOM, and PARATUCK2 as well as nonnegative variants of all of the above. The N-way Toolbox, Tensor Toolbox, and Multilinear Engine are examples of software packages for working with tensors.
translated by 谷歌翻译
A simple nonrecursive form of the tensor decomposition in d dimensions is presented. It does not inherently suffer from the curse of dimensionality, it has asymptotically the same number of parameters as the canonical decomposition, but it is stable and its computation is based on lowrank approximation of auxiliary unfolding matrices. The new form gives a clear and convenient way to implement all basic operations efficiently. A fast rounding procedure is presented, as well as basic linear algebra operations. Examples showing the benefits of the decomposition are given, and the efficiency is demonstrated by the computation of the smallest eigenvalue of a 19-dimensional operator.
translated by 谷歌翻译
我们使用张量奇异值分解(T-SVD)代数框架提出了一种新的快速流算法,用于抵抗缺失的低管级张量的缺失条目。我们展示T-SVD是三阶张量的研究型块术语分解的专业化,我们在该模型下呈现了一种算法,可以跟踪从不完全流2-D数据的可自由子模块。所提出的算法使用来自子空间的基层歧管的增量梯度下降的原理,以解决线性复杂度和时间样本的恒定存储器的张量完成问题。我们为我们的算法提供了局部预期的线性收敛结果。我们的经验结果在精确态度上具有竞争力,但在计算时间内比实际应用上的最先进的张量完成算法更快,以在有限的采样下恢复时间化疗和MRI数据。
translated by 谷歌翻译
Low-rank matrix approximations, such as the truncated singular value decomposition and the rank-revealing QR decomposition, play a central role in data analysis and scientific computing. This work surveys and extends recent research which demonstrates that randomization offers a powerful tool for performing low-rank matrix approximation. These techniques exploit modern computational architectures more fully than classical methods and open the possibility of dealing with truly massive data sets.This paper presents a modular framework for constructing randomized algorithms that compute partial matrix decompositions. These methods use random sampling to identify a subspace that captures most of the action of a matrix. The input matrix is then compressed-either explicitly or implicitly-to this subspace, and the reduced matrix is manipulated deterministically to obtain the desired low-rank factorization. In many cases, this approach beats its classical competitors in terms of accuracy, speed, and robustness. These claims are supported by extensive numerical experiments and a detailed error analysis.The specific benefits of randomized techniques depend on the computational environment. Consider the model problem of finding the k dominant components of the singular value decomposition of an m × n matrix. (i) For a dense input matrix, randomized algorithms require O(mn log(k)) floating-point operations (flops) in contrast with O(mnk) for classical algorithms. (ii) For a sparse input matrix, the flop count matches classical Krylov subspace methods, but the randomized approach is more robust and can easily be reorganized to exploit multi-processor architectures. (iii) For a matrix that is too large to fit in fast memory, the randomized techniques require only a constant number of passes over the data, as opposed to O(k) passes for classical algorithms. In fact, it is sometimes possible to perform matrix approximation with a single pass over the data.
translated by 谷歌翻译
在数据挖掘,神经科学和化学计量学在内的各个领域,分析各种数据集中的多路测量结果是一个挑战。例如,测量可能会随着时间的流逝而发展或具有不一致的时间曲线。 PARAFAC2模型已成功地用于分析此类数据,通过在一种模式(即演变模式)下允许基础因子矩阵跨切片进行更改。拟合PARAFAC2模型的传统方法是使用基于最小二乘的交替算法,该算法通过隐式估计不断发展的因子矩阵来处理Parafac2模型的恒定交叉产生约束。这种方法使对这些因素矩阵充满挑战。目前尚无算法可以灵活地将这种正规化施加,并具有一般的惩罚功能和硬性约束。为了应对这一挑战并避免隐性估计,在本文中,我们提出了一种算法,用于拟合PARAFAC2基于与乘数交替方向方法(AO-ADMM)的交替优化拟合parafac2。通过在模拟数据上进行数值实验,我们表明所提出的PARAFAC2 AO-ADMM方法允许灵活约束,准确地恢复了基础模式,并且与先进的ART相比,计算有效。我们还将模型应用于神经科学和化学计量学的两个现实世界数据集,并表明限制发展模式可改善提取模式的解释性。
translated by 谷歌翻译
高维非正交掺入张量的CP分解是许多学科的广泛应用的重要问题。然而,以前的理论保证的工作通常在CP组分的基础载体上承担限制性的不连贯条件。在本文中,我们提出了新的计算高效的复合PCA和并发正交化算法,以便在轻度不连结条件下的理论保证。复合PCA将主成分或奇异值分解应用于张量数据的矩阵,以获得奇异矢量,然后在第一步骤中获得的奇异载体的基质折叠。它可以用作Tensor CP分解的任何迭代优化方案的初始化。并发正交化算法通过将突起同时施加到其他模式中的其他模式所产生的空格的正交补充,迭代地估计张量的每个模式的基础向量。旨在改善具有低或中等高CP等级的张量的交替的最小二乘估计器和其他形式的高阶正交迭代,并且当任何给定的初始估计器的错误被小常数界定时,它保证快速收敛。我们的理论调查为两种提出的算法提供了估算准确性和收敛速率。我们对合成数据的实施表明了我们对现有方法的方法的显着实际优势。
translated by 谷歌翻译
kronecker回归是一个高度结构的最小二乘问题$ \ min _ {\ mathbf {x}}} \ lvert \ mathbf {k} \ mathbf {x} - \ mathbf {b} \ rvert_ \ rvert_ {2}^2 $矩阵$ \ mathbf {k} = \ mathbf {a}^{(1)} \ otimes \ cdots \ cdots \ otimes \ mathbf {a}^{(n)} $是因子矩阵的Kronecker产品。这种回归问题是在广泛使用的最小二乘(ALS)算法的每个步骤中都出现的,用于计算张量的塔克分解。我们介绍了第一个用于求解Kronecker回归的子次数算法,以避免在运行时间中避免指数项$ o(\ varepsilon^{ - n})$的$(1+ \ varepsilon)$。我们的技术结合了利用分数抽样和迭代方法。通过扩展我们对一个块是Kronecker产品的块设计矩阵的方法,我们还实现了(1)Kronecker Ridge回归的亚次级时间算法,并且(2)更新ALS中Tucker分解的因子矩阵,这不是一个不是一个纯Kronecker回归问题,从而改善了Tucker ALS的所有步骤的运行时间。我们证明了该Kronecker回归算法在合成数据和现实世界图像张量上的速度和准确性。
translated by 谷歌翻译
网络数据通常在各种应用程序中收集,代表感兴趣的功能之间直接测量或统计上推断的连接。在越来越多的域中,这些网络会随着时间的流逝而收集,例如不同日子或多个主题之间的社交媒体平台用户之间的交互,例如在大脑连接性的多主体研究中。在分析多个大型网络时,降低降低技术通常用于将网络嵌入更易于处理的低维空间中。为此,我们通过专门的张量分解来开发用于网络集合的主组件分析(PCA)的框架,我们将半对称性张量PCA或SS-TPCA术语。我们得出计算有效的算法来计算我们提出的SS-TPCA分解,并在标准的低级别信号加噪声模型下建立方法的统计效率。值得注意的是,我们表明SS-TPCA具有与经典矩阵PCA相同的估计精度,并且与网络中顶点数的平方根成正比,而不是预期的边缘数。我们的框架继承了古典PCA的许多优势,适用于广泛的无监督学习任务,包括识别主要网络,隔离有意义的更改点或外出观察,以及表征最不同边缘的“可变性网络”。最后,我们证明了我们的提案对模拟数据的有效性以及经验法律研究的示例。用于建立我们主要一致性结果的技术令人惊讶地简单明了,可能会在其他各种网络分析问题中找到使用。
translated by 谷歌翻译
最近的论文开发了CP和张量环分解的交替正方形(ALS)方法,其均值成本是sublinear,在低级别分解的输入张量输入量中是sublinear。在本文中,我们提出了基于抽样的ALS方法,用于CP和张量环分解,其成本没有指数级的依赖性,从而显着改善了先前的最先前。我们提供详细的理论分析,并在特征提取实验中应用这些方法。
translated by 谷歌翻译
我们的目标是在沿着张量模式的协变量信息存在中可获得稀疏和高度缺失的张量。我们的动机来自在线广告,在各种设备上的广告上的用户点击率(CTR)形成了大约96%缺失条目的CTR张量,并且在非缺失条目上有许多零,这使得独立的张量完井方法不满意。除了CTR张量旁边,额外的广告功能或用户特性通常可用。在本文中,我们提出了协助协助的稀疏张力完成(Costco),以合并复苏恢复稀疏张量的协变量信息。关键思想是共同提取来自张量和协变矩阵的潜伏组分以学习合成表示。从理论上讲,我们导出了恢复的张量组件的错误绑定,并明确地量化了由于协变量引起的显露概率条件和张量恢复精度的改进。最后,我们将Costco应用于由CTR张量和广告协变矩阵组成的广告数据集,从而通过基线的23%的准确性改进。重要的副产品是来自Costco的广告潜在组件显示有趣的广告集群,这对于更好的广告目标是有用的。
translated by 谷歌翻译
许多现代数据集,从神经影像和地统计数据等领域都以张量数据的随机样本的形式来说,这可以被理解为对光滑的多维随机功能的嘈杂观察。来自功能数据分析的大多数传统技术被维度的诅咒困扰,并且随着域的尺寸增加而迅速变得棘手。在本文中,我们提出了一种学习从多维功能数据样本的持续陈述的框架,这些功能是免受诅咒的几种表现形式的。这些表示由一组可分离的基函数构造,该函数被定义为最佳地适应数据。我们表明,通过仔细定义的数据的仔细定义的减少转换的张测仪分解可以有效地解决所得到的估计问题。使用基于差分运算符的惩罚,并入粗糙的正则化。也建立了相关的理论性质。在模拟研究中证明了我们对竞争方法的方法的优点。我们在神经影像动物中得出真正的数据应用。
translated by 谷歌翻译
The affine rank minimization problem consists of finding a matrix of minimum rank that satisfies a given system of linear equality constraints. Such problems have appeared in the literature of a diverse set of fields including system identification and control, Euclidean embedding, and collaborative filtering. Although specific instances can often be solved with specialized algorithms, the general affine rank minimization problem is NP-hard, because it contains vector cardinality minimization as a special case.In this paper, we show that if a certain restricted isometry property holds for the linear transformation defining the constraints, the minimum rank solution can be recovered by solving a convex optimization problem, namely the minimization of the nuclear norm over the given affine space. We present several random ensembles of equations where the restricted isometry property holds with overwhelming probability, provided the codimension of the subspace is Ω(r(m + n) log mn), where m, n are the dimensions of the matrix, and r is its rank.The techniques used in our analysis have strong parallels in the compressed sensing framework. We discuss how affine rank minimization generalizes this pre-existing concept and outline a dictionary relating concepts from cardinality minimization to those of rank minimization. We also discuss several algorithmic approaches to solving the norm minimization relaxations, and illustrate our results with numerical examples.
translated by 谷歌翻译
精密医学是疾病预防,检测和治疗的临床方法,旨在考虑每个人的遗传背景,环境和生活方式。这种量身定制的大道的发展是由常规方法的可用性,大群体样本的增加以及与临床数据的集成而导致的。尽管进展巨大,但数据分析的现有计算方法无法为该复合体,高维和纵向数据提供适当的解决方案。在这项工作中,我们开发了一种称为TCAM的新方法,这是用于多向数据的维度减少技术,克服纵向常规数据的轨迹分析时克服了主要限制。使用现实世界数据,我们表明TCAM优于传统方法,以及最先进的基于卷起的纵向微生物组数据分析方法。此外,我们通过将其应用于几个不同的OMIC数据集来证明TCAM的多功能性,以及它在直接的ML任务中的替换中的适用性。
translated by 谷歌翻译
计算表型可以无监督发现患者的亚组以及电子健康记录(EHR)的相应同时发生的医疗状况。通常,EHR数据包含人口统计信息,诊断和实验室结果。发现(新颖的)表型具有预后和治疗价值的潜力。为医生提供透明且可解释的结果是一项重要要求,也是推进精确医学的重要组成部分。低级别数据近似方法,例如矩阵(例如,非负矩阵分解)和张量分解(例如,candecomp/parafac),已经证明它们可以提供这种透明且可解释的见解。最近的发展通过合并不同的限制和正规化来促进可解释性,从而适应了低级数据近似方法。此外,它们还为EHR数据中的共同挑战提供解决方案,例如高维度,数据稀疏性和不完整性。尤其是从纵向EHR中提取时间表型,近年来引起了很多关注。在本文中,我们对计算表型的低级别近似方法进行了全面的综述。现有文献根据矩阵与张量分解归类为时间与静态表型方法。此外,我们概述了验证表型的不同方法,即评估临床意义。
translated by 谷歌翻译
In this paper, we develop new methods for analyzing high-dimensional tensor datasets. A tensor factor model describes a high-dimensional dataset as a sum of a low-rank component and an idiosyncratic noise, generalizing traditional factor models for panel data. We propose an estimation algorithm, called tensor principal component analysis (PCA), which generalizes the traditional PCA applicable to panel data. The algorithm involves unfolding the tensor into a sequence of matrices along different dimensions and applying PCA to the unfolded matrices. We provide theoretical results on the consistency and asymptotic distribution for tensor PCA estimator of loadings and factors. The algorithm demonstrates good performance in Mote Carlo experiments and is applied to sorted portfolios.
translated by 谷歌翻译
This work considers a computationally and statistically efficient parameter estimation method for a wide class of latent variable models-including Gaussian mixture models, hidden Markov models, and latent Dirichlet allocation-which exploits a certain tensor structure in their low-order observable moments (typically, of second-and third-order). Specifically, parameter estimation is reduced to the problem of extracting a certain (orthogonal) decomposition of a symmetric tensor derived from the moments; this decomposition can be viewed as a natural generalization of the singular value decomposition for matrices. Although tensor decompositions are generally intractable to compute, the decomposition of these specially structured tensors can be efficiently obtained by a variety of approaches, including power iterations and maximization approaches (similar to the case of matrices). A detailed analysis of a robust tensor power method is provided, establishing an analogue of Wedin's perturbation theorem for the singular vectors of matrices. This implies a robust and computationally tractable estimation approach for several popular latent variable models.
translated by 谷歌翻译
Kronecker产品的自然概括是Kronecker产品的张量Kronecker产品,在多个研究社区中独立出现。像它们的矩阵对应物一样,张量的概括为隐式乘法和分解定理提供了结构。我们提出了一个定理,该定理将张量kronecker产品的主要特征向量分解,这是从矩阵理论到张量特征向量的罕见概括。该定理意味着在kronecker产品的张量功率方法的迭代中应该存在低级结构。我们研究了网络对齐算法TAME中的低等级结构,这是一种功率方法启发式方法。直接或通过新的启发式嵌入方法使用低级结构,我们生成的新算法在提高或保持准确性的同时更快,并扩展到无法通过现有技术实际处理的问题。
translated by 谷歌翻译
为了分析多维数据的丰富,已经开发了张量的框架。传统上,矩阵奇异值分解(SVD)用于从包含矢量化数据的矩阵中提取最主导的特征。虽然SVD对可以适当表示为矩阵的数据非常有用,但是矢量化步骤导致我们丢失了数据内在的高维关系。为了便于高效的多维特征提取,我们利用了使用基于投影的分类算法,使用T-SVDM,矩阵SVD的张量模拟。我们的作品扩展了T-SVDM框架和分类算法,最初提出了所有数量的尺寸。然后,我们使用Starplus FMRI DataSet将此算法应用于分类任务。我们的数值实验表明,基于张于FMRI分类的卓越方法,而不是基于最佳的等效矩阵的方法。我们的结果说明了我们选择的张量框架的优势,提供了对参数的有益选择的洞察力,并且可以进一步开发用于分类更复杂的成像数据。我们在https://github.com/elizabethnewman/tensor-fmri提供我们的Python实现。
translated by 谷歌翻译
在本文中,我们提供了有关Hankel低级近似和完成工作的综述和书目,特别强调了如何将这种方法用于时间序列分析和预测。我们首先描述问题的可能表述,并就获得全球最佳解决方案的相关主题和挑战提供评论。提供了关键定理,并且纸张以一些说明性示例关闭。
translated by 谷歌翻译
低级张力完成已广泛用于计算机视觉和机器学习。本文开发了一种新型多模态核心张量分解(MCTF)方法,与张量低秩测量和该措施的更好的非凸弛豫形式(NC-MCTF)。所提出的模型编码由Tucker和T-SVD提供的一般张量的低秩见解,因此预计将在多个方向上同时模拟光谱低秩率,并准确地恢复基于几个观察到的条目的内在低秩结构的数据。此外,我们研究了MCTF和NC-MCTF正则化最小化问题,并设计了一个有效的块连续上限最小化(BSUM)算法来解决它们。该高效的求解器可以将MCTF扩展到各种任务,例如张量完成。一系列实验,包括高光谱图像(HSI),视频和MRI完成,确认了所提出的方法的卓越性能。
translated by 谷歌翻译