常规生成订单3及以上的数据张量。这些数据收集越来越大且增长。它们要么是张量字段(例如,图像,视频,地理数据),其中每个数据位置包含重要信息或排列不变的一般张量(例如,无监督的潜在空间学习,图形网络分析,建议系统等)。直接访问如此大的数据张量收集以获取信息已变得越来越令人难以置信。我们学习具有分解表示的近似全级和紧凑的张量草图,可提供紧凑的空间,时间和光谱嵌入量的张量场(P-SCT)和一般张量(P-SCT-Permute)。所有后续的信息查询都以高精度进行,在生成草图上进行。我们通过从张量切片的样品有效的子采样量构建张量图来产生任意阶数据张量的最佳级别-r tucker分解。我们的样本有效策略是通过使用与共轭先验的Dirichlet分布的适应性随机汤普森采样来学习的。
translated by 谷歌翻译
kronecker回归是一个高度结构的最小二乘问题$ \ min _ {\ mathbf {x}}} \ lvert \ mathbf {k} \ mathbf {x} - \ mathbf {b} \ rvert_ \ rvert_ {2}^2 $矩阵$ \ mathbf {k} = \ mathbf {a}^{(1)} \ otimes \ cdots \ cdots \ otimes \ mathbf {a}^{(n)} $是因子矩阵的Kronecker产品。这种回归问题是在广泛使用的最小二乘(ALS)算法的每个步骤中都出现的,用于计算张量的塔克分解。我们介绍了第一个用于求解Kronecker回归的子次数算法,以避免在运行时间中避免指数项$ o(\ varepsilon^{ - n})$的$(1+ \ varepsilon)$。我们的技术结合了利用分数抽样和迭代方法。通过扩展我们对一个块是Kronecker产品的块设计矩阵的方法,我们还实现了(1)Kronecker Ridge回归的亚次级时间算法,并且(2)更新ALS中Tucker分解的因子矩阵,这不是一个不是一个纯Kronecker回归问题,从而改善了Tucker ALS的所有步骤的运行时间。我们证明了该Kronecker回归算法在合成数据和现实世界图像张量上的速度和准确性。
translated by 谷歌翻译
最近的论文开发了CP和张量环分解的交替正方形(ALS)方法,其均值成本是sublinear,在低级别分解的输入张量输入量中是sublinear。在本文中,我们提出了基于抽样的ALS方法,用于CP和张量环分解,其成本没有指数级的依赖性,从而显着改善了先前的最先前。我们提供详细的理论分析,并在特征提取实验中应用这些方法。
translated by 谷歌翻译
我们使用张量奇异值分解(T-SVD)代数框架提出了一种新的快速流算法,用于抵抗缺失的低管级张量的缺失条目。我们展示T-SVD是三阶张量的研究型块术语分解的专业化,我们在该模型下呈现了一种算法,可以跟踪从不完全流2-D数据的可自由子模块。所提出的算法使用来自子空间的基层歧管的增量梯度下降的原理,以解决线性复杂度和时间样本的恒定存储器的张量完成问题。我们为我们的算法提供了局部预期的线性收敛结果。我们的经验结果在精确态度上具有竞争力,但在计算时间内比实际应用上的最先进的张量完成算法更快,以在有限的采样下恢复时间化疗和MRI数据。
translated by 谷歌翻译
This survey provides an overview of higher-order tensor decompositions, their applications, and available software. A tensor is a multidimensional or N -way array. Decompositions of higher-order tensors (i.e., N -way arrays with N ≥ 3) have applications in psychometrics, chemometrics, signal processing, numerical linear algebra, computer vision, numerical analysis, data mining, neuroscience, graph analysis, and elsewhere. Two particular tensor decompositions can be considered to be higher-order extensions of the matrix singular value decomposition: CANDECOMP/PARAFAC (CP) decomposes a tensor as a sum of rank-one tensors, and the Tucker decomposition is a higher-order form of principal component analysis. There are many other tensor decompositions, including INDSCAL, PARAFAC2, CANDELINC, DEDICOM, and PARATUCK2 as well as nonnegative variants of all of the above. The N-way Toolbox, Tensor Toolbox, and Multilinear Engine are examples of software packages for working with tensors.
translated by 谷歌翻译
许多数值优化技术的收敛性对提供给求解器的初始猜测高度敏感。我们提出了一种基于张量方法的方法,以初始化靠近全局Optima的现有优化求解器。该方法仅使用成本函数的定义,不需要访问任何良好解决方案的数据库。我们首先将成本函数(这是任务参数和优化变量的函数)转换为概率密度函数。与将任务参数设置为常数的现有方法不同,我们将它们视为另一组随机变量,并使用替代概率模型近似任务参数的关节概率分布和优化变量。对于给定的任务,我们就给定的任务参数从条件分布中生成样本,并将其用作优化求解器的初始化。由于调节和来自任意密度函数的调节和采样具有挑战性,因此我们使用张量列车分解来获得替代概率模型,我们可以从中有效地获得条件模型和样品。该方法可以为给定任务产生来自不同模式的多个解决方案。我们首先通过将其应用于各种具有挑战性的基准函数来评估该方法以进行数值优化,这些功能很难使用基于梯度的优化求解器以幼稚的初始化来求解,这表明所提出的方法可以生成靠近全局优化的样品,并且来自多种模式。 。然后,我们通过将所提出的方法应用于7-DOF操纵器来证明框架的通用性及其与机器人技术的相关性。
translated by 谷歌翻译
张量火车的分解因其高维张量的简洁表示,因此在机器学习和量子物理学中广泛使用,克服了维度的诅咒。交叉近似 - 从近似形式开发用于从一组选定的行和列中表示矩阵,这是一种有效的方法,用于构建来自其少数条目的张量的张量列器分解。虽然张量列车交叉近似在实际应用中取得了显着的性能,但迄今为止缺乏其理论分析,尤其是在近似误差方面的理论分析。据我们所知,现有结果仅提供元素近似精度的保证,这会导致扩展到整个张量时的束缚非常松。在本文中,我们通过提供精确测量和嘈杂测量的整个张量来保证准确性来弥合这一差距。我们的结果说明了选定子观察器的选择如何影响交叉近似的质量,并且模型误差和/或测量误差引起的近似误差可能不会随着张量的顺序而指数增长。这些结果通过数值实验来验证,并且可能对高阶张量的交叉近似值(例如在量子多体状态的描述中遇到的)具有重要意义。
translated by 谷歌翻译
我们提出了一种基于有效的量化张量列表表示和广义最大矩阵音量原理的组合进行优化的新过程。我们证明了新的张量火车优化器(TTOPT)方法在各种任务中的适用性,从最小化多维功能到增强学习。我们的算法与流行的基于进化的方法进行了比较,并以函数评估或执行时间的数量(通常是大幅度的余量)优于它们。
translated by 谷歌翻译
低级张力完成已广泛用于计算机视觉和机器学习。本文开发了一种新型多模态核心张量分解(MCTF)方法,与张量低秩测量和该措施的更好的非凸弛豫形式(NC-MCTF)。所提出的模型编码由Tucker和T-SVD提供的一般张量的低秩见解,因此预计将在多个方向上同时模拟光谱低秩率,并准确地恢复基于几个观察到的条目的内在低秩结构的数据。此外,我们研究了MCTF和NC-MCTF正则化最小化问题,并设计了一个有效的块连续上限最小化(BSUM)算法来解决它们。该高效的求解器可以将MCTF扩展到各种任务,例如张量完成。一系列实验,包括高光谱图像(HSI),视频和MRI完成,确认了所提出的方法的卓越性能。
translated by 谷歌翻译
Low-rank matrix approximations, such as the truncated singular value decomposition and the rank-revealing QR decomposition, play a central role in data analysis and scientific computing. This work surveys and extends recent research which demonstrates that randomization offers a powerful tool for performing low-rank matrix approximation. These techniques exploit modern computational architectures more fully than classical methods and open the possibility of dealing with truly massive data sets.This paper presents a modular framework for constructing randomized algorithms that compute partial matrix decompositions. These methods use random sampling to identify a subspace that captures most of the action of a matrix. The input matrix is then compressed-either explicitly or implicitly-to this subspace, and the reduced matrix is manipulated deterministically to obtain the desired low-rank factorization. In many cases, this approach beats its classical competitors in terms of accuracy, speed, and robustness. These claims are supported by extensive numerical experiments and a detailed error analysis.The specific benefits of randomized techniques depend on the computational environment. Consider the model problem of finding the k dominant components of the singular value decomposition of an m × n matrix. (i) For a dense input matrix, randomized algorithms require O(mn log(k)) floating-point operations (flops) in contrast with O(mnk) for classical algorithms. (ii) For a sparse input matrix, the flop count matches classical Krylov subspace methods, but the randomized approach is more robust and can easily be reorganized to exploit multi-processor architectures. (iii) For a matrix that is too large to fit in fast memory, the randomized techniques require only a constant number of passes over the data, as opposed to O(k) passes for classical algorithms. In fact, it is sometimes possible to perform matrix approximation with a single pass over the data.
translated by 谷歌翻译
A simple nonrecursive form of the tensor decomposition in d dimensions is presented. It does not inherently suffer from the curse of dimensionality, it has asymptotically the same number of parameters as the canonical decomposition, but it is stable and its computation is based on lowrank approximation of auxiliary unfolding matrices. The new form gives a clear and convenient way to implement all basic operations efficiently. A fast rounding procedure is presented, as well as basic linear algebra operations. Examples showing the benefits of the decomposition are given, and the efficiency is demonstrated by the computation of the smallest eigenvalue of a 19-dimensional operator.
translated by 谷歌翻译
在本文中,我们在不同研究领域使用的三种模型之间存在联系:来自正式语言和语言学的加权有限自动机〜(WFA),机器学习中使用的经常性神经网络,以及张量网络,包括一组高处的优化技术量子物理学和数值分析中使用的顺序张量。我们首先介绍WFA与张力列车分解,特定形式的张量网络之间的内在关系。该关系允许我们展示由WFA计算的函数的Hankel矩阵的新型低级结构,并设计利用这种结构的有效光谱学习算法来扩展到非常大的Hankel矩阵。我们将解开基本连接在WFA和第二阶逆转神经网络之间〜(2-RNN):在离散符号的序列的情况下,具有线性激活功能的WFA和2-RNN是表现性的。利用该等效结果与加权自动机的经典频谱学习算法相结合,我们介绍了在连续输入向量序列上定义的线性2-RNN的第一可提供学习算法。本算法依赖于Hankel Tensor的低等级子块,可以从中可以从中恢复线性2-RNN的参数。在综合性和现实世界数据的仿真研究中评估了所提出的学习算法的性能。
translated by 谷歌翻译
我们提出了Tntorch,这是一个张量学习框架,该框架支持统一界面下的多个分解(包括CandeComp/Parafac,Tucker和Tensor Train)。借助我们的库,用户可以通过自动差异,无缝的GPU支持以及Pytorch的API的便利性学习和处理低排名的张量。除分解算法外,TNTORCH还实施可区分的张量代数,等级截断,交叉透视,批处理处理,全面的张量算术等。
translated by 谷歌翻译
张量稀疏建模是一种有希望的方法,在整个科学和工程学中,取得了巨大的成功。众所周知,实际应用中的各种数据通常由多种因素产生,因此使用张量表示包含多个因素内部结构的数据。但是,与矩阵情况不同,构建合理的稀疏度量张量是一项相对困难且非常重要的任务。因此,在本文中,我们提出了一种称为张量全功能度量(FFM)的新张量稀疏度度量。它可以同时描述张量的每个维度的特征信息以及两个维度之间的相关特征,并将塔克等级与张量管等级连接。这种测量方法可以更全面地描述张量的稀疏特征。在此基础上,我们建立了其非凸放松,并将FFM应用于低级张量完成(LRTC)和张量鲁棒的主成分分析(TRPCA)。提出了基于FFM的LRTC和TRPCA模型,并开发了两种有效的交替方向乘数法(ADMM)算法来求解所提出的模型。各种实际数值实验证实了超出最先进的方法的优势。
translated by 谷歌翻译
Kronecker产品的自然概括是Kronecker产品的张量Kronecker产品,在多个研究社区中独立出现。像它们的矩阵对应物一样,张量的概括为隐式乘法和分解定理提供了结构。我们提出了一个定理,该定理将张量kronecker产品的主要特征向量分解,这是从矩阵理论到张量特征向量的罕见概括。该定理意味着在kronecker产品的张量功率方法的迭代中应该存在低级结构。我们研究了网络对齐算法TAME中的低等级结构,这是一种功率方法启发式方法。直接或通过新的启发式嵌入方法使用低级结构,我们生成的新算法在提高或保持准确性的同时更快,并扩展到无法通过现有技术实际处理的问题。
translated by 谷歌翻译
在数据挖掘,神经科学和化学计量学在内的各个领域,分析各种数据集中的多路测量结果是一个挑战。例如,测量可能会随着时间的流逝而发展或具有不一致的时间曲线。 PARAFAC2模型已成功地用于分析此类数据,通过在一种模式(即演变模式)下允许基础因子矩阵跨切片进行更改。拟合PARAFAC2模型的传统方法是使用基于最小二乘的交替算法,该算法通过隐式估计不断发展的因子矩阵来处理Parafac2模型的恒定交叉产生约束。这种方法使对这些因素矩阵充满挑战。目前尚无算法可以灵活地将这种正规化施加,并具有一般的惩罚功能和硬性约束。为了应对这一挑战并避免隐性估计,在本文中,我们提出了一种算法,用于拟合PARAFAC2基于与乘数交替方向方法(AO-ADMM)的交替优化拟合parafac2。通过在模拟数据上进行数值实验,我们表明所提出的PARAFAC2 AO-ADMM方法允许灵活约束,准确地恢复了基础模式,并且与先进的ART相比,计算有效。我们还将模型应用于神经科学和化学计量学的两个现实世界数据集,并表明限制发展模式可改善提取模式的解释性。
translated by 谷歌翻译
我们提出了一个端到端的可训练框架,通过仅通过查看其条目的一小部分来处理大规模的视觉数据张量。我们的方法将神经网络编码器与张振火车分解组合以学习低级潜在编码,耦合与交叉近似(CA)耦合,以通过原始样本的子集学习表示。 CA是一种自适应采样算法,它是原产的张量分解,并避免明确地使用全高分辨率数据。相反,它主动选择我们获取核心和按需获取的本地代表性样本。所需数量的样本仅使用输入的大小对数进行对数。我们网络中的张量的隐式表示,可以处理在其未压缩形式中不能以其他方式丢失的大网格。所提出的方法对于大规模的多维网格数据(例如,3D断层扫描)以及需要在大型接收领域(例如,预测整个器官的医学条件)的任务,特别适用于需要上下文的任务。代码可在https://github.com/aelphy/c-pic中获得。
translated by 谷歌翻译
Tensor robust principal component analysis (RPCA), which seeks to separate a low-rank tensor from its sparse corruptions, has been crucial in data science and machine learning where tensor structures are becoming more prevalent. While powerful, existing tensor RPCA algorithms can be difficult to use in practice, as their performance can be sensitive to the choice of additional hyperparameters, which are not straightforward to tune. In this paper, we describe a fast and simple self-supervised model for tensor RPCA using deep unfolding by only learning four hyperparameters. Despite its simplicity, our model expunges the need for ground truth labels while maintaining competitive or even greater performance compared to supervised deep unfolding. Furthermore, our model is capable of operating in extreme data-starved scenarios. We demonstrate these claims on a mix of synthetic data and real-world tasks, comparing performance against previously studied supervised deep unfolding methods and Bayesian optimization baselines.
translated by 谷歌翻译
低等级张量完成(LRTC)问题引起了计算机视觉和信号处理的极大关注。如何获得高质量的图像恢复效果仍然是目前要解决的紧急任务。本文提出了一种新的张量$ l_ {2,1} $最小化模型(TLNM),该模型(TLNM)集成了总和核标准(SNN)方法,与经典的张量核定常(TNN)基于张量的张量完成方法不同,与$ L_ { 2,1} $ norm和卡塔尔里亚尔分解用于解决LRTC问题。为了提高图像的局部先验信息的利用率,引入了总变化(TV)正则化项,从而导致一类新的Tensor $ L_ {2,1} $ NORM Minimization,总变量模型(TLNMTV)。两个提出的模型都是凸,因此具有全局最佳解决方案。此外,我们采用交替的方向乘数法(ADMM)来获得每个变量的封闭形式解,从而确保算法的可行性。数值实验表明,这两种提出的算法是收敛性的,比较优于方法。特别是,当高光谱图像的采样率为2.5 \%时,我们的方法显着优于对比方法。
translated by 谷歌翻译
我们考虑在未知排列存在下存在的结构化张量的问题。这些数据问题通常在推荐系统,神经影像学,社区检测和多道比较应用中出现。在这里,我们开发了一般的平滑张量模型,直到任意指数排列;该模型包括流行的张量块模型和Lipschitz超图模型作为特殊情况。我们表明,块明智多项式家族中的约束最小二乘估计值实现了最小的误差。相对于最佳恢复所需的平滑度阈值,揭示了相变现象。特别是,我们发现高达$(m-2)(m + 1)/ 2 $的多项式,足以准确地恢复订单 - $ M $张力,而更高的程度则没有进一步的益处。这种现象揭示了具有和没有未知排列的平滑张量估计问题的内在区别。此外,我们提供了一种有效的多项式BORDA计数算法,可在单调性假设下可被证明可以实现最佳率。通过模拟和芝加哥犯罪数据分析证明了我们的程序的功效。
translated by 谷歌翻译