矩阵近似是大规模代数机器学习方法中的关键元件。最近提出的方法Meka(Si等人,2014)有效地使用了希尔伯特空间中的两个常见假设:通过固有的换档内核功能和数据紧凑性假设获得的内部产品矩阵的低秩属性块集群结构。在这项工作中,我们不仅适用于换档内核,而且扩展Meka,而且还适用于多项式内核和极端学习内核等非静止内核。我们还详细介绍了如何在MEKA中处理非正面半定位内核功能,由近似自身或故意使用通用内核功能引起的。我们展示了一种基于兰兹的估计频谱转变,以发展稳定的正半定梅卡近似,也可用于经典凸优化框架。此外,我们支持我们的调查结果,具有理论考虑因素和各种综合性和现实世界数据的实验。
translated by 谷歌翻译
Low-rank matrix approximations, such as the truncated singular value decomposition and the rank-revealing QR decomposition, play a central role in data analysis and scientific computing. This work surveys and extends recent research which demonstrates that randomization offers a powerful tool for performing low-rank matrix approximation. These techniques exploit modern computational architectures more fully than classical methods and open the possibility of dealing with truly massive data sets.This paper presents a modular framework for constructing randomized algorithms that compute partial matrix decompositions. These methods use random sampling to identify a subspace that captures most of the action of a matrix. The input matrix is then compressed-either explicitly or implicitly-to this subspace, and the reduced matrix is manipulated deterministically to obtain the desired low-rank factorization. In many cases, this approach beats its classical competitors in terms of accuracy, speed, and robustness. These claims are supported by extensive numerical experiments and a detailed error analysis.The specific benefits of randomized techniques depend on the computational environment. Consider the model problem of finding the k dominant components of the singular value decomposition of an m × n matrix. (i) For a dense input matrix, randomized algorithms require O(mn log(k)) floating-point operations (flops) in contrast with O(mnk) for classical algorithms. (ii) For a sparse input matrix, the flop count matches classical Krylov subspace methods, but the randomized approach is more robust and can easily be reorganized to exploit multi-processor architectures. (iii) For a matrix that is too large to fit in fast memory, the randomized techniques require only a constant number of passes over the data, as opposed to O(k) passes for classical algorithms. In fact, it is sometimes possible to perform matrix approximation with a single pass over the data.
translated by 谷歌翻译
最近开发的基于矩阵的renyi的熵能够通过在再现内核Hilbert空间中的对称正半明确(PSD)矩阵中的EigensPectrum,而无需估计基础数据分布的情况下,能够测量数据中的信息。这种有趣的属性使得新信息测量在多种统计推理和学习任务中广泛采用。然而,这种数量的计算涉及PSD矩阵$ G $的跟踪运算符,以便为电源$ \ alpha $(即$ tr(g ^ \ alpha)$),具有近O $ o的正常复杂性(n ^ 3 )$,当样品数量(即$ N $)大时,严重妨碍了它的实际用法。在这项工作中,我们向这种新的熵功能呈现计算有效的近似,这可以降低其复杂性,以明显不到$ O(n ^ 2)$。为此,我们首先将随机近似为$ \ tr(\ g ^ \ alpha)$,将跟踪估计转换为矩阵矢量乘法问题。我们扩展了$ \ Alpha $(整数或非整数)的任意值策略。然后,我们建立基于矩阵的renyi的熵和PSD矩阵近似之间的连接,这使我们能够利用群集和阻止$ \ g $的低级结构来进一步降低计算成本。理论上我们提供近似精度保证并说明不同近似的属性。综合性和现实数据的大规模实验评估证实了我们的理论发现,展示了有希望的加速,准确性可忽略不计。
translated by 谷歌翻译
我们研究了自然语言处理中出现的近似对相似矩阵的算法。通常,计算$ N $数据点的相似性矩阵需要$ \ omega(n ^ 2)$相似计算。这种二次缩放是一个重要的瓶颈,尤其是当通过昂贵的功能计算相似性时,例如,通过变压器模型计算。近似方法通过使用恰好计算的相似性的小子集来减少这种二次复杂性,以近似于完整成对相似性矩阵的其余部分。大量工作侧重于正半纤维(PSD)相似矩阵的有效近似,其在内核方法中。然而,关于无限期(非PSD)相似性矩阵的较少被理解得更少,这通常在NLP中产生。通过观察到,许多这些矩阵仍然有点接近PSD,我们将流行的NYSTR \“{o} M方法介绍到无限制地的概述。我们的算法可以应用于任何相似性矩阵并在Sublinear时间运行在矩阵的大小中,使用仅$ O(ns)$相似性计算产生秩的等级$近似。我们表明我们的方法以及CR Cur分解的简单变体,在近似各种相似度方面表现得非常好在NLP任务中产生的矩阵。我们在文档分类,句子相似度和跨文档COREREFED的下游任务中展示了近似相似性矩阵的高精度。
translated by 谷歌翻译
通常,与线性的相比,非线性支持向量机(SVM)产生显着更高的分类质量,但同时,它们的计算复杂性对大规模数据集无禁止:该缺点基本上与存储和操纵大的必要性有关,密集和非结构化的内核矩阵。尽管在训练的核心训练中有一个SVM有一个\ Texit {简单}凸优化问题,但是内核矩阵的存在负责戏剧性的性能,使SVMS不受高慢的速度。针对大规模非线性SVM问题的有效解决方案,我们提出了使用\ Textit {交替的乘法器方法}与\ Textit {分层半分离}(HSS)内核近似耦合使用。如本作工作所示,对其算法组件之间的相互作用的详细分析推出了一个特别有效的框架,实际上,所呈现的实验结果与\ Textit {最先进}非线性相比,显着的速度表现出显着的加速SVM库(不显着影响分类准确性)。
translated by 谷歌翻译
We investigate the problem of recovering a partially observed high-rank matrix whose columns obey a nonlinear structure such as a union of subspaces, an algebraic variety or grouped in clusters. The recovery problem is formulated as the rank minimization of a nonlinear feature map applied to the original matrix, which is then further approximated by a constrained non-convex optimization problem involving the Grassmann manifold. We propose two sets of algorithms, one arising from Riemannian optimization and the other as an alternating minimization scheme, both of which include first- and second-order variants. Both sets of algorithms have theoretical guarantees. In particular, for the alternating minimization, we establish global convergence and worst-case complexity bounds. Additionally, using the Kurdyka-Lojasiewicz property, we show that the alternating minimization converges to a unique limit point. We provide extensive numerical results for the recovery of union of subspaces and clustering under entry sampling and dense Gaussian sampling. Our methods are competitive with existing approaches and, in particular, high accuracy is achieved in the recovery using Riemannian second-order methods.
translated by 谷歌翻译
从大型套装中选择不同的和重要的项目,称为地标是机器学习兴趣的问题。作为一个具体示例,为了处理大型训练集,内核方法通常依赖于基于地标的选择或采样的低等级矩阵NYSTR \“OM近似值。在此上下文中,我们提出了一个确定性和随机的自适应算法在培训数据集中选择地标点。这些地标与克尼利克里斯特步函数序列的最小值有关。除了ChristOffel功能和利用分数之间的已知联系,我们的方法也有限决定性点过程(DPP)也是如此解释。即,我们的建设以类似于DPP的方式促进重要地标点之间的多样性。此外,我们解释了我们的随机自适应算法如何影响内核脊回归的准确性。
translated by 谷歌翻译
A general, {\em rectangular} kernel matrix may be defined as $K_{ij} = \kappa(x_i,y_j)$ where $\kappa(x,y)$ is a kernel function and where $X=\{x_i\}_{i=1}^m$ and $Y=\{y_i\}_{i=1}^n$ are two sets of points. In this paper, we seek a low-rank approximation to a kernel matrix where the sets of points $X$ and $Y$ are large and are not well-separated (e.g., the points in $X$ and $Y$ may be ``intermingled''). Such rectangular kernel matrices may arise, for example, in Gaussian process regression where $X$ corresponds to the training data and $Y$ corresponds to the test data. In this case, the points are often high-dimensional. Since the point sets are large, we must exploit the fact that the matrix arises from a kernel function, and avoid forming the matrix, and thus ruling out most algebraic techniques. In particular, we seek methods that can scale linearly, i.e., with computational complexity $O(m)$ or $O(n)$ for a fixed accuracy or rank. The main idea in this paper is to {\em geometrically} select appropriate subsets of points to construct a low rank approximation. An analysis in this paper guides how this selection should be performed.
translated by 谷歌翻译
内核矩阵在许多学习任务中至关重要,例如支持向量机或内核RIDGE回归。内核矩阵通常是密集和大规模的。根据特征空间的维度,即使在合理的时间内计算所有条目的计算也是一个具有挑战性的任务。对于这种密集的矩阵,如果没有应用自定义方法,则矩阵矢量产品的成本在条目的数量上逐步缩放。我们提出了使用ANOVA内核,在那里我们基于低维特征空间构造多个内核,我们提供了实现矩阵矢量产品的快速算法。我们采用非平稳的快速傅立叶变换(NFFT),这是针对固定精度的线性复杂性。基于特征分组方法,我们将展示如何嵌入快速矩阵矢量产品如何嵌入到选择内核脊回归的学习方法和预处理的共轭梯度求解器中。我们说明了我们在几种数据集上的方法的性能。
translated by 谷歌翻译
NYSTR \“ OM方法是提高内核方法可伸缩性的最流行技术之一。但是,它尚未与经典PCA一致的核PCA得出。在本文中,我们使用NyStr \”来得出核PCA。OM方法,从而提供了使内核PCA可扩展的少数可用选项之一。我们通过与完整方法相比,通过有限样本的置信度结合了经验重建误差,进一步研究其统计精度。该方法和绑定的行为通过在多个现实世界数据集上的计算机实验进行说明。作为该方法的应用,我们使用NyStr \“ Om方法表示内核主成分回归,作为NyStr \“ Om内核脊回归的替代方案,可用于使用核有效正规化回归。
translated by 谷歌翻译
This survey provides an overview of higher-order tensor decompositions, their applications, and available software. A tensor is a multidimensional or N -way array. Decompositions of higher-order tensors (i.e., N -way arrays with N ≥ 3) have applications in psychometrics, chemometrics, signal processing, numerical linear algebra, computer vision, numerical analysis, data mining, neuroscience, graph analysis, and elsewhere. Two particular tensor decompositions can be considered to be higher-order extensions of the matrix singular value decomposition: CANDECOMP/PARAFAC (CP) decomposes a tensor as a sum of rank-one tensors, and the Tucker decomposition is a higher-order form of principal component analysis. There are many other tensor decompositions, including INDSCAL, PARAFAC2, CANDELINC, DEDICOM, and PARATUCK2 as well as nonnegative variants of all of the above. The N-way Toolbox, Tensor Toolbox, and Multilinear Engine are examples of software packages for working with tensors.
translated by 谷歌翻译
本文缩小了先前有关量子线性代数的文献与量子计算机上的实用数据分析之间的差异,从而使量子程序形式化,以加快机器学习中数据表示的本本本特征的解决方案。这些子例程的功率和实际用途通过新的量子算法(输入矩阵的大小中的sublinear)显示,用于主成分分析,通信分析和潜在的语义分析。我们提供了对运行时的理论分析,并在随机算法的误差上证明了紧密的界限。我们在多个数据集上运行实验,以模拟PCA的尺寸减小,以通过新型例程进行图像分类。结果表明,不依赖输入的大小的运行时参数是合理的,并且计算模型上的错误很小,从而允许竞争性分类性能。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
随机傅立叶特征(RFF)方法是内核方法可扩展性的强大而流行的技术。 RFF的理论基础是基于将对称,正定(PD)函数与概率度量相关联的Bochner定理。这种条件自然排除了在实践中具有广泛应用的不对称函数,例如有向图,条件概率和不对称内核。然而,从理论和经验上尚不清楚理解不对称函数(内核)及其通过RFF的可伸缩性尚不清楚。在本文中,我们引入了一种复杂的度量,其真实和虚构部分对应于四个有限的正措施,从而扩大了Bochner定理的应用范围。通过这样做,该框架允许通过一种积极度量来处理经典的对称,PD内核;通过签名措施对称,非阳性的确定内核;并通过复杂的措施通过不对称内核,从而将它们统一为RFF的一般框架,称为Ask-RFF。从统一收敛的角度来看,通过复杂措施通过复杂度量的这种近似方案享有理论保证。在算法实现中,由于总质量的计算而加快内核近似过程,这是昂贵的,我们采用了一种基于子集的快速估计方法,可优化子训练集中的总质量。我们的ask-rffs方法在几个典型的大规模数据集上得到了经验验证,并实现了有希望的内核近似性能,这证明了Ask-RFF的有效性。
translated by 谷歌翻译
量子计算有可能彻底改变和改变我们的生活和理解世界的方式。该审查旨在提供对量子计算的可访问介绍,重点是统计和数据分析中的应用。我们从介绍了了解量子计算所需的基本概念以及量子和经典计算之间的差异。我们描述了用作量子算法的构建块的核心量子子程序。然后,我们审查了一系列预期的量子算法,以便在统计和机器学习中提供计算优势。我们突出了将量子计算应用于统计问题的挑战和机遇,并讨论潜在的未来研究方向。
translated by 谷歌翻译
The accuracy of k-nearest neighbor (kNN) classification depends significantly on the metric used to compute distances between different examples. In this paper, we show how to learn a Mahalanobis distance metric for kNN classification from labeled examples. The Mahalanobis metric can equivalently be viewed as a global linear transformation of the input space that precedes kNN classification using Euclidean distances. In our approach, the metric is trained with the goal that the k-nearest neighbors always belong to the same class while examples from different classes are separated by a large margin. As in support vector machines (SVMs), the margin criterion leads to a convex optimization based on the hinge loss. Unlike learning in SVMs, however, our approach requires no modification or extension for problems in multiway (as opposed to binary) classification. In our framework, the Mahalanobis distance metric is obtained as the solution to a semidefinite program. On several data sets of varying size and difficulty, we find that metrics trained in this way lead to significant improvements in kNN classification. Sometimes these results can be further improved by clustering the training examples and learning an individual metric within each cluster. We show how to learn and combine these local metrics in a globally integrated manner.
translated by 谷歌翻译
低精度算术对神经网络的训练产生了变革性的影响,从而减少了计算,记忆和能量需求。然而,尽管有希望,低精确的算术对高斯流程(GPS)的关注很少,这主要是因为GPS需要在低精确度中不稳定的复杂线性代数例程。我们研究以一半精度训练GP时可能发生的不同故障模式。为了避免这些故障模式,我们提出了一种多方面的方法,该方法涉及具有重新构造,混合精度和预处理的共轭梯度。我们的方法大大提高了低精度在各种设置中的偶联梯度的数值稳定性和实践性能,从而使GPS能够在单个GPU上以10美元的$ 10 $ 10 $ 10 $ 10 $ 10的数据点进行培训,而没有任何稀疏的近似值。
translated by 谷歌翻译
在本文中,我们提供了有关Hankel低级近似和完成工作的综述和书目,特别强调了如何将这种方法用于时间序列分析和预测。我们首先描述问题的可能表述,并就获得全球最佳解决方案的相关主题和挑战提供评论。提供了关键定理,并且纸张以一些说明性示例关闭。
translated by 谷歌翻译
光谱聚类是网络中广泛使用的社区检测方法之一。然而,大型网络为其中的特征值分解带来了计算挑战。在本文中,我们研究了从统计角度使用随机草图算法的光谱聚类,在那里我们通常假设网络数据是从随机块模型生成的,这些模型不一定是完整等级的。为此,我们首先使用最近开发的草图算法来获得两个随机谱聚类算法,即基于随机投影和基于随机采样的光谱聚类。然后,我们在群体邻接矩阵的近似误差,错误分类误差和链路概率矩阵的估计误差方面研究得到的算法的理论界限。事实证明,在温和条件下,随机谱聚类算法导致与原始光谱聚类算法相同的理论界。我们还将结果扩展到校正的程度校正的随机块模型。数值实验支持我们的理论发现并显示随机化方法的效率。一个名为rclusct的新R包是开发的,并提供给公众。
translated by 谷歌翻译
我们提出了一个算法框架,用于近距离矩阵上的量子启发的经典算法,概括了Tang的突破性量子启发算法开始的一系列结果,用于推荐系统[STOC'19]。由量子线性代数算法和gily \'en,su,low和wiebe [stoc'19]的量子奇异值转换(SVT)框架[SVT)的动机[STOC'19],我们开发了SVT的经典算法合适的量子启发的采样假设。我们的结果提供了令人信服的证据,表明在相应的QRAM数据结构输入模型中,量子SVT不会产生指数量子加速。由于量子SVT框架基本上概括了量子线性代数的所有已知技术,因此我们的结果与先前工作的采样引理相结合,足以概括所有有关取消量子机器学习算法的最新结果。特别是,我们的经典SVT框架恢复并经常改善推荐系统,主成分分析,监督聚类,支持向量机器,低秩回归和半决赛程序解决方案的取消结果。我们还为汉密尔顿低级模拟和判别分析提供了其他取消化结果。我们的改进来自识别量子启发的输入模型的关键功能,该模型是所有先前量子启发的结果的核心:$ \ ell^2 $ -Norm采样可以及时近似于其尺寸近似矩阵产品。我们将所有主要结果减少到这一事实,使我们的简洁,独立和直观。
translated by 谷歌翻译