智能论文笔记

Riemannian statistics meets random matrix theory: towards learning from high-dimensional covariance matrices

Salem Said , Simon Heuveline , Cyrus Mostajeran

分类： (统计)机器学习

2022-03-01

Riemannian Gaussian distributions were initially introduced as basic building blocks for learning models which aim to capture the intrinsic structure of statistical populations of positive-definite matrices (here called covariance matrices). While the potential applications of such models have attracted significant attention, a major obstacle still stands in the way of these applications: there seems to exist no practical method of computing the normalising factors associated with Riemannian Gaussian distributions on spaces of high-dimensional covariance matrices. The present paper shows that this missing method comes from an unexpected new connection with random matrix theory. Its main contribution is to prove that Riemannian Gaussian distributions of real, complex, or quaternion covariance matrices are equivalent to orthogonal, unitary, or symplectic log-normal matrix ensembles. This equivalence yields a highly efficient approximation of the normalising factors, in terms of a rather simple analytic expression. The error due to this approximation decreases like the inverse square of dimension. Numerical experiments are conducted which demonstrate how this new approximation can unlock the difficulties which have impeded applications to real-world datasets of high-dimensional covariance matrices. The paper then turns to Riemannian Gaussian distributions of block-Toeplitz covariance matrices. These are equivalent to yet another kind of random matrix ensembles, here called "acosh-normal" ensembles. Orthogonal and unitary "acosh-normal" ensembles correspond to the cases of block-Toeplitz with Toeplitz blocks, and block-Toeplitz (with general blocks) covariance matrices, respectively.

translated by 谷歌翻译

Universal Approximation Theorems for Differentiable Geometric Deep Learning

Anastasis Kratsios , Leonie Papon

分类：机器学习

2021-01-13

本文通过引入几何深度学习（GDL）框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型，从而解决了对非欧国人数据进行处理的需求。我们表明，我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反，我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数，任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件，确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现，任何“现实世界”（即有限）数据集始终满足我们的状况，相反，如果目标函数平滑，则任何数据集都满足我们的要求。作为应用，我们确认了以下GDL模型的通用近似功能：Ganea等。（2018）的双波利馈电网络，实施Krishnan等人的体系结构。（2015年）的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了：Meyer等人的SPD-Matrix回归剂的通用扩展/变体。（2011）和Fletcher（2003）的Procrustean回归剂。在欧几里得的环境中，我们的结果暗示了Kidger和Lyons（2020）的近似定理和Yarotsky和Zhevnerchuk（2019）无估计近似率的数据依赖性版本的定量版本。

translated by 谷歌翻译

Embedding Functional Data: Multidimensional Scaling and Manifold Learning

Ery Arias-Castro , Wanli Qiao

分类：机器学习

2022-08-30

我们将最初在多维扩展和降低多元数据的降低领域发展为功能设置。我们专注于经典缩放和ISOMAP - 在这些领域中起重要作用的原型方法 - 并在功能数据分析的背景下展示它们的使用。在此过程中，我们强调了环境公制扮演的关键作用。

translated by 谷歌翻译

Riemannian Diffusion Models

Chin-Wei Huang , Milad Aghajohari , Avishek Joey Bose , Prakash Panangaden , Aaron Courville

分类：机器学习

2022-08-16

扩散模型是图像产生和似然估计的最新方法。在这项工作中，我们将连续的时间扩散模型推广到任意的Riemannian流形，并得出了可能性估计的变异框架。在计算上，我们提出了计算可能性估计中需要的黎曼分歧的新方法。此外，在概括欧几里得案例时，我们证明，最大化该变异的下限等效于Riemannian得分匹配。从经验上讲，我们证明了Riemannian扩散模型在各种光滑的歧管上的表达能力，例如球体，Tori，双曲线和正交组。我们提出的方法在所有基准测试基准上实现了新的最先进的可能性。

translated by 谷歌翻译

Provably efficient variational generative modeling of quantum many-body systems via quantum-probabilistic information geometry

Faris M. Sbahi , Antonio J. Martinez , Sahil Patel , Dmitri Saberi , Jae Hyeon Yoo , Geoffrey Roeder , Guillaume Verdon

分类：机器学习 | (统计)机器学习

2022-06-09

量子哈密顿学习和量子吉布斯采样的双重任务与物理和化学中的许多重要问题有关。在低温方案中，这些任务的算法通常会遭受施状能力，例如因样本或时间复杂性差而遭受。为了解决此类韧性，我们将量子自然梯度下降的概括引入了参数化的混合状态，并提供了稳健的一阶近似算法，即量子 - 固定镜下降。我们使用信息几何学和量子计量学的工具证明了双重任务的数据样本效率，因此首次将经典Fisher效率的开创性结果推广到变异量子算法。我们的方法扩展了以前样品有效的技术，以允许模型选择的灵活性，包括基于量子汉密尔顿的量子模型，包括基于量子的模型，这些模型可能会规避棘手的时间复杂性。我们的一阶算法是使用经典镜下降二元性的新型量子概括得出的。两种结果都需要特殊的度量选择，即Bogoliubov-Kubo-Mori度量。为了从数值上测试我们提出的算法，我们将它们的性能与现有基准进行了关于横向场ISING模型的量子Gibbs采样任务的现有基准。最后，我们提出了一种初始化策略，利用几何局部性来建模状态的序列（例如量子 - 故事过程）的序列。我们从经验上证明了它在实际和想象的时间演化的经验上，同时定义了更广泛的潜在应用。

translated by 谷歌翻译

Statistical limits of dictionary learning: random matrix theory and the spectral replica method

Jean Barbier , Nicolas Macris

分类：机器学习

2021-09-14

我们认为越来越复杂的矩阵去噪和贝叶斯最佳设置中的文章学习模型，在挑战性的政权中，在矩阵推断出与系统尺寸线性的排名增加。这与大多数现有的文献相比，与低秩（即常数级别）制度相关的文献相反。我们首先考虑一类旋转不变的矩阵去噪，使用来自随机矩阵理论的标准技术来计算的互动信息和最小均方误差。接下来，我们分析了字典学习的更具挑战性模式。为此，我们将复制方法与随机矩阵理论一起介绍了复制品方法的新组合，共同矩阵理论，Coined光谱副本方法。它允许我们猜测隐藏表示与字典学习问题的嘈杂数据之间的相互信息的变分形式，以及定量最佳重建误差的重叠。所提出的方法从$ \ theta（n ^ 2）$（矩阵条目）到$ \ theta（n）$（特征值或奇异值）减少自由度的数量，并产生的互信息的库仑气体表示让人想起物理学中的矩阵模型。主要成分是使用Harishchandra-Itzykson-Zuber球形积分，结合新的复制对称解耦Ansatz，在特定重叠矩阵的特征值（或奇异值）的概率分布的水平上。

translated by 谷歌翻译

A Geometric Modeling of Occam's Razor in Deep Learning

Ke Sun , Frank Nielsen

分类：机器学习 | (统计)机器学习

2019-05-27

为什么深神经网络（DNN）受益于非常高的维度参数空间？他们的巨大参数复杂性与实践中的惊人表演是使用标准常规模型理论的更具迷恋和无法解释的。在这项工作中，我们提出了一种几何风味的信息 - 理论方法来研究这种现象。即，我们通过考虑Fisher信息矩阵的显着尺寸的数量来介绍神经网络模型的参数空间的局部变化维度，并使用奇异半riemannian几何框架将参数空间模拟作为歧管的参数空间。我们推出模型复杂度措施，其基于奇点分析产生深度神经网络模型的简短描述长度，因此尽管有大量参数，但是尽管有大量的参数，但是尽管有大量的参数来解释DNN的良好性能。

translated by 谷歌翻译

Stationary Kernels and Gaussian Processes on Lie Groups and their Homogeneous Spaces I: the Compact Case

Iskander Azangulov , Andrei Smolensky , Alexander Terenin , Viacheslav Borovitskiy

分类：机器学习 | (统计)机器学习

2022-08-31

高斯过程可以说是空间统计中最重要的模型类别。他们编码有关建模功能的先前信息，可用于精确或近似贝叶斯推断。在许多应用中，尤其是在物理科学和工程中，以及在诸如地统计和神经科学等领域，对对称性的不变性是人们可以考虑的先前信息的最基本形式之一。高斯工艺与这种对称性的协方差的不变性导致了对此类空间平稳性概念的最自然概括。在这项工作中，我们开发了建设性和实用的技术，用于在在对称的背景下产生的一大批非欧基人空间上构建固定的高斯工艺。我们的技术使（i）以实用的方式计算（i）计算在此类空间上定义的先验和后高斯过程中的协方差内核和（ii）。这项工作分为两部分，每个部分涉及不同的技术考虑：第一部分研究紧凑的空间，而第二部分研究的非紧密空间具有某些结构。我们的贡献使我们研究的非欧亚人高斯流程模型与标准高斯流程软件包中可用的良好计算技术兼容，从而使从业者可以访问它们。

translated by 谷歌翻译

Riemannian optimization for non-centered mixture of scaled Gaussian distributions

Antoine Collas , Arnaud Breloy , Chengfang Ren , Guillaume Ginolhac , Jean-Philippe Ovarlez

分类：机器学习

2022-09-07

本文研究了鳞状高斯分布（NC-MSG）的非中心混合物的统计模型。使用与此分布相关的Fisher-Rao信息几何形状，我们得出了Riemannian梯度下降算法。该算法用于两个最小化问题。第一个是最小化正规化对数可能性（NLL）。后者使白色高斯分布与NC-MSG之间的权衡。给出了正则化的条件，以便在没有样本上的假设的情况下保证了该问题的最低限度。然后，得出了两个NC-MSG之间的Kullback-Leibler（KL）差异。这种差异使我们能够定义一个最小化问题，以计算几个NC-MSG的质量中心。提出的Riemannian梯度下降算法被利用以解决第二个最小化问题。数值实验表明了这两个问题的良好性能和riemannian梯度下降的速度。最后，实施了最接近的质心分类器，利用KL Divergence及其相关的质量中心。该分类器应用于大型数据集Breizhcrops，显示出良好的精度以及对测试集的刚性转换的稳健性。

translated by 谷歌翻译

A rigorous introduction to linear models

Jun Lu

分类：机器学习 | (统计)机器学习

2021-05-10

这项调查旨在提供线性模型及其背后的理论的介绍。我们的目标是对读者进行严格的介绍，并事先接触普通最小二乘。在机器学习中，输出通常是输入的非线性函数。深度学习甚至旨在找到需要大量计算的许多层的非线性依赖性。但是，这些算法中的大多数都基于简单的线性模型。然后，我们从不同视图中描述线性模型，并找到模型背后的属性和理论。线性模型是回归问题中的主要技术，其主要工具是最小平方近似，可最大程度地减少平方误差之和。当我们有兴趣找到回归函数时，这是一个自然的选择，该回归函数可以最大程度地减少相应的预期平方误差。这项调查主要是目的的摘要，即线性模型背后的重要理论的重要性，例如分布理论，最小方差估计器。我们首先从三种不同的角度描述了普通的最小二乘，我们会以随机噪声和高斯噪声干扰模型。通过高斯噪声，该模型产生了可能性，因此我们引入了最大似然估计器。它还通过这种高斯干扰发展了一些分布理论。最小二乘的分布理论将帮助我们回答各种问题并引入相关应用。然后，我们证明最小二乘是均值误差的最佳无偏线性模型，最重要的是，它实际上接近了理论上的极限。我们最终以贝叶斯方法及以后的线性模型结束。

translated by 谷歌翻译

Pen and Paper Exercises in Machine Learning

Michael U. Gutmann

分类：机器学习 | (统计)机器学习

2022-06-27

这是机器学习中（主要是）笔和纸练习的集合。练习在以下主题上：线性代数，优化，定向图形模型，无向图形模型，图形模型的表达能力，因子图和消息传递，隐藏马尔可夫模型的推断，基于模型的学习（包括ICA和非正态模型），采样和蒙特卡洛整合以及变异推断。

translated by 谷歌翻译

Asymptotic Normality of Log Likelihood Ratio and Fundamental Limit of the Weak Detection for Spiked Wigner Matrices

Hye Won Chung , Jiho Lee , Ji Oon Lee

分类： (统计)机器学习

2022-03-02

我们考虑在排名一的尖刺模型中检测信号的存在的问题。对于一般的非高斯噪声，假设信号是从rademacher先验中汲取的，我们证明，当信号噪声比率低于信号噪声时，尖峰模型的对数可能性比（LR）收敛到高斯一定的阈值。阈值是最佳的，因为在其上方，可以通过转换的主组件分析（PCA）进行可靠的检测。从对数LR的限制高斯的平均值和方差，我们计算了I型误差之和的限制以及似然比测试的类型II误差。对于噪声不对称，但信号是对称的，我们还证明了一个排名一的尖峰IID模型的结果相似。

translated by 谷歌翻译

Side-effects of Learning from Low Dimensional Data Embedded in an Euclidean Space

Juncai He , Richard Tsai , Rachel Ward

分类：机器学习 | (统计)机器学习

2022-03-01

低维歧管假设认为，在许多应用中发现的数据，例如涉及自然图像的数据（大约）位于嵌入高维欧几里得空间中的低维歧管上。在这种情况下，典型的神经网络定义了一个函数，该函数在嵌入空间中以有限数量的向量作为输入。但是，通常需要考虑在训练分布以外的点上评估优化网络。本文考虑了培训数据以$ \ mathbb r^d $的线性子空间分配的情况。我们得出对由神经网络定义的学习函数变化的估计值，沿横向子空间的方向。我们研究了数据歧管的编纂中与网络的深度和噪声相关的潜在正则化效应。由于存在噪声，我们还提出了训练中的其他副作用。

translated by 谷歌翻译

Intrinsic Universal Measurements of Non-linear Embeddings

Ke Sun

分类：机器学习 | (统计)机器学习

2018-11-05

机器学习中的一个基本问题是从低维潜在空间$ \ MATHCAL {y} $找到映射$ f $到高维观察空间$ \ MATHCAL {x} $。深层神经网络等现代工具能够代表一般的非线性映射。学习者可以轻松找到完美适合所有观察结果的映射。但是，这样的映射通常不被认为是好的，因为它不够简单并且可以过度合适。如何定义简单性？我们试图对非线性映射$ f $施加的信息量进行正式定义。直观地，我们测量了回溯几何形状和潜在空间的内在几何形状之间的局部差异。我们的定义基于信息几何形状，并且独立于经验观察，也不是特定的参数化。我们证明其基本属性，并与相关的机器学习方法讨论关系。

translated by 谷歌翻译

Metropolis Monte Carlo sampling: convergence, localization transition and optimality

Alexei D. Chepelianskii , Satya N. Majumdar , Hendrik Schawe , Emmanuel Trizac

分类：机器学习

2022-07-21

在随机抽样方法中，马尔可夫链蒙特卡洛算法是最重要的。在随机行走都市方案中，我们利用分析方法和数值方法的结合研究了它们的收敛性能。我们表明，偏离目标稳态分布的偏差特征是定位过渡的函数，这是定义随机步行的尝试跳跃的特征长度。该过渡大大改变了误差，而误差是通过不完整的收敛引入的，并区分了两个方案，其中弛豫机制分别受扩散和排斥分别受到限制。

translated by 谷歌翻译

Riemannian Optimization via Frank-Wolfe Methods

Melanie Weber , Suvrit Sra

分类：机器学习

2017-10-30

我们研究无限制的黎曼优化的免投影方法。特别是，我们提出了黎曼弗兰克 - 沃尔夫（RFW）方法。我们将RFW的非渐近收敛率分析为最佳（高音）凸起问题，以及非凸起目标的临界点。我们还提出了一种实用的设置，其中RFW可以获得线性收敛速度。作为一个具体的例子，我们将RFW专用于正定矩阵的歧管，并将其应用于两个任务：（i）计算矩阵几何平均值（riemannian质心）; （ii）计算Bures-Wasserstein重心。这两个任务都涉及大量凸间间隔约束，为此，我们表明RFW要求的Riemannian“线性”Oracle承认了闭合形式的解决方案;该结果可能是独立的兴趣。我们进一步专门从事RFW到特殊正交组，并表明这里也可以以封闭形式解决riemannian“线性”甲骨文。在这里，我们描述了数据矩阵同步的应用程序（促使问题）。我们补充了我们的理论结果，并对RFW对最先进的riemananian优化方法进行了实证比较，并观察到RFW竞争性地对计算黎曼心质的任务进行竞争性。

translated by 谷歌翻译

An Introduction to Modern Statistical Learning

Joseph G. Makin

分类：机器学习

2022-07-20

这项正在进行的工作旨在为统计学习提供统一的介绍，从诸如GMM和HMM等经典模型到现代神经网络（如VAE和扩散模型）缓慢地构建。如今，有许多互联网资源可以孤立地解释这一点或新的机器学习算法，但是它们并没有（也不能在如此简短的空间中）将这些算法彼此连接起来，或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统，尽管对那些已经熟悉材料的人（如这些帖子的作者）不满意，但对新手的入境造成了重大障碍。同样，我的目的是将各种模型（尽可能）吸收到一个用于推理和学习的框架上，表明（以及为什么）如何以最小的变化将一个模型更改为另一个模型（其中一些是新颖的，另一些是文献中的）。某些背景当然是必要的。我以为读者熟悉基本的多变量计算，概率和统计以及线性代数。这本书的目标当然不是完整性，而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后，目标是补充而不是替换，诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本，该文本现在已经15岁了。

translated by 谷歌翻译

Finding structure with randomness: Probabilistic algorithms for constructing approximate matrix decompositions

Nathan Halko , Per-Gunnar Martinsson , Joel A. Tropp

分类：

2009-09-22

Low-rank matrix approximations, such as the truncated singular value decomposition and the rank-revealing QR decomposition, play a central role in data analysis and scientific computing. This work surveys and extends recent research which demonstrates that randomization offers a powerful tool for performing low-rank matrix approximation. These techniques exploit modern computational architectures more fully than classical methods and open the possibility of dealing with truly massive data sets.This paper presents a modular framework for constructing randomized algorithms that compute partial matrix decompositions. These methods use random sampling to identify a subspace that captures most of the action of a matrix. The input matrix is then compressed-either explicitly or implicitly-to this subspace, and the reduced matrix is manipulated deterministically to obtain the desired low-rank factorization. In many cases, this approach beats its classical competitors in terms of accuracy, speed, and robustness. These claims are supported by extensive numerical experiments and a detailed error analysis.The specific benefits of randomized techniques depend on the computational environment. Consider the model problem of finding the k dominant components of the singular value decomposition of an m × n matrix. (i) For a dense input matrix, randomized algorithms require O(mn log(k)) floating-point operations (flops) in contrast with O(mnk) for classical algorithms. (ii) For a sparse input matrix, the flop count matches classical Krylov subspace methods, but the randomized approach is more robust and can easily be reorganized to exploit multi-processor architectures. (iii) For a matrix that is too large to fit in fast memory, the randomized techniques require only a constant number of passes over the data, as opposed to O(k) passes for classical algorithms. In fact, it is sometimes possible to perform matrix approximation with a single pass over the data.

translated by 谷歌翻译

PSD Representations for Effective Probability Models

Alessandro Rudi , Carlo Ciliberto

分类：机器学习 | (统计)机器学习

2021-06-30

找到模型概率密度的好方法是概率推断的关键。理想的模型应该能够简单地近似于概率，同时也与两个主要操作兼容：两个模型（产品规则）的乘法和相对于随机变量的子集（SUM规则）的边缘化。在这项工作中，我们表明最近提出的非负函数的正半明确（PSD）模型特别适用于此。特别是，我们表征了PSD模型的近似和泛化能力，显示它们享有强烈的理论保证。此外，我们表明我们可以通过矩阵操作以封闭形式的封闭形式有效地执行和产品规则，享受混合模型的相同多功能性。我们的结果为PSD模型应用于密度估计，决策理论和推理的方式开辟了途径。

translated by 谷歌翻译

Minimax Optimal Regression over Sobolev Spaces via Laplacian Eigenmaps on Neighborhood Graphs

Alden Green , Sivaraman Balakrishnan , Ryan J. Tibshirani

分类： (统计)机器学习

2021-11-14

本文研究了基于Laplacian Eigenmaps（Le）的基于Laplacian EIGENMAPS（PCR-LE）的主要成分回归的统计性质，这是基于Laplacian Eigenmaps（Le）的非参数回归的方法。 PCR-LE通过投影观察到的响应的向量$ {\ bf y} =（y_1，\ ldots，y_n）$ to to changbood图表拉普拉斯的某些特征向量跨越的子空间。我们表明PCR-Le通过SoboLev空格实现了随机设计回归的最小收敛速率。在设计密度$ P $的足够平滑条件下，PCR-le达到估计的最佳速率（其中已知平方$ l ^ 2 $ norm的最佳速率为$ n ^ { - 2s /（2s + d））} $）和健美的测试（$ n ^ { - 4s /（4s + d）$）。我们还表明PCR-LE是\ EMPH {歧管Adaptive}：即，我们考虑在小型内在维度$ M $的歧管上支持设计的情况，并为PCR-LE提供更快的界限Minimax估计（$ n ^ { - 2s /（2s + m）$）和测试（$ n ^ { - 4s /（4s + m）$）收敛率。有趣的是，这些利率几乎总是比图形拉普拉斯特征向量的已知收敛率更快;换句话说，对于这个问题的回归估计的特征似乎更容易，统计上讲，而不是估计特征本身。我们通过经验证据支持这些理论结果。

translated by 谷歌翻译