智能论文笔记

A diffusion approach to Stein's method on Riemannian manifolds

Huiling Le , Alexander Lewis , Karthik Bharath , Christopher Fallaize

分类： (统计)机器学习

2020-03-25

我们详细介绍了一种开发Stein方法的方法，该方法是针对Riemannian歧管$ \ Mathbf M $界定的概率度量界定整体指标的。我们的方法利用了$ \ mathbf m $扩散的生成器与目标不变度度量及其表征Stein运算符之间的关系。我们考虑了一对具有不同起点的扩散，并通过对两对之间的距离过程进行分析，得出了Stein因子，该因子将解决方案绑定到Stein方程及其衍生物。Stein因子包含曲率依赖性的术语，并减少到当前可用于$ \ Mathbb r^m $的因子，此外，暗示$ \ Mathbb r^m $的界限在$ \ Mathbf M $时保持有效

translated by 谷歌翻译

Riemannian Langevin Algorithm for Solving Semidefinite Programs

Mufan Bill Li , Murat A. Erdogdu

分类： (统计)机器学习 | 机器学习

2020-10-21

我们提出了一种基于langevin扩散的算法，以在球体的产物歧管上进行非凸优化和采样。在对数Sobolev不平等的情况下，我们根据Kullback-Leibler Divergence建立了有限的迭代迭代收敛到Gibbs分布的保证。我们表明，有了适当的温度选择，可以保证，次级最小值的次数差距很小，概率很高。作为一种应用，我们考虑了使用对角线约束解决半决赛程序（SDP）的burer- monteiro方法，并分析提出的langevin算法以优化非凸目标。特别是，我们为Burer建立了对数Sobolev的不平等现象 - 当没有虚假的局部最小值时，但在鞍点下，蒙蒂罗问题。结合结果，我们为SDP和最大切割问题提供了全局最佳保证。更确切地说，我们证明了Langevin算法在$ \ widetilde {\ omega}（\ epsilon^{ - 5}）$ tererations $ tererations $ \ widetilde {\ omega}（\ omega}中，具有很高的概率。

translated by 谷歌翻译

Universal Approximation Theorems for Differentiable Geometric Deep Learning

Anastasis Kratsios , Leonie Papon

分类：机器学习

2021-01-13

本文通过引入几何深度学习（GDL）框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型，从而解决了对非欧国人数据进行处理的需求。我们表明，我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反，我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数，任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件，确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现，任何“现实世界”（即有限）数据集始终满足我们的状况，相反，如果目标函数平滑，则任何数据集都满足我们的要求。作为应用，我们确认了以下GDL模型的通用近似功能：Ganea等。（2018）的双波利馈电网络，实施Krishnan等人的体系结构。（2015年）的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了：Meyer等人的SPD-Matrix回归剂的通用扩展/变体。（2011）和Fletcher（2003）的Procrustean回归剂。在欧几里得的环境中，我们的结果暗示了Kidger和Lyons（2020）的近似定理和Yarotsky和Zhevnerchuk（2019）无估计近似率的数据依赖性版本的定量版本。

translated by 谷歌翻译

Convergence of denoising diffusion models under the manifold hypothesis

Valentin De Bortoli

分类： (统计)机器学习 | 机器学习

2022-08-10

Denoisis扩散模型是最近在图像和音频合成中表现出最新性能的生成模型。这样的模型近似从目标分布到参考密度（通常是高斯）的正向噪声过程的时间反转。尽管有很强的经验结果，但对此类模型的理论分析仍然有限。特别是，所有当前方法都至关重要地假设目标密度允许密度W.R.T.Lebesgue度量。这不涵盖在较低维歧管上支持目标分布或通过某些经验分布给出的设置。在本文中，我们通过在更通用的环境中为扩散模型提供第一个收敛结果来弥合这一差距。特别是，我们在目标数据分布与扩散模型的生成分布之间的订单距离距离距离范围距离上提供了定量界限。

translated by 谷歌翻译

Sampling is as easy as learning the score: theory for diffusion models with minimal data assumptions

Sitan Chen , Sinho Chewi , Jerry Li , Yuanzhi Li , Adil Salim , Anru R. Zhang

分类：机器学习

2022-09-22

我们为基于分数的生成模型（SGM）（例如Denoising扩散概率模型（DDPM））提供理论收敛保证，该模型构成了大型现实世界中生成模型的骨干，例如DALL $ \ cdot $ E2。我们的主要结果是，假设有准确的分数估计值，此类SGM可以从本质上有效地从任何现实的数据分布中进行采样。与先前的作品相反，我们的结果（1）以$ l^2 $准确的分数估算（而不是$ l^\ infty $ -CACCRATE）保持；（2）不需要限制性的功能不平等条件，而这些条件排除了实质性的非con虫；（3）在所有相关问题参数中刻度缩放；（4）匹配兰格文扩散离散的最新复杂性保证，前提是得分误差足够小。我们认为这是SGM的经验成功的强有力理论理由。我们还基于严重阻尼的Langevin扩散（CLD）检查SGM。与传统的观点相反，我们提供了证据，表明CLD的使用不会降低SGM的复杂性。

translated by 谷歌翻译

Off-the-grid learning of sparse mixtures from a continuous dictionary

Cristina Butucea , Jean-François Delmas , Anne Dutfoy , Clément Hardy

分类： (统计)机器学习 | 机器学习

2022-06-29

我们考虑了一个通用的非线性模型，其中信号是未知（可能增加的，可能增加的特征数量）的有限混合物，该特征是由由真实非线性参数参数化的连续字典发出的。在连续或离散设置中使用高斯（可能相关）噪声观察信号。我们提出了一种网格优化方法，即一种不使用参数空间上任何离散化方案的方法来估计特征的非线性参数和混合物的线性参数。我们使用有关离网方法的几何形状的最新结果，在真实的基础非线性参数上给出最小的分离，以便可以构建插值证书函数。还使用尾部界限，用于高斯过程的上流，我们将预测误差限制为高概率。假设可以构建证书函数，我们的预测误差绑定到日志 - 因线性回归模型中LASSO预测器所达到的速率类似。我们还建立了收敛速率，以高概率量化线性和非线性参数的估计质量。

translated by 谷歌翻译

On the Global Convergence of Gradient Descent for multi-layer ResNets in the mean-field regime

Zhiyan Ding , Shi Chen , Qin Li , Stephen Wright

分类：机器学习 | (统计)机器学习

2021-10-06

找到Reset中的参数的最佳配置是一个非凸显最小化问题，但一阶方法尽管如此，找到了过度分辨率制度的全局最优。通过将Reset的训练过程转化为梯度流部分微分方程（PDE）和检查该限制过程的收敛性能，我们研究了这种现象。假设激活函数为2美元 - 最佳或部分$ 1 $-homerence;正则Relu满足后一种条件。我们表明，如果Reset足够大，则深度和宽度根据代数上的准确性和置信水平，一阶优化方法可以找到适合培训数据的全局最小化器。

translated by 谷歌翻译

What Happens after SGD Reaches Zero Loss? --A Mathematical Framework

Zhiyuan Li , Tianhao Wang , Sanjeev Arora

分类：机器学习 | (统计)机器学习

2021-10-13

了解随机梯度下降（SGD）的隐式偏见是深度学习的关键挑战之一，尤其是对于过度透明的模型，损失功能的局部最小化$ l $可以形成多种多样的模型。从直觉上讲，SGD $ \ eta $的学习率很小，SGD跟踪梯度下降（GD），直到它接近这种歧管为止，梯度噪声阻止了进一步的收敛。在这样的政权中，Blanc等人。（2020）证明，带有标签噪声的SGD局部降低了常规术语，损失的清晰度，$ \ mathrm {tr} [\ nabla^2 l] $。当前的论文通过调整Katzenberger（1991）的想法提供了一个总体框架。它原则上允许使用随机微分方程（SDE）描述参数的限制动力学的SGD围绕此歧管的正规化效应（即“隐式偏见”）的正则化效应，这是由损失共同确定的功能和噪声协方差。这产生了一些新的结果：（1）与Blanc等人的局部分析相比，对$ \ eta^{ - 2} $ steps有效的隐性偏差进行了全局分析。（2020）仅适用于$ \ eta^{ - 1.6} $ steps和（2）允许任意噪声协方差。作为一个应用程序，我们以任意大的初始化显示，标签噪声SGD始终可以逃脱内核制度，并且仅需要$ o（\ kappa \ ln d）$样本用于学习$ \ kappa $ -sparse $ -sparse yroverparame parametrized linearized Linear Modal in $ \ Mathbb {r}^d $（Woodworth等，2020），而GD在内核制度中初始化的GD需要$ \ omega（d）$样本。该上限是最小值的最佳，并改善了先前的$ \ tilde {o}（\ kappa^2）$上限（Haochen等，2020）。

translated by 谷歌翻译

Optimal transport map estimation in general function spaces

Vincent Divol , Jonathan Niles-Weed , Aram-Alexandre Pooladian

分类： (统计)机器学习

2022-12-07

We consider the problem of estimating the optimal transport map between a (fixed) source distribution $P$ and an unknown target distribution $Q$, based on samples from $Q$. The estimation of such optimal transport maps has become increasingly relevant in modern statistical applications, such as generative modeling. At present, estimation rates are only known in a few settings (e.g. when $P$ and $Q$ have densities bounded above and below and when the transport map lies in a H\"older class), which are often not reflected in practice. We present a unified methodology for obtaining rates of estimation of optimal transport maps in general function spaces. Our assumptions are significantly weaker than those appearing in the literature: we require only that the source measure $P$ satisfies a Poincar\'e inequality and that the optimal map be the gradient of a smooth convex function that lies in a space whose metric entropy can be controlled. As a special case, we recover known estimation rates for bounded densities and H\"older transport maps, but also obtain nearly sharp results in many settings not covered by prior work. For example, we provide the first statistical rates of estimation when $P$ is the normal distribution and the transport map is given by an infinite-width shallow neural network.

translated by 谷歌翻译

Tangent Space and Dimension Estimation with the Wasserstein Distance

Uzu Lim , Harald Oberhauser , Vidit Nanda

分类：机器学习

2021-10-12

我们提供了通过局部主成分分析估计切线空间和（光滑，紧凑）欧几里德子多元化的固定空间和固有尺寸所需的采样点数量的明确界限。我们的方法直接估计本地协方差矩阵，其同时允许估计切线空间和歧管的固有尺寸。关键争论涉及矩阵浓度不等式，是用于平坦化歧管的Wasserstein，以及关于Wassersein距离的协方差矩阵的Lipschitz关系。

translated by 谷歌翻译

Strong uniform convergence of Laplacians of random geometric and directed kNN graphs on compact manifolds

Hélène Guérin , Dinh-Toan Nguyen , Viet-Chi Tran

分类： (统计)机器学习

2022-12-20

Consider $n$ points independently sampled from a density $p$ of class $\mathcal{C}^2$ on a smooth compact $d$-dimensional sub-manifold $\mathcal{M}$ of $\mathbb{R}^m$, and consider the generator of a random walk visiting these points according to a transition kernel $K$. We study the almost sure uniform convergence of this operator to the diffusive Laplace-Beltrami operator when $n$ tends to infinity. This work extends known results of the past 15 years. In particular, our result does not require the kernel $K$ to be continuous, which covers the cases of walks exploring $k$NN-random and geometric graphs, and convergence rates are given. The distance between the random walk generator and the limiting operator is separated into several terms: a statistical term, related to the law of large numbers, is treated with concentration tools and an approximation term that we control with tools from differential geometry. The convergence of $k$NN Laplacians is detailed.

translated by 谷歌翻译

The Dynamics of Riemannian Robbins-Monro Algorithms

Mohammad Reza Karimi , Ya-Ping Hsieh , Panayotis Mertikopoulos , Andreas Krause

分类：机器学习

2022-06-14

许多重要的学习算法，例如随机梯度方法，通常被部署以解决Riemannian歧管上的非线性问题。在这些应用中，我们提出了一个概括和扩展Robbins和Monro的精确随机近似框架的Riemannian算法家族。与他们的欧几里得对应物相比，由于歧管上缺乏全局线性结构，Riemannian迭代算法的理解要少得多。我们通过引入扩展的费米坐标框架来克服这一困难，该框架使我们能够绘制拟议的Riemannian Robbins-Monro（RRM）算法类别的渐近行为，以在基础歧管上非常轻微的假设下，在相关的确定性动力学系统下的算法。这样一来，我们提供了一个几乎肯定的收敛结果的一般模板，该模板镜像并扩展了欧几里得robbins-Monro方案的现有理论，尽管其分析要大得多，需要大量的新几何成分。我们通过使用该框架来建立基于回缩的类似物的融合来展示提出的RRM框架的灵活性，以解决最小化问题和游戏的流行乐观 /额外梯度方法，并且我们为其收敛提供了统一的处理。

translated by 谷歌翻译

Learning with little mixing

Ingvar Ziemann , Stephen Tu

分类：机器学习 | (统计)机器学习

2022-06-16

我们在具有Martingale差异噪声的可实现的时间序列框架中学习正方形损失。我们的主要结果是一个快速率的多余风险结合，这表明每当轨迹超收缩条件成立时，依赖数据的最小二乘估计器的风险与燃烧时间后的IID速率订单匹配。相比之下，从依赖数据中学习的许多现有结果都具有有效的样本量，即使在燃烧时间之后，有效的样本量也被基础过程的混合时间降低。此外，我们的结果允许协变量过程表现出远距离相关性，这些相关性大大弱于几何牙齿。我们将这种现象学习称为几乎没有混合的方式，并为其示出了几个示例：$ l^2 $和$ l^{2+\ epsilon} $ norms的有界函数类是等效的，有限的有限态Markov链，各种参数模型，以及一个无限尺寸$ \ ell^2（\ mathbb {n}）$椭圆形的广阔家族。通过将我们的主要结果实例化，以使用广义线性模型过渡对非线性动力学的系统识别，我们仅在多项式燃烧时间后获得了几乎最小的最佳超量风险。

translated by 谷歌翻译

Controlling Moments with Kernel Stein Discrepancies

Heishiro Kanagawa , Arthur Gretton , Lester Mackey

分类： (统计)机器学习 | 机器学习

2022-11-10

Quantifying the deviation of a probability distribution is challenging when the target distribution is defined by a density with an intractable normalizing constant. The kernel Stein discrepancy (KSD) was proposed to address this problem and has been applied to various tasks including diagnosing approximate MCMC samplers and goodness-of-fit testing for unnormalized statistical models. This article investigates a convergence control property of the diffusion kernel Stein discrepancy (DKSD), an instance of the KSD proposed by Barp et al. (2019). We extend the result of Gorham and Mackey (2017), which showed that the KSD controls the bounded-Lipschitz metric, to functions of polynomial growth. Specifically, we prove that the DKSD controls the integral probability metric defined by a class of pseudo-Lipschitz functions, a polynomial generalization of Lipschitz functions. We also provide practical sufficient conditions on the reproducing kernel for the stated property to hold. In particular, we show that the DKSD detects non-convergence in moments with an appropriate kernel.

translated by 谷歌翻译

Overparameterization of deep ResNet: zero loss and mean-field analysis

Zhiyan Ding , Shi Chen , Qin Li , Stephen Wright

分类：机器学习 | (统计)机器学习

2021-05-30

在一个拟合训练数据的深度神经网络（NN）中找到参数是一个非渗透优化问题，但基本的一阶优化方法（梯度下降）在许多实际情况下，具有完美拟合（零损失）的全局优化器。我们在限制性制度中检查残留神经网络（Reset）的剩余神经网络（Reset）的情况的这种现象，其中每个层（宽度）的层数（深度）和权重的数量均转到无穷大。首先，我们使用平均场限制参数来证明参数训练的梯度下降成为概率分布的梯度流，其特征在于大NN限制中的部分微分方程（PDE）。接下来，我们表明，在某些假设下，PDE的解决方案在训练时间内收敛到零损失解决方案。这些结果表明，如果Reset足够大，则reset的培训给出了近零损失。我们给出了减少给定阈值以下低于给定阈值的损失所需的深度和宽度的估计值。

translated by 谷歌翻译

Mean field Variational Inference via Wasserstein Gradient Flow

Rentian Yao , Yun Yang

分类： (统计)机器学习

2022-07-17

变性推理（VI）为基于传统的采样方法提供了一种吸引人的替代方法，用于实施贝叶斯推断，因为其概念性的简单性，统计准确性和计算可扩展性。然而，常见的变分近似方案（例如平均场（MF）近似）需要某些共轭结构以促进有效的计算，这可能会增加不必要的限制对可行的先验分布家族，并对变异近似族对差异进行进一步的限制。在这项工作中，我们开发了一个通用计算框架，用于实施MF-VI VIA WASSERSTEIN梯度流（WGF），这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时，我们将分析基于时间消化的WGF交替最小化方案的算法收敛，用于实现MF近似。特别是，所提出的算法类似于EM算法的分布版本，包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性，以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型，即高斯混合模型和回归模型的混合物。还进行了数值实验，以补充这两个模型下的理论发现。

translated by 谷歌翻译

Optimal and instance-dependent guarantees for Markovian linear stochastic approximation

Wenlong Mou , Ashwin Pananjady , Martin J. Wainwright , Peter L. Bartlett

分类：机器学习 | (统计)机器学习

2021-12-23

我们研究了随机近似程序，以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后，我们证明了一种在适当平均迭代序列上的非渐近实例依赖性，具有匹配局部渐近最小的限制的领先术语，包括对参数$的敏锐依赖（d，t _ {\ mathrm {mix}}） $以高阶术语。我们将这些上限与非渐近Minimax的下限补充，该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD（$ \ lambda $）算法，以便[0,1）$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门（例如，在运行TD（$ \ Lambda $）算法时选择$ \ lambda $的值）。

translated by 谷歌翻译

Stochastic optimization on matrices and a graphon McKean-Vlasov limit

Zaid Harchaoui , Sewoong Oh , Soumik Pal , Raghav Somani , Raghavendra Tripathi

分类：机器学习 | (统计)机器学习

2022-10-02

We consider stochastic gradient descents on the space of large symmetric matrices of suitable functions that are invariant under permuting the rows and columns using the same permutation. We establish deterministic limits of these random curves as the dimensions of the matrices go to infinity while the entries remain bounded. Under a "small noise" assumption the limit is shown to be the gradient flow of functions on graphons whose existence was established in arXiv:2111.09459. We also consider limits of stochastic gradient descents with added properly scaled reflected Brownian noise. The limiting curve of graphons is characterized by a family of stochastic differential equations with reflections and can be thought of as an extension of the classical McKean-Vlasov limit for interacting diffusions. The proofs introduce a family of infinite-dimensional exchangeable arrays of reflected diffusions and a novel notion of propagation of chaos for large matrices of interacting diffusions.

translated by 谷歌翻译

Minimax Optimal Regression over Sobolev Spaces via Laplacian Eigenmaps on Neighborhood Graphs

Alden Green , Sivaraman Balakrishnan , Ryan J. Tibshirani

分类： (统计)机器学习

2021-11-14

本文研究了基于Laplacian Eigenmaps（Le）的基于Laplacian EIGENMAPS（PCR-LE）的主要成分回归的统计性质，这是基于Laplacian Eigenmaps（Le）的非参数回归的方法。 PCR-LE通过投影观察到的响应的向量$ {\ bf y} =（y_1，\ ldots，y_n）$ to to changbood图表拉普拉斯的某些特征向量跨越的子空间。我们表明PCR-Le通过SoboLev空格实现了随机设计回归的最小收敛速率。在设计密度$ P $的足够平滑条件下，PCR-le达到估计的最佳速率（其中已知平方$ l ^ 2 $ norm的最佳速率为$ n ^ { - 2s /（2s + d））} $）和健美的测试（$ n ^ { - 4s /（4s + d）$）。我们还表明PCR-LE是\ EMPH {歧管Adaptive}：即，我们考虑在小型内在维度$ M $的歧管上支持设计的情况，并为PCR-LE提供更快的界限Minimax估计（$ n ^ { - 2s /（2s + m）$）和测试（$ n ^ { - 4s /（4s + m）$）收敛率。有趣的是，这些利率几乎总是比图形拉普拉斯特征向量的已知收敛率更快;换句话说，对于这个问题的回归估计的特征似乎更容易，统计上讲，而不是估计特征本身。我们通过经验证据支持这些理论结果。

translated by 谷歌翻译

Bump hunting through density curvature features

José E. Chacón , Javier Fernández Serrano

分类： (统计)机器学习

2022-07-30

bump狩猎与样本空间中的发现有意义的数据子集，称为颠簸。这些传统上被认为是基础密度函数图中的模态或凹区域。我们根据概率密度的曲率功能定义抽象的凸起构建体。然后，我们探讨了涉及衍生物最高到二阶的几种替代特征。特别是，在多元案例中提出了适当的善良和加斯金斯原始凹凸凹凸的实施。此外，我们将探索性数据分析概念（如平均曲率和拉普拉斯人）在应用域中产生良好结果。我们的方法可以通过插件内核密度估计器来解决曲率功能的近似。我们提供了理论上的结果，以确保在Hausdorff距离内的凸界边界的渐近一致性，并具有负担得起的收敛速度。我们还提出了渐近有效且一致的置信区域边界曲率凸起。该理论通过NBA，MLB和NFL的数据集的体育分析中的几种用例来说明。我们得出的结论是，不同的曲率实例有效地结合了以产生洞察力的可视化。

translated by 谷歌翻译