智能论文笔记

Riemannian Langevin Algorithm for Solving Semidefinite Programs

Mufan Bill Li , Murat A. Erdogdu

分类： (统计)机器学习 | 机器学习

2020-10-21

我们提出了一种基于langevin扩散的算法，以在球体的产物歧管上进行非凸优化和采样。在对数Sobolev不平等的情况下，我们根据Kullback-Leibler Divergence建立了有限的迭代迭代收敛到Gibbs分布的保证。我们表明，有了适当的温度选择，可以保证，次级最小值的次数差距很小，概率很高。作为一种应用，我们考虑了使用对角线约束解决半决赛程序（SDP）的burer- monteiro方法，并分析提出的langevin算法以优化非凸目标。特别是，我们为Burer建立了对数Sobolev的不平等现象 - 当没有虚假的局部最小值时，但在鞍点下，蒙蒂罗问题。结合结果，我们为SDP和最大切割问题提供了全局最佳保证。更确切地说，我们证明了Langevin算法在$ \ widetilde {\ omega}（\ epsilon^{ - 5}）$ tererations $ tererations $ \ widetilde {\ omega}（\ omega}中，具有很高的概率。

translated by 谷歌翻译

What Happens after SGD Reaches Zero Loss? --A Mathematical Framework

Zhiyuan Li , Tianhao Wang , Sanjeev Arora

分类：机器学习 | (统计)机器学习

2021-10-13

了解随机梯度下降（SGD）的隐式偏见是深度学习的关键挑战之一，尤其是对于过度透明的模型，损失功能的局部最小化$ l $可以形成多种多样的模型。从直觉上讲，SGD $ \ eta $的学习率很小，SGD跟踪梯度下降（GD），直到它接近这种歧管为止，梯度噪声阻止了进一步的收敛。在这样的政权中，Blanc等人。（2020）证明，带有标签噪声的SGD局部降低了常规术语，损失的清晰度，$ \ mathrm {tr} [\ nabla^2 l] $。当前的论文通过调整Katzenberger（1991）的想法提供了一个总体框架。它原则上允许使用随机微分方程（SDE）描述参数的限制动力学的SGD围绕此歧管的正规化效应（即“隐式偏见”）的正则化效应，这是由损失共同确定的功能和噪声协方差。这产生了一些新的结果：（1）与Blanc等人的局部分析相比，对$ \ eta^{ - 2} $ steps有效的隐性偏差进行了全局分析。（2020）仅适用于$ \ eta^{ - 1.6} $ steps和（2）允许任意噪声协方差。作为一个应用程序，我们以任意大的初始化显示，标签噪声SGD始终可以逃脱内核制度，并且仅需要$ o（\ kappa \ ln d）$样本用于学习$ \ kappa $ -sparse $ -sparse yroverparame parametrized linearized Linear Modal in $ \ Mathbb {r}^d $（Woodworth等，2020），而GD在内核制度中初始化的GD需要$ \ omega（d）$样本。该上限是最小值的最佳，并改善了先前的$ \ tilde {o}（\ kappa^2）$上限（Haochen等，2020）。

translated by 谷歌翻译

Mean field Variational Inference via Wasserstein Gradient Flow

Rentian Yao , Yun Yang

分类： (统计)机器学习

2022-07-17

变性推理（VI）为基于传统的采样方法提供了一种吸引人的替代方法，用于实施贝叶斯推断，因为其概念性的简单性，统计准确性和计算可扩展性。然而，常见的变分近似方案（例如平均场（MF）近似）需要某些共轭结构以促进有效的计算，这可能会增加不必要的限制对可行的先验分布家族，并对变异近似族对差异进行进一步的限制。在这项工作中，我们开发了一个通用计算框架，用于实施MF-VI VIA WASSERSTEIN梯度流（WGF），这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时，我们将分析基于时间消化的WGF交替最小化方案的算法收敛，用于实现MF近似。特别是，所提出的算法类似于EM算法的分布版本，包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性，以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型，即高斯混合模型和回归模型的混合物。还进行了数值实验，以补充这两个模型下的理论发现。

translated by 谷歌翻译

A diffusion approach to Stein's method on Riemannian manifolds

Huiling Le , Alexander Lewis , Karthik Bharath , Christopher Fallaize

分类： (统计)机器学习

2020-03-25

我们详细介绍了一种开发Stein方法的方法，该方法是针对Riemannian歧管$ \ Mathbf M $界定的概率度量界定整体指标的。我们的方法利用了$ \ mathbf m $扩散的生成器与目标不变度度量及其表征Stein运算符之间的关系。我们考虑了一对具有不同起点的扩散，并通过对两对之间的距离过程进行分析，得出了Stein因子，该因子将解决方案绑定到Stein方程及其衍生物。Stein因子包含曲率依赖性的术语，并减少到当前可用于$ \ Mathbb r^m $的因子，此外，暗示$ \ Mathbb r^m $的界限在$ \ Mathbf M $时保持有效

translated by 谷歌翻译

Analysis of Langevin Monte Carlo from Poincaré to Log-Sobolev

Sinho Chewi , Murat A. Erdogdu , Mufan Bill Li , Ruoqi Shen , Matthew Zhang

分类： (统计)机器学习

2021-12-23

经典地，连续时间兰富文队扩散在唯一的假设下迅速迅速迅速迅速迅速，以至于$ \ PI $满足POINCAR的不平等。使用这一事实来为离散时间Langevin Monte Carlo（LMC）算法提供保证，因此由于需要与Chi Squared或R \'enyi分歧的需要，并且在很大程度上主要重点关注日志凹形目标。在这项工作中，我们为LMC提供了第一个收敛保证，假设$ \ PI $满足Lata {\ l} a - oleszkiewicz或修改的log-sobolev不等式，它在Poincar \ e和log-sobolev设置之间插值。与现有作品不同，我们的结果允许弱滑性，并且不需要凸起或耗散条件。

translated by 谷歌翻译

Penalized Langevin and Hamiltonian Monte Carlo Algorithms for Constrained Sampling

Mert Gürbüzbalaban , Yuanhan Hu , Lingjiong Zhu

分类： (统计)机器学习 | 机器学习

2022-11-29

We consider the constrained sampling problem where the goal is to sample from a distribution $\pi(x)\propto e^{-f(x)}$ and $x$ is constrained on a convex body $\mathcal{C}\subset \mathbb{R}^d$. Motivated by penalty methods from optimization, we propose penalized Langevin Dynamics (PLD) and penalized Hamiltonian Monte Carlo (PHMC) that convert the constrained sampling problem into an unconstrained one by introducing a penalty function for constraint violations. When $f$ is smooth and the gradient is available, we show $\tilde{\mathcal{O}}(d/\varepsilon^{10})$ iteration complexity for PLD to sample the target up to an $\varepsilon$-error where the error is measured in terms of the total variation distance and $\tilde{\mathcal{O}}(\cdot)$ hides some logarithmic factors. For PHMC, we improve this result to $\tilde{\mathcal{O}}(\sqrt{d}/\varepsilon^{7})$ when the Hessian of $f$ is Lipschitz and the boundary of $\mathcal{C}$ is sufficiently smooth. To our knowledge, these are the first convergence rate results for Hamiltonian Monte Carlo methods in the constrained sampling setting that can handle non-convex $f$ and can provide guarantees with the best dimension dependency among existing methods with deterministic gradients. We then consider the setting where unbiased stochastic gradients are available. We propose PSGLD and PSGHMC that can handle stochastic gradients without Metropolis-Hasting correction steps. When $f$ is strongly convex and smooth, we obtain an iteration complexity of $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ and $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39})$ respectively in the 2-Wasserstein distance. For the more general case, when $f$ is smooth and non-convex, we also provide finite-time performance bounds and iteration complexity results. Finally, we test our algorithms on Bayesian LASSO regression and Bayesian constrained deep learning problems.

translated by 谷歌翻译

Near optimal sample complexity for matrix and tensor normal models via geodesic convexity

Cole Franks , Rafael Oliveira , Akshay Ramachandran , Michael Walter

分类：机器学习

2021-10-14

矩阵正常模型，高斯矩阵变化分布的系列，其协方差矩阵是两个较低尺寸因子的Kronecker乘积，经常用于模拟矩阵变化数据。张量正常模型将该家庭推广到三个或更多因素的Kronecker产品。我们研究了矩阵和张量模型中协方差矩阵的Kronecker因子的估计。我们向几个自然度量中的最大似然估计器（MLE）实现的误差显示了非因素界限。与现有范围相比，我们的结果不依赖于条件良好或稀疏的因素。对于矩阵正常模型，我们所有的所有界限都是最佳的对数因子最佳，对于张量正常模型，我们对最大因数和整体协方差矩阵的绑定是最佳的，所以提供足够的样品以获得足够的样品以获得足够的样品常量Frobenius错误。在与我们的样本复杂性范围相同的制度中，我们表明迭代程序计算称为触发器算法称为触发器算法的MLE的线性地收敛，具有高概率。我们的主要工具是Fisher信息度量诱导的正面矩阵的几何中的测地强凸性。这种强大的凸起由某些随机量子通道的扩展来决定。我们还提供了数值证据，使得将触发器算法与简单的收缩估计器组合可以提高缺乏采样制度的性能。

translated by 谷歌翻译

Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector Problems

Chris Junchi Li , Michael I. Jordan

分类： (统计)机器学习 | 机器学习

2021-12-29

通过在线规范相关性分析的问题，我们提出了\ emph {随机缩放梯度下降}（SSGD）算法，以最小化通用riemannian歧管上的随机功能的期望。 SSGD概括了投影随机梯度下降的思想，允许使用缩放的随机梯度而不是随机梯度。在特殊情况下，球形约束的特殊情况，在广义特征向量问题中产生的，我们建立了$ \ sqrt {1 / t} $的令人反感的有限样本，并表明该速率最佳最佳，直至具有积极的积极因素相关参数。在渐近方面，一种新的轨迹平均争论使我们能够实现局部渐近常态，其速率与鲁普特 - Polyak-Quaditsky平均的速率匹配。我们将这些想法携带在一个在线规范相关分析，从事文献中的第一次获得了最佳的一次性尺度算法，其具有局部渐近融合到正常性的最佳一次性尺度算法。还提供了用于合成数据的规范相关分析的数值研究。

translated by 谷歌翻译

Data-driven Efficient Solvers for Langevin Dynamics on Manifold in High Dimensions

Yuan Gao , Jian-Guo Liu , Nan Wu

分类： (统计)机器学习

2020-05-22

我们研究具有流形结构的物理系统的langevin动力学$ \ MATHCAL {M} \ subset \ Mathbb {r}^p $，基于收集的样品点$ \ {\ Mathsf {x} _i \} _ {_i \} _ {i = 1} ^n \ subset \ mathcal {m} $探测未知歧管$ \ mathcal {m} $。通过扩散图，我们首先了解反应坐标$ \ {\ MATHSF {y} _i \} _ {i = 1}^n \ subset \ subset \ mathcal {n} $对应于$ \ {\ {\ mathsf {x} _i _i \ \ \ \ \ _i \ \ \ \ {x} } _ {i = 1}^n $，其中$ \ mathcal {n} $是$ \ mathcal {m} $的歧义diffeomorphic，并且与$ \ mathbb {r}^\ ell $ insometryally嵌入了$ \ ell $，带有$ \ ell \ ell \ ell \ ell \ el \ ell \ el \ el \ ell \ el \ LL P $。在$ \ Mathcal {n} $上的诱导Langevin动力学在反应坐标方面捕获了缓慢的时间尺度动力学，例如生化反应的构象变化。要构建$ \ Mathcal {n} $上的Langevin Dynamics的高效稳定近似，我们利用反应坐标$ \ MATHSF {y} n effertold $ \ Mathcal {n} $上的歧管$ \ Mathcal {n} $上的相应的fokker-planck方程$。我们为此Fokker-Planck方程提出了可实施的，无条件稳定的数据驱动的有限卷方程，该方程将自动合并$ \ Mathcal {n} $的歧管结构。此外，我们在$ \ Mathcal {n} $上提供了有限卷方案的加权$ L^2 $收敛分析。所提出的有限体积方案在$ \ {\ Mathsf {y} _i \} _ {i = 1}^n $上导致Markov链，并具有近似的过渡概率和最近的邻居点之间的跳跃速率。在无条件稳定的显式时间离散化之后，数据驱动的有限体积方案为$ \ Mathcal {n} $上的Langevin Dynamics提供了近似的Markov进程，并且近似的Markov进程享有详细的平衡，Ergodicity和其他良好的属性。

translated by 谷歌翻译

Manifold Free Riemannian Optimization

Boris Shustin , Haim Avron , Barak Sober

分类： (统计)机器学习

2022-09-07

Riemannian优化是解决优化问题的原则框架，其中所需的最佳被限制为光滑的歧管$ \ Mathcal {M} $。在此框架中设计的算法通常需要对歧管的几何描述，该描述通常包括切线空间，缩回和成本函数的梯度。但是，在许多情况下，由于缺乏信息或棘手的性能，只能访问这些元素的子集（或根本没有）。在本文中，我们提出了一种新颖的方法，可以在这种情况下执行近似Riemannian优化，其中约束歧管是$ \ r^{d} $的子手机。至少，我们的方法仅需要一组无噪用的成本函数$（\ x_ {i}，y_ {i}）\ in {\ mathcal {m}} \ times \ times \ times \ times \ times \ mathbb {r} $和内在的歧管$ \ MATHCAL {M} $的维度。使用样品，并利用歧管-MLS框架（Sober和Levin 2020），我们构建了缺少的组件的近似值，这些组件娱乐可证明的保证并分析其计算成本。如果某些组件通过分析给出（例如，如果成本函数及其梯度明确给出，或者可以计算切线空间），则可以轻松地适应该算法以使用准确的表达式而不是近似值。我们使用我们的方法分析了基于Riemannian梯度的方法的全球收敛性，并从经验上证明了该方法的强度，以及基于类似原理的共轭梯度类型方法。

translated by 谷歌翻译

High Dimensional Optimization through the Lens of Machine Learning

Felix Benning

分类： (统计)机器学习

2021-12-31

本文评价用机器学习问题的数值优化方法。由于机器学习模型是高度参数化的，我们专注于适合高维优化的方法。我们在二次模型上构建直觉，以确定哪种方法适用于非凸优化，并在凸函数上开发用于这种方法的凸起函数。随着随机梯度下降和动量方法的这种理论基础，我们试图解释为什么机器学习领域通常使用的方法非常成功。除了解释成功的启发式之外，最后一章还提供了对更多理论方法的广泛审查，这在实践中并不像惯例。所以在某些情况下，这项工作试图回答这个问题：为什么默认值中包含的默认TensorFlow优化器？

translated by 谷歌翻译

From Monte Carlo to neural networks approximations of boundary value problems

Lucian Beznea , Iulian Cimpean , Oana Lupascu-Stamate , Ionel Popescu , Arghir Zarnescu

分类：人工智能 | 机器学习

2022-09-03

在本文中，我们研究了针对泊松方程的解决方案的概率和神经网络近似，但在$ \ mathbb {r}^d $的一般边界域中，较旧或$ c^2 $数据。我们的目标是两个基本目标。首先，也是最重要的是，我们证明了泊松方程的解决方案可以通过蒙特卡洛方法在sup-norm中进行数值近似，但基于球形算法的步行略有变化。这提供了相对于相对于相对于相对于有效的估计值规定的近似误差且没有维度的诅咒。此外，样品的总数不取决于执行近似的点。作为第二个目标，我们表明获得的蒙特卡洛求解器renders relu relu深层神经网络（DNN）解决泊松问题的解决方案，其大小在尺寸$ d $以及所需的错误中大多数取决于多项式。和低多项式复杂性。

translated by 谷歌翻译

Tractability from overparametrization: The example of the negative perceptron

Andrea Montanari , Yiqiao Zhong , Kangjie Zhou

分类：机器学习

2021-10-28

在负面的感知问题中，我们给出了$ n $数据点$（{\ boldsymbol x} _i，y_i）$，其中$ {\ boldsymbol x} _i $是$ d $ -densional vector和$ y_i \ in \ { + 1，-1 \} $是二进制标签。数据不是线性可分离的，因此我们满足自己的内容，以找到最大的线性分类器，具有最大的\ emph {否定}余量。换句话说，我们想找到一个单位常规矢量$ {\ boldsymbol \ theta} $，最大化$ \ min_ {i \ le n} y_i \ langle {\ boldsymbol \ theta}，{\ boldsymbol x} _i \ rangle $ 。这是一个非凸优化问题（它相当于在Polytope中找到最大标准矢量），我们在两个随机模型下研究其典型属性。我们考虑比例渐近，其中$ n，d \ to \ idty $以$ n / d \ to \ delta $，并在最大边缘$ \ kappa _ {\ text {s}}（\ delta）上证明了上限和下限）$或 - 等效 - 在其逆函数$ \ delta _ {\ text {s}}（\ kappa）$。换句话说，$ \ delta _ {\ text {s}}（\ kappa）$是overparametization阈值：以$ n / d \ le \ delta _ {\ text {s}}（\ kappa） - \ varepsilon $一个分类器实现了消失的训练错误，具有高概率，而以$ n / d \ ge \ delta _ {\ text {s}}（\ kappa）+ \ varepsilon $。我们在$ \ delta _ {\ text {s}}（\ kappa）$匹配，以$ \ kappa \ to - \ idty $匹配。然后，我们分析了线性编程算法来查找解决方案，并表征相应的阈值$ \ delta _ {\ text {lin}}（\ kappa）$。我们观察插值阈值$ \ delta _ {\ text {s}}（\ kappa）$和线性编程阈值$ \ delta _ {\ text {lin {lin}}（\ kappa）$之间的差距，提出了行为的问题其他算法。

translated by 谷歌翻译

How to Escape Saddle Points Efficiently

Chi Jin , Rong Ge , Praneeth Netrapalli , Sham M. Kakade , Michael I. Jordan

分类：

2017-03-02

This paper shows that a perturbed form of gradient descent converges to a second-order stationary point in a number iterations which depends only poly-logarithmically on dimension (i.e., it is almost "dimension-free"). The convergence rate of this procedure matches the wellknown convergence rate of gradient descent to first-order stationary points, up to log factors. When all saddle points are non-degenerate, all second-order stationary points are local minima, and our result thus shows that perturbed gradient descent can escape saddle points almost for free.Our results can be directly applied to many machine learning applications, including deep learning. As a particular concrete example of such an application, we show that our results can be used directly to establish sharp global convergence rates for matrix factorization. Our results rely on a novel characterization of the geometry around saddle points, which may be of independent interest to the non-convex optimization community.

translated by 谷歌翻译

Minimax Optimal Regression over Sobolev Spaces via Laplacian Eigenmaps on Neighborhood Graphs

Alden Green , Sivaraman Balakrishnan , Ryan J. Tibshirani

分类： (统计)机器学习

2021-11-14

本文研究了基于Laplacian Eigenmaps（Le）的基于Laplacian EIGENMAPS（PCR-LE）的主要成分回归的统计性质，这是基于Laplacian Eigenmaps（Le）的非参数回归的方法。 PCR-LE通过投影观察到的响应的向量$ {\ bf y} =（y_1，\ ldots，y_n）$ to to changbood图表拉普拉斯的某些特征向量跨越的子空间。我们表明PCR-Le通过SoboLev空格实现了随机设计回归的最小收敛速率。在设计密度$ P $的足够平滑条件下，PCR-le达到估计的最佳速率（其中已知平方$ l ^ 2 $ norm的最佳速率为$ n ^ { - 2s /（2s + d））} $）和健美的测试（$ n ^ { - 4s /（4s + d）$）。我们还表明PCR-LE是\ EMPH {歧管Adaptive}：即，我们考虑在小型内在维度$ M $的歧管上支持设计的情况，并为PCR-LE提供更快的界限Minimax估计（$ n ^ { - 2s /（2s + m）$）和测试（$ n ^ { - 4s /（4s + m）$）收敛率。有趣的是，这些利率几乎总是比图形拉普拉斯特征向量的已知收敛率更快;换句话说，对于这个问题的回归估计的特征似乎更容易，统计上讲，而不是估计特征本身。我们通过经验证据支持这些理论结果。

translated by 谷歌翻译

Optimal and instance-dependent guarantees for Markovian linear stochastic approximation

Wenlong Mou , Ashwin Pananjady , Martin J. Wainwright , Peter L. Bartlett

分类：机器学习 | (统计)机器学习

2021-12-23

我们研究了随机近似程序，以便基于观察来自ergodic Markov链的长度$ n $的轨迹来求近求解$ d -dimension的线性固定点方程。我们首先表现出$ t _ {\ mathrm {mix}} \ tfrac {n}} \ tfrac {n}} \ tfrac {d}} \ tfrac {d} {n} $的非渐近性界限。$ t _ {\ mathrm {mix $是混合时间。然后，我们证明了一种在适当平均迭代序列上的非渐近实例依赖性，具有匹配局部渐近最小的限制的领先术语，包括对参数$的敏锐依赖（d，t _ {\ mathrm {mix}}） $以高阶术语。我们将这些上限与非渐近Minimax的下限补充，该下限是建立平均SA估计器的实例 - 最优性。我们通过Markov噪声的政策评估导出了这些结果的推导 - 覆盖了所有$ \ lambda \中的TD（$ \ lambda $）算法，以便[0,1）$ - 和线性自回归模型。我们的实例依赖性表征为HyperParameter调整的细粒度模型选择程序的设计开放了门（例如，在运行TD（$ \ Lambda $）算法时选择$ \ lambda $的值）。

translated by 谷歌翻译

Recent Theoretical Advances in Non-Convex Optimization

Marina Danilova , Pavel Dvurechensky , Alexander Gasnikov , Eduard Gorbunov , Sergey Guminov , Dmitry Kamzolov , Innokentiy Shibaev

分类：机器学习

2020-12-11

近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加，我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始，显示一般非凸面问题无法在合理的时间内有效地解决。然后，我们提供了一个问题列表，可以通过利用问题的结构来有效地找到全球最小化器，因为可能的问题。处理非凸性的另一种方法是放宽目标，从找到全局最小，以找到静止点或局部最小值。对于该设置，我们首先为确定性一阶方法的收敛速率提出了已知结果，然后是最佳随机和随机梯度方案的一般理论分析，以及随机第一阶方法的概述。之后，我们讨论了非常一般的非凸面问题，例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能，这仍然允许获得一阶的理论融合保证方法。然后，我们考虑更高阶和零序/衍生物的方法及其收敛速率，以获得非凸优化问题。

translated by 谷歌翻译

Bounding the error of discretized Langevin algorithms for non-strongly log-concave targets

Arnak S. Dalalyan , Avetik Karagulyan , Lionel Riou-Durand

分类：机器学习

2019-06-20

在本文中，我们在使用离散的Langevin扩散的三个方案中从目标密度采样的误差提供非渐近上限。第一个方案是Langevin Monte Carlo（LMC）算法，歌曲的欧拉分散化的歌曲扩散。第二个和第三种方案分别是用于可微分电位和动力学Langevin Monte Carlo的动力学Langevin Monte Carlo（KLMC），用于两次可分视电位（KLMC2）。主要焦点是在$ \ mathbb r ^ p $的目标密度上，但不一定强烈地抖动。在两种类型的平滑假设下获得计算复杂度的界限：电位具有嘴唇连续梯度，并且电位具有嘴角连续的Hessian基质。采样误差由Wassersein-$ Q $距离测量。我们倡导在计算复杂性定义中使用新的维度适应缩放，当考虑Wasserstein-$ Q $距离时。所获得的结果表明，实现小于规定值的缩放误差的迭代次数仅取决于多项尺寸。

translated by 谷歌翻译

On the Hyperparameters in Stochastic Gradient Descent with Momentum

Bin Shi

分类：机器学习 | (统计)机器学习

2021-08-09

遵循与[SSJ20]相同的常规，我们继续在本文中介绍具有动量（SGD）的随机梯度下降的理论分析。不同的是，对于具有动量的SGD，我们证明了这是两个超参数在一起，学习率和动量系数，它在非convex优化中的线性收敛速率起着重要作用。我们的分析基于使用超参数依赖性随机微分方程（HP依赖性SDE），该方程是SGD的连续替代，并具有动量。同样，我们通过动量建立了SGD连续时间公式的线性收敛，并通过分析Kramers-Fokker-Planck操作员的光谱来获得最佳线性速率的显式表达。相比之下，我们证明，仅在引入动量时，仅在学习率方面的最佳线性收敛速率和SGD的最终差距如何随着动量系数从零增加到一个而变化。然后，我们提出了一种数学解释，为什么具有动量的SGD比在实践中比标准SGD更快，更强大的学习率收敛。最后，我们显示了在噪声存在下的Nesterov动量与标准动量没有根本差异。

translated by 谷歌翻译

First-Order Algorithms for Min-Max Optimization in Geodesic Metric Spaces

Michael I. Jordan , Tianyi Lin , Emmanouil-Vasileios Vlatakis-Gkaragkounis

分类：机器学习

2022-06-04

从最佳运输到稳健的维度降低，可以将大量的机器学习应用程序放入Riemannian歧管上的Min-Max优化问题中。尽管在欧几里得的环境中已经分析了许多最小的最大算法，但事实证明，将这些结果转化为Riemannian案例已被证明是难以捉摸的。张等。 [2022]最近表明，测量凸凹入的凹入问题总是容纳鞍点解决方案。受此结果的启发，我们研究了Riemannian和最佳欧几里得空间凸入concove算法之间的性能差距。我们在负面的情况下回答了这个问题，证明Riemannian校正的外部（RCEG）方法在地球上强烈convex-concove案例中以线性速率实现了最后近期收敛，与欧几里得结果匹配。我们的结果还扩展到随机或非平滑案例，在这种情况下，RCEG和Riemanian梯度上升下降（RGDA）达到了近乎最佳的收敛速率，直到因歧管的曲率而定为因素。

translated by 谷歌翻译