智能论文笔记

Random Shuffling Beats SGD Only After Many Epochs on Ill-Conditioned Problems

Itay Safran , Ohad Shamir

分类：机器学习

2021-06-12

最近，在学习没有更换SGD的收敛率的情况下，有很多兴趣，并证明它在最坏情况下比更换SGD更快。然而，已知的下限忽略了问题的几何形状，包括其条件号，而上限明确取决于它。也许令人惊讶的是，我们证明，当考虑条件号时，没有替换SGD \ EMPH {没有}在最坏情况下，除非是时期的数量（通过数据来说）大于条件号。由于机器学习和其他领域的许多问题都没有条件并涉及大型数据集，这表明没有替换不一定改善用于现实迭代预算的更换采样。我们通过提供具有紧密（最多日志因子）的新下限和上限来展示这一点，用于致通二次术语的二次问题，精确地量化了对问题参数的依赖性。

translated by 谷歌翻译

Permutation-Based SGD: Is Random Optimal?

Shashank Rajput , Kangwook Lee , Dimitris Papailiopoulos

分类：机器学习 | (统计)机器学习

2021-02-19

最近对基于置换的SGD的接地结果进行了证实了广泛观察到的现象：随机排列提供更快的收敛性，而不是更换采样。但是，是随机的最佳状态吗？我们表明这一点在很大程度上取决于我们正在优化的功能，并且最佳和随机排放之间的收敛差距可能因指数而异。我们首先表明，对于具有光滑的第二衍生物的1维强凸功能，与随机相比，存在令人指导的收敛性的排列。但是，对于一般强凸的功能，随机排列是最佳的。最后，我们表明，对于二次，强凸的功能，与随机相比，存在易于构建的置换，从而导致加速会聚。我们的研究结果表明，最佳排列的一般收敛性表征不能捕获各个函数类的细微差别，并且可能错误地表明一个人不能比随机更好。

translated by 谷歌翻译

Big-Step-Little-Step: Efficient Gradient Methods for Objectives with Multiple Scales

Jonathan Kelner , Annie Marsden , Vatsal Sharan , Aaron Sidford , Gregory Valiant , Honglin Yuan

分类：机器学习 | (统计)机器学习

2021-11-04

我们提供了新的基于梯度的方法，以便有效解决广泛的病态化优化问题。我们考虑最小化函数$ f：\ mathbb {r} ^ d \ lightarrow \ mathbb {r} $的问题，它是隐含的可分解的，作为$ m $未知的非交互方式的总和，强烈的凸起功能并提供方法这解决了这个问题，这些问题是缩放（最快的对数因子）作为组件的条件数量的平方根的乘积。这种复杂性绑定（我们证明几乎是最佳的）可以几乎指出的是加速梯度方法的几乎是指数的，这将作为$ F $的条件数量的平方根。此外，我们提供了求解该多尺度优化问题的随机异标变体的有效方法。而不是学习$ F $的分解（这将是过度昂贵的），而是我们的方法应用一个清洁递归“大步小步”交错标准方法。由此产生的算法使用$ \ tilde {\ mathcal {o}}（d m）$空间，在数字上稳定，并打开门以更细粒度的了解凸优化超出条件号的复杂性。

translated by 谷歌翻译

Reproducibility in Optimization: Theoretical Framework and Limits

Kwangjun Ahn , Prateek Jain , Ziwei Ji , Satyen Kale , Praneeth Netrapalli , Gil I. Shamir

分类：机器学习 | (统计)机器学习

2022-02-09

We initiate a formal study of reproducibility in optimization. We define a quantitative measure of reproducibility of optimization procedures in the face of noisy or error-prone operations such as inexact or stochastic gradient computations or inexact initialization. We then analyze several convex optimization settings of interest such as smooth, non-smooth, and strongly-convex objective functions and establish tight bounds on the limits of reproducibility in each setting. Our analysis reveals a fundamental trade-off between computation and reproducibility: more computation is necessary (and sufficient) for better reproducibility.

translated by 谷歌翻译

Benign Underfitting of Stochastic Gradient Descent

Tomer Koren , Roi Livni , Yishay Mansour , Uri Sherman

分类：机器学习 | (统计)机器学习

2022-02-27

我们研究随机梯度下降（SGD）在多大程度上被理解为“常规”学习规则，该规则通过获得良好的培训数据来实现概括性能。我们考虑基本的随机凸优化框架，其中（一通道，无需替代）SGD在经典上是众所周知的，可以最大程度地降低人口风险，以$ o（1/\ sqrt n）$ $ O（1/\ sqrt n）$，并且出人意料地证明，存在问题实例SGD解决方案既表现出$ \ omega（1）$的经验风险和概括差距。因此，事实证明，从任何意义上讲，SGD在算法上都不是稳定的，并且其概括能力不能通过均匀的收敛性或任何其他当前已知的概括性结合技术来解释（除了其经典分析外）。然后，我们继续分析与替代SGD密切相关的相关性，为此我们表明不会发生类似现象，并证明其人口风险实际上确实以最佳速度融合。最后，我们在没有替换SGD的背景下解释了我们的主要结果，用于有限的和凸优化问题，并得出多上类别制度的上限和下限，从而在先前已知的结果上有了显着改善。

translated by 谷歌翻译

Towards Noise-adaptive, Problem-adaptive (Accelerated) Stochastic Gradient Descent

Sharan Vaswani , Benjamin Dubois-Taine , Reza Babanezhad

分类：机器学习 | (统计)机器学习

2021-10-21

我们的目标是使随机梯度$ \ sigma^2 $在随机梯度和（ii）问题依赖性常数中自适应（i）自适应。当最大程度地减少条件编号$ \ kappa $的平滑，强大的功能时，我们证明，$ t $ t $ toerations sgd的$ t $ toerations sgd具有指数降低的阶跃尺寸和对平滑度的知识可以实现$ \ tilde {o} \ left（\ exp） \ left（\ frac {-t} {\ kappa} \ right） + \ frac {\ sigma^2} {t} \ right）$ rate，而又不知道$ \ sigma^2 $。为了适应平滑度，我们使用随机线路搜索（SLS）并显示（通过上下距离），其SGD的SGD与SLS以所需的速率收敛，但仅针对溶液的邻域。另一方面，我们证明具有平滑度的离线估计值的SGD会收敛到最小化器。但是，其速率与估计误差成正比的速度减慢。接下来，我们证明具有Nesterov加速度和指数步骤尺寸（称为ASGD）的SGD可以实现接近最佳的$ \ tilde {o} \ left（\ exp \ left（\ frac {-t} {-t} {\ sqrt {\ sqrt {\ sqrt { \ kappa}}} \ right） + \ frac {\ sigma^2} {t} \ right）$ rate，而无需$ \ sigma^2 $。当与平滑度和强频率的离线估计值一起使用时，ASGD仍会收敛到溶液，尽管速度较慢。我们从经验上证明了指数级尺寸的有效性以及新型SLS的变体。

translated by 谷歌翻译

The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded Gradients and Affine Variance

Matthew Faw , Isidoros Tziotis , Constantine Caramanis , Aryan Mokhtari , Sanjay Shakkottai , Rachel Ward

分类： (统计)机器学习 | 机器学习

2022-02-11

我们研究了Adagrad-norm的收敛速率，作为自适应随机梯度方法（SGD）的典范，其中，基于观察到的随机梯度的步骤大小变化，以最大程度地减少非凸，平稳的目标。尽管它们很受欢迎，但在这种情况下，对自适应SGD的分析滞后于非自适应方法。具体而言，所有先前的作品都依赖以下假设的某个子集：（i）统一结合的梯度规范，（ii）均匀遇到的随机梯度方差（甚至噪声支持），（iii）步骤大小和随机性之间的有条件独立性坡度。在这项工作中，我们表明Adagrad-norm表现出$ \ Mathcal {O} \ left（\ frac {\ mathrm {poly} \ log（t）} {\ sqrt {\ sqrt {t}}} \ right）的订单最佳收敛率$在$ t $迭代之后，在与最佳调整的非自适应SGD（无界梯度规范和仿射噪声方差缩放）相同的假设下进行了$，而无需任何调整参数。因此，我们确定自适应梯度方法在比以前了解的更广泛的方案中表现出最佳的融合。

translated by 谷歌翻译

Comparing Classes of Estimators: When does Gradient Descent Beat Ridge Regression in Linear Models?

Dominic Richards , Edgar Dobriban , Patrick Rebeschini

分类：机器学习 | (统计)机器学习

2021-08-26

从数据中学习的方法取决于各种类型的调整参数，例如惩罚强度或步长大小。由于性能可以在很大程度上取决于这些参数，因此重要的是要比较估算器的类别 - 考虑规定的有限调谐参数集，而不是特别调谐的方法。在这项工作中，我们通过同类中最佳方法的相对性能研究方法类。我们考虑了线性回归的中心问题，即随机的各向同性地面真理，并研究了两种基本方法的估计性能，即梯度下降和脊回归。我们公布以下现象。（1）对于一般设计，当经验数据协方差矩阵衰减的特征值缓慢，作为指数较不小于统一的功率定律时，恒定的梯度下降优于山脊回归。相反，如果特征值迅速衰减，则作为指数大于统一或指数的权力定律，我们表明山脊回归优于梯度下降。（2）对于正交设计，我们计算了确切的最小值最佳估计器类别（达到最低最大最大最佳），这表明它等同于具有衰减学习率的梯度下降。我们发现山脊回归和梯度下降的次数均具有恒定的步长。我们的结果表明，统计性能可以在很大程度上取决于调整参数。特别是，虽然最佳调谐脊回归是我们设置中的最佳估计器，但当仅在有限的许多正则化参数上调整两种方法时，它可以用任意/无界数量的梯度下降来表现优于梯度下降。

translated by 谷歌翻译

Formal guarantees for heuristic optimization algorithms used in machine learning

Xiaoyu Li

分类：机器学习 | (统计)机器学习

2022-07-31

最近，随机梯度下降（SGD）及其变体已成为机器学习（ML）问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸，从自适应步骤大小到启发式方法，以更改每次迭代中的步骤大小。此外，动力已被广泛用于ML任务以加速训练过程。然而，我们对它们的理论理解存在差距。在这项工作中，我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先，我们分析了凸面和非凸口设置的Adagrad（延迟Adagrad）步骤大小的广义版本，这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件，以确保梯度几乎融合到零。此外，我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次，我们用指数级和余弦的步骤分析了SGD，在经验上取得了成功，但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证，有或没有polyak-{\ l} ojasiewicz（pl）条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三，我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限，并以恒定的动量。此外，我们研究了一类跟随基于领先的领导者的动量算法，并随着动量和收缩的更新而增加。我们表明，他们的最后一个迭代具有最佳的收敛性，用于无约束的凸随机优化问题。

translated by 谷歌翻译

Hessian Averaging in Stochastic Newton Methods Achieves Superlinear Convergence

Sen Na , Michał Dereziński , Michael W. Mahoney

分类：机器学习 | (统计)机器学习

2022-04-20

We consider minimizing a smooth and strongly convex objective function using a stochastic Newton method. At each iteration, the algorithm is given an oracle access to a stochastic estimate of the Hessian matrix. The oracle model includes popular algorithms such as Subsampled Newton and Newton Sketch. Despite using second-order information, these existing methods do not exhibit superlinear convergence, unless the stochastic noise is gradually reduced to zero during the iteration, which would lead to a computational blow-up in the per-iteration cost. We propose to address this limitation with Hessian averaging: instead of using the most recent Hessian estimate, our algorithm maintains an average of all the past estimates. This reduces the stochastic noise while avoiding the computational blow-up. We show that this scheme exhibits local $Q$-superlinear convergence with a non-asymptotic rate of $(\Upsilon\sqrt{\log (t)/t}\,)^{t}$, where $\Upsilon$ is proportional to the level of stochastic noise in the Hessian oracle. A potential drawback of this (uniform averaging) approach is that the averaged estimates contain Hessian information from the global phase of the method, i.e., before the iterates converge to a local neighborhood. This leads to a distortion that may substantially delay the superlinear convergence until long after the local neighborhood is reached. To address this drawback, we study a number of weighted averaging schemes that assign larger weights to recent Hessians, so that the superlinear convergence arises sooner, albeit with a slightly slower rate. Remarkably, we show that there exists a universal weighted averaging scheme that transitions to local convergence at an optimal stage, and still exhibits a superlinear convergence rate nearly (up to a logarithmic factor) matching that of uniform Hessian averaging.

translated by 谷歌翻译

Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth Games: Convergence Analysis under Expected Co-coercivity

Nicolas Loizou , Hugo Berard , Gauthier Gidel , Ioannis Mitliagkas , Simon Lacoste-Julien

分类：机器学习 | (统计)机器学习

2021-06-30

用于解决无约束光滑游戏的两个最突出的算法是经典随机梯度下降 - 上升（SGDA）和最近引入的随机共识优化（SCO）[Mescheder等，2017]。已知SGDA可以收敛到特定类别的游戏的静止点，但是当前的收敛分析需要有界方差假设。 SCO用于解决大规模对抗问题，但其收敛保证仅限于其确定性变体。在这项工作中，我们介绍了预期的共同胁迫条件，解释了它的好处，并在这种情况下提供了SGDA和SCO的第一次迭代收敛保证，以解决可能是非单调的一类随机变分不等式问题。我们将两种方法的线性会聚到解决方案的邻域时，当它们使用恒定的步长时，我们提出了富有识别的步骤化切换规则，以保证对确切解决方案的融合。此外，我们的收敛保证在任意抽样范式下担保，因此，我们对迷你匹配的复杂性进行了解。

translated by 谷歌翻译

Recent Theoretical Advances in Non-Convex Optimization

Marina Danilova , Pavel Dvurechensky , Alexander Gasnikov , Eduard Gorbunov , Sergey Guminov , Dmitry Kamzolov , Innokentiy Shibaev

分类：机器学习

2020-12-11

近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加，我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始，显示一般非凸面问题无法在合理的时间内有效地解决。然后，我们提供了一个问题列表，可以通过利用问题的结构来有效地找到全球最小化器，因为可能的问题。处理非凸性的另一种方法是放宽目标，从找到全局最小，以找到静止点或局部最小值。对于该设置，我们首先为确定性一阶方法的收敛速率提出了已知结果，然后是最佳随机和随机梯度方案的一般理论分析，以及随机第一阶方法的概述。之后，我们讨论了非常一般的非凸面问题，例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能，这仍然允许获得一阶的理论融合保证方法。然后，我们考虑更高阶和零序/衍生物的方法及其收敛速率，以获得非凸优化问题。

translated by 谷歌翻译

On the fast convergence of minibatch heavy ball momentum

Raghu Bollapragada , Tyler Chen , Rachel Ward

分类：机器学习 | (统计)机器学习

2022-06-15

简单的随机动量方法被广泛用于机器学习优化，但它们的良好实践表现与文献中没有理论保证的理论保证相矛盾。在这项工作中，我们的目标是通过表明随机重球动量来弥合理论和实践之间的差距，该动力可以解释为具有动量的随机kaczmarz算法，保留了二次优化问题（确定性）重球动量的快速线性速率，至少在使用足够大的批次大小的小型匹配时。该分析依赖于仔细分解动量过渡矩阵，并使用新的光谱范围浓度界限来进行独立随机矩阵的产物。我们提供数值实验，以证明我们的边界相当锐利。

translated by 谷歌翻译

Stochastic optimization under distributional drift

Joshua Cutler , Dmitriy Drusvyatskiy , Zaid Harchaoui

分类：机器学习

2021-08-16

我们考虑最小化根据未知和可能随机动态发展的凸起功能的问题，这可以按时和在决策变量上共同依赖。在机器学习和信号处理文献中比比皆是，在概念漂移，随机跟踪和执行预测的名称下取比。我们为随机算法提供了新的非渐近融合保障，其具有迭代平均值，专注于期望和高概率有效。我们获得的效率估计明确地解除了优化误差，梯度噪声和时间漂移的贡献。值得注意的是，我们表明近端随机梯度方法的跟踪效率仅取决于配备步骤衰减计划时的初始化质量上的对数。数值实验说明了我们的结果。

translated by 谷歌翻译

Last Iterate Risk Bounds of SGD with Decaying Stepsize for Overparameterized Linear Regression

Jingfeng Wu , Difan Zou , Vladimir Braverman , Quanquan Gu , Sham M. Kakade

分类：机器学习 | (统计)机器学习

2021-10-12

随机梯度下降（SGD）已被证明在许多深度学习应用中都很好地概括了。在实践中，人们经常以几何衰减的步骤运行SGD，即，恒定的初始步骤，然后是多个几何步骤衰减，并将最后一个迭代用作输出。已知这种SGD几乎对经典有限维线性回归问题几乎是最佳的（Ge等，2019）。但是，在过度参数化设置中对SGD的最后一次迭代进行了彻底的分析。在本文中，我们对SGD的最后一个迭代风险界限进行了依赖问题的分析，并具有腐烂的步骤，以（过度参数化）线性回归问题。特别是，对于带有（尾部）几何衰减步骤的最后迭代SGD，我们证明了多余风险的上限和下限几乎匹配。此外，我们为最后一次迭代的SGD提供了多余的风险下限，并以多项式衰减的步骤进行了大小，并以实例的方式证明了几何腐烂的步骤的优势，这补充了先前工作中的最小值比较。

translated by 谷歌翻译

Oracle Complexity in Nonsmooth Nonconvex Optimization

Guy Kornowski , Ohad Shamir

分类：机器学习

2021-04-14

众所周知，给定顺滑，界限 - 下面，并且可能的非透露函数，标准梯度的方法可以找到$ \ epsilon $ -stationary积分（渐变范围小于$ \ epsilon $）$ \ mathcal {O}（1 / \ epsilon ^ 2）$迭代。然而，许多重要的非渗透优化问题，例如与培训现代神经网络相关的问题，本质上是不平衡的，使这些结果不适用。在本文中，我们研究了来自Oracle复杂性视点的非透射性优化，其中假设算法仅向各个点处的函数提供访问。我们提供两个主要结果：首先，我们考虑越近$ \ epsilon $ -storationary积分的问题。这也许是找到$ \ epsilon $ -storationary积分的最自然的放松，这在非对象案例中是不可能的。我们证明，对于任何距离和epsilon $小于某些常数，无法有效地实现这种轻松的目标。我们的第二次结果涉及通过减少到平滑的优化来解决非光度非渗透优化的可能性：即，在光滑的近似值对目标函数的平滑近似下应用平滑的优化方法。对于这种方法，我们在温和的假设下证明了oracle复杂性和平滑度之间的固有权衡：一方面，可以非常有效地平滑非光滑非凸函数（例如，通过随机平滑），但具有尺寸依赖性因子在平滑度参数中，在插入标准平滑优化方法时，这会强烈影响迭代复杂性。另一方面，可以用合适的平滑方法消除这些尺寸因子，而是仅通过使平滑过程的Oracle复杂性呈指数大。

translated by 谷歌翻译

High Dimensional Optimization through the Lens of Machine Learning

Felix Benning

分类： (统计)机器学习

2021-12-31

本文评价用机器学习问题的数值优化方法。由于机器学习模型是高度参数化的，我们专注于适合高维优化的方法。我们在二次模型上构建直觉，以确定哪种方法适用于非凸优化，并在凸函数上开发用于这种方法的凸起函数。随着随机梯度下降和动量方法的这种理论基础，我们试图解释为什么机器学习领域通常使用的方法非常成功。除了解释成功的启发式之外，最后一章还提供了对更多理论方法的广泛审查，这在实践中并不像惯例。所以在某些情况下，这项工作试图回答这个问题：为什么默认值中包含的默认TensorFlow优化器？

translated by 谷歌翻译

Does Momentum Help? A Sample Complexity Analysis

Swetha Ganesh , Rohan Deb , Gugan Thoppe , Amarjit Budhiraja

分类：机器学习

2021-10-29

随机重球（SHB）和Nesterov的加速随机梯度（ASG）是随机优化的流行动量方法。尽管对确定性环境中这种加速思想的好处有充分的理解，但它们在随机优化方面的优势仍然尚不清楚。实际上，在某些特定情况下，众所周知，在样本复杂性意义上，动量无济于事。我们的工作表明，类似的结果实际上是整个二次优化的。具体而言，我们为该家族获得了SHB和ASG样品复杂性的下限，并表明Vanilla SGD可以实现相同的结合。我们注意到，存在二次优化中基于动量方法的优势的结果，但这些方法基于单方面或有缺陷的分析。

translated by 谷歌翻译

Asynchronous SGD Beats Minibatch SGD Under Arbitrary Delays

Konstantin Mishchenko , Francis Bach , Mathieu Even , Blake Woodworth

分类：机器学习

2022-06-15

当任何延迟较大时，异步随机梯度下降（SGD）的现有分析显着降低，给人的印象是性能主要取决于延迟。相反，无论梯度中的延迟如何，我们都证明，我们可以更好地保证相同的异步SGD算法，而不是仅取决于用于实现算法的平行设备的数量。我们的保证严格比现有分析要好，我们还认为，异步SGD在我们考虑的设置中优于同步Minibatch SGD。为了进行分析，我们介绍了基于“虚拟迭代”和延迟自适应步骤的新颖递归，这使我们能够为凸面和非凸面目标得出最先进的保证。

translated by 谷歌翻译

Statistical inference with implicit SGD: proximal Robbins-Monro vs. Polyak-Ruppert

Yoonhyung Lee , Sungdong Lee , Joong-Ho Won

分类： (统计)机器学习 | 机器学习

2022-06-25

The implicit stochastic gradient descent (ISGD), a proximal version of SGD, is gaining interest in the literature due to its stability over (explicit) SGD. In this paper, we conduct an in-depth analysis of the two modes of ISGD for smooth convex functions, namely proximal Robbins-Monro (proxRM) and proximal Poylak-Ruppert (proxPR) procedures, for their use in statistical inference on model parameters. Specifically, we derive nonasymptotic point estimation error bounds of both proxRM and proxPR iterates and their limiting distributions, and propose on-line estimators of their asymptotic covariance matrices that require only a single run of ISGD. The latter estimators are used to construct valid confidence intervals for the model parameters. Our analysis is free of the generalized linear model assumption that has limited the preceding analyses, and employs feasible procedures. Our on-line covariance matrix estimators appear to be the first of this kind in the ISGD literature.* Equal contribution 1 Kakao Entertainment Corp.

translated by 谷歌翻译