智能论文笔记

SVRG Meets AdaGrad: Painless Variance Reduction

Benjamin Dubois-Taine , Sharan Vaswani , Reza Babanezhad , Mark Schmidt , Simon Lacoste-Julien

分类：机器学习 | (统计)机器学习

2021-02-18

有限和最小化的方差减少（VR）方法通常需要对往复且难以估计的问题依赖性常数的知识。为了解决这个问题，我们使用自适应梯度方法的想法来提出ADASVRG，这是SVRG的更强大变体，即常见的VR方法。 ADASVRG在SVRG的内循环中使用Adagrad，使其稳健地选择阶梯大小。当最小化N平滑凸函数的总和时，我们证明了ADASVRG的变体需要$ \ TINDE {O}（N + 1 / ePSILON）$梯度评估，以实现$ O（\ epsilon）$ - 次优，匹配典型速率，但不需要知道问题依赖性常数。接下来，我们利用Adagrad的属性提出了一种启发式，可以自适应地确定ADASVRG中的每个内循环的长度。通过对合成和现实世界数据集的实验，我们验证了ADASVRG的稳健性和有效性，证明了其对标准和其他“无调谐”VR方法的卓越性能。

translated by 谷歌翻译

Towards Noise-adaptive, Problem-adaptive (Accelerated) Stochastic Gradient Descent

Sharan Vaswani , Benjamin Dubois-Taine , Reza Babanezhad

分类：机器学习 | (统计)机器学习

2021-10-21

我们的目标是使随机梯度$ \ sigma^2 $在随机梯度和（ii）问题依赖性常数中自适应（i）自适应。当最大程度地减少条件编号$ \ kappa $的平滑，强大的功能时，我们证明，$ t $ t $ toerations sgd的$ t $ toerations sgd具有指数降低的阶跃尺寸和对平滑度的知识可以实现$ \ tilde {o} \ left（\ exp） \ left（\ frac {-t} {\ kappa} \ right） + \ frac {\ sigma^2} {t} \ right）$ rate，而又不知道$ \ sigma^2 $。为了适应平滑度，我们使用随机线路搜索（SLS）并显示（通过上下距离），其SGD的SGD与SLS以所需的速率收敛，但仅针对溶液的邻域。另一方面，我们证明具有平滑度的离线估计值的SGD会收敛到最小化器。但是，其速率与估计误差成正比的速度减慢。接下来，我们证明具有Nesterov加速度和指数步骤尺寸（称为ASGD）的SGD可以实现接近最佳的$ \ tilde {o} \ left（\ exp \ left（\ frac {-t} {-t} {\ sqrt {\ sqrt {\ sqrt { \ kappa}}} \ right） + \ frac {\ sigma^2} {t} \ right）$ rate，而无需$ \ sigma^2 $。当与平滑度和强频率的离线估计值一起使用时，ASGD仍会收敛到溶液，尽管速度较慢。我们从经验上证明了指数级尺寸的有效性以及新型SLS的变体。

translated by 谷歌翻译

Formal guarantees for heuristic optimization algorithms used in machine learning

Xiaoyu Li

分类：机器学习 | (统计)机器学习

2022-07-31

最近，随机梯度下降（SGD）及其变体已成为机器学习（ML）问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸，从自适应步骤大小到启发式方法，以更改每次迭代中的步骤大小。此外，动力已被广泛用于ML任务以加速训练过程。然而，我们对它们的理论理解存在差距。在这项工作中，我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先，我们分析了凸面和非凸口设置的Adagrad（延迟Adagrad）步骤大小的广义版本，这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件，以确保梯度几乎融合到零。此外，我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次，我们用指数级和余弦的步骤分析了SGD，在经验上取得了成功，但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证，有或没有polyak-{\ l} ojasiewicz（pl）条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三，我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限，并以恒定的动量。此外，我们研究了一类跟随基于领先的领导者的动量算法，并随着动量和收缩的更新而增加。我们表明，他们的最后一个迭代具有最佳的收敛性，用于无约束的凸随机优化问题。

translated by 谷歌翻译

Stochastic Mirror Descent: Convergence Analysis and Adaptive Variants via the Mirror Stochastic Polyak Stepsize

Ryan D'Orazio , Nicolas Loizou , Issam Laradji , Ioannis Mitliagkas

分类：机器学习

2021-10-28

我们调查随机镜面下降（SMD）的趋同相对光滑和平滑凸优化。在相对平滑的凸优化中，我们为SMD提供了新的收敛保证，并持续步骤。对于平滑的凸优化，我们提出了一种新的自适应步骤方案 - 镜子随机Polyak Spectize（MSP）。值得注意的是，我们的收敛导致两个设置都不会使有界渐变假设或有界方差假设，并且我们向邻域显示在插值下消失的邻居的融合。MSP概括了最近提出的随机Polyak Spectize（SPS）（Loizou等，2021）以镜子血液镜子，并且在继承镜子血清的好处的同时，现代机器学习应用仍然是实用和高效的。我们将我们的结果与各种监督的学习任务和SMD的不同实例相结合，展示了MSP的有效性。

translated by 谷歌翻译

A framework for bilevel optimization that enables stochastic and global variance reduction algorithms

Mathieu Dagréou , Pierre Ablin , Samuel Vaiter , Thomas Moreau

分类： (统计)机器学习 | 机器学习

2022-01-31

Bilevel优化是在机器学习的许多领域中最小化涉及另一个功能的价值函数的问题。在大规模的经验风险最小化设置中，样品数量很大，开发随机方法至关重要，而随机方法只能一次使用一些样品进行进展。但是，计算值函数的梯度涉及求解线性系统，这使得很难得出无偏的随机估计。为了克服这个问题，我们引入了一个新颖的框架，其中内部问题的解决方案，线性系统的解和主要变量同时发展。这些方向是作为总和写成的，使其直接得出无偏估计。我们方法的简单性使我们能够开发全球差异算法，其中所有变量的动力学都会降低差异。我们证明，萨巴（Saba）是我们框架中著名的传奇算法的改编，具有$ o（\ frac1t）$收敛速度，并且在polyak-lojasciewicz的假设下实现了线性收敛。这是验证这些属性之一的双光线优化的第一种随机算法。数值实验验证了我们方法的实用性。

translated by 谷歌翻译

Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth Games: Convergence Analysis under Expected Co-coercivity

Nicolas Loizou , Hugo Berard , Gauthier Gidel , Ioannis Mitliagkas , Simon Lacoste-Julien

分类：机器学习 | (统计)机器学习

2021-06-30

用于解决无约束光滑游戏的两个最突出的算法是经典随机梯度下降 - 上升（SGDA）和最近引入的随机共识优化（SCO）[Mescheder等，2017]。已知SGDA可以收敛到特定类别的游戏的静止点，但是当前的收敛分析需要有界方差假设。 SCO用于解决大规模对抗问题，但其收敛保证仅限于其确定性变体。在这项工作中，我们介绍了预期的共同胁迫条件，解释了它的好处，并在这种情况下提供了SGDA和SCO的第一次迭代收敛保证，以解决可能是非单调的一类随机变分不等式问题。我们将两种方法的线性会聚到解决方案的邻域时，当它们使用恒定的步长时，我们提出了富有识别的步骤化切换规则，以保证对确切解决方案的融合。此外，我们的收敛保证在任意抽样范式下担保，因此，我们对迷你匹配的复杂性进行了解。

translated by 谷歌翻译

Amortized Implicit Differentiation for Stochastic Bilevel Optimization

Michael Arbel , Julien Mairal

分类：机器学习

2021-11-29

我们研究了一类算法，用于在内部级别物镜强烈凸起时求解随机和确定性设置中的彼此优化问题。具体地，我们考虑基于不精确的隐含区分的算法，并且我们利用热门开始策略来摊销精确梯度的估计。然后，我们介绍了一个统一的理论框架，受到奇异的扰动系统（Habets，1974）的研究来分析这种摊销算法。通过使用此框架，我们的分析显示了匹配可以访问梯度无偏见估计的Oracle方法的计算复杂度的算法，从而优于彼此优化的许多现有结果。我们在合成实验中说明了这些发现，并展示了这些算法对涉及几千个变量的超参数优化实验的效率。

translated by 谷歌翻译

Stochastic Halpern Iteration with Variance Reduction for Stochastic Monotone Inclusions

Xufeng Cai , Chaobing Song , Cristóbal Guzmán , Jelena Diakonikolas

分类：机器学习

2022-03-17

We study stochastic monotone inclusion problems, which widely appear in machine learning applications, including robust regression and adversarial learning. We propose novel variants of stochastic Halpern iteration with recursive variance reduction. In the cocoercive -- and more generally Lipschitz-monotone -- setup, our algorithm attains $\epsilon$ norm of the operator with $\mathcal{O}(\frac{1}{\epsilon^3})$ stochastic operator evaluations, which significantly improves over state of the art $\mathcal{O}(\frac{1}{\epsilon^4})$ stochastic operator evaluations required for existing monotone inclusion solvers applied to the same problem classes. We further show how to couple one of the proposed variants of stochastic Halpern iteration with a scheduled restart scheme to solve stochastic monotone inclusion problems with ${\mathcal{O}}(\frac{\log(1/\epsilon)}{\epsilon^2})$ stochastic operator evaluations under additional sharpness or strong monotonicity assumptions.

translated by 谷歌翻译

ANITA: An Optimal Loopless Accelerated Variance-Reduced Gradient Method

Zhize Li

分类：机器学习

2021-03-21

在本文中，我们提出了一种称为ANITA的新型加速梯度方法，用于解决基本的有限和优化问题。具体而言，我们同时考虑一般凸面和强烈凸面设置：i）对于一般凸有限的和有限的问题，Anita改善了Varag给定的先前最新结果（Lan等，2019）。特别是，对于大规模问题或收敛错误不是很小，即$ n \ geq \ frac {1} {\ epsilon^2} $，Anita获得\ emph {first} optimal restion $ o（n ）$，匹配Woodworth and Srebro（2016）提供的下限$ \ Omega（N）$，而先前的结果为$ O（N \ log \ frac {1} {\ epsilon}）$ 。 ii）对于强烈凸有限的问题，我们还表明，Anita可以实现最佳收敛速率$ o \ big（（（n+\ sqrt {\ frac {\ frac {nl} {\ mu}} {\ mu}}）\ log \ log \ frac {1} {1} {1} {1} { \ epsilon} \ big）$匹配下限$ \ omega \ big（（（n+\ sqrt {\ frac {nl} {nl} {\ mu}}）\ log \ frac {1} {\ epsilon} {\ epsilon} \ big） Lan and Zhou（2015）。此外，与以前的加速算法（如Varag（Lan等，2019）和Katyusha（Allen-Zhu，2017年），Anita享有更简单的无环算法结构。此外，我们提供了一种新颖的\ emph {动态多阶段收敛分析}，这是将先前结果提高到最佳速率的关键技术。我们认为，针对基本有限和有限问题的新理论率和新颖的收敛分析将直接导致许多其他相关问题（例如分布式/联合/联合/分散的优化问题）的关键改进（例如，Li和Richt \'Arik，2021年，2021年）。最后，数值实验表明，Anita收敛的速度比以前的最先进的Varag（Lan等，2019）更快，从而验证了我们的理论结果并证实了Anita的实践优势。

translated by 谷歌翻译

On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging

Chris Junchi Li , Yaodong Yu , Nicolas Loizou , Gauthier Gidel , Yi Ma , Nicolas Le Roux , Michael I. Jordan

分类：机器学习 | (统计)机器学习

2021-06-30

我们研究了随机双线性最小利益的优化问题，呈现了恒定步长的相同样本随机以（SEG）方法的分析，并呈现了产生有利收敛的方法的变化。在锐度对比度与基本的SEG方法相比，其最后迭代仅对纳什均衡的固定邻域，SEG以相同的标准设置在相同的标准设置下可被提供给NASH均衡的迭代，并且通过结合预定，进一步提高了这种速率重新启动程序。在插值环境中，噪声在纳什均衡消失时，我们达到了最佳的常量收敛速度。我们展示了验证我们理论发现的数值实验，并在配备迭代平均和重启时证明SEG方法的有效性。

translated by 谷歌翻译

A Stochastic Variance Reduced Gradient using Barzilai-Borwein Techniques as Second Order Information

Hardik Tankaria , Nobuo Yamashita

分类：机器学习 | (统计)机器学习

2022-08-23

在本文中，我们考虑通过结合目标函数的曲率信息来改善随机方差减少梯度（SVRG）方法。我们建议通过将其合并到SVRG中，以使用计算有效的Barzilai-Borwein（BB）方法来降低随机梯度的方差。我们还将BB步骤大小合并为其变体。我们证明其线性收敛定理不仅适用于所提出的方法，还适用于SVRG的其他现有变体，并使用二阶信息。我们在基准数据集上进行了数值实验，并表明具有恒定步长的提出方法的性能优于现有方差减少的方法，这些方法对于某些测试问题。

translated by 谷歌翻译

Permutation-Based SGD: Is Random Optimal?

Shashank Rajput , Kangwook Lee , Dimitris Papailiopoulos

分类：机器学习 | (统计)机器学习

2021-02-19

最近对基于置换的SGD的接地结果进行了证实了广泛观察到的现象：随机排列提供更快的收敛性，而不是更换采样。但是，是随机的最佳状态吗？我们表明这一点在很大程度上取决于我们正在优化的功能，并且最佳和随机排放之间的收敛差距可能因指数而异。我们首先表明，对于具有光滑的第二衍生物的1维强凸功能，与随机相比，存在令人指导的收敛性的排列。但是，对于一般强凸的功能，随机排列是最佳的。最后，我们表明，对于二次，强凸的功能，与随机相比，存在易于构建的置换，从而导致加速会聚。我们的研究结果表明，最佳排列的一般收敛性表征不能捕获各个函数类的细微差别，并且可能错误地表明一个人不能比随机更好。

translated by 谷歌翻译

Stochastic Zeroth order Descent with Structured Directions

Marco Rando , Cesare Molinari , Silvia Villa , Lorenzo Rosasco

分类：机器学习

2022-06-10

我们介绍和分析结构化的随机零订单下降（S-SZD），这是一种有限的差异方法，该方法在一组$ l \ leq d $正交方向上近似于随机梯度，其中$ d $是环境空间的维度。这些方向是随机选择的，并且可能在每个步骤中发生变化。对于平滑的凸功能，我们几乎可以确保迭代的收敛性和对$ o（d/l k^{ - c}）$的功能值的收敛速率，每$ c <1/2 $，这是任意关闭的就迭代次数而言，是随机梯度下降（SGD）。我们的界限还显示了使用$ l $多个方向而不是一个方向的好处。对于满足polyak-{\ l} ojasiewicz条件的非convex函数，我们在这种假设下建立了随机Zeroth Order Order Order算法的第一个收敛速率。我们在数值模拟中证实了我们的理论发现，在数值模拟中，满足假设以及对超参数优化的现实世界问题，观察到S-SZD具有很好的实践性能。

translated by 谷歌翻译

Stochastic Variance Reduction for Variational Inequality Methods

Ahmet Alacaoglu , Yura Malitsky

分类：机器学习 | (统计)机器学习

2021-02-16

我们提出了随机方差降低算法，以求解凸 - 凸座鞍点问题，单调变异不平等和单调夹杂物。我们的框架适用于Euclidean和Bregman设置中的外部，前向前后和前反向回复的方法。所有提出的方法都在与确定性的对应物相同的环境中收敛，并且它们要么匹配或改善了解决结构化的最低最大问题的最著名复杂性。我们的结果加强了变异不平等和最小化之间的差异之间的对应关系。我们还通过对矩阵游戏的数值评估来说明方法的改进。

translated by 谷歌翻译

Cyclic Block Coordinate Descent With Variance Reduction for Composite Nonconvex Optimization

Xufeng Cai , Chaobing Song , Stephen J. Wright , Jelena Diakonikolas

分类：机器学习

2022-12-09

Nonconvex optimization is central in solving many machine learning problems, in which block-wise structure is commonly encountered. In this work, we propose cyclic block coordinate methods for nonconvex optimization problems with non-asymptotic gradient norm guarantees. Our convergence analysis is based on a gradient Lipschitz condition with respect to a Mahalanobis norm, inspired by a recent progress on cyclic block coordinate methods. In deterministic settings, our convergence guarantee matches the guarantee of (full-gradient) gradient descent, but with the gradient Lipschitz constant being defined w.r.t.~the Mahalanobis norm. In stochastic settings, we use recursive variance reduction to decrease the per-iteration cost and match the arithmetic operation complexity of current optimal stochastic full-gradient methods, with a unified analysis for both finite-sum and infinite-sum cases. We further prove the faster, linear convergence of our methods when a Polyak-{\L}ojasiewicz (P{\L}) condition holds for the objective function. To the best of our knowledge, our work is the first to provide variance-reduced convergence guarantees for a cyclic block coordinate method. Our experimental results demonstrate the efficacy of the proposed variance-reduced cyclic scheme in training deep neural nets.

translated by 谷歌翻译

Recent Theoretical Advances in Non-Convex Optimization

Marina Danilova , Pavel Dvurechensky , Alexander Gasnikov , Eduard Gorbunov , Sergey Guminov , Dmitry Kamzolov , Innokentiy Shibaev

分类：机器学习

2020-12-11

近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加，我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始，显示一般非凸面问题无法在合理的时间内有效地解决。然后，我们提供了一个问题列表，可以通过利用问题的结构来有效地找到全球最小化器，因为可能的问题。处理非凸性的另一种方法是放宽目标，从找到全局最小，以找到静止点或局部最小值。对于该设置，我们首先为确定性一阶方法的收敛速率提出了已知结果，然后是最佳随机和随机梯度方案的一般理论分析，以及随机第一阶方法的概述。之后，我们讨论了非常一般的非凸面问题，例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能，这仍然允许获得一阶的理论融合保证方法。然后，我们考虑更高阶和零序/衍生物的方法及其收敛速率，以获得非凸优化问题。

translated by 谷歌翻译

Adaptive Learning Rates for Faster Stochastic Gradient Methods

Samuel Horváth , Konstantin Mishchenko , Peter Richtárik

分类：机器学习

2022-08-10

在这项工作中，我们提出了新的自适应步长策略，以改善几种随机梯度方法。我们的第一种方法（停止）基于经典的Polyak步长（Polyak，1987），是随机优化SPS（Loizou等，2021）的最新开发的延伸，我们的第二种方法，以及我们的第二种方法表示毕业生，通过“随机梯度的多样性”重新缩放步长。我们对这些方法进行了理论分析，以实现强烈凸平的光滑功能，并表明尽管随机梯度随机梯度，它们仍享有确定性的速率。此外，我们证明了自适应方法对二次目标的理论优势。不幸的是，两个停止和毕业生都取决于未知数量，这仅适用于过度散光模型。为了解决这个问题，我们放弃了这种不希望的依赖性，并重新定义了停止和毕业生的停止和毕业。我们表明，这些新方法在相同的假设下线性收敛到最佳解决方案的邻域。最后，我们通过实验验证来证实我们的理论主张，这表明GRAD对于深度学习优化特别有用。

translated by 谷歌翻译

Improved Policy Optimization for Online Imitation Learning

Jonathan Wilder Lavington , Sharan Vaswani , Mark Schmidt

分类：机器学习

2022-07-29

我们考虑在线模仿学习（OIL），其中的任务是找到一项通过与环境的积极互动来模仿专家的行为的政策。我们旨在通过分析最流行的石油算法之一匕首来弥合石油政策优化算法之间的差距。具体而言，如果一类政策足以包含专家政策，我们证明匕首会持续遗憾。与以前需要损失的界限不同，我们的结果只需要较弱的假设，即损失相对于策略的足够统计数据（而不是其参数化）。为了确保对更广泛的政策和损失类别的收敛，我们以额外的正则化项增强了匕首。特别是，我们提出了一个遵循定制领导者（FTRL）的变体及其用于石油的自适应变体，并开发了与FTL的内存需求相匹配的记忆效率实现。假设损失的功能是平稳的，并且相对于政策参数凸出，我们还证明，FTRL对任何足够表达的政策类别都持续遗憾，同时保留了$ O（\ sqrt {t}）$，在最坏的情况下遗憾案子。我们通过实验对合成和高维控制任务的实验证明了这些算法的有效性。

translated by 谷歌翻译

Stochastic Frank-Wolfe for Constrained Finite-Sum Minimization

Geoffrey Négiar , Gideon Dresdner , Alicia Tsai , Laurent El Ghaoui , Francesco Locatello , Robert M. Freund , Fabian Pedregosa

分类：机器学习

2020-02-27

我们提出了一种新颖的随机弗兰克 - 沃尔夫（又名条件梯度）算法，用于使用广义的线性预测/结构进行约束的平滑有限和最小化。这类问题包括稀疏，低级别或其他结构化约束的经验风险最小化。提出的方法易于实现，不需要阶梯尺寸调整，并且具有独立于数据集大小的恒定触电成本。此外，作为该方法的副产品，我们获得了Frank-Wolfe间隙的随机估计器，可以用作停止标准。根据设置，提出的方法匹配或改进了随机Frank-Wolfe算法的最佳计算保证。几个数据集上的基准强调了不同的策略，其中所提出的方法比相关方法表现出更快的经验收敛性。最后，我们在开源软件包中提供了所有考虑的方法的实现。

translated by 谷歌翻译

Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization

Simon S. Du , Gauthier Gidel , Michael I. Jordan , Chris Junchi Li

分类：机器学习

2022-06-17

我们考虑光滑的凸孔concave双线性耦合的鞍点问题，$ \ min _ {\ mathbf {x}}} \ max _ {\ mathbf {y Mathbf {y}} 〜f（\ mathbf {x}} }，\ mathbf {y}） - g（\ mathbf {y}）$，其中一个人可以访问$ f $，$ g $的随机一阶oracles以及biinear耦合函数$ h $。基于标准的随机外部分析，我们提出了随机\ emph {加速梯度 - extragradient（ag-eg）}下降的算法，该算法在一般随机设置中结合了外部和Nesterov的加速度。该算法利用计划重新启动以接收一种良好的非震动收敛速率，该算法与\ citet {ibrahim202020linear}和\ citet {zhang2021lower}相匹配，并在其相应的设置中，还有一个额外的统计误差期限，以及\ citet {zhang2021lower}最多达到恒定的预取子。这是在鞍点优化中实现这种相对成熟的最佳表征的第一个结果。

translated by 谷歌翻译