越来越多的机器学习问题,例如现有算法的鲁棒或对抗性变体,需要最小化自己定义为最大值的损耗函数。在(内部)最大化问题上携带随机梯度上升(SGA)步骤的环路,然后在(外部)最小化上进行SGD步骤,称为时期随机梯度\脑短幕(ESGDA)。虽然成功在实践中,ESGDA的理论分析仍然具有挑战性,但没有明确指导内部环路尺寸的选择,也没有内部/外部步长尺寸之间的相互作用。我们提出RSGDA(随机SGDA),是ESGDA的变种,具有随机环形尺寸,具有更简单的理论分析。 RSGDA在非透露X分钟/强凹幅最大设置上使用时,rsgda附带第一个(在SGDA算法中)几乎肯定的融合速率。 RSGDA可以使用最佳环路大小进行参数化,以保证已知为SGDA的最佳收敛速率。我们在玩具和更大的尺度问题上测试RSGDA,使用作为测试用最佳运输的分布鲁棒优化和单细胞数据匹配。
translated by 谷歌翻译
用于解决无约束光滑游戏的两个最突出的算法是经典随机梯度下降 - 上升(SGDA)和最近引入的随机共识优化(SCO)[Mescheder等,2017]。已知SGDA可以收敛到特定类别的游戏的静止点,但是当前的收敛分析需要有界方差假设。 SCO用于解决大规模对抗问题,但其收敛保证仅限于其确定性变体。在这项工作中,我们介绍了预期的共同胁迫条件,解释了它的好处,并在这种情况下提供了SGDA和SCO的第一次迭代收敛保证,以解决可能是非单调的一类随机变分不等式问题。我们将两种方法的线性会聚到解决方案的邻域时,当它们使用恒定的步长时,我们提出了富有识别的步骤化切换规则,以保证对确切解决方案的融合。此外,我们的收敛保证在任意抽样范式下担保,因此,我们对迷你匹配的复杂性进行了解。
translated by 谷歌翻译
我们考虑非凸凹minimax问题,$ \ min _ {\ mathbf {x}} \ mathcal {y}} f(\ mathbf {x},\ mathbf {y})$, $ f $在$ \ mathbf {x} $ on $ \ mathbf {y} $和$ \ mathcal {y} $中的$ \ \ mathbf {y} $。解决此问题的最受欢迎的算法之一是庆祝的梯度下降上升(GDA)算法,已广泛用于机器学习,控制理论和经济学。尽管凸凹设置的广泛收敛结果,但具有相等步骤的GDA可以收敛以限制循环甚至在一般设置中发散。在本文中,我们介绍了两次尺度GDA的复杂性结果,以解决非膨胀凹入的最小问题,表明该算法可以找到函数$ \ phi(\ cdot)的静止点:= \ max _ {\ mathbf {Y} \ In \ Mathcal {Y}} F(\ CDOT,\ MATHBF {Y})高效。据我们所知,这是对这一环境中的两次尺度GDA的第一个非因对药分析,阐明了其在培训生成对抗网络(GANS)和其他实际应用中的优越实际表现。
translated by 谷歌翻译
梯度下降上升(GDA),最简单的单环路算法用于非凸起最小化优化,广泛用于实际应用,例如生成的对抗网络(GANS)和对抗性训练。尽管其理想的简单性,最近的工作表明了理论上的GDA的较差收敛率,即使在一侧对象的强凹面也是如此。本文为两个替代的单环算法建立了新的收敛结果 - 交替GDA和平滑GDA - 在温和的假设下,目标对一个变量的polyak-lojasiewicz(pl)条件满足Polyak-lojasiewicz(pl)条件。我们证明,找到一个$ \ epsilon $ -stationary点,(i)交替的GDA及其随机变体(没有迷你批量),分别需要$ o(\ kappa ^ {2} \ epsilon ^ { - 2})$和$ o(\ kappa ^ {4} \ epsilon ^ {-4})$迭代,而(ii)平滑gda及其随机变体(没有迷你批次)分别需要$ o(\ kappa \ epsilon ^ { - 2}) $和$ o(\ kappa ^ {2} \ epsilon ^ { - 4})$迭代。后者大大改善了Vanilla GDA,并在类似的环境下给出了单环算法之间的最佳已知复杂性结果。我们进一步展示了这些算法在训练GAN和强大的非线性回归中的经验效率。
translated by 谷歌翻译
我们提出了随机方差降低算法,以求解凸 - 凸座鞍点问题,单调变异不平等和单调夹杂物。我们的框架适用于Euclidean和Bregman设置中的外部,前向前后和前反向回复的方法。所有提出的方法都在与确定性的对应物相同的环境中收敛,并且它们要么匹配或改善了解决结构化的最低最大问题的最著名复杂性。我们的结果加强了变异不平等和最小化之间的差异之间的对应关系。我们还通过对矩阵游戏的数值评估来说明方法的改进。
translated by 谷歌翻译
文献中随机梯度方法的绝大多数收敛速率分析集中在预期中的收敛性,而轨迹的几乎确定的收敛对于确保随机算法的任何实例化都会与概率相关。在这里,我们为随机梯度下降(SGD),随机重球(SHB)和随机Nesterov的加速梯度(SNAG)方法提供了几乎确定的收敛速率分析。我们首次显示,这些随机梯度方法在强凸功能上获得的几乎确定的收敛速率已任意接近其最佳收敛速率。对于非凸目标函数,我们不仅表明平方梯度规范的加权平均值几乎可以肯定地收敛到零,而且是算法的最后一次迭代。与文献中的大多数现有结果相反,我们进一步为弱凸平平滑功能的随机梯度方法提供了最后的几乎确定的收敛速率分析,而文献中的大多数现有结果仅提供了对迭代率的加权平均值的预期。
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
We study stochastic monotone inclusion problems, which widely appear in machine learning applications, including robust regression and adversarial learning. We propose novel variants of stochastic Halpern iteration with recursive variance reduction. In the cocoercive -- and more generally Lipschitz-monotone -- setup, our algorithm attains $\epsilon$ norm of the operator with $\mathcal{O}(\frac{1}{\epsilon^3})$ stochastic operator evaluations, which significantly improves over state of the art $\mathcal{O}(\frac{1}{\epsilon^4})$ stochastic operator evaluations required for existing monotone inclusion solvers applied to the same problem classes. We further show how to couple one of the proposed variants of stochastic Halpern iteration with a scheduled restart scheme to solve stochastic monotone inclusion problems with ${\mathcal{O}}(\frac{\log(1/\epsilon)}{\epsilon^2})$ stochastic operator evaluations under additional sharpness or strong monotonicity assumptions.
translated by 谷歌翻译
我们研究了具有有限和结构的平滑非凸化优化问题的随机重新洗脱(RR)方法。虽然该方法在诸如神经网络的训练之类的实践中广泛利用,但其会聚行为仅在几个有限的环境中被理解。在本文中,在众所周知的Kurdyka-LojasiewiCz(KL)不等式下,我们建立了具有适当递减步长尺寸的RR的强极限点收敛结果,即,RR产生的整个迭代序列是会聚并会聚到单个静止点几乎肯定的感觉。 In addition, we derive the corresponding rate of convergence, depending on the KL exponent and the suitably selected diminishing step sizes.当KL指数在$ [0,\ FRAC12] $以$ [0,\ FRAC12] $时,收敛率以$ \ mathcal {o}(t ^ { - 1})$的速率计算,以$ t $ counting迭代号。当KL指数属于$(\ FRAC12,1)$时,我们的派生收敛速率是FORM $ \ MATHCAL {O}(T ^ { - Q})$,$ Q \ IN(0,1)$取决于在KL指数上。基于标准的KL不等式的收敛分析框架仅适用于具有某种阶段性的算法。我们对基于KL不等式的步长尺寸减少的非下降RR方法进行了新的收敛性分析,这概括了标准KL框架。我们总结了我们在非正式分析框架中的主要步骤和核心思想,这些框架是独立的兴趣。作为本框架的直接应用,我们还建立了类似的强极限点收敛结果,为重组的近端点法。
translated by 谷歌翻译
随机以外的(SEG)方法是解决各种机器学习任务中出现的最小最大优化和变分不等式问题(VIP)的最流行算法之一。然而,有关SEG的收敛性质的几个重要问题仍然是开放的,包括随机梯度的采样,迷你批量,用于单调有限和变分不等式的单调有限和变分别不等式,以及其他问题。为了解决这些问题,在本文中,我们开发了一种新颖的理论框架,使我们能够以统一的方式分析赛季的几种变体。除了标准设置之外,与均有界差异下的LipsChitzness和单调性或独立样本SEG相同 - 样本SEG,我们的方法可以分析之前从未明确考虑过的SEG的变体。值得注意的是,我们用任意抽样分析SEG,其中包括重要性采样和各种批量批量策略作为特殊情况。我们为SEG的新变种的率优于目前最先进的融合保证并依赖于更少的限制性假设。
translated by 谷歌翻译
我们调查随机镜面下降(SMD)的趋同相对光滑和平滑凸优化。在相对平滑的凸优化中,我们为SMD提供了新的收敛保证,并持续步骤。对于平滑的凸优化,我们提出了一种新的自适应步骤方案 - 镜子随机Polyak Spectize(MSP)。值得注意的是,我们的收敛导致两个设置都不会使有界渐变假设或有界方差假设,并且我们向邻域显示在插值下消失的邻居的融合。MSP概括了最近提出的随机Polyak Spectize(SPS)(Loizou等,2021)以镜子血液镜子,并且在继承镜子血清的好处的同时,现代机器学习应用仍然是实用和高效的。我们将我们的结果与各种监督的学习任务和SMD的不同实例相结合,展示了MSP的有效性。
translated by 谷歌翻译
通过在线规范相关性分析的问题,我们提出了\ emph {随机缩放梯度下降}(SSGD)算法,以最小化通用riemannian歧管上的随机功能的期望。 SSGD概括了投影随机梯度下降的思想,允许使用缩放的随机梯度而不是随机梯度。在特殊情况下,球形约束的特殊情况,在广义特征向量问题中产生的,我们建立了$ \ sqrt {1 / t} $的令人反感的有限样本,并表明该速率最佳最佳,直至具有积极的积极因素相关参数。在渐近方面,一种新的轨迹平均争论使我们能够实现局部渐近常态,其速率与鲁普特 - Polyak-Quaditsky平均的速率匹配。我们将这些想法携带在一个在线规范相关分析,从事文献中的第一次获得了最佳的一次性尺度算法,其具有局部渐近融合到正常性的最佳一次性尺度算法。还提供了用于合成数据的规范相关分析的数值研究。
translated by 谷歌翻译
本文重点介绍了解决光滑非凸强凹入最小问题的随机方法,这导致了由于其深度学习中的潜在应用而受到越来越长的关注(例如,深度AUC最大化,分布鲁棒优化)。然而,大多数现有算法在实践中都很慢,并且它们的分析围绕到几乎静止点的收敛。我们考虑利用Polyak-\ L Ojasiewicz(PL)条件来设计更快的随机算法,具有更强的收敛保证。尽管已经用于设计许多随机最小化算法的PL条件,但它们对非凸敏最大优化的应用仍然罕见。在本文中,我们提出并分析了基于近端的跨越时代的方法的通用框架,许多众所周知的随机更新嵌入。以{\ BF原始物镜差和二元间隙}的方式建立快速收敛。与现有研究相比,(i)我们的分析基于一个新的Lyapunov函数,包括原始物理差距和正则化功能的二元间隙,(ii)结果更加全面,提高了更好的依赖性的速率不同假设下的条件号。我们还开展深层和非深度学习实验,以验证我们的方法的有效性。
translated by 谷歌翻译
在这项工作中,我们提供了一种基本的统一收敛定理,用于得出一系列随机优化方法的预期和几乎确定的收敛结果。我们的统一定理仅需要验证几种代表性条件,并且不适合任何特定算法。作为直接应用,我们在更一般的设置下恢复了随机梯度方法(SGD)和随机改组(RR)的预期收敛结果。此外,我们为非滑动非convex优化问题的随机近端梯度方法(Prox-SGD)和基于随机模型的方法(SMM)建立了新的预期和几乎确定的收敛结果。这些应用程序表明,我们的统一定理为广泛的随机优化方法提供了插件类型的收敛分析和强大的收敛保证。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
我们研究了一类算法,用于在内部级别物镜强烈凸起时求解随机和确定性设置中的彼此优化问题。具体地,我们考虑基于不精确的隐含区分的算法,并且我们利用热门开始策略来摊销精确梯度的估计。然后,我们介绍了一个统一的理论框架,受到奇异的扰动系统(Habets,1974)的研究来分析这种摊销算法。通过使用此框架,我们的分析显示了匹配可以访问梯度无偏见估计的Oracle方法的计算复杂度的算法,从而优于彼此优化的许多现有结果。我们在合成实验中说明了这些发现,并展示了这些算法对涉及几千个变量的超参数优化实验的效率。
translated by 谷歌翻译
本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题,其目标是使具有变量的外目标函数最小化,该变量被限制为对(内部)优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况,而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似(TTSA)算法。在算法中,使用较大步长的随机梯度更新用于内部问题,而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率:当外部问题强烈凸起(RESP。〜弱凸)时,TTSA算法查找$ \ MATHCAL {O}(k ^ { - 2/3})$ -Optimal(resp。〜$ \ mathcal {o}(k ^ {-2/5})$ - 静止)解决方案,其中$ k $是总迭代号。作为一个应用程序,我们表明,两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是,与全球最优政策相比,自然演员批评算法显示以预期折扣奖励的差距,以$ \ mathcal {o}(k ^ { - 1/4})的速率收敛。
translated by 谷歌翻译
在本文中,我们提出了一种称为ANITA的新型加速梯度方法,用于解决基本的有限和优化问题。具体而言,我们同时考虑一般凸面和强烈凸面设置:i)对于一般凸有限的和有限的问题,Anita改善了Varag给定的先前最新结果(Lan等,2019)。特别是,对于大规模问题或收敛错误不是很小,即$ n \ geq \ frac {1} {\ epsilon^2} $,Anita获得\ emph {first} optimal restion $ o(n )$,匹配Woodworth and Srebro(2016)提供的下限$ \ Omega(N)$,而先前的结果为$ O(N \ log \ frac {1} {\ epsilon})$ 。 ii)对于强烈凸有限的问题,我们还表明,Anita可以实现最佳收敛速率$ o \ big(((n+\ sqrt {\ frac {\ frac {nl} {\ mu}} {\ mu}})\ log \ log \ frac {1} {1} {1} {1} { \ epsilon} \ big)$匹配下限$ \ omega \ big(((n+\ sqrt {\ frac {nl} {nl} {\ mu}})\ log \ frac {1} {\ epsilon} {\ epsilon} \ big) Lan and Zhou(2015)。此外,与以前的加速算法(如Varag(Lan等,2019)和Katyusha(Allen-Zhu,2017年),Anita享有更简单的无环算法结构。此外,我们提供了一种新颖的\ emph {动态多阶段收敛分析},这是将先前结果提高到最佳速率的关键技术。我们认为,针对基本有限和有限问题的新理论率和新颖的收敛分析将直接导致许多其他相关问题(例如分布式/联合/联合/分散的优化问题)的关键改进(例如,Li和Richt \'Arik,2021年,2021年)。最后,数值实验表明,Anita收敛的速度比以前的最先进的Varag(Lan等,2019)更快,从而验证了我们的理论结果并证实了Anita的实践优势。
translated by 谷歌翻译
随机多变最小化 - 最小化(SMM)是大多数变化最小化的经典原则的在线延伸,这包括采样I.I.D。来自固定数据分布的数据点,并最小化递归定义的主函数的主要替代。在本文中,我们引入了随机块大大化 - 最小化,其中替代品现在只能块多凸,在半径递减内的时间优化单个块。在SMM中的代理人放松标准的强大凸起要求,我们的框架在内提供了更广泛的适用性,包括在线CANDECOMP / PARAFAC(CP)字典学习,并且尤其是当问题尺寸大时产生更大的计算效率。我们对所提出的算法提供广泛的收敛性分析,我们在可能的数据流下派生,放松标准i.i.d。对数据样本的假设。我们表明,所提出的算法几乎肯定会收敛于速率$ O((\ log n)^ {1+ \ eps} / n ^ {1/2})$的约束下的非凸起物镜的静止点集合。实证丢失函数和$ O((\ log n)^ {1+ \ eps} / n ^ {1/4})$的预期丢失函数,其中$ n $表示处理的数据样本数。在一些额外的假设下,后一趋同率可以提高到$ o((\ log n)^ {1+ \ eps} / n ^ {1/2})$。我们的结果为一般马尔维亚数据设置提供了各种在线矩阵和张量分解算法的第一融合率界限。
translated by 谷歌翻译
我们认为随机梯度下降及其在繁殖内核希尔伯特空间中二进制分类问题的平均变体。在使用损失函数的一致性属性的传统分析中,众所周知,即使在条件标签概率上假设低噪声状态时,预期的分类误差也比预期风险更慢。因此,最终的速率为sublinear。因此,重要的是要考虑是否可以实现预期分类误差的更快收敛。在最近的研究中,随机梯度下降的指数收敛速率在强烈的低噪声条件下显示,但前提是理论分析仅限于平方损耗函数,这对于二元分类任务来说是不足的。在本文中,我们在随机梯度下降的最后阶段中显示了预期分类误差的指数收敛性,用于在相似的假设下进行一类宽类可区分的凸损失函数。至于平均的随机梯度下降,我们表明相同的收敛速率来自训练的早期阶段。在实验中,我们验证了对$ L_2 $调查的逻辑回归的分析。
translated by 谷歌翻译