随机梯度下降的理论性且有可能实用的问题是,轨迹可能逃到无穷大。在本说明中,我们研究了沿随机梯度下降算法的轨迹及其重要动量变体沿迭代元素和功能值的均匀界限。在损失函数的平滑度和$ r $ $ $ - 降解性下,我们表明,较宽的阶梯尺寸(包括广泛使用的踩踏和余弦),具有(或不使用)重新启动步骤尺寸,导致均匀界限和功能值。详细讨论了一些满足这些假设的重要应用,包括相位检索问题,高斯混合模型和一些神经网络分类器。我们进一步扩展了SGD的均匀界限及其在广义耗散性下的动量变体,其尾巴比二次函数慢的功能。这包括一些有趣的应用程序,例如,使用$ \ ell_1 $正则化的贝叶斯逻辑回归和逻辑回归。
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
我们的目标是使随机梯度$ \ sigma^2 $在随机梯度和(ii)问题依赖性常数中自适应(i)自适应。当最大程度地减少条件编号$ \ kappa $的平滑,强大的功能时,我们证明,$ t $ t $ toerations sgd的$ t $ toerations sgd具有指数降低的阶跃尺寸和对平滑度的知识可以实现$ \ tilde {o} \ left(\ exp) \ left(\ frac {-t} {\ kappa} \ right) + \ frac {\ sigma^2} {t} \ right)$ rate,而又不知道$ \ sigma^2 $。为了适应平滑度,我们使用随机线路搜索(SLS)并显示(通过上下距离),其SGD的SGD与SLS以所需的速率收敛,但仅针对溶液的邻域。另一方面,我们证明具有平滑度的离线估计值的SGD会收敛到最小化器。但是,其速率与估计误差成正比的速度减慢。接下来,我们证明具有Nesterov加速度和指数步骤尺寸(称为ASGD)的SGD可以实现接近最佳的$ \ tilde {o} \ left(\ exp \ left(\ frac {-t} {-t} {\ sqrt {\ sqrt {\ sqrt { \ kappa}}} \ right) + \ frac {\ sigma^2} {t} \ right)$ rate,而无需$ \ sigma^2 $。当与平滑度和强频率的离线估计值一起使用时,ASGD仍会收敛到溶液,尽管速度较慢。我们从经验上证明了指数级尺寸的有效性以及新型SLS的变体。
translated by 谷歌翻译
本文重点介绍了解决光滑非凸强凹入最小问题的随机方法,这导致了由于其深度学习中的潜在应用而受到越来越长的关注(例如,深度AUC最大化,分布鲁棒优化)。然而,大多数现有算法在实践中都很慢,并且它们的分析围绕到几乎静止点的收敛。我们考虑利用Polyak-\ L Ojasiewicz(PL)条件来设计更快的随机算法,具有更强的收敛保证。尽管已经用于设计许多随机最小化算法的PL条件,但它们对非凸敏最大优化的应用仍然罕见。在本文中,我们提出并分析了基于近端的跨越时代的方法的通用框架,许多众所周知的随机更新嵌入。以{\ BF原始物镜差和二元间隙}的方式建立快速收敛。与现有研究相比,(i)我们的分析基于一个新的Lyapunov函数,包括原始物理差距和正则化功能的二元间隙,(ii)结果更加全面,提高了更好的依赖性的速率不同假设下的条件号。我们还开展深层和非深度学习实验,以验证我们的方法的有效性。
translated by 谷歌翻译
在机器学习中,随机梯度下降(SGD)被广泛部署到使用具有同样复杂噪声模型的高度非凸目标的训练模型。不幸的是,SGD理论通常会做出限制性的假设,这些假设无法捕获实际问题的非跨性别,并且几乎完全忽略了实践中存在的复杂噪声模型。在这项工作中,我们在这一缺点上取得了长足的进步。首先,我们确定SGD的迭代将在几乎任意的非概念和噪声模型下全球收敛到固定点或分歧。在对文献中当前假设的非跨性别和噪声模型的共同行为的限制性稍微限制性的假设下,我们表明,即使迭代分歧,目标函数也无法分歧。由于我们的结果,可以将SGD应用于更大范围的随机优化问题,并在其全球收敛行为和稳定性上充满信心。
translated by 谷歌翻译
通过在线规范相关性分析的问题,我们提出了\ emph {随机缩放梯度下降}(SSGD)算法,以最小化通用riemannian歧管上的随机功能的期望。 SSGD概括了投影随机梯度下降的思想,允许使用缩放的随机梯度而不是随机梯度。在特殊情况下,球形约束的特殊情况,在广义特征向量问题中产生的,我们建立了$ \ sqrt {1 / t} $的令人反感的有限样本,并表明该速率最佳最佳,直至具有积极的积极因素相关参数。在渐近方面,一种新的轨迹平均争论使我们能够实现局部渐近常态,其速率与鲁普特 - Polyak-Quaditsky平均的速率匹配。我们将这些想法携带在一个在线规范相关分析,从事文献中的第一次获得了最佳的一次性尺度算法,其具有局部渐近融合到正常性的最佳一次性尺度算法。还提供了用于合成数据的规范相关分析的数值研究。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
最近,在学习没有更换SGD的收敛率的情况下,有很多兴趣,并证明它在最坏情况下比更换SGD更快。然而,已知的下限忽略了问题的几何形状,包括其条件号,而上限明确取决于它。也许令人惊讶的是,我们证明,当考虑条件号时,没有替换SGD \ EMPH {没有}在最坏情况下,除非是时期的数量(通过数据来说)大于条件号。由于机器学习和其他领域的许多问题都没有条件并涉及大型数据集,这表明没有替换不一定改善用于现实迭代预算的更换采样。我们通过提供具有紧密(最多日志因子)的新下限和上限来展示这一点,用于致通二次术语的二次问题,精确地量化了对问题参数的依赖性。
translated by 谷歌翻译
文献中随机梯度方法的绝大多数收敛速率分析集中在预期中的收敛性,而轨迹的几乎确定的收敛对于确保随机算法的任何实例化都会与概率相关。在这里,我们为随机梯度下降(SGD),随机重球(SHB)和随机Nesterov的加速梯度(SNAG)方法提供了几乎确定的收敛速率分析。我们首次显示,这些随机梯度方法在强凸功能上获得的几乎确定的收敛速率已任意接近其最佳收敛速率。对于非凸目标函数,我们不仅表明平方梯度规范的加权平均值几乎可以肯定地收敛到零,而且是算法的最后一次迭代。与文献中的大多数现有结果相反,我们进一步为弱凸平平滑功能的随机梯度方法提供了最后的几乎确定的收敛速率分析,而文献中的大多数现有结果仅提供了对迭代率的加权平均值的预期。
translated by 谷歌翻译
最新工作的一条有影响力的线重点关注的是针对可分离的线性分类的非规范梯度学习程序的泛化特性,并具有指数级的损失函数。这种方法概括地概括的能力归因于它们对大幅度预测指标的隐含偏见,无论是渐近的还是有限的时间。我们为此概括提供了另一个统一的解释,并将其与优化目标的两个简单属性相关联,我们将其称为可实现性和自我限制性。我们介绍了通过这些特性的不受约束随机凸优化的一般设置,并通过算法稳定性镜头分析梯度方法的概括。在这种更广泛的环境中,我们获得了梯度下降和随机梯度下降的尖锐稳定性边界,这些梯度下降即使适用于大量梯度步骤,并使用它们来得出这些算法的通用泛化界限。最后,作为一般边界的直接应用,我们返回使用可分离数据的线性分类设置,并为梯度下降和随机梯度下降建立了几种新颖的测试损失和测试精度界限,用于各种尾巴衰减速率的多种损耗函数。在某些情况下,我们的界限显着改善了文献中现有的概括误差界限。
translated by 谷歌翻译
随机一阶方法是训练大规模机器学习模型的标准。随机行为可能导致算法的特定运行导​​致高度次优的目标值,而通常证明理论保证是出于目标值的期望。因此,从理论上保证算法具有很高的可能性,这一点至关重要。非平滑随机凸优化的现有方法具有复杂的界限,其依赖性对置信度或对数为负功率,但在额外的假设下是高斯(轻尾)噪声分布的额外假设,这些噪声分布在实践中可能不存在。在我们的论文中,我们解决了这个问题,并得出了第一个高概率收敛的结果,并以对数依赖性对非平滑凸的随机优化问题的置信度依赖,并带有非Sub-Gaussian(重尾)噪声。为了得出我们的结果,我们建议针对两种随机方法进行梯度剪辑的新步骤规则。此外,我们的分析适用于使用H \“较旧连续梯度的通用平滑目标,对于这两种方法,我们都为强烈凸出问题提供了扩展。最后,我们的结果暗示我们认为的第一种(加速)方法也具有最佳的迭代。在所有制度中,Oracle的复杂性,第二个机制在非平滑设置中都是最佳的。
translated by 谷歌翻译
本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题,其目标是使具有变量的外目标函数最小化,该变量被限制为对(内部)优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况,而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似(TTSA)算法。在算法中,使用较大步长的随机梯度更新用于内部问题,而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率:当外部问题强烈凸起(RESP。〜弱凸)时,TTSA算法查找$ \ MATHCAL {O}(k ^ { - 2/3})$ -Optimal(resp。〜$ \ mathcal {o}(k ^ {-2/5})$ - 静止)解决方案,其中$ k $是总迭代号。作为一个应用程序,我们表明,两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是,与全球最优政策相比,自然演员批评算法显示以预期折扣奖励的差距,以$ \ mathcal {o}(k ^ { - 1/4})的速率收敛。
translated by 谷歌翻译
当任何延迟较大时,异步随机梯度下降(SGD)的现有分析显着降低,给人的印象是性能主要取决于延迟。相反,无论梯度中的延迟如何,我们都证明,我们可以更好地保证相同的异步SGD算法,而不是仅取决于用于实现算法的平行设备的数量。我们的保证严格比现有分析要好,我们还认为,异步SGD在我们考虑的设置中优于同步Minibatch SGD。为了进行分析,我们介绍了基于“虚拟迭代”和延迟自适应步骤的新颖递归,这使我们能够为凸面和非凸面目标得出最先进的保证。
translated by 谷歌翻译
过度分辨率是指选择神经网络的宽度,使得学习算法可以在非凸训练中可被估计零损失的重要现象。现有理论建立了各种初始化策略,培训修改和宽度缩放等全局融合。特别地,最先进的结果要求宽度以二次逐步缩放,并在实践中使用的标准初始化策略下进行培训数据的数量,以获得最佳泛化性能。相比之下,最新的结果可以获得线性缩放,需要导致导致“懒惰训练”的初始化,或者仅训练单层。在这项工作中,我们提供了一个分析框架,使我们能够采用标准的初始化策略,可能避免懒惰的训练,并在基本浅色神经网络中同时培训所有层,同时获得网络宽度的理想子标缩放。我们通过Polyak-Lojasiewicz条件,平滑度和数据标准假设实现了Desiderata,并使用随机矩阵理论的工具。
translated by 谷歌翻译
当数据自然分配到通过基础图的代理商之间,分散学习提供了隐私和沟通效率。通过过度参数化的学习设置,在该设置中,在该设置中训练了零训练损失,我们研究了分散学习的分散学习算法和概括性能,并在可分离的数据上下降。具体而言,对于分散的梯度下降(DGD)和各种损失函数,在无穷大(包括指数损失和逻辑损失)中渐近为零,我们得出了新的有限时间泛化界限。这补充了一长串最近的工作,该工作研究了概括性能和梯度下降的隐含偏见,而不是可分离的数据,但迄今为止,梯度下降的偏见仅限于集中学习方案。值得注意的是,我们的概括范围匹配其集中式同行。这背后的关键和独立感兴趣的是,在一类自我结合的损失方面建立了关于训练损失和DGD的传记率的新界限。最后,在算法方面,我们设计了改进的基于梯度的例程,可分离数据,并在经验上证明了训练和概括性能方面的加速命令。
translated by 谷歌翻译
我们研究了学习单个神经元的基本问题,即$ \ mathbf {x} \ mapsto \ sigma(\ mathbf {w} \ cdot \ cdot \ mathbf {x})$单调激活$ \ sigma $ \ sigma: \ mathbb {r} \ mapsto \ mathbb {r} $,相对于$ l_2^2 $ -loss,在存在对抗标签噪声的情况下。具体来说,我们将在$(\ mathbf {x},y)\ in \ mathbb {r}^d \ times \ times \ mathbb {r} $上给我们从$(\ mathbf {x},y)\ on a发行$ d $中给我们标记的示例。 }^\ ast \ in \ mathbb {r}^d $ achieving $ f(\ mathbf {w}^\ ast)= \ epsilon $,其中$ f(\ mathbf {w})= \ m马理bf {e} (\ mathbf {x},y)\ sim d} [(\ sigma(\ mathbf {w} \ cdot \ mathbf {x}) - y)^2] $。学习者的目标是输出假设向量$ \ mathbf {w} $,以使$ f(\ m athbb {w})= c \,\ epsilon $具有高概率,其中$ c> 1 $是通用常数。作为我们的主要贡献,我们为广泛的分布(包括对数 - 循环分布)和激活功能提供有效的恒定因素近似学习者。具体地说,对于各向同性对数凸出分布的类别,我们获得以下重要的推论:对于逻辑激活,我们获得了第一个多项式时间常数因子近似(即使在高斯分布下)。我们的算法具有样品复杂性$ \ widetilde {o}(d/\ epsilon)$,这在多毛体因子中很紧。对于relu激活,我们给出了一个有效的算法,带有样品复杂性$ \ tilde {o}(d \,\ polylog(1/\ epsilon))$。在我们工作之前,最著名的常数因子近似学习者具有样本复杂性$ \ tilde {\ omega}(d/\ epsilon)$。在这两个设置中,我们的算法很简单,在(正规)$ L_2^2 $ -LOSS上执行梯度散发。我们的算法的正确性取决于我们确定的新结构结果,表明(本质上是基本上)基础非凸损失的固定点大约是最佳的。
translated by 谷歌翻译
我们考虑非凸凹minimax问题,$ \ min _ {\ mathbf {x}} \ mathcal {y}} f(\ mathbf {x},\ mathbf {y})$, $ f $在$ \ mathbf {x} $ on $ \ mathbf {y} $和$ \ mathcal {y} $中的$ \ \ mathbf {y} $。解决此问题的最受欢迎的算法之一是庆祝的梯度下降上升(GDA)算法,已广泛用于机器学习,控制理论和经济学。尽管凸凹设置的广泛收敛结果,但具有相等步骤的GDA可以收敛以限制循环甚至在一般设置中发散。在本文中,我们介绍了两次尺度GDA的复杂性结果,以解决非膨胀凹入的最小问题,表明该算法可以找到函数$ \ phi(\ cdot)的静止点:= \ max _ {\ mathbf {Y} \ In \ Mathcal {Y}} F(\ CDOT,\ MATHBF {Y})高效。据我们所知,这是对这一环境中的两次尺度GDA的第一个非因对药分析,阐明了其在培训生成对抗网络(GANS)和其他实际应用中的优越实际表现。
translated by 谷歌翻译
我们调查随机镜面下降(SMD)的趋同相对光滑和平滑凸优化。在相对平滑的凸优化中,我们为SMD提供了新的收敛保证,并持续步骤。对于平滑的凸优化,我们提出了一种新的自适应步骤方案 - 镜子随机Polyak Spectize(MSP)。值得注意的是,我们的收敛导致两个设置都不会使有界渐变假设或有界方差假设,并且我们向邻域显示在插值下消失的邻居的融合。MSP概括了最近提出的随机Polyak Spectize(SPS)(Loizou等,2021)以镜子血液镜子,并且在继承镜子血清的好处的同时,现代机器学习应用仍然是实用和高效的。我们将我们的结果与各种监督的学习任务和SMD的不同实例相结合,展示了MSP的有效性。
translated by 谷歌翻译
我们研究了Adagrad-norm的收敛速率,作为自适应随机梯度方法(SGD)的典范,其中,基于观察到的随机梯度的步骤大小变化,以最大程度地减少非凸,平稳的目标。尽管它们很受欢迎,但在这种情况下,对自适应SGD的分析滞后于非自适应方法。具体而言,所有先前的作品都依赖以下假设的某个子集:(i)统一结合的梯度规范,(ii)均匀遇到的随机梯度方差(甚至噪声支持),(iii)步骤大小和随机性之间的有条件独立性坡度。在这项工作中,我们表明Adagrad-norm表现出$ \ Mathcal {O} \ left(\ frac {\ mathrm {poly} \ log(t)} {\ sqrt {\ sqrt {t}}} \ right)的订单最佳收敛率$在$ t $迭代之后,在与最佳调整的非自适应SGD(无界梯度规范和仿射噪声方差缩放)相同的假设下进行了$,而无需任何调整参数。因此,我们确定自适应梯度方法在比以前了解的更广泛的方案中表现出最佳的融合。
translated by 谷歌翻译
We initiate a formal study of reproducibility in optimization. We define a quantitative measure of reproducibility of optimization procedures in the face of noisy or error-prone operations such as inexact or stochastic gradient computations or inexact initialization. We then analyze several convex optimization settings of interest such as smooth, non-smooth, and strongly-convex objective functions and establish tight bounds on the limits of reproducibility in each setting. Our analysis reveals a fundamental trade-off between computation and reproducibility: more computation is necessary (and sufficient) for better reproducibility.
translated by 谷歌翻译