现代深度学习(DL)架构使用使用$ \ Texit运行的SGD算法的变体训练训练{手动} $定义的学习率计划,即,在预定义的时期删除了学习率,通常在训练时损失预计会饱和。在本文中,我们开发了一种实现学习率下降$ \ Texit {自动} $的算法。所提出的方法,即我们称为Autodrop,通过观察到模型参数的角速度,即收敛方向的变化的速度,用于固定学习速率最初迅速增加,然后朝向软饱和。在饱和时,优化器减慢,因此角速度饱和度是用于降低学习率的良好指标。在下降之后,角速度“重置”并遵循先前描述的图案 - 它再次增加,直到饱和度。我们表明,我们的方法改善了SOTA培训方法:它加快了对DL模型的培训并导致更好的概括。我们还表明,我们的方法不需要任何额外的额外的覆盖器调整。 AutoDrop进一步实现和计算方式非常简单。最后,我们开发了一个分析我们算法的理论框架,并提供了收敛保证。
translated by 谷歌翻译
学习率调度程序已在培训深层神经网络中广泛采用。尽管它们的实际重要性,但其实践与理论分析之间存在差异。例如,即使是出于优化二次目标等简单问题,也不知道哪些SGD的时间表达到了最佳收敛性。在本文中,我们提出了本特征库,这是第一个可以在二次目标上获得最小值最佳收敛速率(最多达到常数)的最佳最佳收敛速率(最多达到常数),当时基础Hessian矩阵的特征值分布偏好。这种情况在实践中很普遍。实验结果表明,在CIFAR-10上的图像分类任务中,特征库可以显着超过阶跃衰减,尤其是当时期数量较小时。此外,该理论激发了两个简单的学习率调度程序,用于实用应用程序,可以近似特征。对于某些问题,提议的调度程序的最佳形状类似于余弦衰减的最佳形状,这阐明了余弦衰减在这种情况下的成功。对于其他情况,建议的调度程序优于余弦衰减。
translated by 谷歌翻译
The vast majority of successful deep neural networks are trained using variants of stochastic gradient descent (SGD) algorithms. Recent attempts to improve SGD can be broadly categorized into two approaches: (1) adaptive learning rate schemes, such as AdaGrad and Adam, and (2) accelerated schemes, such as heavy-ball and Nesterov momentum. In this paper, we propose a new optimization algorithm, Lookahead, that is orthogonal to these previous approaches and iteratively updates two sets of weights. Intuitively, the algorithm chooses a search direction by looking ahead at the sequence of "fast weights" generated by another optimizer. We show that Lookahead improves the learning stability and lowers the variance of its inner optimizer with negligible computation and memory cost. We empirically demonstrate Lookahead can significantly improve the performance of SGD and Adam, even with their default hyperparameter settings on ImageNet, CIFAR-10/100, neural machine translation, and Penn Treebank.
translated by 谷歌翻译
我们使用高斯过程扰动模型在高维二次上的真实和批量风险表面之间的高斯过程扰动模型分析和解释迭代平均的泛化性能。我们从我们的理论结果中获得了三个现象\姓名:}(1)将迭代平均值(ia)与大型学习率和正则化进行了改进的正规化的重要性。 (2)对较少频繁平均的理由。 (3)我们预计自适应梯度方法同样地工作,或者更好,而不是其非自适应对应物的迭代平均值。灵感来自这些结果\姓据{,一起与}对迭代解决方案多样性的适当正则化的重要性,我们提出了两个具有迭代平均的自适应算法。与随机梯度下降(SGD)相比,这些结果具有明显更好的结果,需要较少调谐并且不需要早期停止或验证设定监视。我们在各种现代和古典网络架构上展示了我们对CiFar-10/100,Imagenet和Penn TreeBank数据集的方法的疗效。
translated by 谷歌翻译
众所周知,随机梯度噪声(SGN)是深度学习的隐式正则化,对于深层网络的优化和概括至关重要。一些作品试图通过注入随机噪声来改善深度学习来人为地模拟SGN。但是,事实证明,注入的简单随机噪声不能像sgn一样工作,而sgn是各向异性和参数依赖性的。为了以低计算成本模拟SGN,并且在不更改学习率或批处理大小的情况下,我们提出了正面的动量(PNM)方法,这是经典优化器中常规动量的强大替代方法。引入的PNM方法维持两个近似独立的动量项。然后,我们可以通过调整动量差异来明确控制SGN的大小。从理论上讲,我们证明了PNM比随机梯度下降(SGD)的收敛保证和概括优势。通过将PNM与动量和Adam合并到两个常规优化器SGD中,我们的广泛实验在经验上验证了基于PNM的变体的显着优势,而不是相应的常规动量基于动量的优化器。
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
非凸优化的传统分析通常取决于平滑度的假设,即要求梯度为Lipschitz。但是,最近的证据表明,这种平滑度条件并未捕获一些深度学习目标功能的特性,包括涉及复发性神经网络和LSTM的函数。取而代之的是,他们满足了更轻松的状况,并具有潜在的无界光滑度。在这个轻松的假设下,从理论和经验上表明,倾斜的SGD比香草具有优势。在本文中,我们表明,在解决此类情况时,剪辑对于ADAM型算法是不可或缺的:从理论上讲,我们证明了广义标志GD算法可以获得与带有剪辑的SGD相似的收敛速率,但根本不需要显式剪辑。一端的这个算法家族恢复了符号,另一端与受欢迎的亚当算法非常相似。我们的分析强调了动量在分析符号类型和ADAM型算法中发挥作用的关键作用:它不仅降低了噪声的影响,因此在先前的符号分析中消除了大型迷你批次的需求显着降低了无界平滑度和梯度规范的影响。我们还将这些算法与流行的优化器进行了比较,在一组深度学习任务上,观察到我们可以在击败其他人的同时匹配亚当的性能。
translated by 谷歌翻译
优化通常是一个确定性问题,其中通过诸如梯度下降的一些迭代过程找到解决方案。然而,当培训神经网络时,由于样本的子集的随机选择,损耗函数会超过(迭代)时间。该随机化将优化问题转变为随机级别。我们建议将损失视为关于一些参考最优参考的嘈杂观察。这种对损失的解释使我们能够采用卡尔曼滤波作为优化器,因为其递归制剂旨在估计来自嘈杂测量的未知参数。此外,我们表明,用于未知参数的演进的卡尔曼滤波器动力学模型可用于捕获高级方法的梯度动态,如动量和亚当。我们称之为该随机优化方法考拉,对于Kalman优化算法而言,具有损失适应性的缺陷。考拉是一种易于实现,可扩展,高效的方法来训练神经网络。我们提供了通过实验的收敛分析和显示,它产生了与跨多个神经网络架构和机器学习任务的现有技术优化算法的现有状态的参数估计,例如计算机视觉和语言建模。
translated by 谷歌翻译
亚当是训练深神经网络的最具影响力的自适应随机算法之一,即使在简单的凸面设置中,它也被指出是不同的。许多尝试,例如降低自适应学习率,采用较大的批量大小,结合了时间去相关技术,寻求类似的替代物,\ textit {etc。},以促进Adam-type算法融合。与现有方法相反,我们引入了另一种易于检查的替代条件,这仅取决于基础学习率的参数和历史二阶时刻的组合,以确保通用ADAM的全球融合以解决大型融合。缩放非凸随机优化。这种观察结果以及这种足够的条件,对亚当的差异产生了更深刻的解释。另一方面,在实践中,无需任何理论保证,广泛使用了迷你ADAM和分布式ADAM。我们进一步分析了分布式系统中的批次大小或节点的数量如何影响亚当的收敛性,从理论上讲,这表明迷你批次和分布式亚当可以通过使用较大的迷你批量或较大的大小来线性地加速节点的数量。最后,我们应用了通用的Adam和Mini Batch Adam,具有足够条件来求解反例并在各种真实世界数据集上训练多个神经网络。实验结果完全符合我们的理论分析。
translated by 谷歌翻译
尽管他们的超大容量过度装备能力,但是由特定优化算法训练的深度神经网络倾向于概括到看不见的数据。最近,研究人员通过研究优化算法的隐式正则化效果来解释它。卓越的进展是工作(Lyu&Li,2019),其证明了梯度下降(GD)最大化了均匀深神经网络的余量。除GD外,诸如Adagrad,RMSProp和Adam之类的自适应算法由于其快速培训过程而流行。然而,仍然缺乏适应性优化算法的概括的理论保证。在本文中,我们研究了自适应优化算法的隐式正则化,当它们在均匀深神经网络上优化逻辑损失时。我们证明了在调节器(如亚当和RMSProp)中采用指数移动平均策略的自适应算法可以最大化神经网络的余量,而Adagrad直接在调节器中总和历史平方梯度。它表明了调节剂设计中指数移动平均策略的概括的优越性。从技术上讲,我们提供统一的框架,通过构建新的自适应梯度流量和代理余量来分析自适应优化算法的会聚方向。我们的实验可以很好地支持适应性优化算法的会聚方向的理论发现。
translated by 谷歌翻译
神经网络修剪对于在预训练的密集网络架构中发现有效,高性能的子网有用。然而,更常见的是,它涉及三步过程 - 预先训练,修剪和重新训练 - 这是计算昂贵的,因为必须完全预先训练的密集模型。幸运的是,已经经过了多种作品,证明可以通过修剪发现高性能的子网,而无需完全预先训练密集网络。旨在理论上分析修剪网络表现良好的密集网络预培训量,我们发现在两层全连接网络上的SGD预训练迭代数量中发现了一个理论界限,超出了由此进行修剪贪婪的前瞻性选择产生了一个达到良好训练错误的子网。该阈值显示在对数上依赖于数据集的大小,这意味着具有较大数据集的实验需要更好地训练通过修剪以执行良好执行的子网。我们经验展示了我们在各种架构和数据集中的理论结果的有效性,包括在Mnist上培训的全连接网络以及在CIFAR10和ImageNet上培训的几个深度卷积神经网络(CNN)架构。
translated by 谷歌翻译
我们考虑在培训深度学习模型的通信约束下分布式优化。我们提出了一种新的算法,其参数更新依赖于两个力量:常规渐变步骤,以及当前最佳性能的工人(领导者)决定的纠正方向。我们的方法以多种方式与参数平均方案EASGD不同:(i)我们的客观制定与原始优化问题相比,我们的客观制定不会改变静止点的位置; (ii)我们避免通过将彼此不同局部最小值下降的本地工人拉动的融合减速(即其参数的平均值); (iii)我们的设计更新破坏了对称性的诅咒(被困在对称非凸景观中的透过透过透过次优溶液中的现象); (iv)我们的方法更加沟通高效,因为它仅广播领导者而不是所有工人的参数。我们提供了对所提出的算法的批量版本的理论分析,我们称之为领导者梯度下降(LGD)及其随机变体(LSGD)。最后,我们实现了算法的异步版本,并将其扩展到多领导者设置,我们组成的工人组,每个人都由自己的本地领导者(组中最佳表现者)表示,并使用纠正措施更新每个工作人员方向由两个有吸引力的力量组成:一个到当地,一个到全球领导者(所有工人中最好的表演者)。多引导设置与当前的硬件架构良好对齐,其中形成组的本地工人位于单个计算节点内,不同的组对应于不同的节点。对于培训卷积神经网络,我们经验证明了我们的方法对最先进的基线比较。
translated by 谷歌翻译
在本文中,我们提出了具有能量和动量的随机梯度的SGEM,以基于起源于工作[AEGD:适应性梯度下降的能量下降的AEGD方法,以解决一大批一般的非凸随机优化问题。ARXIV:2010.05109]。SGEM同时结合了能量和动量,以继承其双重优势。我们表明,SGEM具有无条件的能量稳定性,并在一般的非convex随机设置中得出能量依赖性收敛速率,以及在线凸台设置中的遗憾。还提供了能量变量的较低阈值。我们的实验结果表明,SGEM的收敛速度比AEGD快,并且至少在训练某些深层神经网络方面概述了SGDM。
translated by 谷歌翻译
在本文中,我们考虑了第一和二阶技术来解决机器学习中产生的连续优化问题。在一阶案例中,我们提出了一种从确定性或半确定性到随机二次正则化方法的转换框架。我们利用随机优化的两相性质提出了一种具有自适应采样和自适应步长的新型一阶算法。在二阶案例中,我们提出了一种新型随机阻尼L-BFGS方法,该方法可以在深度学习的高度非凸起背景下提高先前的算法。这两种算法都在众所周知的深度学习数据集上进行评估并表现出有希望的性能。
translated by 谷歌翻译
这项工作研究了基于梯度的算法的现有理论分析与训练深神经网络的实践之间的深刻断开。具体而言,我们提供了数值证据,表明在大规模神经网络训练(例如Imagenet + Resnet101和WT103 + Transformerxl模型)中,神经网络的权重不会融合到损失的梯度为零的固定点。然而,值得注意的是,我们观察到,即使权重不融合到固定点,最小化损耗函数的进展和训练损失稳定下来。受到这一观察的启发,我们提出了一种基于动力学系统的千古理论来解释它的新观点。我们没有研究权重演化,而是研究权重分布的演变。我们证明了权重分布到近似不变的度量,从而解释了训练损失如何稳定而无需重合到固定点。我们进一步讨论了这种观点如何更好地调整优化理论与机器学习实践中的经验观察。
translated by 谷歌翻译
Adaptive optimization methods are well known to achieve superior convergence relative to vanilla gradient methods. The traditional viewpoint in optimization, particularly in convex optimization, explains this improved performance by arguing that, unlike vanilla gradient schemes, adaptive algorithms mimic the behavior of a second-order method by adapting to the global geometry of the loss function. We argue that in the context of neural network optimization, this traditional viewpoint is insufficient. Instead, we advocate for a local trajectory analysis. For iterate trajectories produced by running a generic optimization algorithm OPT, we introduce $R^{\text{OPT}}_{\text{med}}$, a statistic that is analogous to the condition number of the loss Hessian evaluated at the iterates. Through extensive experiments, we show that adaptive methods such as Adam bias the trajectories towards regions where $R^{\text{Adam}}_{\text{med}}$ is small, where one might expect faster convergence. By contrast, vanilla gradient methods like SGD bias the trajectories towards regions where $R^{\text{SGD}}_{\text{med}}$ is comparatively large. We complement these empirical observations with a theoretical result that provably demonstrates this phenomenon in the simplified setting of a two-layer linear network. We view our findings as evidence for the need of a new explanation of the success of adaptive methods, one that is different than the conventional wisdom.
translated by 谷歌翻译
鉴于Vanilla SGD的直接简单,本文在迷你批处理箱中提供了精细调整其阶梯尺寸。为了这样做,基于局部二次模型并仅使用嘈杂的梯度近似来估计曲率。一个人获得一种新的随机第一阶方法(步骤调谐的SGD),由二阶信息增强,这可以被视为古典Barzilai-Borwein方法的随机版本。我们的理论结果确保了几乎肯定的趋同集,我们提供了收敛速率。深度剩余网络培训的实验说明了我们方法的有利性质。对于我们在培训期间观察到的网络,突然下降的损失和中等阶段的测试精度的提高,产生比SGD,RMSPROP或ADAM更好的结果。
translated by 谷歌翻译
具有动量的随机梯度下降(SGD)被广泛用于训练现代深度学习体系结构。虽然可以很好地理解使用动量可以导致在各种环境中更快的收敛速率,但还观察到动量会产生更高的概括。先前的工作认为,动量在训练过程中稳定了SGD噪声,这会导致更高的概括。在本文中,我们采用了另一种观点,并首先在经验上表明,与梯度下降(GD)相比,具有动量(GD+M)的梯度下降在某些深度学习问题中显着改善了概括。从这个观察结果,我们正式研究了动量如何改善概括。我们设计了一个二进制分类设置,在该设置中,当两种算法都类似地初始化时,经过GD+M训练的单个隐藏层(过度参数化)卷积神经网络比使用GD训练的同一网络更好地概括了。我们分析中的关键见解是,动量在示例共享某些功能但边距不同的数据集中是有益的。与记住少量数据数据的GD相反,GD+M仍然通过其历史梯度来了解这些数据中的功能。最后,我们从经验上验证了我们的理论发现。
translated by 谷歌翻译
本文评价用机器学习问题的数值优化方法。由于机器学习模型是高度参数化的,我们专注于适合高维优化的方法。我们在二次模型上构建直觉,以确定哪种方法适用于非凸优化,并在凸函数上开发用于这种方法的凸起函数。随着随机梯度下降和动量方法的这种理论基础,我们试图解释为什么机器学习领域通常使用的方法非常成功。除了解释成功的启发式之外,最后一章还提供了对更多理论方法的广泛审查,这在实践中并不像惯例。所以在某些情况下,这项工作试图回答这个问题:为什么默认值中包含的默认TensorFlow优化器?
translated by 谷歌翻译
深度学习在广泛的AI应用方面取得了有希望的结果。较大的数据集和模型一致地产生更好的性能。但是,我们一般花费更长的培训时间,以更多的计算和沟通。在本调查中,我们的目标是在模型精度和模型效率方面提供关于大规模深度学习优化的清晰草图。我们调查最常用于优化的算法,详细阐述了大批量培训中出现的泛化差距的可辩论主题,并审查了解决通信开销并减少内存足迹的SOTA策略。
translated by 谷歌翻译