我们提出了一类新的Langevin基础算法,它克服了当前用于深度学习模型的微调的流行自适应优化器的许多已知缺点。其支撑性理论依赖于欧拉多面近似对随机微分方程(SDES)的多边形近似的进步。结果,它继承了授权算法的稳定性属性,而它讨论了其他已知问题,例如,涉及其他已知问题。在神经网络中消失梯度。特别是,我们为这部小型课程的算法的融合性能提供了令人反感的分析和完全理论上,我们将其命名为$ \ varepsilon $ o poula(或简单地,opopoura)。最后,有几种实验呈现出不同类型的深度学习模型,其展示了opopoula在许多流行的自适应优化算法上的优越性。
translated by 谷歌翻译
人工神经网络(ANNS)通常是高度非线性系统,其通过优化其相关的非凸损函数精细调整。在许多情况下,任何这种损失函数的梯度具有超线性生长,利用广泛接受的(随机)梯度下降方法,其基于欧拉数值方案,有问题。我们提供了一种基于受欢迎的随机梯度Langevin Dynamics(SGLD)的适当构造的变体的新学习算法,该算法被称为不调整的随机的随机Langevin算法(Tusla)。我们还提供了对新算法在非凸起学习问题的环境中对新算法的融合性质进行了巨大分析。因此,我们为Tusla提供有限时间担保,以查找经验和人口风险的大致减少体。 TUSLA算法的根源基于\ CiteT {TARE-EULER,SABANISAOAP}和MCMC算法中开发的超连线系数的扩散过程的驯化技术。提出了数值实验,该实验证实了理论发现,并说明了与ANNS框架内的Vanilla SGLD相比使用新算法。
translated by 谷歌翻译
我们为随机梯度Langevin动态(SGLD)建立了泛化误差界,在耗散度和平滑度的假设下,在采样/优化文献中得到了增加的环境。与非凸面设置中的SGLD的现有范围不同,由于样本大小的增加,我们的SGLD与SGL的界限不同,并且随着样本量的增加而衰减至零。利用均匀稳定性框架,我们通过利用Langevin扩散的Wasserstein收缩属性来建立无关的界限,这也允许我们规避需要使用LipsChitz的假设来绑定渐变的渐变。我们的分析还支持使用不同离散化方法的SGLD的变体,包括欧几里德投影,或使用非各向同性噪声。
translated by 谷歌翻译
亚当是训练深神经网络的最具影响力的自适应随机算法之一,即使在简单的凸面设置中,它也被指出是不同的。许多尝试,例如降低自适应学习率,采用较大的批量大小,结合了时间去相关技术,寻求类似的替代物,\ textit {etc。},以促进Adam-type算法融合。与现有方法相反,我们引入了另一种易于检查的替代条件,这仅取决于基础学习率的参数和历史二阶时刻的组合,以确保通用ADAM的全球融合以解决大型融合。缩放非凸随机优化。这种观察结果以及这种足够的条件,对亚当的差异产生了更深刻的解释。另一方面,在实践中,无需任何理论保证,广泛使用了迷你ADAM和分布式ADAM。我们进一步分析了分布式系统中的批次大小或节点的数量如何影响亚当的收敛性,从理论上讲,这表明迷你批次和分布式亚当可以通过使用较大的迷你批量或较大的大小来线性地加速节点的数量。最后,我们应用了通用的Adam和Mini Batch Adam,具有足够条件来求解反例并在各种真实世界数据集上训练多个神经网络。实验结果完全符合我们的理论分析。
translated by 谷歌翻译
深度神经网络和其他现代机器学习模型的培训通常包括解决高维且受大规模数据约束的非凸优化问题。在这里,基于动量的随机优化算法在近年来变得尤其流行。随机性来自数据亚采样,从而降低了计算成本。此外,动量和随机性都应该有助于算法克服当地的最小化器,并希望在全球范围内融合。从理论上讲,这种随机性和动量的结合被糟糕地理解。在这项工作中,我们建议并分析具有动量的随机梯度下降的连续时间模型。该模型是一个分段确定的马尔可夫过程,它通过阻尼不足的动态系统和通过动力学系统的随机切换来代表粒子运动。在我们的分析中,我们研究了长期限制,子采样到无填充采样极限以及动量到非摩托车的限制。我们对随着时间的推移降低动量的情况特别感兴趣:直觉上,动量有助于在算法的初始阶段克服局部最小值,但禁止后来快速收敛到全球最小化器。在凸度的假设下,当降低随时间的动量时,我们显示了动力学系统与全局最小化器的收敛性,并让子采样率转移到无穷大。然后,我们提出了一个稳定的,合成的离散方案,以从我们的连续时间动力学系统中构造算法。在数值实验中,我们研究了我们在凸面和非凸测试问题中的离散方案。此外,我们训练卷积神经网络解决CIFAR-10图像分类问题。在这里,与动量相比,我们的算法与随机梯度下降相比达到了竞争性结果。
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
随机多变最小化 - 最小化(SMM)是大多数变化最小化的经典原则的在线延伸,这包括采样I.I.D。来自固定数据分布的数据点,并最小化递归定义的主函数的主要替代。在本文中,我们引入了随机块大大化 - 最小化,其中替代品现在只能块多凸,在半径递减内的时间优化单个块。在SMM中的代理人放松标准的强大凸起要求,我们的框架在内提供了更广泛的适用性,包括在线CANDECOMP / PARAFAC(CP)字典学习,并且尤其是当问题尺寸大时产生更大的计算效率。我们对所提出的算法提供广泛的收敛性分析,我们在可能的数据流下派生,放松标准i.i.d。对数据样本的假设。我们表明,所提出的算法几乎肯定会收敛于速率$ O((\ log n)^ {1+ \ eps} / n ^ {1/2})$的约束下的非凸起物镜的静止点集合。实证丢失函数和$ O((\ log n)^ {1+ \ eps} / n ^ {1/4})$的预期丢失函数,其中$ n $表示处理的数据样本数。在一些额外的假设下,后一趋同率可以提高到$ o((\ log n)^ {1+ \ eps} / n ^ {1/2})$。我们的结果为一般马尔维亚数据设置提供了各种在线矩阵和张量分解算法的第一融合率界限。
translated by 谷歌翻译
自适应方法(例如自适应力矩估计(ADAM)及其变体)的收敛性和收敛速率分析已被广泛研究以进行非convex优化。分析基于假设,即预期或经验的平均损失函数是Lipschitz平滑的(即其梯度是Lipschitz的连续),并且学习率取决于Lipschitz连续梯度的Lipschitz常数。同时,对亚当及其变体的数值评估已经澄清说,使用较小的恒定学习速率而不依赖Lipschitz常数和超级参数($ \ beta_1 $和$ \ beta_2 $)接近一个是有利的,这对于训练深神经网络是有利的。由于计算Lipschitz常数为NP-HARD,因此Lipschitz的平滑度条件是不现实的。本文提供了亚当的理论分析,而没有假设Lipschitz的平滑度条件,以弥合理论和实践之间的差距。主要的贡献是显示理论证据表明,亚当使用较小的学习率和接近一个的超级参数表现良好,而先前的理论结果全部用于接近零的超参数。我们的分析还导致发现亚当在大批量尺寸方面表现良好。此外,我们表明,当亚当使用学习率降低和接近一个的超级参数时,它的表现良好。
translated by 谷歌翻译
在本文中,我们提出了具有能量和动量的随机梯度的SGEM,以基于起源于工作[AEGD:适应性梯度下降的能量下降的AEGD方法,以解决一大批一般的非凸随机优化问题。ARXIV:2010.05109]。SGEM同时结合了能量和动量,以继承其双重优势。我们表明,SGEM具有无条件的能量稳定性,并在一般的非convex随机设置中得出能量依赖性收敛速率,以及在线凸台设置中的遗憾。还提供了能量变量的较低阈值。我们的实验结果表明,SGEM的收敛速度比AEGD快,并且至少在训练某些深层神经网络方面概述了SGDM。
translated by 谷歌翻译
随机梯度下降(SGD)的梯度噪声被认为是在其性质中发挥关键作用(例如,逃离低潜在点和正则化)。过去的研究表明,通过迷你匹配完成的SGD错误的协方差在确定其正则化并逃离低潜在点时起着关键作用。然而,探索了误差的分布量影响了算法的行为。在该领域的一些新研究的动机,我们通过迷你匹配具有相同的SGD的平均值和协方差结构的噪声类别证明了普遍性的结果具有类似的性质。我们主要考虑由Wu等人引入的乘法随机梯度下降(M-SGD)算法。,它具有比通过小拟场完成的SGD算法更普通的噪声类。我们主要相对于通过小匹匹配对应于SGD的随机微分方程来建立非因素范围。我们还表明,M-SGD错误大约是M-SGD算法的任何固定点的缩放高斯分布。我们还建立了强凸的制度中M-SGD算法的收敛的界限。
translated by 谷歌翻译
我们使用高斯过程扰动模型在高维二次上的真实和批量风险表面之间的高斯过程扰动模型分析和解释迭代平均的泛化性能。我们从我们的理论结果中获得了三个现象\姓名:}(1)将迭代平均值(ia)与大型学习率和正则化进行了改进的正规化的重要性。 (2)对较少频繁平均的理由。 (3)我们预计自适应梯度方法同样地工作,或者更好,而不是其非自适应对应物的迭代平均值。灵感来自这些结果\姓据{,一起与}对迭代解决方案多样性的适当正则化的重要性,我们提出了两个具有迭代平均的自适应算法。与随机梯度下降(SGD)相比,这些结果具有明显更好的结果,需要较少调谐并且不需要早期停止或验证设定监视。我们在各种现代和古典网络架构上展示了我们对CiFar-10/100,Imagenet和Penn TreeBank数据集的方法的疗效。
translated by 谷歌翻译
非凸优化的传统分析通常取决于平滑度的假设,即要求梯度为Lipschitz。但是,最近的证据表明,这种平滑度条件并未捕获一些深度学习目标功能的特性,包括涉及复发性神经网络和LSTM的函数。取而代之的是,他们满足了更轻松的状况,并具有潜在的无界光滑度。在这个轻松的假设下,从理论和经验上表明,倾斜的SGD比香草具有优势。在本文中,我们表明,在解决此类情况时,剪辑对于ADAM型算法是不可或缺的:从理论上讲,我们证明了广义标志GD算法可以获得与带有剪辑的SGD相似的收敛速率,但根本不需要显式剪辑。一端的这个算法家族恢复了符号,另一端与受欢迎的亚当算法非常相似。我们的分析强调了动量在分析符号类型和ADAM型算法中发挥作用的关键作用:它不仅降低了噪声的影响,因此在先前的符号分析中消除了大型迷你批次的需求显着降低了无界平滑度和梯度规范的影响。我们还将这些算法与流行的优化器进行了比较,在一组深度学习任务上,观察到我们可以在击败其他人的同时匹配亚当的性能。
translated by 谷歌翻译
自Reddi等人以来。 2018年指出了亚当的分歧问题,已经设计了许多新变体以获得融合。但是,香草·亚当(Vanilla Adam)仍然非常受欢迎,并且在实践中效果很好。为什么理论和实践之间存在差距?我们指出,理论和实践的设置之间存在不匹配:Reddi等。 2018年选择亚当的超参数后选择问题,即$(\ beta_1,\ beta_2)$;虽然实际应用通常首先解决问题,然后调整$(\ beta_1,\ beta_2)$。由于这一观察,我们猜想只有当我们改变选择问题和超参数的顺序时,理论上的经验收敛才能是合理的。在这项工作中,我们确认了这一猜想。我们证明,当$ \ beta_2 $很大时,$ \ beta_1 <\ sqrt {\ beta_2} <1 $,Adam收集到关键点附近。邻居的大小是随机梯度方差的命题。在额外的条件(强烈生长条件)下,亚当收敛到关键点。随着$ \ beta_2 $的增加,我们的收敛结果可以覆盖[0,1)$中的任何$ \ beta_1 \,包括$ \ beta_1 = 0.9 $,这是深度学习库中的默认设置。我们的结果表明,亚当可以在广泛的超参数下收敛,而无需对其更新规则进行任何修改。据我们所知,我们是第一个证明这一结果的人,而没有强有力的假设,例如有限梯度。当$ \ beta_2 $很小时,我们进一步指出了一个$(\ beta_1,\ beta_2)$的大区域,亚当可以在其中偏离无限。我们的差异结果考虑与我们的收敛结果相同的设置,表明在增加$ \ beta_2 $时从差异到收敛的相变。这些正面和负面的结果可以提供有关如何调整亚当超级参数的建议。
translated by 谷歌翻译
连续数据的优化问题出现在,例如强大的机器学习,功能数据分析和变分推理。这里,目标函数被给出为一个(连续)索引目标函数的系列 - 相对于概率测量集成的族聚集。这些问题通常可以通过随机优化方法解决:在随机切换指标执行关于索引目标函数的优化步骤。在这项工作中,我们研究了随机梯度下降算法的连续时间变量,以进行连续数据的优化问题。该所谓的随机梯度过程包括最小化耦合与确定索引的连续时间索引过程的索引目标函数的梯度流程。索引过程是例如,反射扩散,纯跳跃过程或紧凑空间上的其他L evy过程。因此,我们研究了用于连续数据空间的多种采样模式,并允许在算法的运行时进行模拟或流式流的数据。我们分析了随机梯度过程的近似性质,并在恒定下进行了长时间行为和遍历的学习率。我们以噪声功能数据的多项式回归问题以及物理知识的神经网络在多项式回归问题中结束了随机梯度过程的适用性。
translated by 谷歌翻译
当使用有限的阶梯尺寸\ citep {shi20211undanding}时,Nesterov的加速梯度(NAG)进行优化的性能比其连续的时间限制(无噪声动力学Langevin)更好。这项工作探讨了该现象的采样对应物,并提出了一个扩散过程,其离散化可以产生基于梯度的MCMC方法。更确切地说,我们将NAG的优化器重新制定为强烈凸功能(NAG-SC)作为无Hessian的高分辨率ODE,将其高分辨率系数更改为超参数,注入适当的噪声,并将其离散化。新的超参数的加速效应是量化的,它不是由时间响应创造的人造效应。取而代之的是,在连续动力学级别和离散算法级别上,在$ w_2 $距离中以$ W_2 $距离的加速度均已定量确定。在对数符号和多模式案例中的经验实验也证明了这一加速度。
translated by 谷歌翻译
与SGD相比,Adam等自适应梯度方法允许对现代深层网络(尤其是大型语言模型)进行强有力的培训。但是,适应性的使用不仅是为了额外的记忆,而且还提出了一个基本问题:SGD等非自适应方法可以享受类似的好处吗?在本文中,我们通过提议通过以下一般配方提议实现健壮和记忆效率的培训来为这个问题提供肯定的答案:(1)修改体系结构并使IT规模不变,即参数规模不影响。网络的输出,(2)使用SGD和重量衰减的训练,以及(3)剪辑全局梯度标准与重量标准成比例成正比,乘以$ \ sqrt {\ tfrac {\ tfrac {2 \ lambda} {\ eta}} {\ eta}}} $, $ \ eta $是学习率,而$ \ lambda $是权重腐烂。我们表明,这种一般方法是通过证明其收敛性仅取决于初始化和损失的规模来重新恢复参数和丢失的强大,而标准SGD甚至可能不会收敛许多初始化。在我们的食谱之后,我们设计了一个名为Sibert的Bert版本的比例不变版本,该版本仅由Vanilla SGD进行训练时,可以实现与Bert在下游任务中受过自适应方法训练的BERT相当的性能。
translated by 谷歌翻译
古典统计学习理论表示,拟合太多参数导致过度舒服和性能差。尽管大量参数矛盾,但是现代深度神经网络概括了这一发现,并构成了解释深度学习成功的主要未解决的问题。随机梯度下降(SGD)引起的隐式正规被认为是重要的,但其特定原则仍然是未知的。在这项工作中,我们研究了当地最小值周围的能量景观的局部几何学如何影响SGD的统计特性,具有高斯梯度噪声。我们争辩说,在合理的假设下,局部几何形状力强制SGD保持接近低维子空间,这会引起隐式正则化并导致深神经网络的泛化误差界定更严格的界限。为了获得神经网络的泛化误差界限,我们首先引入局部最小值周围的停滞迹象,并施加人口风险的局部基本凸性财产。在这些条件下,推导出SGD的下界,以保留在这些停滞套件中。如果发生停滞,我们会导出涉及权重矩阵的光谱规范的深神经网络的泛化误差的界限,但不是网络参数的数量。从技术上讲,我们的证据基于控制SGD中的参数值的变化以及基于局部最小值周围的合适邻域的熵迭代的参数值和局部均匀收敛。我们的工作试图通过统一收敛更好地连接非凸优化和泛化分析。
translated by 谷歌翻译
本文涉及由马尔可夫噪声驱动的随机近似的收敛和渐近统计:$$ \ theta_ {n + 1} = \ theta_n + \ alpha_ {n + 1} f(\ theta_n,\ phi_ {n + 1})\, ,\ quad n \ ge 0,$$,其中每个$ \ theta_n \ in \ re ^ d $,$ \ {\ phi_n \} $是一般状态空间x上的马尔可夫链,静止分配$ \ pi $和$ f:\ re ^ d \ times \ text {x} \ to \ re ^ d $。除了在$ f $的标准lipschitz边界,以及消失的步骤大小序列$ \ {\ alpha_n \ \} $的条件外,假设相关ode是全局渐近稳定的静止点表示$ \ theta ^ * $ ,其中$ \ bar f(\ theta)= e [f(\ theta,\ phi)] $ with $ \ phi \ sim \ pi $。而且,ode @ $ \ infty $ virect with advoore字段,$$ \ bar f_ \ idty(\ theta):= \ lim_ {r \ to \ infty} r ^ { - 1} \ bar f(r \ theta)\ ,, \ qquad \ theta \ in \ re ^ d,$$是渐近稳定的。主要贡献总结如下:(i)如果$ \ phi $是几何ergodic,则序列$ \ theta $是融合的,并且在$ f $兼容兼容的界限。剩余的结果是在马尔可夫链的更强大假设下建立:Donsker-varadhan Lyapunov漂移条件的稍微弱版本(DV3)。 (ii)为联合过程$ \ {\ theta_n,\ phi_n \} $构建Lyapunov函数,这意味着$ \ {\ theta_n \} $ in $ l_4 $的融合。 (iii)建立了功能性CLT,以及归一化误差$ z_n:=(\ theta_n- \ theta ^ *)/ \ sqrt {\ alpha_n} $的常规一维CLT。时刻界限结合了CLT暗示了归一化协方差的收敛,$$ \ lim_ {n \ to \ infty} e [z_n z_n ^ t] = \ sigma_ \ theta,$$在$ \ sigma_ \ theta $ where asbptotic协方差出现在CLT中。 (iv)提供了一个例子,其中马尔可夫链$ \ phi $是几何ergodic,但它不满足(dv3)。虽然算法收敛,但第二个时刻是无限的。
translated by 谷歌翻译
在本文中,我们提出了一种随机梯度算法,用于最大程度地减少对嘈杂成本样本的期望,而对于任何给定参数,则只观察到后者。我们的算法采用带有随机扰动的梯度估计方案,该方案是使用单位球体截断的cauchy分布形成的。我们分析了提出的梯度估计量的偏差和方差。发现我们的算法在目标函数是非凸且参数维度较高的情况下特别有用。从渐近收敛分析中,我们确定我们的算法几乎可以肯定地收敛到目标函数的固定点并获得渐近收敛速率。我们还表明,我们的算法避免了不稳定的平衡,这意味着与局部最小值的融合。此外,我们对我们的算法进行非反应收敛分析。特别是,我们在这里建立了一个非质子绑定,用于寻找非convex目标函数的$ \ epsilon $ stationary点。最后,我们通过模拟以数字方式证明我们的算法的性能在一些非凸面设置上优于GSF,SPSA和RDSA,并进一步验证其在凸(NOISY)目标上的性能。
translated by 谷歌翻译
自适应梯度方法对解决许多机器学习问题的性能具有出色的性能。尽管最近研究了多种自适应方法,它们主要专注于经验或理论方面,并且还通过使用一些特定的自适应学习率来解决特定问题。希望为解决一般问题的理论保证来设计一种普遍的自适应梯度算法框架。为了填补这一差距,我们通过引入包括大多数现有自适应梯度形式的通用自适应矩阵提出了一种更快和普遍的自适应梯度框架(即,Super-Adam)。此外,我们的框架可以灵活地集成了减少技术的势头和方差。特别是,我们的小说框架为非透露设置下的自适应梯度方法提供了收敛分析支持。在理论分析中,我们证明我们的超亚当算法可以实现$ \ tilde {o}(\ epsilon ^ { - 3})$的最着名的复杂性,用于查找$ \ epsilon $ -stationary points的非核心优化,这匹配随机平滑非渗透优化的下限。在数值实验中,我们采用各种深度学习任务来验证我们的算法始终如一地优于现有的自适应算法。代码可在https://github.com/lijunyi95/superadam获得
translated by 谷歌翻译