尽管训练速度更快,但虽然亚当 - 相似的自适应梯度算法与SGD相比遭受较差的概率性能。这项工作旨在通过分析其本地融合行为来提供对该概括性差距的谅解。具体来说,我们观察这些算法中的梯度噪声的重尾。这使我们通过其征收驱动的随机微分方程(SDE)来分析这些算法,因为算法及其SDE的相似性行为。然后我们从本地盆地建立了这些SDE的逃逸时间。结果表明,(1)SGD和ADAM〜逃逸时间〜取决于盆地的氡度量,梯度噪声的沉重效果负面; (2)对于同一个盆地,SGD享有比亚当更小的逃逸时间,主要是因为(a)ADAM〜通过自适应地缩放的几何适应,每个梯度坐标很好地减少了梯度噪声中的各向异性结构,并导致盆地的较大氡量度; (b)亚当〜adamiential梯度平均平均值平滑其梯度,并导致比SGD更轻的梯度噪声尾。因此,SGD比ADAM〜在夏普最小值中更为不稳定,定义为当地盆地具有小氡度量的最小值,并且可以更好地逃离它们以更大的氡度量效果。在这里,这通常是在平面或不对称盆地/谷的最小值,通常比锐利更概括,我们的结果阐述了SGD对亚当的更好的泛化表现。最后,实验结果证实了我们重型落后的渐变噪声假设和理论肯定。
translated by 谷歌翻译
我们在随机梯度下降(SGD)算法的逃生问题上发展了定量理论,并研究了损耗表面锐度对逃逸的影响。深入学习在各个领域取得了巨大成功,但是,它开辟了各种理论开放问题。其中一个典型问题是为什么SGD可以找到通过非凸损耗概括的参数。逃生问题是一种解决这个问题的方法,该方法调查了SGD如何从本地最小值逃脱。在本文中,通过应用随机动力系统理论,我们开发了逃生问题的准势能理论。我们表明,准势理论可以以统一的方式处理损耗表面的几何特性和梯度噪声的协方差结构,同时它们在以前的作品中分别研究。我们的理论结果意味着(i)损失表面的清晰度有助于SGD的缓慢逃逸,(ii)SGD的噪声结构取消效果并指数加速逃逸。我们还通过用真实数据接受培训的神经网络进行实验来经验验证我们的理论。
translated by 谷歌翻译
了解随机梯度下降(SGD)的隐式偏见是深度学习的关键挑战之一,尤其是对于过度透明的模型,损失功能的局部最小化$ l $可以形成多种多样的模型。从直觉上讲,SGD $ \ eta $的学习率很小,SGD跟踪梯度下降(GD),直到它接近这种歧管为止,梯度噪声阻止了进一步的收敛。在这样的政权中,Blanc等人。 (2020)证明,带有标签噪声的SGD局部降低了常规术语,损失的清晰度,$ \ mathrm {tr} [\ nabla^2 l] $。当前的论文通过调整Katzenberger(1991)的想法提供了一个总体框架。它原则上允许使用随机微分方程(SDE)描述参数的限制动力学的SGD围绕此歧管的正规化效应(即“隐式偏见”)的正则化效应,这是由损失共同确定的功能和噪声协方差。这产生了一些新的结果:(1)与Blanc等人的局部分析相比,对$ \ eta^{ - 2} $ steps有效的隐性偏差进行了全局分析。 (2020)仅适用于$ \ eta^{ - 1.6} $ steps和(2)允许任意噪声协方差。作为一个应用程序,我们以任意大的初始化显示,标签噪声SGD始终可以逃脱内核制度,并且仅需要$ o(\ kappa \ ln d)$样本用于学习$ \ kappa $ -sparse $ -sparse yroverparame parametrized linearized Linear Modal in $ \ Mathbb {r}^d $(Woodworth等,2020),而GD在内核制度中初始化的GD需要$ \ omega(d)$样本。该上限是最小值的最佳,并改善了先前的$ \ tilde {o}(\ kappa^2)$上限(Haochen等,2020)。
translated by 谷歌翻译
古典统计学习理论表示,拟合太多参数导致过度舒服和性能差。尽管大量参数矛盾,但是现代深度神经网络概括了这一发现,并构成了解释深度学习成功的主要未解决的问题。随机梯度下降(SGD)引起的隐式正规被认为是重要的,但其特定原则仍然是未知的。在这项工作中,我们研究了当地最小值周围的能量景观的局部几何学如何影响SGD的统计特性,具有高斯梯度噪声。我们争辩说,在合理的假设下,局部几何形状力强制SGD保持接近低维子空间,这会引起隐式正则化并导致深神经网络的泛化误差界定更严格的界限。为了获得神经网络的泛化误差界限,我们首先引入局部最小值周围的停滞迹象,并施加人口风险的局部基本凸性财产。在这些条件下,推导出SGD的下界,以保留在这些停滞套件中。如果发生停滞,我们会导出涉及权重矩阵的光谱规范的深神经网络的泛化误差的界限,但不是网络参数的数量。从技术上讲,我们的证据基于控制SGD中的参数值的变化以及基于局部最小值周围的合适邻域的熵迭代的参数值和局部均匀收敛。我们的工作试图通过统一收敛更好地连接非凸优化和泛化分析。
translated by 谷歌翻译
本文评价用机器学习问题的数值优化方法。由于机器学习模型是高度参数化的,我们专注于适合高维优化的方法。我们在二次模型上构建直觉,以确定哪种方法适用于非凸优化,并在凸函数上开发用于这种方法的凸起函数。随着随机梯度下降和动量方法的这种理论基础,我们试图解释为什么机器学习领域通常使用的方法非常成功。除了解释成功的启发式之外,最后一章还提供了对更多理论方法的广泛审查,这在实践中并不像惯例。所以在某些情况下,这项工作试图回答这个问题:为什么默认值中包含的默认TensorFlow优化器?
translated by 谷歌翻译
引入了归一化层(例如,批处理归一化,层归一化),以帮助在非常深的网中获得优化困难,但它们显然也有助于概括,即使在不太深入的网中也是如此。由于长期以来的信念,即最小的最小值导致更好的概括,本文提供了数学分析和支持实验,这表明归一化(与伴随的重量赛一起)鼓励GD降低损失表面的清晰度。鉴于损失是标准不变的,这是标准化的已知结果,因此仔细地定义了“清晰度”。具体而言,对于具有归一化的相当广泛的神经网类,我们的理论解释了有限学习率的GD如何进入所谓的稳定边缘(EOS)制度,并通过连续的清晰度来表征GD的轨迹 - 还原流。
translated by 谷歌翻译
Cohen等人的深度学习实验。 [2021]使用确定性梯度下降(GD)显示学习率(LR)和清晰度(即Hessian最大的特征值)的稳定边缘(EOS)阶段不再像传统优化一样行为。清晰度稳定在$ 2/$ LR的左右,并且在迭代中损失不断上下,但仍有整体下降趋势。当前的论文数学分析了EOS阶段中隐式正则化的新机制,因此,由于非平滑损失景观而导致的GD更新沿着最小损失的多种流量进行了一些确定性流程发展。这与许多先前关于隐式偏差依靠无限更新或梯度中的噪声的结果相反。正式地,对于具有某些规律性条件的任何平滑函数$ l $,对于(1)标准化的GD,即具有不同的lr $ \ eta_t = \ frac {\ eta} {||的GD证明了此效果。 \ nabla l(x(t))||} $和损失$ l $; (2)具有常数LR和损失$ \ sqrt {l- \ min_x l(x)} $的GD。两者都可以证明进入稳定性的边缘,在歧管上相关的流量最小化$ \ lambda_ {1}(\ nabla^2 l)$。一项实验研究证实了上述理论结果。
translated by 谷歌翻译
我们研究随机梯度下降(SGD)动态轨迹的统计特性。我们将Mini-Batch SGD和动量SGD视为随机微分方程(SDES)。我们利用了SDE的连续制定和Fokker-Planck方程的理论,在逃避现象和大批次和尖锐最小值的关系中开发新结果。特别是,我们发现随机过程解决方案倾向于会聚到渐渐的最小值,而无论渐近状态中的批量大小如何。但是,收敛速度严格被证明依赖于批量尺寸。这些结果经验验证了各种数据集和模型。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
Reinforcement learning is a framework for interactive decision-making with incentives sequentially revealed across time without a system dynamics model. Due to its scaling to continuous spaces, we focus on policy search where one iteratively improves a parameterized policy with stochastic policy gradient (PG) updates. In tabular Markov Decision Problems (MDPs), under persistent exploration and suitable parameterization, global optimality may be obtained. By contrast, in continuous space, the non-convexity poses a pathological challenge as evidenced by existing convergence results being mostly limited to stationarity or arbitrary local extrema. To close this gap, we step towards persistent exploration in continuous space through policy parameterizations defined by distributions of heavier tails defined by tail-index parameter alpha, which increases the likelihood of jumping in state space. Doing so invalidates smoothness conditions of the score function common to PG. Thus, we establish how the convergence rate to stationarity depends on the policy's tail index alpha, a Holder continuity parameter, integrability conditions, and an exploration tolerance parameter introduced here for the first time. Further, we characterize the dependence of the set of local maxima on the tail index through an exit and transition time analysis of a suitably defined Markov chain, identifying that policies associated with Levy Processes of a heavier tail converge to wider peaks. This phenomenon yields improved stability to perturbations in supervised learning, which we corroborate also manifests in improved performance of policy search, especially when myopic and farsighted incentives are misaligned.
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
研究随机噪声的特性以优化复杂的非凸函数一直是机器学习领域的活跃研究领域。先前的工作表明,随机梯度下降的噪声通过克服景观中的不良障碍来改善优化。此外,注射人造高斯噪音已成为快速逃脱鞍点的流行想法。确实,在没有可靠的梯度信息的情况下,噪声用于探索景观,但目前尚不清楚哪种类型的噪声在探索能力方面是最佳的。为了在我们的知识上缩小这一差距,我们基于布朗尼运动的一般类型的连续时间非马克维亚过程,该过程允许该过程的相关性增加。这将基于布朗运动(例如Ornstein-Uhlenbeck过程)进行概括。我们演示了如何离散此类过程,从而导致新算法FPGD。该方法是已知算法PGD和抗PGD的概括。我们在理论上和经验上都研究了FPGD的特性,表明它具有勘探能力,在某些情况下,它比PGD和抗PGD有利。这些结果为利用噪声用于训练机器学习模型的新颖方式开辟了领域。
translated by 谷歌翻译
在负面的感知问题中,我们给出了$ n $数据点$({\ boldsymbol x} _i,y_i)$,其中$ {\ boldsymbol x} _i $是$ d $ -densional vector和$ y_i \ in \ { + 1,-1 \} $是二进制标签。数据不是线性可分离的,因此我们满足自己的内容,以找到最大的线性分类器,具有最大的\ emph {否定}余量。换句话说,我们想找到一个单位常规矢量$ {\ boldsymbol \ theta} $,最大化$ \ min_ {i \ le n} y_i \ langle {\ boldsymbol \ theta},{\ boldsymbol x} _i \ rangle $ 。这是一个非凸优化问题(它相当于在Polytope中找到最大标准矢量),我们在两个随机模型下研究其典型属性。我们考虑比例渐近,其中$ n,d \ to \ idty $以$ n / d \ to \ delta $,并在最大边缘$ \ kappa _ {\ text {s}}(\ delta)上证明了上限和下限)$或 - 等效 - 在其逆函数$ \ delta _ {\ text {s}}(\ kappa)$。换句话说,$ \ delta _ {\ text {s}}(\ kappa)$是overparametization阈值:以$ n / d \ le \ delta _ {\ text {s}}(\ kappa) - \ varepsilon $一个分类器实现了消失的训练错误,具有高概率,而以$ n / d \ ge \ delta _ {\ text {s}}(\ kappa)+ \ varepsilon $。我们在$ \ delta _ {\ text {s}}(\ kappa)$匹配,以$ \ kappa \ to - \ idty $匹配。然后,我们分析了线性编程算法来查找解决方案,并表征相应的阈值$ \ delta _ {\ text {lin}}(\ kappa)$。我们观察插值阈值$ \ delta _ {\ text {s}}(\ kappa)$和线性编程阈值$ \ delta _ {\ text {lin {lin}}(\ kappa)$之间的差距,提出了行为的问题其他算法。
translated by 谷歌翻译
探讨了第一层神经网络中的参数和输入数据的乘法结构,以在丢失功能的景观与模型函数的景观与输入数据的景观之间建立连接。通过这种连接,示出了平坦的最小值规范了模型功能的梯度,这解释了扁平最小值的良好泛化性能。然后,我们超越平坦度并考虑梯度噪声的高阶矩,并且表明随机梯度下降(SGD)倾向于通过全球最小值的SGD的线性稳定性分析对这些瞬间施加约束。我们与乘法结构一起,我们识别SGD的SoboLev正则化效果,即SGD对输入数据的模型函数的SoboLev Semininorms进行了规范。最后,提供了在数据分布的假设下由SGD发现的解决方案的泛化误差和逆势鲁棒性的界限。
translated by 谷歌翻译
随机梯度下降(SGD)有利于最小值的观察结果在理解SGD的隐式正则化和指导超参数调整方面发挥了基本作用。在本文中,我们通过将SGD的特定噪声结构与其\ emph {线性稳定性}相关联(Wu et al。,2018),对这种引人注目的现象提供了定量解释。具体而言,我们考虑培训具有正方形损失的过度参数化模型。我们证明,如果全局最低$ \ theta^*$是线性稳定的,则必须满足$ \ | h(\ theta^*)\ | _f \ leq o(\ sqrt {b}/\ eta)$ ,其中$ \ | h(\ theta^*)\ | _f,b,\ eta $分别表示Hessian的Frobenius Norm,分别为$ \ theta^*$,批处理大小和学习率。否则,SGD将快速逃离该最小值\ emph {指数}。因此,对于SGD可访问的最小值,通过Hessian的Frobenius Norm衡量的平坦度与模型尺寸和样本尺寸无关。获得这些结果的关键是利用SGD噪声的特定几何学意识:1)噪声幅度与损失值成正比; 2)噪声方向集中在当地景观的尖锐方向上。 SGD噪声的这种属性证明是线性网络和随机特征模型(RFM),并在非线性网络进行了经验验证。此外,我们的理论发现的有效性和实际相关性是通过广泛的数值实验证明的。
translated by 谷歌翻译
尽管在机器学习中无处不在使用随机优化算法,但这些算法的确切影响及其对现实的非凸位设置中的概括性能的动态仍然知之甚少。尽管最近的工作揭示了随机优化中的概括与重尾行为之间的联系,但这项工作主要依赖于连续的近似值。对于原始离散时间迭代的严格处理尚未进行。为了弥合这一差距,我们提出了新颖的界限,将概括与在离散时间和连续时间设置中围绕局部最小值相关联的过渡内核的下尾指数。为了实现这一目标,我们首先证明了根据应用于优化器轨迹的著名的fernique-talagrand功能绑定的数据和算法依赖性的概括。然后,我们通过利用随机优化器的马尔可夫结构,并根据其(数据依赖性)过渡内核来得出界限来擅长于此结果。我们通过各种神经网络的经验结果来支持我们的理论,显示了概括误差与较低尾声之间的相关性。
translated by 谷歌翻译
我们为随机梯度Langevin动态(SGLD)建立了泛化误差界,在耗散度和平滑度的假设下,在采样/优化文献中得到了增加的环境。与非凸面设置中的SGLD的现有范围不同,由于样本大小的增加,我们的SGLD与SGL的界限不同,并且随着样本量的增加而衰减至零。利用均匀稳定性框架,我们通过利用Langevin扩散的Wasserstein收缩属性来建立无关的界限,这也允许我们规避需要使用LipsChitz的假设来绑定渐变的渐变。我们的分析还支持使用不同离散化方法的SGLD的变体,包括欧几里德投影,或使用非各向同性噪声。
translated by 谷歌翻译
在深度学习中的优化分析是连续的,专注于(变体)梯度流动,或离散,直接处理(变体)梯度下降。梯度流程可符合理论分析,但是风格化并忽略计算效率。它代表梯度下降的程度是深度学习理论的一个开放问题。目前的论文研究了这个问题。将梯度下降视为梯度流量初始值问题的近似数值问题,发现近似程度取决于梯度流动轨迹周围的曲率。然后,我们表明,在具有均匀激活的深度神经网络中,梯度流动轨迹享有有利的曲率,表明它们通过梯度下降近似地近似。该发现允许我们将深度线性神经网络的梯度流分析转换为保证梯度下降,其几乎肯定会在随机初始化下有效地收敛到全局最小值。实验表明,在简单的深度神经网络中,具有传统步长的梯度下降确实接近梯度流。我们假设梯度流动理论将解开深入学习背后的奥秘。
translated by 谷歌翻译
联邦平均(FedAVG),也称为本地SGD,是联邦学习中最受欢迎的算法之一(FL)。尽管其简单和普及,但到目前为止,FADVG的收敛速率尚未确定。即使在最简单的假设(凸,平滑,均匀和有界协方差)下,最着名的上限和下限也不匹配,目前尚不清楚现有分析是否捕获算法的容量。在这项工作中,我们首先通过为FedAVG提供与现有的上限相匹配的下限来解决这个问题,这表明现有的FADVG上限分析不可易于解决。另外,我们在异构环境中建立一个下限,几乎与现有的上限相匹配。虽然我们的下限显示了FEDAVG的局限性,但在额外的三阶平滑度下,我们证明了更乐观的最先进的收敛导致凸和非凸面设置。我们的分析源于我们呼叫迭代偏置的概念,这由SGD轨迹的期望从具有相同初始化的无噪声梯度下降轨迹的偏差来定义。我们在此数量上证明了新颖的尖锐边界,并直观地显示了如何从随机微分方程(SDE)的角度来分析该数量。
translated by 谷歌翻译
连续数据的优化问题出现在,例如强大的机器学习,功能数据分析和变分推理。这里,目标函数被给出为一个(连续)索引目标函数的系列 - 相对于概率测量集成的族聚集。这些问题通常可以通过随机优化方法解决:在随机切换指标执行关于索引目标函数的优化步骤。在这项工作中,我们研究了随机梯度下降算法的连续时间变量,以进行连续数据的优化问题。该所谓的随机梯度过程包括最小化耦合与确定索引的连续时间索引过程的索引目标函数的梯度流程。索引过程是例如,反射扩散,纯跳跃过程或紧凑空间上的其他L evy过程。因此,我们研究了用于连续数据空间的多种采样模式,并允许在算法的运行时进行模拟或流式流的数据。我们分析了随机梯度过程的近似性质,并在恒定下进行了长时间行为和遍历的学习率。我们以噪声功能数据的多项式回归问题以及物理知识的神经网络在多项式回归问题中结束了随机梯度过程的适用性。
translated by 谷歌翻译