Stochastic gradients closely relate to both optimization and generalization of deep neural networks (DNNs). Some works attempted to explain the success of stochastic optimization for deep learning by the arguably heavy-tail properties of gradient noise, while other works presented theoretical and empirical evidence against the heavy-tail hypothesis on gradient noise. Unfortunately, formal statistical tests for analyzing the structure and heavy tails of stochastic gradients in deep learning are still under-explored. In this paper, we mainly make two contributions. First, we conduct formal statistical tests on the distribution of stochastic gradients and gradient noise across both parameters and iterations. Our statistical tests reveal that dimension-wise gradients usually exhibit power-law heavy tails, while iteration-wise gradients and stochastic gradient noise caused by minibatch training usually do not exhibit power-law heavy tails. Second, we further discover that the covariance spectra of stochastic gradients have the power-law structures in deep learning. While previous papers believed that the anisotropic structure of stochastic gradients matters to deep learning, they did not expect the gradient covariance can have such an elegant mathematical structure. Our work challenges the existing belief and provides novel insights on the structure of stochastic gradients in deep learning.
translated by 谷歌翻译
众所周知,深度损失景观的黑森州对深度学习的优化,概括甚至稳健性至关重要。最近的著作从经验上发现,深度学习中的Hessian Spectrum具有两个组成的结构,该结构由少数大型特征值和大量近零特征值组成。但是,Hessian频谱背后的理论机制或数学基本上仍未探索。据我们所知,我们是第一个证明训练有素的深度神经网络的黑石谱展示了简单的强力结构。受统计物理理论和天然蛋白质的光谱分析的启发,我们提供了一种最大的内部理论解释,以解释为什么幂律结构存在并暗示蛋白质演化和深神经网络训练之间的光谱平行。通过有助于广泛的实验,我们进一步使用幂律频谱框架作为探索深度学习的多种新型行为的有用工具。
translated by 谷歌翻译
众所周知,随机梯度噪声(SGN)是深度学习的隐式正则化,对于深层网络的优化和概括至关重要。一些作品试图通过注入随机噪声来改善深度学习来人为地模拟SGN。但是,事实证明,注入的简单随机噪声不能像sgn一样工作,而sgn是各向异性和参数依赖性的。为了以低计算成本模拟SGN,并且在不更改学习率或批处理大小的情况下,我们提出了正面的动量(PNM)方法,这是经典优化器中常规动量的强大替代方法。引入的PNM方法维持两个近似独立的动量项。然后,我们可以通过调整动量差异来明确控制SGN的大小。从理论上讲,我们证明了PNM比随机梯度下降(SGD)的收敛保证和概括优势。通过将PNM与动量和Adam合并到两个常规优化器SGD中,我们的广泛实验在经验上验证了基于PNM的变体的显着优势,而不是相应的常规动量基于动量的优化器。
translated by 谷歌翻译
我们研究了使用尖刺,现场依赖的随机矩阵理论研究迷你批次对深神经网络损失景观的影响。我们表明,批量黑森州的极值值的大小大于经验丰富的黑森州。我们还获得了类似的结果对Hessian的概括高斯牛顿矩阵近似。由于我们的定理,我们推导出作为批量大小的最大学习速率的分析表达式,为随机梯度下降(线性缩放)和自适应算法(例如ADAM(Square Root Scaling)提供了通知实际培训方案,例如光滑,非凸深神经网络。虽然随机梯度下降的线性缩放是在我们概括的更多限制性条件下导出的,但是适应优化者的平方根缩放规则是我们的知识,完全小说。随机二阶方法和自适应方法的百分比,我们得出了最小阻尼系数与学习率与批量尺寸的比率成比例。我们在Cifar-$ 100 $和ImageNet数据集上验证了我们的VGG / WimerEsnet架构上的索赔。根据我们对象检的调查,我们基于飞行学习率和动量学习者开发了一个随机兰齐齐竞争,这避免了对这些关键的超参数进行昂贵的多重评估的需求,并在预残留的情况下显示出良好的初步结果Cifar的architecure - $ 100 $。
translated by 谷歌翻译
我们调查人工神经网络的损失表面Hessians的局部光谱统计数据,在那里我们发现跨多个网络架构和数据集的高斯正交集合统计数据非常一致。这些结果阐述了随机矩阵理论对神经网络建模的适用性,并提出了在深度学习中损失表面研究中的先前未被识别的作用。通过这些观察的启发,我们提出了一种新颖的神经网络的真正损失表面模型,与我们的观察结果一致,这允许Hessian光谱密度在实践中广泛观察到具有秩的退化性和异常值,并预测损失梯度的独立性越来越长重量空间中距离的函数。我们进一步调查了神经网络中真正损失表面的重要性,并与以前的工作相比,找到了定位全球最小值的指数硬度对实现最新性能的实际后果。
translated by 谷歌翻译
尽管过度参数过多,但人们认为,通过随机梯度下降(SGD)训练的深度神经网络令人惊讶地概括了。基于预先指定的假设集的Rademacher复杂性,已经开发出不同的基于规范的泛化界限来解释这种现象。但是,最近的研究表明,这些界限可能会随着训练集的规模而增加,这与经验证据相反。在这项研究中,我们认为假设集SGD探索是轨迹依赖性的,因此可能在其Rademacher复杂性上提供更严格的结合。为此,我们通过假设发生的随机梯度噪声遵循分数的布朗运动,通过随机微分方程来表征SGD递归。然后,我们根据覆盖数字识别Rademacher的复杂性,并将其与优化轨迹的Hausdorff维度相关联。通过调用假设集稳定性,我们得出了针对深神经网络的新型概括。广泛的实验表明,它可以很好地预测几种常见的实验干预措施的概括差距。我们进一步表明,分数布朗运动的HURST参数比现有的概括指标(例如幂律指数和上blumenthal-getoor索引)更具信息性。
translated by 谷歌翻译
虽然辍学措施在深度学习中取得了巨大成功,但对于如何帮助训练在高维参数空间中发现良好的普遍化解决方案,众所周知。在这项工作中,我们表明,与标准梯度血统训练相比,辍学的训练发现了一个更平坦的最小值。我们进一步研究了通过实验辍学发现更平坦的最小值的潜在机制。我们提出了一种{\ IT方差原理},噪声横向的较小方向噪声的变化更大。现有的作品表明,SGD满足方差原则,这导致趋势趋势达到更少的最小值。我们的工作表明,辍学引起的噪音也满足了差异原则,解释了为什么辍学发现更漂亮的最小值。一般而言,我们的工作指出,方差原则是辍学和SGD之间的重要相似性,导致培训寻找更平坦的最小值并获得良好的概括。
translated by 谷歌翻译
人们通常认为,修剪网络不仅会降低深网的计算成本,而且还可以通过降低模型容量来防止过度拟合。但是,我们的工作令人惊讶地发现,网络修剪有时甚至会加剧过度拟合。我们报告了出乎意料的稀疏双后裔现象,随着我们通过网络修剪增加模型稀疏性,首先测试性能变得更糟(由于过度拟合),然后变得更好(由于过度舒适),并且终于变得更糟(由于忘记了有用的有用信息)。尽管最近的研究集中在模型过度参数化方面,但他们未能意识到稀疏性也可能导致双重下降。在本文中,我们有三个主要贡献。首先,我们通过广泛的实验报告了新型的稀疏双重下降现象。其次,对于这种现象,我们提出了一种新颖的学习距离解释,即$ \ ell_ {2} $稀疏模型的学习距离(从初始化参数到最终参数)可能与稀疏的双重下降曲线良好相关,并更好地反映概括比最小平坦。第三,在稀疏的双重下降的背景下,彩票票假设中的获胜票令人惊讶地并不总是赢。
translated by 谷歌翻译
在这项工作中,我们探讨了随机梯度下降(SGD)训练的深神经网络的限制动态。如前所述,长时间的性能融合,网络继续通过参数空间通过一个异常扩散的过程,其中距离在具有非活动指数的梯度更新的数量中增加距离。我们揭示了优化的超公数,梯度噪声结构之间的复杂相互作用,以及在训练结束时解释这种异常扩散的Hessian矩阵。为了构建这种理解,我们首先为SGD推导出一个连续时间模型,具有有限的学习速率和批量尺寸,作为欠下的Langevin方程。我们在线性回归中研究了这个方程,我们可以为参数的相位空间动态和它们的瞬时速度来得出精确的分析表达式,从初始化到实用性。使用Fokker-Planck方程,我们表明驾驶这些动态的关键成分不是原始的训练损失,而是修改的损失的组合,其隐含地规则地规范速度和概率电流,这导致相位空间中的振荡。我们在ImageNet培训的Reset-18模型的动态中确定了这种理论的定性和定量预测。通过统计物理的镜头,我们揭示了SGD培训的深神经网络的异常限制动态的机制来源。
translated by 谷歌翻译
致力于解释深度学习的成功。随机矩阵理论(RMT)为此提供了一种新的方式:涉及训练的深神经网络(DNN)中涉及的大型随机矩阵的光谱分析,例如重量矩阵或HESSIAN矩阵相对于随机梯度下降算法。在本文中,我们对不同模块中的重量矩阵进行了广泛的实验,例如层,网络和数据集,分析其光谱的演变。我们发现这些光谱可以分为三种主要类型:MAR \ V {C} ENKO-BIRCUR频谱(MP),MAR \ V {C} ENKO-BIREUR光谱,具有少量出血异常值(MPB)和重型尾光谱( H T)。此外,这些发现的光谱直接连接到DNN中的正则化程度。我们认为正规化程度取决于提供给DNN的数据的质量,即数据驱动正规化。这些发现在几个NNS中验证,使用高斯合成数据和真实数据集(MNIST和CIFAR10)。最后,我们提出了一种光谱标准,并且当使用光谱类型与正则化程度之间的连接而没有测试数据时,在没有测试数据的情况下,在没有测试数据的情况下,建立早期停止过程。这种早期停止的DNN避免了不必要的额外培训,同时保持了许多可比的概括能力。
translated by 谷歌翻译
虽然已知辍学是一种成功的正规化技术,但仍缺乏对导致成功的机制的见解。我们介绍了\ emph {重量膨胀}的概念,这增加了由权重协方差矩阵的列或行载体跨越的并行曲线的签名体积,并表明重量膨胀是增加PAC中概括的有效手段。 - bayesian设置。我们提供了一个理论上的论点,即辍学会导致体重扩大和对辍学和体重扩张之间相关性的广泛经验支持。为了支持我们的假设,即可以将重量扩张视为增强的概括能力的\ emph {指示器},而不仅仅是副产品,我们还研究了实现重量扩展的其他方法(resp。\ contraction \ contraction ),发现它们通常会导致(分别\ \降低)的概括能力。这表明辍学是一种有吸引力的正规化器,因为它是一种用于获得体重扩展的计算廉价方法。这种洞察力证明了辍学者作为正规化器的作用,同时为确定正规化器铺平了道路,这些正规化器有望通过体重扩张来改善概括。
translated by 谷歌翻译
重要的是要了解流行的正则化方法如何帮助神经网络训练找到良好的概括解决方案。在这项工作中,我们从理论上得出了辍学的隐式正则化,并研究了损失函数的Hessian矩阵与辍学噪声的协方差矩阵之间的关系,并由一系列实验支持。然后,我们在数值上研究了辍学的隐式正规化的两个含义,这直觉上合理化了辍学有助于概括。首先,我们发现辍学的训练与实验中的标准梯度下降训练相比,发现具有最低最小的神经网络,而隐式正则化是找到平坦溶液的关键。其次,经过辍学的训练,隐藏神经元的输入权重(隐藏神经元的输入权重由其输入层到隐藏的神经元及其偏见项组成),往往会凝结在孤立的方向上。凝结是非线性学习过程中的一个功能,它使神经网络的复杂性低。尽管我们的理论主要集中在最后一个隐藏层中使用的辍学,但我们的实验适用于训练神经网络中的一般辍学。这项工作指出了与随机梯度下降相比,辍学的独特特征,是完全理解辍学的重要基础。
translated by 谷歌翻译
本文考虑了深神经网络中随机矩阵普遍性的几个方面。在最近的实验工作中,我们使用与局部统计相关的随机矩阵的普遍特性,以基于其Hessians的现实模型来获得对深神经网络的实际含义。特别是,我们得出了深度神经网络光谱中异常值的普遍方面,并证明了随机矩阵局部定律在流行的预处理梯度下降算法中的重要作用。我们还通过基于统计物理学和随机矩阵理论的工具的一般参数,对深度神经网络损失表面的见解。
translated by 谷歌翻译
We propose SWA-Gaussian (SWAG), a simple, scalable, and general purpose approach for uncertainty representation and calibration in deep learning. Stochastic Weight Averaging (SWA), which computes the first moment of stochastic gradient descent (SGD) iterates with a modified learning rate schedule, has recently been shown to improve generalization in deep learning. With SWAG, we fit a Gaussian using the SWA solution as the first moment and a low rank plus diagonal covariance also derived from the SGD iterates, forming an approximate posterior distribution over neural network weights; we then sample from this Gaussian distribution to perform Bayesian model averaging. We empirically find that SWAG approximates the shape of the true posterior, in accordance with results describing the stationary distribution of SGD iterates. Moreover, we demonstrate that SWAG performs well on a wide variety of tasks, including out of sample detection, calibration, and transfer learning, in comparison to many popular alternatives including MC dropout, KFAC Laplace, SGLD, and temperature scaling.
translated by 谷歌翻译
我们调查了Wigner半圈和Marcenko-Pastur分布,通常用于深度神经网络理论分析,匹配经验观察到的光谱密度。我们发现甚至允许异常值,观察到的光谱形状强烈地偏离了这种理论预测。这提出了关于这些模型在深度学习中的有用性的重要问题。我们进一步表明,理论结果,例如关键点的分层性质,强烈依赖于这些限制光谱密度的确切形式的使用。我们考虑两个新的矩阵集合;随机Wigner / Wishart集合产品和渗透的Wigner / Wishart集合,两者都更好地匹配观察光谱。它们还给出了原点的大型离散光谱峰,为观察提供了一种理论解释,即各种Optima可以通过一维的低损耗值连接。我们进一步表明,在随机矩阵产品的情况下,离散光谱分量的重量为0美元取决于权重矩阵的尺寸的比率。
translated by 谷歌翻译
在他们的损失景观方面观看神经网络模型在学习的统计力学方法方面具有悠久的历史,并且近年来它在机器学习中得到了关注。除此之外,已显示局部度量(例如损失景观的平滑度)与模型的全局性质(例如良好的泛化性能)相关联。在这里,我们对数千个神经网络模型的损失景观结构进行了详细的实证分析,系统地改变了学习任务,模型架构和/或数据数量/质量。通过考虑试图捕获损失景观的不同方面的一系列指标,我们证明了最佳的测试精度是如下:损失景观在全球连接;训练型模型的集合彼此更像;而模型会聚到局部平滑的地区。我们还表明,当模型很小或培训以较低质量数据时,可以出现全球相连的景观景观;而且,如果损失景观全球相连,则培训零损失实际上可以导致更糟糕的测试精度。我们详细的经验结果阐明了学习阶段的阶段(以及后续双重行为),基本与偶然的决定因素良好的概括决定因素,负载样和温度相同的参数在学习过程中,不同的影响对模型的损失景观的影响不同和数据,以及地方和全球度量之间的关系,近期兴趣的所有主题。
translated by 谷歌翻译
随机梯度下降(SGD)由于其计算效率而被广泛用于深度学习,但对为什么SGD的性能如此出色的完全理解仍然是一个重大挑战。从经验上观察到,损失功能的大多数特征值在过度参数的深神经网络的损失景观上接近零,而只有少数特征值大。零特征值表示沿相应方向的零扩散。这表明最小值选择的过程主要发生在与Hessian最高特征值相对应的相对较低的子空间中。尽管参数空间非常高,但这些发现似乎表明SGD动力学可能主要存在于低维歧管上。在本文中,我们采取了一种真正的数据驱动方法,以解决对高维参数表面的潜在深入了解,尤其是通过分析通过SGD或任何其他任何其他数据来追溯到SGD所追踪的景观的理解,尤其是对景观的了解。为此,优化器为了发现优化景观的(本地)低维表示。作为探索的车辆,我们使用R. Coifman和合着者引入的扩散图。
translated by 谷歌翻译
A central challenge to many fields of science and engineering involves minimizing non-convex error functions over continuous, high dimensional spaces. Gradient descent or quasi-Newton methods are almost ubiquitously used to perform such minimizations, and it is often thought that a main source of difficulty for these local methods to find the global minimum is the proliferation of local minima with much higher error than the global minimum. Here we argue, based on results from statistical physics, random matrix theory, neural network theory, and empirical evidence, that a deeper and more profound difficulty originates from the proliferation of saddle points, not local minima, especially in high dimensional problems of practical interest. Such saddle points are surrounded by high error plateaus that can dramatically slow down learning, and give the illusory impression of the existence of a local minimum. Motivated by these arguments, we propose a new approach to second-order optimization, the saddle-free Newton method, that can rapidly escape high dimensional saddle points, unlike gradient descent and quasi-Newton methods. We apply this algorithm to deep or recurrent neural network training, and provide numerical evidence for its superior optimization performance. This work extends the results of .
translated by 谷歌翻译
The study of feature propagation at initialization in neural networks lies at the root of numerous initialization designs. An assumption very commonly made in the field states that the pre-activations are Gaussian. Although this convenient Gaussian hypothesis can be justified when the number of neurons per layer tends to infinity, it is challenged by both theoretical and experimental works for finite-width neural networks. Our major contribution is to construct a family of pairs of activation functions and initialization distributions that ensure that the pre-activations remain Gaussian throughout the network's depth, even in narrow neural networks. In the process, we discover a set of constraints that a neural network should fulfill to ensure Gaussian pre-activations. Additionally, we provide a critical review of the claims of the Edge of Chaos line of works and build an exact Edge of Chaos analysis. We also propose a unified view on pre-activations propagation, encompassing the framework of several well-known initialization procedures. Finally, our work provides a principled framework for answering the much-debated question: is it desirable to initialize the training of a neural network whose pre-activations are ensured to be Gaussian?
translated by 谷歌翻译
长期存在的辩论围绕着相关的假设,即低曲率的最小值更好地推广,而SGD则不鼓励曲率。我们提供更完整和细微的观点,以支持两者。首先,我们表明曲率通过两种新机制损害了测试性能,除了已知的参数搭配机制外,弯曲和偏置曲线除了偏置和偏置。尽管曲率不是,但对测试性能的三个曲率介导的贡献是重复的,尽管曲率不是。移位横向的变化是连接列车和测试局部最小值的线路,由于数据集采样或分布位移而差异。尽管在训练时间的转移尚不清楚,但仍可以通过最大程度地减少总体曲率来减轻横向横向。其次,我们得出了一种新的,明确的SGD稳态分布,表明SGD优化了与火车损失相关的有效潜力,并且SGD噪声介导了这种有效潜力的深层与低外生区域之间的权衡。第三,将我们的测试性能分析与SGD稳态相结合,表明,对于小的SGD噪声,移位膜可能是三种机制中最重要的。我们的实验证实了狂热对测试损失的影响,并进一步探索了SGD噪声与曲率之间的关系。
translated by 谷歌翻译