虽然辍学措施在深度学习中取得了巨大成功,但对于如何帮助训练在高维参数空间中发现良好的普遍化解决方案,众所周知。在这项工作中,我们表明,与标准梯度血统训练相比,辍学的训练发现了一个更平坦的最小值。我们进一步研究了通过实验辍学发现更平坦的最小值的潜在机制。我们提出了一种{\ IT方差原理},噪声横向的较小方向噪声的变化更大。现有的作品表明,SGD满足方差原则,这导致趋势趋势达到更少的最小值。我们的工作表明,辍学引起的噪音也满足了差异原则,解释了为什么辍学发现更漂亮的最小值。一般而言,我们的工作指出,方差原则是辍学和SGD之间的重要相似性,导致培训寻找更平坦的最小值并获得良好的概括。
translated by 谷歌翻译
重要的是要了解流行的正则化方法如何帮助神经网络训练找到良好的概括解决方案。在这项工作中,我们从理论上得出了辍学的隐式正则化,并研究了损失函数的Hessian矩阵与辍学噪声的协方差矩阵之间的关系,并由一系列实验支持。然后,我们在数值上研究了辍学的隐式正规化的两个含义,这直觉上合理化了辍学有助于概括。首先,我们发现辍学的训练与实验中的标准梯度下降训练相比,发现具有最低最小的神经网络,而隐式正则化是找到平坦溶液的关键。其次,经过辍学的训练,隐藏神经元的输入权重(隐藏神经元的输入权重由其输入层到隐藏的神经元及其偏见项组成),往往会凝结在孤立的方向上。凝结是非线性学习过程中的一个功能,它使神经网络的复杂性低。尽管我们的理论主要集中在最后一个隐藏层中使用的辍学,但我们的实验适用于训练神经网络中的一般辍学。这项工作指出了与随机梯度下降相比,辍学的独特特征,是完全理解辍学的重要基础。
translated by 谷歌翻译
Neural network training relies on our ability to find "good" minimizers of highly non-convex loss functions. It is well-known that certain network architecture designs (e.g., skip connections) produce loss functions that train easier, and wellchosen training parameters (batch size, learning rate, optimizer) produce minimizers that generalize better. However, the reasons for these differences, and their effects on the underlying loss landscape, are not well understood. In this paper, we explore the structure of neural loss functions, and the effect of loss landscapes on generalization, using a range of visualization methods. First, we introduce a simple "filter normalization" method that helps us visualize loss function curvature and make meaningful side-by-side comparisons between loss functions. Then, using a variety of visualizations, we explore how network architecture affects the loss landscape, and how training parameters affect the shape of minimizers.
translated by 谷歌翻译
神经网络损失景观的二次近似已被广泛用于研究这些网络的优化过程。但是,它通常位于最低限度的一个很小的社区,但无法解释在优化过程中观察到的许多现象。在这项工作中,我们研究了神经网络损失函数的结构及其对超出良好二次近似范围的区域中优化的影响。从数值上讲,我们观察到神经网络损失功能具有多尺度结构,以两种方式表现出来:(1)在Minima的社区中,损失将量表的连续体和次级次序增长,(2)在较大的区域,损失,损失,损失,清楚地显示了几个单独的秤。使用次级生长,我们能够解释梯度下降(GD)方法观察到的稳定现象的边缘[5]。使用单独的量表,我们通过简单示例解释学习率衰减的工作机理。最后,我们研究了多尺度结构的起源,并提出模型的非跨性别性和训练数据的不均匀性是原因之一。通过构建两层神经网络问题,我们表明,具有不同幅度的训练数据会产生损失函数的不同尺度,从而产生次级生长和多个单独的尺度。
translated by 谷歌翻译
Stochastic gradients closely relate to both optimization and generalization of deep neural networks (DNNs). Some works attempted to explain the success of stochastic optimization for deep learning by the arguably heavy-tail properties of gradient noise, while other works presented theoretical and empirical evidence against the heavy-tail hypothesis on gradient noise. Unfortunately, formal statistical tests for analyzing the structure and heavy tails of stochastic gradients in deep learning are still under-explored. In this paper, we mainly make two contributions. First, we conduct formal statistical tests on the distribution of stochastic gradients and gradient noise across both parameters and iterations. Our statistical tests reveal that dimension-wise gradients usually exhibit power-law heavy tails, while iteration-wise gradients and stochastic gradient noise caused by minibatch training usually do not exhibit power-law heavy tails. Second, we further discover that the covariance spectra of stochastic gradients have the power-law structures in deep learning. While previous papers believed that the anisotropic structure of stochastic gradients matters to deep learning, they did not expect the gradient covariance can have such an elegant mathematical structure. Our work challenges the existing belief and provides novel insights on the structure of stochastic gradients in deep learning.
translated by 谷歌翻译
我们研究了使用尖刺,现场依赖的随机矩阵理论研究迷你批次对深神经网络损失景观的影响。我们表明,批量黑森州的极值值的大小大于经验丰富的黑森州。我们还获得了类似的结果对Hessian的概括高斯牛顿矩阵近似。由于我们的定理,我们推导出作为批量大小的最大学习速率的分析表达式,为随机梯度下降(线性缩放)和自适应算法(例如ADAM(Square Root Scaling)提供了通知实际培训方案,例如光滑,非凸深神经网络。虽然随机梯度下降的线性缩放是在我们概括的更多限制性条件下导出的,但是适应优化者的平方根缩放规则是我们的知识,完全小说。随机二阶方法和自适应方法的百分比,我们得出了最小阻尼系数与学习率与批量尺寸的比率成比例。我们在Cifar-$ 100 $和ImageNet数据集上验证了我们的VGG / WimerEsnet架构上的索赔。根据我们对象检的调查,我们基于飞行学习率和动量学习者开发了一个随机兰齐齐竞争,这避免了对这些关键的超参数进行昂贵的多重评估的需求,并在预残留的情况下显示出良好的初步结果Cifar的architecure - $ 100 $。
translated by 谷歌翻译
This paper proposes a new optimization algorithm called Entropy-SGD for training deep neural networks that is motivated by the local geometry of the energy landscape. Local extrema with low generalization error have a large proportion of almost-zero eigenvalues in the Hessian with very few positive or negative eigenvalues. We leverage upon this observation to construct a local-entropy-based objective function that favors well-generalizable solutions lying in large flat regions of the energy landscape, while avoiding poorly-generalizable solutions located in the sharp valleys. Conceptually, our algorithm resembles two nested loops of SGD where we use Langevin dynamics in the inner loop to compute the gradient of the local entropy before each update of the weights. We show that the new objective has a smoother energy landscape and show improved generalization over SGD using uniform stability, under certain assumptions. Our experiments on convolutional and recurrent networks demonstrate that Entropy-SGD compares favorably to state-of-the-art techniques in terms of generalization error and training time.
translated by 谷歌翻译
众所周知,深度损失景观的黑森州对深度学习的优化,概括甚至稳健性至关重要。最近的著作从经验上发现,深度学习中的Hessian Spectrum具有两个组成的结构,该结构由少数大型特征值和大量近零特征值组成。但是,Hessian频谱背后的理论机制或数学基本上仍未探索。据我们所知,我们是第一个证明训练有素的深度神经网络的黑石谱展示了简单的强力结构。受统计物理理论和天然蛋白质的光谱分析的启发,我们提供了一种最大的内部理论解释,以解释为什么幂律结构存在并暗示蛋白质演化和深神经网络训练之间的光谱平行。通过有助于广泛的实验,我们进一步使用幂律频谱框架作为探索深度学习的多种新型行为的有用工具。
translated by 谷歌翻译
虽然已知辍学是一种成功的正规化技术,但仍缺乏对导致成功的机制的见解。我们介绍了\ emph {重量膨胀}的概念,这增加了由权重协方差矩阵的列或行载体跨越的并行曲线的签名体积,并表明重量膨胀是增加PAC中概括的有效手段。 - bayesian设置。我们提供了一个理论上的论点,即辍学会导致体重扩大和对辍学和体重扩张之间相关性的广泛经验支持。为了支持我们的假设,即可以将重量扩张视为增强的概括能力的\ emph {指示器},而不仅仅是副产品,我们还研究了实现重量扩展的其他方法(resp。\ contraction \ contraction ),发现它们通常会导致(分别\ \降低)的概括能力。这表明辍学是一种有吸引力的正规化器,因为它是一种用于获得体重扩展的计算廉价方法。这种洞察力证明了辍学者作为正规化器的作用,同时为确定正规化器铺平了道路,这些正规化器有望通过体重扩张来改善概括。
translated by 谷歌翻译
随机梯度下降(SGD)有利于最小值的观察结果在理解SGD的隐式正则化和指导超参数调整方面发挥了基本作用。在本文中,我们通过将SGD的特定噪声结构与其\ emph {线性稳定性}相关联(Wu et al。,2018),对这种引人注目的现象提供了定量解释。具体而言,我们考虑培训具有正方形损失的过度参数化模型。我们证明,如果全局最低$ \ theta^*$是线性稳定的,则必须满足$ \ | h(\ theta^*)\ | _f \ leq o(\ sqrt {b}/\ eta)$ ,其中$ \ | h(\ theta^*)\ | _f,b,\ eta $分别表示Hessian的Frobenius Norm,分别为$ \ theta^*$,批处理大小和学习率。否则,SGD将快速逃离该最小值\ emph {指数}。因此,对于SGD可访问的最小值,通过Hessian的Frobenius Norm衡量的平坦度与模型尺寸和样本尺寸无关。获得这些结果的关键是利用SGD噪声的特定几何学意识:1)噪声幅度与损失值成正比; 2)噪声方向集中在当地景观的尖锐方向上。 SGD噪声的这种属性证明是线性网络和随机特征模型(RFM),并在非线性网络进行了经验验证。此外,我们的理论发现的有效性和实际相关性是通过广泛的数值实验证明的。
translated by 谷歌翻译
了解深神经网络的损失景观结构(DNN)显然是重要的。在这项工作中,我们证明了一个嵌入原则,即DNN“包含”所有较窄DNN的所有关键点的损失景观。更确切地说,我们提出了一个临界嵌入,使得任何临界点,例如较窄的DNN的临界点,例如局部或全局最小值,可以嵌入到目标DNN的临界点/超平面,具有更高的退化性并保持DNN输出功能。关键点的嵌入结构与损耗功能和训练数据无关,显示与蛋白质折叠等其他非凸起问题的显着差异。凭经验,我们发现宽DNN通常被嵌入来自窄DNN的高度简并关键点引起。嵌入原理为广泛DNN的普遍易于优化提供了解释,并且在训练期间揭开潜在的隐式低复杂性正则化。总体而言,我们的工作为DNNS的损失景观提供了骨架及其含义,可以在附近预期更精确和全面的理解
translated by 谷歌翻译
长期存在的辩论围绕着相关的假设,即低曲率的最小值更好地推广,而SGD则不鼓励曲率。我们提供更完整和细微的观点,以支持两者。首先,我们表明曲率通过两种新机制损害了测试性能,除了已知的参数搭配机制外,弯曲和偏置曲线除了偏置和偏置。尽管曲率不是,但对测试性能的三个曲率介导的贡献是重复的,尽管曲率不是。移位横向的变化是连接列车和测试局部最小值的线路,由于数据集采样或分布位移而差异。尽管在训练时间的转移尚不清楚,但仍可以通过最大程度地减少总体曲率来减轻横向横向。其次,我们得出了一种新的,明确的SGD稳态分布,表明SGD优化了与火车损失相关的有效潜力,并且SGD噪声介导了这种有效潜力的深层与低外生区域之间的权衡。第三,将我们的测试性能分析与SGD稳态相结合,表明,对于小的SGD噪声,移位膜可能是三种机制中最重要的。我们的实验证实了狂热对测试损失的影响,并进一步探索了SGD噪声与曲率之间的关系。
translated by 谷歌翻译
分布式深度学习(DDL)对于大型深度学习(DL)培训至关重要。同步随机梯度下降(SSGD)1是事实上的DDL优化方法。使用足够大的批量大小对于实现DDL运行时加速至关重要。在大量批量设置中,必须增加学习速率以补偿减少的参数更新数量。然而,大型学习率可能会损害SSGD和培训可以很容易地分歧。最近,已经提出了分散的平行SGD(DPSGD)以改善分布式训练速度。在本文中,我们发现DPSGD不仅具有系统明智的运行时效,而且在大批量设置中对SSGD的显着收敛性有益。基于对DPSGD学习动态的详细分析,我们发现DPSGD引入了额外的横向依赖性噪声,可自动调整有效的学习率以提高收敛。此外,我们理论上表明这种噪音平滑了损失景观,因此允许更大的学习率。我们在18个最先进的DL模型/任务中进行广泛的研究,并证明DPSGD通常会收敛于SSGD在大批批量设置中大的学习速率的情况下融合。我们的发现一致地遍布两个不同的应用领域:计算机视觉(CIFAR10和Imagenet-1K)和自动语音识别(SWB300和SWB2000),以及两种不同类型的神经网络模型:卷积神经网络和长短期内存经常性神经网络。
translated by 谷歌翻译
分析高维损失函数的几何特性,例如局部曲率以及围绕损失空间某个特定点的其他Optima的存在,可以帮助您更好地理解神经网络结构,实现属性和学习绩效之间的相互作用。在这项工作中,我们将概念从高维概率和差异几何形状结合在一起,以研究低维损耗表示中的曲率特性如何取决于原始损失空间中的曲率。我们表明,如果使用随机投影,则很少在较低维表示中正确识别原始空间中的鞍点。在这样的预测中,较低维表示中的预期曲率与原始损耗空间中的平均曲率成正比。因此,原始损耗空间中的平均曲率决定了鞍点是否平均显示为最小值,最大值或几乎平坦的区域。我们使用预期曲率和平均曲率(即标准化的Hessian Trace)之间的连接来估计黑森的痕迹,而无需像Hutchinson的方法一样计算Hessian或Hessian-Vector产品。由于随机预测无法正确识别马鞍信息,因此我们建议沿着与最大和最小的主要曲线相关的Hessian指示进行预测。我们将发现与正在进行的有关损失景观平坦性和普遍性的辩论联系起来。最后,我们在不同图像分类器上的数值实验中说明了我们的方法,最高$ 7 \ times 10^6 $参数。
translated by 谷歌翻译
经过深入的研究,最低限度的损失景观的局部形状,尤其是平坦度对于深层模型的概括起重要作用。我们开发了一种称为POF的培训算法:特征提取器的训练后培训,该培训更新了已经训练的深层模型的特征提取器部分,以搜索最小的最小值。特征是两倍:1)特征提取器在高层参数空间中的参数扰动下受到训练,基于表明使更高层参数空间变平的观测值,以及2)扰动范围以数据驱动的方式确定旨在减少由正损失曲率引起的一部分测试损失。我们提供了理论分析,该分析表明所提出的算法隐含地减少了目标Hessian组件以及损失。实验结果表明,POF仅针对CIFAR-10和CIFAR-100数据集的基线方法提高了模型性能,仅用于10个上学后培训,以及用于50个上学后培训的SVHN数据集。源代码可用:\ url {https://github.com/densoitlab/pof-v1
translated by 谷歌翻译
某些培训干预措施(例如提高学习率和应用批归归式化)的机制提高了深网的概括仍然是一个谜。先前的作品猜测,“扁平”解决方案比“更清晰”的解决方案更好地概括了看不见的数据,激发了几个指标来测量平坦度(尤其是损失Hessian最大的特征值);和算法,例如清晰度最小化(SAM)[1],它们直接优化了平坦度。其他作品质疑$ \ lambda_ {max} $与概括之间的链接。在本文中,我们提出了调用$ \ lambda_ {max} $对概括的影响的发现。我们表明:(1)虽然较大的学习率减少了所有批量尺寸的$ \ lambda_ {max} $,但概括益处有时会在较大的批量尺寸下消失; (2)通过同时缩放批量的大小和学习率,我们可以更改$ \ lambda_ {max} $,而不会影响概括; (3)虽然SAM生产较小的$ \ lambda_ {max} $,用于所有批次尺寸,概括益处(也)消失,较大的批量尺寸; (4)对于辍学,过高的辍学概率可能会降低概括,即使它们促进了较小的$ \ lambda_ {max} $; (5)虽然批处理范围并未始终产生较小的$ \ lambda_ {max} $,但它仍然赋予概括性优势。尽管我们的实验肯定了大型学习率和SAM对Minibatch SGD的概括优势,但GD-SGD差异证明了对$ \ lambda_ {Max} $解释神经网络中概括的能力的限制。
translated by 谷歌翻译
在本文中,我们通过惩罚Hessian的痕迹来开发一种新型的正则化方法,以供深度神经网络。该正常化程序是由概括误差的最新保证限制所激发的。Hutchinson方法是矩阵痕迹的经典无偏估计器,但在深度学习模型上非常耗时。因此,提出了辍学方案,以有效地实现Hutchinson方法。然后,我们讨论与非线性动力学系统和扁平/锋利最小值的线性稳定性的连接。实验表明,我们的方法的表现优于现有的正规化器和数据增强方法,例如雅各布,置信惩罚和标签平滑,切割和混合。
translated by 谷歌翻译
深度学习归一化技术的基本特性,例如批准归一化,正在使范围前的参数量表不变。此类参数的固有域是单位球,因此可以通过球形优化的梯度优化动力学以不同的有效学习率(ELR)来表示,这是先前研究的。在这项工作中,我们使用固定的ELR直接研究了训练量表不变的神经网络的特性。我们根据ELR值发现了这种训练的三个方案:收敛,混乱平衡和差异。我们详细研究了这些制度示例的理论检查,以及对真实规模不变深度学习模型的彻底经验分析。每个制度都有独特的特征,并反映了内在损失格局的特定特性,其中一些与先前对常规和规模不变的神经网络培训的研究相似。最后,我们证明了如何在归一化网络的常规培训以及如何利用它们以实现更好的Optima中反映发现的制度。
translated by 谷歌翻译
在这项工作中,我们探讨了随机梯度下降(SGD)训练的深神经网络的限制动态。如前所述,长时间的性能融合,网络继续通过参数空间通过一个异常扩散的过程,其中距离在具有非活动指数的梯度更新的数量中增加距离。我们揭示了优化的超公数,梯度噪声结构之间的复杂相互作用,以及在训练结束时解释这种异常扩散的Hessian矩阵。为了构建这种理解,我们首先为SGD推导出一个连续时间模型,具有有限的学习速率和批量尺寸,作为欠下的Langevin方程。我们在线性回归中研究了这个方程,我们可以为参数的相位空间动态和它们的瞬时速度来得出精确的分析表达式,从初始化到实用性。使用Fokker-Planck方程,我们表明驾驶这些动态的关键成分不是原始的训练损失,而是修改的损失的组合,其隐含地规则地规范速度和概率电流,这导致相位空间中的振荡。我们在ImageNet培训的Reset-18模型的动态中确定了这种理论的定性和定量预测。通过统计物理的镜头,我们揭示了SGD培训的深神经网络的异常限制动态的机制来源。
translated by 谷歌翻译
深度神经网络的潜在损失景观对他们的培训产生了很大影响,但由于计算限制,他们主要研究过。这项工作大大减少了计算这种损失景观所需的时间,并使用它们来研究通过迭代幅度修剪找到的获奖彩票票。我们还共享结果与某些损失景观投影方法和模型训练性和泛化误差之间的先前声明相关的相关性。
translated by 谷歌翻译