重要的是要了解流行的正则化方法如何帮助神经网络训练找到良好的概括解决方案。在这项工作中,我们从理论上得出了辍学的隐式正则化,并研究了损失函数的Hessian矩阵与辍学噪声的协方差矩阵之间的关系,并由一系列实验支持。然后,我们在数值上研究了辍学的隐式正规化的两个含义,这直觉上合理化了辍学有助于概括。首先,我们发现辍学的训练与实验中的标准梯度下降训练相比,发现具有最低最小的神经网络,而隐式正则化是找到平坦溶液的关键。其次,经过辍学的训练,隐藏神经元的输入权重(隐藏神经元的输入权重由其输入层到隐藏的神经元及其偏见项组成),往往会凝结在孤立的方向上。凝结是非线性学习过程中的一个功能,它使神经网络的复杂性低。尽管我们的理论主要集中在最后一个隐藏层中使用的辍学,但我们的实验适用于训练神经网络中的一般辍学。这项工作指出了与随机梯度下降相比,辍学的独特特征,是完全理解辍学的重要基础。
translated by 谷歌翻译
虽然辍学措施在深度学习中取得了巨大成功,但对于如何帮助训练在高维参数空间中发现良好的普遍化解决方案,众所周知。在这项工作中,我们表明,与标准梯度血统训练相比,辍学的训练发现了一个更平坦的最小值。我们进一步研究了通过实验辍学发现更平坦的最小值的潜在机制。我们提出了一种{\ IT方差原理},噪声横向的较小方向噪声的变化更大。现有的作品表明,SGD满足方差原则,这导致趋势趋势达到更少的最小值。我们的工作表明,辍学引起的噪音也满足了差异原则,解释了为什么辍学发现更漂亮的最小值。一般而言,我们的工作指出,方差原则是辍学和SGD之间的重要相似性,导致培训寻找更平坦的最小值并获得良好的概括。
translated by 谷歌翻译
了解深神经网络的损失景观结构(DNN)显然是重要的。在这项工作中,我们证明了一个嵌入原则,即DNN“包含”所有较窄DNN的所有关键点的损失景观。更确切地说,我们提出了一个临界嵌入,使得任何临界点,例如较窄的DNN的临界点,例如局部或全局最小值,可以嵌入到目标DNN的临界点/超平面,具有更高的退化性并保持DNN输出功能。关键点的嵌入结构与损耗功能和训练数据无关,显示与蛋白质折叠等其他非凸起问题的显着差异。凭经验,我们发现宽DNN通常被嵌入来自窄DNN的高度简并关键点引起。嵌入原理为广泛DNN的普遍易于优化提供了解释,并且在训练期间揭开潜在的隐式低复杂性正则化。总体而言,我们的工作为DNNS的损失景观提供了骨架及其含义,可以在附近预期更精确和全面的理解
translated by 谷歌翻译
隐式正常化对于了解神经网络的学习非常重要(NNS)。实证工作表明,隐藏神经元的输入重量(隐藏神经元的输入重量由其输入层的重量与隐藏的神经元的重量组成,其偏置术语)与小初始化的隔离取向凝结。冷凝动力学意味着训练隐含地将一个NN定制为一个具有更小的有效尺寸的NN。在这项工作中,我们利用多层网络来表明初始训练阶段中的浓缩方向的最大数量是激活函数的多倍,其中“多重性”是原点的激活函数的多个根。我们的理论分析确认了两种情况的实验,一个是具有任意维度输入的多个尺寸输入的激活函数,其包含许多常见的激活功能,而另一个是具有一维输入和任意多个层的层。这项工作迈向理解初始化的初始化程度的初始训练阶段的凝结程度缩小了缩写,这为未来研究NNS的非线性动态和其隐式正则化效果的初步研究奠定了基础。
translated by 谷歌翻译
我们研究了使用尖刺,现场依赖的随机矩阵理论研究迷你批次对深神经网络损失景观的影响。我们表明,批量黑森州的极值值的大小大于经验丰富的黑森州。我们还获得了类似的结果对Hessian的概括高斯牛顿矩阵近似。由于我们的定理,我们推导出作为批量大小的最大学习速率的分析表达式,为随机梯度下降(线性缩放)和自适应算法(例如ADAM(Square Root Scaling)提供了通知实际培训方案,例如光滑,非凸深神经网络。虽然随机梯度下降的线性缩放是在我们概括的更多限制性条件下导出的,但是适应优化者的平方根缩放规则是我们的知识,完全小说。随机二阶方法和自适应方法的百分比,我们得出了最小阻尼系数与学习率与批量尺寸的比率成比例。我们在Cifar-$ 100 $和ImageNet数据集上验证了我们的VGG / WimerEsnet架构上的索赔。根据我们对象检的调查,我们基于飞行学习率和动量学习者开发了一个随机兰齐齐竞争,这避免了对这些关键的超参数进行昂贵的多重评估的需求,并在预残留的情况下显示出良好的初步结果Cifar的architecure - $ 100 $。
translated by 谷歌翻译
了解深度学习的理论研究非常重要。在这项工作中,我们发现了一个嵌入原则,即nn的损失格局“包含”浅NN损失景观的所有关键点。我们发现的关键工具是在这项工作中提出的关键起重操作员,该操作员将网络的任何关键点映射到任何更深层网络的关键流形,同时保留输出。该原则为许多广泛观察到的DNN行为提供了新的见解。关于深层网络的易于培训,我们表明可以将NN的局部最低限制为更深的NN的严格鞍点。关于批准归一化的加速度效应,我们证明了批处理的归一化有助于避免通过抑制层线性化来从较浅的NN中提起的临界歧管。我们还证明,增加训练数据会缩小临界歧管,这可能导致训练加速,如实验中所示。总体而言,我们对深度嵌入原则的发现发现了深度学习损失格局的深度层次结构,这为进一步研究DNN的深度作用提供了坚实的基础。
translated by 谷歌翻译
梯度下降可能令人惊讶地擅长优化深层神经网络,而不会过度拟合并且没有明确的正则化。我们发现,梯度下降的离散步骤通过惩罚具有较大损耗梯度的梯度下降轨迹来隐式化模型。我们称之为隐式梯度正则化(IGR),并使用向后错误分析来计算此正则化的大小。我们从经验上确认,隐式梯度正则化偏向梯度下降到平面最小值,在该较小情况下,测试误差很小,溶液对嘈杂的参数扰动是可靠的。此外,我们证明了隐式梯度正规化项可以用作显式正常化程序,从而使我们能够直接控制此梯度正则化。从更广泛的角度来看,我们的工作表明,向后错误分析是一种有用的理论方法,即对学习率,模型大小和参数正则化如何相互作用以确定用梯度下降优化的过度参数化模型的属性。
translated by 谷歌翻译
我们证明了深度神经网络(NNS)的损失景观的一般嵌入原理,其解除了NNS的损失景观的层次结构,即NN的损失景观包含所有较窄NN的所有关键点。通过构建一类临界嵌入来获得该结果,该临界嵌入物将较窄的Nn的任何临界点映射到具有相同输出功能的目标Nn的临界点。通过发现广泛的一般兼容性嵌入式,我们提供了嵌入来自NNS的关键点的关键子多种尺寸的总估计。我们进一步证明了任何临界嵌入的Irfreversiblility属性,即临界点的Hessian矩阵的负/零/正小叶值的数量可能增加,但由于NN通过嵌入越来越宽,因此从未减少。使用一般兼容的临界嵌入的特殊实现,我们证明了一个严格的必要条件,以便是一个完全不变的临界点,从未成为任何关键嵌入的严格鞍端。该结果暗示宽NNS中严格鞍点的常见,这可能是在实践中广泛观察到的宽NNS易于优化的重要原因。
translated by 谷歌翻译
虽然已知辍学是一种成功的正规化技术,但仍缺乏对导致成功的机制的见解。我们介绍了\ emph {重量膨胀}的概念,这增加了由权重协方差矩阵的列或行载体跨越的并行曲线的签名体积,并表明重量膨胀是增加PAC中概括的有效手段。 - bayesian设置。我们提供了一个理论上的论点,即辍学会导致体重扩大和对辍学和体重扩张之间相关性的广泛经验支持。为了支持我们的假设,即可以将重量扩张视为增强的概括能力的\ emph {指示器},而不仅仅是副产品,我们还研究了实现重量扩展的其他方法(resp。\ contraction \ contraction ),发现它们通常会导致(分别\ \降低)的概括能力。这表明辍学是一种有吸引力的正规化器,因为它是一种用于获得体重扩展的计算廉价方法。这种洞察力证明了辍学者作为正规化器的作用,同时为确定正规化器铺平了道路,这些正规化器有望通过体重扩张来改善概括。
translated by 谷歌翻译
神经网络损失景观的二次近似已被广泛用于研究这些网络的优化过程。但是,它通常位于最低限度的一个很小的社区,但无法解释在优化过程中观察到的许多现象。在这项工作中,我们研究了神经网络损失函数的结构及其对超出良好二次近似范围的区域中优化的影响。从数值上讲,我们观察到神经网络损失功能具有多尺度结构,以两种方式表现出来:(1)在Minima的社区中,损失将量表的连续体和次级次序增长,(2)在较大的区域,损失,损失,损失,清楚地显示了几个单独的秤。使用次级生长,我们能够解释梯度下降(GD)方法观察到的稳定现象的边缘[5]。使用单独的量表,我们通过简单示例解释学习率衰减的工作机理。最后,我们研究了多尺度结构的起源,并提出模型的非跨性别性和训练数据的不均匀性是原因之一。通过构建两层神经网络问题,我们表明,具有不同幅度的训练数据会产生损失函数的不同尺度,从而产生次级生长和多个单独的尺度。
translated by 谷歌翻译
引入了归一化层(例如,批处理归一化,层归一化),以帮助在非常深的网中获得优化困难,但它们显然也有助于概括,即使在不太深入的网中也是如此。由于长期以来的信念,即最小的最小值导致更好的概括,本文提供了数学分析和支持实验,这表明归一化(与伴随的重量赛一起)鼓励GD降低损失表面的清晰度。鉴于损失是标准不变的,这是标准化的已知结果,因此仔细地定义了“清晰度”。具体而言,对于具有归一化的相当广泛的神经网类,我们的理论解释了有限学习率的GD如何进入所谓的稳定边缘(EOS)制度,并通过连续的清晰度来表征GD的轨迹 - 还原流。
translated by 谷歌翻译
长期存在的辩论围绕着相关的假设,即低曲率的最小值更好地推广,而SGD则不鼓励曲率。我们提供更完整和细微的观点,以支持两者。首先,我们表明曲率通过两种新机制损害了测试性能,除了已知的参数搭配机制外,弯曲和偏置曲线除了偏置和偏置。尽管曲率不是,但对测试性能的三个曲率介导的贡献是重复的,尽管曲率不是。移位横向的变化是连接列车和测试局部最小值的线路,由于数据集采样或分布位移而差异。尽管在训练时间的转移尚不清楚,但仍可以通过最大程度地减少总体曲率来减轻横向横向。其次,我们得出了一种新的,明确的SGD稳态分布,表明SGD优化了与火车损失相关的有效潜力,并且SGD噪声介导了这种有效潜力的深层与低外生区域之间的权衡。第三,将我们的测试性能分析与SGD稳态相结合,表明,对于小的SGD噪声,移位膜可能是三种机制中最重要的。我们的实验证实了狂热对测试损失的影响,并进一步探索了SGD噪声与曲率之间的关系。
translated by 谷歌翻译
某些培训干预措施(例如提高学习率和应用批归归式化)的机制提高了深网的概括仍然是一个谜。先前的作品猜测,“扁平”解决方案比“更清晰”的解决方案更好地概括了看不见的数据,激发了几个指标来测量平坦度(尤其是损失Hessian最大的特征值);和算法,例如清晰度最小化(SAM)[1],它们直接优化了平坦度。其他作品质疑$ \ lambda_ {max} $与概括之间的链接。在本文中,我们提出了调用$ \ lambda_ {max} $对概括的影响的发现。我们表明:(1)虽然较大的学习率减少了所有批量尺寸的$ \ lambda_ {max} $,但概括益处有时会在较大的批量尺寸下消失; (2)通过同时缩放批量的大小和学习率,我们可以更改$ \ lambda_ {max} $,而不会影响概括; (3)虽然SAM生产较小的$ \ lambda_ {max} $,用于所有批次尺寸,概括益处(也)消失,较大的批量尺寸; (4)对于辍学,过高的辍学概率可能会降低概括,即使它们促进了较小的$ \ lambda_ {max} $; (5)虽然批处理范围并未始终产生较小的$ \ lambda_ {max} $,但它仍然赋予概括性优势。尽管我们的实验肯定了大型学习率和SAM对Minibatch SGD的概括优势,但GD-SGD差异证明了对$ \ lambda_ {Max} $解释神经网络中概括的能力的限制。
translated by 谷歌翻译
随机梯度下降(SGD)有利于最小值的观察结果在理解SGD的隐式正则化和指导超参数调整方面发挥了基本作用。在本文中,我们通过将SGD的特定噪声结构与其\ emph {线性稳定性}相关联(Wu et al。,2018),对这种引人注目的现象提供了定量解释。具体而言,我们考虑培训具有正方形损失的过度参数化模型。我们证明,如果全局最低$ \ theta^*$是线性稳定的,则必须满足$ \ | h(\ theta^*)\ | _f \ leq o(\ sqrt {b}/\ eta)$ ,其中$ \ | h(\ theta^*)\ | _f,b,\ eta $分别表示Hessian的Frobenius Norm,分别为$ \ theta^*$,批处理大小和学习率。否则,SGD将快速逃离该最小值\ emph {指数}。因此,对于SGD可访问的最小值,通过Hessian的Frobenius Norm衡量的平坦度与模型尺寸和样本尺寸无关。获得这些结果的关键是利用SGD噪声的特定几何学意识:1)噪声幅度与损失值成正比; 2)噪声方向集中在当地景观的尖锐方向上。 SGD噪声的这种属性证明是线性网络和随机特征模型(RFM),并在非线性网络进行了经验验证。此外,我们的理论发现的有效性和实际相关性是通过广泛的数值实验证明的。
translated by 谷歌翻译
我们证明了由例如He等人提出的广泛使用的方法。(2015年)并使用梯度下降对最小二乘损失进行训练并不普遍。具体而言,我们描述了一大批一维数据生成分布,较高的概率下降只会发现优化景观的局部最小值不好,因为它无法将其偏离偏差远离其初始化,以零移动。。事实证明,在这些情况下,即使目标函数是非线性的,发现的网络也基本执行线性回归。我们进一步提供了数值证据,表明在实际情况下,对于某些多维分布而发生这种情况,并且随机梯度下降表现出相似的行为。我们还提供了有关初始化和优化器的选择如何影响这种行为的经验结果。
translated by 谷歌翻译
Neural network training relies on our ability to find "good" minimizers of highly non-convex loss functions. It is well-known that certain network architecture designs (e.g., skip connections) produce loss functions that train easier, and wellchosen training parameters (batch size, learning rate, optimizer) produce minimizers that generalize better. However, the reasons for these differences, and their effects on the underlying loss landscape, are not well understood. In this paper, we explore the structure of neural loss functions, and the effect of loss landscapes on generalization, using a range of visualization methods. First, we introduce a simple "filter normalization" method that helps us visualize loss function curvature and make meaningful side-by-side comparisons between loss functions. Then, using a variety of visualizations, we explore how network architecture affects the loss landscape, and how training parameters affect the shape of minimizers.
translated by 谷歌翻译
最近的工作表明,不同体系结构的卷积神经网络学会按照相同的顺序对图像进行分类。为了理解这种现象,我们重新审视了过度参数的深度线性网络模型。我们的分析表明,当隐藏层足够宽时,该模型参数的收敛速率沿数据的较大主组件的方向呈指数级数,该方向由由相应的奇异值控制的速率。我们称这种收敛模式主成分偏差(PC偏置)。从经验上讲,我们展示了PC偏差如何简化线性和非线性网络的学习顺序,在学习的早期阶段更为突出。然后,我们将结果与简单性偏见进行比较,表明可以独立看到这两个偏见,并以不同的方式影响学习顺序。最后,我们讨论了PC偏差如何解释早期停止及其与PCA的联系的一些好处,以及为什么深网与随机标签更慢地收敛。
translated by 谷歌翻译
在这项工作中,我们探讨了随机梯度下降(SGD)训练的深神经网络的限制动态。如前所述,长时间的性能融合,网络继续通过参数空间通过一个异常扩散的过程,其中距离在具有非活动指数的梯度更新的数量中增加距离。我们揭示了优化的超公数,梯度噪声结构之间的复杂相互作用,以及在训练结束时解释这种异常扩散的Hessian矩阵。为了构建这种理解,我们首先为SGD推导出一个连续时间模型,具有有限的学习速率和批量尺寸,作为欠下的Langevin方程。我们在线性回归中研究了这个方程,我们可以为参数的相位空间动态和它们的瞬时速度来得出精确的分析表达式,从初始化到实用性。使用Fokker-Planck方程,我们表明驾驶这些动态的关键成分不是原始的训练损失,而是修改的损失的组合,其隐含地规则地规范速度和概率电流,这导致相位空间中的振荡。我们在ImageNet培训的Reset-18模型的动态中确定了这种理论的定性和定量预测。通过统计物理的镜头,我们揭示了SGD培训的深神经网络的异常限制动态的机制来源。
translated by 谷歌翻译
在梯度下降中注入噪声具有几个理想的特征。在本文中,我们在计算梯度步骤之前探索噪声注入,该梯度步骤已知具有平滑和正规化的特性。我们表明,小扰动会导致基于L1-norm,L1-Norms或核规范的简单有限维模型的显式正则化。当应用于具有较大宽度的过多散热性神经网络时,我们表明,由于过多参数化导致的方差爆炸,相同的扰动无效。但是,我们还表明,独立的层扰动允许避免爆炸差异项,然后可以获得显式正则化器。我们从经验上表明,与香草(随机)梯度下降训练相比,小的扰动可以提高泛化性能,对训练程序进行了较小的调整。
translated by 谷歌翻译
深度学习的概括分析通常假定训练会收敛到固定点。但是,最近的结果表明,实际上,用随机梯度下降优化的深神经网络的权重通常无限期振荡。为了减少理论和实践之间的这种差异,本文着重于神经网络的概括,其训练动力不一定会融合到固定点。我们的主要贡献是提出一个统计算法稳定性(SAS)的概念,该算法将经典算法稳定性扩展到非convergergent算法并研究其与泛化的联系。与传统的优化和学习理论观点相比,这种崇高的理论方法可导致新的见解。我们证明,学习算法的时间复杂行为的稳定性与其泛化有关,并在经验上证明了损失动力学如何为概括性能提供线索。我们的发现提供了证据表明,即使训练无限期继续并且权重也不会融合,即使训练持续进行训练,训练更好地概括”的网络也是如此。
translated by 谷歌翻译