尽管过度参数过多,但人们认为,通过随机梯度下降(SGD)训练的深度神经网络令人惊讶地概括了。基于预先指定的假设集的Rademacher复杂性,已经开发出不同的基于规范的泛化界限来解释这种现象。但是,最近的研究表明,这些界限可能会随着训练集的规模而增加,这与经验证据相反。在这项研究中,我们认为假设集SGD探索是轨迹依赖性的,因此可能在其Rademacher复杂性上提供更严格的结合。为此,我们通过假设发生的随机梯度噪声遵循分数的布朗运动,通过随机微分方程来表征SGD递归。然后,我们根据覆盖数字识别Rademacher的复杂性,并将其与优化轨迹的Hausdorff维度相关联。通过调用假设集稳定性,我们得出了针对深神经网络的新型概括。广泛的实验表明,它可以很好地预测几种常见的实验干预措施的概括差距。我们进一步表明,分数布朗运动的HURST参数比现有的概括指标(例如幂律指数和上blumenthal-getoor索引)更具信息性。
translated by 谷歌翻译
深度学习的概括分析通常假定训练会收敛到固定点。但是,最近的结果表明,实际上,用随机梯度下降优化的深神经网络的权重通常无限期振荡。为了减少理论和实践之间的这种差异,本文着重于神经网络的概括,其训练动力不一定会融合到固定点。我们的主要贡献是提出一个统计算法稳定性(SAS)的概念,该算法将经典算法稳定性扩展到非convergergent算法并研究其与泛化的联系。与传统的优化和学习理论观点相比,这种崇高的理论方法可导致新的见解。我们证明,学习算法的时间复杂行为的稳定性与其泛化有关,并在经验上证明了损失动力学如何为概括性能提供线索。我们的发现提供了证据表明,即使训练无限期继续并且权重也不会融合,即使训练持续进行训练,训练更好地概括”的网络也是如此。
translated by 谷歌翻译
古典统计学习理论表示,拟合太多参数导致过度舒服和性能差。尽管大量参数矛盾,但是现代深度神经网络概括了这一发现,并构成了解释深度学习成功的主要未解决的问题。随机梯度下降(SGD)引起的隐式正规被认为是重要的,但其特定原则仍然是未知的。在这项工作中,我们研究了当地最小值周围的能量景观的局部几何学如何影响SGD的统计特性,具有高斯梯度噪声。我们争辩说,在合理的假设下,局部几何形状力强制SGD保持接近低维子空间,这会引起隐式正则化并导致深神经网络的泛化误差界定更严格的界限。为了获得神经网络的泛化误差界限,我们首先引入局部最小值周围的停滞迹象,并施加人口风险的局部基本凸性财产。在这些条件下,推导出SGD的下界,以保留在这些停滞套件中。如果发生停滞,我们会导出涉及权重矩阵的光谱规范的深神经网络的泛化误差的界限,但不是网络参数的数量。从技术上讲,我们的证据基于控制SGD中的参数值的变化以及基于局部最小值周围的合适邻域的熵迭代的参数值和局部均匀收敛。我们的工作试图通过统一收敛更好地连接非凸优化和泛化分析。
translated by 谷歌翻译
With a goal of understanding what drives generalization in deep networks, we consider several recently suggested explanations, including norm-based control, sharpness and robustness. We study how these measures can ensure generalization, highlighting the importance of scale normalization, and making a connection between sharpness and PAC-Bayes theory. We then investigate how well the measures explain different observed phenomena.
translated by 谷歌翻译
尽管在机器学习中无处不在使用随机优化算法,但这些算法的确切影响及其对现实的非凸位设置中的概括性能的动态仍然知之甚少。尽管最近的工作揭示了随机优化中的概括与重尾行为之间的联系,但这项工作主要依赖于连续的近似值。对于原始离散时间迭代的严格处理尚未进行。为了弥合这一差距,我们提出了新颖的界限,将概括与在离散时间和连续时间设置中围绕局部最小值相关联的过渡内核的下尾指数。为了实现这一目标,我们首先证明了根据应用于优化器轨迹的著名的fernique-talagrand功能绑定的数据和算法依赖性的概括。然后,我们通过利用随机优化器的马尔可夫结构,并根据其(数据依赖性)过渡内核来得出界限来擅长于此结果。我们通过各种神经网络的经验结果来支持我们的理论,显示了概括误差与较低尾声之间的相关性。
translated by 谷歌翻译
我们研究了使用尖刺,现场依赖的随机矩阵理论研究迷你批次对深神经网络损失景观的影响。我们表明,批量黑森州的极值值的大小大于经验丰富的黑森州。我们还获得了类似的结果对Hessian的概括高斯牛顿矩阵近似。由于我们的定理,我们推导出作为批量大小的最大学习速率的分析表达式,为随机梯度下降(线性缩放)和自适应算法(例如ADAM(Square Root Scaling)提供了通知实际培训方案,例如光滑,非凸深神经网络。虽然随机梯度下降的线性缩放是在我们概括的更多限制性条件下导出的,但是适应优化者的平方根缩放规则是我们的知识,完全小说。随机二阶方法和自适应方法的百分比,我们得出了最小阻尼系数与学习率与批量尺寸的比率成比例。我们在Cifar-$ 100 $和ImageNet数据集上验证了我们的VGG / WimerEsnet架构上的索赔。根据我们对象检的调查,我们基于飞行学习率和动量学习者开发了一个随机兰齐齐竞争,这避免了对这些关键的超参数进行昂贵的多重评估的需求,并在预残留的情况下显示出良好的初步结果Cifar的architecure - $ 100 $。
translated by 谷歌翻译
不服从统计学习理论的古典智慧,即使它们通常包含数百万参数,现代深度神经网络也概括了井。最近,已经表明迭代优化算法的轨迹可以具有分形结构,并且它们的泛化误差可以与这种分形的复杂性正式连接。这种复杂性由分形的内在尺寸测量,通常比网络中的参数数量小得多。尽管这种透视提供了对为什么跨分层化的网络不会过度装备的解释,但计算内在尺寸(例如,在训练期间进行监测泛化)是一种臭名昭着的困难任务,即使在中等环境维度中,现有方法也通常失败。在这项研究中,我们考虑了从拓扑数据分析(TDA)的镜头上的这个问题,并开发了一个基于严格的数学基础的通用计算工具。通过在学习理论和TDA之间进行新的联系,我们首先说明了泛化误差可以在称为“持久同源维度”(PHD)的概念中,与先前工作相比,我们的方法不需要关于培训动态的任何额外几何或统计假设。然后,通过利用最近建立的理论结果和TDA工具,我们开发了一种高效的算法来估计现代深度神经网络的规模中的博士,并进一步提供可视化工具,以帮助理解深度学习中的概括。我们的实验表明,所提出的方法可以有效地计算网络的内在尺寸,这些设置在各种设置中,这是预测泛化误差的。
translated by 谷歌翻译
Existing generalization bounds fail to explain crucial factors that drive generalization of modern neural networks. Since such bounds often hold uniformly over all parameters, they suffer from over-parametrization, and fail to account for the strong inductive bias of initialization and stochastic gradient descent. As an alternative, we propose a novel optimal transport interpretation of the generalization problem. This allows us to derive instance-dependent generalization bounds that depend on the local Lipschitz regularity of the earned prediction function in the data space. Therefore, our bounds are agnostic to the parametrization of the model and work well when the number of training samples is much smaller than the number of parameters. With small modifications, our approach yields accelerated rates for data on low-dimensional manifolds, and guarantees under distribution shifts. We empirically analyze our generalization bounds for neural networks, showing that the bound values are meaningful and capture the effect of popular regularization methods during training.
translated by 谷歌翻译
当我们扩大数据集,模型尺寸和培训时间时,深入学习方法的能力中存在越来越多的经验证据。尽管有一些关于这些资源如何调节统计能力的说法,但对它们对模型培训的计算问题的影响知之甚少。这项工作通过学习$ k $ -sparse $ n $ bits的镜头进行了探索,这是一个构成理论计算障碍的规范性问题。在这种情况下,我们发现神经网络在扩大数据集大小和运行时间时会表现出令人惊讶的相变。特别是,我们从经验上证明,通过标准培训,各种体系结构以$ n^{o(k)} $示例学习稀疏的平等,而损失(和错误)曲线在$ n^{o(k)}后突然下降。 $迭代。这些积极的结果几乎匹配已知的SQ下限,即使没有明确的稀疏性先验。我们通过理论分析阐明了这些现象的机制:我们发现性能的相变不到SGD“在黑暗中绊倒”,直到它找到了隐藏的特征集(自然算法也以$ n^中的方式运行{o(k)} $ time);取而代之的是,我们表明SGD逐渐扩大了人口梯度的傅立叶差距。
translated by 谷歌翻译
这项工作研究了基于梯度的算法的现有理论分析与训练深神经网络的实践之间的深刻断开。具体而言,我们提供了数值证据,表明在大规模神经网络训练(例如Imagenet + Resnet101和WT103 + Transformerxl模型)中,神经网络的权重不会融合到损失的梯度为零的固定点。然而,值得注意的是,我们观察到,即使权重不融合到固定点,最小化损耗函数的进展和训练损失稳定下来。受到这一观察的启发,我们提出了一种基于动力学系统的千古理论来解释它的新观点。我们没有研究权重演化,而是研究权重分布的演变。我们证明了权重分布到近似不变的度量,从而解释了训练损失如何稳定而无需重合到固定点。我们进一步讨论了这种观点如何更好地调整优化理论与机器学习实践中的经验观察。
translated by 谷歌翻译
机器学习模型的概括对数据,模型和学习算法具有复杂的依赖性。我们研究训练和测试性能,以及它们在不同数据集样本上的差异给出的概括差距,以理解其``典型''行为。我们得出了差距的表达式,作为模型之间协方差的函数参数分布和列车损耗以及平均测试性能的另一种表达,显示了测试概括仅取决于数据平均参数分布和数据平均损失。我们显示,对于大型模型参数分布,修改的概括差距为始终是非负的。通过进一步专门针对由随机梯度下降(SGD)产生的参数分布,以及一些近似值和建模考虑,我们能够预测有关通用差距和模型训练和测试性能如何变化为一个方面的一些方面SGD噪声的功能。我们基于RESNET体系结构对CIFAR10分类任务进行经验评估这些预测。
translated by 谷歌翻译
我们证明了由例如He等人提出的广泛使用的方法。(2015年)并使用梯度下降对最小二乘损失进行训练并不普遍。具体而言,我们描述了一大批一维数据生成分布,较高的概率下降只会发现优化景观的局部最小值不好,因为它无法将其偏离偏差远离其初始化,以零移动。。事实证明,在这些情况下,即使目标函数是非线性的,发现的网络也基本执行线性回归。我们进一步提供了数值证据,表明在实际情况下,对于某些多维分布而发生这种情况,并且随机梯度下降表现出相似的行为。我们还提供了有关初始化和优化器的选择如何影响这种行为的经验结果。
translated by 谷歌翻译
长期存在的辩论围绕着相关的假设,即低曲率的最小值更好地推广,而SGD则不鼓励曲率。我们提供更完整和细微的观点,以支持两者。首先,我们表明曲率通过两种新机制损害了测试性能,除了已知的参数搭配机制外,弯曲和偏置曲线除了偏置和偏置。尽管曲率不是,但对测试性能的三个曲率介导的贡献是重复的,尽管曲率不是。移位横向的变化是连接列车和测试局部最小值的线路,由于数据集采样或分布位移而差异。尽管在训练时间的转移尚不清楚,但仍可以通过最大程度地减少总体曲率来减轻横向横向。其次,我们得出了一种新的,明确的SGD稳态分布,表明SGD优化了与火车损失相关的有效潜力,并且SGD噪声介导了这种有效潜力的深层与低外生区域之间的权衡。第三,将我们的测试性能分析与SGD稳态相结合,表明,对于小的SGD噪声,移位膜可能是三种机制中最重要的。我们的实验证实了狂热对测试损失的影响,并进一步探索了SGD噪声与曲率之间的关系。
translated by 谷歌翻译
我们研究随机梯度下降(SGD)动态轨迹的统计特性。我们将Mini-Batch SGD和动量SGD视为随机微分方程(SDES)。我们利用了SDE的连续制定和Fokker-Planck方程的理论,在逃避现象和大批次和尖锐最小值的关系中开发新结果。特别是,我们发现随机过程解决方案倾向于会聚到渐渐的最小值,而无论渐近状态中的批量大小如何。但是,收敛速度严格被证明依赖于批量尺寸。这些结果经验验证了各种数据集和模型。
translated by 谷歌翻译
随机梯度下降(SGD)有利于最小值的观察结果在理解SGD的隐式正则化和指导超参数调整方面发挥了基本作用。在本文中,我们通过将SGD的特定噪声结构与其\ emph {线性稳定性}相关联(Wu et al。,2018),对这种引人注目的现象提供了定量解释。具体而言,我们考虑培训具有正方形损失的过度参数化模型。我们证明,如果全局最低$ \ theta^*$是线性稳定的,则必须满足$ \ | h(\ theta^*)\ | _f \ leq o(\ sqrt {b}/\ eta)$ ,其中$ \ | h(\ theta^*)\ | _f,b,\ eta $分别表示Hessian的Frobenius Norm,分别为$ \ theta^*$,批处理大小和学习率。否则,SGD将快速逃离该最小值\ emph {指数}。因此,对于SGD可访问的最小值,通过Hessian的Frobenius Norm衡量的平坦度与模型尺寸和样本尺寸无关。获得这些结果的关键是利用SGD噪声的特定几何学意识:1)噪声幅度与损失值成正比; 2)噪声方向集中在当地景观的尖锐方向上。 SGD噪声的这种属性证明是线性网络和随机特征模型(RFM),并在非线性网络进行了经验验证。此外,我们的理论发现的有效性和实际相关性是通过广泛的数值实验证明的。
translated by 谷歌翻译
尽管训练速度更快,但虽然亚当 - 相似的自适应梯度算法与SGD相比遭受较差的概率性能。这项工作旨在通过分析其本地融合行为来提供对该概括性差距的谅解。具体来说,我们观察这些算法中的梯度噪声的重尾。这使我们通过其征收驱动的随机微分方程(SDE)来分析这些算法,因为算法及其SDE的相似性行为。然后我们从本地盆地建立了这些SDE的逃逸时间。结果表明,(1)SGD和ADAM〜逃逸时间〜取决于盆地的氡度量,梯度噪声的沉重效果负面; (2)对于同一个盆地,SGD享有比亚当更小的逃逸时间,主要是因为(a)ADAM〜通过自适应地缩放的几何适应,每个梯度坐标很好地减少了梯度噪声中的各向异性结构,并导致盆地的较大氡量度; (b)亚当〜adamiential梯度平均平均值平滑其梯度,并导致比SGD更轻的梯度噪声尾。因此,SGD比ADAM〜在夏普最小值中更为不稳定,定义为当地盆地具有小氡度量的最小值,并且可以更好地逃离它们以更大的氡度量效果。在这里,这通常是在平面或不对称盆地/谷的最小值,通常比锐利更概括,我们的结果阐述了SGD对亚当的更好的泛化表现。最后,实验结果证实了我们重型落后的渐变噪声假设和理论肯定。
translated by 谷歌翻译
本文评价用机器学习问题的数值优化方法。由于机器学习模型是高度参数化的,我们专注于适合高维优化的方法。我们在二次模型上构建直觉,以确定哪种方法适用于非凸优化,并在凸函数上开发用于这种方法的凸起函数。随着随机梯度下降和动量方法的这种理论基础,我们试图解释为什么机器学习领域通常使用的方法非常成功。除了解释成功的启发式之外,最后一章还提供了对更多理论方法的广泛审查,这在实践中并不像惯例。所以在某些情况下,这项工作试图回答这个问题:为什么默认值中包含的默认TensorFlow优化器?
translated by 谷歌翻译
A longstanding goal in deep learning research has been to precisely characterize training and generalization. However, the often complex loss landscapes of neural networks have made a theory of learning dynamics elusive. In this work, we show that for wide neural networks the learning dynamics simplify considerably and that, in the infinite width limit, they are governed by a linear model obtained from the first-order Taylor expansion of the network around its initial parameters. Furthermore, mirroring the correspondence between wide Bayesian neural networks and Gaussian processes, gradient-based training of wide neural networks with a squared loss produces test set predictions drawn from a Gaussian process with a particular compositional kernel. While these theoretical results are only exact in the infinite width limit, we nevertheless find excellent empirical agreement between the predictions of the original network and those of the linearized version even for finite practically-sized networks. This agreement is robust across different architectures, optimization methods, and loss functions.
translated by 谷歌翻译
低维歧管假设认为,在许多应用中发现的数据,例如涉及自然图像的数据(大约)位于嵌入高维欧几里得空间中的低维歧管上。在这种情况下,典型的神经网络定义了一个函数,该函数在嵌入空间中以有限数量的向量作为输入。但是,通常需要考虑在训练分布以外的点上评估优化网络。本文考虑了培训数据以$ \ mathbb r^d $的线性子空间分配的情况。我们得出对由神经网络定义的学习函数变化的估计值,沿横向子空间的方向。我们研究了数据歧管的编纂中与网络的深度和噪声相关的潜在正则化效应。由于存在噪声,我们还提出了训练中的其他副作用。
translated by 谷歌翻译
The fundamental learning theory behind neural networks remains largely open. What classes of functions can neural networks actually learn? Why doesn't the trained network overfit when it is overparameterized?In this work, we prove that overparameterized neural networks can learn some notable concept classes, including two and three-layer networks with fewer parameters and smooth activations. Moreover, the learning can be simply done by SGD (stochastic gradient descent) or its variants in polynomial time using polynomially many samples. The sample complexity can also be almost independent of the number of parameters in the network.On the technique side, our analysis goes beyond the so-called NTK (neural tangent kernel) linearization of neural networks in prior works. We establish a new notion of quadratic approximation of the neural network (that can be viewed as a second-order variant of NTK), and connect it to the SGD theory of escaping saddle points.
translated by 谷歌翻译