背景:理论上仍然是一个开放的研究领域,理解为什么深度神经网络(DNNs)---配备了比训练数据更多的参数并且通过(随机)基于梯度的方法训练 - 经常实现非常低的泛化误差。贡献:我们通过傅立叶分析研究DNN培训。我们的理论框架解释了:i)DNN(基于随机)梯度的方法在训练期间赋予目标函数的低频分量更高的优先级; ii)小的初始化导致DNN具有良好的泛化能力,同时保留DNN的任何功能。通过适合以下数据集的DNN的实验进一步证实了这些结果,即自然图像,一维函数和MNIST数据集。
translated by 谷歌翻译
即使在强度过度参数化的情况下,深度神经网络也可以非常好地推广而无需显式正则化。这一成功表明某种形式的隐性正规化必须起作用。在本文中,我们认为参数函数映射中强烈的内在偏差有助于解释深度神经网络的成功。我们提供的证据表明,如果我们假设训练算法在零误差区域内均匀地采样接近均匀的参数,那么参数函数映射会产生严重偏差的函数。然后,PAC-Bayes定理保证了产生高可能性训练集的目标函数的良好预期广义化。我们利用深度神经网络和高斯过程之间的联系来估计边际可能性,在高斯过程和小输入集的神经网络之间找到非常好的一致性。使用近似似然可能性计算,我们产生非平凡的泛化PAC-Bayeserror边界,其与实际数据集(如MNIST和CIFAR)的真实误差以及包括卷积和完全连接网络的体系结构相关。正如最近基于算法信息理论的论证所预测的那样,我们发现先验概率随着目标函数的描述复杂性的若干度量的线性增加而呈指数下降。由于预期许多实际问题中的目标函数将具有高度结构化,因此这种简单性偏差可以深入了解为什么深度网络能够很好地适应现实世界中的问题,而对随机数据却很糟糕。
translated by 谷歌翻译
众所周知,神经网络的表现力取决于其体系结构,更深层的网络表达更复杂的功能。在计算分段线性函数的网络中,例如具有RELU激活的网络,不同线性区域的数量是表达性的自然度量。有可能构建线性区域的数量随深度呈指数增长的网络,或者仅仅是单个区域的网络;不清楚大多数网络在此范围内的哪个位置在训练之前或之后落入实践中。在本文中,我们提供了一个数学框架来计算分段线性网络的线性区域的数量,并测量这些区域之间的边界的体积。特别地,我们证明了对于初始化的网络,沿着任何维子空间的平均区域数量在神经元的总数中线性增长,而不是指数上限。我们还发现,初始化时最近区域边界的平均距离与神经元数量的倒数相似。我们的理论认为,即使在训练之后,线性区域的数量远低于指数,这是一种与经验观察相匹配的直觉。我们得出结论,神经网络的实际表现力可能远低于理论最大值,并且可以量化这个差距。
translated by 谷歌翻译
在实践中,经常发现大的过度参数化神经网络比它们的较小对应物更好地普遍化,这种观察似乎与功能复杂性的经典概念相冲突,这通常用于较小的模型。在这项工作中,我们通过对与输入扰动敏感性相关的复杂度的双重度量的广泛实证探索来研究复杂性和泛化之间的这种张力。我们的实验调查了数千个具有各种完全连接的体系结构,优化器和其他超参数的模型。作为四个不同的图像分类数据集。我们发现训练的神经网络对于训练数据流形附近的输入扰动更加鲁棒,如通过网络的输入 - 输出雅可比行列式的标准所测量的,并且它与广义化很好地相关。我们进一步确定与差的一般化相关的因素$ - $如全批次训练或使用随机标签$ - $对应于较低的稳健性,而与良好概括相关的因素$ - $如数据增加和ReLU非线性$ - $ giverise更强大的功能。最后,我们演示了输入 - 输出雅可比规范如何在个体测试点的水平上预测泛化。
translated by 谷歌翻译
本文的目的是研究为什么随机梯度下降(SGD)对神经网络有效,以及神经网络设计如何影响SGD。特别是,我们研究了过度参数化 - 超出训练数据数量的参数数量的增加 - 如何影响SGD的动态。我们介绍一种称为梯度混淆的简单概念。当混淆度很高时,不同数据样本产生的随机梯度可能会相关,从而减慢收敛速度。但是当梯度混淆时,我们表明SGD具有比经典理论预测的更好的收敛性。利用理论和实验结果,我们研究过度参数化如何影响梯度混淆,从而研究SDD在线性模型和神经网络上的收敛性。我们表明,增加线性模型的参数数量或增加神经网络的宽度会导致较低的梯度混淆,从而更快更容易地进行模型训练。我们通过增加神经网络的深度来进行过度参数化会导致更高的梯度混淆,使得更深的模型更难训练。最后,我们通过经验观察到批量归一化和滑动连接等技术减少了梯度混淆,这有助于减少深层网络的训练负担。
translated by 谷歌翻译
我们通过样条函数和算子在深度网络(DN)和近似理论之间建立了一个严格的桥梁。我们的关键结果是,大类DN可以编写为最大仿射样条运算符(MASO)的组合,它提供了一个强大的门户,通过它可以查看和分析其内部工作。例如,以输入信号为条件,MASODN的输出可以写为输入的简单仿射变换。这表明DN构建了一组信号相关的,特定于类的模板,通过简单的内积来比较信号;我们通过匹配滤波器和数据记忆的影响探索经典的最优分类理论的链接。更进一步,我们提出一个简单的惩罚措施,可以添加到任何DN学习算法的成本函数中,使模板彼此正交;这导致分类性能得到显着改善,并且在不改变DN架构的情况下减少了过度拟合。由MASO隐式引起的输入信号空间的样条分区将DN直接链接到矢量量化(VQ)理论和$ K $ -means聚类,这开辟了新的几何途径来研究DN如何以分层方式组织信号。为了验证VQ解释的效用,我们开发并验证了新的信号和图像距离度量,以量化其VQencodings之间的差异。 (本文是ICML 2018中深度学习的样条理论的显着扩展版本。)
translated by 谷歌翻译
We propose a new approach to the problem of neural network expressivity,which seeks to characterize how structural properties of a neural networkfamily affect the functions it is able to compute. Our approach is based on aninterrelated set of measures of expressivity, unified by the novel notion oftrajectory length, which measures how the output of a network changes as theinput sweeps along a one-dimensional path. Our findings can be summarized asfollows: (1) The complexity of the computed function grows exponentially with depth. (2) All weights are not equal: trained networks are more sensitive to theirlower (initial) layer weights. (3) Regularizing on trajectory length (trajectory regularization) is asimpler alternative to batch normalization, with the same performance.
translated by 谷歌翻译
本文研究了生成网络将其输入噪声分布转换为其他分布的能力。首先,我们演示了一种结构,它允许ReLU网络通过实现基于迭代地图的“空间填充”功能来增加其噪声分布的维度。我们通过分析由多元ReLU网络计算的函数中的条件数来表明这种结构是最优的。其次,我们提供了有效的方法(使用polylog $(1 / \ epsilon)$节点)网络在单变量统一和正态分布之间进行切换,使用Taylor系列近似和二进制搜索小工具来计算函数逆。最后,我们指出了高维分布可以有效地转换为低维分布。
translated by 谷歌翻译
Deep nets generalize well despite having more parameters than the number of training samples. Recent works try to give an explanation using PAC-Bayes and Margin-based analyses, but do not as yet result in sample complexity bounds better than naive parameter counting. The current paper shows generalization bounds that're orders of magnitude better in practice. These rely upon new succinct reparametrizations of the trained net-a compression that is explicit and efficient. These yield generalization bounds via a simple compression-based framework introduced here. Our results also provide some theoretical justification for widespread empirical success in compressing deep nets. Analysis of correctness of our compression relies upon some newly identified "noise stabil-ity"properties of trained deep nets, which are also experimentally verified. The study of these properties and resulting generalization bounds are also extended to convolutional nets, which had eluded earlier attempts on proving generalization.
translated by 谷歌翻译
对抗性的例子是机器学习模型的普遍现象,对于其他统计上准确的模型,对输入引导分类的看似难以察觉的扰动。我们提出了年龄测量框架,借鉴了多方面重建文献中的工具,分析了对抗性实例的高维几何。特别强调了维度的重要性:对于嵌入高维空间的低维数据流形,有很多方向。构建对抗性例子的多方面。对抗性示例是学习决策边界的自然结果,该决策边界很好地对低维数据流形进行分类,但是对流形附近的点进行了不正确的分类。使用我们的几何框架,我们证明了(1)在不同规范下的鲁棒性之间的权衡,(2)围绕数据的球的对抗性训练是样本效率低的,以及(3)在最近邻分类器和基于球的对抗性训练的情况下的充分采样条件。
translated by 谷歌翻译
我们研究了代表线性(PWL)函数的深度神经网络(DNN)的复杂性。特别地,我们研究了DNN所代表的PWL函数在理论上和经验上都可以达到的线性区域的数量,即块数。我们提出(i)整流器网络上线性区域的最大数量的上限和下限更紧密,这对于第一维的输入是精确的; (ii)多层maxoutnetworks的第一个上限; (iii)通过用混合整数线性公式对DNN建模来执行精确计数或计数区域数量的第一种方法。这些界限来自于利用空间的尺寸来定义每个线性区域。结果还表明,如果该数量超过输入的维数,则深度整流网络只能具有比具有相同数量的神经元的每个浅对应物更多的线性区域。
translated by 谷歌翻译
深度卷积体系结构的成功通常部分归因于它们学习自然信号的多尺度和不变表示的能力。然而,对这些属性以及它们如何影响学习保证的精确研究仍然缺失。在本文中,我们考虑信号的深度卷积表示;我们研究它们的不变性翻译和更一般的变换组,它们对于微分同胚的作用的稳定性,以及它们保存信号信息的能力。通过引入基于卷积核网络的多层核和通过研究由核映射引起的几何来进行该分析。然后我们表征相应的再生kernelHilbert空间(RKHS),表明它包含一大类具有齐次激活函数的卷积神经网络。该分析允许单独的数据表示与学习,并提供模型复杂性的规范测量,RKHS规范,其控制任何学习模型的稳定性和概括性。除了构造的RKHS中的模型之外,我们的稳定性分析也适用于具有整流线性单元等通用激活的卷积网络,并且我们讨论了它与基于频谱规范的近期泛化界限的关系。
translated by 谷歌翻译
虽然近年来取得了很多进展,但深度非线性神经网络的学习动力至今仍未得到很好的理解。在这项工作中,我们研究了二元分类的情况,并在强大的假设下证明了这种网络中学习的各种属性,如数据的线性可分性。从线性情况扩展现有结果,我们通过证明分类误差在非线性体系结构中也遵循S形形状来证实经验观察。我们表明,给定适当的初始化,学习阐述了并行相关模式,并且参数空间的某些区域可能导致tofailed训练。我们还证明了数据集中的输入范数和特征频率导致了明显的收敛速度,这可能会对深度神经网络的泛化能力有所启发。我们提供了学习动态与交叉熵和铰链损失之间的比较,这可能有助于理解生成对抗网络训练的最新进展。最后,我们确定了一种将梯度饥饿纳入其中的现象,其中数据集中最常见的特征可以防止学习其他不太频繁但信息量相同的特征。
translated by 谷歌翻译
在深度神经网络(DNN)理论中的许多未解决的难题中,存在三个最需要解决方案的最基本挑战,即可表达性,可优化性和一般性。尽管在使用各种理论(例如信息瓶颈理论,稀疏表示,统计推断,黎曼几何等)寻求答案方面取得了显着进展,但到目前为止还没有一种理论可以提供所有这些挑战的解决方案。在这项工作中,我们建议采用差分拓扑理论来解决这三个问题。通过将感兴趣的数据集建模为平滑流形,可以将DNN视为光滑流形之间的平滑映射的组合。具体而言,我们的工作提供了DNN损失格局的差异拓扑视图,可表达性的宽度和深度之间的相互作用,以及一般性的规则性。最后,在深度表示学习的设置中,我们进一步应用商拓扑来研究DNN的体系结构,这使得能够捕获关于特定学习任务的数据中的讨厌因子。
translated by 谷歌翻译
In recent years, Deep Learning has become the go-to solution for a broad range of applications, often outperforming state-of-the-art. However, it is important, for both theoreticians and practitioners, to gain a deeper understanding of the difficulties and limitations associated with common approaches and algorithms. We describe four types of simple problems, for which the gradient-based algorithms commonly used in deep learning either fail or suffer from significant difficulties. We illustrate the failures through practical experiments, and provide theoretical insights explaining their source, and how they might be remedied 1 .
translated by 谷歌翻译
The generalization error of deep neural networks via their classificationmargin is studied in this work. Our approach is based on the Jacobian matrix ofa deep neural network and can be applied to networks with arbitrarynon-linearities and pooling layers, and to networks with differentarchitectures such as feed forward networks and residual networks. Our analysisleads to the conclusion that a bounded spectral norm of the network's Jacobianmatrix in the neighbourhood of the training samples is crucial for a deepneural network of arbitrary depth and width to generalize well. This is asignificant improvement over the current bounds in the literature, which implythat the generalization error grows with either the width or the depth of thenetwork. Moreover, it shows that the recently proposed batch normalization andweight normalization re-parametrizations enjoy good generalization properties,and leads to a novel network regularizer based on the network's Jacobianmatrix. The analysis is supported with experimental results on the MNIST,CIFAR-10, LaRED and ImageNet datasets.
translated by 谷歌翻译
我们证明在$ \ reals ^ d $上有一个简单的(近似径向)函数,可由一个小的3层前馈神经网络表达,它不能被任何2层网络接近,超过一定的恒定精度,除非它的宽度在维度上呈指数级。结果几乎包含所有已知的激活函数,包括整流线性单位,sigmoids和阈值,并正式证明深度 - 即使增加1 - 可以比标准前馈神经网络的宽度指数地更有价值。而且,与布尔函数相关的相关结果相比,我们的结果需要更少的假设,并且防伪技术和结构是非常不同的。
translated by 谷歌翻译
Deep learning has arguably achieved tremendous success in recent years. In simple words, deep learning uses the composition of many nonlinear functions to model the complex dependency between input features and labels. While neural networks have a long history, recent advances have greatly improved their performance in computer vision, natural language processing, etc. From the statistical and scientific perspective, it is natural to ask: What is deep learning? What are the new characteristics of deep learning, compared with classical methods? What are the theoretical foundations of deep learning? To answer these questions, we introduce common neural network models (e.g., convolutional neural nets, recurrent neural nets, generative adversarial nets) and training techniques (e.g., stochastic gradient descent, dropout, batch normalization) from a statistical point of view. Along the way, we highlight new characteristics of deep learning (including depth and over-parametrization) and explain their practical and theoretical benefits. We also sample recent results on theories of deep learning, many of which are only suggestive. While a complete understanding of deep learning remains elusive, we hope that our perspectives and discussions serve as a stimulus for new statistical research.
translated by 谷歌翻译
We provide several new depth-based separation results for feed-forward neural networks, proving that various types of simple and natural functions can be better approximated using deeper networks than shallower ones, even if the shallower networks are much larger. This includes indicators of balls and ellipses; non-linear functions which are radial with respect to the L 1 norm; and smooth non-linear functions. We also show that these gaps can be observed experimentally: Increasing the depth indeed allows better learning than increasing width, when training neural networks to learn an indicator of a unit ball.
translated by 谷歌翻译
在最近的文献中,强调了深度在深度学习中的重要作用。在本文中,我们认为通过回答神经网络决策区域连接的简单问题,足够宽度的前馈网络同样重要。事实证明,对于一类激活函数,包括泄漏的ReLU,具有金字塔结构的神经网络,即没有层具有比输入维度更多的隐藏单元,产生必然连接的决策区域。这意味着需要足够宽的隐藏层来保证网络可以产生断开的决策区域。我们讨论了这个结果对神经网络构造的影响,特别是对分类器的对抗操纵问题。
translated by 谷歌翻译