The generalization error of deep neural networks via their classificationmargin is studied in this work. Our approach is based on the Jacobian matrix ofa deep neural network and can be applied to networks with arbitrarynon-linearities and pooling layers, and to networks with differentarchitectures such as feed forward networks and residual networks. Our analysisleads to the conclusion that a bounded spectral norm of the network's Jacobianmatrix in the neighbourhood of the training samples is crucial for a deepneural network of arbitrary depth and width to generalize well. This is asignificant improvement over the current bounds in the literature, which implythat the generalization error grows with either the width or the depth of thenetwork. Moreover, it shows that the recently proposed batch normalization andweight normalization re-parametrizations enjoy good generalization properties,and leads to a novel network regularizer based on the network's Jacobianmatrix. The analysis is supported with experimental results on the MNIST,CIFAR-10, LaRED and ImageNet datasets.
translated by 谷歌翻译
解释深度学习的不合理有效性已经让全球各地的研究人员望而却步。各种作者都描述了多个度量标准来评估深层体系结构的容量。在本文中,我们提到了对具有铰链损耗的支持向量机(SVM)所描述的半边界限,将其应用于深度前馈体系结构并导出与先前限制的术语不同的Vapnik-Chervonenkis(VC)边界。网络的权重数量。在这样做的过程中,我们还提出了Dropout和Dropconnect等技术在降低网络容量方面的有效性。最后,我们描述了最大化输入和输出裕度的效果,以实现输入噪声稳健的深层体系结构。
translated by 谷歌翻译
深度学习模型最近在计算机视觉,语音识别,语音翻译和自然语言处理等各个领域表现出了很好的表现。然而,除了他们最先进的表现之外,一般还不清楚他们的泛化能力的来源是什么。因此,一个重要的问题是什么使得深度神经网络能够从训练集到新数据得到很好的推广。在本文中,我们提供了现有理论的概述和深度神经网络的广义化误差表征的界限,结合了经典和更新的理论和实证结果。
translated by 谷歌翻译
我们引入Parseval网络,这是一种深度神经网络,其中线性,卷积和聚合层的Lipschitz常数被约束为小于1.Parseval网络是通过分析深度神经网络预测的鲁棒性来实证和理论推动的。输入受到对抗性的扰动。 Parseval网络最重要的特征是将线性和卷积层的权重矩阵保持为(近似)Parseval紧框架,这是正交矩阵tonon-square矩阵的扩展。我们描述了在SGD期间如何保持这些约束的有效性。我们表明,Parseval网络在CIFAR-10/100和街景HouseNumbers(SVHN)方面的准确性方面与最先进的网络相匹配,同时比其对手的对抗例子更强大。顺便提一下,Parseval网络也倾向于训练紧固并更好地利用网络的全部容量。
translated by 谷歌翻译
重量衰减是神经网络工具箱中的标准技巧之一,但其正则化效应的原因知之甚少,最近的结果使人们对$ L_2 $正则化的传统解释产生了怀疑。对于不同的优化器,已经证明,字面权重衰减优于$ L_2 $正则化。我们凭经验研究了三种优化算法(SGD,Adam和K-FAC)和各种网络架构的权重衰减。根据特定的优化算法和结构,我们确定了权重衰减发挥正则化效应的三种不同机制:(1)提高有效学习率,(2)近似规范输入 - 输出雅可比范数,(3)降低有效阻尼系数用于二阶优化。我们的结果提供了如何改进神经网络正规化的见解。
translated by 谷歌翻译
深度神经网络(DNN)由于在广泛的问题上具有出色的经验性能而变得越来越重要。然而,正则化通常通过间接方式实现,主要是由于网络定义的复杂函数集以及测量函数复杂性的困难。在文献中没有基于函数范数的加法正则化的方法,如经典地认为的本体学习理论。在这项工作中,我们提出基于抽样的近似加权函数规范作为深度神经网络的正则化器。据我们所知,我们提供了DNN计算函数规范的NP-硬度文献的第一个证明,激发了近似方法的必要性。然后,我们推导出用加权规范训练的函数的泛化界,并证明自然随机优化策略最小化界限。最后,我们凭经验验证了所提出的凸函数集的正则化策略的改进性能以及实际分类和图像分割任务中的DNN,证明了在重量衰减,丢失和批量归一化方面的性能得到改善。源代码将在出版时发布。
translated by 谷歌翻译
我们研究了明确强制神经网络的Lipschitz连续性对其输入的影响。为此,我们提供了一种简单的技术,用于计算由常用层类型组成的前馈神经网络的Lipschitz常数的上界,并在此主题的先前工作中展示了不准确性。然后,我们的技术用于训练具有有界Lipschitz常数的神经网络作为可以使用投影随机梯度方法求解的非约束优化问题。我们的评估研究表明,我们的方法与我们的方法相比,具有最先进的正则化技术。此外,当与现有的规范神经网络的方法相结合时,性能增益是累积的。我们还提供证据证明,超参数是直观的,并且演示了计算Lipschitz常数的范数选择如何影响最终模型。
translated by 谷歌翻译
深度神经网络(DNN)已经为各种监督学习任务设定了基准。然而,受过训练的DNN通常缺乏对输入的小范围扰动的鲁棒性,这破坏了它们的真实性。最近的工作通过使用对抗扰动的训练样本拟合网络增加了DNN的稳健性,但是改进的性能仍然远低于非对抗性设置中看到的性能。这种差距的很大一部分可归因于由于对抗性训练而导致的泛化性能降低。在这项工作中,我们将边缘损失的概念扩展到对抗设置,并限制了在几种众所周知的基于梯度的攻击方案下训练的DNN的广义化误差,从而激发了基于DNN权重矩阵的谱正态化的有效正则化方案。我们还提供了一种计算有效的方法,用于在深度卷积网络中用任意步幅和填充方案对卷积层的谱范数进行归一化。我们在数据集,网络架构和对抗性训练方案的组合上,全面评估频谱归一化的能力。该代码可通过以下网址获得://github.com/jessemzhang/dl_spectral_normalization。
translated by 谷歌翻译
最近关于边际理论的研究已经证明,最大化像支持向量机这样的最小保证金并不一定能带来更好的性能,相反,优化保证金分配至关重要。与此同时,利润率理论已被用于解释近期研究中深度网络的经验成功。在本文中,我们提出了mdNet(OptimalMargin分布网络),这是一个在最优边际分布方面嵌入损失函数的网络。我们使用PAC-Bayesian框架对我们的方法进行了理论分析,证实了在深度网络框架内分类的边际分布的重要性。此外,实证结果表明mdNet模型始终优于基线交叉熵损失模型。不同的正规化条件。并且我们的mdNet模型也通过有限的训练数据优于泛化任务中的交叉熵损失(Xent),铰链损失和软铰链损失模型。
translated by 谷歌翻译
Deep nets generalize well despite having more parameters than the number of training samples. Recent works try to give an explanation using PAC-Bayes and Margin-based analyses, but do not as yet result in sample complexity bounds better than naive parameter counting. The current paper shows generalization bounds that're orders of magnitude better in practice. These rely upon new succinct reparametrizations of the trained net-a compression that is explicit and efficient. These yield generalization bounds via a simple compression-based framework introduced here. Our results also provide some theoretical justification for widespread empirical success in compressing deep nets. Analysis of correctness of our compression relies upon some newly identified "noise stabil-ity"properties of trained deep nets, which are also experimentally verified. The study of these properties and resulting generalization bounds are also extended to convolutional nets, which had eluded earlier attempts on proving generalization.
translated by 谷歌翻译
尽管它们具有巨大的尺寸,但成功的深度人工神经网络仍然可以在训练和测试性能之间产生非常小的差异。传统智慧将小的泛化误差归因于模型族的属性或训练期间使用的正则化技术。通过广泛的系统实验,我们展示了这些传统方法如何解释为什么大型神经网络在实践中得到了很好的推广。具体而言,我们的实验确定了使用随机梯度方法训练的用于图像分类的最先进的卷积网络容易适合训练数据的随机标记。这种现象在质量上不受显式正则化的影响,并且如果我们用完全非结构化的随机噪声替换真实图像则会出现这种情况。通过理论结构证实这些实验结果表明,一旦参数数量超过实际数据点的数量,两个神经网络已经具有完美的有限样本表达。我们通过与传统模型比较来解释我们的实验结果。
translated by 谷歌翻译
训练受Lipschitz约束的神经网络对于广义边界,可证明的对抗鲁棒性,可解释的梯度和Wasserstein距离估计是有用的。通过Lipschitz函数的组合性质,足以确保每个单独的仿射变换或非线性激活函数是1-Lipschitz。在保持表现力的同时做到这一点的挑战。我们确定了这种架构的必要属性:每个层必须在反向传播期间保持梯度范数。在此基础上,我们提出将保持激活的Agradient范数激活函数GroupSort与范数约束权矩阵相结合。我们证明了范数约束的GroupSort体系结构是通用的Lipschitz函数逼近器。根据经验,我们证明了规范约束的GroupSort网络实现了比其ReLU对应物更严格的Wassersteindistance估计,并且可以实现可证明的对抗鲁棒性保证,而且准确性成本很低。
translated by 谷歌翻译
Classical distillation methods transfer representations from a "teacher" neural network to a "stu-dent" network by matching their output activations. Recent methods also match the Jacobians, or the gradient of output activations with the input. However, this involves making some ad hoc decisions , in particular, the choice of the loss function. In this paper, we first establish an equivalence between Jacobian matching and distillation with input noise, from which we derive appropriate loss functions for Jacobian matching. We then rely on this analysis to apply Jacobian matching to transfer learning by establishing equivalence of a recent transfer learning procedure to distillation. We then show experimentally on standard image datasets that Jacobian-based penalties improve distillation, robustness to noisy inputs, and transfer learning.
translated by 谷歌翻译
为了理解推动深度网络泛化的因素,我们考虑了最近提出的一些解释,包括基于规范的控制,清晰度和稳健性。我们研究这些措施如何确保一般化,强调规模归一化的重要性,并将锐度与PAC-Bayes理论联系起来。然后,我们研究了这些措施如何解释不同的观察现象。
translated by 谷歌翻译
如最近的研究所示,深度神经网络可以完美地拟合随机标记的数据,但对于保持数据的准确性非常差。这种现象表明交叉熵等损失函数不是一般化的可靠指标。这导致了关于如何从训练数据和网络参数预测一般化差距的关键问题。在本文中,我们提出了这样一个衡量标准,并对其如何预测泛化差距进行了广泛的实证研究。我们的测量基于边际分布的概念,即训练点到决策边界的距离。我们发现有必要在深层网络的多个层面上进行边际分布。在CIFAR-10和CIFAR-100数据集上,我们提出的度量与泛化差距密切相关。此外,我们发现以下其他因素非常重要:规范边际值以实现规模独立性,使用边际分布的特征而不仅仅是边界(最接近决策边界),以及在日志空间而不是线性空间中工作(有效地使用利润而不是总和)。我们的测量可以很容易地应用于具有任何架构的前馈深度网络,并且可以指向可以实现更好的一般化的新训练损失功能。
translated by 谷歌翻译
Deep neural nets with a large number of parameters are very powerful machine learning systems. However, overfitting is a serious problem in such networks. Large networks are also slow to use, making it difficult to deal with overfitting by combining the predictions of many different large neural nets at test time. Dropout is a technique for addressing this problem. The key idea is to randomly drop units (along with their connections) from the neural network during training. This prevents units from co-adapting too much. During training, dropout samples from an exponential number of different "thinned" networks. At test time, it is easy to approximate the effect of averaging the predictions of all these thinned networks by simply using a single unthinned network that has smaller weights. This significantly reduces overfitting and gives major improvements over other regularization methods. We show that dropout improves the performance of neural networks on supervised learning tasks in vision, speech recognition, document classification and computational biology, obtaining state-of-the-art results on many benchmark data sets.
translated by 谷歌翻译
Recently there has been a dramatic increase in the performance of recognition systems due to the introduction of deep architectures for representation learning and classification. However, the mathematical reasons for this success remain elusive. This tutorial will review recent work that aims to provide a mathematical justification for several properties of deep networks, such as global optimality, geometric stability, and invariance of the learned representations.
translated by 谷歌翻译
在实践中,经常发现大的过度参数化神经网络比它们的较小对应物更好地普遍化,这种观察似乎与功能复杂性的经典概念相冲突,这通常用于较小的模型。在这项工作中,我们通过对与输入扰动敏感性相关的复杂度的双重度量的广泛实证探索来研究复杂性和泛化之间的这种张力。我们的实验调查了数千个具有各种完全连接的体系结构,优化器和其他超参数的模型。作为四个不同的图像分类数据集。我们发现训练的神经网络对于训练数据流形附近的输入扰动更加鲁棒,如通过网络的输入 - 输出雅可比行列式的标准所测量的,并且它与广义化很好地相关。我们进一步确定与差的一般化相关的因素$ - $如全批次训练或使用随机标签$ - $对应于较低的稳健性,而与良好概括相关的因素$ - $如数据增加和ReLU非线性$ - $ giverise更强大的功能。最后,我们演示了输入 - 输出雅可比规范如何在个体测试点的水平上预测泛化。
translated by 谷歌翻译
Throughout this chapter, we provide theoretical insights into why and how deep learning can generalize well, despite its large capacity, complexity, possible algorithmic instability, nonrobustness, and sharp minima, responding to an open question in the literature. We also propose new open problems and discuss the limitations of our results.
translated by 谷歌翻译
深度神经网络(DNN)的正则化以提高其广泛化能力是重要且具有挑战性的。这一发展有利于DNN的理论基础,并促进其可用性与人工智能无关。在本文中,我们研究了Rademacher在改进DNN泛化方面的复杂性,并提出了根据局部Rademacher复杂性(LRC)的新的正则化器。虽然Rademachercomplexity作为功能类的无分布复杂性度量而众所周知,它有助于推动统计学习方法的泛化,但广泛的研究表明,LRC,其对应于受限制的函数类,在给定的训练样本的情况下导致更高的收敛速度和更好的泛化。我们基于LRC的正则化器是通过估计以DNN经验损失的最小化为中心的函数类的复杂性而开发的。对各种网络体系结构的实验证明了LRC正则化在改进泛化中的有效性。此外,我们的方法在CIFAR- $ 10 $数据集上具有最先进的结果,具有通过神经架构搜索找到的网络架构。
translated by 谷歌翻译