We study the training and generalization of deep neural networks (DNNs) in the overparameterized regime, where the network width (i.e., number of hidden nodes per layer) is much larger than the number of training data points. We show that, the expected 0-1 loss of a wide enough ReLU network trained with stochastic gradient descent (SGD) and random initialization can be bounded by the training loss of a random feature model induced by the network gradient at initialization, which we call a neural tangent random feature (NTRF) model. For data distributions that can be classified by NTRF model with sufficiently small error, our result yields a generalization error bound in the order of r Opn ´1{2 q that is independent of the network width. Our result is more general and sharper than many existing generalization error bounds for over-parameterized neural networks. In addition, we establish a strong connection between our generalization error bound and the neural tangent kernel (NTK) proposed in recent work.
translated by 谷歌翻译
最近关于深度学习的研究侧重于极端过度参数化的设置,并表明,当网络宽度大于训练样本大小的高度多项式$ N $和目标错误$ \ epsilon ^ {-1} $,由(随机)梯度下降学习的深度神经网络享受很好的优化和泛化保证。最近,表明,在训练数据的某些边缘假设下,PolyGarithic宽度条件足以使两层Relu网络收敛和概括(Ji和Telgarsky,2019)。但是,是否可以通过这种轻度过度参数化学习深度神经网络仍然是一个开放的问题。在这项工作中,我们肯定地回答了这个问题,并建立了由(随机)梯度下降所培训的深度Relu网络的更尖锐的学习保证。具体而言,在以前的工作中的某些假设下,我们的优化和泛化保证以$ N $和$ \ epsilon ^ { - 1} $持有网络宽度波动力算法。我们的结果推动了对更实际的环境的过度参数化深神经网络的研究。
translated by 谷歌翻译
Gradient descent finds a global minimum in training deep neural networks despite the objective function being non-convex. The current paper proves gradient descent achieves zero training loss in polynomial time for a deep overparameterized neural network with residual connections (ResNet). Our analysis relies on the particular structure of the Gram matrix induced by the neural network architecture. This structure allows us to show the Gram matrix is stable throughout the training process and this stability implies the global optimality of the gradient descent algorithm. We further extend our analysis to deep residual convolutional neural networks and obtain a similar convergence result.
translated by 谷歌翻译
The fundamental learning theory behind neural networks remains largely open. What classes of functions can neural networks actually learn? Why doesn't the trained network overfit when it is overparameterized?In this work, we prove that overparameterized neural networks can learn some notable concept classes, including two and three-layer networks with fewer parameters and smooth activations. Moreover, the learning can be simply done by SGD (stochastic gradient descent) or its variants in polynomial time using polynomially many samples. The sample complexity can also be almost independent of the number of parameters in the network.On the technique side, our analysis goes beyond the so-called NTK (neural tangent kernel) linearization of neural networks in prior works. We establish a new notion of quadratic approximation of the neural network (that can be viewed as a second-order variant of NTK), and connect it to the SGD theory of escaping saddle points.
translated by 谷歌翻译
It has been observed in practice that applying pruning-at-initialization methods to neural networks and training the sparsified networks can not only retain the testing performance of the original dense models, but also sometimes even slightly boost the generalization performance. Theoretical understanding for such experimental observations are yet to be developed. This work makes the first attempt to study how different pruning fractions affect the model's gradient descent dynamics and generalization. Specifically, this work considers a classification task for overparameterized two-layer neural networks, where the network is randomly pruned according to different rates at the initialization. It is shown that as long as the pruning fraction is below a certain threshold, gradient descent can drive the training loss toward zero and the network exhibits good generalization performance. More surprisingly, the generalization bound gets better as the pruning fraction gets larger. To complement this positive result, this work further shows a negative result: there exists a large pruning fraction such that while gradient descent is still able to drive the training loss toward zero (by memorizing noise), the generalization performance is no better than random guessing. This further suggests that pruning can change the feature learning process, which leads to the performance drop of the pruned neural network. Up to our knowledge, this is the \textbf{first} generalization result for pruned neural networks, suggesting that pruning can improve the neural network's generalization.
translated by 谷歌翻译
过度分辨率是指选择神经网络的宽度,使得学习算法可以在非凸训练中可被估计零损失的重要现象。现有理论建立了各种初始化策略,培训修改和宽度缩放等全局融合。特别地,最先进的结果要求宽度以二次逐步缩放,并在实践中使用的标准初始化策略下进行培训数据的数量,以获得最佳泛化性能。相比之下,最新的结果可以获得线性缩放,需要导致导致“懒惰训练”的初始化,或者仅训练单层。在这项工作中,我们提供了一个分析框架,使我们能够采用标准的初始化策略,可能避免懒惰的训练,并在基本浅色神经网络中同时培训所有层,同时获得网络宽度的理想子标缩放。我们通过Polyak-Lojasiewicz条件,平滑度和数据标准假设实现了Desiderata,并使用随机矩阵理论的工具。
translated by 谷歌翻译
现代神经网络通常以强烈的过度构造状态运行:它们包含许多参数,即使实际标签被纯粹随机的标签代替,它们也可以插入训练集。尽管如此,他们在看不见的数据上达到了良好的预测错误:插值训练集并不会导致巨大的概括错误。此外,过度散色化似乎是有益的,因为它简化了优化景观。在这里,我们在神经切线(NT)制度中的两层神经网络的背景下研究这些现象。我们考虑了一个简单的数据模型,以及各向同性协变量的矢量,$ d $尺寸和$ n $隐藏的神经元。我们假设样本量$ n $和尺寸$ d $都很大,并且它们在多项式上相关。我们的第一个主要结果是对过份术的经验NT内核的特征结构的特征。这种表征意味着必然的表明,经验NT内核的最低特征值在$ ND \ gg n $后立即从零界限,因此网络可以在同一制度中精确插值任意标签。我们的第二个主要结果是对NT Ridge回归的概括误差的表征,包括特殊情况,最小值-ULL_2 $ NORD插值。我们证明,一旦$ nd \ gg n $,测试误差就会被内核岭回归之一相对于无限宽度内核而近似。多项式脊回归的误差依次近似后者,从而通过与激活函数的高度组件相关的“自我诱导的”项增加了正则化参数。多项式程度取决于样本量和尺寸(尤其是$ \ log n/\ log d $)。
translated by 谷歌翻译
我们研究了张量张量的回归,其中的目标是将张量的响应与张量协变量与塔克等级参数张量/矩阵连接起来,而没有其内在等级的先验知识。我们提出了Riemannian梯度下降(RGD)和Riemannian Gauss-Newton(RGN)方法,并通过研究等级过度参数化的影响来应对未知等级的挑战。我们通过表明RGD和RGN分别线性地和四边形地收敛到两个等级的统计最佳估计值,从而为一般的张量调节回归提供了第一个收敛保证。我们的理论揭示了一种有趣的现象:Riemannian优化方法自然地适应了过度参数化,而无需修改其实施。我们还为低度多项式框架下的标量调整回归中的统计计算差距提供了第一个严格的证据。我们的理论证明了``统计计算差距的祝福''现象:在张张量的张量回归中,对于三个或更高的张紧器,在张张量的张量回归中,计算所需的样本量与中等级别相匹配的计算量相匹配。在考虑计算可行的估计器时,虽然矩阵设置没有此类好处。这表明中等等级的过度参数化本质上是``在张量调整的样本量三分或更高的样本大小上,三分或更高的样本量。最后,我们进行仿真研究以显示我们提出的方法的优势并证实我们的理论发现。
translated by 谷歌翻译
Recent works have cast some light on the mystery of why deep nets fit any data and generalize despite being very overparametrized. This paper analyzes training and generalization for a simple 2-layer ReLU net with random initialization, and provides the following improvements over recent works: (i) Using a tighter characterization of training speed than recent papers, an explanation for why training a neural net with random labels leads to slower training, as originally observed in [Zhang et al. ICLR'17]. (ii) Generalization bound independent of network size, using a data-dependent complexity measure. Our measure distinguishes clearly between random labels and true labels on MNIST and CIFAR, as shown by experiments. Moreover, recent papers require sample complexity to increase (slowly) with the size, while our sample complexity is completely independent of the network size. (iii) Learnability of a broad class of smooth functions by 2-layer ReLU nets trained via gradient descent.The key idea is to track dynamics of training and generalization via properties of a related kernel.
translated by 谷歌翻译
最近的一项工作已经通过神经切线核(NTK)分析了深神经网络的理论特性。特别是,NTK的最小特征值与记忆能力,梯度下降算法的全球收敛性和深网的概括有关。但是,现有结果要么在两层设置中提供边界,要么假设对于多层网络,将NTK矩阵的频谱从0界限为界限。在本文中,我们在无限宽度和有限宽度的限制情况下,在最小的ntk矩阵的最小特征值上提供了紧密的界限。在有限宽度的设置中,我们认为的网络体系结构相当笼统:我们需要大致订购$ n $神经元的宽层,$ n $是数据示例的数量;剩余层宽度的缩放是任意的(取决于对数因素)。为了获得我们的结果,我们分析了各种量的独立兴趣:我们对隐藏特征矩阵的最小奇异值以及输入输出特征图的Lipschitz常数上的上限给出了下限。
translated by 谷歌翻译
为了评估泛化,机器学习科学家通常(i)涉及泛化差距,然后(训练后)插入经验风险,以获得真正风险的界限;或(ii)验证持续数据验证。但是,(i)通常会给过度分开的模型产生脏污保证。此外,(ii)缩小训练集及其保证侵蚀,每次重复抵押邮件集。在本文中,我们介绍了一种利用未标记数据来产生泛化界限的方法。通过随机标记的新鲜例子增强我们(标签)培训,我们以标准方式训练。每当分类器在清洁数据上实现低误差和嘈杂数据的高误差时,我们的绑定都会为真正风险提供紧密的上限。我们证明我们的界限有效期为0-1经验风险最小化,并通过梯度下降训练的线性分类器。由于早期学习现象,我们的方法与深度学习结合尤其有用,由此网络在嘈杂的标签前拟合真正的标签,但需要一个直观的假设。在经验上,在规范计算机视觉和NLP任务上,我们的绑定提供了不受空广的泛化保证,可密切跟踪实际性能。这项工作为从业者提供了一个选择,即使在未经看跌的数据不可用的情况下也能够认证深网络的泛化,并为随机标签噪声和泛化之间的关系提供理论洞察力。
translated by 谷歌翻译
尽管在机器学习中无处不在使用随机优化算法,但这些算法的确切影响及其对现实的非凸位设置中的概括性能的动态仍然知之甚少。尽管最近的工作揭示了随机优化中的概括与重尾行为之间的联系,但这项工作主要依赖于连续的近似值。对于原始离散时间迭代的严格处理尚未进行。为了弥合这一差距,我们提出了新颖的界限,将概括与在离散时间和连续时间设置中围绕局部最小值相关联的过渡内核的下尾指数。为了实现这一目标,我们首先证明了根据应用于优化器轨迹的著名的fernique-talagrand功能绑定的数据和算法依赖性的概括。然后,我们通过利用随机优化器的马尔可夫结构,并根据其(数据依赖性)过渡内核来得出界限来擅长于此结果。我们通过各种神经网络的经验结果来支持我们的理论,显示了概括误差与较低尾声之间的相关性。
translated by 谷歌翻译
现代神经网络通常具有很大的表现力,并且可以接受训练以使培训数据过高,同时仍能达到良好的测试性能。这种现象被称为“良性过度拟合”。最近,从理论角度出现了一系列研究“良性过度拟合”的作品。但是,它们仅限于线性模型或内核/随机特征模型,并且仍然缺乏关于何时以及如何在神经网络中发生过度拟合的理论理解。在本文中,我们研究了训练两层卷积神经网络(CNN)的良性过度拟合现象。我们表明,当信噪比满足一定条件时,通过梯度下降训练的两层CNN可以实现任意小的训练和测试损失。另一方面,当这种情况无法成立时,过度拟合就会有害,并且获得的CNN只能实现恒定的测试损失。这些共同证明了由信噪比驱动的良性过度拟合和有害过度拟合之间的急剧过渡。据我们所知,这是第一部精确地表征良性过度拟合在训练卷积神经网络中的条件的工作。
translated by 谷歌翻译
神经体系结构搜索(NAS)促进了神经体系结构的自动发现,从而实现了图像识别的最新精度。尽管NAS取得了进展,但到目前为止,NAS对理论保证几乎没有关注。在这项工作中,我们研究了NAS在统一框架下的概括属性,从而实现(深)层跳过连接搜索和激活功能搜索。为此,我们从搜索空间(包括混合的激活功能,完全连接和残留的神经网络)的(包括)有限宽度方向上得出了神经切线核的最小特征值的下(和上)边界。由于在统一框架下的各种体系结构和激活功能的耦合,我们的分析是不平凡的。然后,我们利用特征值边界在随机梯度下降训练中建立NAS的概括误差界。重要的是,我们从理论上和实验上展示了衍生结果如何指导NAS,即使在没有培训的情况下,即使在没有培训的情况下,也可以根据我们的理论进行无训练的算法。因此,我们的数值验证阐明了NAS计算有效方法的设计。
translated by 谷歌翻译
最近的作品证明了过度参数化学习中的双重下降现象:随着模型参数的数量的增加,多余的风险具有$ \ mathsf {u} $ - 在开始时形状,然后在模型高度过度参数化时再次减少。尽管最近在不同的环境(例如线性模型,随机特征模型和内核方法)下进行了研究,但在理论上尚未完全理解这种现象。在本文中,我们考虑了由两种随机特征组成的双随机特征模型(DRFM),并研究DRFM在脊回归中实现的多余风险。我们计算高维框架下的多余风险的确切限制,在这种框架上,训练样本量,数据尺寸和随机特征的维度往往会成比例地无限。根据计算,我们证明DRFM的风险曲线可以表现出三重下降。然后,我们提供三重下降现象的解释,并讨论随机特征维度,正则化参数和信噪比比率如何控制DRFMS风险曲线的形状。最后,我们将研究扩展到多个随机功能模型(MRFM),并表明具有$ K $类型的随机功能的MRFM可能会显示出$(K+1)$ - 折叠。我们的分析指出,具有特定数量下降的风险曲线通常在基于特征的回归中存在。另一个有趣的发现是,当学习神经网络在“神经切线内核”制度中时,我们的结果可以恢复文献中报告的风险峰值位置。
translated by 谷歌翻译
我们研究了私人(DP)随机优化(SO),其中包含非Lipschitz连续的离群值和损失函数的数据。迄今为止,DP上的绝大多数工作,因此假设损失是Lipschitz(即随机梯度均匀边界),并且它们的误差界限与损失的Lipschitz参数。尽管此假设很方便,但通常是不现实的:在需要隐私的许多实际问题中,数据可能包含异常值或无限制,导致某些随机梯度具有较大的规范。在这种情况下,Lipschitz参数可能过于较大,从而导致空虚的多余风险范围。因此,在最近的工作[WXDX20,KLZ22]上,我们做出了较弱的假设,即随机梯度已经限制了$ k $ - them-th Moments for Boy $ k \ geq 2 $。与DP Lipschitz上的作品相比,我们的多余风险量表与$ k $ 3的时刻限制,而不是损失的Lipschitz参数,从而在存在异常值的情况下允许速度明显更快。对于凸面和强烈凸出损失函数,我们提供了第一个渐近最佳的过量风险范围(最多可对数因素)。此外,与先前的作品[WXDX20,KLZ22]相反,我们的边界不需要损失函数是可区分的/平滑的。我们还设计了一种加速算法,该算法在线性时间内运行并提高了(与先前的工作相比),并且几乎最佳的过量风险因平滑损失而产生。此外,我们的工作是第一个解决非convex non-lipschitz损失功能的工作,以满足近端不平等现象。这涵盖了一些类别的神经网,以及其他实用模型。我们的近端PL算法几乎具有最佳的多余风险,几乎与强凸的下限相匹配。最后,我们提供了算法的洗牌DP变化,这些变化不需要受信任的策展人(例如,用于分布式学习)。
translated by 谷歌翻译
通过梯度流优化平均平衡误差,研究了功能空间中神经网络的动态。我们认为,在underParameterized制度中,网络了解由与其特征值对应的率的神经切线内核(NTK)确定的整体运算符$ t_ {k ^ \ infty} $的特征功能。例如,对于SPENTE $ S ^ {D-1} $和旋转不变的权重分配的均匀分布式数据,$ t_ {k ^ \ infty} $的特征函数是球形谐波。我们的结果可以理解为描述interparameterized制度中的光谱偏压。证据使用“阻尼偏差”的概念,其中NTK物质对具有由于阻尼因子的发生而具有大特征值的特征的偏差。除了下公共条例的制度之外,阻尼偏差可用于跟踪过度分辨率设置中经验风险的动态,允许我们在文献中延长某些结果。我们得出结论,阻尼偏差在优化平方误差时提供了动态的简单和统一的视角。
translated by 谷歌翻译
The estimation of cumulative distribution functions (CDFs) is an important learning task with a great variety of downstream applications, such as risk assessments in predictions and decision making. In this paper, we study functional regression of contextual CDFs where each data point is sampled from a linear combination of context dependent CDF basis functions. We propose functional ridge-regression-based estimation methods that estimate CDFs accurately everywhere. In particular, given $n$ samples with $d$ basis functions, we show estimation error upper bounds of $\widetilde{O}(\sqrt{d/n})$ for fixed design, random design, and adversarial context cases. We also derive matching information theoretic lower bounds, establishing minimax optimality for CDF functional regression. Furthermore, we remove the burn-in time in the random design setting using an alternative penalized estimator. Then, we consider agnostic settings where there is a mismatch in the data generation process. We characterize the error of the proposed estimators in terms of the mismatched error, and show that the estimators are well-behaved under model mismatch. Finally, to complete our study, we formalize infinite dimensional models where the parameter space is an infinite dimensional Hilbert space, and establish self-normalized estimation error upper bounds for this setting.
translated by 谷歌翻译
了解现代机器学习设置中的概括一直是统计学习理论的主要挑战之一。在这种情况下,近年来见证了各种泛化范围的发展,表明了不同的复杂性概念,例如数据样本和算法输出之间的相互信息,假设空间的可压缩性以及假设空间的分形维度。尽管这些界限从不同角度照亮了手头的问题,但它们建议的复杂性概念似乎似乎无关,从而限制了它们的高级影响。在这项研究中,我们通过速率理论的镜头证明了新的概括界定,并明确地将相互信息,可压缩性和分形维度的概念联系起来。我们的方法包括(i)通过使用源编码概念来定义可压缩性的广义概念,(ii)表明“压缩错误率”可以与预期和高概率相关。我们表明,在“无损压缩”设置中,我们恢复并改善了现有的基于信息的界限,而“有损压缩”方案使我们能够将概括与速率延伸维度联系起来,这是分形维度的特定概念。我们的结果为概括带来了更统一的观点,并打开了几个未来的研究方向。
translated by 谷歌翻译
In non-smooth stochastic optimization, we establish the non-convergence of the stochastic subgradient descent (SGD) to the critical points recently called active strict saddles by Davis and Drusvyatskiy. Such points lie on a manifold $M$ where the function $f$ has a direction of second-order negative curvature. Off this manifold, the norm of the Clarke subdifferential of $f$ is lower-bounded. We require two conditions on $f$. The first assumption is a Verdier stratification condition, which is a refinement of the popular Whitney stratification. It allows us to establish a reinforced version of the projection formula of Bolte \emph{et.al.} for Whitney stratifiable functions, and which is of independent interest. The second assumption, termed the angle condition, allows to control the distance of the iterates to $M$. When $f$ is weakly convex, our assumptions are generic. Consequently, generically in the class of definable weakly convex functions, the SGD converges to a local minimizer.
translated by 谷歌翻译