微调是深度学习的常见做法,使用相对较少的训练数据来实现卓越的普遍性导致下游任务。虽然在实践中广泛使用,但它缺乏强烈的理论理解。我们分析了若干架构中线性教师的回归的本方案的样本复杂性。直观地,微调的成功取决于源任务与目标任务之间的相似性,但是测量它是非微不足道的。我们表明相关措施考虑了源任务,目标任务和目标数据的协方差结构之间的关系。在线性回归的设置中,我们表明,在现实的情况下,当上述措施低时,在实际设置下,显着的样本复杂性降低是合理的。对于深线性回归,我们在用预制权重初始化网络时,我们提出了关于基于梯度训练的感应偏差的新颖结果。使用此结果,我们显示此设置的相似度量也受网络深度的影响。我们进一步在浅relu模型上显示结果,并分析了在源和目标任务中的样本复杂性的依赖性。我们经验证明了我们对合成和现实数据的结果。
translated by 谷歌翻译
现代神经网络通常以强烈的过度构造状态运行:它们包含许多参数,即使实际标签被纯粹随机的标签代替,它们也可以插入训练集。尽管如此,他们在看不见的数据上达到了良好的预测错误:插值训练集并不会导致巨大的概括错误。此外,过度散色化似乎是有益的,因为它简化了优化景观。在这里,我们在神经切线(NT)制度中的两层神经网络的背景下研究这些现象。我们考虑了一个简单的数据模型,以及各向同性协变量的矢量,$ d $尺寸和$ n $隐藏的神经元。我们假设样本量$ n $和尺寸$ d $都很大,并且它们在多项式上相关。我们的第一个主要结果是对过份术的经验NT内核的特征结构的特征。这种表征意味着必然的表明,经验NT内核的最低特征值在$ ND \ gg n $后立即从零界限,因此网络可以在同一制度中精确插值任意标签。我们的第二个主要结果是对NT Ridge回归的概括误差的表征,包括特殊情况,最小值-ULL_2 $ NORD插值。我们证明,一旦$ nd \ gg n $,测试误差就会被内核岭回归之一相对于无限宽度内核而近似。多项式脊回归的误差依次近似后者,从而通过与激活函数的高度组件相关的“自我诱导的”项增加了正则化参数。多项式程度取决于样本量和尺寸(尤其是$ \ log n/\ log d $)。
translated by 谷歌翻译
重要的理论工作已经确定,在特定的制度中,通过梯度下降训练的神经网络像内核方法一样行为。但是,在实践中,众所周知,神经网络非常优于其相关内核。在这项工作中,我们通过证明有一大批功能可以通过内核方法有效地学习,但是可以通过学习表示与相关的学习表示,可以轻松地学习这一差距。到目标任务。我们还证明了这些表示允许有效的转移学习,这在内核制度中是不可能的。具体而言,我们考虑学习多项式的问题,该问题仅取决于少数相关的方向,即$ f^\ star(x)= g(ux)$ withy $ u:\ r^d \ to \ r^r $ d \ gg r $。当$ f^\ star $的度数为$ p $时,众所周知,在内核制度中学习$ f^\ star $是必要的。我们的主要结果是,梯度下降学会了数据的表示,这仅取决于与$ f^\ star $相关的指示。这导致改进的样本复杂性为$ n \ asymp d^2 r + dr^p $。此外,在转移学习设置中,源和目标域中的数据分布共享相同的表示$ u $,但具有不同的多项式头部,我们表明,转移学习的流行启发式启发式启发式具有目标样本复杂性,独立于$ d $。
translated by 谷歌翻译
深度学习理论的最新目标是确定神经网络如何逃脱“懒惰训练”或神经切线内核(NTK)制度,在该制度中,网络与初始化时的一阶泰勒扩展相结合。尽管NTK是最大程度地用于学习密集多项式的最佳选择(Ghorbani等,2021),但它无法学习特征,因此对于学习包括稀疏多项式(稀疏多项式)的许多类别的功能的样本复杂性较差。因此,最近的工作旨在确定基于梯度的算法比NTK更好地概括的设置。一个这样的例子是Bai和Lee(2020)的“ Quadntk”方法,该方法分析了泰勒膨胀中的二阶项。 Bai和Lee(2020)表明,二阶项可以有效地学习稀疏的多项式。但是,它牺牲了学习一般密集多项式的能力。在本文中,我们分析了两层神经网络上的梯度下降如何通过利用NTK(Montanari和Zhong,2020)的光谱表征并在Quadntk方法上构建来逃脱NTK制度。我们首先扩展了光谱分析,以确定参数空间中的“良好”方向,在该空间中我们可以在不损害概括的情况下移动。接下来,我们表明一个宽的两层神经网络可以共同使用NTK和QUADNTK来适合由密集的低度项和稀疏高度术语组成的目标功能 - NTK和Quadntk无法在他们自己的。最后,我们构建了一个正常化程序,该正规化器鼓励我们的参数向量以“良好”的方向移动,并表明正规化损失上的梯度下降将融合到全局最小化器,这也有较低的测试误差。这产生了端到端的融合和概括保证,并自行对NTK和Quadntk进行了可证明的样本复杂性的改善。
translated by 谷歌翻译
过度分化的深网络的泛化神秘具有有动力的努力,了解梯度下降(GD)如何收敛到概括井的低损耗解决方案。现实生活中的神经网络从小随机值初始化,并以分类的“懒惰”或“懒惰”或“NTK”的训练训练,分析更成功,以及最近的结果序列(Lyu和Li ,2020年; Chizat和Bach,2020; Ji和Telgarsky,2020)提供了理论证据,即GD可以收敛到“Max-ramin”解决方案,其零损失可能呈现良好。但是,仅在某些环境中证明了余量的全球最优性,其中神经网络无限或呈指数级宽。目前的纸张能够为具有梯度流动训练的两层泄漏的Relu网,无论宽度如何,都能为具有梯度流动的双层泄漏的Relu网建立这种全局最优性。分析还为最近的经验研究结果(Kalimeris等,2019)给出了一些理论上的理由,就GD的所谓简单的偏见为线性或其他“简单”的解决方案,特别是在训练中。在悲观方面,该论文表明这种结果是脆弱的。简单的数据操作可以使梯度流量会聚到具有次优裕度的线性分类器。
translated by 谷歌翻译
Recent works have cast some light on the mystery of why deep nets fit any data and generalize despite being very overparametrized. This paper analyzes training and generalization for a simple 2-layer ReLU net with random initialization, and provides the following improvements over recent works: (i) Using a tighter characterization of training speed than recent papers, an explanation for why training a neural net with random labels leads to slower training, as originally observed in [Zhang et al. ICLR'17]. (ii) Generalization bound independent of network size, using a data-dependent complexity measure. Our measure distinguishes clearly between random labels and true labels on MNIST and CIFAR, as shown by experiments. Moreover, recent papers require sample complexity to increase (slowly) with the size, while our sample complexity is completely independent of the network size. (iii) Learnability of a broad class of smooth functions by 2-layer ReLU nets trained via gradient descent.The key idea is to track dynamics of training and generalization via properties of a related kernel.
translated by 谷歌翻译
机器学习理论中的主要开放问题之一是表征过度参数化的政权中的概括,在该制度中,大多数传统的概括范围变得不一致。在许多情况下,它们的失败可以归因于掩盖训练算法与基础数据分布之间的关键相互作用。为了解决这一缺点,我们提出了一个名为兼容性的概念,该概念以与数据相关的和算法相关的方式定量地表征了概括。通过考虑整个训练轨迹并专注于早期迭代的迭代术,兼容性充分利用了算法信息,因此可以提供更好的概括保证。我们通过理论上研究与梯度下降过度参数化的线性回归设置的兼容性来验证这一点。具体而言,我们执行与数据相关的轨迹分析,并在这种设置下得出足够的兼容性条件。我们的理论结果表明,从兼容性的意义上讲,概括性对问题实例的限制明显弱,而不是上次迭代分析。
translated by 谷歌翻译
最近以来,在理解与overparameterized模型非凸损失基于梯度的方法收敛性和泛化显著的理论进展。尽管如此,优化和推广,尤其是小的随机初始化的关键作用的许多方面都没有完全理解。在本文中,我们迈出玄机通过证明小的随机初始化这个角色的步骤,然后通过梯度下降的行为类似于流行谱方法的几个迭代。我们还表明,从小型随机初始化,这可证明是用于overparameterized车型更加突出这种隐含的光谱偏差,也使梯度下降迭代在一个特定的轨迹走向,不仅是全局最优的,但也很好期广义的解决方案。具体而言,我们专注于通过天然非凸制剂重构从几个测量值的低秩矩阵的问题。在该设置中,我们表明,从小的随机初始化的梯度下降迭代的轨迹可以近似分解为三个阶段:(Ⅰ)的光谱或对准阶段,其中,我们表明,该迭代具有一个隐含的光谱偏置类似于频谱初始化允许我们表明,在该阶段中进行迭代,并且下面的低秩矩阵的列空间被充分对准的端部,(II)一鞍回避/细化阶段,我们表明,该梯度的轨迹从迭代移动离开某些简并鞍点,和(III)的本地细化阶段,其中,我们表明,避免了鞍座后的迭代快速收敛到底层低秩矩阵。底层我们的分析是,可能有超出低等级的重建计算问题影响overparameterized非凸优化方案的分析见解。
translated by 谷歌翻译
In many modern applications of deep learning the neural network has many more parameters than the data points used for its training. Motivated by those practices, a large body of recent theoretical research has been devoted to studying overparameterized models. One of the central phenomena in this regime is the ability of the model to interpolate noisy data, but still have test error lower than the amount of noise in that data. arXiv:1906.11300 characterized for which covariance structure of the data such a phenomenon can happen in linear regression if one considers the interpolating solution with minimum $\ell_2$-norm and the data has independent components: they gave a sharp bound on the variance term and showed that it can be small if and only if the data covariance has high effective rank in a subspace of small co-dimension. We strengthen and complete their results by eliminating the independence assumption and providing sharp bounds for the bias term. Thus, our results apply in a much more general setting than those of arXiv:1906.11300, e.g., kernel regression, and not only characterize how the noise is damped but also which part of the true signal is learned. Moreover, we extend the result to the setting of ridge regression, which allows us to explain another interesting phenomenon: we give general sufficient conditions under which the optimal regularization is negative.
translated by 谷歌翻译
The fundamental learning theory behind neural networks remains largely open. What classes of functions can neural networks actually learn? Why doesn't the trained network overfit when it is overparameterized?In this work, we prove that overparameterized neural networks can learn some notable concept classes, including two and three-layer networks with fewer parameters and smooth activations. Moreover, the learning can be simply done by SGD (stochastic gradient descent) or its variants in polynomial time using polynomially many samples. The sample complexity can also be almost independent of the number of parameters in the network.On the technique side, our analysis goes beyond the so-called NTK (neural tangent kernel) linearization of neural networks in prior works. We establish a new notion of quadratic approximation of the neural network (that can be viewed as a second-order variant of NTK), and connect it to the SGD theory of escaping saddle points.
translated by 谷歌翻译
我们束缚了使用梯度流训练的深度线性网络的多余风险。在先前用于建立最小$ \ ell_2 $ -norm interpolant的风险范围的设置中,我们表明随机初始化的深线性网络可以紧密近似甚至匹配已知的范围,即最小$ \ ell_2 $ - norm interpolant。我们的分析还表明,插值深线性模型具有与最小$ \ ell_2 $ -Norm解决方案完全相同的条件差异。由于噪声仅通过条件差异影响多余的风险,因此这意味着深度并不能提高算法“隐藏噪声”的能力。我们的模拟验证了我们边界的各个方面反映了简单数据分布的典型行为。我们还发现,在具有Relu网络的模拟中也可以看到类似的现象,尽管情况更加细微。
translated by 谷歌翻译
神经网络模型的最新成功揭示了一种令人惊讶的统计现象:完全拟合噪声数据的统计模型可以很好地推广到看不见的测试数据。了解$ \ textit {良性过拟合} $的这种现象吸引了强烈的理论和经验研究。在本文中,我们考虑插值两层线性神经网络在平方损失上梯度流训练,当协变量满足亚高斯和抗浓度的特性时,在平方损耗上训练,并在多余的风险上获得界限,并且噪声是独立和次级高斯的。。通过利用最新的结果来表征该估计器的隐性偏见,我们的边界强调了初始化质量的作用以及数据协方差矩阵在实现低过量风险中的特性。
translated by 谷歌翻译
Cohen等人的深度学习实验。 [2021]使用确定性梯度下降(GD)显示学习率(LR)和清晰度(即Hessian最大的特征值)的稳定边缘(EOS)阶段不再像传统优化一样行为。清晰度稳定在$ 2/$ LR的左右,并且在迭代中损失不断上下,但仍有整体下降趋势。当前的论文数学分析了EOS阶段中隐式正则化的新机制,因此,由于非平滑损失景观而导致的GD更新沿着最小损失的多种流量进行了一些确定性流程发展。这与许多先前关于隐式偏差依靠无限更新或梯度中的噪声的结果相反。正式地,对于具有某些规律性条件的任何平滑函数$ l $,对于(1)标准化的GD,即具有不同的lr $ \ eta_t = \ frac {\ eta} {||的GD证明了此效果。 \ nabla l(x(t))||} $和损失$ l $; (2)具有常数LR和损失$ \ sqrt {l- \ min_x l(x)} $的GD。两者都可以证明进入稳定性的边缘,在歧管上相关的流量最小化$ \ lambda_ {1}(\ nabla^2 l)$。一项实验研究证实了上述理论结果。
translated by 谷歌翻译
我们证明了由例如He等人提出的广泛使用的方法。(2015年)并使用梯度下降对最小二乘损失进行训练并不普遍。具体而言,我们描述了一大批一维数据生成分布,较高的概率下降只会发现优化景观的局部最小值不好,因为它无法将其偏离偏差远离其初始化,以零移动。。事实证明,在这些情况下,即使目标函数是非线性的,发现的网络也基本执行线性回归。我们进一步提供了数值证据,表明在实际情况下,对于某些多维分布而发生这种情况,并且随机梯度下降表现出相似的行为。我们还提供了有关初始化和优化器的选择如何影响这种行为的经验结果。
translated by 谷歌翻译
我们考虑与高斯数据的高维线性回归中的插值学习,并在类高斯宽度方面证明了任意假设类别中的内插器的泛化误差。将通用绑定到欧几里德常规球恢复了Bartlett等人的一致性结果。(2020)对于最小规范内插器,并确认周等人的预测。(2020)在高斯数据的特殊情况下,对于近乎最小常态的内插器。我们通过将其应用于单位来证明所界限的一般性,从而获得最小L1-NORM Interpoolator(基础追踪)的新型一致性结果。我们的结果表明,基于规范的泛化界限如何解释并用于分析良性过度装备,至少在某些设置中。
translated by 谷歌翻译
最近的发现(例如ARXIV:2103.00065)表明,通过全批梯度下降训练的现代神经网络通常进入一个称为稳定边缘(EOS)的政权。在此制度中,清晰度(即最大的Hessian特征值)首先增加到值2/(步长尺寸)(渐进锐化阶段),然后在该值(EOS相)周围振荡。本文旨在分析沿优化轨迹的GD动力学和清晰度。我们的分析自然将GD轨迹分为四个阶段,具体取决于清晰度的变化。从经验上,我们将输出层重量的规范视为清晰动力学的有趣指标。基于这一经验观察,我们尝试从理论和经验上解释导致EOS每个阶段清晰度变化的各种关键量的动力学。此外,基于某些假设,我们提供了两层完全连接的线性神经网络中EOS制度的清晰度行为的理论证明。我们还讨论了其他一些经验发现以及我们的理论结果的局限性。
translated by 谷歌翻译
The phenomenon of benign overfitting is one of the key mysteries uncovered by deep learning methodology: deep neural networks seem to predict well, even with a perfect fit to noisy training data. Motivated by this phenomenon, we consider when a perfect fit to training data in linear regression is compatible with accurate prediction. We give a characterization of linear regression problems for which the minimum norm interpolating prediction rule has near-optimal prediction accuracy. The characterization is in terms of two notions of the effective rank of the data covariance. It shows that overparameterization is essential for benign overfitting in this setting: the number of directions in parameter space that are unimportant for prediction must significantly exceed the sample size. By studying examples of data covariance properties that this characterization shows are required for benign overfitting, we find an important role for finite-dimensional data: the accuracy of the minimum norm interpolating prediction rule approaches the best possible accuracy for a much narrower range of properties of the data distribution when the data lies in an infinite dimensional space versus when the data lies in a finite dimensional space whose dimension grows faster than the sample size.
translated by 谷歌翻译
Autoencoders are a popular model in many branches of machine learning and lossy data compression. However, their fundamental limits, the performance of gradient methods and the features learnt during optimization remain poorly understood, even in the two-layer setting. In fact, earlier work has considered either linear autoencoders or specific training regimes (leading to vanishing or diverging compression rates). Our paper addresses this gap by focusing on non-linear two-layer autoencoders trained in the challenging proportional regime in which the input dimension scales linearly with the size of the representation. Our results characterize the minimizers of the population risk, and show that such minimizers are achieved by gradient methods; their structure is also unveiled, thus leading to a concise description of the features obtained via training. For the special case of a sign activation function, our analysis establishes the fundamental limits for the lossy compression of Gaussian sources via (shallow) autoencoders. Finally, while the results are proved for Gaussian data, numerical simulations on standard datasets display the universality of the theoretical predictions.
translated by 谷歌翻译
已知神经网络对对抗性例子高度敏感。这些可能是由于不同的因素,例如随机初始化或学习问题中的虚假相关性。为了更好地理解这些因素,我们提供了对不同场景中对抗性鲁棒性的精确研究,从初始化到不同制度的培训结束以及中间场景,由于“懒惰”培训,初始化仍然起着作用。我们考虑具有二次靶标和无限样品的高维度中的过度参数化网络。我们的分析使我们能够确定近似(通过测试错误测量)和鲁棒性之间的新权衡,从而在测试误差改善时只能变得更糟,反之亦然。我们还展示了由于不当缩放的随机初始化,线性化的懒惰训练机制如何使鲁棒性恶化。通过数值实验说明了我们的理论结果。
translated by 谷歌翻译
在深度学习中的优化分析是连续的,专注于(变体)梯度流动,或离散,直接处理(变体)梯度下降。梯度流程可符合理论分析,但是风格化并忽略计算效率。它代表梯度下降的程度是深度学习理论的一个开放问题。目前的论文研究了这个问题。将梯度下降视为梯度流量初始值问题的近似数值问题,发现近似程度取决于梯度流动轨迹周围的曲率。然后,我们表明,在具有均匀激活的深度神经网络中,梯度流动轨迹享有有利的曲率,表明它们通过梯度下降近似地近似。该发现允许我们将深度线性神经网络的梯度流分析转换为保证梯度下降,其几乎肯定会在随机初始化下有效地收敛到全局最小值。实验表明,在简单的深度神经网络中,具有传统步长的梯度下降确实接近梯度流。我们假设梯度流动理论将解开深入学习背后的奥秘。
translated by 谷歌翻译