过度参数化的神经网络的实际成功促进了最近对插值方法的科学研究,这些研究非常适合其训练数据。如果没有灾难性的测试表现,包括神经网络在内的某些插值方法(包括神经网络)可以符合嘈杂的训练数据,这是违反统计学习理论的标准直觉的。为了解释这一点,最近的一系列工作研究了$ \ textit {良性过拟合} $,这是一种现象,其中一些插值方法即使在存在噪音的情况下也接近了贝叶斯的最佳性。在这项工作中,我们认为,虽然良性过度拟合既具有启发性和富有成效的研究在测试时间的风险,这意味着这些模型既不是良性也不是灾难性的,而是属于中间状态。我们称此中级制度$ \ textit {perked forporting} $,我们启动其系统研究。我们首先在内核(Ridge)回归(KR)的背景下探索这种现象,通过在脊参数和核特征光谱上获得条件,KR在这些条件下表现出三种行为。我们发现,具有PowerLaw光谱的内核,包括Laplace内核和Relu神经切线内核,表现出了过度拟合的。然后,我们通过分类法的镜头从经验上研究深度神经网络,并发现接受插值训练的人是脾气暴躁的,而那些训练的人则是良性的。我们希望我们的工作能够使人们对现代学习过度拟合的过度理解。
translated by 谷歌翻译
机器学习理论中的主要开放问题之一是表征过度参数化的政权中的概括,在该制度中,大多数传统的概括范围变得不一致。在许多情况下,它们的失败可以归因于掩盖训练算法与基础数据分布之间的关键相互作用。为了解决这一缺点,我们提出了一个名为兼容性的概念,该概念以与数据相关的和算法相关的方式定量地表征了概括。通过考虑整个训练轨迹并专注于早期迭代的迭代术,兼容性充分利用了算法信息,因此可以提供更好的概括保证。我们通过理论上研究与梯度下降过度参数化的线性回归设置的兼容性来验证这一点。具体而言,我们执行与数据相关的轨迹分析,并在这种设置下得出足够的兼容性条件。我们的理论结果表明,从兼容性的意义上讲,概括性对问题实例的限制明显弱,而不是上次迭代分析。
translated by 谷歌翻译
强大的机器学习模型的开发中的一个重要障碍是协变量的转变,当训练和测试集的输入分布时发生的分配换档形式在条件标签分布保持不变时发生。尽管现实世界应用的协变量转变普遍存在,但在现代机器学习背景下的理论理解仍然缺乏。在这项工作中,我们检查协变量的随机特征回归的精确高尺度渐近性,并在该设置中提出了限制测试误差,偏差和方差的精确表征。我们的结果激发了一种自然部分秩序,通过协变速转移,提供足够的条件来确定何时何时损害(甚至有助于)测试性能。我们发现,过度分辨率模型表现出增强的协会转变的鲁棒性,为这种有趣现象提供了第一个理论解释之一。此外,我们的分析揭示了分销和分发外概率性能之间的精确线性关系,为这一令人惊讶的近期实证观察提供了解释。
translated by 谷歌翻译
我们证明了由例如He等人提出的广泛使用的方法。(2015年)并使用梯度下降对最小二乘损失进行训练并不普遍。具体而言,我们描述了一大批一维数据生成分布,较高的概率下降只会发现优化景观的局部最小值不好,因为它无法将其偏离偏差远离其初始化,以零移动。。事实证明,在这些情况下,即使目标函数是非线性的,发现的网络也基本执行线性回归。我们进一步提供了数值证据,表明在实际情况下,对于某些多维分布而发生这种情况,并且随机梯度下降表现出相似的行为。我们还提供了有关初始化和优化器的选择如何影响这种行为的经验结果。
translated by 谷歌翻译
Learning curves provide insight into the dependence of a learner's generalization performance on the training set size. This important tool can be used for model selection, to predict the effect of more training data, and to reduce the computational complexity of model training and hyperparameter tuning. This review recounts the origins of the term, provides a formal definition of the learning curve, and briefly covers basics such as its estimation. Our main contribution is a comprehensive overview of the literature regarding the shape of learning curves. We discuss empirical and theoretical evidence that supports well-behaved curves that often have the shape of a power law or an exponential. We consider the learning curves of Gaussian processes, the complex shapes they can display, and the factors influencing them. We draw specific attention to examples of learning curves that are ill-behaved, showing worse learning performance with more training data. To wrap up, we point out various open problems that warrant deeper empirical and theoretical investigation. All in all, our review underscores that learning curves are surprisingly diverse and no universal model can be identified.
translated by 谷歌翻译
许多最近的作品表明,过度分辨率隐含地降低了MIN-NORM Interpolator和Max-Maxifiers的方差。这些调查结果表明,RIDGE正则化在高维度下具有消失的益处。我们通过表明,即使在没有噪声的情况下,避免通过脊正则化的插值可以显着提高泛化。我们证明了这种现象,用于线性回归和分类的强大风险,因此提供了强大的过度装备的第一个理论结果。
translated by 谷歌翻译
随机梯度下降(SGD)是现代机器学习的支柱,是各种问题的首选优化算法。尽管SGD的经验成功通常归因于其计算效率和有利的概括行为,但两者都没有充分理解和解散它们仍然是一个开放的问题。即使在简单的凸二次问题的设置中,最坏情况分析也给SGD的渐近收敛率提供了不比全批梯度下降(GD)更好的,而SGD的所谓隐式正则作用缺乏精确的解释。在这项工作中,我们研究了高维凸四边形上多通sgd的动力学,并建立了与随机微分方程的渐近等效性,我们称之为同质化的随机梯度下降(HSGD),我们的解决方案我们以我们的解决方案的方式明确表征Volterra积分方程。这些结果为学习和风险轨迹提供精确的公式,该公式揭示了隐性条件的机制,该机制解释了SGD相对于GD的效率。我们还证明,来自SGD的噪声会对泛化性能产生负面影响,排除在这种情况下任何类型的隐式正则化的可能性。最后,我们展示了如何适应HSGD形式主义以包括流媒体SGD,这使我们能够针对相对于流SGD(Bootstrap风险)的多通SGD的多余风险产生确切的预测。
translated by 谷歌翻译
我们研究了过度参数化模型中插值的必要性,也就是说,在实现机器学习问题的最佳预测风险时,需要(几乎)插值培训数据。特别是,我们考虑简单的过度参数性线性回归$ y = x \ theta + w $带随机设计$ x \ in \ mathbb {r}^{n \ times d} $在比例的渐近学$ d/n \ to \ gamma下\ in(1,\ infty)$。我们精确地表征了预测(测试)错误在此设置中必须使用训练错误缩放。这种表征的暗示是,作为标签噪声差异$ \ sigma^2 \至0 $,任何至少造成$ \ mathsf {c} \ sigma^4 $训练错误的估计器,对于某些常数$ \ mathsf {c}$必然是次优的,并且在训练错误中至少会遭受过多预测误差的增长。因此,最佳性能要求将培训数据拟合的精度要高于问题的固有噪声。
translated by 谷歌翻译
我们束缚了使用梯度流训练的深度线性网络的多余风险。在先前用于建立最小$ \ ell_2 $ -norm interpolant的风险范围的设置中,我们表明随机初始化的深线性网络可以紧密近似甚至匹配已知的范围,即最小$ \ ell_2 $ - norm interpolant。我们的分析还表明,插值深线性模型具有与最小$ \ ell_2 $ -Norm解决方案完全相同的条件差异。由于噪声仅通过条件差异影响多余的风险,因此这意味着深度并不能提高算法“隐藏噪声”的能力。我们的模拟验证了我们边界的各个方面反映了简单数据分布的典型行为。我们还发现,在具有Relu网络的模拟中也可以看到类似的现象,尽管情况更加细微。
translated by 谷歌翻译
已知量子计算机可以在某些专业设置中使用经典的最先进的机器学习方法提供加速。例如,已证明量子内核方法可以在离散对数问题的学习版本上提供指数加速。了解量子模型的概括对于实现实际利益问题的类似加速至关重要。最近的结果表明,量子特征空间的指数大小阻碍了概括。尽管这些结果表明,量子模型在量子数数量较大时无法概括,但在本文中,我们表明这些结果依赖于过度限制性的假设。我们通过改变称为量子内核带宽的超参数来考虑更广泛的模型。我们分析了大量限制,并为可以以封闭形式求解的量子模型的概括提供了明确的公式。具体而言,我们表明,更改带宽的值可以使模型从不能概括到任何目标函数到对准目标的良好概括。我们的分析表明,带宽如何控制内核积分操作员的光谱,从而如何控制模型的电感偏置。我们从经验上证明,我们的理论正确地预测带宽如何影响质量模型在具有挑战性的数据集上的概括,包括远远超出我们理论假设的数据集。我们讨论了结果对机器学习中量子优势的含义。
translated by 谷歌翻译
我们研究了称为“乐观速率”(Panchenko 2002; Srebro等,2010)的统一收敛概念,用于与高斯数据的线性回归。我们的精致分析避免了现有结果中的隐藏常量和对数因子,这已知在高维设置中至关重要,特别是用于了解插值学习。作为一个特殊情况,我们的分析恢复了Koehler等人的保证。(2021年),在良性过度的过度条件下,严格地表征了低规范内插器的人口风险。但是,我们的乐观速度绑定还分析了具有任意训练错误的预测因子。这使我们能够在随机设计下恢复脊和套索回归的一些经典统计保障,并有助于我们在过度参数化制度中获得精确了解近端器的过度风险。
translated by 谷歌翻译
近年来目睹了采用灵活的机械学习模型进行乐器变量(IV)回归的兴趣,但仍然缺乏不确定性量化方法的发展。在这项工作中,我们为IV次数回归提出了一种新的Quasi-Bayesian程序,建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率,并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法,可以扩展到与宽神经网络模型一起工作。实证评价表明,我们的方法对复杂的高维问题产生了丰富的不确定性估计。
translated by 谷歌翻译
建立深度学习的理论基础的一个关键挑战是神经网络的复杂优化动态,由大量网络参数之间的高维相互作用产生。这种非琐碎的动态导致有趣的行为,例如概括误差的“双重下降”的现象。这种现象的越常见的方面对应于模型 - 明智的双下降,其中测试误差具有增加模型复杂性的第二下降,超出经典的U形误差曲线。在这项工作中,我们研究了研究误差在训练时间增加时进行了测试误差的较低学习的巨头双重下降的起源。通过利用统计物理学的工具,我们研究了展示了与深神经网络中的EPOCH-WISE Double Countcle的线性师生设置。在此设置中,我们导出了封闭式的分析表达式,用于培训泛化误差的演变。我们发现双重血统可以归因于不同尺度的不同特征:作为快速学习功能过度装备,较慢的学习功能开始适合,导致测试错误的第二个下降。我们通过数字实验验证了我们的研究结果,其中我们的理论准确预测了实证发现,并与深神经网络中的观察结果保持一致。
translated by 谷歌翻译
We show that a variety of modern deep learning tasks exhibit a "double-descent" phenomenon where, as we increase model size, performance first gets worse and then gets better. Moreover, we show that double descent occurs not just as a function of model size, but also as a function of the number of training epochs. We unify the above phenomena by defining a new complexity measure we call the effective model complexity and conjecture a generalized double descent with respect to this measure. Furthermore, our notion of model complexity allows us to identify certain regimes where increasing (even quadrupling) the number of train samples actually hurts test performance. * Work performed in part while Preetum Nakkiran was interning at OpenAI, with Ilya Sutskever. We especially thank Mikhail Belkin and Christopher Olah for helpful discussions throughout this work.
translated by 谷歌翻译
在本手稿中,我们考虑在高斯设计下的内核Ridge回归(KRR)。根据特征的幂律衰减,在各种作品中报告了KRR过度概括误差衰减的指数。然而,这些衰变是为虚拟化的不同设置提供,即在无噪声案例中,在恒定正则化和嘈杂的最佳正则化案例中。中介设置已留下了大幅上未公布的。在这项工作中,我们统一并扩展了这一工作,提供了所有制度的表征和可以在噪声和正则化相互作用方面观察到的超出误差衰减率。特别是,我们展示了随着样本复杂性增加了无噪音指数与其嘈杂值之间的嘈杂设置中的过渡。最后,我们说明了如何在真实数据集上观察到该交叉。
translated by 谷歌翻译
了解特征学习如何影响概括是现代深度学习理论的最重要目标之一。在这里,我们研究了学习表示的能力如何影响一类简单模型的概括性能:深贝叶斯线性神经网络接受了非结构化高斯数据的训练。通过将深层随机特征模型与所有训练所有层的深网进行比较,我们将提供详细的表征宽度,深度,数据密度和先验不匹配之间的相互作用。我们表明,在存在标签噪声的情况下,这两种模型都显示出样本的双重变化行为。如果有狭窄的瓶颈层,那么随机特征模型还可以显示模型的双重变化,而深网不显示这些分歧。随机特征模型可以具有特定的宽度,这些宽度对于在给定的数据密度下是最佳的概括,同时使神经网络尽可能宽或狭窄始终是最佳的。此外,我们表明,对内核限制学习曲线的前阶校正无法区分所有培训所有层的随机特征模型和深层网络。综上所述,我们的发现开始阐明建筑细节如何影响这种简单的深层回归模型类别的概括性能。
translated by 谷歌翻译
要了解深度学习的作品,了解神经网络的培训动态至关重要。关于这些动态的几个有趣的假设是基于经验观察到的现象,但存在有限的理论上了解此类现象的时间和原因。在本文中,我们考虑了内核最小二乘目标对梯度流动的培训动态,这是SGD培训的神经网络的限制动态。使用精确的高维渐近学,我们将拟合模型的动态表征在两个“世界”中:在甲骨文世界中,该模型在人口分布和实证世界中培训,模型在采样的数据集上培训。我们展示在内核的温和条件下,$ L ^ 2 $目标回归函数,培训动力学经历三个阶段,其特征在于两个世界的模型的行为。我们的理论结果也在数学上正式化一些有趣的深度学习现象。具体而言,在我们的环境中,我们展示了SGD逐步了解更多复杂的功能,并且存在“深度引导”现象:在第二阶段,尽管经验训练误差要小得多,但两个世界的测试错误仍然接近。最后,我们提供了一个具体的例子,比较了两种不同核的动态,这表明更快的培训不需要更好地推广。
translated by 谷歌翻译
过度分化的神经网络倾向于完全符合嘈杂的训练数据,但在测试数据上概括。灵感来自这一实证观察,最近的工作试图了解在更简单的线性模型中的良性过度或无害插值的这种现象。以前的理论工作批判性地假设数据特征是统计独立的,或者输入数据是高维的;这会阻止具有结构化特征映射的一般非参数设置。在本文中,我们为再生内核希尔伯特空间中的上限回归和分类风险提供了一般和灵活的框架。关键贡献是我们的框架在数据革处矩阵上描述了精确的充分条件,在这种情况下发生无害的插值。我们的结果恢复了现有的独立功能结果(具有更简单的分析),但它们还表明,在更常规的环境中可能发生无害的插值,例如有界正常系统的功能。此外,我们的结果表明,以先前仅针对高斯特征的方式显示分类和回归性能之间的渐近分离。
translated by 谷歌翻译
教师 - 学生模型提供了一个框架,其中可以以封闭形式描述高维监督学习的典型情况。高斯I.I.D的假设然而,可以认为典型教师 - 学生模型的输入数据可以被认为过于限制,以捕获现实数据集的行为。在本文中,我们介绍了教师和学生可以在不同的空格上行动的模型的高斯协变态概括,以固定的,而是通用的特征映射。虽然仍处于封闭形式的仍然可解决,但这种概括能够捕获广泛的现实数据集的学习曲线,从而兑现师生框架的潜力。我们的贡献是两倍:首先,我们证明了渐近培训损失和泛化误差的严格公式。其次,我们呈现了许多情况,其中模型的学习曲线捕获了使用内​​核回归和分类学习的现实数据集之一,其中盒出开箱特征映射,例如随机投影或散射变换,或者与散射变换预先学习的 - 例如通过培训多层神经网络学到的特征。我们讨论了框架的权力和局限性。
translated by 谷歌翻译
当我们扩大数据集,模型尺寸和培训时间时,深入学习方法的能力中存在越来越多的经验证据。尽管有一些关于这些资源如何调节统计能力的说法,但对它们对模型培训的计算问题的影响知之甚少。这项工作通过学习$ k $ -sparse $ n $ bits的镜头进行了探索,这是一个构成理论计算障碍的规范性问题。在这种情况下,我们发现神经网络在扩大数据集大小和运行时间时会表现出令人惊讶的相变。特别是,我们从经验上证明,通过标准培训,各种体系结构以$ n^{o(k)} $示例学习稀疏的平等,而损失(和错误)曲线在$ n^{o(k)}后突然下降。 $迭代。这些积极的结果几乎匹配已知的SQ下限,即使没有明确的稀疏性先验。我们通过理论分析阐明了这些现象的机制:我们发现性能的相变不到SGD“在黑暗中绊倒”,直到它找到了隐藏的特征集(自然算法也以$ n^中的方式运行{o(k)} $ time);取而代之的是,我们表明SGD逐渐扩大了人口梯度的傅立叶差距。
translated by 谷歌翻译