对于某种缩放的随机梯度下降(SGD)的初始化,已经显示宽神经网络(NN)通过再现核Hilbert空间(RKHS)方法来近似近似。最近的实证工作表明,对于某些分类任务,RKHS方法可以替换NNS而无需大量的性能损失。另一方面,已知两层NNS编码比RKHS更丰富的平滑度等级,并且我们知道SGD培训的NN可提供的特殊示例可提供胜过RKHS。即使在宽网络限制中,这也是如此,对于初始化的不同缩放。我们如何调和上述索赔?任务是否优于RKHS?如果协变量近在各向同性,RKHS方法患有维度的诅咒,而NNS可以通过学习最佳的低维表示来克服它。在这里,我们表明,如果协变量显示与目标函数相同的低维结构,则这种维度的这种诅咒变得更温和,并且我们精确地表征了这个权衡。在这些结果上建立,我们提出了可以在早期工作中观察到的统一框架中捕获的尖刺协变量模型。我们假设这种潜伏的低维结构存在于图像分类中。我们通过表明训练分配的特定扰动降低了比NN更大的更显高度显着的训练方法的特定扰动来测试这些假设。
translated by 谷歌翻译
现代神经网络通常以强烈的过度构造状态运行:它们包含许多参数,即使实际标签被纯粹随机的标签代替,它们也可以插入训练集。尽管如此,他们在看不见的数据上达到了良好的预测错误:插值训练集并不会导致巨大的概括错误。此外,过度散色化似乎是有益的,因为它简化了优化景观。在这里,我们在神经切线(NT)制度中的两层神经网络的背景下研究这些现象。我们考虑了一个简单的数据模型,以及各向同性协变量的矢量,$ d $尺寸和$ n $隐藏的神经元。我们假设样本量$ n $和尺寸$ d $都很大,并且它们在多项式上相关。我们的第一个主要结果是对过份术的经验NT内核的特征结构的特征。这种表征意味着必然的表明,经验NT内核的最低特征值在$ ND \ gg n $后立即从零界限,因此网络可以在同一制度中精确插值任意标签。我们的第二个主要结果是对NT Ridge回归的概括误差的表征,包括特殊情况,最小值-ULL_2 $ NORD插值。我们证明,一旦$ nd \ gg n $,测试误差就会被内核岭回归之一相对于无限宽度内核而近似。多项式脊回归的误差依次近似后者,从而通过与激活函数的高度组件相关的“自我诱导的”项增加了正则化参数。多项式程度取决于样本量和尺寸(尤其是$ \ log n/\ log d $)。
translated by 谷歌翻译
最近的实证工作表明,由卷积神经网络(CNNS)启发的分层卷积核(CNNS)显着提高了内核方法​​在图像分类任务中的性能。对这些架构成功的广泛解释是它们编码适合自然图像的假设类。然而,了解卷积架构中近似和泛化之间的精确相互作用仍然是一个挑战。在本文中,我们考虑均匀分布在超立方体上的协变量(图像像素)的程式化设置,并完全表征由单层卷积,汇集和下采样操作组成的内核的RKH。然后,我们使用这些内核通过标准内部产品内核来研究内核方法的样本效率的增益。特别是,我们展示了1)卷积层通过将RKHS限制为“本地”功能来打破维度的诅咒; 2)局部汇集偏置朝向低频功能,这是较小的翻译稳定; 3)下采样可以修改高频成粒空间,但留下了大致不变的低频部分。值得注意的是,我们的结果量化了选择适应目标函数的架构如何导致样本复杂性的大量改善。
translated by 谷歌翻译
要了解深度学习的作品,了解神经网络的培训动态至关重要。关于这些动态的几个有趣的假设是基于经验观察到的现象,但存在有限的理论上了解此类现象的时间和原因。在本文中,我们考虑了内核最小二乘目标对梯度流动的培训动态,这是SGD培训的神经网络的限制动态。使用精确的高维渐近学,我们将拟合模型的动态表征在两个“世界”中:在甲骨文世界中,该模型在人口分布和实证世界中培训,模型在采样的数据集上培训。我们展示在内核的温和条件下,$ L ^ 2 $目标回归函数,培训动力学经历三个阶段,其特征在于两个世界的模型的行为。我们的理论结果也在数学上正式化一些有趣的深度学习现象。具体而言,在我们的环境中,我们展示了SGD逐步了解更多复杂的功能,并且存在“深度引导”现象:在第二阶段,尽管经验训练误差要小得多,但两个世界的测试错误仍然接近。最后,我们提供了一个具体的例子,比较了两种不同核的动态,这表明更快的培训不需要更好地推广。
translated by 谷歌翻译
尽管有许多有吸引力的财产,但内核方法受到维度的诅咒受到严重影响。例如,在$ \ mathbb {r} ^ d $的内部产品内核的情况下,再现内核希尔伯特空间(RKHS)规范对于依赖于小方向子集(RIDGE函数)的功能往往非常大。相应地,使用内核方法难以学习这样的功能。这种观察结果有动力研究内核方法的概括,由此rkhs规范 - 它等同于加权$ \ ell_2 $ norm - 被加权函数$ \ ell_p $ norm替换,我们将其称为$ \ mathcal {f} _p $ norm。不幸的是,这些方法的陶油是不清楚的。内核技巧不可用,最大限度地减少这些规范要求解决无限维凸面问题。我们将随机特征近似于这些规范,表明,对于$ p> 1 $,近似于原始学习问题所需的随机功能的数量是由样本大小的多项式的上限。因此,使用$ \ mathcal {f} _p $ norms在这些情况下是易行的。我们介绍了一种基于双重均匀浓度的证明技术,这可以对超分子化模型的研究更广泛。对于$ p = 1 $,我们对随机功能的保证近似分解。我们证明了使用$ \ mathcal {f} _1 $ norm的学习是在随机减少的$ \ mathsf {np} $ - 基于噪音的半个空间问题的问题。
translated by 谷歌翻译
We consider the random feature ridge regression (RFRR) given by a two-layer neural network at random initialization. We study the non-asymptotic behaviors of the training error, cross-validations, and generalization error of RFRR with nearly orthogonal deterministic input data in the overparameterized regime, where the number of parameters $N$ is much larger than the sample size $n$. We respectively establish the concentrations of the training errors, cross-validations, and generalization errors of RFRR around their corresponding errors of kernel ridge regression (KRR). This KRR is defined by an expected kernel from a random feature map. We then approximate the performances of the KRR by a polynomial kernel matrix, whose degree only depends on the orthogonality among different input vectors. The degree of this polynomial kernel essentially determines the asymptotic behavior of RFRR and KRR. Our results hold for a general class of target functions and input data with weak approximate orthonormal properties among different data points. Based on these approximations and nearly orthogonality, we obtain a lower bound for the generalization error of RFRR.
translated by 谷歌翻译
最近的作品证明了过度参数化学习中的双重下降现象:随着模型参数的数量的增加,多余的风险具有$ \ mathsf {u} $ - 在开始时形状,然后在模型高度过度参数化时再次减少。尽管最近在不同的环境(例如线性模型,随机特征模型和内核方法)下进行了研究,但在理论上尚未完全理解这种现象。在本文中,我们考虑了由两种随机特征组成的双随机特征模型(DRFM),并研究DRFM在脊回归中实现的多余风险。我们计算高维框架下的多余风险的确切限制,在这种框架上,训练样本量,数据尺寸和随机特征的维度往往会成比例地无限。根据计算,我们证明DRFM的风险曲线可以表现出三重下降。然后,我们提供三重下降现象的解释,并讨论随机特征维度,正则化参数和信噪比比率如何控制DRFMS风险曲线的形状。最后,我们将研究扩展到多个随机功能模型(MRFM),并表明具有$ K $类型的随机功能的MRFM可能会显示出$(K+1)$ - 折叠。我们的分析指出,具有特定数量下降的风险曲线通常在基于特征的回归中存在。另一个有趣的发现是,当学习神经网络在“神经切线内核”制度中时,我们的结果可以恢复文献中报告的风险峰值位置。
translated by 谷歌翻译
深度学习理论的最新目标是确定神经网络如何逃脱“懒惰训练”或神经切线内核(NTK)制度,在该制度中,网络与初始化时的一阶泰勒扩展相结合。尽管NTK是最大程度地用于学习密集多项式的最佳选择(Ghorbani等,2021),但它无法学习特征,因此对于学习包括稀疏多项式(稀疏多项式)的许多类别的功能的样本复杂性较差。因此,最近的工作旨在确定基于梯度的算法比NTK更好地概括的设置。一个这样的例子是Bai和Lee(2020)的“ Quadntk”方法,该方法分析了泰勒膨胀中的二阶项。 Bai和Lee(2020)表明,二阶项可以有效地学习稀疏的多项式。但是,它牺牲了学习一般密集多项式的能力。在本文中,我们分析了两层神经网络上的梯度下降如何通过利用NTK(Montanari和Zhong,2020)的光谱表征并在Quadntk方法上构建来逃脱NTK制度。我们首先扩展了光谱分析,以确定参数空间中的“良好”方向,在该空间中我们可以在不损害概括的情况下移动。接下来,我们表明一个宽的两层神经网络可以共同使用NTK和QUADNTK来适合由密集的低度项和稀疏高度术语组成的目标功能 - NTK和Quadntk无法在他们自己的。最后,我们构建了一个正常化程序,该正规化器鼓励我们的参数向量以“良好”的方向移动,并表明正规化损失上的梯度下降将融合到全局最小化器,这也有较低的测试误差。这产生了端到端的融合和概括保证,并自行对NTK和Quadntk进行了可证明的样本复杂性的改善。
translated by 谷歌翻译
给定$ n $数据点$ \ mathbb {r}^d $中的云,请考虑$ \ mathbb {r}^d $的$ m $ dimensional子空间预计点。当$ n,d $增长时,这一概率分布的集合如何?我们在零模型下考虑了这个问题。标准高斯矢量,重点是渐近方案,其中$ n,d \ to \ infty $,$ n/d \ to \ alpha \ in(0,\ infty)$,而$ m $是固定的。用$ \ mathscr {f} _ {m,\ alpha} $表示$ \ mathbb {r}^m $中的一组概率分布,在此限制中以低维度为单位,我们在此限制中建立了新的内部和外部界限$ \ mathscr {f} _ {m,\ alpha} $。特别是,我们将$ \ mathscr {f} _ {m,\ alpha} $的Wasserstein Radius表征为对数因素,并以$ M = 1 $确切确定它。我们还通过kullback-leibler差异和r \'{e} NYI信息维度证明了尖锐的界限。上一个问题已应用于无监督的学习方法,例如投影追求和独立的组件分析。我们介绍了与监督学习相关的相同问题的版本,并证明了尖锐的沃斯坦斯坦半径绑定。作为一个应用程序,我们在具有$ M $隐藏神经元的两层神经网络的插值阈值上建立了上限。
translated by 谷歌翻译
过度参数化神经网络(NNS)的小概括误差可以通过频率偏见现象来部分解释,在频率偏置现象中,基于梯度的算法将低频失误最小化,然后再减少高频残差。使用神经切线内核(NTK),可以为训练提供理论上严格的分析,其中数据是从恒定或分段构剂概率密度绘制的数据。由于大多数训练数据集不是从此类分布中汲取的,因此我们使用NTK模型和数据依赖性的正交规则来理论上量化NN训练的频率偏差,给定完全不均匀的数据。通过用精心选择的Sobolev规范替换损失函数,我们可以进一步扩大,抑制,平衡或逆转NN训练中的内在频率偏差。
translated by 谷歌翻译
Autoencoders are a popular model in many branches of machine learning and lossy data compression. However, their fundamental limits, the performance of gradient methods and the features learnt during optimization remain poorly understood, even in the two-layer setting. In fact, earlier work has considered either linear autoencoders or specific training regimes (leading to vanishing or diverging compression rates). Our paper addresses this gap by focusing on non-linear two-layer autoencoders trained in the challenging proportional regime in which the input dimension scales linearly with the size of the representation. Our results characterize the minimizers of the population risk, and show that such minimizers are achieved by gradient methods; their structure is also unveiled, thus leading to a concise description of the features obtained via training. For the special case of a sign activation function, our analysis establishes the fundamental limits for the lossy compression of Gaussian sources via (shallow) autoencoders. Finally, while the results are proved for Gaussian data, numerical simulations on standard datasets display the universality of the theoretical predictions.
translated by 谷歌翻译
套索是一种高维回归的方法,当时,当协变量$ p $的订单数量或大于观测值$ n $时,通常使用它。由于两个基本原因,经典的渐近态性理论不适用于该模型:$(1)$正规风险是非平滑的; $(2)$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果,标准的扰动论点是渐近正态性的传统基础。另一方面,套索估计器可以精确地以$ n $和$ p $大,$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量:在这里,我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限,它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序,我们研究了借助拉索的分布,并表明需要校正程度对于计算有效的置信区间是必要的。
translated by 谷歌翻译
在负面的感知问题中,我们给出了$ n $数据点$({\ boldsymbol x} _i,y_i)$,其中$ {\ boldsymbol x} _i $是$ d $ -densional vector和$ y_i \ in \ { + 1,-1 \} $是二进制标签。数据不是线性可分离的,因此我们满足自己的内容,以找到最大的线性分类器,具有最大的\ emph {否定}余量。换句话说,我们想找到一个单位常规矢量$ {\ boldsymbol \ theta} $,最大化$ \ min_ {i \ le n} y_i \ langle {\ boldsymbol \ theta},{\ boldsymbol x} _i \ rangle $ 。这是一个非凸优化问题(它相当于在Polytope中找到最大标准矢量),我们在两个随机模型下研究其典型属性。我们考虑比例渐近,其中$ n,d \ to \ idty $以$ n / d \ to \ delta $,并在最大边缘$ \ kappa _ {\ text {s}}(\ delta)上证明了上限和下限)$或 - 等效 - 在其逆函数$ \ delta _ {\ text {s}}(\ kappa)$。换句话说,$ \ delta _ {\ text {s}}(\ kappa)$是overparametization阈值:以$ n / d \ le \ delta _ {\ text {s}}(\ kappa) - \ varepsilon $一个分类器实现了消失的训练错误,具有高概率,而以$ n / d \ ge \ delta _ {\ text {s}}(\ kappa)+ \ varepsilon $。我们在$ \ delta _ {\ text {s}}(\ kappa)$匹配,以$ \ kappa \ to - \ idty $匹配。然后,我们分析了线性编程算法来查找解决方案,并表征相应的阈值$ \ delta _ {\ text {lin}}(\ kappa)$。我们观察插值阈值$ \ delta _ {\ text {s}}(\ kappa)$和线性编程阈值$ \ delta _ {\ text {lin {lin}}(\ kappa)$之间的差距,提出了行为的问题其他算法。
translated by 谷歌翻译
成功的深度学习模型往往涉及培训具有比训练样本数量更多的参数的神经网络架构。近年来已经广泛研究了这种超分子化的模型,并且通过双下降现象和通过优化景观的结构特性,从统计的角度和计算视角都建立了过分统计化的优点。尽管在过上分层的制度中深入学习架构的显着成功,但也众所周知,这些模型对其投入中的小对抗扰动感到高度脆弱。即使在普遍培训的情况下,它们在扰动输入(鲁棒泛化)上的性能也会比良性输入(标准概括)的最佳可达到的性能更糟糕。因此,必须了解如何从根本上影响稳健性的情况下如何影响鲁棒性。在本文中,我们将通过专注于随机特征回归模型(具有随机第一层权重的两层神经网络)来提供超分度化对鲁棒性的作用的精确表征。我们考虑一个制度,其中样本量,输入维度和参数的数量彼此成比例地生长,并且当模型发生前列地训练时,可以为鲁棒泛化误差导出渐近精确的公式。我们的发达理论揭示了过分统计化对鲁棒性的非竞争效果,表明对于普遍训练的随机特征模型,高度公正化可能会损害鲁棒泛化。
translated by 谷歌翻译
We consider the problem of estimating the optimal transport map between a (fixed) source distribution $P$ and an unknown target distribution $Q$, based on samples from $Q$. The estimation of such optimal transport maps has become increasingly relevant in modern statistical applications, such as generative modeling. At present, estimation rates are only known in a few settings (e.g. when $P$ and $Q$ have densities bounded above and below and when the transport map lies in a H\"older class), which are often not reflected in practice. We present a unified methodology for obtaining rates of estimation of optimal transport maps in general function spaces. Our assumptions are significantly weaker than those appearing in the literature: we require only that the source measure $P$ satisfies a Poincar\'e inequality and that the optimal map be the gradient of a smooth convex function that lies in a space whose metric entropy can be controlled. As a special case, we recover known estimation rates for bounded densities and H\"older transport maps, but also obtain nearly sharp results in many settings not covered by prior work. For example, we provide the first statistical rates of estimation when $P$ is the normal distribution and the transport map is given by an infinite-width shallow neural network.
translated by 谷歌翻译
许多监督的学习问题涉及高维数据,例如图像,文本或图形。为了能够有效地利用数据,它通常有用的是在手头的问题中利用某些几何前瞻,例如与换算,置换子组或稳定性的不变性。通过考虑球体上这些功能的球形谐波分解,我们研究了目标功能提出了这种不变性和稳定性特性的学习问题的样本复杂性。我们提供内核方法的非参数率的收敛速度,并且在与相应的非不变内核相比,在该组上使用不变内核时,通过等于组的大小的因子的提高。当样本大小足够大时,这些改进是有效的,其渐近行为取决于该组的光谱特性。最后,这些增益扩展到不变性组之外,还涵盖小变形的几何稳定性,这里被建模为排列的子集(不一定是子组)。
translated by 谷歌翻译
强大的机器学习模型的开发中的一个重要障碍是协变量的转变,当训练和测试集的输入分布时发生的分配换档形式在条件标签分布保持不变时发生。尽管现实世界应用的协变量转变普遍存在,但在现代机器学习背景下的理论理解仍然缺乏。在这项工作中,我们检查协变量的随机特征回归的精确高尺度渐近性,并在该设置中提出了限制测试误差,偏差和方差的精确表征。我们的结果激发了一种自然部分秩序,通过协变速转移,提供足够的条件来确定何时何时损害(甚至有助于)测试性能。我们发现,过度分辨率模型表现出增强的协会转变的鲁棒性,为这种有趣现象提供了第一个理论解释之一。此外,我们的分析揭示了分销和分发外概率性能之间的精确线性关系,为这一令人惊讶的近期实证观察提供了解释。
translated by 谷歌翻译
已知神经网络对对抗性例子高度敏感。这些可能是由于不同的因素,例如随机初始化或学习问题中的虚假相关性。为了更好地理解这些因素,我们提供了对不同场景中对抗性鲁棒性的精确研究,从初始化到不同制度的培训结束以及中间场景,由于“懒惰”培训,初始化仍然起着作用。我们考虑具有二次靶标和无限样品的高维度中的过度参数化网络。我们的分析使我们能够确定近似(通过测试错误测量)和鲁棒性之间的新权衡,从而在测试误差改善时只能变得更糟,反之亦然。我们还展示了由于不当缩放的随机初始化,线性化的懒惰训练机制如何使鲁棒性恶化。通过数值实验说明了我们的理论结果。
translated by 谷歌翻译
In many modern applications of deep learning the neural network has many more parameters than the data points used for its training. Motivated by those practices, a large body of recent theoretical research has been devoted to studying overparameterized models. One of the central phenomena in this regime is the ability of the model to interpolate noisy data, but still have test error lower than the amount of noise in that data. arXiv:1906.11300 characterized for which covariance structure of the data such a phenomenon can happen in linear regression if one considers the interpolating solution with minimum $\ell_2$-norm and the data has independent components: they gave a sharp bound on the variance term and showed that it can be small if and only if the data covariance has high effective rank in a subspace of small co-dimension. We strengthen and complete their results by eliminating the independence assumption and providing sharp bounds for the bias term. Thus, our results apply in a much more general setting than those of arXiv:1906.11300, e.g., kernel regression, and not only characterize how the noise is damped but also which part of the true signal is learned. Moreover, we extend the result to the setting of ridge regression, which allows us to explain another interesting phenomenon: we give general sufficient conditions under which the optimal regularization is negative.
translated by 谷歌翻译
教师 - 学生模型提供了一个框架,其中可以以封闭形式描述高维监督学习的典型情况。高斯I.I.D的假设然而,可以认为典型教师 - 学生模型的输入数据可以被认为过于限制,以捕获现实数据集的行为。在本文中,我们介绍了教师和学生可以在不同的空格上行动的模型的高斯协变态概括,以固定的,而是通用的特征映射。虽然仍处于封闭形式的仍然可解决,但这种概括能够捕获广泛的现实数据集的学习曲线,从而兑现师生框架的潜力。我们的贡献是两倍:首先,我们证明了渐近培训损失和泛化误差的严格公式。其次,我们呈现了许多情况,其中模型的学习曲线捕获了使用内​​核回归和分类学习的现实数据集之一,其中盒出开箱特征映射,例如随机投影或散射变换,或者与散射变换预先学习的 - 例如通过培训多层神经网络学到的特征。我们讨论了框架的权力和局限性。
translated by 谷歌翻译