卷积神经网络执行了对数据的本地和平移 - 不变的处理:量化这两个方面中的哪一个是他们的成功仍然是一个挑战。我们在核心学生框架内研究了核心回归的师父框架中的这个问题,它使用了给定滤波器大小的简单卷积架构的神经切线内核的启发。使用从物理学中的启发式方法,我们发现在确定学习曲线指数$ \ beta $的宽恕案例中,该位置是关键的关键,而是将测试错误$ \ epsilon_t \ sim p ^ { - \ beta} $ to to the培训设定$ p $),而平移不变性则不是。特别是,如果老师的滤波器大小比学生$ s $小于学生,$ \ beta $的函数仅限于$ s $的函数,并且不依赖于输入维度。我们在经验上确认了我们对$ \ Beta $的预测。我们通过使用自然普遍性假设来得出结论,利用覆盖训练集的大小减少的山脊的内核回归导致我们在缺陷案件中获得的类似学习曲线指数。
translated by 谷歌翻译
尽管他们成功了,但了解卷积神经网络(CNN)如何有效地学习高维功能仍然是一个基本挑战。一个普遍的看法是,这些模型利用自然数据(例如图像)的组成和分层结构。然而,我们对这种结构如何影响性能,缺乏定量的理解,例如训练样本数量的概括误差的衰减率。在本文中,我们研究了内核制度中的深入CNN:i)我们证明了相应的内核及其渐近学的光谱继承了网络的层次结构; ii)我们使用概括范围来证明深CNN适应目标函数的空间尺度; iii)我们通过计算教师学生环境中误差的衰减率来说明这一结果,在教师学生的设置中,对另一个具有随机发射参数的深CNN的输出进行了深入的CNN训练。我们发现,如果教师函数取决于输入变量的某些低维基集,则速率由这些子集的有效维度控制。相反,如果教师函数取决于整个输入变量,则错误率与输入维度成反比。有趣的是,这意味着尽管具有层次结构,但深CNN产生的功能太丰富了,无法在高维度上有效地学习。
translated by 谷歌翻译
人们普遍认为,深网的成功在于他们学习数据功能的有意义表示的能力。然而,了解该功能学习何时以及如何提高性能仍然是一个挑战:例如,它对经过对图像进行分类的现代体系结构有益,而对于在相同数据上针对同一任务培训的完全连接的网络是有害的。在这里,我们提出了有关此难题的解释,表明特征学习可以比懒惰训练(通过随机特征内核或NTK)更糟糕,因为前者可以导致较少的神经表示。尽管已知稀疏性对于学习各向异性数据是必不可少的,但是当目标函数沿输入空间的某些方向恒定或平滑时,这是有害的。我们在两个设置中说明了这种现象:(i)在D维单元球体上的高斯随机函数的回归,以及(ii)图像基准数据集的分类。对于(i),我们通过训练点数来计算概括误差的缩放率,并证明即使输入空间的尺寸很大,不学习特征的方法也可以更好地推广。对于(ii),我们从经验上表明,学习特征确实会导致稀疏,从而减少图像预测因子的平滑表示。这一事实是可能导致性能恶化的,这与沿差异性的平滑度相关。
translated by 谷歌翻译
最近的实证工作表明,由卷积神经网络(CNNS)启发的分层卷积核(CNNS)显着提高了内核方法​​在图像分类任务中的性能。对这些架构成功的广泛解释是它们编码适合自然图像的假设类。然而,了解卷积架构中近似和泛化之间的精确相互作用仍然是一个挑战。在本文中,我们考虑均匀分布在超立方体上的协变量(图像像素)的程式化设置,并完全表征由单层卷积,汇集和下采样操作组成的内核的RKH。然后,我们使用这些内核通过标准内部产品内核来研究内核方法的样本效率的增益。特别是,我们展示了1)卷积层通过将RKHS限制为“本地”功能来打破维度的诅咒; 2)局部汇集偏置朝向低频功能,这是较小的翻译稳定; 3)下采样可以修改高频成粒空间,但留下了大致不变的低频部分。值得注意的是,我们的结果量化了选择适应目标函数的架构如何导致样本复杂性的大量改善。
translated by 谷歌翻译
许多监督的学习问题涉及高维数据,例如图像,文本或图形。为了能够有效地利用数据,它通常有用的是在手头的问题中利用某些几何前瞻,例如与换算,置换子组或稳定性的不变性。通过考虑球体上这些功能的球形谐波分解,我们研究了目标功能提出了这种不变性和稳定性特性的学习问题的样本复杂性。我们提供内核方法的非参数率的收敛速度,并且在与相应的非不变内核相比,在该组上使用不变内核时,通过等于组的大小的因子的提高。当样本大小足够大时,这些改进是有效的,其渐近行为取决于该组的光谱特性。最后,这些增益扩展到不变性组之外,还涵盖小变形的几何稳定性,这里被建模为排列的子集(不一定是子组)。
translated by 谷歌翻译
教师 - 学生模型提供了一个框架,其中可以以封闭形式描述高维监督学习的典型情况。高斯I.I.D的假设然而,可以认为典型教师 - 学生模型的输入数据可以被认为过于限制,以捕获现实数据集的行为。在本文中,我们介绍了教师和学生可以在不同的空格上行动的模型的高斯协变态概括,以固定的,而是通用的特征映射。虽然仍处于封闭形式的仍然可解决,但这种概括能够捕获广泛的现实数据集的学习曲线,从而兑现师生框架的潜力。我们的贡献是两倍:首先,我们证明了渐近培训损失和泛化误差的严格公式。其次,我们呈现了许多情况,其中模型的学习曲线捕获了使用内​​核回归和分类学习的现实数据集之一,其中盒出开箱特征映射,例如随机投影或散射变换,或者与散射变换预先学习的 - 例如通过培训多层神经网络学到的特征。我们讨论了框架的权力和局限性。
translated by 谷歌翻译
已知量子计算机可以在某些专业设置中使用经典的最先进的机器学习方法提供加速。例如,已证明量子内核方法可以在离散对数问题的学习版本上提供指数加速。了解量子模型的概括对于实现实际利益问题的类似加速至关重要。最近的结果表明,量子特征空间的指数大小阻碍了概括。尽管这些结果表明,量子模型在量子数数量较大时无法概括,但在本文中,我们表明这些结果依赖于过度限制性的假设。我们通过改变称为量子内核带宽的超参数来考虑更广泛的模型。我们分析了大量限制,并为可以以封闭形式求解的量子模型的概括提供了明确的公式。具体而言,我们表明,更改带宽的值可以使模型从不能概括到任何目标函数到对准目标的良好概括。我们的分析表明,带宽如何控制内核积分操作员的光谱,从而如何控制模型的电感偏置。我们从经验上证明,我们的理论正确地预测带宽如何影响质量模型在具有挑战性的数据集上的概括,包括远远超出我们理论假设的数据集。我们讨论了结果对机器学习中量子优势的含义。
translated by 谷歌翻译
强大的机器学习模型的开发中的一个重要障碍是协变量的转变,当训练和测试集的输入分布时发生的分配换档形式在条件标签分布保持不变时发生。尽管现实世界应用的协变量转变普遍存在,但在现代机器学习背景下的理论理解仍然缺乏。在这项工作中,我们检查协变量的随机特征回归的精确高尺度渐近性,并在该设置中提出了限制测试误差,偏差和方差的精确表征。我们的结果激发了一种自然部分秩序,通过协变速转移,提供足够的条件来确定何时何时损害(甚至有助于)测试性能。我们发现,过度分辨率模型表现出增强的协会转变的鲁棒性,为这种有趣现象提供了第一个理论解释之一。此外,我们的分析揭示了分销和分发外概率性能之间的精确线性关系,为这一令人惊讶的近期实证观察提供了解释。
translated by 谷歌翻译
We consider the random feature ridge regression (RFRR) given by a two-layer neural network at random initialization. We study the non-asymptotic behaviors of the training error, cross-validations, and generalization error of RFRR with nearly orthogonal deterministic input data in the overparameterized regime, where the number of parameters $N$ is much larger than the sample size $n$. We respectively establish the concentrations of the training errors, cross-validations, and generalization errors of RFRR around their corresponding errors of kernel ridge regression (KRR). This KRR is defined by an expected kernel from a random feature map. We then approximate the performances of the KRR by a polynomial kernel matrix, whose degree only depends on the orthogonality among different input vectors. The degree of this polynomial kernel essentially determines the asymptotic behavior of RFRR and KRR. Our results hold for a general class of target functions and input data with weak approximate orthonormal properties among different data points. Based on these approximations and nearly orthogonality, we obtain a lower bound for the generalization error of RFRR.
translated by 谷歌翻译
对于某种缩放的随机梯度下降(SGD)的初始化,已经显示宽神经网络(NN)通过再现核Hilbert空间(RKHS)方法来近似近似。最近的实证工作表明,对于某些分类任务,RKHS方法可以替换NNS而无需大量的性能损失。另一方面,已知两层NNS编码比RKHS更丰富的平滑度等级,并且我们知道SGD培训的NN可提供的特殊示例可提供胜过RKHS。即使在宽网络限制中,这也是如此,对于初始化的不同缩放。我们如何调和上述索赔?任务是否优于RKHS?如果协变量近在各向同性,RKHS方法患有维度的诅咒,而NNS可以通过学习最佳的低维表示来克服它。在这里,我们表明,如果协变量显示与目标函数相同的低维结构,则这种维度的这种诅咒变得更温和,并且我们精确地表征了这个权衡。在这些结果上建立,我们提出了可以在早期工作中观察到的统一框架中捕获的尖刺协变量模型。我们假设这种潜伏的低维结构存在于图像分类中。我们通过表明训练分配的特定扰动降低了比NN更大的更显高度显着的训练方法的特定扰动来测试这些假设。
translated by 谷歌翻译
我们研究了非参数脊的最小二乘的学习属性。特别是,我们考虑常见的估计人的估计案例,由比例依赖性内核定义,并专注于规模的作用。这些估计器内插数据,可以显示规模来通过条件号控制其稳定性。我们的分析表明,这是不同的制度,具体取决于样本大小,其尺寸与问题的平滑度之间的相互作用。实际上,当样本大小小于数据维度中的指数时,可以选择比例,以便学习错误减少。随着样本尺寸变大,总体错误停止减小但有趣地可以选择规模,使得噪声引起的差异仍然存在界线。我们的分析结合了概率,具有来自插值理论的许多分析技术。
translated by 谷歌翻译
现代神经网络通常以强烈的过度构造状态运行:它们包含许多参数,即使实际标签被纯粹随机的标签代替,它们也可以插入训练集。尽管如此,他们在看不见的数据上达到了良好的预测错误:插值训练集并不会导致巨大的概括错误。此外,过度散色化似乎是有益的,因为它简化了优化景观。在这里,我们在神经切线(NT)制度中的两层神经网络的背景下研究这些现象。我们考虑了一个简单的数据模型,以及各向同性协变量的矢量,$ d $尺寸和$ n $隐藏的神经元。我们假设样本量$ n $和尺寸$ d $都很大,并且它们在多项式上相关。我们的第一个主要结果是对过份术的经验NT内核的特征结构的特征。这种表征意味着必然的表明,经验NT内核的最低特征值在$ ND \ gg n $后立即从零界限,因此网络可以在同一制度中精确插值任意标签。我们的第二个主要结果是对NT Ridge回归的概括误差的表征,包括特殊情况,最小值-ULL_2 $ NORD插值。我们证明,一旦$ nd \ gg n $,测试误差就会被内核岭回归之一相对于无限宽度内核而近似。多项式脊回归的误差依次近似后者,从而通过与激活函数的高度组件相关的“自我诱导的”项增加了正则化参数。多项式程度取决于样本量和尺寸(尤其是$ \ log n/\ log d $)。
translated by 谷歌翻译
深神经网络(DNN)是用于压缩和蒸馏信息的强大工具。由于它们的规模和复杂性,通常涉及数十亿间相互作用的内部自由度,精确分析方法通常会缩短。这种情况下的共同策略是识别平均潜在的快速微观变量的不稳定行为的缓慢自由度。在这里,我们在训练结束时识别在过度参数化的深卷积神经网络(CNNS)中发生的尺度的分离。它意味着神经元预激活与几乎高斯的方式与确定性潜在内核一起波动。在对于具有无限许多频道的CNN来说,这些内核是惰性的,对于有限的CNNS,它们以分析的方式通过数据适应和学习数据。由此产生的深度学习的热力学理论产生了几种深度非线性CNN玩具模型的准确预测。此外,它还提供了新的分析和理解CNN的方法。
translated by 谷歌翻译
了解神经网络大规模成功背后的基本原则是深度学习中最重要的开放性问题之一。但是,由于问题的高度复杂性,进展相对缓慢。在本说明中,通过无限宽度网络的镜头,A.K.A.神经内核,我们介绍了由分层本地产生的一个这样的原则。众所周知,无限宽度多层感知者(MLP)的特征结构仅取决于概念频率,从而测量相互作用的顺序。我们表明来自深度卷积网络(CNNS)的拓扑结构将相关的EIGenspace重组为更精细的子空间。除了频率之外,新结构还取决于概念空间,该空间测量非线性交互条款之间的空间距离。由此产生的细粒度的特征结构大大提高了网络的可读性,使它们能够同时模拟更丰富的相互作用,包括远程低频相互作用,短程 - 高频相互作用和各种插值和外插和外推 - 之间。此外,模型缩放可以改善内插和外推的分辨率,因此网络的可读性。最后,我们证明了在高维设置中任何深度的无限宽度CNN的泛化误差表征。遵循两个冠状动脉:(1)无限宽度深CNN可以在不失其富有效率的情况下打破维度的诅咒,而(2)缩放可以提高有限和无限数据制度的性能。
translated by 谷歌翻译
我们考虑内核分类的问题。内核回归的作品表明,预测误差的衰减率与大量数据集的样品数量的数量有两个数量:数据集的容量和来源。在这项工作中,我们计算了高斯设计下错误分类(预测)错误的衰减率,以满足源和容量假设的数据集。我们得出了两个标准内核分类设置的源和容量系数的函数,即边缘最大化支持向量机(SVM)和脊分类,并将两种方法对比。结果,我们发现该类别的数据集已知的最差案例频率松散。最后,我们表明,在实际数据集中还观察到了这项工作中介绍的费率。
translated by 谷歌翻译
对于由缺陷线性回归中的标签噪声引起的预期平均平方概率,我们证明了无渐近分布的下限。我们的下部结合概括了过度公共数据(内插)制度的类似已知结果。与最先前的作品相比,我们的分析适用于广泛的输入分布,几乎肯定的全排列功能矩阵,允许我们涵盖各种类型的确定性或随机特征映射。我们的下限是渐近的锐利,暗示在存在标签噪声时,缺陷的线性回归不会在任何这些特征映射中围绕内插阈值进行良好的。我们详细分析了强加的假设,并为分析(随机)特征映射提供了理论。使用此理论,我们可以表明我们的假设对于具有(Lebesgue)密度的输入分布以及随机深神经网络给出的特征映射,具有Sigmoid,Tanh,SoftPlus或Gelu等分析激活功能。作为进一步的例子,我们示出了来自随机傅里叶特征和多项式内核的特征映射也满足我们的假设。通过进一步的实验和分析结果,我们补充了我们的理论。
translated by 谷歌翻译
非线性自适应控制理论中的一个关键假设是系统的不确定性可以在一组已知基本函数的线性跨度中表示。虽然该假设导致有效的算法,但它将应用限制为非常特定的系统类别。我们介绍一种新的非参数自适应算法,其在参数上学习无限尺寸密度,以取消再现内核希尔伯特空间中的未知干扰。令人惊讶的是,所产生的控制输入承认,尽管其底层无限尺寸结构,但是尽管它的潜在无限尺寸结构实现了其实施的分析表达。虽然这种自适应输入具有丰富和富有敏感性的 - 例如,传统的线性参数化 - 其计算复杂性随时间线性增长,使其比其参数对应力相对较高。利用随机傅里叶特征的理论,我们提供了一种有效的随机实现,该实现恢复了经典参数方法的复杂性,同时可透明地保留非参数输入的表征性。特别地,我们的显式范围仅取决于系统的基础参数,允许我们所提出的算法有效地缩放到高维系统。作为该方法的说明,我们展示了随机近似算法学习由牛顿重力交互的十点批量组成的60维系统的预测模型的能力。
translated by 谷歌翻译
In many modern applications of deep learning the neural network has many more parameters than the data points used for its training. Motivated by those practices, a large body of recent theoretical research has been devoted to studying overparameterized models. One of the central phenomena in this regime is the ability of the model to interpolate noisy data, but still have test error lower than the amount of noise in that data. arXiv:1906.11300 characterized for which covariance structure of the data such a phenomenon can happen in linear regression if one considers the interpolating solution with minimum $\ell_2$-norm and the data has independent components: they gave a sharp bound on the variance term and showed that it can be small if and only if the data covariance has high effective rank in a subspace of small co-dimension. We strengthen and complete their results by eliminating the independence assumption and providing sharp bounds for the bias term. Thus, our results apply in a much more general setting than those of arXiv:1906.11300, e.g., kernel regression, and not only characterize how the noise is damped but also which part of the true signal is learned. Moreover, we extend the result to the setting of ridge regression, which allows us to explain another interesting phenomenon: we give general sufficient conditions under which the optimal regularization is negative.
translated by 谷歌翻译
普遍认为,执行不变性改善泛化。虽然这种方法享有广泛的人气,但它最近只有严格的理论证明这种福利的展示。在这项工作中,我们构建了Elesedy和Zaidi Arxiv的功能空间透视:2102.10333,当目标不变于Compact组的动作时,派生在内核Ridge回归中的不变性的严格零常规义务。我们研究了特征平均强制执行的不变性,并发现泛化由核心和组之间的相互作用的有效维度的概念来管理。在建立这种结果时,我们发现该组的行动诱导再生核心希尔伯特空间及其内核的正交分解,这可能对自己的权利感兴趣。
translated by 谷歌翻译
We consider the problem of estimating the optimal transport map between a (fixed) source distribution $P$ and an unknown target distribution $Q$, based on samples from $Q$. The estimation of such optimal transport maps has become increasingly relevant in modern statistical applications, such as generative modeling. At present, estimation rates are only known in a few settings (e.g. when $P$ and $Q$ have densities bounded above and below and when the transport map lies in a H\"older class), which are often not reflected in practice. We present a unified methodology for obtaining rates of estimation of optimal transport maps in general function spaces. Our assumptions are significantly weaker than those appearing in the literature: we require only that the source measure $P$ satisfies a Poincar\'e inequality and that the optimal map be the gradient of a smooth convex function that lies in a space whose metric entropy can be controlled. As a special case, we recover known estimation rates for bounded densities and H\"older transport maps, but also obtain nearly sharp results in many settings not covered by prior work. For example, we provide the first statistical rates of estimation when $P$ is the normal distribution and the transport map is given by an infinite-width shallow neural network.
translated by 谷歌翻译