了解特征学习如何影响概括是现代深度学习理论的最重要目标之一。在这里,我们研究了学习表示的能力如何影响一类简单模型的概括性能:深贝叶斯线性神经网络接受了非结构化高斯数据的训练。通过将深层随机特征模型与所有训练所有层的深网进行比较,我们将提供详细的表征宽度,深度,数据密度和先验不匹配之间的相互作用。我们表明,在存在标签噪声的情况下,这两种模型都显示出样本的双重变化行为。如果有狭窄的瓶颈层,那么随机特征模型还可以显示模型的双重变化,而深网不显示这些分歧。随机特征模型可以具有特定的宽度,这些宽度对于在给定的数据密度下是最佳的概括,同时使神经网络尽可能宽或狭窄始终是最佳的。此外,我们表明,对内核限制学习曲线的前阶校正无法区分所有培训所有层的随机特征模型和深层网络。综上所述,我们的发现开始阐明建筑细节如何影响这种简单的深层回归模型类别的概括性能。
translated by 谷歌翻译
最近的作品表明,有限的贝叶斯神经网络有时可能会越优于其无限堂兄弟,因为有限网络可以灵活地调整其内部表示。然而,我们对有限网络的学习隐藏层表示如何与无限网络的固定表示不同的理论理解仍然不完整。研究了对网络的扰动有限宽度校正,但已经研究过的网络,但学习特征的渐近学尚未完全表征。在这里,我们认为具有线性读数和高斯可能性的任何贝叶斯网络的平均特征内核的领先有限宽度校正具有很大程度上的普遍形式。我们明确地说明了三个易行网络架构:深线性完全连接和卷积网络,以及具有单个非线性隐藏层的网络。我们的结果开始阐明任务相关的学习信号如何塑造宽阔的贝叶斯神经网络的隐藏层表示。
translated by 谷歌翻译
深度贝叶斯神经网络中的推断仅在无限宽度的限制中完全理解,其中通过增加深度洗掉的后柔性和后部预测到浅高斯工艺。在这里,我们将有限的深度线性贝叶斯神经网络解释为跨输出通道的高斯过程预测器的数据依赖性比例混合物。我们利用这一观察来研究这些网络中的代表学习,允许我们在统一框架内的先前研究中连接限制结果。总的来说,这些结果推进了对深度影响推论的分析理解,这是一类简单的贝叶斯神经网络的推论。
translated by 谷歌翻译
强大的机器学习模型的开发中的一个重要障碍是协变量的转变,当训练和测试集的输入分布时发生的分配换档形式在条件标签分布保持不变时发生。尽管现实世界应用的协变量转变普遍存在,但在现代机器学习背景下的理论理解仍然缺乏。在这项工作中,我们检查协变量的随机特征回归的精确高尺度渐近性,并在该设置中提出了限制测试误差,偏差和方差的精确表征。我们的结果激发了一种自然部分秩序,通过协变速转移,提供足够的条件来确定何时何时损害(甚至有助于)测试性能。我们发现,过度分辨率模型表现出增强的协会转变的鲁棒性,为这种有趣现象提供了第一个理论解释之一。此外,我们的分析揭示了分销和分发外概率性能之间的精确线性关系,为这一令人惊讶的近期实证观察提供了解释。
translated by 谷歌翻译
This article concerns Bayesian inference using deep linear networks with output dimension one. In the interpolating (zero noise) regime we show that with Gaussian weight priors and MSE negative log-likelihood loss both the predictive posterior and the Bayesian model evidence can be written in closed form in terms of a class of meromorphic special functions called Meijer-G functions. These results are non-asymptotic and hold for any training dataset, network depth, and hidden layer widths, giving exact solutions to Bayesian interpolation using a deep Gaussian process with a Euclidean covariance at each layer. Through novel asymptotic expansions of Meijer-G functions, a rich new picture of the role of depth emerges. Specifically, we find that the posteriors in deep linear networks with data-independent priors are the same as in shallow networks with evidence maximizing data-dependent priors. In this sense, deep linear networks make provably optimal predictions. We also prove that, starting from data-agnostic priors, Bayesian model evidence in wide networks is only maximized at infinite depth. This gives a principled reason to prefer deeper networks (at least in the linear case). Finally, our results show that with data-agnostic priors a novel notion of effective depth given by \[\#\text{hidden layers}\times\frac{\#\text{training data}}{\text{network width}}\] determines the Bayesian posterior in wide linear networks, giving rigorous new scaling laws for generalization error.
translated by 谷歌翻译
我们分析了通过梯度流通过自洽动力场理论训练的无限宽度神经网络中的特征学习。我们构建了确定性动力学阶参数的集合,该参数是内部产物内核,用于在成对的时间点中,每一层中隐藏的单位激活和梯度,从而减少了通过训练对网络活动的描述。这些内核顺序参数共同定义了隐藏层激活分布,神经切线核的演变以及因此输出预测。我们表明,现场理论推导恢复了从Yang和Hu(2021)获得张量程序的无限宽度特征学习网络的递归随机过程。对于深线性网络,这些内核满足一组代数矩阵方程。对于非线性网络,我们提供了一个交替的采样过程,以求助于内核顺序参数。我们提供了与各种近似方案的自洽解决方案的比较描述。最后,我们提供了更现实的设置中的实验,这些实验表明,在CIFAR分类任务上,在不同宽度上保留了CNN的CNN的损耗和内核动力学。
translated by 谷歌翻译
教师 - 学生模型提供了一个框架,其中可以以封闭形式描述高维监督学习的典型情况。高斯I.I.D的假设然而,可以认为典型教师 - 学生模型的输入数据可以被认为过于限制,以捕获现实数据集的行为。在本文中,我们介绍了教师和学生可以在不同的空格上行动的模型的高斯协变态概括,以固定的,而是通用的特征映射。虽然仍处于封闭形式的仍然可解决,但这种概括能够捕获广泛的现实数据集的学习曲线,从而兑现师生框架的潜力。我们的贡献是两倍:首先,我们证明了渐近培训损失和泛化误差的严格公式。其次,我们呈现了许多情况,其中模型的学习曲线捕获了使用内​​核回归和分类学习的现实数据集之一,其中盒出开箱特征映射,例如随机投影或散射变换,或者与散射变换预先学习的 - 例如通过培训多层神经网络学到的特征。我们讨论了框架的权力和局限性。
translated by 谷歌翻译
深神经网络(DNN)是用于压缩和蒸馏信息的强大工具。由于它们的规模和复杂性,通常涉及数十亿间相互作用的内部自由度,精确分析方法通常会缩短。这种情况下的共同策略是识别平均潜在的快速微观变量的不稳定行为的缓慢自由度。在这里,我们在训练结束时识别在过度参数化的深卷积神经网络(CNNS)中发生的尺度的分离。它意味着神经元预激活与几乎高斯的方式与确定性潜在内核一起波动。在对于具有无限许多频道的CNN来说,这些内核是惰性的,对于有限的CNNS,它们以分析的方式通过数据适应和学习数据。由此产生的深度学习的热力学理论产生了几种深度非线性CNN玩具模型的准确预测。此外,它还提供了新的分析和理解CNN的方法。
translated by 谷歌翻译
我们认为越来越复杂的矩阵去噪和贝叶斯最佳设置中的文章学习模型,在挑战性的政权中,在矩阵推断出与系统尺寸线性的排名增加。这与大多数现有的文献相比,与低秩(即常数级别)制度相关的文献相反。我们首先考虑一类旋转不变的矩阵去噪,使用来自随机矩阵理论的标准技术来计算的互动信息和最小均方误差。接下来,我们分析了字典学习的更具挑战性模式。为此,我们将复制方法与随机矩阵理论一起介绍了复制品方法的新组合,共同矩阵理论,Coined光谱副本方法。它允许我们猜测隐藏表示与字典学习问题的嘈杂数据之间的相互信息的变分形式,以及定量最佳重建误差的重叠。所提出的方法从$ \ theta(n ^ 2)$(矩阵条目)到$ \ theta(n)$(特征值或奇异值)减少自由度的数量,并产生的互信息的库仑气体表示让人想起物理学中的矩阵模型。主要成分是使用Harishchandra-Itzykson-Zuber球形积分,结合新的复制对称解耦Ansatz,在特定重叠矩阵的特征值(或奇异值)的概率分布的水平上。
translated by 谷歌翻译
我们引入了重新定性,这是一种数据依赖性的重新聚集化,将贝叶斯神经网络(BNN)转化为后部的分布,其KL对BNN对BNN的差异随着层宽度的增长而消失。重新定义图直接作用于参数,其分析简单性补充了宽BNN在功能空间中宽BNN的已知神经网络过程(NNGP)行为。利用重新定性,我们开发了马尔可夫链蒙特卡洛(MCMC)后采样算法,该算法将BNN更快地混合在一起。这与MCMC在高维度上的表现差异很差。对于完全连接和残留网络,我们观察到有效样本量高达50倍。在各个宽度上都取得了改进,并在层宽度的重新培训和标准BNN之间的边缘。
translated by 谷歌翻译
与经典线性模型不同,非线性生成模型在统计学习的文献中被稀疏地解决。这项工作旨在引起对这些模型及其保密潜力的关注。为此,我们调用了复制方法,以在反相反的问题中得出渐近归一化的横熵,其生成模型由具有通用协方差函数的高斯随机场描述。我们的推导进一步证明了贝叶斯估计量的渐近统计解耦,并为给定的非线性模型指定了解耦设置。复制解决方案描述了严格的非线性模型建立了全有或全无的相变:存在一个关键负载,最佳贝叶斯推断从完美的学习变为不相关的学习。基于这一发现,我们设计了一种新的安全编码方案,该方案可实现窃听通道的保密能力。这个有趣的结果意味着,严格的非线性生成模型是完美的,没有任何安全编码。我们通过分析说明性模型的完全安全和可靠的推论来证明后一种陈述是合理的。
translated by 谷歌翻译
现代深度学习系统的区别特征之一是,它们通常采用利用巨大数量的参数,通常在数百万中使用的神经网络架构。虽然这个范例对大型网络的性质启发了重要研究,但是致力于这些网络通常用于建模大型复杂数据集的事实,而且它们本身可能包含数百万甚至数十亿的约束的事实。在这项工作中,我们专注于这种高维制度,其中数据集大小和特征数量往往是无限的。我们分析随机重量矩阵$ W $和随机偏置向量$ B $的随机特征回归的性能$ f = f(wx + b)$ b $,获取用于渐近培训的确切公式,并对数据产生的数据进行测试错误一个线性教师模型。偏差的作用可以理解为参数化在激活功能上的分布,并且我们的分析直接推广到这种分布,即使是传统的附加偏差不表达的那些分布。有趣的是,我们发现非线性的混合物可以通过最好的单一非线性来改善训练和测试误差,这表明非线性的混合物可能对近似内核方法或神经网络架构设计有用。
translated by 谷歌翻译
建立深度学习的理论基础的一个关键挑战是神经网络的复杂优化动态,由大量网络参数之间的高维相互作用产生。这种非琐碎的动态导致有趣的行为,例如概括误差的“双重下降”的现象。这种现象的越常见的方面对应于模型 - 明智的双下降,其中测试误差具有增加模型复杂性的第二下降,超出经典的U形误差曲线。在这项工作中,我们研究了研究误差在训练时间增加时进行了测试误差的较低学习的巨头双重下降的起源。通过利用统计物理学的工具,我们研究了展示了与深神经网络中的EPOCH-WISE Double Countcle的线性师生设置。在此设置中,我们导出了封闭式的分析表达式,用于培训泛化误差的演变。我们发现双重血统可以归因于不同尺度的不同特征:作为快速学习功能过度装备,较慢的学习功能开始适合,导致测试错误的第二个下降。我们通过数字实验验证了我们的研究结果,其中我们的理论准确预测了实证发现,并与深神经网络中的观察结果保持一致。
translated by 谷歌翻译
现代深度神经网络(DNN)的成功基于其在多层转换投入以建立良好高级表示的能力。因此,了解这种表示学习过程至关重要。但是,我们不能使用涉及无限宽度限制的标准理论方法,因为它们消除了代表性学习。因此,我们开发了一个新的无限宽度限制,即表示的学习限制,该限制表现出表示形式的学习反映,但在有限宽度网络中,但同时仍然非常容易处理。例如,表示学习限制在深处的高斯过程中提供了恰好具有多种内核的多元高斯后期,包括所有各向同性(距离依赖)内核。我们得出一个优雅的目标,描述了每个网络层如何学习在输入和输出之间插值的表示形式。最后,我们使用此限制和目标来开发对内核方法的灵活,深刻的概括,我们称之为深内核机器(DKMS)。我们表明,可以使用受高斯过程文献中诱导点方法启发的方法将DKMS缩放到大数据集,并且我们表明DKMS表现出优于其他基于内核方法的性能。
translated by 谷歌翻译
许多最近的作品表明,过度分辨率隐含地降低了MIN-NORM Interpolator和Max-Maxifiers的方差。这些调查结果表明,RIDGE正则化在高维度下具有消失的益处。我们通过表明,即使在没有噪声的情况下,避免通过脊正则化的插值可以显着提高泛化。我们证明了这种现象,用于线性回归和分类的强大风险,因此提供了强大的过度装备的第一个理论结果。
translated by 谷歌翻译
We discuss the prediction accuracy of assumed statistical models in terms of prediction errors for the generalized linear model and penalized maximum likelihood methods. We derive the forms of estimators for the prediction errors: C p criterion, information criteria, and leave-one-out cross validation (LOOCV) error, using the generalized approximate message passing (GAMP) algorithm and replica method. These estimators coincide with each other when the number of model parameters is sufficiently small; however, there is a discrepancy between them in particular in the overparametrized region where the number of model parameters is larger than the data dimension. In this paper, we review the prediction errors and corresponding estimators, and discuss their differences. In the framework of GAMP, we show that the information criteria can be expressed by using the variance of the estimates. Further, we demonstrate how to approach LOOCV error from the information criteria by utilizing the expression provided by GAMP.
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
我们证明了由例如He等人提出的广泛使用的方法。(2015年)并使用梯度下降对最小二乘损失进行训练并不普遍。具体而言,我们描述了一大批一维数据生成分布,较高的概率下降只会发现优化景观的局部最小值不好,因为它无法将其偏离偏差远离其初始化,以零移动。。事实证明,在这些情况下,即使目标函数是非线性的,发现的网络也基本执行线性回归。我们进一步提供了数值证据,表明在实际情况下,对于某些多维分布而发生这种情况,并且随机梯度下降表现出相似的行为。我们还提供了有关初始化和优化器的选择如何影响这种行为的经验结果。
translated by 谷歌翻译
对于某种缩放的随机梯度下降(SGD)的初始化,已经显示宽神经网络(NN)通过再现核Hilbert空间(RKHS)方法来近似近似。最近的实证工作表明,对于某些分类任务,RKHS方法可以替换NNS而无需大量的性能损失。另一方面,已知两层NNS编码比RKHS更丰富的平滑度等级,并且我们知道SGD培训的NN可提供的特殊示例可提供胜过RKHS。即使在宽网络限制中,这也是如此,对于初始化的不同缩放。我们如何调和上述索赔?任务是否优于RKHS?如果协变量近在各向同性,RKHS方法患有维度的诅咒,而NNS可以通过学习最佳的低维表示来克服它。在这里,我们表明,如果协变量显示与目标函数相同的低维结构,则这种维度的这种诅咒变得更温和,并且我们精确地表征了这个权衡。在这些结果上建立,我们提出了可以在早期工作中观察到的统一框架中捕获的尖刺协变量模型。我们假设这种潜伏的低维结构存在于图像分类中。我们通过表明训练分配的特定扰动降低了比NN更大的更显高度显着的训练方法的特定扰动来测试这些假设。
translated by 谷歌翻译
量子哈密顿学习和量子吉布斯采样的双重任务与物理和化学中的许多重要问题有关。在低温方案中,这些任务的算法通常会遭受施状能力,例如因样本或时间复杂性差而遭受。为了解决此类韧性,我们将量子自然梯度下降的概括引入了参数化的混合状态,并提供了稳健的一阶近似算法,即量子 - 固定镜下降。我们使用信息几何学和量子计量学的工具证明了双重任务的数据样本效率,因此首次将经典Fisher效率的开创性结果推广到变异量子算法。我们的方法扩展了以前样品有效的技术,以允许模型选择的灵活性,包括基于量子汉密尔顿的量子模型,包括基于量子的模型,这些模型可能会规避棘手的时间复杂性。我们的一阶算法是使用经典镜下降二元性的新型量子概括得出的。两种结果都需要特殊的度量选择,即Bogoliubov-Kubo-Mori度量。为了从数值上测试我们提出的算法,我们将它们的性能与现有基准进行了关于横向场ISING模型的量子Gibbs采样任务的现有基准。最后,我们提出了一种初始化策略,利用几何局部性来建模状态的序列(例如量子 - 故事过程)的序列。我们从经验上证明了它在实际和想象的时间演化的经验上,同时定义了更广泛的潜在应用。
translated by 谷歌翻译