贝叶斯神经网络与高斯过程之间的联系在过去几年中获得了很多关注,其中隐藏的单位在层宽趋于无穷大时收敛到高斯过程限制。支撑此结果是隐藏单元在无限宽度限制中变得独立。我们的宗旨是在实际有限宽度贝叶斯神经网络中阐明隐藏的单位依赖性质。除了理论结果之外,我们除了对隐藏的单位依赖性属性的深度和宽度影响。
translated by 谷歌翻译
Whilst deep neural networks have shown great empirical success, there is still much work to be done to understand their theoretical properties. In this paper, we study the relationship between random, wide, fully connected, feedforward networks with more than one hidden layer and Gaussian processes with a recursive kernel definition. We show that, under broad conditions, as we make the architecture increasingly wide, the implied random function converges in distribution to a Gaussian process, formalising and extending existing results by Neal (1996) to deep networks. To evaluate convergence rates empirically, we use maximum mean discrepancy. We then compare finite Bayesian deep networks from the literature to Gaussian processes in terms of the key predictive quantities of interest, finding that in some cases the agreement can be very close. We discuss the desirability of Gaussian process behaviour and review non-Gaussian alternative models from the literature. 1
translated by 谷歌翻译
我们考虑贝叶斯逆问题,其中假设未知状态是具有不连续结构的函数先验。介绍了基于具有重型重量的神经网络输出的一类现有分布,其具有关于这种网络的无限宽度限制的现有结果。理论上,即使网络宽度是有限的,我们也显示来自这种前导者的样本具有所需的不连续性,使得它们适合于边缘保留反转。在数值上,我们考虑在一个和二维空间域上定义的解卷积问题,以说明这些前景的有效性;地图估计,尺寸 - 鲁棒MCMC采样和基于集合的近似值用于探测后部分布。点估计的准确性显示出超过从非重尾前沿获得的那些,并且显示不确定性估计以提供更有用的定性信息。
translated by 谷歌翻译
近年来,人们对无限宽网络与高斯流程之间的对应关系产生了越来越多的兴趣。尽管当前的神经网络高斯过程理论具有有效性和优雅性,但据我们所知,所有神经网络高斯过程基本上都是通过增加宽度引起的。但是,在深度学习的时代,关于神经网络的更多关注是它的深度以及深度如何影响网络的行为。受宽度深度对称考虑因素的启发,我们使用快捷网络表明,增加神经网络的深度也会引起高斯过程,这是对现有理论的宝贵补充,并有助于揭示的真实情况深度学习。除了深入提出的高斯过程之外,我们从理论上表征了其均匀的紧密度和高斯工艺过程中最小的特征值。这些特征不仅可以增强我们对拟议深度引起的高斯过程的理解,而且还可以为未来的应用铺平道路。最后,我们通过对两个基准数据集的回归实验来检查提出的高斯过程的性能。
translated by 谷歌翻译
宽度限制最近是深度学习研究的焦点:模数计算实用,做更广泛的网络优于较窄的网络?当传统网络增益具有宽度的代表性,潜在掩盖任何负面影响,回答这个问题一直在具有挑战性。我们在本文中的分析通过神经网络的概括到深层高斯过程(深GP),一类非参数分层模型,占据了神经网络的非参数分层模型。在这样做时,我们的目标是了解一旦对给定建模任务的容量足够的容量,才能了解宽度(标准)神经网络。我们深入GP的理论和经验结果表明,大宽度可能对等级模型有害。令人惊讶的是,我们证明了甚至非参数的深GP融合到高斯过程,实际上变得浅薄而没有任何代表性的力量。对应于数据适应性基本函数的混合的后后,与宽度变得较小。我们的尾部分析表明,宽度和深度具有相反的影响:深度突出了模型的非高斯,而宽度使模型越来越高斯。我们发现有一个“甜蜜点”,可以在限制GP行为防止适应性之前最大化测试性能,以宽度= 1或宽度= 2用于非参数深GP。这些结果对具有L2正规化训练的传统神经网络中的相同现象(类似于参数的高斯),使得这种神经网络可能需要多达500至1000个隐藏单元的现象,以获得足够的容量 - 取决于数据集 - 但进一步的宽度降低了性能。
translated by 谷歌翻译
对于由缺陷线性回归中的标签噪声引起的预期平均平方概率,我们证明了无渐近分布的下限。我们的下部结合概括了过度公共数据(内插)制度的类似已知结果。与最先前的作品相比,我们的分析适用于广泛的输入分布,几乎肯定的全排列功能矩阵,允许我们涵盖各种类型的确定性或随机特征映射。我们的下限是渐近的锐利,暗示在存在标签噪声时,缺陷的线性回归不会在任何这些特征映射中围绕内插阈值进行良好的。我们详细分析了强加的假设,并为分析(随机)特征映射提供了理论。使用此理论,我们可以表明我们的假设对于具有(Lebesgue)密度的输入分布以及随机深神经网络给出的特征映射,具有Sigmoid,Tanh,SoftPlus或Gelu等分析激活功能。作为进一步的例子,我们示出了来自随机傅里叶特征和多项式内核的特征映射也满足我们的假设。通过进一步的实验和分析结果,我们补充了我们的理论。
translated by 谷歌翻译
为了理论上了解训练有素的深神经网络的行为,有必要研究来自随机初始化的梯度方法引起的动态。然而,这些模型的非线性和组成结构使得这些动态难以分析。为了克服这些挑战,最近出现了大宽度的渐近学作为富有成效的观点,并导致了对真实世界的深网络的实用洞察。对于双层神经网络,已经通过这些渐近学理解,训练模型的性质根据初始随机权重的规模而变化,从内核制度(大初始方差)到特征学习制度(对于小初始方差)。对于更深的网络,更多的制度是可能的,并且在本文中,我们详细研究了与神经网络的“卑鄙字段”限制相对应的“小”初始化的特定选择,我们称之为可分配的参数化(IP)。首先,我们展示了标准I.I.D.零平均初始化,具有多于四个层的神经网络的可集参数,从无限宽度限制的静止点开始,并且不会发生学习。然后,我们提出了各种方法来避免这种琐碎的行为并详细分析所得到的动态。特别是,这些方法中的一种包括使用大的初始学习速率,并且我们表明它相当于最近提出的最大更新参数化$ \ mu $ p的修改。我们将结果与图像分类任务的数值实验确认,其另外显示出在尚未捕获的激活功能的各种选择之间的行为中的强烈差异。
translated by 谷歌翻译
This article concerns Bayesian inference using deep linear networks with output dimension one. In the interpolating (zero noise) regime we show that with Gaussian weight priors and MSE negative log-likelihood loss both the predictive posterior and the Bayesian model evidence can be written in closed form in terms of a class of meromorphic special functions called Meijer-G functions. These results are non-asymptotic and hold for any training dataset, network depth, and hidden layer widths, giving exact solutions to Bayesian interpolation using a deep Gaussian process with a Euclidean covariance at each layer. Through novel asymptotic expansions of Meijer-G functions, a rich new picture of the role of depth emerges. Specifically, we find that the posteriors in deep linear networks with data-independent priors are the same as in shallow networks with evidence maximizing data-dependent priors. In this sense, deep linear networks make provably optimal predictions. We also prove that, starting from data-agnostic priors, Bayesian model evidence in wide networks is only maximized at infinite depth. This gives a principled reason to prefer deeper networks (at least in the linear case). Finally, our results show that with data-agnostic priors a novel notion of effective depth given by \[\#\text{hidden layers}\times\frac{\#\text{training data}}{\text{network width}}\] determines the Bayesian posterior in wide linear networks, giving rigorous new scaling laws for generalization error.
translated by 谷歌翻译
通过建立神经网络和内核方法之间的联系,无限宽度极限阐明了深度学习的概括和优化方面。尽管它们的重要性,但这些内核方法的实用性在大规模学习设置中受到限制,因为它们(超)二次运行时和内存复杂性。此外,大多数先前关于神经内核的作品都集中在relu激活上,这主要是由于其受欢迎程度,但这也是由于很难计算此类内核来进行一般激活。在这项工作中,我们通过提供进行一般激活的方法来克服此类困难。首先,我们编译和扩展激活功能的列表,该函数允许精确的双重激活表达式计算神经内核。当确切的计算未知时,我们提出有效近似它们的方法。我们提出了一种快速的素描方法,该方法近似于任何多种多层神经网络高斯过程(NNGP)内核和神经切线核(NTK)矩阵,以实现广泛的激活功能,这超出了常见的经过分析的RELU激活。这是通过显示如何使用任何所需激活函​​数的截短的Hermite膨胀来近似神经内核来完成的。虽然大多数先前的工作都需要单位球体上的数据点,但我们的方法不受此类限制的影响,并且适用于$ \ Mathbb {r}^d $中的任何点数据集。此外,我们为NNGP和NTK矩阵提供了一个子空间嵌入,具有接近输入的距离运行时和接近最佳的目标尺寸,该目标尺寸适用于任何\ EMPH {均质}双重激活功能,具有快速收敛的Taylor膨胀。从经验上讲,关于精确的卷积NTK(CNTK)计算,我们的方法可实现$ 106 \ times $速度,用于在CIFAR-10数据集上的5层默特网络的近似CNTK。
translated by 谷歌翻译
最近的作品表明,有限的贝叶斯神经网络有时可能会越优于其无限堂兄弟,因为有限网络可以灵活地调整其内部表示。然而,我们对有限网络的学习隐藏层表示如何与无限网络的固定表示不同的理论理解仍然不完整。研究了对网络的扰动有限宽度校正,但已经研究过的网络,但学习特征的渐近学尚未完全表征。在这里,我们认为具有线性读数和高斯可能性的任何贝叶斯网络的平均特征内核的领先有限宽度校正具有很大程度上的普遍形式。我们明确地说明了三个易行网络架构:深线性完全连接和卷积网络,以及具有单个非线性隐藏层的网络。我们的结果开始阐明任务相关的学习信号如何塑造宽阔的贝叶斯神经网络的隐藏层表示。
translated by 谷歌翻译
The study of feature propagation at initialization in neural networks lies at the root of numerous initialization designs. An assumption very commonly made in the field states that the pre-activations are Gaussian. Although this convenient Gaussian hypothesis can be justified when the number of neurons per layer tends to infinity, it is challenged by both theoretical and experimental works for finite-width neural networks. Our major contribution is to construct a family of pairs of activation functions and initialization distributions that ensure that the pre-activations remain Gaussian throughout the network's depth, even in narrow neural networks. In the process, we discover a set of constraints that a neural network should fulfill to ensure Gaussian pre-activations. Additionally, we provide a critical review of the claims of the Edge of Chaos line of works and build an exact Edge of Chaos analysis. We also propose a unified view on pre-activations propagation, encompassing the framework of several well-known initialization procedures. Finally, our work provides a principled framework for answering the much-debated question: is it desirable to initialize the training of a neural network whose pre-activations are ensured to be Gaussian?
translated by 谷歌翻译
我们指出,对于随机深神经网络(SDNN)的隐藏层以及整个SDNN的输出,浓度和martingale不平等现象。这些结果使我们能够引入预期的分类器(EC),并为EC的分类误差提供概率上限。我们还通过最佳的停止过程陈述了SDNN的最佳层数。我们将分析应用于具有Relu激活函数的前馈神经网络的随机版本。
translated by 谷歌翻译
The logit outputs of a feedforward neural network at initialization are conditionally Gaussian, given a random covariance matrix defined by the penultimate layer. In this work, we study the distribution of this random matrix. Recent work has shown that shaping the activation function as network depth grows large is necessary for this covariance matrix to be non-degenerate. However, the current infinite-width-style understanding of this shaping method is unsatisfactory for large depth: infinite-width analyses ignore the microscopic fluctuations from layer to layer, but these fluctuations accumulate over many layers. To overcome this shortcoming, we study the random covariance matrix in the shaped infinite-depth-and-width limit. We identify the precise scaling of the activation function necessary to arrive at a non-trivial limit, and show that the random covariance matrix is governed by a stochastic differential equation (SDE) that we call the Neural Covariance SDE. Using simulations, we show that the SDE closely matches the distribution of the random covariance matrix of finite networks. Additionally, we recover an if-and-only-if condition for exploding and vanishing norms of large shaped networks based on the activation function.
translated by 谷歌翻译
在现代深度学习中,最近又越来越多的文献,关于深高斯神经网络(NNS)的大宽度渐近性能之间的相互作用,即具有高斯分布重量的深NNS和高斯随机过程(SPS)。事实证明,这种相互作用在高斯SP先验下的贝叶斯推论中至关重要,对通过梯度下降训练的无限宽的深NN的内核回归以及无限宽的NN中的信息传播。通过经验分析的激励,该经验分析表明了用稳定的NN重量代替高斯分布的潜力,在本文中,我们对(完全连接的)进料深度稳定NN的大差异行为进行了严格的分析,即深NNS,即具有稳定的分布重量。我们表明,随着宽度共同在NN的层上共同进入无限,即``关节生长''的设置,重新缩放的深稳定nn弱收敛到稳定的SP,其分布通过NN的层递归地表征。 NN的三角结构,这是一个非标准的渐近问题,我们提出了一种独立利益的感应方法。然后,我们在````''''下建立了对稳定的SP的Sup-Norm收敛速率,``关节增长和``顺序增长''的宽度在NN的层上。这样的结果提供了'关节增长'和``顺序增长''的差异,表明前者的速率比速度慢。后者根据层的深度和NN的投入数量。我们的工作扩展了有关深gaussian nns无限宽限制的一些最新结果,以至于更通用的深稳定稳定性NNS,这是第一个结果,这是对融合率的第一个结果。``联合增长''环境。
translated by 谷歌翻译
使用神经网络学习依赖于可代表功能的复杂性,但更重要的是,典型参数的特定分配与不同复杂度的功能。将激活区域的数量作为复杂性度量,最近的作品表明,深度释放网络的实际复杂性往往远远远非理论最大值。在这项工作中,我们表明这种现象也发生在具有颤扬(多参数)激活功能的网络中,并且在考虑分类任务中的决策边界时。我们还表明参数空间具有多维全维区域,具有广泛不同的复杂性,并在预期的复杂性上获得非竞争下限。最后,我们调查了不同的参数初始化程序,并表明他们可以提高培训的收敛速度。
translated by 谷歌翻译
我们研究了与深神经网络分析有关的随机矩阵产物的奇异值的分布。然而,矩阵类似于样品协方差矩阵的乘积,一个重要的区别是,假定的种群协方差矩阵是非随机或随机的,但独立于统计和随机矩阵理论中的随机数据矩阵,现在是随机数据的某些功能矩阵(深神经网络术语中的突触重量矩阵)。该问题在最近的工作[25,13]中已通过使用自由概率理论的技术。但是,自由概率理论涉及独立于数据矩阵的人口协方差矩阵,因此必须证明其适用性。使用随机矩阵理论的技术版本,对于具有独立条目的高斯数据矩阵,具有独立条目的高斯数据矩阵(一种自由概率的标准分析模型)的理由。在本文中,我们使用另一种更简化的随机矩阵理论技术的版本将[22]的结果推广到突触重量矩阵的条目仅是独立分布的随机变量,均值和有限第四,片刻。特别是,这扩展了所谓的宏观普遍性在被考虑的随机矩阵上的特性。
translated by 谷歌翻译
虽然已知辍学是一种成功的正规化技术,但仍缺乏对导致成功的机制的见解。我们介绍了\ emph {重量膨胀}的概念,这增加了由权重协方差矩阵的列或行载体跨越的并行曲线的签名体积,并表明重量膨胀是增加PAC中概括的有效手段。 - bayesian设置。我们提供了一个理论上的论点,即辍学会导致体重扩大和对辍学和体重扩张之间相关性的广泛经验支持。为了支持我们的假设,即可以将重量扩张视为增强的概括能力的\ emph {指示器},而不仅仅是副产品,我们还研究了实现重量扩展的其他方法(resp。\ contraction \ contraction ),发现它们通常会导致(分别\ \降低)的概括能力。这表明辍学是一种有吸引力的正规化器,因为它是一种用于获得体重扩展的计算廉价方法。这种洞察力证明了辍学者作为正规化器的作用,同时为确定正规化器铺平了道路,这些正规化器有望通过体重扩张来改善概括。
translated by 谷歌翻译
最近有关于高斯神经网络(NNS)的大宽度特性的文献,即,其权重根据高斯分布分布。两个流行的问题是:i)研究NNS的大宽度行为,这些行为在高斯工艺方面提供了无限宽的限制的表征; ii)对NNS的大宽度训练动力学的研究,该动力在训练后NN和执行核回归之间具有等效性,并以确定性核为确定性内核,称为神经切线核(NTK)。在本文中,我们考虑了$ \ alpha $ stable NNS的这些问题,通过假设NN的权重分配为$ \ alpha $ - 稳定分布,它通过$ \ alpha \ in(0,2] $,概括了Gaussian nns。即带有沉重的尾巴的分布。对于带有relu激活功能的浅$ \ alpha $ stable nns,我们表明,如果NN的宽度转移到无穷大,那么重新缩放的NN弱收敛到$ \ alpha $ stable的过程,即随机的过程具有$ \ alpha $稳定的有限维分布的过程。作为高斯设置的新颖性,在$ \ alpha $稳定的设置中,激活功能的选择会影响NN的缩放,即:实现无限宽的$ \ alpha $稳定过程,relu功能需要相对于子线性函数进行附加的对数缩放。那么,我们的主要贡献是对浅的$ \ alpha $ stable relu-nns的NTK分析,这是领导的在训练恢复的NN和执行内核回归机智之间具有等效性h $(\ alpha/2)$ - 稳定的随机内核。这种内核的随机性是相对于高斯环境的进一步新颖性,即:在$ \ alpha $稳定性中,初始化时NN的随机性在NTK分析中不会消失,从而诱导了分布的分布基础内核回归的内核。
translated by 谷歌翻译
We investigate the capacity, convexity and characterization of a general family of normconstrained feed-forward networks.
translated by 谷歌翻译
深度分离结果提出了对深度神经网络过较浅的架构的好处的理论解释,建立前者具有卓越的近似能力。然而,没有已知的结果,其中更深的架构利用这种优势成为可提供的优化保证。我们证明,当数据由具有满足某些温和假设的径向对称的分布产生的数据时,梯度下降可以使用具有两层S形激活的深度2神经网络有效地学习球指示器功能,并且隐藏层固定在一起训练。由于众所周知,当使用用单层非线性的深度2网络(Safran和Shamir,2017)使用深度2网络时,球指示器难以近似于一定的重型分配,这建立了我们最好的知识,基于第一优化的分离结果,其中近似架构的近似效益在实践中可怕的。我们的证明技术依赖于随机特征方法,该方法减少了用单个神经元学习的问题,其中新工具需要在数据分布重尾时显示梯度下降的收敛。
translated by 谷歌翻译