Deep Gaussian工艺(DGP)作为贝叶斯学习的先验模型直观地利用功能组成中的表达能力。 DGP还提供了不同的建模功能,但是推断很具有挑战性,因为潜在功能空间的边缘化是无法处理的。借助Bochner定理,具有平方指数内核的DGP可以看作是由随机特征层,正弦和余弦激活单元以及随机重量层组成的深度三角网络。在具有瓶颈的宽极限中,我们表明重量空间视图产生了相同的有效协方差函数,该函数先前在功能空间中获得。同样,在网络参数上改变先前的分布相当于使用不同的内核。因此,DGP可以转换为深瓶颈触发网络,可以通过该网络获得确切的最大后验估计。有趣的是,网络表示可以研究DGP的神经切线核,这也可能揭示了棘手的预测分布的平均值。从统计上讲,与浅网络不同,有限宽度的深网具有与极限内核的协方差,并且内部和外部宽度可能在功能学习中起不同的作用。存在数值模拟以支持我们的发现。
translated by 谷歌翻译
宽度限制最近是深度学习研究的焦点:模数计算实用,做更广泛的网络优于较窄的网络?当传统网络增益具有宽度的代表性,潜在掩盖任何负面影响,回答这个问题一直在具有挑战性。我们在本文中的分析通过神经网络的概括到深层高斯过程(深GP),一类非参数分层模型,占据了神经网络的非参数分层模型。在这样做时,我们的目标是了解一旦对给定建模任务的容量足够的容量,才能了解宽度(标准)神经网络。我们深入GP的理论和经验结果表明,大宽度可能对等级模型有害。令人惊讶的是,我们证明了甚至非参数的深GP融合到高斯过程,实际上变得浅薄而没有任何代表性的力量。对应于数据适应性基本函数的混合的后后,与宽度变得较小。我们的尾部分析表明,宽度和深度具有相反的影响:深度突出了模型的非高斯,而宽度使模型越来越高斯。我们发现有一个“甜蜜点”,可以在限制GP行为防止适应性之前最大化测试性能,以宽度= 1或宽度= 2用于非参数深GP。这些结果对具有L2正规化训练的传统神经网络中的相同现象(类似于参数的高斯),使得这种神经网络可能需要多达500至1000个隐藏单元的现象,以获得足够的容量 - 取决于数据集 - 但进一步的宽度降低了性能。
translated by 谷歌翻译
Whilst deep neural networks have shown great empirical success, there is still much work to be done to understand their theoretical properties. In this paper, we study the relationship between random, wide, fully connected, feedforward networks with more than one hidden layer and Gaussian processes with a recursive kernel definition. We show that, under broad conditions, as we make the architecture increasingly wide, the implied random function converges in distribution to a Gaussian process, formalising and extending existing results by Neal (1996) to deep networks. To evaluate convergence rates empirically, we use maximum mean discrepancy. We then compare finite Bayesian deep networks from the literature to Gaussian processes in terms of the key predictive quantities of interest, finding that in some cases the agreement can be very close. We discuss the desirability of Gaussian process behaviour and review non-Gaussian alternative models from the literature. 1
translated by 谷歌翻译
现代深度神经网络(DNN)的成功基于其在多层转换投入以建立良好高级表示的能力。因此,了解这种表示学习过程至关重要。但是,我们不能使用涉及无限宽度限制的标准理论方法,因为它们消除了代表性学习。因此,我们开发了一个新的无限宽度限制,即表示的学习限制,该限制表现出表示形式的学习反映,但在有限宽度网络中,但同时仍然非常容易处理。例如,表示学习限制在深处的高斯过程中提供了恰好具有多种内核的多元高斯后期,包括所有各向同性(距离依赖)内核。我们得出一个优雅的目标,描述了每个网络层如何学习在输入和输出之间插值的表示形式。最后,我们使用此限制和目标来开发对内核方法的灵活,深刻的概括,我们称之为深内核机器(DKMS)。我们表明,可以使用受高斯过程文献中诱导点方法启发的方法将DKMS缩放到大数据集,并且我们表明DKMS表现出优于其他基于内核方法的性能。
translated by 谷歌翻译
It has long been known that a single-layer fully-connected neural network with an i.i.d. prior over its parameters is equivalent to a Gaussian process (GP), in the limit of infinite network width. This correspondence enables exact Bayesian inference for infinite width neural networks on regression tasks by means of evaluating the corresponding GP. Recently, kernel functions which mimic multi-layer random neural networks have been developed, but only outside of a Bayesian framework. As such, previous work has not identified that these kernels can be used as covariance functions for GPs and allow fully Bayesian prediction with a deep neural network. In this work, we derive the exact equivalence between infinitely wide deep networks and GPs. We further develop a computationally efficient pipeline to compute the covariance function for these GPs. We then use the resulting GPs to perform Bayesian inference for wide deep neural networks on MNIST and CIFAR-10. We observe that trained neural network accuracy approaches that of the corresponding GP with increasing layer width, and that the GP uncertainty is strongly correlated with trained network prediction error. We further find that test performance increases as finite-width trained networks are made wider and more similar to a GP, and thus that GP predictions typically outperform those of finite-width networks. Finally we connect the performance of these GPs to the recent theory of signal propagation in random neural networks. * Both authors contributed equally to this work. † Work done as a member of the Google AI Residency program (g.co/airesidency). 1 Throughout this paper, we assume the conditions on the parameter distributions and nonlinearities are such that the Central Limit Theorem will hold; for instance, that the weight variance is scaled inversely proportional to the layer width.
translated by 谷歌翻译
深神经网络(DNN)是用于压缩和蒸馏信息的强大工具。由于它们的规模和复杂性,通常涉及数十亿间相互作用的内部自由度,精确分析方法通常会缩短。这种情况下的共同策略是识别平均潜在的快速微观变量的不稳定行为的缓慢自由度。在这里,我们在训练结束时识别在过度参数化的深卷积神经网络(CNNS)中发生的尺度的分离。它意味着神经元预激活与几乎高斯的方式与确定性潜在内核一起波动。在对于具有无限许多频道的CNN来说,这些内核是惰性的,对于有限的CNNS,它们以分析的方式通过数据适应和学习数据。由此产生的深度学习的热力学理论产生了几种深度非线性CNN玩具模型的准确预测。此外,它还提供了新的分析和理解CNN的方法。
translated by 谷歌翻译
神经切线核是根据无限宽度神经网络的参数分布定义的内核函数。尽管该极限不切实际,但神经切线内核允许对神经网络进行更直接的研究,并凝视着黑匣子的面纱。最近,从理论上讲,Laplace内核和神经切线内核在$ \ Mathbb {S}}^{D-1} $中共享相同的复制核Hilbert空间,暗示了它们的等价。在这项工作中,我们分析了两个内核的实际等效性。我们首先是通过与核的准确匹配,然后通过与高斯过程的后代匹配来进行匹配。此外,我们分析了$ \ mathbb {r}^d $中的内核,并在回归任务中进行实验。
translated by 谷歌翻译
为了更好地了解大型神经网络的理论行为,有几项工程已经分析了网络宽度倾向于无穷大的情况。在该制度中,随机初始化的影响和训练神经网络的过程可以与高斯过程和神经切线内核等分析工具正式表达。在本文中,我们审查了在这种无限宽度神经网络中量化不确定性的方法,并将它们与贝叶斯推理框架中的高斯过程的关系进行比较。我们利用沿途使用几个等价结果,以获得预测不确定性的确切闭合性解决方案。
translated by 谷歌翻译
神经网络和高斯过程的优势和劣势是互补的。更好地了解他们的关系伴随着使每个方法从另一个方法中受益的承诺。在这项工作中,我们建立了神经网络的前进通行证与(深)稀疏高斯工艺模型之间的等价。我们开发的理论是基于解释激活函数作为跨域诱导功能,通过对激活函数和内核之间的相互作用进行严格分析。这导致模型可以被视为具有改善的不确定性预测或深度高斯过程的神经网络,其具有提高的预测精度。这些权利要求通过对回归和分类数据集进行实验结果来支持。
translated by 谷歌翻译
高斯流程(GPS)实际应用的主要挑战是选择适当的协方差函数。 GPS的移动平均值或过程卷积的构建可以提供一些额外的灵活性,但仍需要选择合适的平滑核,这是非平凡的。以前的方法通过在平滑内核上使用GP先验,并通过扩展协方差来构建协方差函数,以绕过预先指定它的需求。但是,这样的模型在几种方面受到限制:它们仅限于单维输入,例如时间;它们仅允许对单个输出进行建模,并且由于推理并不简单,因此不会扩展到大型数据集。在本文中,我们引入了GPS的非参数过程卷积公式,该公式通过使用基于Matheron规则的功能采样方法来减轻这些弱点,以使用诱导变量的间域间采样进行快速采样。此外,我们提出了这些非参数卷积的组成,可作为经典深度GP模型的替代方案,并允许从数据中推断中间层的协方差函数。我们测试了单个输出GP,多个输出GPS和DEEP GPS在基准测试上的模型性能,并发现在许多情况下,我们的方法可以提供比标准GP模型的改进。
translated by 谷歌翻译
已知神经网络模型加强隐藏的数据偏差,使它们不可靠且难以解释。我们试图通过在功能空间中引入归纳偏差来构建“知道他们不知道的内容”。我们表明贝叶斯神经网络的定期激活功能在网络权重和平移 - 不变,静止的高斯过程前沿建立了连接之间的连接。此外,我们表明,通过覆盖三角波和周期性的Relu激活功能,该链接超出了正弦波(傅里叶)激活。在一系列实验中,我们表明定期激活功能获得了域内数据的可比性,并捕获对深度神经网络中的扰动输入的灵敏度进行域名检测。
translated by 谷歌翻译
我们介绍了Hida-Mat'Ern内核的班级,这是整个固定式高斯 - 马尔可夫流程的整个空间的规范家庭协方差。它在垫子内核上延伸,通过允许灵活地构造具有振荡组件的过程。任何固定内核,包括广泛使用的平方指数和光谱混合核,要么直接在该类内,也是适当的渐近限制,展示了该类的一般性。利用其Markovian Nature,我们展示了如何仅使用内核及其衍生物来代表状态空间模型的过程。反过来,这使我们能够更有效地执行高斯工艺推论,并且侧面通常计算负担。我们还表明,除了进一步减少计算复杂性之外,我们还显示了如何利用状态空间表示的特殊属性。
translated by 谷歌翻译
我们提供了来自两个常见的低级内核近似产生的近似高斯过程(GP)回归的保证:基于随机傅里叶功能,并基于截断内核的Mercer扩展。特别地,我们将kullback-leibler在精确的gp和由一个上述低秩近似的一个与其内核中的一个引起的kullback-leibler发散相结合,以及它们的相应预测密度之间,并且我们还绑定了预测均值之间的误差使用近似GP使用精确的GP计算的矢量和预测协方差矩阵之间的载体。我们为模拟数据和标准基准提供了实验,以评估我们理论界的有效性。
translated by 谷歌翻译
We introduce scalable deep kernels, which combine the structural properties of deep learning architectures with the non-parametric flexibility of kernel methods. Specifically, we transform the inputs of a spectral mixture base kernel with a deep architecture, using local kernel interpolation, inducing points, and structure exploiting (Kronecker and Toeplitz) algebra for a scalable kernel representation. These closed-form kernels can be used as drop-in replacements for standard kernels, with benefits in expressive power and scalability. We jointly learn the properties of these kernels through the marginal likelihood of a Gaussian process. Inference and learning cost O(n) for n training points, and predictions cost O(1) per test point. On a large and diverse collection of applications, including a dataset with 2 million examples, we show improved performance over scalable Gaussian processes with flexible kernel learning models, and stand-alone deep architectures.
translated by 谷歌翻译
我们提供了来自两个常见的低级内核近似产生的近似高斯过程(GP)回归的保证:基于随机傅里叶功能,并基于截断内核的Mercer扩展。特别地,我们将kullback-leibler在精确的gp和由一个上述低秩近似的一个与其内核中的一个引起的kullback-leibler发散相结合,以及它们的相应预测密度之间,并且我们还绑定了预测均值之间的误差使用近似GP使用精确的GP计算的矢量和预测协方差矩阵之间的载体。我们为模拟数据和标准基准提供了实验,以评估我们理论界的有效性。
translated by 谷歌翻译
了解不同网络架构的能力和局限性对机器学习的根本重要性。高斯工艺的贝叶斯推断已被证明是一种可行的方法,用于研究无限层宽度的反复和深网络,$ n \ infty $。在这里,我们通过采用来自无序系统的统计物理学的建立方法,从第一个原则开始的架构的统一和系统的衍生均衡和系统的推导。该理论阐明了,虽然平均场方程关于其时间结构不同,但是当读出分别在单个时间点或层拍摄时,它们却产生相同的高斯核。贝叶斯推理应用于分类,然后预测两种架构的相同性能和能力。在数值上,我们发现朝向平均场理论的收敛通常对复发网络的速度较慢,而不是对于深网络,并且收敛速度仅取决于前面的重量的参数以及时间步骤的参数。我们的方法公开了高斯进程,但系统扩展的最低阶数为1 / N $。因此,形式主义铺平了调查有限宽度$ N $的经常性和深层架构之间的根本差异。
translated by 谷歌翻译
深度贝叶斯神经网络中的推断仅在无限宽度的限制中完全理解,其中通过增加深度洗掉的后柔性和后部预测到浅高斯工艺。在这里,我们将有限的深度线性贝叶斯神经网络解释为跨输出通道的高斯过程预测器的数据依赖性比例混合物。我们利用这一观察来研究这些网络中的代表学习,允许我们在统一框架内的先前研究中连接限制结果。总的来说,这些结果推进了对深度影响推论的分析理解,这是一类简单的贝叶斯神经网络的推论。
translated by 谷歌翻译
近年来目睹了采用灵活的机械学习模型进行乐器变量(IV)回归的兴趣,但仍然缺乏不确定性量化方法的发展。在这项工作中,我们为IV次数回归提出了一种新的Quasi-Bayesian程序,建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率,并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法,可以扩展到与宽神经网络模型一起工作。实证评价表明,我们的方法对复杂的高维问题产生了丰富的不确定性估计。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
We provide a new unifying view, including all existing proper probabilistic sparse approximations for Gaussian process regression. Our approach relies on expressing the effective prior which the methods are using. This allows new insights to be gained, and highlights the relationship between existing methods. It also allows for a clear theoretically justified ranking of the closeness of the known approximations to the corresponding full GPs. Finally we point directly to designs of new better sparse approximations, combining the best of the existing strategies, within attractive computational constraints.
translated by 谷歌翻译