缺乏对深度学习系统的洞察力阻碍了他们的系统设计。在科学和工程学中,建模是一种用于了解内部过程不透明的复杂系统的方法。建模用更简单的代理代替复杂的系统,该系统更适合解释。从中汲取灵感,我们使用高斯流程为神经网络构建了一类代理模型。我们没有从神经网络的某些限制案例中得出内核,而是从经验上从神经网络的自然主义行为中学习了高斯过程的内核。我们首先通过两项案例研究评估我们的方法,灵感来自先前对神经网络行为的理论研究,在这些案例研究中,我们捕获了学习低频的神经网络偏好,并确定了深层神经网络中的病理行为。在进一步的实践案例研究中,我们使用学识渊博的内核来预测神经网络的泛化特性。
translated by 谷歌翻译
为了更好地了解大型神经网络的理论行为,有几项工程已经分析了网络宽度倾向于无穷大的情况。在该制度中,随机初始化的影响和训练神经网络的过程可以与高斯过程和神经切线内核等分析工具正式表达。在本文中,我们审查了在这种无限宽度神经网络中量化不确定性的方法,并将它们与贝叶斯推理框架中的高斯过程的关系进行比较。我们利用沿途使用几个等价结果,以获得预测不确定性的确切闭合性解决方案。
translated by 谷歌翻译
It has long been known that a single-layer fully-connected neural network with an i.i.d. prior over its parameters is equivalent to a Gaussian process (GP), in the limit of infinite network width. This correspondence enables exact Bayesian inference for infinite width neural networks on regression tasks by means of evaluating the corresponding GP. Recently, kernel functions which mimic multi-layer random neural networks have been developed, but only outside of a Bayesian framework. As such, previous work has not identified that these kernels can be used as covariance functions for GPs and allow fully Bayesian prediction with a deep neural network. In this work, we derive the exact equivalence between infinitely wide deep networks and GPs. We further develop a computationally efficient pipeline to compute the covariance function for these GPs. We then use the resulting GPs to perform Bayesian inference for wide deep neural networks on MNIST and CIFAR-10. We observe that trained neural network accuracy approaches that of the corresponding GP with increasing layer width, and that the GP uncertainty is strongly correlated with trained network prediction error. We further find that test performance increases as finite-width trained networks are made wider and more similar to a GP, and thus that GP predictions typically outperform those of finite-width networks. Finally we connect the performance of these GPs to the recent theory of signal propagation in random neural networks. * Both authors contributed equally to this work. † Work done as a member of the Google AI Residency program (g.co/airesidency). 1 Throughout this paper, we assume the conditions on the parameter distributions and nonlinearities are such that the Central Limit Theorem will hold; for instance, that the weight variance is scaled inversely proportional to the layer width.
translated by 谷歌翻译
Comparing Bayesian neural networks (BNNs) with different widths is challenging because, as the width increases, multiple model properties change simultaneously, and, inference in the finite-width case is intractable. In this work, we empirically compare finite- and infinite-width BNNs, and provide quantitative and qualitative explanations for their performance difference. We find that when the model is mis-specified, increasing width can hurt BNN performance. In these cases, we provide evidence that finite-width BNNs generalize better partially due to the properties of their frequency spectrum that allows them to adapt under model mismatch.
translated by 谷歌翻译
已知神经网络模型加强隐藏的数据偏差,使它们不可靠且难以解释。我们试图通过在功能空间中引入归纳偏差来构建“知道他们不知道的内容”。我们表明贝叶斯神经网络的定期激活功能在网络权重和平移 - 不变,静止的高斯过程前沿建立了连接之间的连接。此外,我们表明,通过覆盖三角波和周期性的Relu激活功能,该链接超出了正弦波(傅里叶)激活。在一系列实验中,我们表明定期激活功能获得了域内数据的可比性,并捕获对深度神经网络中的扰动输入的灵敏度进行域名检测。
translated by 谷歌翻译
宽度限制最近是深度学习研究的焦点:模数计算实用,做更广泛的网络优于较窄的网络?当传统网络增益具有宽度的代表性,潜在掩盖任何负面影响,回答这个问题一直在具有挑战性。我们在本文中的分析通过神经网络的概括到深层高斯过程(深GP),一类非参数分层模型,占据了神经网络的非参数分层模型。在这样做时,我们的目标是了解一旦对给定建模任务的容量足够的容量,才能了解宽度(标准)神经网络。我们深入GP的理论和经验结果表明,大宽度可能对等级模型有害。令人惊讶的是,我们证明了甚至非参数的深GP融合到高斯过程,实际上变得浅薄而没有任何代表性的力量。对应于数据适应性基本函数的混合的后后,与宽度变得较小。我们的尾部分析表明,宽度和深度具有相反的影响:深度突出了模型的非高斯,而宽度使模型越来越高斯。我们发现有一个“甜蜜点”,可以在限制GP行为防止适应性之前最大化测试性能,以宽度= 1或宽度= 2用于非参数深GP。这些结果对具有L2正规化训练的传统神经网络中的相同现象(类似于参数的高斯),使得这种神经网络可能需要多达500至1000个隐藏单元的现象,以获得足够的容量 - 取决于数据集 - 但进一步的宽度降低了性能。
translated by 谷歌翻译
神经切线核是根据无限宽度神经网络的参数分布定义的内核函数。尽管该极限不切实际,但神经切线内核允许对神经网络进行更直接的研究,并凝视着黑匣子的面纱。最近,从理论上讲,Laplace内核和神经切线内核在$ \ Mathbb {S}}^{D-1} $中共享相同的复制核Hilbert空间,暗示了它们的等价。在这项工作中,我们分析了两个内核的实际等效性。我们首先是通过与核的准确匹配,然后通过与高斯过程的后代匹配来进行匹配。此外,我们分析了$ \ mathbb {r}^d $中的内核,并在回归任务中进行实验。
translated by 谷歌翻译
Deep Gaussian工艺(DGP)作为贝叶斯学习的先验模型直观地利用功能组成中的表达能力。 DGP还提供了不同的建模功能,但是推断很具有挑战性,因为潜在功能空间的边缘化是无法处理的。借助Bochner定理,具有平方指数内核的DGP可以看作是由随机特征层,正弦和余弦激活单元以及随机重量层组成的深度三角网络。在具有瓶颈的宽极限中,我们表明重量空间视图产生了相同的有效协方差函数,该函数先前在功能空间中获得。同样,在网络参数上改变先前的分布相当于使用不同的内核。因此,DGP可以转换为深瓶颈触发网络,可以通过该网络获得确切的最大后验估计。有趣的是,网络表示可以研究DGP的神经切线核,这也可能揭示了棘手的预测分布的平均值。从统计上讲,与浅网络不同,有限宽度的深网具有与极限内核的协方差,并且内部和外部宽度可能在功能学习中起不同的作用。存在数值模拟以支持我们的发现。
translated by 谷歌翻译
社会和自然中的极端事件,例如大流行尖峰,流氓波浪或结构性失败,可能会带来灾难性的后果。极端的表征很困难,因为它们很少出现,这似乎是由良性的条件引起的,并且属于复杂且通常是未知的无限维系统。这种挑战使他们将其描述为“毫无意义”。我们通过将贝叶斯实验设计(BED)中的新型训练方案与深神经操作员(DNOS)合奏结合在一起来解决这些困难。这个模型不足的框架配对了一个床方案,该床方案积极选择数据以用近似于无限二二维非线性运算符的DNO集合来量化极端事件。我们发现,这个框架不仅清楚地击败了高斯流程(GPS),而且只有两个成员的浅色合奏表现最好; 2)无论初始数据的状态如何(即有或没有极端),都会发现极端; 3)我们的方法消除了“双研究”现象; 4)与逐步全球Optima相比,使用次优的采集点的使用不会阻碍床的性能; 5)蒙特卡洛的获取优于高量级的标准优化器。这些结论共同构成了AI辅助实验基础设施的基础,该基础设施可以有效地推断并查明从物理到社会系统的许多领域的关键情况。
translated by 谷歌翻译
神经网络和高斯过程的优势和劣势是互补的。更好地了解他们的关系伴随着使每个方法从另一个方法中受益的承诺。在这项工作中,我们建立了神经网络的前进通行证与(深)稀疏高斯工艺模型之间的等价。我们开发的理论是基于解释激活函数作为跨域诱导功能,通过对激活函数和内核之间的相互作用进行严格分析。这导致模型可以被视为具有改善的不确定性预测或深度高斯过程的神经网络,其具有提高的预测精度。这些权利要求通过对回归和分类数据集进行实验结果来支持。
translated by 谷歌翻译
神经线性模型(NLM)是深度贝叶斯模型,通过从数据中学习特征,然后对这些特征进行贝叶斯线性回归来产生预测的不确定性。尽管他们受欢迎,但很少有作品专注于有条理地评估这些模型的预测性不确定性。在这项工作中,我们证明了NLMS的传统培训程序急剧低估了分发输入的不确定性,因此它们不能在风险敏感的应用中暂时部署。我们确定了这种行为的基本原因,并提出了一种新的培训框架,捕获下游任务的有用预测不确定性。
translated by 谷歌翻译
A longstanding goal in deep learning research has been to precisely characterize training and generalization. However, the often complex loss landscapes of neural networks have made a theory of learning dynamics elusive. In this work, we show that for wide neural networks the learning dynamics simplify considerably and that, in the infinite width limit, they are governed by a linear model obtained from the first-order Taylor expansion of the network around its initial parameters. Furthermore, mirroring the correspondence between wide Bayesian neural networks and Gaussian processes, gradient-based training of wide neural networks with a squared loss produces test set predictions drawn from a Gaussian process with a particular compositional kernel. While these theoretical results are only exact in the infinite width limit, we nevertheless find excellent empirical agreement between the predictions of the original network and those of the linearized version even for finite practically-sized networks. This agreement is robust across different architectures, optimization methods, and loss functions.
translated by 谷歌翻译
权重规范$ \ | w \ | $和保证金$ \ gamma $通过归一化的保证金$ \ gamma/\ | w \ | $参与学习理论。由于标准神经净优化器不能控制归一化的边缘,因此很难测试该数量是否与概括有关。本文设计了一系列实验研究,这些研究明确控制了归一化的边缘,从而解决了两个核心问题。首先:归一化的边缘是否总是对概括产生因果影响?本文发现,在归一化的边缘似乎与概括没有关系的情况下,可以与Bartlett等人的理论背道而驰。(2017)。第二:标准化边缘是否对概括有因果影响?该论文发现是的 - 在标准培训设置中,测试性能紧密跟踪了标准化的边距。该论文将高斯流程模型表示为这种行为的有前途的解释。
translated by 谷歌翻译
We introduce scalable deep kernels, which combine the structural properties of deep learning architectures with the non-parametric flexibility of kernel methods. Specifically, we transform the inputs of a spectral mixture base kernel with a deep architecture, using local kernel interpolation, inducing points, and structure exploiting (Kronecker and Toeplitz) algebra for a scalable kernel representation. These closed-form kernels can be used as drop-in replacements for standard kernels, with benefits in expressive power and scalability. We jointly learn the properties of these kernels through the marginal likelihood of a Gaussian process. Inference and learning cost O(n) for n training points, and predictions cost O(1) per test point. On a large and diverse collection of applications, including a dataset with 2 million examples, we show improved performance over scalable Gaussian processes with flexible kernel learning models, and stand-alone deep architectures.
translated by 谷歌翻译
我们说明了一种可以利用用于构建先验遵守身体定律的神经网络的方法。我们从简单的单层神经网络(NN)开始,但避免选择激活功能。在某些条件和无限宽度极限下,我们可以应用中央限制定理,NN输出变为高斯。然后,我们可以通过依靠高斯过程(GP)理论来调查和操纵极限网络。据观察,作用于GP的线性操作员再次产生GP。对于定义微分方程并描述物理定律的差分运算符也是如此。如果我们要求GP或等效地遵守物理定律,那么这将产生与GP的协方差函数或内核的方程式,其解决方案等效地限制了模型以遵守物理定律。然后,中央限制定理建议可以通过选择激活函数来构建NNS来遵守物理定律,从而使它们在无限宽度极限中匹配特定的内核。以这种方式构建的激活函数可以保证NN先验遵守物理学,直到非限制网络宽度的近似误差。讨论了均匀的1D-螺旋方程的简单示例,并将其与天真的内核和激活进行了比较。
translated by 谷歌翻译
我们研究了回归中神经网络(NNS)的模型不确定性的方法。为了隔离模型不确定性的效果,我们专注于稀缺训练数据的无噪声环境。我们介绍了关于任何方法都应满足的模型不确定性的五个重要的逃亡者。但是,我们发现,建立的基准通常无法可靠地捕获其中一些逃避者,即使是贝叶斯理论要求的基准。为了解决这个问题,我们介绍了一种新方法来捕获NNS的模型不确定性,我们称之为基于神经优化的模型不确定性(NOMU)。 NOMU的主要思想是设计一个由两个连接的子NN组成的网络体系结构,一个用于模型预测,一个用于模型不确定性,并使用精心设计的损耗函数进行训练。重要的是,我们的设计执行NOMU满足我们的五个Desiderata。由于其模块化体系结构,NOMU可以为任何给定(先前训练)NN提供模型不确定性,如果访问其培训数据。我们在各种回归任务和无嘈杂的贝叶斯优化(BO)中评估NOMU,并具有昂贵的评估。在回归中,NOMU至少和最先进的方法。在BO中,Nomu甚至胜过所有考虑的基准。
translated by 谷歌翻译
贝叶斯优化(BO)是用于全局优化昂贵的黑盒功能的流行范式,但是在许多域中,该函数并不完全是黑色框。数据可能具有一些已知的结构(例如对称性)和/或数据生成过程可能是一个复合过程,除优化目标的值外,还可以产生有用的中间或辅助信息。但是,传统上使用的代孕模型,例如高斯工艺(GPS),随数据集大小的规模较差,并且不容易适应已知的结构。取而代之的是,我们使用贝叶斯神经网络,这是具有感应偏见的一类可扩展和灵活的替代模型,将BO扩展到具有高维度的复杂,结构化问题。我们证明了BO在物理和化学方面的许多现实问题,包括使用卷积神经网络对光子晶体材料进行拓扑优化,以及使用图神经网络对分子进行化学性质优化。在这些复杂的任务上,我们表明,就抽样效率和计算成本而言,神经网络通常优于GP作为BO的替代模型。
translated by 谷歌翻译
隐式过程(IP)是高斯过程(GPS)的概括。 IP可能缺乏封闭形式的表达,但很容易采样。例子包括贝叶斯神经网络或神经抽样器。 IP可以用作功能的先验,从而产生具有良好预测不确定性估计值的灵活模型。基于IP的方法通常进行函数空间近似推断,从而克服了参数空间近似推断的一些困难。然而,所采用的近似值通常会限制最终模型的表现力,结果是\ emph {e.g。},在高斯预测分布中,这可能是限制的。我们在这里提出了IPS的多层概括,称为“深层隐式”过程(DVIP)。这种概括与GPS上的深GPS相似,但是由于使用IPs作为潜在函数的先前分布,因此更灵活。我们描述了用于训练DVIP的可扩展变异推理算法,并表明它的表现优于先前的基于IP的方法和深度GPS。我们通过广泛的回归和分类实验来支持这些主张。我们还在大型数据集上评估了DVIP,最多可达数百万个数据实例,以说明其良好的可扩展性和性能。
translated by 谷歌翻译
现代深度神经网络(DNN)的成功基于其在多层转换投入以建立良好高级表示的能力。因此,了解这种表示学习过程至关重要。但是,我们不能使用涉及无限宽度限制的标准理论方法,因为它们消除了代表性学习。因此,我们开发了一个新的无限宽度限制,即表示的学习限制,该限制表现出表示形式的学习反映,但在有限宽度网络中,但同时仍然非常容易处理。例如,表示学习限制在深处的高斯过程中提供了恰好具有多种内核的多元高斯后期,包括所有各向同性(距离依赖)内核。我们得出一个优雅的目标,描述了每个网络层如何学习在输入和输出之间插值的表示形式。最后,我们使用此限制和目标来开发对内核方法的灵活,深刻的概括,我们称之为深内核机器(DKMS)。我们表明,可以使用受高斯过程文献中诱导点方法启发的方法将DKMS缩放到大数据集,并且我们表明DKMS表现出优于其他基于内核方法的性能。
translated by 谷歌翻译
Whilst deep neural networks have shown great empirical success, there is still much work to be done to understand their theoretical properties. In this paper, we study the relationship between random, wide, fully connected, feedforward networks with more than one hidden layer and Gaussian processes with a recursive kernel definition. We show that, under broad conditions, as we make the architecture increasingly wide, the implied random function converges in distribution to a Gaussian process, formalising and extending existing results by Neal (1996) to deep networks. To evaluate convergence rates empirically, we use maximum mean discrepancy. We then compare finite Bayesian deep networks from the literature to Gaussian processes in terms of the key predictive quantities of interest, finding that in some cases the agreement can be very close. We discuss the desirability of Gaussian process behaviour and review non-Gaussian alternative models from the literature. 1
translated by 谷歌翻译