神经切线核是根据无限宽度神经网络的参数分布定义的内核函数。尽管该极限不切实际,但神经切线内核允许对神经网络进行更直接的研究,并凝视着黑匣子的面纱。最近,从理论上讲,Laplace内核和神经切线内核在$ \ Mathbb {S}}^{D-1} $中共享相同的复制核Hilbert空间,暗示了它们的等价。在这项工作中,我们分析了两个内核的实际等效性。我们首先是通过与核的准确匹配,然后通过与高斯过程的后代匹配来进行匹配。此外,我们分析了$ \ mathbb {r}^d $中的内核,并在回归任务中进行实验。
translated by 谷歌翻译
宽度限制最近是深度学习研究的焦点:模数计算实用,做更广泛的网络优于较窄的网络?当传统网络增益具有宽度的代表性,潜在掩盖任何负面影响,回答这个问题一直在具有挑战性。我们在本文中的分析通过神经网络的概括到深层高斯过程(深GP),一类非参数分层模型,占据了神经网络的非参数分层模型。在这样做时,我们的目标是了解一旦对给定建模任务的容量足够的容量,才能了解宽度(标准)神经网络。我们深入GP的理论和经验结果表明,大宽度可能对等级模型有害。令人惊讶的是,我们证明了甚至非参数的深GP融合到高斯过程,实际上变得浅薄而没有任何代表性的力量。对应于数据适应性基本函数的混合的后后,与宽度变得较小。我们的尾部分析表明,宽度和深度具有相反的影响:深度突出了模型的非高斯,而宽度使模型越来越高斯。我们发现有一个“甜蜜点”,可以在限制GP行为防止适应性之前最大化测试性能,以宽度= 1或宽度= 2用于非参数深GP。这些结果对具有L2正规化训练的传统神经网络中的相同现象(类似于参数的高斯),使得这种神经网络可能需要多达500至1000个隐藏单元的现象,以获得足够的容量 - 取决于数据集 - 但进一步的宽度降低了性能。
translated by 谷歌翻译
封闭曲线的建模和不确定性量化是形状分析领域的重要问题,并且可以对随后的统计任务产生重大影响。这些任务中的许多涉及封闭曲线的集合,这些曲线通常在多个层面上表现出结构相似性。以有效融合这种曲线间依赖性的方式对多个封闭曲线进行建模仍然是一个具有挑战性的问题。在这项工作中,我们提出并研究了一个多数输出(又称多输出),多维高斯流程建模框架。我们说明了提出的方法学进步,并在几个曲线和形状相关的任务上证明了有意义的不确定性量化的实用性。这种基于模型的方法不仅解决了用内核构造对封闭曲线(及其形状)的推断问题,而且还为通常对功能对象的多层依赖性的非参数建模打开了门。
translated by 谷歌翻译
考虑了建立UNKONWN地面真相函数值的样本外界限的问题。内核及其相关的希尔伯特空间是本文所采用的主要形式主义,以及一个观察模型,在该模型中,输出被有限的测量噪声损坏。噪声可以源于任何紧凑的分布,并且没有对可用数据进行独立假设。在这种情况下,我们显示计算紧密的,有限样本的不确定性范围等于求解参数四次约束线性程序。接下来,建立了我们方法的属性,并研究了其与另一种方法的关系。提出了数值实验,以说明如何在许多情况下应用理论,并将其与其他封闭形式的替代方案进行对比。
translated by 谷歌翻译
这项调查旨在提供线性模型及其背后的理论的介绍。我们的目标是对读者进行严格的介绍,并事先接触普通最小二乘。在机器学习中,输出通常是输入的非线性函数。深度学习甚至旨在找到需要大量计算的许多层的非线性依赖性。但是,这些算法中的大多数都基于简单的线性模型。然后,我们从不同视图中描述线性模型,并找到模型背后的属性和理论。线性模型是回归问题中的主要技术,其主要工具是最小平方近似,可最大程度地减少平方误差之和。当我们有兴趣找到回归函数时,这是一个自然的选择,该回归函数可以最大程度地减少相应的预期平方误差。这项调查主要是目的的摘要,即线性模型背后的重要理论的重要性,例如分布理论,最小方差估计器。我们首先从三种不同的角度描述了普通的最小二乘,我们会以随机噪声和高斯噪声干扰模型。通过高斯噪声,该模型产生了可能性,因此我们引入了最大似然估计器。它还通过这种高斯干扰发展了一些分布理论。最小二乘的分布理论将帮助我们回答各种问题并引入相关应用。然后,我们证明最小二乘是均值误差的最佳无偏线性模型,最重要的是,它实际上接近了理论上的极限。我们最终以贝叶斯方法及以后的线性模型结束。
translated by 谷歌翻译
收购用于监督学习的标签可能很昂贵。为了提高神经网络回归的样本效率,我们研究了活跃的学习方法,这些方法可以适应地选择未标记的数据进行标记。我们提出了一个框架,用于从(与网络相关的)基础内核,内核转换和选择方法中构造此类方法。我们的框架涵盖了许多基于神经网络的高斯过程近似以及非乘式方法的现有贝叶斯方法。此外,我们建议用草图的有限宽度神经切线核代替常用的最后层特征,并将它们与一种新型的聚类方法结合在一起。为了评估不同的方法,我们引入了一个由15个大型表格回归数据集组成的开源基准。我们所提出的方法的表现优于我们的基准测试上的最新方法,缩放到大数据集,并在不调整网络体系结构或培训代码的情况下开箱即用。我们提供开源代码,包括所有内核,内核转换和选择方法的有效实现,并可用于复制我们的结果。
translated by 谷歌翻译
Whilst deep neural networks have shown great empirical success, there is still much work to be done to understand their theoretical properties. In this paper, we study the relationship between random, wide, fully connected, feedforward networks with more than one hidden layer and Gaussian processes with a recursive kernel definition. We show that, under broad conditions, as we make the architecture increasingly wide, the implied random function converges in distribution to a Gaussian process, formalising and extending existing results by Neal (1996) to deep networks. To evaluate convergence rates empirically, we use maximum mean discrepancy. We then compare finite Bayesian deep networks from the literature to Gaussian processes in terms of the key predictive quantities of interest, finding that in some cases the agreement can be very close. We discuss the desirability of Gaussian process behaviour and review non-Gaussian alternative models from the literature. 1
translated by 谷歌翻译
我们研究了回归中神经网络(NNS)的模型不确定性的方法。为了隔离模型不确定性的效果,我们专注于稀缺训练数据的无噪声环境。我们介绍了关于任何方法都应满足的模型不确定性的五个重要的逃亡者。但是,我们发现,建立的基准通常无法可靠地捕获其中一些逃避者,即使是贝叶斯理论要求的基准。为了解决这个问题,我们介绍了一种新方法来捕获NNS的模型不确定性,我们称之为基于神经优化的模型不确定性(NOMU)。 NOMU的主要思想是设计一个由两个连接的子NN组成的网络体系结构,一个用于模型预测,一个用于模型不确定性,并使用精心设计的损耗函数进行训练。重要的是,我们的设计执行NOMU满足我们的五个Desiderata。由于其模块化体系结构,NOMU可以为任何给定(先前训练)NN提供模型不确定性,如果访问其培训数据。我们在各种回归任务和无嘈杂的贝叶斯优化(BO)中评估NOMU,并具有昂贵的评估。在回归中,NOMU至少和最先进的方法。在BO中,Nomu甚至胜过所有考虑的基准。
translated by 谷歌翻译
It has long been known that a single-layer fully-connected neural network with an i.i.d. prior over its parameters is equivalent to a Gaussian process (GP), in the limit of infinite network width. This correspondence enables exact Bayesian inference for infinite width neural networks on regression tasks by means of evaluating the corresponding GP. Recently, kernel functions which mimic multi-layer random neural networks have been developed, but only outside of a Bayesian framework. As such, previous work has not identified that these kernels can be used as covariance functions for GPs and allow fully Bayesian prediction with a deep neural network. In this work, we derive the exact equivalence between infinitely wide deep networks and GPs. We further develop a computationally efficient pipeline to compute the covariance function for these GPs. We then use the resulting GPs to perform Bayesian inference for wide deep neural networks on MNIST and CIFAR-10. We observe that trained neural network accuracy approaches that of the corresponding GP with increasing layer width, and that the GP uncertainty is strongly correlated with trained network prediction error. We further find that test performance increases as finite-width trained networks are made wider and more similar to a GP, and thus that GP predictions typically outperform those of finite-width networks. Finally we connect the performance of these GPs to the recent theory of signal propagation in random neural networks. * Both authors contributed equally to this work. † Work done as a member of the Google AI Residency program (g.co/airesidency). 1 Throughout this paper, we assume the conditions on the parameter distributions and nonlinearities are such that the Central Limit Theorem will hold; for instance, that the weight variance is scaled inversely proportional to the layer width.
translated by 谷歌翻译
近年来目睹了采用灵活的机械学习模型进行乐器变量(IV)回归的兴趣,但仍然缺乏不确定性量化方法的发展。在这项工作中,我们为IV次数回归提出了一种新的Quasi-Bayesian程序,建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率,并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法,可以扩展到与宽神经网络模型一起工作。实证评价表明,我们的方法对复杂的高维问题产生了丰富的不确定性估计。
translated by 谷歌翻译
Deep Gaussian工艺(DGP)作为贝叶斯学习的先验模型直观地利用功能组成中的表达能力。 DGP还提供了不同的建模功能,但是推断很具有挑战性,因为潜在功能空间的边缘化是无法处理的。借助Bochner定理,具有平方指数内核的DGP可以看作是由随机特征层,正弦和余弦激活单元以及随机重量层组成的深度三角网络。在具有瓶颈的宽极限中,我们表明重量空间视图产生了相同的有效协方差函数,该函数先前在功能空间中获得。同样,在网络参数上改变先前的分布相当于使用不同的内核。因此,DGP可以转换为深瓶颈触发网络,可以通过该网络获得确切的最大后验估计。有趣的是,网络表示可以研究DGP的神经切线核,这也可能揭示了棘手的预测分布的平均值。从统计上讲,与浅网络不同,有限宽度的深网具有与极限内核的协方差,并且内部和外部宽度可能在功能学习中起不同的作用。存在数值模拟以支持我们的发现。
translated by 谷歌翻译
我们为生成对抗网络(GAN)提出了一个新颖的理论框架。我们揭示了先前分析的基本缺陷,通过错误地对GANS的训练计划进行了错误的建模,该缺陷受到定义不定的鉴别梯度的约束。我们克服了这个问题,该问题阻碍了对GAN培训的原则研究,并考虑了歧视者的体系结构在我们的框架内解决它。为此,我们通过其神经切线核为歧视者提供了无限宽度神经网络的理论。我们表征了训练有素的判别器,以实现广泛的损失,并建立网络的一般可怜性属性。由此,我们获得了有关生成分布的融合的新见解,从而促进了我们对GANS训练动态的理解。我们通过基于我们的框架的分析工具包来证实这些结果,并揭示了与GAN实践一致的直觉。
translated by 谷歌翻译
高斯流程已成为各种安全至关重要环境的有前途的工具,因为后方差可用于直接估计模型误差并量化风险。但是,针对安全 - 关键环境的最新技术取决于核超参数是已知的,这通常不适用。为了减轻这种情况,我们在具有未知的超参数的设置中引入了强大的高斯过程统一误差界。我们的方法计算超参数空间中的一个置信区域,这使我们能够获得具有任意超参数的高斯过程模型误差的概率上限。我们不需要对超参数的任何界限,这是相关工作中常见的假设。相反,我们能够以直观的方式从数据中得出界限。我们还采用了建议的技术来为一类基于学习的控制问题提供绩效保证。实验表明,界限的性能明显优于香草和完全贝叶斯高斯工艺。
translated by 谷歌翻译
这篇综述的目的是将读者介绍到图表内,以将其应用于化学信息学中的分类问题。图内核是使我们能够推断分子的化学特性的功能,可以帮助您完成诸如寻找适合药物设计的化合物等任务。内核方法的使用只是一种特殊的两种方式量化了图之间的相似性。我们将讨论限制在这种方法上,尽管近年来已经出现了流行的替代方法,但最著名的是图形神经网络。
translated by 谷歌翻译
神经网络和高斯过程的优势和劣势是互补的。更好地了解他们的关系伴随着使每个方法从另一个方法中受益的承诺。在这项工作中,我们建立了神经网络的前进通行证与(深)稀疏高斯工艺模型之间的等价。我们开发的理论是基于解释激活函数作为跨域诱导功能,通过对激活函数和内核之间的相互作用进行严格分析。这导致模型可以被视为具有改善的不确定性预测或深度高斯过程的神经网络,其具有提高的预测精度。这些权利要求通过对回归和分类数据集进行实验结果来支持。
translated by 谷歌翻译
Interacting particle or agent systems that display a rich variety of swarming behaviours are ubiquitous in science and engineering. A fundamental and challenging goal is to understand the link between individual interaction rules and swarming. In this paper, we study the data-driven discovery of a second-order particle swarming model that describes the evolution of $N$ particles in $\mathbb{R}^d$ under radial interactions. We propose a learning approach that models the latent radial interaction function as Gaussian processes, which can simultaneously fulfill two inference goals: one is the nonparametric inference of {the} interaction function with pointwise uncertainty quantification, and the other one is the inference of unknown scalar parameters in the non-collective friction forces of the system. We formulate the learning problem as a statistical inverse problem and provide a detailed analysis of recoverability conditions, establishing that a coercivity condition is sufficient for recoverability. Given data collected from $M$ i.i.d trajectories with independent Gaussian observational noise, we provide a finite-sample analysis, showing that our posterior mean estimator converges in a Reproducing kernel Hilbert space norm, at an optimal rate in $M$ equal to the one in the classical 1-dimensional Kernel Ridge regression. As a byproduct, we show we can obtain a parametric learning rate in $M$ for the posterior marginal variance using $L^{\infty}$ norm, and the rate could also involve $N$ and $L$ (the number of observation time instances for each trajectory), depending on the condition number of the inverse problem. Numerical results on systems that exhibit different swarming behaviors demonstrate efficient learning of our approach from scarce noisy trajectory data.
translated by 谷歌翻译
本文介绍了在高斯过程回归/克里格替代建模技术中选择/设计内核的算法。我们在临时功能空间中采用内核方法解决方案的设置,即繁殖内核希尔伯特空间(RKHS),以解决在观察到它的观察值的情况下近似定期目标函数的问题,即监督学习。第一类算法是内核流,该算法是在机器学习中的分类中引入的。它可以看作是一个交叉验证过程,因此选择了“最佳”内核,从而最小化了通过删除数据集的某些部分(通常为一半)而产生的准确性损失。第二类算法称为光谱内核脊回归,旨在选择“最佳”核,以便在相关的RKHS中,要近似的函数的范围很小。在Mercer定理框架内,我们就目标函数的主要特征来获得该“最佳”内核的明确结构。从数据中学习内核的两种方法均通过有关合成测试功能的数值示例,以及在湍流建模验证二维机翼的湍流模型验证中的经典测试用例。
translated by 谷歌翻译
我们介绍了Hida-Mat'Ern内核的班级,这是整个固定式高斯 - 马尔可夫流程的整个空间的规范家庭协方差。它在垫子内核上延伸,通过允许灵活地构造具有振荡组件的过程。任何固定内核,包括广泛使用的平方指数和光谱混合核,要么直接在该类内,也是适当的渐近限制,展示了该类的一般性。利用其Markovian Nature,我们展示了如何仅使用内核及其衍生物来代表状态空间模型的过程。反过来,这使我们能够更有效地执行高斯工艺推论,并且侧面通常计算负担。我们还表明,除了进一步减少计算复杂性之外,我们还显示了如何利用状态空间表示的特殊属性。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
本论文主要涉及解决深层(时间)高斯过程(DGP)回归问题的状态空间方法。更具体地,我们代表DGP作为分层组合的随机微分方程(SDES),并且我们通过使用状态空间过滤和平滑方法来解决DGP回归问题。由此产生的状态空间DGP(SS-DGP)模型生成丰富的电视等级,与建模许多不规则信号/功能兼容。此外,由于他们的马尔可道结构,通过使用贝叶斯滤波和平滑方法可以有效地解决SS-DGPS回归问题。本论文的第二次贡献是我们通过使用泰勒力矩膨胀(TME)方法来解决连续离散高斯滤波和平滑问题。这诱导了一类滤波器和SmooThers,其可以渐近地精确地预测随机微分方程(SDES)解决方案的平均值和协方差。此外,TME方法和TME过滤器和SmoOthers兼容模拟SS-DGP并解决其回归问题。最后,本文具有多种状态 - 空间(深)GPS的应用。这些应用主要包括(i)来自部分观察到的轨迹的SDES的未知漂移功能和信号的光谱 - 时间特征估计。
translated by 谷歌翻译