我们通过Pac-Bayes概括界的镜头研究冷后效应。我们认为,在非反应环境中,当训练样本的数量相对较小时,应考虑到冷后效应的讨论,即大概贝叶斯推理并不能容易地提供对样本外数据的性能的保证。取而代之的是,通过泛化结合更好地描述了样本外误差。在这种情况下,我们探讨了各种推理与PAC-Bayes目标的ELBO目标之间的联系。我们注意到,虽然Elbo和Pac-Bayes目标相似,但后一个目标自然包含温度参数$ \ lambda $,不限于$ \ lambda = 1 $。对于回归和分类任务,在各向同性拉普拉斯与后部的近似值的情况下,我们展示了这种对温度参数的PAC-bayesian解释如何捕获冷后效应。
translated by 谷歌翻译
本文研究了用于训练过度参数化制度中的贝叶斯神经网络(BNN)的变异推理(VI),即当神经元的数量趋于无穷大时。更具体地说,我们考虑过度参数化的两层BNN,并指出平均VI训练中的关键问题。这个问题来自于证据(ELBO)的下限分解为两个术语:一个与模型的可能性函数相对应,第二个对应于kullback-leibler(KL)差异(KL)差异。特别是,我们从理论和经验上都表明,只有当根据观测值和神经元之间的比率适当地重新缩放KL时,在过度参数化制度中,这两个术语之间存在权衡。我们还通过数值实验来说明我们的理论结果,这些实验突出了该比率的关键选择。
translated by 谷歌翻译
在本文中,我们调查了问题:给定少数DataPoints,例如n = 30,可以严格的CAG-Bayes和测试集界限进行紧张吗?对于这种小型数据集,测试集界限通过从培训程序中扣留数据而产生不利影响泛化性能。在这种环境中,Pac-Bayes界限尤其吸引力,因为它们使用所有数据的能力同时学习后部并结合其泛化风险。我们专注于i.i.d.具有有界损失的数据,并考虑Germain等人的通用Pac-Bayes定理。虽然已知定理恢复许多现有的PAC-Bayes界,但目前尚不清楚他们的框架中最有束缚的终结。对于一个固定的学习算法和数据集,我们表明最紧密的绑定与Catoni考虑的绑定相一致;并且,在更自然的数据集发行情况下,我们在期望中获得最佳界限的下限。有趣的是,如果后部等于先前,则这个下限会恢复绑定的Chernoff测试集。此外,为了说明这些界限有多紧,我们研究了合成的一维分类任务,其中它是可行的 - 学习绑定的先前和形状,以便最有效地优化最佳界限。我们发现,在这种简单,受控的场景中,Pac-Bayes界竞争与可比常用的Chernoff测试集合界限具有竞争​​力。然而,最清晰的测试集界仍然导致泛化误差比我们考虑的Pac-Bayes所界限更好地保证。
translated by 谷歌翻译
通过使一组基本预测因素投票根据一些权重,即对某些概率分布来获得聚合预测器。根据一些规定的概率分布,通过在一组基本预测器中采样来获得随机预测器。因此,聚合和随机预测器的共同之处包括最小化问题,而是通过对预测器集的概率分布来定义。在统计学习理论中,有一套工具旨在了解此类程序的泛化能力:Pac-Bayesian或Pac-Bayes界。由于D. Mcallester的原始Pac-Bayes界,这些工具在许多方向上得到了大大改善(例如,我们将描述社区错过的O. Catoni的定位技术的简化版本,后来被重新发现“相互信息界“)。最近,Pac-Bayes的界限受到相当大的关注:例如,在2017年的Pac-Bayes上有研讨会,“(几乎)50种贝叶斯学习:Pac-Bayesian趋势和见解”,由B. Guedj,F组织。 。巴赫和P.Merain。这一最近成功的原因之一是通过G. Dziugaite和D. Roy成功地将这些限制应用于神经网络。对Pac-Bayes理论的初步介绍仍然缺失。这是一种尝试提供这样的介绍。
translated by 谷歌翻译
我们专注于具有单个隐藏层的特定浅神经网络,即具有$ l_2 $ normalistization的数据以及Sigmoid形状的高斯错误函数(“ ERF”)激活或高斯错误线性单元(GELU)激活。对于这些网络,我们通过Pac-Bayesian理论得出了新的泛化界限。与大多数现有的界限不同,它们适用于具有确定性或随机参数的神经网络。当网络接受Mnist和Fashion-Mnist上的香草随机梯度下降训练时,我们的界限在经验上是无效的。
translated by 谷歌翻译
在这项工作中,我们使用变分推论来量化无线电星系分类的深度学习模型预测的不确定性程度。我们表明,当标记无线电星系时,个体测试样本的模型后差水平与人类不确定性相关。我们探讨了各种不同重量前沿的模型性能和不确定性校准,并表明稀疏事先产生更良好的校准不确定性估计。使用单个重量的后部分布,我们表明我们可以通过从最低信噪比(SNR)中除去权重来修剪30%的完全连接的层权重,而无需显着损失性能。我们证明,可以使用基于Fisher信息的排名来实现更大程度的修剪,但我们注意到两种修剪方法都会影响Failaroff-Riley I型和II型无线电星系的不确定性校准。最后,我们表明,与此领域的其他工作相比,我们经历了冷的后效,因此后部必须缩小后加权以实现良好的预测性能。我们检查是否调整成本函数以适应模型拼盘可以弥补此效果,但发现它不会产生显着差异。我们还研究了原则数据增强的效果,并发现这改善了基线,而且还没有弥补观察到的效果。我们将其解释为寒冷的后效,因为我们的培训样本过于有效的策划导致可能性拼盘,并将其提高到未来无线电银行分类的潜在问题。
translated by 谷歌翻译
我们表明,典型分类数据集的输入相关矩阵具有特征光谱,在尖锐的初始下降后,大量的小特征值均匀地分布在指数较大的范围内。这种结构反映在经过此数据训练的网络中:我们表明Hessian和Fisher Information Matrix(FIM)具有特征值,这些特征值均匀地散布在指数较大的范围上。我们称这种特征性称为“草率”,因为与小特征值相对应的一组重量可以通过大小不影响损失而改变。在非典型数据集上培训的具有非宽松输入的网络不会共享这些特征,并且在此类数据集上训练的深网概括了。受到这一点的启发,我们研究了以下假设:输入的斜率有助于深度网络中的概括。我们表明,如果Hessian草率很草率,我们可以通过分析地计算非呈现PAC-BAYES的概括。通过利用我们的经验观察,即训练主要发生在FIM的非宽松子空间中,我们开发了依赖数据分布的PAC-Bayes先验,从而通过数值优化导致准确的概括界限。
translated by 谷歌翻译
In this paper we derive a PAC-Bayesian-Like error bound for a class of stochastic dynamical systems with inputs, namely, for linear time-invariant stochastic state-space models (stochastic LTI systems for short). This class of systems is widely used in control engineering and econometrics, in particular, they represent a special case of recurrent neural networks. In this paper we 1) formalize the learning problem for stochastic LTI systems with inputs, 2) derive a PAC-Bayesian-Like error bound for such systems, 3) discuss various consequences of this error bound.
translated by 谷歌翻译
我们使用边缘赋予易于思考Pac-Bayesian界的一般配方,临界成分是我们随机预测集中在某种程度上集中。我们开发的工具直接导致各种分类器的裕度界限,包括线性预测 - 一个类,包括升高和支持向量机 - 单隐藏层神经网络,具有异常\(\ ERF \)激活功能,以及深度释放网络。此外,我们延伸到部分易碎的预测器,其中只去除一些随机性,让我们延伸到我们预测器的浓度特性否则差的情况。
translated by 谷歌翻译
收购数据是机器学习的许多应用中的一项艰巨任务,只有一个人希望并且预期人口风险在单调上汇率增加(更好的性能)。事实证明,甚至对于最小化经验风险的最大限度的算法,甚至不令人惊讶的情况。在训练中的风险和不稳定的非单调行为表现出并出现在双重血统描述中的流行深度学习范式中。这些问题突出了目前对学习算法和泛化的理解缺乏了解。因此,追求这种行为的表征是至关重要的,这是至关重要的。在本文中,我们在弱假设下获得了一致和风险的单调算法,从而解决了一个打开问题Viering等。 2019关于如何避免风险曲线的非单调行为。我们进一步表明,风险单调性不一定以更糟糕的风险率的价格出现。为实现这一目标,我们推出了持有某些非I.I.D的独立利益的新经验伯恩斯坦的浓度不等式。鞅差异序列等进程。
translated by 谷歌翻译
用于分类任务的机器学习算法的最终性能通常根据基于测试数据集的经验误差概率(或准确性)来衡量。然而,这些算法通过基于训练集的典型不同 - 更方便的损耗功能而优化了这些算法。对于分类任务,这种损失函数通常是负值损耗,导致众所周知的交叉熵风险,这通常比误差概率更好地表现出(从数值角度)。关于泛化误差的常规研究通常不会考虑训练和测试阶段的损失之间的潜在不匹配。在这项工作中,考虑到基于精度度量和负对数损耗的训练,基于概括的Pock-Wise Pac方法的分析。我们标记此分析Pacman。建立所提到的不匹配可以写成似然比,浓度不平等可以用于根据一些有意义的信息理论量的一些点智选一的界限提供一些关于泛化问题的见解。还提供了对所得界限的分析和与文献中的可用结果进行比较。
translated by 谷歌翻译
象征性的AI社区越来越多地试图在神经符号结构中接受机器学习,但由于文化障碍,仍在挣扎。为了打破障碍,这份相当有思想的个人备忘录试图解释和纠正统计,机器学习和深入学习的惯例,从局外人的角度进行深入学习。它提供了一个分步协议,用于设计一个机器学习系统,该系统满足符号AI社区认真对待所必需的最低理论保证,即,它讨论“在哪些条件下,我们可以停止担心和接受统计机器学习。 “一些亮点:大多数教科书都是为计划专门研究STAT/ML/DL的人编写的,应该接受术语。该备忘录适用于经验丰富的象征研究人员,他们听到了很多嗡嗡声,但仍然不确定和持怀疑态度。有关STAT/ML/DL的信息目前太分散或嘈杂而无法投资。此备忘录优先考虑紧凑性,并特别注意与象征性范式相互共鸣的概念。我希望这份备忘录能节省时间。它优先考虑一般数学建模,并且不讨论任何特定的函数近似器,例如神经网络(NNS),SVMS,决策树等。它可以对校正开放。将此备忘录视为与博客文章相似的内容,采用有关Arxiv的论文的形式。
translated by 谷歌翻译
适应数据分布的结构(例如对称性和转型Imarerces)是机器学习中的重要挑战。通过架构设计或通过增强数据集,可以内在学习过程中内置Inhormces。两者都需要先验的了解对称性的确切性质。缺乏这种知识,从业者求助于昂贵且耗时的调整。为了解决这个问题,我们提出了一种新的方法来学习增强变换的分布,以新的\ emph {转换风险最小化}(trm)框架。除了预测模型之外,我们还优化了从假说空间中选择的转换。作为算法框架,我们的TRM方法是(1)有效(共同学习增强和模型,以\ emph {单训练环}),(2)模块化(使用\ emph {任何训练算法),以及(3)一般(处理\ \ ich {离散和连续}增强)。理论上与标准风险最小化的TRM比较,并在其泛化误差上给出PAC-Bayes上限。我们建议通过块组成的新参数化优化富裕的增强空间,导致新的\ EMPH {随机成分增强学习}(SCALE)算法。我们在CIFAR10 / 100,SVHN上使用先前的方法(快速自身自动化和武术器)进行实际比较规模。此外,我们表明规模可以在数据分布中正确地学习某些对称性(恢复旋转Mnist上的旋转),并且还可以改善学习模型的校准。
translated by 谷歌翻译
我们研究了回归中神经网络(NNS)的模型不确定性的方法。为了隔离模型不确定性的效果,我们专注于稀缺训练数据的无噪声环境。我们介绍了关于任何方法都应满足的模型不确定性的五个重要的逃亡者。但是,我们发现,建立的基准通常无法可靠地捕获其中一些逃避者,即使是贝叶斯理论要求的基准。为了解决这个问题,我们介绍了一种新方法来捕获NNS的模型不确定性,我们称之为基于神经优化的模型不确定性(NOMU)。 NOMU的主要思想是设计一个由两个连接的子NN组成的网络体系结构,一个用于模型预测,一个用于模型不确定性,并使用精心设计的损耗函数进行训练。重要的是,我们的设计执行NOMU满足我们的五个Desiderata。由于其模块化体系结构,NOMU可以为任何给定(先前训练)NN提供模型不确定性,如果访问其培训数据。我们在各种回归任务和无嘈杂的贝叶斯优化(BO)中评估NOMU,并具有昂贵的评估。在回归中,NOMU至少和最先进的方法。在BO中,Nomu甚至胜过所有考虑的基准。
translated by 谷歌翻译
我们研究了使用尖刺,现场依赖的随机矩阵理论研究迷你批次对深神经网络损失景观的影响。我们表明,批量黑森州的极值值的大小大于经验丰富的黑森州。我们还获得了类似的结果对Hessian的概括高斯牛顿矩阵近似。由于我们的定理,我们推导出作为批量大小的最大学习速率的分析表达式,为随机梯度下降(线性缩放)和自适应算法(例如ADAM(Square Root Scaling)提供了通知实际培训方案,例如光滑,非凸深神经网络。虽然随机梯度下降的线性缩放是在我们概括的更多限制性条件下导出的,但是适应优化者的平方根缩放规则是我们的知识,完全小说。随机二阶方法和自适应方法的百分比,我们得出了最小阻尼系数与学习率与批量尺寸的比率成比例。我们在Cifar-$ 100 $和ImageNet数据集上验证了我们的VGG / WimerEsnet架构上的索赔。根据我们对象检的调查,我们基于飞行学习率和动量学习者开发了一个随机兰齐齐竞争,这避免了对这些关键的超参数进行昂贵的多重评估的需求,并在预残留的情况下显示出良好的初步结果Cifar的architecure - $ 100 $。
translated by 谷歌翻译
Learning curves provide insight into the dependence of a learner's generalization performance on the training set size. This important tool can be used for model selection, to predict the effect of more training data, and to reduce the computational complexity of model training and hyperparameter tuning. This review recounts the origins of the term, provides a formal definition of the learning curve, and briefly covers basics such as its estimation. Our main contribution is a comprehensive overview of the literature regarding the shape of learning curves. We discuss empirical and theoretical evidence that supports well-behaved curves that often have the shape of a power law or an exponential. We consider the learning curves of Gaussian processes, the complex shapes they can display, and the factors influencing them. We draw specific attention to examples of learning curves that are ill-behaved, showing worse learning performance with more training data. To wrap up, we point out various open problems that warrant deeper empirical and theoretical investigation. All in all, our review underscores that learning curves are surprisingly diverse and no universal model can be identified.
translated by 谷歌翻译
We propose SWA-Gaussian (SWAG), a simple, scalable, and general purpose approach for uncertainty representation and calibration in deep learning. Stochastic Weight Averaging (SWA), which computes the first moment of stochastic gradient descent (SGD) iterates with a modified learning rate schedule, has recently been shown to improve generalization in deep learning. With SWAG, we fit a Gaussian using the SWA solution as the first moment and a low rank plus diagonal covariance also derived from the SGD iterates, forming an approximate posterior distribution over neural network weights; we then sample from this Gaussian distribution to perform Bayesian model averaging. We empirically find that SWAG approximates the shape of the true posterior, in accordance with results describing the stationary distribution of SGD iterates. Moreover, we demonstrate that SWAG performs well on a wide variety of tasks, including out of sample detection, calibration, and transfer learning, in comparison to many popular alternatives including MC dropout, KFAC Laplace, SGLD, and temperature scaling.
translated by 谷歌翻译
我们为通过连续时间(非策略)梯度下降而训练的分类器建立了一个崩解的Pac-bayesian结合。与Pac-Bayesian环境中的标准配置相反,我们的结果适用于确定性的培训算法,以随机初始化为条件,而无需任何$ \ textit {de-randomisation} $ step。我们对我们提出的界限的主要特征进行了广泛的讨论,并在分析和经验上研究了它在线性模型上的行为,从而找到了有希望的结果。
translated by 谷歌翻译
用于估计模型不确定性的线性拉普拉斯方法在贝叶斯深度学习社区中引起了人们的重新关注。该方法提供了可靠的误差线,并接受模型证据的封闭式表达式,从而可以选择模型超参数。在这项工作中,我们检查了这种方法背后的假设,尤其是与模型选择结合在一起。我们表明,这些与一些深度学习的标准工具(构成近似方法和归一化层)相互作用,并为如何更好地适应这种经典方法对现代环境提出建议。我们为我们的建议提供理论支持,并在MLP,经典CNN,具有正常化层,生成性自动编码器和变压器的剩余网络上进行经验验证它们。
translated by 谷歌翻译
现代深度学习方法构成了令人难以置信的强大工具,以解决无数的挑战问题。然而,由于深度学习方法作为黑匣子运作,因此与其预测相关的不确定性往往是挑战量化。贝叶斯统计数据提供了一种形式主义来理解和量化与深度神经网络预测相关的不确定性。本教程概述了相关文献和完整的工具集,用于设计,实施,列车,使用和评估贝叶斯神经网络,即使用贝叶斯方法培训的随机人工神经网络。
translated by 谷歌翻译