An obstacle to artificial general intelligence is set by the continual learning of multiple tasks of different nature. Recently, various heuristic tricks, both from machine learning and from neuroscience angles, were proposed, but they lack a unified theory ground. Here, we focus on the continual learning in single-layered and multi-layered neural networks of binary weights. A variational Bayesian learning setting is thus proposed, where the neural network is trained in a field-space, rather than the gradient-ill-defined discrete-weight space, and furthermore, the weight uncertainty is naturally incorporated, and modulates the synaptic resources among tasks. From a physics perspective, we translate the variational continual learning into the Franz-Parisi thermodynamic potential framework, where the previous task knowledge acts as a prior and a reference as well. Therefore, the learning performance can be analytically studied with mean-field order parameters, whose predictions coincide with the numerical experiments using stochastic gradient descent methods. Our proposed principled frameworks also connect to elastic weight consolidation, and neuroscience inspired metaplasticity, providing a theory-grounded method for the real-world multi-task learning with deep networks.
translated by 谷歌翻译
当前的深度神经网络被高度参数化(多达数十亿个连接权重)和非线性。然而,它们几乎可以通过梯度下降算法的变体完美地拟合数据,并达到预测准确性的意外水平,而不会过度拟合。这些是巨大的结果,无视统计学习的预测,并对非凸优化构成概念性挑战。在本文中,我们使用来自无序系统的统计物理学的方法来分析非凸二进制二进制神经网络模型中过度参数化的计算后果,该模型对从结构上更简单但“隐藏”网络产生的数据进行了培训。随着连接权重的增加,我们遵循误差损失函数不同最小值的几何结构的变化,并将其与学习和概括性能相关联。当解决方案开始存在时,第一次过渡发生在所谓的插值点(完美拟合变得可能)。这种过渡反映了典型溶液的特性,但是它是尖锐的最小值,难以采样。差距后,发生了第二个过渡,并具有不同类型的“非典型”结构的不连续外观:重量空间的宽区域,这些区域特别是解决方案密度且具有良好的泛化特性。两种解决方案共存,典型的解决方案的呈指数数量,但是从经验上讲,我们发现有效的算法采样了非典型,稀有的算法。这表明非典型相变是学习的相关阶段。与该理论建议的可观察到的现实网络的数值测试结果与这种情况一致。
translated by 谷歌翻译
在神经网络的文献中,Hebbian学习传统上是指Hopfield模型及其概括存储原型的程序(即仅经历过一次形成突触矩阵的确定模式)。但是,机器学习中的“学习”一词是指机器从提供的数据集中提取功能的能力(例如,由这些原型的模糊示例制成),以制作自己的不可用原型的代表。在这里,给定一个示例示例,我们定义了一个有监督的学习协议,通过该协议可以通过该协议来推断原型,并检测到正确的控制参数(包括数据集的大小和质量)以描绘系统性能的相图。我们还证明,对于无结构数据集,配备了该监督学习规则的Hopfield模型等同于受限的Boltzmann机器,这表明了最佳且可解释的培训例程。最后,这种方法被推广到结构化的数据集:我们在分析的数据集中突出显示了一个准剥离组织(让人联想到复制对称性 - 对称性),因此,我们为其(部分)分开,为其(部分)删除层引入了一个附加的“复制性隐藏层”,该证明可以将MNIST分类从75%提高到95%,并提供有关深度体系结构的新观点。
translated by 谷歌翻译
二元erceptron是非凸优化的监督学习的基本模型,这是流行深度学习的根源。二进制Perceptron能够通过计算二进制突触的边际概率来实现随机高维数据的分类。算法不稳定性与模型的平衡分析之间的关系仍然难以捉摸。这里,我们通过表明算法定点周围的不稳定性条件与用于打破自由能量功能的副本对称鞍点解决方案的不稳定性相同的关系来建立关系。因此,我们的分析提供了促进促进更复杂的神经网络的非凸学学习动态和统计力学特性之间的差距的见解。
translated by 谷歌翻译
生物智能的主要特征之一是能源效率,持续适应能力以及通过不确定性量化的风险管理。到目前为止,神经形态工程主要是由实施节能机器从生物学大脑的基于时间的计算范式中获得灵感的目标的驱动。在本文中,我们采取了朝着设计神经形态系统设计的步骤,这些系统能够适应改变学习任务,同时产生良好的不确定性量化估计。为此,我们得出了在贝叶斯持续学习框架内尖峰神经网络(SNN)的在线学习规则。在其中,每个突触重量都由参数表示,这些参数量化了先验知识和观察到的数据引起的当前认知不确定性。提出的在线规则在观察到数据时以流方式更新分布参数。我们实例化了实用值和二元突触权重的建议方法。使用英特尔熔岩平台的实验结果表明,贝叶斯在适应能力和不确定性定量方面的经常学习优点。
translated by 谷歌翻译
已知生物制剂在他们的生活过程中学习许多不同的任务,并且能够重新审视以前的任务和行为,而没有表现不损失。相比之下,人工代理容易出于“灾难性遗忘”,在以前任务上的性能随着所获取的新的任务而恶化。最近使用该方法通过鼓励参数保持接近以前任务的方法来解决此缺点。这可以通过(i)使用特定的参数正常数来完成,该参数正常数是在参数空间中映射合适的目的地,或(ii)通过将渐变投影到不会干扰先前任务的子空间来指导优化旅程。然而,这些方法通常在前馈和经常性神经网络中表现出子分子表现,并且经常性网络对支持生物持续学习的神经动力学研究感兴趣。在这项工作中,我们提出了自然的持续学习(NCL),一种统一重量正则化和预测梯度下降的新方法。 NCL使用贝叶斯重量正常化来鼓励在收敛的所有任务上进行良好的性能,并将其与梯度投影结合使用先前的精度,这可以防止在优化期间陷入灾难性遗忘。当应用于前馈和经常性网络中的连续学习问题时,我们的方法占据了标准重量正则化技术和投影的方法。最后,训练有素的网络演变了特定于任务特定的动态,这些动态被认为是学习的新任务,类似于生物电路中的实验结果。
translated by 谷歌翻译
深神经网络(DNN)是用于压缩和蒸馏信息的强大工具。由于它们的规模和复杂性,通常涉及数十亿间相互作用的内部自由度,精确分析方法通常会缩短。这种情况下的共同策略是识别平均潜在的快速微观变量的不稳定行为的缓慢自由度。在这里,我们在训练结束时识别在过度参数化的深卷积神经网络(CNNS)中发生的尺度的分离。它意味着神经元预激活与几乎高斯的方式与确定性潜在内核一起波动。在对于具有无限许多频道的CNN来说,这些内核是惰性的,对于有限的CNNS,它们以分析的方式通过数据适应和学习数据。由此产生的深度学习的热力学理论产生了几种深度非线性CNN玩具模型的准确预测。此外,它还提供了新的分析和理解CNN的方法。
translated by 谷歌翻译
我们研究了重整化组(RG)和深神经网络之间的类比,其中随后的神经元层类似于沿RG的连续步骤。特别地,我们通过在抽取RG下明确计算在DIMIMATION RG下的一个和二维insing模型中的相对熵或kullback-leibler发散,以及作为深度的函数的前馈神经网络中的相对熵或kullback-leibler发散。我们观察到单调增加到参数依赖性渐近值的定性相同的行为。在量子场理论方面,单调增加证实了相对熵和C定理之间的连接。对于神经网络,渐近行为可能对机器学习中的各种信息最大化方法以及解开紧凑性和概括性具有影响。此外,虽然我们考虑的二维误操作模型和随机神经网络都表现出非差异临界点,但是对任何系统的相位结构的相对熵看起来不敏感。从这个意义上讲,需要更精细的探针以充分阐明这些模型中的信息流。
translated by 谷歌翻译
从任务到任务的顺序训练正在成为深度学习应用中的主要对象之一,例如持续学习和转移学习。尽管如此,在训练有素的模型的性能改善或恶化的情况下,它仍然不清楚。为了深化我们对顺序培训的理解,本研究在不断学习的可解下的案例中提供了对概括性表现的理论分析。我们考虑神经切线内核(NTK)制度中的神经网络,以便将目标功能从任务中持续学习到任务,并通过使用核心脊的统计机械分析来调查延伸的核心脊的回归。我们首先表现出从积极转移到负转移的特征过渡。高于特定临界值的更类似的目标可以实现随后的任务的积极知识转移,而灾难性的遗忘也会发生,即使具有非常相似的目标。接下来,我们调查持续学习的变体,其中模型在多个任务中学习相同的目标函数。即使对于同一目标,训练型模型也会显示一些转移和遗忘,具体取决于每个任务的样本大小。我们可以保证泛化误差从任务单调减少到相同的样本大小的任务,而不平衡样本大小会降低泛化。我们分别指的是自我知识转移和遗忘的这些改善和恶化,并经验证实它们的深神经网络的现实培训。
translated by 谷歌翻译
建立深度学习的理论基础的一个关键挑战是神经网络的复杂优化动态,由大量网络参数之间的高维相互作用产生。这种非琐碎的动态导致有趣的行为,例如概括误差的“双重下降”的现象。这种现象的越常见的方面对应于模型 - 明智的双下降,其中测试误差具有增加模型复杂性的第二下降,超出经典的U形误差曲线。在这项工作中,我们研究了研究误差在训练时间增加时进行了测试误差的较低学习的巨头双重下降的起源。通过利用统计物理学的工具,我们研究了展示了与深神经网络中的EPOCH-WISE Double Countcle的线性师生设置。在此设置中,我们导出了封闭式的分析表达式,用于培训泛化误差的演变。我们发现双重血统可以归因于不同尺度的不同特征:作为快速学习功能过度装备,较慢的学习功能开始适合,导致测试错误的第二个下降。我们通过数字实验验证了我们的研究结果,其中我们的理论准确预测了实证发现,并与深神经网络中的观察结果保持一致。
translated by 谷歌翻译
现代深度学习方法构成了令人难以置信的强大工具,以解决无数的挑战问题。然而,由于深度学习方法作为黑匣子运作,因此与其预测相关的不确定性往往是挑战量化。贝叶斯统计数据提供了一种形式主义来理解和量化与深度神经网络预测相关的不确定性。本教程概述了相关文献和完整的工具集,用于设计,实施,列车,使用和评估贝叶斯神经网络,即使用贝叶斯方法培训的随机人工神经网络。
translated by 谷歌翻译
We discuss the prediction accuracy of assumed statistical models in terms of prediction errors for the generalized linear model and penalized maximum likelihood methods. We derive the forms of estimators for the prediction errors: C p criterion, information criteria, and leave-one-out cross validation (LOOCV) error, using the generalized approximate message passing (GAMP) algorithm and replica method. These estimators coincide with each other when the number of model parameters is sufficiently small; however, there is a discrepancy between them in particular in the overparametrized region where the number of model parameters is larger than the data dimension. In this paper, we review the prediction errors and corresponding estimators, and discuss their differences. In the framework of GAMP, we show that the information criteria can be expressed by using the variance of the estimates. Further, we demonstrate how to approach LOOCV error from the information criteria by utilizing the expression provided by GAMP.
translated by 谷歌翻译
我们介绍树-AMP,站在树近似消息传递,用于高维树结构模型的组成推理的Python包。该包提供统一框架,用于研究以前导出的多种机器学习任务的几种近似消息传递算法,例如广义线性模型,多层网络的推断,矩阵分解和使用不可惩罚的重建。对于某些型号,可以通过状态进化理论上预测算法的渐近性能,并通过自由熵形式主义估计的测量熵。通过设计模块化:实现因子的每个模块可以与其他模块一起组成,以解决复杂的推理任务。用户只需要声明模型的因子图:推理算法,状态演化和熵估计是完全自动化的。
translated by 谷歌翻译
深度学习的成功揭示了神经网络对整个科学的应用潜力,并开辟了基本的理论问题。特别地,基于梯度方法的简单变体的学习算法能够找到高度非凸损函数的近最佳最佳最小值,是神经网络的意外特征。此外,这种算法即使在存在噪声的情况下也能够适合数据,但它们具有出色的预测能力。若干经验结果表明了通过算法实现的最小值的所谓平坦度与概括性性能之间的可再现相关性。同时,统计物理结果表明,在非透露网络中,多个窄的最小值可能与较少数量的宽扁平最小值共存,这概括了很好。在这里,我们表明,从“高边缘”(即局部稳健的)配置,从最小值的聚结会出现宽平坦的结构。尽管与零保证金相比具有呈指数稀有的稀有性,但高利润最小值倾向于集中在特定地区。这些最小值又被较小且较小的边距的其他解决方案包围,导致长距离的溶液区域密集。我们的分析还提供了一种替代分析方法,用于估计扁平最小值,当算法开始找到解决方案时,随着模型参数的数量变化。
translated by 谷歌翻译
理论上,从理论上分析$ \ ell_ {1} $的典型学习性能 - 正规化的线性回归($ \ ell_1 $ -linr),用于使用统计力学中的副本方法进行模型选择。对于顺磁阶段的典型随机常规图,获得了对$ \ ell_1 $ -LinR的典型样本复杂度的准确估计。值得注意的是,尽管模型拼写错误,$ \ ell_1 $ -linr是模型选择,其与$ \ ell_ {1} $ - 正常化的逻辑回归($ \ ell_1 $ -logr),即,$ m = \ mathcal {o} \ left(\ log n \ light)$,其中$ n $是ising模型的变量数。此外,我们提供了一种有效的方法,可以准确地预测$ \ ell_1 $ -Linr的非渐近行为,以便适度$ M,N $,如精度和召回。仿真在理论预测和实验结果之间表现出相当愉快的一致性,即使对于具有许多环路的图表,也支持我们的研究结果。虽然本文主要侧重于$ \ ell_1 $ -Linr,但我们的方法很容易适用于精确地表征广泛类别的$ \ ell_ {1} $的典型学习表演 - 正常化$ M $-estimators,包括$ \ ell_1 $ - LogR和互动筛查。
translated by 谷歌翻译
我们考虑受限制的Boltzmann机器(RBMS)在非结构化的数据集上培训,由虚构的数据集进行,该数据集由明确的模糊但不可用的“原型”,我们表明,RBM可以学习原型的临界样本大小,即机器可以成功播放作为一种生成模型或作为分类器,根据操作程序。通常,评估关键的样本大小(可能与数据集的质量相关)仍然是机器学习中的一个开放问题。在这里,限制随机理论,其中浅网络就足够了,大母细胞场景是正确的,我们利用RBM和Hopfield网络之间的正式等价,以获得突出区域中突出区域的神经架构的相图控制参数(即,原型的数量,训练集的训练集的神经元数量,大小和质量的数量),其中可以实现学习。我们的调查是通过基于无序系统的统计学机械的分析方法领导的,结果通过广泛的蒙特卡罗模拟进一步证实。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
While deep learning has led to remarkable advances across diverse applications, it struggles in domains where the data distribution changes over the course of learning. In stark contrast, biological neural networks continually adapt to changing domains, possibly by leveraging complex molecular machinery to solve many tasks simultaneously. In this study, we introduce intelligent synapses that bring some of this biological complexity into artificial neural networks. Each synapse accumulates task relevant information over time, and exploits this information to rapidly store new memories without forgetting old ones. We evaluate our approach on continual learning of classification tasks, and show that it dramatically reduces forgetting while maintaining computational efficiency.
translated by 谷歌翻译
具有复发性不对称耦合的神经网络对于了解如何在大脑中编码情节记忆很重要。在这里,我们将广泛的突触整合窗口的实验性观察整合到连续时间动力学中的序列检索模型中。理论上通过得出神经动力学中的雅可比矩阵的随机基质理论来研究具有非正态神经元相互作用的模型。这些光谱具有几个不同的特征,例如围绕原点的旋转对称性以及光谱边界内嵌套空隙的出现。因此,光谱密度高度不均匀地分布在复杂平面中。随机矩阵理论还可以预测过渡到混乱。特别是,混乱的边缘为记忆的顺序检索提供了计算益处。我们的工作提供了与任意时间延迟的时间隔离相关性的系统研究,因此可以激发对广泛记忆模型的未来研究,甚至可以激发生物学时间序列的大数据分析。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译