在神经网络的文献中,Hebbian学习传统上是指Hopfield模型及其概括存储原型的程序(即仅经历过一次形成突触矩阵的确定模式)。但是,机器学习中的“学习”一词是指机器从提供的数据集中提取功能的能力(例如,由这些原型的模糊示例制成),以制作自己的不可用原型的代表。在这里,给定一个示例示例,我们定义了一个有监督的学习协议,通过该协议可以通过该协议来推断原型,并检测到正确的控制参数(包括数据集的大小和质量)以描绘系统性能的相图。我们还证明,对于无结构数据集,配备了该监督学习规则的Hopfield模型等同于受限的Boltzmann机器,这表明了最佳且可解释的培训例程。最后,这种方法被推广到结构化的数据集:我们在分析的数据集中突出显示了一个准剥离组织(让人联想到复制对称性 - 对称性),因此,我们为其(部分)分开,为其(部分)删除层引入了一个附加的“复制性隐藏层”,该证明可以将MNIST分类从75%提高到95%,并提供有关深度体系结构的新观点。
translated by 谷歌翻译
我们考虑受限制的Boltzmann机器(RBMS)在非结构化的数据集上培训,由虚构的数据集进行,该数据集由明确的模糊但不可用的“原型”,我们表明,RBM可以学习原型的临界样本大小,即机器可以成功播放作为一种生成模型或作为分类器,根据操作程序。通常,评估关键的样本大小(可能与数据集的质量相关)仍然是机器学习中的一个开放问题。在这里,限制随机理论,其中浅网络就足够了,大母细胞场景是正确的,我们利用RBM和Hopfield网络之间的正式等价,以获得突出区域中突出区域的神经架构的相图控制参数(即,原型的数量,训练集的训练集的神经元数量,大小和质量的数量),其中可以实现学习。我们的调查是通过基于无序系统的统计学机械的分析方法领导的,结果通过广泛的蒙特卡罗模拟进一步证实。
translated by 谷歌翻译
众所周知,HEBB的学习探索了帕夫洛夫的古典条件,而前者在过去几十年中进行了广泛的建模(例如,通过Hopfield模型和无数的主题变化),因为后者的建模在很大程度上保持了很大的含糊状态。远的;此外,完全缺乏这两个支柱之间的桥梁。实现该目标的主要困难置于所涉及的信息的本质上不同的范围:帕夫洛夫的理论是关于\ emph {concepts}之间的相关性(动态地)存储在突触矩阵中,这是由狗和一个戒指主演的著名实验所体现的钟;相反,HEBB的理论是关于相邻神经元对之间的相关性,如著名的陈述{\ em神经元一起发射汇合的}所总结。在本文中,我们依靠随机过程理论以及通过langevin方程进行神经和突触动力学模型,以证明 - 只要我们保持神经元和突触的时间表的大量分裂,Pavlov机制就会自发地发生并最终产生至恢复Hebbian内核的突触重量。
translated by 谷歌翻译
我们研究了重整化组(RG)和深神经网络之间的类比,其中随后的神经元层类似于沿RG的连续步骤。特别地,我们通过在抽取RG下明确计算在DIMIMATION RG下的一个和二维insing模型中的相对熵或kullback-leibler发散,以及作为深度的函数的前馈神经网络中的相对熵或kullback-leibler发散。我们观察到单调增加到参数依赖性渐近值的定性相同的行为。在量子场理论方面,单调增加证实了相对熵和C定理之间的连接。对于神经网络,渐近行为可能对机器学习中的各种信息最大化方法以及解开紧凑性和概括性具有影响。此外,虽然我们考虑的二维误操作模型和随机神经网络都表现出非差异临界点,但是对任何系统的相位结构的相对熵看起来不敏感。从这个意义上讲,需要更精细的探针以充分阐明这些模型中的信息流。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
强大的机器学习模型的开发中的一个重要障碍是协变量的转变,当训练和测试集的输入分布时发生的分配换档形式在条件标签分布保持不变时发生。尽管现实世界应用的协变量转变普遍存在,但在现代机器学习背景下的理论理解仍然缺乏。在这项工作中,我们检查协变量的随机特征回归的精确高尺度渐近性,并在该设置中提出了限制测试误差,偏差和方差的精确表征。我们的结果激发了一种自然部分秩序,通过协变速转移,提供足够的条件来确定何时何时损害(甚至有助于)测试性能。我们发现,过度分辨率模型表现出增强的协会转变的鲁棒性,为这种有趣现象提供了第一个理论解释之一。此外,我们的分析揭示了分销和分发外概率性能之间的精确线性关系,为这一令人惊讶的近期实证观察提供了解释。
translated by 谷歌翻译
当前的深度神经网络被高度参数化(多达数十亿个连接权重)和非线性。然而,它们几乎可以通过梯度下降算法的变体完美地拟合数据,并达到预测准确性的意外水平,而不会过度拟合。这些是巨大的结果,无视统计学习的预测,并对非凸优化构成概念性挑战。在本文中,我们使用来自无序系统的统计物理学的方法来分析非凸二进制二进制神经网络模型中过度参数化的计算后果,该模型对从结构上更简单但“隐藏”网络产生的数据进行了培训。随着连接权重的增加,我们遵循误差损失函数不同最小值的几何结构的变化,并将其与学习和概括性能相关联。当解决方案开始存在时,第一次过渡发生在所谓的插值点(完美拟合变得可能)。这种过渡反映了典型溶液的特性,但是它是尖锐的最小值,难以采样。差距后,发生了第二个过渡,并具有不同类型的“非典型”结构的不连续外观:重量空间的宽区域,这些区域特别是解决方案密度且具有良好的泛化特性。两种解决方案共存,典型的解决方案的呈指数数量,但是从经验上讲,我们发现有效的算法采样了非典型,稀有的算法。这表明非典型相变是学习的相关阶段。与该理论建议的可观察到的现实网络的数值测试结果与这种情况一致。
translated by 谷歌翻译
无监督的机器学习的目的是删除复杂的高维数据的表示形式,从而解释数据中的重要潜在因素以及操纵它们以生成具有理想功能的新数据。这些方法通常依赖于对抗方案,在该方案中,对代表进行调整以避免歧视者能够重建特定的数据信息(标签)。我们提出了一种简单,有效的方法,即在无需培训对抗歧视器的情况下解开表示形式,并将我们的方法应用于受限的玻尔兹曼机器(RBM),这是最简单的基于代表的生成模型之一。我们的方法依赖于在训练过程中引入对权重的足够约束,这使我们能够将有关标签的信息集中在一小部分潜在变量上。该方法的有效性在MNIST数据集,二维ISING模型和蛋白质家族的分类法上说明了。此外,我们还展示了我们的框架如何从数据的对数模型中计算成本,与其表示形式的删除相关。
translated by 谷歌翻译
经常性神经网络(RNNS)是强大的动态模型,广泛用于机器学习(ML)和神经科学。之前的理论作品集中在具有添加剂相互作用的RNN上。然而,门控 - 即乘法 - 相互作用在真神经元中普遍存在,并且也是ML中最佳性能RNN的中心特征。在这里,我们表明Gating提供灵活地控制集体动态的两个突出特征:i)时间尺寸和ii)维度。栅极控制时间尺度导致新颖的稳定状态,网络用作灵活积分器。与以前的方法不同,Gating允许这种重要功能而没有参数微调或特殊对称。门还提供一种灵活的上下文相关机制来重置存储器跟踪,从而补充存储器功能。调制维度的栅极可以诱导新颖的不连续的混沌转变,其中输入将稳定的系统推向强的混沌活动,与通常稳定的输入效果相比。在这种转变之上,与添加剂RNN不同,关键点(拓扑复杂性)的增殖与混沌动力学的外观解耦(动态复杂性)。丰富的动态总结在相图中,从而为ML从业者提供了一个原理参数初始化选择的地图。
translated by 谷歌翻译
多级分类问题的广义线性模型是现代机器学习任务的基本构建块之一。在本手稿中,我们通过具有任何凸损耗和正规化的经验风险最小化(ERM)来描述与通用手段和协方士的k $高斯的混合。特别是,我们证明了表征ERM估计的精确渐近剂,以高维度,在文献中扩展了关于高斯混合分类的几个先前结果。我们举例说明我们在统计学习中的两个兴趣任务中的两个任务:a)与稀疏手段的混合物进行分类,我们研究了$ \ ell_2 $的$ \ ell_1 $罚款的效率; b)Max-Margin多级分类,在那里我们在$ k> 2 $的多级逻辑最大似然估计器上表征了相位过渡。最后,我们讨论了我们的理论如何超出合成数据的范围,显示在不同的情况下,高斯混合在真实数据集中密切地捕获了分类任务的学习曲线。
translated by 谷歌翻译
深神经网络(DNN)是用于压缩和蒸馏信息的强大工具。由于它们的规模和复杂性,通常涉及数十亿间相互作用的内部自由度,精确分析方法通常会缩短。这种情况下的共同策略是识别平均潜在的快速微观变量的不稳定行为的缓慢自由度。在这里,我们在训练结束时识别在过度参数化的深卷积神经网络(CNNS)中发生的尺度的分离。它意味着神经元预激活与几乎高斯的方式与确定性潜在内核一起波动。在对于具有无限许多频道的CNN来说,这些内核是惰性的,对于有限的CNNS,它们以分析的方式通过数据适应和学习数据。由此产生的深度学习的热力学理论产生了几种深度非线性CNN玩具模型的准确预测。此外,它还提供了新的分析和理解CNN的方法。
translated by 谷歌翻译
In this thesis, we consider two simple but typical control problems and apply deep reinforcement learning to them, i.e., to cool and control a particle which is subject to continuous position measurement in a one-dimensional quadratic potential or in a quartic potential. We compare the performance of reinforcement learning control and conventional control strategies on the two problems, and show that the reinforcement learning achieves a performance comparable to the optimal control for the quadratic case, and outperforms conventional control strategies for the quartic case for which the optimal control strategy is unknown. To our knowledge, this is the first time deep reinforcement learning is applied to quantum control problems in continuous real space. Our research demonstrates that deep reinforcement learning can be used to control a stochastic quantum system in real space effectively as a measurement-feedback closed-loop controller, and our research also shows the ability of AI to discover new control strategies and properties of the quantum systems that are not well understood, and we can gain insights into these problems by learning from the AI, which opens up a new regime for scientific research.
translated by 谷歌翻译
与经典线性模型不同,非线性生成模型在统计学习的文献中被稀疏地解决。这项工作旨在引起对这些模型及其保密潜力的关注。为此,我们调用了复制方法,以在反相反的问题中得出渐近归一化的横熵,其生成模型由具有通用协方差函数的高斯随机场描述。我们的推导进一步证明了贝叶斯估计量的渐近统计解耦,并为给定的非线性模型指定了解耦设置。复制解决方案描述了严格的非线性模型建立了全有或全无的相变:存在一个关键负载,最佳贝叶斯推断从完美的学习变为不相关的学习。基于这一发现,我们设计了一种新的安全编码方案,该方案可实现窃听通道的保密能力。这个有趣的结果意味着,严格的非线性生成模型是完美的,没有任何安全编码。我们通过分析说明性模型的完全安全和可靠的推论来证明后一种陈述是合理的。
translated by 谷歌翻译
An obstacle to artificial general intelligence is set by the continual learning of multiple tasks of different nature. Recently, various heuristic tricks, both from machine learning and from neuroscience angles, were proposed, but they lack a unified theory ground. Here, we focus on the continual learning in single-layered and multi-layered neural networks of binary weights. A variational Bayesian learning setting is thus proposed, where the neural network is trained in a field-space, rather than the gradient-ill-defined discrete-weight space, and furthermore, the weight uncertainty is naturally incorporated, and modulates the synaptic resources among tasks. From a physics perspective, we translate the variational continual learning into the Franz-Parisi thermodynamic potential framework, where the previous task knowledge acts as a prior and a reference as well. Therefore, the learning performance can be analytically studied with mean-field order parameters, whose predictions coincide with the numerical experiments using stochastic gradient descent methods. Our proposed principled frameworks also connect to elastic weight consolidation, and neuroscience inspired metaplasticity, providing a theory-grounded method for the real-world multi-task learning with deep networks.
translated by 谷歌翻译
我们研究了机器学习(ML)分类技术的误差概率收敛到零的速率的性能。利用大偏差理论,我们为ML分类器提供了数学条件,以表现出误差概率,这些误差概率呈指数级消失,例如$ \ sim \ exp \ left(-n \,i + o(i + o(n)\ right)$,其中$ n $是可用于测试的信息的数量(或其他相关参数,例如图像中目标的大小),而$ i $是错误率。这样的条件取决于数据驱动的决策功能的累积生成功能的Fenchel-Legendre变换(D3F,即,在做出最终二进制决策之前的阈值)在训练阶段中学到的。因此,D3F以及相关的错误率$ $ $取决于给定的训练集,该集合假定有限。有趣的是,可以根据基础统计模型的可用信息生成的可用数据集或合成数据集对这些条件进行验证和测试。换句话说,分类误差概率收敛到零,其速率可以在可用于培训的数据集的一部分上计算。与大偏差理论一致,我们还可以以足够大的$ n $为高斯分布的归一化D3F统计量来确定收敛性。利用此属性设置所需的渐近错误警报概率,从经验上来说,即使对于$ n $的非常现实的值,该属性也是准确的。此外,提供了近似错误概率曲线$ \ sim \ sim \ sim \ sim \ exp \ left(-n \,i \ right)$,这要归功于精制的渐近导数(通常称为精确的渐近学),其中$ \ zeta_n $代表$ \ zeta_n $误差概率的大多数代表性亚指数项。
translated by 谷歌翻译
具有复发性不对称耦合的神经网络对于了解如何在大脑中编码情节记忆很重要。在这里,我们将广泛的突触整合窗口的实验性观察整合到连续时间动力学中的序列检索模型中。理论上通过得出神经动力学中的雅可比矩阵的随机基质理论来研究具有非正态神经元相互作用的模型。这些光谱具有几个不同的特征,例如围绕原点的旋转对称性以及光谱边界内嵌套空隙的出现。因此,光谱密度高度不均匀地分布在复杂平面中。随机矩阵理论还可以预测过渡到混乱。特别是,混乱的边缘为记忆的顺序检索提供了计算益处。我们的工作提供了与任意时间延迟的时间隔离相关性的系统研究,因此可以激发对广泛记忆模型的未来研究,甚至可以激发生物学时间序列的大数据分析。
translated by 谷歌翻译
理论上,从理论上分析$ \ ell_ {1} $的典型学习性能 - 正规化的线性回归($ \ ell_1 $ -linr),用于使用统计力学中的副本方法进行模型选择。对于顺磁阶段的典型随机常规图,获得了对$ \ ell_1 $ -LinR的典型样本复杂度的准确估计。值得注意的是,尽管模型拼写错误,$ \ ell_1 $ -linr是模型选择,其与$ \ ell_ {1} $ - 正常化的逻辑回归($ \ ell_1 $ -logr),即,$ m = \ mathcal {o} \ left(\ log n \ light)$,其中$ n $是ising模型的变量数。此外,我们提供了一种有效的方法,可以准确地预测$ \ ell_1 $ -Linr的非渐近行为,以便适度$ M,N $,如精度和召回。仿真在理论预测和实验结果之间表现出相当愉快的一致性,即使对于具有许多环路的图表,也支持我们的研究结果。虽然本文主要侧重于$ \ ell_1 $ -Linr,但我们的方法很容易适用于精确地表征广泛类别的$ \ ell_ {1} $的典型学习表演 - 正常化$ M $-estimators,包括$ \ ell_1 $ - LogR和互动筛查。
translated by 谷歌翻译
我们认为越来越复杂的矩阵去噪和贝叶斯最佳设置中的文章学习模型,在挑战性的政权中,在矩阵推断出与系统尺寸线性的排名增加。这与大多数现有的文献相比,与低秩(即常数级别)制度相关的文献相反。我们首先考虑一类旋转不变的矩阵去噪,使用来自随机矩阵理论的标准技术来计算的互动信息和最小均方误差。接下来,我们分析了字典学习的更具挑战性模式。为此,我们将复制方法与随机矩阵理论一起介绍了复制品方法的新组合,共同矩阵理论,Coined光谱副本方法。它允许我们猜测隐藏表示与字典学习问题的嘈杂数据之间的相互信息的变分形式,以及定量最佳重建误差的重叠。所提出的方法从$ \ theta(n ^ 2)$(矩阵条目)到$ \ theta(n)$(特征值或奇异值)减少自由度的数量,并产生的互信息的库仑气体表示让人想起物理学中的矩阵模型。主要成分是使用Harishchandra-Itzykson-Zuber球形积分,结合新的复制对称解耦Ansatz,在特定重叠矩阵的特征值(或奇异值)的概率分布的水平上。
translated by 谷歌翻译
这项工作提出了一种分散的架构,其中个别代理旨在解决分类问题,同时观察不同尺寸的流特征,并从可能不同的分布产生。在社会学习的背景下,已经开发了几种有用的策略,通过跨分布式代理的本地合作解决了决策问题,并允许他们从流数据中学习。然而,传统的社会学习策略依赖于每个代理人对观察结果分布的重要知识的基本假设。在这项工作中,我们通过引入一种机器学习框架来克服这一问题,该机器学习框架利用图形的社交交互,导致分布式分类问题的完全数据驱动的解决方案。在拟议的社交机器学习(SML)策略中,存在两个阶段:在训练阶段,分类器被独立培训,以使用有限数量的训练样本来产生一组假设的信念;在预测阶段,分类器评估流媒体未标记的观察,并与邻近分类器共享他们的瞬时信仰。我们表明SML策略使得代理能够在这种高度异构的环境下一致地学习,并且即使在预测阶段决定未标记的样本时,即使在预测阶段也允许网络继续学习。预测决策用于以明显不同的方式不断地提高性能,这些方式与大多数现有的静态分类方案不同,在培训之后,未标记数据的决策不会重新用于改善未来的性能。
translated by 谷歌翻译