经常性神经网络(RNNS)是强大的动态模型,广泛用于机器学习(ML)和神经科学。之前的理论作品集中在具有添加剂相互作用的RNN上。然而,门控 - 即乘法 - 相互作用在真神经元中普遍存在,并且也是ML中最佳性能RNN的中心特征。在这里,我们表明Gating提供灵活地控制集体动态的两个突出特征:i)时间尺寸和ii)维度。栅极控制时间尺度导致新颖的稳定状态,网络用作灵活积分器。与以前的方法不同,Gating允许这种重要功能而没有参数微调或特殊对称。门还提供一种灵活的上下文相关机制来重置存储器跟踪,从而补充存储器功能。调制维度的栅极可以诱导新颖的不连续的混沌转变,其中输入将稳定的系统推向强的混沌活动,与通常稳定的输入效果相比。在这种转变之上,与添加剂RNN不同,关键点(拓扑复杂性)的增殖与混沌动力学的外观解耦(动态复杂性)。丰富的动态总结在相图中,从而为ML从业者提供了一个原理参数初始化选择的地图。
translated by 谷歌翻译
具有复发性不对称耦合的神经网络对于了解如何在大脑中编码情节记忆很重要。在这里,我们将广泛的突触整合窗口的实验性观察整合到连续时间动力学中的序列检索模型中。理论上通过得出神经动力学中的雅可比矩阵的随机基质理论来研究具有非正态神经元相互作用的模型。这些光谱具有几个不同的特征,例如围绕原点的旋转对称性以及光谱边界内嵌套空隙的出现。因此,光谱密度高度不均匀地分布在复杂平面中。随机矩阵理论还可以预测过渡到混乱。特别是,混乱的边缘为记忆的顺序检索提供了计算益处。我们的工作提供了与任意时间延迟的时间隔离相关性的系统研究,因此可以激发对广泛记忆模型的未来研究,甚至可以激发生物学时间序列的大数据分析。
translated by 谷歌翻译
Despite the widespread practical success of deep learning methods, our theoretical understanding of the dynamics of learning in deep neural networks remains quite sparse. We attempt to bridge the gap between the theory and practice of deep learning by systematically analyzing learning dynamics for the restricted case of deep linear neural networks. Despite the linearity of their input-output map, such networks have nonlinear gradient descent dynamics on weights that change with the addition of each new hidden layer. We
translated by 谷歌翻译
在随机抽样方法中,马尔可夫链蒙特卡洛算法是最重要的。在随机行走都市方案中,我们利用分析方法和数值方法的结合研究了它们的收敛性能。我们表明,偏离目标稳态分布的偏差特征是定位过渡的函数,这是定义随机步行的尝试跳跃的特征长度。该过渡大大改变了误差,而误差是通过不完整的收敛引入的,并区分了两个方案,其中弛豫机制分别受扩散和排斥分别受到限制。
translated by 谷歌翻译
简单的动态模型可以在大型网络中产生复杂的行为。这些行为通常可以在由网络网络捕获的各种物理系统中观察到。在这里,我们描述了一种现象,其中尺寸自始终产生由于动力学不稳定性而产生的力场。这可以被理解为在有效潜力的最小值之间的不稳定(“隆隆声”)隧道机构。我们将该集体和非触发效果成为“Lyapunov力”,即使完整系统具有与系统尺寸指数呈指数呈指数呈指数增长的均衡点的星座,使系统朝向全局最小的潜在功能。我们研究的系统具有简单的映射到流量网络,其等于电流驱动的映像器。该机制在纳米级物理学中对其物理相关性进行了吸引力,以及在优化中可能的应用,新颖的蒙特卡罗方案和机器学习。
translated by 谷歌翻译
强大的机器学习模型的开发中的一个重要障碍是协变量的转变,当训练和测试集的输入分布时发生的分配换档形式在条件标签分布保持不变时发生。尽管现实世界应用的协变量转变普遍存在,但在现代机器学习背景下的理论理解仍然缺乏。在这项工作中,我们检查协变量的随机特征回归的精确高尺度渐近性,并在该设置中提出了限制测试误差,偏差和方差的精确表征。我们的结果激发了一种自然部分秩序,通过协变速转移,提供足够的条件来确定何时何时损害(甚至有助于)测试性能。我们发现,过度分辨率模型表现出增强的协会转变的鲁棒性,为这种有趣现象提供了第一个理论解释之一。此外,我们的分析揭示了分销和分发外概率性能之间的精确线性关系,为这一令人惊讶的近期实证观察提供了解释。
translated by 谷歌翻译
我们通过投影仪操作员研究较大尺寸的连续动态系统的嵌入。我们称这种技术PED,动态系统的投影嵌入,因为动态的稳定固定点通过从较高尺寸空间的投影回收。在本文中,我们提供了一种通用定义,并证明对于特定类型的Rank-1的投影仪操作者,均匀的平均场投影仪,运动方程成为动态系统的平均场逼近。虽然一般来说,嵌入取决于指定的变量排序,但对于均匀平均字段投影仪而不是真的。此外,我们证明原始稳定的固定点保持稳定的动态的定点,鞍点保持鞍座,但不稳定的固定点变成马鞍。
translated by 谷歌翻译
我们研究了重整化组(RG)和深神经网络之间的类比,其中随后的神经元层类似于沿RG的连续步骤。特别地,我们通过在抽取RG下明确计算在DIMIMATION RG下的一个和二维insing模型中的相对熵或kullback-leibler发散,以及作为深度的函数的前馈神经网络中的相对熵或kullback-leibler发散。我们观察到单调增加到参数依赖性渐近值的定性相同的行为。在量子场理论方面,单调增加证实了相对熵和C定理之间的连接。对于神经网络,渐近行为可能对机器学习中的各种信息最大化方法以及解开紧凑性和概括性具有影响。此外,虽然我们考虑的二维误操作模型和随机神经网络都表现出非差异临界点,但是对任何系统的相位结构的相对熵看起来不敏感。从这个意义上讲,需要更精细的探针以充分阐明这些模型中的信息流。
translated by 谷歌翻译
我们分析了通过梯度流通过自洽动力场理论训练的无限宽度神经网络中的特征学习。我们构建了确定性动力学阶参数的集合,该参数是内部产物内核,用于在成对的时间点中,每一层中隐藏的单位激活和梯度,从而减少了通过训练对网络活动的描述。这些内核顺序参数共同定义了隐藏层激活分布,神经切线核的演变以及因此输出预测。我们表明,现场理论推导恢复了从Yang和Hu(2021)获得张量程序的无限宽度特征学习网络的递归随机过程。对于深线性网络,这些内核满足一组代数矩阵方程。对于非线性网络,我们提供了一个交替的采样过程,以求助于内核顺序参数。我们提供了与各种近似方案的自洽解决方案的比较描述。最后,我们提供了更现实的设置中的实验,这些实验表明,在CIFAR分类任务上,在不同宽度上保留了CNN的CNN的损耗和内核动力学。
translated by 谷歌翻译
我们认为越来越复杂的矩阵去噪和贝叶斯最佳设置中的文章学习模型,在挑战性的政权中,在矩阵推断出与系统尺寸线性的排名增加。这与大多数现有的文献相比,与低秩(即常数级别)制度相关的文献相反。我们首先考虑一类旋转不变的矩阵去噪,使用来自随机矩阵理论的标准技术来计算的互动信息和最小均方误差。接下来,我们分析了字典学习的更具挑战性模式。为此,我们将复制方法与随机矩阵理论一起介绍了复制品方法的新组合,共同矩阵理论,Coined光谱副本方法。它允许我们猜测隐藏表示与字典学习问题的嘈杂数据之间的相互信息的变分形式,以及定量最佳重建误差的重叠。所提出的方法从$ \ theta(n ^ 2)$(矩阵条目)到$ \ theta(n)$(特征值或奇异值)减少自由度的数量,并产生的互信息的库仑气体表示让人想起物理学中的矩阵模型。主要成分是使用Harishchandra-Itzykson-Zuber球形积分,结合新的复制对称解耦Ansatz,在特定重叠矩阵的特征值(或奇异值)的概率分布的水平上。
translated by 谷歌翻译
深神经网络(DNN)是用于压缩和蒸馏信息的强大工具。由于它们的规模和复杂性,通常涉及数十亿间相互作用的内部自由度,精确分析方法通常会缩短。这种情况下的共同策略是识别平均潜在的快速微观变量的不稳定行为的缓慢自由度。在这里,我们在训练结束时识别在过度参数化的深卷积神经网络(CNNS)中发生的尺度的分离。它意味着神经元预激活与几乎高斯的方式与确定性潜在内核一起波动。在对于具有无限许多频道的CNN来说,这些内核是惰性的,对于有限的CNNS,它们以分析的方式通过数据适应和学习数据。由此产生的深度学习的热力学理论产生了几种深度非线性CNN玩具模型的准确预测。此外,它还提供了新的分析和理解CNN的方法。
translated by 谷歌翻译
我们开发了一种多尺度方法,以从实验或模拟中观察到的物理字段或配置的数据集估算高维概率分布。通过这种方式,我们可以估计能量功能(或哈密顿量),并有效地在从统计物理学到宇宙学的各个领域中生成多体系统的新样本。我们的方法 - 小波条件重新归一化组(WC-RG) - 按比例进行估算,以估算由粗粒磁场来调节的“快速自由度”的条件概率的模型。这些概率分布是由与比例相互作用相关的能量函数建模的,并以正交小波为基础表示。 WC-RG将微观能量函数分解为各个尺度上的相互作用能量之和,并可以通过从粗尺度到细度来有效地生成新样品。近相变,它避免了直接估计和采样算法的“临界减速”。理论上通过结合RG和小波理论的结果来解释这一点,并为高斯和$ \ varphi^4 $字段理论进行数值验证。我们表明,多尺度WC-RG基于能量的模型比局部电位模型更通用,并且可以在所有长度尺度上捕获复杂的多体相互作用系统的物理。这是针对反映宇宙学中暗物质分布的弱透镜镜头的,其中包括与长尾概率分布的长距离相互作用。 WC-RG在非平衡系统中具有大量的潜在应用,其中未知基础分布{\ it先验}。最后,我们讨论了WC-RG和深层网络体系结构之间的联系。
translated by 谷歌翻译
神经网络是高维非线性动力学系统,通过许多相互连接的单元的协调活动来处理信息。了解生物学和机器学习网络的功能和学习如何需要了解这种协调活动的结构,该信息包含在单元之间的跨跨构象中的信息。尽管动态平均场理论(DMFT)阐明了随机神经网络的几个特征,特别是它们可以产生混乱活动,但现有的DMFT方法不支持跨跨化的计算。我们通过通过两点腔法扩展DMFT方法来解决这个长期存在的问题。这首先揭示了活动协调的几个空间和时间特征,包括有效维度,定义为协方差矩阵频谱的参与率。我们的结果提供了一个一般的分析框架,用于研究随机神经网络中集体活动的结构,更广泛地,在具有猝灭障碍的高维非线性动力学系统中。
translated by 谷歌翻译
在许多学科中,动态系统的数据信息预测模型的开发引起了广泛的兴趣。我们提出了一个统一的框架,用于混合机械和机器学习方法,以从嘈杂和部分观察到的数据中识别动态系统。我们将纯数据驱动的学习与混合模型进行比较,这些学习结合了不完善的域知识。我们的公式与所选的机器学习模型不可知,在连续和离散的时间设置中都呈现,并且与表现出很大的内存和错误的模型误差兼容。首先,我们从学习理论的角度研究无内存线性(W.R.T.参数依赖性)模型误差,从而定义了过多的风险和概括误差。对于沿阵行的连续时间系统,我们证明,多余的风险和泛化误差都通过与T的正方形介于T的术语(指定训练数据的时间间隔)的术语界定。其次,我们研究了通过记忆建模而受益的方案,证明了两类连续时间复发性神经网络(RNN)的通用近似定理:两者都可以学习与内存有关的模型误差。此外,我们将一类RNN连接到储层计算,从而将学习依赖性错误的学习与使用随机特征在Banach空间之间进行监督学习的最新工作联系起来。给出了数值结果(Lorenz '63,Lorenz '96多尺度系统),以比较纯粹的数据驱动和混合方法,发现混合方法较少,渴望数据较少,并且更有效。最后,我们从数值上证明了如何利用数据同化来从嘈杂,部分观察到的数据中学习隐藏的动态,并说明了通过这种方法和培训此类模型来表示记忆的挑战。
translated by 谷歌翻译
我们考虑受限制的Boltzmann机器(RBMS)在非结构化的数据集上培训,由虚构的数据集进行,该数据集由明确的模糊但不可用的“原型”,我们表明,RBM可以学习原型的临界样本大小,即机器可以成功播放作为一种生成模型或作为分类器,根据操作程序。通常,评估关键的样本大小(可能与数据集的质量相关)仍然是机器学习中的一个开放问题。在这里,限制随机理论,其中浅网络就足够了,大母细胞场景是正确的,我们利用RBM和Hopfield网络之间的正式等价,以获得突出区域中突出区域的神经架构的相图控制参数(即,原型的数量,训练集的训练集的神经元数量,大小和质量的数量),其中可以实现学习。我们的调查是通过基于无序系统的统计学机械的分析方法领导的,结果通过广泛的蒙特卡罗模拟进一步证实。
translated by 谷歌翻译
具有动量的迷你批次SGD是学习大型预测模型的基本算法。在本文中,我们开发了一个新的分析框架,以分析不同动量和批次大小的线性模型的迷你批次SGD。我们的关键思想是用其生成函数来描述损耗值序列,可以以紧凑的形式写出,假设模型权重的第二矩对角近似。通过分析这种生成功能,我们得出了有关收敛条件,模型相结构和最佳学习设置的各种结论。作为几个示例,我们表明1)优化轨迹通常可以从“信号主导”转换为“噪声主导”阶段,以分析性预测的时间尺度; 2)在“信号主导”(但不是“以噪声为主导”的)阶段中,有利于选择较大的有效学习率,但是对于任何有限的批次大小,其值必须受到限制,以避免发散; 3)可以在负动量下实现最佳收敛速率。我们通过对MNIST和合成问题进行广泛的实验来验证我们的理论预测,并找到良好的定量一致性。
translated by 谷歌翻译
深度均衡网络(DEQ)是构建模型以进行计算的模型的一种有希望的方法。但是,与传统网络相比,对这些模型的理论理解仍然缺乏,部分原因是一组重量的重复应用。我们表明,DEQ对初始化的基质家族的高阶统计敏感。特别是,用正交或对称矩阵初始化可以在训练中提高稳定性。这为我们提供了初始化的实用处方,该处方允许以更广泛的初始重量量表进行训练。
translated by 谷歌翻译
我们开发一种方法来构造来自表示基本上非线性(或不可连锁的)动态系统的数据集构成低维预测模型,其中具有由有限许多频率的外部强制进行外部矫正的双曲线线性部分。我们的数据驱动,稀疏,非线性模型获得为低维,吸引动力系统的光谱子纤维(SSM)的降低的动态的延长正常形式。我们说明了数据驱动的SSM降低了高维数值数据集的功率和涉及梁振荡,涡旋脱落和水箱中的晃动的实验测量。我们发现,在未加工的数据上培训的SSM减少也在额外的外部强制下准确预测非线性响应。
translated by 谷歌翻译
In this thesis, we consider two simple but typical control problems and apply deep reinforcement learning to them, i.e., to cool and control a particle which is subject to continuous position measurement in a one-dimensional quadratic potential or in a quartic potential. We compare the performance of reinforcement learning control and conventional control strategies on the two problems, and show that the reinforcement learning achieves a performance comparable to the optimal control for the quadratic case, and outperforms conventional control strategies for the quartic case for which the optimal control strategy is unknown. To our knowledge, this is the first time deep reinforcement learning is applied to quantum control problems in continuous real space. Our research demonstrates that deep reinforcement learning can be used to control a stochastic quantum system in real space effectively as a measurement-feedback closed-loop controller, and our research also shows the ability of AI to discover new control strategies and properties of the quantum systems that are not well understood, and we can gain insights into these problems by learning from the AI, which opens up a new regime for scientific research.
translated by 谷歌翻译
了解不同网络架构的能力和局限性对机器学习的根本重要性。高斯工艺的贝叶斯推断已被证明是一种可行的方法,用于研究无限层宽度的反复和深网络,$ n \ infty $。在这里,我们通过采用来自无序系统的统计物理学的建立方法,从第一个原则开始的架构的统一和系统的衍生均衡和系统的推导。该理论阐明了,虽然平均场方程关于其时间结构不同,但是当读出分别在单个时间点或层拍摄时,它们却产生相同的高斯核。贝叶斯推理应用于分类,然后预测两种架构的相同性能和能力。在数值上,我们发现朝向平均场理论的收敛通常对复发网络的速度较慢,而不是对于深网络,并且收敛速度仅取决于前面的重量的参数以及时间步骤的参数。我们的方法公开了高斯进程,但系统扩展的最低阶数为1 / N $。因此,形式主义铺平了调查有限宽度$ N $的经常性和深层架构之间的根本差异。
translated by 谷歌翻译