我们研究神经网络量子状态的无限限制($ \ idty $ -nnqs),它通过集合统计表现出代表性,以及易衰减的梯度下降动态。根据神经网络相关器表示瑞尼熵的集合平均值,并提出了表现出体积法纠缠的架构。开发了一种用于研究神经网络量子状态(NNQS)的梯度下降动态的一般框架,使用量子状态神经切线内核(QS-NTK)。对于$ \ infty $ -nnqs,简化了训练动态,因为QS-NTK变为确定性和常数。导出分析解决方案用于量子州监督学习,允许$ \ infty $ -nnqs恢复任何目标波段。横向场介绍模型有限和无限NNQ的数值实验和Fermi Hubbard模型表现出与理论的优秀协议。 $ \ infty $ -nnqs开辟了研究其他物理应用中的纠缠和培训动态的新机会,例如在寻找基地。
translated by 谷歌翻译
变形量子电路用于量子机器学习和变分量子仿真任务。设计良好的变形电路或预测对给定学习或优化任务的表现如何尚不清楚。在这里,我们讨论了这些问题,使用神经切线内核理论分析变分量子电路。我们定义了量子神经切线内核,并在优化和学习任务中获得了相关损失函数的动态方程。我们分析了冻结极限或懒惰训练制度的动态,其中变分角缓慢变化,线性扰动足够好。我们将分析扩展到动态设置,包括变分角的二次校正。然后,我们考虑混合量子古典架构并定义混合核的大宽度限制,表明混合量子 - 经典神经网络可以大致高斯。这里提出的结果显示了用于量子机器学习和优化问题的变分量子电路的训练动态的分析谅解的限制。这些分析结果得到了量子机器学习实验的数值模拟支持。
translated by 谷歌翻译
研究了现场理论的方法,其中田地由$ N $组成型随机神经元组成。当神经元通过中央极限定理时,高斯理论在无限的$ N $限值中出现,而由于有限的N $效应或非独立分布的神经元,相互作用会出现相互作用。欧几里德 - 不变的神经元的整体设计,具有可调两点函数,屈服于欧几里德野外理论的家庭。一些高斯,欧几里德不变理论是阳性的反射阳性,这允许分析到洛伦兹不变的量子场理论。提出了实施例,其中在无限的N $屈服于双重理论,但在有限美元中有不同的对称性。经典领域配置的景观由参数分布的局部最大值确定。从混合场 - 神经元相关器产生预测。近高斯以较大的$ N $展出,潜在地解释了自然界原野理论的特征。
translated by 谷歌翻译
A longstanding goal in deep learning research has been to precisely characterize training and generalization. However, the often complex loss landscapes of neural networks have made a theory of learning dynamics elusive. In this work, we show that for wide neural networks the learning dynamics simplify considerably and that, in the infinite width limit, they are governed by a linear model obtained from the first-order Taylor expansion of the network around its initial parameters. Furthermore, mirroring the correspondence between wide Bayesian neural networks and Gaussian processes, gradient-based training of wide neural networks with a squared loss produces test set predictions drawn from a Gaussian process with a particular compositional kernel. While these theoretical results are only exact in the infinite width limit, we nevertheless find excellent empirical agreement between the predictions of the original network and those of the linearized version even for finite practically-sized networks. This agreement is robust across different architectures, optimization methods, and loss functions.
translated by 谷歌翻译
At initialization, artificial neural networks (ANNs) are equivalent to Gaussian processes in the infinite-width limit (16; 4; 7; 13; 6), thus connecting them to kernel methods. We prove that the evolution of an ANN during training can also be described by a kernel: during gradient descent on the parameters of an ANN, the network function f θ (which maps input vectors to output vectors) follows the kernel gradient of the functional cost (which is convex, in contrast to the parameter cost) w.r.t. a new kernel: the Neural Tangent Kernel (NTK). This kernel is central to describe the generalization features of ANNs. While the NTK is random at initialization and varies during training, in the infinite-width limit it converges to an explicit limiting kernel and it stays constant during training. This makes it possible to study the training of ANNs in function space instead of parameter space. Convergence of the training can then be related to the positive-definiteness of the limiting NTK. We prove the positive-definiteness of the limiting NTK when the data is supported on the sphere and the non-linearity is non-polynomial. We then focus on the setting of least-squares regression and show that in the infinitewidth limit, the network function f θ follows a linear differential equation during training. The convergence is fastest along the largest kernel principal components of the input data with respect to the NTK, hence suggesting a theoretical motivation for early stopping. Finally we study the NTK numerically, observe its behavior for wide networks, and compare it to the infinite-width limit.
translated by 谷歌翻译
现代深度神经网络(DNN)的成功基于其在多层转换投入以建立良好高级表示的能力。因此,了解这种表示学习过程至关重要。但是,我们不能使用涉及无限宽度限制的标准理论方法,因为它们消除了代表性学习。因此,我们开发了一个新的无限宽度限制,即表示的学习限制,该限制表现出表示形式的学习反映,但在有限宽度网络中,但同时仍然非常容易处理。例如,表示学习限制在深处的高斯过程中提供了恰好具有多种内核的多元高斯后期,包括所有各向同性(距离依赖)内核。我们得出一个优雅的目标,描述了每个网络层如何学习在输入和输出之间插值的表示形式。最后,我们使用此限制和目标来开发对内核方法的灵活,深刻的概括,我们称之为深内核机器(DKMS)。我们表明,可以使用受高斯过程文献中诱导点方法启发的方法将DKMS缩放到大数据集,并且我们表明DKMS表现出优于其他基于内核方法的性能。
translated by 谷歌翻译
我们分析了通过梯度流通过自洽动力场理论训练的无限宽度神经网络中的特征学习。我们构建了确定性动力学阶参数的集合,该参数是内部产物内核,用于在成对的时间点中,每一层中隐藏的单位激活和梯度,从而减少了通过训练对网络活动的描述。这些内核顺序参数共同定义了隐藏层激活分布,神经切线核的演变以及因此输出预测。我们表明,现场理论推导恢复了从Yang和Hu(2021)获得张量程序的无限宽度特征学习网络的递归随机过程。对于深线性网络,这些内核满足一组代数矩阵方程。对于非线性网络,我们提供了一个交替的采样过程,以求助于内核顺序参数。我们提供了与各种近似方案的自洽解决方案的比较描述。最后,我们提供了更现实的设置中的实验,这些实验表明,在CIFAR分类任务上,在不同宽度上保留了CNN的CNN的损耗和内核动力学。
translated by 谷歌翻译
为了更好地了解大型神经网络的理论行为,有几项工程已经分析了网络宽度倾向于无穷大的情况。在该制度中,随机初始化的影响和训练神经网络的过程可以与高斯过程和神经切线内核等分析工具正式表达。在本文中,我们审查了在这种无限宽度神经网络中量化不确定性的方法,并将它们与贝叶斯推理框架中的高斯过程的关系进行比较。我们利用沿途使用几个等价结果,以获得预测不确定性的确切闭合性解决方案。
translated by 谷歌翻译
一项开创性的工作[Jacot等,2018]表明,在特定参数化下训练神经网络等同于执行特定的内核方法,因为宽度延伸到无穷大。这种等效性为将有关内核方法的丰富文献结果应用于神经网的结果开辟了一个有希望的方向,而神经网络很难解决。本调查涵盖了内核融合的关键结果,因为宽度进入无穷大,有限宽度校正,应用以及对相应方法的局限性的讨论。
translated by 谷歌翻译
量子哈密顿学习和量子吉布斯采样的双重任务与物理和化学中的许多重要问题有关。在低温方案中,这些任务的算法通常会遭受施状能力,例如因样本或时间复杂性差而遭受。为了解决此类韧性,我们将量子自然梯度下降的概括引入了参数化的混合状态,并提供了稳健的一阶近似算法,即量子 - 固定镜下降。我们使用信息几何学和量子计量学的工具证明了双重任务的数据样本效率,因此首次将经典Fisher效率的开创性结果推广到变异量子算法。我们的方法扩展了以前样品有效的技术,以允许模型选择的灵活性,包括基于量子汉密尔顿的量子模型,包括基于量子的模型,这些模型可能会规避棘手的时间复杂性。我们的一阶算法是使用经典镜下降二元性的新型量子概括得出的。两种结果都需要特殊的度量选择,即Bogoliubov-Kubo-Mori度量。为了从数值上测试我们提出的算法,我们将它们的性能与现有基准进行了关于横向场ISING模型的量子Gibbs采样任务的现有基准。最后,我们提出了一种初始化策略,利用几何局部性来建模状态的序列(例如量子 - 故事过程)的序列。我们从经验上证明了它在实际和想象的时间演化的经验上,同时定义了更广泛的潜在应用。
translated by 谷歌翻译
在这项工作中,我们研究了矩阵产品状态(MPS)的神经切线内核(NTK)和NTK在无限键尺寸极限中的收敛性。我们证明了在梯度下降(训练)过程(以及初始化阶段)期间,MPS的NTK渐近地收敛于恒定矩阵,因为MPS的键尺寸通过观察到渐近的张量在MPS中的张量的变化而变化在无限极限的培训期间零。通过显示MPS NTK的正面定义,在函数空间训练期间MP的收敛性(MPS表示的函数空间)没有任何额外的数据集的额外假设。然后,我们考虑使用均方误差(RMSE)和(无监督)出生的机器(BM)的(监督)回归的设置,并在无限债券尺寸限制中分析它们的动态。常规方程(ODES)在闭合形式中衍生和解决了解RMSE和BM中MPS响应的动态的常规差分方程(ODES)。对于回归,我们考虑Mercer内核(高斯内核)并发现MPS响应的平均值的演变遵循NTK的最大特征值。由于BM中的内核函数的正交,获得了不同模式(样本)去源的演变和训练中收敛的“特征时间”。
translated by 谷歌翻译
Quantum machine learning is a rapidly evolving field of research that could facilitate important applications for quantum computing and also significantly impact data-driven sciences. In our work, based on various arguments from complexity theory and physics, we demonstrate that a single Kerr mode can provide some "quantum enhancements" when dealing with kernel-based methods. Using kernel properties, neural tangent kernel theory, first-order perturbation theory of the Kerr non-linearity, and non-perturbative numerical simulations, we show that quantum enhancements could happen in terms of convergence time and generalization error. Furthermore, we make explicit indications on how higher-dimensional input data could be considered. Finally, we propose an experimental protocol, that we call \emph{quantum Kerr learning}, based on circuit QED.
translated by 谷歌翻译
宽度限制最近是深度学习研究的焦点:模数计算实用,做更广泛的网络优于较窄的网络?当传统网络增益具有宽度的代表性,潜在掩盖任何负面影响,回答这个问题一直在具有挑战性。我们在本文中的分析通过神经网络的概括到深层高斯过程(深GP),一类非参数分层模型,占据了神经网络的非参数分层模型。在这样做时,我们的目标是了解一旦对给定建模任务的容量足够的容量,才能了解宽度(标准)神经网络。我们深入GP的理论和经验结果表明,大宽度可能对等级模型有害。令人惊讶的是,我们证明了甚至非参数的深GP融合到高斯过程,实际上变得浅薄而没有任何代表性的力量。对应于数据适应性基本函数的混合的后后,与宽度变得较小。我们的尾部分析表明,宽度和深度具有相反的影响:深度突出了模型的非高斯,而宽度使模型越来越高斯。我们发现有一个“甜蜜点”,可以在限制GP行为防止适应性之前最大化测试性能,以宽度= 1或宽度= 2用于非参数深GP。这些结果对具有L2正规化训练的传统神经网络中的相同现象(类似于参数的高斯),使得这种神经网络可能需要多达500至1000个隐藏单元的现象,以获得足够的容量 - 取决于数据集 - 但进一步的宽度降低了性能。
translated by 谷歌翻译
我们研究了具有由完全连接的神经网络产生的密度场的固体各向同性物质惩罚(SIMP)方法,将坐标作为输入。在大的宽度限制中,我们表明DNN的使用导致滤波效果类似于SIMP的传统过滤技术,具有由神经切线内核(NTK)描述的过滤器。然而,这种过滤器在翻译下不是不变的,导致视觉伪像和非最佳形状。我们提出了两个输入坐标的嵌入,导致NTK和滤波器的空间不变性。我们经验证实了我们的理论观察和研究了过滤器大小如何受网络架构的影响。我们的解决方案可以很容易地应用于任何其他基于坐标的生成方法。
translated by 谷歌翻译
最近的作品表明,有限的贝叶斯神经网络有时可能会越优于其无限堂兄弟,因为有限网络可以灵活地调整其内部表示。然而,我们对有限网络的学习隐藏层表示如何与无限网络的固定表示不同的理论理解仍然不完整。研究了对网络的扰动有限宽度校正,但已经研究过的网络,但学习特征的渐近学尚未完全表征。在这里,我们认为具有线性读数和高斯可能性的任何贝叶斯网络的平均特征内核的领先有限宽度校正具有很大程度上的普遍形式。我们明确地说明了三个易行网络架构:深线性完全连接和卷积网络,以及具有单个非线性隐藏层的网络。我们的结果开始阐明任务相关的学习信号如何塑造宽阔的贝叶斯神经网络的隐藏层表示。
translated by 谷歌翻译
Building a quantum analog of classical deep neural networks represents a fundamental challenge in quantum computing. A key issue is how to address the inherent non-linearity of classical deep learning, a problem in the quantum domain due to the fact that the composition of an arbitrary number of quantum gates, consisting of a series of sequential unitary transformations, is intrinsically linear. This problem has been variously approached in the literature, principally via the introduction of measurements between layers of unitary transformations. In this paper, we introduce the Quantum Path Kernel, a formulation of quantum machine learning capable of replicating those aspects of deep machine learning typically associated with superior generalization performance in the classical domain, specifically, hierarchical feature learning. Our approach generalizes the notion of Quantum Neural Tangent Kernel, which has been used to study the dynamics of classical and quantum machine learning models. The Quantum Path Kernel exploits the parameter trajectory, i.e. the curve delineated by model parameters as they evolve during training, enabling the representation of differential layer-wise convergence behaviors, or the formation of hierarchical parametric dependencies, in terms of their manifestation in the gradient space of the predictor function. We evaluate our approach with respect to variants of the classification of Gaussian XOR mixtures - an artificial but emblematic problem that intrinsically requires multilevel learning in order to achieve optimal class separation.
translated by 谷歌翻译
深神经网络(DNN)是用于压缩和蒸馏信息的强大工具。由于它们的规模和复杂性,通常涉及数十亿间相互作用的内部自由度,精确分析方法通常会缩短。这种情况下的共同策略是识别平均潜在的快速微观变量的不稳定行为的缓慢自由度。在这里,我们在训练结束时识别在过度参数化的深卷积神经网络(CNNS)中发生的尺度的分离。它意味着神经元预激活与几乎高斯的方式与确定性潜在内核一起波动。在对于具有无限许多频道的CNN来说,这些内核是惰性的,对于有限的CNNS,它们以分析的方式通过数据适应和学习数据。由此产生的深度学习的热力学理论产生了几种深度非线性CNN玩具模型的准确预测。此外,它还提供了新的分析和理解CNN的方法。
translated by 谷歌翻译
Deep Gaussian工艺(DGP)作为贝叶斯学习的先验模型直观地利用功能组成中的表达能力。 DGP还提供了不同的建模功能,但是推断很具有挑战性,因为潜在功能空间的边缘化是无法处理的。借助Bochner定理,具有平方指数内核的DGP可以看作是由随机特征层,正弦和余弦激活单元以及随机重量层组成的深度三角网络。在具有瓶颈的宽极限中,我们表明重量空间视图产生了相同的有效协方差函数,该函数先前在功能空间中获得。同样,在网络参数上改变先前的分布相当于使用不同的内核。因此,DGP可以转换为深瓶颈触发网络,可以通过该网络获得确切的最大后验估计。有趣的是,网络表示可以研究DGP的神经切线核,这也可能揭示了棘手的预测分布的平均值。从统计上讲,与浅网络不同,有限宽度的深网具有与极限内核的协方差,并且内部和外部宽度可能在功能学习中起不同的作用。存在数值模拟以支持我们的发现。
translated by 谷歌翻译
我们介绍了Netket的版本3,机器学习工具箱适用于许多身体量子物理学。Netket围绕神经网络量子状态构建,并为其评估和优化提供有效的算法。这个新版本是基于JAX的顶部,一个用于Python编程语言的可差分编程和加速的线性代数框架。最重要的新功能是使用机器学习框架的简明符号来定义纯Python代码中的任意神经网络ANS \“凝固的可能性,这允许立即编译以及渐变的隐式生成自动化。Netket 3还带来了GPU和TPU加速器的支持,对离散对称组的高级支持,块以缩放多程度的自由度,Quantum动态应用程序的驱动程序,以及改进的模块化,允许用户仅使用部分工具箱是他们自己代码的基础。
translated by 谷歌翻译
本文考虑了深神经网络中随机矩阵普遍性的几个方面。在最近的实验工作中,我们使用与局部统计相关的随机矩阵的普遍特性,以基于其Hessians的现实模型来获得对深神经网络的实际含义。特别是,我们得出了深度神经网络光谱中异常值的普遍方面,并证明了随机矩阵局部定律在流行的预处理梯度下降算法中的重要作用。我们还通过基于统计物理学和随机矩阵理论的工具的一般参数,对深度神经网络损失表面的见解。
translated by 谷歌翻译