利用数据不变对于人工和生物神经回路的有效学习至关重要。因此,了解神经网络如何发现能够利用其投入的基础对称性的适当表示,因此对于机器学习和神经科学至关重要。例如,卷积神经网络旨在利用翻译对称性及其功能触发了第一波深度学习成功。但是,迄今为止,从具有完全连接的网络的翻译不变数据中学习卷积已经被证明难以捉摸。在这里,我们展示了最初完全连接的神经网络解决歧视任务的神经网络如何直接从其输入中学习卷积结构,从而导致局部,空间铺设的接受场。这些接收场与经过同一任务训练的卷积网络的过滤器相匹配。通过精心设计视觉场景的数据模型,我们表明这种模式的出现是由输入的非高斯,高阶的局部结构触发的,该结构长期以来一直被认为是自然图像的标志。我们在简单的模型中提供了负责这种现象的模式形成机制的分析和数值表征,并在接受场形成与高阶输入相关性的张量分解之间找到了意外的联系。这些结果为各种感觉方式的低级特征探测器的发展提供了新的观点,并为研究高阶统计数据对神经网络学习的影响铺平了道路。
translated by 谷歌翻译
Understanding the functional principles of information processing in deep neural networks continues to be a challenge, in particular for networks with trained and thus non-random weights. To address this issue, we study the mapping between probability distributions implemented by a deep feed-forward network. We characterize this mapping as an iterated transformation of distributions, where the non-linearity in each layer transfers information between different orders of correlation functions. This allows us to identify essential statistics in the data, as well as different information representations that can be used by neural networks. Applied to an XOR task and to MNIST, we show that correlations up to second order predominantly capture the information processing in the internal layers, while the input layer also extracts higher-order correlations from the data. This analysis provides a quantitative and explainable perspective on classification.
translated by 谷歌翻译
AutoEncoders是无监督学习中最简单的神经网络,因此是学习特色学习的理想框架。虽然最近获得了对线性自动统计器的动态的详细了解,但是通过处理具有非普通相关性的培训数据的技术难题来阻碍了对非线性自动化器的研究 - 特征提取的基本先决条件。在这里,我们研究非线性,浅层自动化器中特征学习的动态。我们派生了一组渐近的精确方程,描述了在高维输入的极限中用随机梯度下降(SGD)训练的AutoEncoders的泛化动态。这些方程揭示了AutoEncoders顺序地学习其输入的主要主体组成部分。对长时间动态的分析解释了Sigmoidal AutoEncoders与捆绑权重的失败,突出了培训Relu AutoEncoders偏差的重要性。在以前的线性网络上建立上一个结果,我们分析了Vanilla SGD算法的修改,允许学习精确的主组件。最后,我们表明我们的方程式准确地描述了非线性自动泊车的泛化动态,如CiFar10。
translated by 谷歌翻译
深神经网络(DNN)是用于压缩和蒸馏信息的强大工具。由于它们的规模和复杂性,通常涉及数十亿间相互作用的内部自由度,精确分析方法通常会缩短。这种情况下的共同策略是识别平均潜在的快速微观变量的不稳定行为的缓慢自由度。在这里,我们在训练结束时识别在过度参数化的深卷积神经网络(CNNS)中发生的尺度的分离。它意味着神经元预激活与几乎高斯的方式与确定性潜在内核一起波动。在对于具有无限许多频道的CNN来说,这些内核是惰性的,对于有限的CNNS,它们以分析的方式通过数据适应和学习数据。由此产生的深度学习的热力学理论产生了几种深度非线性CNN玩具模型的准确预测。此外,它还提供了新的分析和理解CNN的方法。
translated by 谷歌翻译
大型神经回路的全面突触接线图的出现已经创造了连接组学领域,并引起了许多开放研究问题。一个问题是,鉴于其突触连接矩阵,是否可以重建存储在神经元网络中的信息。在这里,我们通过确定在特定的吸引力网络模型中可以解决这种推理问题何时解决这个问题,并提供一种实用算法来解决这个问题。该算法基于从统计物理学到进行近似贝叶斯推论的思想,并且可以进行精确的分析。我们在三种不同模型上研究了它的性能,将算法与PCA等标准算法进行比较,并探讨了从突触连通性中重建存储模式的局限性。
translated by 谷歌翻译
了解不同网络架构的能力和局限性对机器学习的根本重要性。高斯工艺的贝叶斯推断已被证明是一种可行的方法,用于研究无限层宽度的反复和深网络,$ n \ infty $。在这里,我们通过采用来自无序系统的统计物理学的建立方法,从第一个原则开始的架构的统一和系统的衍生均衡和系统的推导。该理论阐明了,虽然平均场方程关于其时间结构不同,但是当读出分别在单个时间点或层拍摄时,它们却产生相同的高斯核。贝叶斯推理应用于分类,然后预测两种架构的相同性能和能力。在数值上,我们发现朝向平均场理论的收敛通常对复发网络的速度较慢,而不是对于深网络,并且收敛速度仅取决于前面的重量的参数以及时间步骤的参数。我们的方法公开了高斯进程,但系统扩展的最低阶数为1 / N $。因此,形式主义铺平了调查有限宽度$ N $的经常性和深层架构之间的根本差异。
translated by 谷歌翻译
Despite the widespread practical success of deep learning methods, our theoretical understanding of the dynamics of learning in deep neural networks remains quite sparse. We attempt to bridge the gap between the theory and practice of deep learning by systematically analyzing learning dynamics for the restricted case of deep linear neural networks. Despite the linearity of their input-output map, such networks have nonlinear gradient descent dynamics on weights that change with the addition of each new hidden layer. We
translated by 谷歌翻译
无监督的机器学习的目的是删除复杂的高维数据的表示形式,从而解释数据中的重要潜在因素以及操纵它们以生成具有理想功能的新数据。这些方法通常依赖于对抗方案,在该方案中,对代表进行调整以避免歧视者能够重建特定的数据信息(标签)。我们提出了一种简单,有效的方法,即在无需培训对抗歧视器的情况下解开表示形式,并将我们的方法应用于受限的玻尔兹曼机器(RBM),这是最简单的基于代表的生成模型之一。我们的方法依赖于在训练过程中引入对权重的足够约束,这使我们能够将有关标签的信息集中在一小部分潜在变量上。该方法的有效性在MNIST数据集,二维ISING模型和蛋白质家族的分类法上说明了。此外,我们还展示了我们的框架如何从数据的对数模型中计算成本,与其表示形式的删除相关。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
我们分析了通过梯度流通过自洽动力场理论训练的无限宽度神经网络中的特征学习。我们构建了确定性动力学阶参数的集合,该参数是内部产物内核,用于在成对的时间点中,每一层中隐藏的单位激活和梯度,从而减少了通过训练对网络活动的描述。这些内核顺序参数共同定义了隐藏层激活分布,神经切线核的演变以及因此输出预测。我们表明,现场理论推导恢复了从Yang和Hu(2021)获得张量程序的无限宽度特征学习网络的递归随机过程。对于深线性网络,这些内核满足一组代数矩阵方程。对于非线性网络,我们提供了一个交替的采样过程,以求助于内核顺序参数。我们提供了与各种近似方案的自洽解决方案的比较描述。最后,我们提供了更现实的设置中的实验,这些实验表明,在CIFAR分类任务上,在不同宽度上保留了CNN的CNN的损耗和内核动力学。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
These notes were compiled as lecture notes for a course developed and taught at the University of the Southern California. They should be accessible to a typical engineering graduate student with a strong background in Applied Mathematics. The main objective of these notes is to introduce a student who is familiar with concepts in linear algebra and partial differential equations to select topics in deep learning. These lecture notes exploit the strong connections between deep learning algorithms and the more conventional techniques of computational physics to achieve two goals. First, they use concepts from computational physics to develop an understanding of deep learning algorithms. Not surprisingly, many concepts in deep learning can be connected to similar concepts in computational physics, and one can utilize this connection to better understand these algorithms. Second, several novel deep learning algorithms can be used to solve challenging problems in computational physics. Thus, they offer someone who is interested in modeling a physical phenomena with a complementary set of tools.
translated by 谷歌翻译
一项开创性的工作[Jacot等,2018]表明,在特定参数化下训练神经网络等同于执行特定的内核方法,因为宽度延伸到无穷大。这种等效性为将有关内核方法的丰富文献结果应用于神经网的结果开辟了一个有希望的方向,而神经网络很难解决。本调查涵盖了内核融合的关键结果,因为宽度进入无穷大,有限宽度校正,应用以及对相应方法的局限性的讨论。
translated by 谷歌翻译
Multilayer Neural Networks trained with the backpropagation algorithm constitute the best example of a successful Gradient-Based Learning technique. Given an appropriate network architecture, Gradient-Based Learning algorithms can be used to synthesize a complex decision surface that can classify high-dimensional patterns such as handwritten characters, with minimal preprocessing. This paper reviews various methods applied to handwritten character recognition and compares them on a standard handwritten digit recognition task. Convolutional Neural Networks, that are specifically designed to deal with the variability of 2D shapes, are shown to outperform all other techniques.Real-life document recognition systems are composed of multiple modules including eld extraction, segmentation, recognition, and language modeling. A new learning paradigm, called Graph Transformer Networks (GTN), allows such multi-module systems to be trained globally using Gradient-Based methods so as to minimize an overall performance measure.Two systems for on-line handwriting recognition are described. Experiments demonstrate the advantage of global training, and the exibility of Graph Transformer Networks.A Graph Transformer Network for reading bank check is also described. It uses Convolutional Neural Network character recognizers combined with global training techniques to provides record accuracy on business and personal checks. It is deployed commercially and reads several million checks per day.
translated by 谷歌翻译
尽管通常认为在高维度中学习受到维度的诅咒,但现代的机器学习方法通​​常具有惊人的力量,可以解决广泛的挑战性现实世界学习问题而无需使用大量数据。这些方法如何打破这种诅咒仍然是深度学习理论中的一个基本开放问题。尽管以前的努力通过研究数据(D),模型(M)和推理算法(i)作为独立模块来研究了这个问题,但在本文中,我们将三胞胎(D,M,I)分析为集成系统和确定有助于减轻维度诅咒的重要协同作用。我们首先研究了与各种学习算法(M,i)相关的基本对称性,重点是深度学习中的四个原型体系结构:完全连接的网络(FCN),本地连接的网络(LCN)和卷积网络,而无需合并(有和没有合并)( GAP/VEC)。我们发现,当这些对称性与数据分布的对称性兼容时,学习是最有效的,并且当(d,m,i)三重态的任何成员不一致或次优时,性能会显着恶化。
translated by 谷歌翻译
最近的工作表明,不同体系结构的卷积神经网络学会按照相同的顺序对图像进行分类。为了理解这种现象,我们重新审视了过度参数的深度线性网络模型。我们的分析表明,当隐藏层足够宽时,该模型参数的收敛速率沿数据的较大主组件的方向呈指数级数,该方向由由相应的奇异值控制的速率。我们称这种收敛模式主成分偏差(PC偏置)。从经验上讲,我们展示了PC偏差如何简化线性和非线性网络的学习顺序,在学习的早期阶段更为突出。然后,我们将结果与简单性偏见进行比较,表明可以独立看到这两个偏见,并以不同的方式影响学习顺序。最后,我们讨论了PC偏差如何解释早期停止及其与PCA的联系的一些好处,以及为什么深网与随机标签更慢地收敛。
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
我们开发了一种多尺度方法,以从实验或模拟中观察到的物理字段或配置的数据集估算高维概率分布。通过这种方式,我们可以估计能量功能(或哈密顿量),并有效地在从统计物理学到宇宙学的各个领域中生成多体系统的新样本。我们的方法 - 小波条件重新归一化组(WC-RG) - 按比例进行估算,以估算由粗粒磁场来调节的“快速自由度”的条件概率的模型。这些概率分布是由与比例相互作用相关的能量函数建模的,并以正交小波为基础表示。 WC-RG将微观能量函数分解为各个尺度上的相互作用能量之和,并可以通过从粗尺度到细度来有效地生成新样品。近相变,它避免了直接估计和采样算法的“临界减速”。理论上通过结合RG和小波理论的结果来解释这一点,并为高斯和$ \ varphi^4 $字段理论进行数值验证。我们表明,多尺度WC-RG基于能量的模型比局部电位模型更通用,并且可以在所有长度尺度上捕获复杂的多体相互作用系统的物理。这是针对反映宇宙学中暗物质分布的弱透镜镜头的,其中包括与长尾概率分布的长距离相互作用。 WC-RG在非平衡系统中具有大量的潜在应用,其中未知基础分布{\ it先验}。最后,我们讨论了WC-RG和深层网络体系结构之间的联系。
translated by 谷歌翻译
人们普遍认为,深网的成功在于他们学习数据功能的有意义表示的能力。然而,了解该功能学习何时以及如何提高性能仍然是一个挑战:例如,它对经过对图像进行分类的现代体系结构有益,而对于在相同数据上针对同一任务培训的完全连接的网络是有害的。在这里,我们提出了有关此难题的解释,表明特征学习可以比懒惰训练(通过随机特征内核或NTK)更糟糕,因为前者可以导致较少的神经表示。尽管已知稀疏性对于学习各向异性数据是必不可少的,但是当目标函数沿输入空间的某些方向恒定或平滑时,这是有害的。我们在两个设置中说明了这种现象:(i)在D维单元球体上的高斯随机函数的回归,以及(ii)图像基准数据集的分类。对于(i),我们通过训练点数来计算概括误差的缩放率,并证明即使输入空间的尺寸很大,不学习特征的方法也可以更好地推广。对于(ii),我们从经验上表明,学习特征确实会导致稀疏,从而减少图像预测因子的平滑表示。这一事实是可能导致性能恶化的,这与沿差异性的平滑度相关。
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译