AutoEncoders是无监督学习中最简单的神经网络,因此是学习特色学习的理想框架。虽然最近获得了对线性自动统计器的动态的详细了解,但是通过处理具有非普通相关性的培训数据的技术难题来阻碍了对非线性自动化器的研究 - 特征提取的基本先决条件。在这里,我们研究非线性,浅层自动化器中特征学习的动态。我们派生了一组渐近的精确方程,描述了在高维输入的极限中用随机梯度下降(SGD)训练的AutoEncoders的泛化动态。这些方程揭示了AutoEncoders顺序地学习其输入的主要主体组成部分。对长时间动态的分析解释了Sigmoidal AutoEncoders与捆绑权重的失败,突出了培训Relu AutoEncoders偏差的重要性。在以前的线性网络上建立上一个结果,我们分析了Vanilla SGD算法的修改,允许学习精确的主组件。最后,我们表明我们的方程式准确地描述了非线性自动泊车的泛化动态,如CiFar10。
translated by 谷歌翻译
利用数据不变对于人工和生物神经回路的有效学习至关重要。因此,了解神经网络如何发现能够利用其投入的基础对称性的适当表示,因此对于机器学习和神经科学至关重要。例如,卷积神经网络旨在利用翻译对称性及其功能触发了第一波深度学习成功。但是,迄今为止,从具有完全连接的网络的翻译不变数据中学习卷积已经被证明难以捉摸。在这里,我们展示了最初完全连接的神经网络解决歧视任务的神经网络如何直接从其输入中学习卷积结构,从而导致局部,空间铺设的接受场。这些接收场与经过同一任务训练的卷积网络的过滤器相匹配。通过精心设计视觉场景的数据模型,我们表明这种模式的出现是由输入的非高斯,高阶的局部结构触发的,该结构长期以来一直被认为是自然图像的标志。我们在简单的模型中提供了负责这种现象的模式形成机制的分析和数值表征,并在接受场形成与高阶输入相关性的张量分解之间找到了意外的联系。这些结果为各种感觉方式的低级特征探测器的发展提供了新的观点,并为研究高阶统计数据对神经网络学习的影响铺平了道路。
translated by 谷歌翻译
懒惰培训制度中的神经网络收敛到内核机器。在丰富的特征学习制度中可以在丰富的特征学习制度中可以使用数据依赖性内核来学习内核机器吗?我们证明,这可以是由于我们术语静音对准的现象,这可能需要网络的切线内核在特征内演变,而在小并且在损失明显降低,并且之后仅在整体尺度上生长。我们表明这种效果在具有小初始化和白化数据的同质神经网络中进行。我们在线性网络壳体提供了对这种效果的分析处理。一般来说,我们发现内核在训练的早期阶段开发了低级贡献,然后在总体上发展,产生了与最终网络的切线内核的内核回归解决方案等同的函数。内核的早期光谱学习取决于深度。我们还证明了非白化数据可以削弱无声的对准效果。
translated by 谷歌翻译
大型神经回路的全面突触接线图的出现已经创造了连接组学领域,并引起了许多开放研究问题。一个问题是,鉴于其突触连接矩阵,是否可以重建存储在神经元网络中的信息。在这里,我们通过确定在特定的吸引力网络模型中可以解决这种推理问题何时解决这个问题,并提供一种实用算法来解决这个问题。该算法基于从统计物理学到进行近似贝叶斯推论的思想,并且可以进行精确的分析。我们在三种不同模型上研究了它的性能,将算法与PCA等标准算法进行比较,并探讨了从突触连通性中重建存储模式的局限性。
translated by 谷歌翻译
深神经网络(DNN)是用于压缩和蒸馏信息的强大工具。由于它们的规模和复杂性,通常涉及数十亿间相互作用的内部自由度,精确分析方法通常会缩短。这种情况下的共同策略是识别平均潜在的快速微观变量的不稳定行为的缓慢自由度。在这里,我们在训练结束时识别在过度参数化的深卷积神经网络(CNNS)中发生的尺度的分离。它意味着神经元预激活与几乎高斯的方式与确定性潜在内核一起波动。在对于具有无限许多频道的CNN来说,这些内核是惰性的,对于有限的CNNS,它们以分析的方式通过数据适应和学习数据。由此产生的深度学习的热力学理论产生了几种深度非线性CNN玩具模型的准确预测。此外,它还提供了新的分析和理解CNN的方法。
translated by 谷歌翻译
Understanding the functional principles of information processing in deep neural networks continues to be a challenge, in particular for networks with trained and thus non-random weights. To address this issue, we study the mapping between probability distributions implemented by a deep feed-forward network. We characterize this mapping as an iterated transformation of distributions, where the non-linearity in each layer transfers information between different orders of correlation functions. This allows us to identify essential statistics in the data, as well as different information representations that can be used by neural networks. Applied to an XOR task and to MNIST, we show that correlations up to second order predominantly capture the information processing in the internal layers, while the input layer also extracts higher-order correlations from the data. This analysis provides a quantitative and explainable perspective on classification.
translated by 谷歌翻译
教师 - 学生模型提供了一个框架,其中可以以封闭形式描述高维监督学习的典型情况。高斯I.I.D的假设然而,可以认为典型教师 - 学生模型的输入数据可以被认为过于限制,以捕获现实数据集的行为。在本文中,我们介绍了教师和学生可以在不同的空格上行动的模型的高斯协变态概括,以固定的,而是通用的特征映射。虽然仍处于封闭形式的仍然可解决,但这种概括能够捕获广泛的现实数据集的学习曲线,从而兑现师生框架的潜力。我们的贡献是两倍:首先,我们证明了渐近培训损失和泛化误差的严格公式。其次,我们呈现了许多情况,其中模型的学习曲线捕获了使用内​​核回归和分类学习的现实数据集之一,其中盒出开箱特征映射,例如随机投影或散射变换,或者与散射变换预先学习的 - 例如通过培训多层神经网络学到的特征。我们讨论了框架的权力和局限性。
translated by 谷歌翻译
Despite the widespread practical success of deep learning methods, our theoretical understanding of the dynamics of learning in deep neural networks remains quite sparse. We attempt to bridge the gap between the theory and practice of deep learning by systematically analyzing learning dynamics for the restricted case of deep linear neural networks. Despite the linearity of their input-output map, such networks have nonlinear gradient descent dynamics on weights that change with the addition of each new hidden layer. We
translated by 谷歌翻译
经常性神经网络(RNNS)是强大的动态模型,广泛用于机器学习(ML)和神经科学。之前的理论作品集中在具有添加剂相互作用的RNN上。然而,门控 - 即乘法 - 相互作用在真神经元中普遍存在,并且也是ML中最佳性能RNN的中心特征。在这里,我们表明Gating提供灵活地控制集体动态的两个突出特征:i)时间尺寸和ii)维度。栅极控制时间尺度导致新颖的稳定状态,网络用作灵活积分器。与以前的方法不同,Gating允许这种重要功能而没有参数微调或特殊对称。门还提供一种灵活的上下文相关机制来重置存储器跟踪,从而补充存储器功能。调制维度的栅极可以诱导新颖的不连续的混沌转变,其中输入将稳定的系统推向强的混沌活动,与通常稳定的输入效果相比。在这种转变之上,与添加剂RNN不同,关键点(拓扑复杂性)的增殖与混沌动力学的外观解耦(动态复杂性)。丰富的动态总结在相图中,从而为ML从业者提供了一个原理参数初始化选择的地图。
translated by 谷歌翻译
我们分析了通过梯度流通过自洽动力场理论训练的无限宽度神经网络中的特征学习。我们构建了确定性动力学阶参数的集合,该参数是内部产物内核,用于在成对的时间点中,每一层中隐藏的单位激活和梯度,从而减少了通过训练对网络活动的描述。这些内核顺序参数共同定义了隐藏层激活分布,神经切线核的演变以及因此输出预测。我们表明,现场理论推导恢复了从Yang和Hu(2021)获得张量程序的无限宽度特征学习网络的递归随机过程。对于深线性网络,这些内核满足一组代数矩阵方程。对于非线性网络,我们提供了一个交替的采样过程,以求助于内核顺序参数。我们提供了与各种近似方案的自洽解决方案的比较描述。最后,我们提供了更现实的设置中的实验,这些实验表明,在CIFAR分类任务上,在不同宽度上保留了CNN的CNN的损耗和内核动力学。
translated by 谷歌翻译
人们普遍认为,深网的成功在于他们学习数据功能的有意义表示的能力。然而,了解该功能学习何时以及如何提高性能仍然是一个挑战:例如,它对经过对图像进行分类的现代体系结构有益,而对于在相同数据上针对同一任务培训的完全连接的网络是有害的。在这里,我们提出了有关此难题的解释,表明特征学习可以比懒惰训练(通过随机特征内核或NTK)更糟糕,因为前者可以导致较少的神经表示。尽管已知稀疏性对于学习各向异性数据是必不可少的,但是当目标函数沿输入空间的某些方向恒定或平滑时,这是有害的。我们在两个设置中说明了这种现象:(i)在D维单元球体上的高斯随机函数的回归,以及(ii)图像基准数据集的分类。对于(i),我们通过训练点数来计算概括误差的缩放率,并证明即使输入空间的尺寸很大,不学习特征的方法也可以更好地推广。对于(ii),我们从经验上表明,学习特征确实会导致稀疏,从而减少图像预测因子的平滑表示。这一事实是可能导致性能恶化的,这与沿差异性的平滑度相关。
translated by 谷歌翻译
具有动量的迷你批次SGD是学习大型预测模型的基本算法。在本文中,我们开发了一个新的分析框架,以分析不同动量和批次大小的线性模型的迷你批次SGD。我们的关键思想是用其生成函数来描述损耗值序列,可以以紧凑的形式写出,假设模型权重的第二矩对角近似。通过分析这种生成功能,我们得出了有关收敛条件,模型相结构和最佳学习设置的各种结论。作为几个示例,我们表明1)优化轨迹通常可以从“信号主导”转换为“噪声主导”阶段,以分析性预测的时间尺度; 2)在“信号主导”(但不是“以噪声为主导”的)阶段中,有利于选择较大的有效学习率,但是对于任何有限的批次大小,其值必须受到限制,以避免发散; 3)可以在负动量下实现最佳收敛速率。我们通过对MNIST和合成问题进行广泛的实验来验证我们的理论预测,并找到良好的定量一致性。
translated by 谷歌翻译
现代深度学习系统的区别特征之一是,它们通常采用利用巨大数量的参数,通常在数百万中使用的神经网络架构。虽然这个范例对大型网络的性质启发了重要研究,但是致力于这些网络通常用于建模大型复杂数据集的事实,而且它们本身可能包含数百万甚至数十亿的约束的事实。在这项工作中,我们专注于这种高维制度,其中数据集大小和特征数量往往是无限的。我们分析随机重量矩阵$ W $和随机偏置向量$ B $的随机特征回归的性能$ f = f(wx + b)$ b $,获取用于渐近培训的确切公式,并对数据产生的数据进行测试错误一个线性教师模型。偏差的作用可以理解为参数化在激活功能上的分布,并且我们的分析直接推广到这种分布,即使是传统的附加偏差不表达的那些分布。有趣的是,我们发现非线性的混合物可以通过最好的单一非线性来改善训练和测试误差,这表明非线性的混合物可能对近似内核方法或神经网络架构设计有用。
translated by 谷歌翻译
为了理论上了解训练有素的深神经网络的行为,有必要研究来自随机初始化的梯度方法引起的动态。然而,这些模型的非线性和组成结构使得这些动态难以分析。为了克服这些挑战,最近出现了大宽度的渐近学作为富有成效的观点,并导致了对真实世界的深网络的实用洞察。对于双层神经网络,已经通过这些渐近学理解,训练模型的性质根据初始随机权重的规模而变化,从内核制度(大初始方差)到特征学习制度(对于小初始方差)。对于更深的网络,更多的制度是可能的,并且在本文中,我们详细研究了与神经网络的“卑鄙字段”限制相对应的“小”初始化的特定选择,我们称之为可分配的参数化(IP)。首先,我们展示了标准I.I.D.零平均初始化,具有多于四个层的神经网络的可集参数,从无限宽度限制的静止点开始,并且不会发生学习。然后,我们提出了各种方法来避免这种琐碎的行为并详细分析所得到的动态。特别是,这些方法中的一种包括使用大的初始学习速率,并且我们表明它相当于最近提出的最大更新参数化$ \ mu $ p的修改。我们将结果与图像分类任务的数值实验确认,其另外显示出在尚未捕获的激活功能的各种选择之间的行为中的强烈差异。
translated by 谷歌翻译
在这项工作中,我们探讨了随机梯度下降(SGD)训练的深神经网络的限制动态。如前所述,长时间的性能融合,网络继续通过参数空间通过一个异常扩散的过程,其中距离在具有非活动指数的梯度更新的数量中增加距离。我们揭示了优化的超公数,梯度噪声结构之间的复杂相互作用,以及在训练结束时解释这种异常扩散的Hessian矩阵。为了构建这种理解,我们首先为SGD推导出一个连续时间模型,具有有限的学习速率和批量尺寸,作为欠下的Langevin方程。我们在线性回归中研究了这个方程,我们可以为参数的相位空间动态和它们的瞬时速度来得出精确的分析表达式,从初始化到实用性。使用Fokker-Planck方程,我们表明驾驶这些动态的关键成分不是原始的训练损失,而是修改的损失的组合,其隐含地规则地规范速度和概率电流,这导致相位空间中的振荡。我们在ImageNet培训的Reset-18模型的动态中确定了这种理论的定性和定量预测。通过统计物理的镜头,我们揭示了SGD培训的深神经网络的异常限制动态的机制来源。
translated by 谷歌翻译
我们研究了使用尖刺,现场依赖的随机矩阵理论研究迷你批次对深神经网络损失景观的影响。我们表明,批量黑森州的极值值的大小大于经验丰富的黑森州。我们还获得了类似的结果对Hessian的概括高斯牛顿矩阵近似。由于我们的定理,我们推导出作为批量大小的最大学习速率的分析表达式,为随机梯度下降(线性缩放)和自适应算法(例如ADAM(Square Root Scaling)提供了通知实际培训方案,例如光滑,非凸深神经网络。虽然随机梯度下降的线性缩放是在我们概括的更多限制性条件下导出的,但是适应优化者的平方根缩放规则是我们的知识,完全小说。随机二阶方法和自适应方法的百分比,我们得出了最小阻尼系数与学习率与批量尺寸的比率成比例。我们在Cifar-$ 100 $和ImageNet数据集上验证了我们的VGG / WimerEsnet架构上的索赔。根据我们对象检的调查,我们基于飞行学习率和动量学习者开发了一个随机兰齐齐竞争,这避免了对这些关键的超参数进行昂贵的多重评估的需求,并在预残留的情况下显示出良好的初步结果Cifar的architecure - $ 100 $。
translated by 谷歌翻译
我们调查人工神经网络的损失表面Hessians的局部光谱统计数据,在那里我们发现跨多个网络架构和数据集的高斯正交集合统计数据非常一致。这些结果阐述了随机矩阵理论对神经网络建模的适用性,并提出了在深度学习中损失表面研究中的先前未被识别的作用。通过这些观察的启发,我们提出了一种新颖的神经网络的真正损失表面模型,与我们的观察结果一致,这允许Hessian光谱密度在实践中广泛观察到具有秩的退化性和异常值,并预测损失梯度的独立性越来越长重量空间中距离的函数。我们进一步调查了神经网络中真正损失表面的重要性,并与以前的工作相比,找到了定位全球最小值的指数硬度对实现最新性能的实际后果。
translated by 谷歌翻译
强大的机器学习模型的开发中的一个重要障碍是协变量的转变,当训练和测试集的输入分布时发生的分配换档形式在条件标签分布保持不变时发生。尽管现实世界应用的协变量转变普遍存在,但在现代机器学习背景下的理论理解仍然缺乏。在这项工作中,我们检查协变量的随机特征回归的精确高尺度渐近性,并在该设置中提出了限制测试误差,偏差和方差的精确表征。我们的结果激发了一种自然部分秩序,通过协变速转移,提供足够的条件来确定何时何时损害(甚至有助于)测试性能。我们发现,过度分辨率模型表现出增强的协会转变的鲁棒性,为这种有趣现象提供了第一个理论解释之一。此外,我们的分析揭示了分销和分发外概率性能之间的精确线性关系,为这一令人惊讶的近期实证观察提供了解释。
translated by 谷歌翻译
一项开创性的工作[Jacot等,2018]表明,在特定参数化下训练神经网络等同于执行特定的内核方法,因为宽度延伸到无穷大。这种等效性为将有关内核方法的丰富文献结果应用于神经网的结果开辟了一个有希望的方向,而神经网络很难解决。本调查涵盖了内核融合的关键结果,因为宽度进入无穷大,有限宽度校正,应用以及对相应方法的局限性的讨论。
translated by 谷歌翻译
大脑毫不费力地解决了盲源分离(BSS)问题,但它使用的算法仍然难以捉摸。在信号处理中,线性BSS问题通常通过独立分量分析(ICA)来解决。为了用作生物电路的模型,ICA神经网络(NN)必须至少满足以下要求:1。算法必须在在线设置中运行,其中一次一次流流,NN计算数据示例源无效,无需存储内存中的任何大部分数据。 2.突触权重更新是局部的,即,它仅取决于突触附近存在的生物物理变量。在这里,我们为ICA提出了一种新颖的目标函数,我们从中获得了生物学似体的NN,包括神经结构和突触学习规则。有趣的是,我们的算法依赖于通过输出神经元的总活性调节突触可塑性。在大脑中,这可以通过神经调节剂,细胞外钙,局部场势或一氧化氮来实现。
translated by 谷歌翻译