对称性一直是探索广泛复杂系统的基本工具。在机器学习中,在模型和数据中都探索了对称性。在本文中,我们试图将模型家族架构引起的对称性与该家族的内部数据表示的对称性联系起来。我们通过计算一组基本的对称组来做到这一点,我们称它们称为模型的\ emph {Intertwiner组}。这些中的每一个都来自模型的特定非线性层,不同的非线性导致不同的对称组。这些组以模型的权重更改模型的权重,使模型所代表的基础函数保持恒定,但模型内部数据的内部表示可能会改变。我们通过一系列实验将Intertwiner组连接到模型的数据内部表示,这些实验在具有相同体系结构的模型之间探测隐藏状态之间的相似性。我们的工作表明,网络的对称性在该网络的数据表示中传播到对称性中,从而使我们更好地了解架构如何影响学习和预测过程。最后,我们推测,对于Relu网络,交织组可能会为在隐藏层而不是任意线性组合的激活基础上集中模型可解释性探索的共同实践提供理由。
translated by 谷歌翻译
我们介绍了一类完全连接的神经网络,其激活功能而不是点,而是仅取决于其规范来缩回特征向量。我们称此类网络径向神经网络,扩展了先前在旋转模棱两可的网络上的工作,该网络认为将激活重新激活较少。我们证明了径向神经网络的通用近似定理,包括在更困难的宽度和无界域的情况下。我们的证明技术是新颖的,与偶然的情况不同。此外,径向神经网络在可训练参数的矢量空间上表现出丰富的基础对称性。分解这些对称性会导致实用的无损模型压缩算法。通过梯度下降对压缩模型的优化等效于整个模型的投影梯度下降。
translated by 谷歌翻译
我们在监督分类的背景下研究深网的过剩能力。也就是说,给定对基本假设类别的能力度量(在我们的情况下,是经验性的Rademacher的复杂性),我们(先验)可以限制该类别的数量,同时在与无约束性方面保持经验误差的同时保留经验误差?为了评估现代体系结构(例如残留网络)的过剩能力,我们扩展并统一了先前的Rademacher复杂性界限,以适应功能组成和添加以及卷积的结构。我们边界中的容量驱动项是层的Lipschitz常数和卷积权重初始化的(2,1)组的范围距离。在不同任务难度的基准数据集上进行的实验表明,(1)每个任务的容量大量超过容量,并且(2)可以将容量保持在整个任务的惊人相似水平。总体而言,这表明了重量规范的可压缩性概念,这是通过重量修剪正交的经典压缩概念。
translated by 谷歌翻译
了解生物和人造网络的运作仍然是一个艰难而重要的挑战。为了确定一般原则,研究人员越来越有兴趣测量培训的大量网络,或者在培训或生物学地适应类似的任务。现在需要一种标准化的分析工具来确定网络级协变量 - 例如架构,解剖脑区和模型生物 - 影响神经表示(隐藏层激活)。在这里,我们通过定义量化代表性异化的广泛的公制空间,为这些分析提供严格的基础。使用本框架,我们根据规范相关分析修改现有的代表性相似度量,以满足三角形不等式,制定致扫描层中的感应偏差的新型度量,并识别使网络表示能够结合到基本上的近似的欧几里德嵌入物。货架机学习方法。我们展示了来自生物学(Allen Institute脑观测所)和深度学习(NAS-BENCH-101)的大规模数据集的这些方法。在这样做时,我们识别在解剖特征和模型性能方面可解释的神经表现之间的关系。
translated by 谷歌翻译
在本文中,我们涉及在2D点云数据上的旋转设备。我们描述了一种特定的功能,能够近似任何连续旋转等级和置换不变函数。基于这一结果,我们提出了一种新的神经网络架构,用于处理2D点云,我们证明其普遍性地用于近似呈现这些对称的功能。我们还展示了如何扩展架构以接受一组2D-2D对应关系作为Indata,同时保持类似的标准性属性。关于立体视觉中必需基质的估计的实验。
translated by 谷歌翻译
样本是否足够丰富,至少在本地确定神经网络的参数?为了回答这个问题,我们通过固定其某些权重的值来介绍给定深层神经网络的新局部参数化。这使我们能够定义本地提升操作员,其倒置是高维空间的平滑歧管的图表。Deep Relu神经网络实现的函数由依赖样本的线性操作员组成局部提升。我们从这种方便的表示中得出了局部可识别性的几何必要条件。查看切线空间,几何条件提供了:1/可识别性的尖锐而可测试的必要条件以及2/可识别局部可识别性的尖锐且可测试的足够条件。可以使用反向传播和矩阵等级计算对条件的有效性进行数值测试。
translated by 谷歌翻译
这项调查旨在提供线性模型及其背后的理论的介绍。我们的目标是对读者进行严格的介绍,并事先接触普通最小二乘。在机器学习中,输出通常是输入的非线性函数。深度学习甚至旨在找到需要大量计算的许多层的非线性依赖性。但是,这些算法中的大多数都基于简单的线性模型。然后,我们从不同视图中描述线性模型,并找到模型背后的属性和理论。线性模型是回归问题中的主要技术,其主要工具是最小平方近似,可最大程度地减少平方误差之和。当我们有兴趣找到回归函数时,这是一个自然的选择,该回归函数可以最大程度地减少相应的预期平方误差。这项调查主要是目的的摘要,即线性模型背后的重要理论的重要性,例如分布理论,最小方差估计器。我们首先从三种不同的角度描述了普通的最小二乘,我们会以随机噪声和高斯噪声干扰模型。通过高斯噪声,该模型产生了可能性,因此我们引入了最大似然估计器。它还通过这种高斯干扰发展了一些分布理论。最小二乘的分布理论将帮助我们回答各种问题并引入相关应用。然后,我们证明最小二乘是均值误差的最佳无偏线性模型,最重要的是,它实际上接近了理论上的极限。我们最终以贝叶斯方法及以后的线性模型结束。
translated by 谷歌翻译
我们通过介绍Quiver神经网络的概念来开发一种统一的理论方法来分析各种神经网络连接体系结构。受箭量表示理论的启发,这种方法提供了一种紧凑的方法来捕获复杂的网络体系结构中精心设计的数据流。作为应用程序,我们使用参数空间对称性来证明一种无损模型压缩算法的颤动神经网络,其某些非点线激活称为重新激活。在径向重新恢复激活的情况下,我们证明,使用梯度下降的压缩模型等同于用预计梯度下降训练原始模型。
translated by 谷歌翻译
我们证明了由例如He等人提出的广泛使用的方法。(2015年)并使用梯度下降对最小二乘损失进行训练并不普遍。具体而言,我们描述了一大批一维数据生成分布,较高的概率下降只会发现优化景观的局部最小值不好,因为它无法将其偏离偏差远离其初始化,以零移动。。事实证明,在这些情况下,即使目标函数是非线性的,发现的网络也基本执行线性回归。我们进一步提供了数值证据,表明在实际情况下,对于某些多维分布而发生这种情况,并且随机梯度下降表现出相似的行为。我们还提供了有关初始化和优化器的选择如何影响这种行为的经验结果。
translated by 谷歌翻译
小组卷积神经网络(G-CNN)是卷积神经网络(CNN)的概括,通过在其体系结构中明确编码旋转和排列,在广泛的技术应用中脱颖而出。尽管G-CNN的成功是由它们的\ emph {emplapicit}对称偏见驱动的,但最近的一项工作表明,\ emph {隐式}对特定体系结构的偏差是理解过度参数化神经网的概​​括的关键。在这种情况下,我们表明,通过梯度下降训练了二进制分类的$ L $ layer全宽线性G-CNN,将二进制分类收敛到具有低级别傅立叶矩阵系数的解决方案,并由$ 2/l $ -schatten矩阵规范正规化。我们的工作严格概括了先前对线性CNN的隐性偏差对线性G-CNN的隐性分析,包括所有有限组,包括非交换组的挑战性设置(例如排列),以及无限组的频段限制G-CNN 。我们通过在各个组上实验验证定理,并在经验上探索更现实的非线性网络,该网络在局部捕获了相似的正则化模式。最后,我们通过不确定性原理提供了对傅立叶空间隐式正则化的直观解释。
translated by 谷歌翻译
众所周知,具有重新激活函数的完全连接的前馈神经网络可以表示的参数化函数家族恰好是一类有限的分段线性函数。鲜为人知的是,对于Relu神经网络的每个固定架构,参数空间都允许对称的正维空间,因此,在任何给定参数附近的局部功能维度都低于参数维度。在这项工作中,我们仔细地定义了功能维度的概念,表明它在Relu神经网络函数的参数空间中是不均匀的,并继续进行[14]和[5]中的调查 - 何时在功能维度实现其理论时最大。我们还研究了从参数空间到功能空间的实现图的商空间和纤维,提供了断开连接的纤维的示例,功能尺寸为非恒定剂的纤维以及对称组在其上进行非转换的纤维。
translated by 谷歌翻译
具有整流线性单元(Relu)非线性的神经网络由参数$ \ Theta $的矢量描述,并实现为分段线性连续函数$ r _ {\ theta}:x \ in \ mathbb r ^ {d} \ mapsto r _ {\ theta}(x)\ in \ mathbb r ^ {k} $。自然缩放和排列在参数$ \ theta $留下的实现不变,导致相同的参数类,产生相同的实现。这些考虑因而导致可识别性的概念 - 从其实现$ r _ {\} $的唯一知识中恢复(等价类别)$ \ theta $的能力。本文的总体目标是介绍任何深度的Relu神经网络,$ \ Phi(\ Theta)$的嵌入,即不变于缩放,并且提供网络实现的本地线性参数化。利用这两个关键属性,我们得出了一些条件,在这种情况下,深度relu网络确实可以从有限一组样本的实现的知识局部地识别$ x_ {i} \ in \ mathbb r ^ {d} $。我们在更深入的深度上研究了浅层案例,为网络建立了必要的和充分条件,从界限子集$ \ Mathcal X \ subseteq \ MathBB r ^ {d} $识别。
translated by 谷歌翻译
当试图将深度神经网络(DNN)适合相对于组$ g $的$ g $ invariant目标功能时,只有将DNN限制为$ g $ invariant才有意义。但是,可以有许多不同的方法来做到这一点,从而提出了“ $ g $ invariant神经体系结构设计”的问题:对于给定问题的最佳$ g $ invariant架构是什么?在我们考虑优化问题本身之前,我们必须了解搜索空间,其中的体系结构以及它们如何相互关系。在本文中,我们朝着这一目标迈出了第一步。我们证明了一个定理,该定理对所有有限的正交组$ g $ for Relu激活的所有$ g $ invariant单隐藏层或“浅”神经网络($ G $ -SNN)架构进行了分类。该证明是基于每条$ g $ -snn的信件,符合$ g $的签名置换表示,该代表作用于隐藏的神经元上。该分类是按照$ g $的第一阶层类别进行的,因此承认拓扑解释。根据代码实施,我们列举了某些示例组$ g $的$ G $ -SNN架构,并可视化它们的结构。我们在神经体系结构搜索(NAS)期间可以利用的枚举体系结构之间绘制网络形态。最后,我们证明,仅当其重量矩阵为零时,在给定的共同体学环中对应于给定的共同学环中的架构,并在NAS的背景下讨论了这一点的含义。
translated by 谷歌翻译
这项调查的目的是介绍对深神经网络的近似特性的解释性回顾。具体而言,我们旨在了解深神经网络如何以及为什么要优于其他经典线性和非线性近似方法。这项调查包括三章。在第1章中,我们回顾了深层网络及其组成非线性结构的关键思想和概念。我们通过在解决回归和分类问题时将其作为优化问题来形式化神经网络问题。我们简要讨论用于解决优化问题的随机梯度下降算法以及用于解决优化问题的后传播公式,并解决了与神经网络性能相关的一些问题,包括选择激活功能,成本功能,过度适应问题和正则化。在第2章中,我们将重点转移到神经网络的近似理论上。我们首先介绍多项式近似中的密度概念,尤其是研究实现连续函数的Stone-WeierStrass定理。然后,在线性近似的框架内,我们回顾了馈电网络的密度和收敛速率的一些经典结果,然后在近似Sobolev函数中进行有关深网络复杂性的最新发展。在第3章中,利用非线性近似理论,我们进一步详细介绍了深度和近似网络与其他经典非线性近似方法相比的近似优势。
translated by 谷歌翻译
标准情况被出现为对构成组的身份保留转换的物体表示的理想性质,例如翻译和旋转。然而,由组标准规定的表示的表示的表现仍然不完全理解。我们通过提供封面函数计数定理的概括来解决这个差距,这些定理量化了可以分配给物体的等异点的线性可分离和组不变二进制二分层的数量。我们发现可分离二分法的分数由由组动作固定的空间的尺寸决定。我们展示了该关系如何扩展到卷积,元素 - 明智的非线性和全局和本地汇集等操作。虽然其他操作不会改变可分离二分法的分数,但尽管是高度非线性操作,但是局部汇集减少了分数。最后,我们在随机初始化和全培训的卷积神经网络的中间代表中测试了我们的理论,并找到了完美的协议。
translated by 谷歌翻译
对于由缺陷线性回归中的标签噪声引起的预期平均平方概率,我们证明了无渐近分布的下限。我们的下部结合概括了过度公共数据(内插)制度的类似已知结果。与最先前的作品相比,我们的分析适用于广泛的输入分布,几乎肯定的全排列功能矩阵,允许我们涵盖各种类型的确定性或随机特征映射。我们的下限是渐近的锐利,暗示在存在标签噪声时,缺陷的线性回归不会在任何这些特征映射中围绕内插阈值进行良好的。我们详细分析了强加的假设,并为分析(随机)特征映射提供了理论。使用此理论,我们可以表明我们的假设对于具有(Lebesgue)密度的输入分布以及随机深神经网络给出的特征映射,具有Sigmoid,Tanh,SoftPlus或Gelu等分析激活功能。作为进一步的例子,我们示出了来自随机傅里叶特征和多项式内核的特征映射也满足我们的假设。通过进一步的实验和分析结果,我们补充了我们的理论。
translated by 谷歌翻译
由于其在输入空间子集上的功能的知识,因此可以根据情况,诅咒或祝福来恢复神经网络的参数权重和偏差的可能性。一方面,恢复参数允许更好的对抗攻击,并且还可以从用于构造网络的数据集中披露敏感信息。另一方面,如果可以恢复网络的参数,它可以保证用户可以解释潜在空间中的特征。它还提供基础,以获得对网络性能的正式保障。因此,表征可以识别其参数的网络以及其参数不能的网络是很重要的。在本文中,我们在深度全连接的前馈recu网络上提供了一组条件,在该馈电中,网络的参数是唯一识别的模型置换和正重型 - 从其实现输入空间的子集。
translated by 谷歌翻译
我们有助于更好地理解由具有Relu激活和给定架构的神经网络表示的功能。使用来自混合整数优化,多面体理论和热带几何的技术,我们为普遍近似定理提供了数学逆向,这表明单个隐藏层足以用于学习任务。特别是,我们调查完全可增值功能是否完全可以通过添加更多层(没有限制大小)来严格增加。由于它为神经假设类别代表的函数类提供给算法和统计方面,这个问题对算法和统计方面具有潜在的影响。然而,据我们所知,这个问题尚未在神经网络文学中调查。我们还在这些神经假设类别中代表功能所需的神经网络的大小上存在上限。
translated by 谷歌翻译
我们研究了使用动力学系统的流量图相对于输入指数的某些置换的函数的近似值。这种不变的功能包括涉及图像任务的经过研究的翻译不变性功能,但还包含许多在科学和工程中找到新兴应用程序的置换不变函数。我们证明了通过受控的模棱两可的动态系统的通用近似的足够条件,可以将其视为具有对称约束的深度残留网络的一般抽象。这些结果不仅意味着用于对称函数近似的各种常用神经网络体系结构的通用近似,而且还指导设计具有近似值保证的架构的设计,以保证涉及新对称要求的应用。
translated by 谷歌翻译
要了解深度学习的作品,了解神经网络的培训动态至关重要。关于这些动态的几个有趣的假设是基于经验观察到的现象,但存在有限的理论上了解此类现象的时间和原因。在本文中,我们考虑了内核最小二乘目标对梯度流动的培训动态,这是SGD培训的神经网络的限制动态。使用精确的高维渐近学,我们将拟合模型的动态表征在两个“世界”中:在甲骨文世界中,该模型在人口分布和实证世界中培训,模型在采样的数据集上培训。我们展示在内核的温和条件下,$ L ^ 2 $目标回归函数,培训动力学经历三个阶段,其特征在于两个世界的模型的行为。我们的理论结果也在数学上正式化一些有趣的深度学习现象。具体而言,在我们的环境中,我们展示了SGD逐步了解更多复杂的功能,并且存在“深度引导”现象:在第二阶段,尽管经验训练误差要小得多,但两个世界的测试错误仍然接近。最后,我们提供了一个具体的例子,比较了两种不同核的动态,这表明更快的培训不需要更好地推广。
translated by 谷歌翻译