在已建立的网络架构中,快捷连接通常用于将较早层的输出作为稍后的图层占用。尽管快捷方式有着非凡的效力,但对机制和特征仍然存在开放的问题。例如,为什么快捷方式强大?为什么快捷方式概括好?在本文中,我们研究了一种新颖稀疏捷径拓扑的表现和概括性。首先,我们证明了这种拓扑可以赋予一个神经元宽的深网络来近似任何单变量连续功能。然后,我们呈现了一种新颖的宽度有界通用近似剂,与深度有界通用近似器相比,并将近似结果扩展到同等主管网络的系列。此外,通过泛化绑定理论,我们表明所提出的捷径拓扑概率普遍性普遍性。最后,我们通过对具有众所周知的基准测试的流行体系结构(包括Reset和Densenet)的拟议拓扑进行比较来证实我们的理论分析。我们的工作有助于提高对快捷方式作用的理解,并提出了创新神经结构的进一步的机会。
translated by 谷歌翻译
这项调查的目的是介绍对深神经网络的近似特性的解释性回顾。具体而言,我们旨在了解深神经网络如何以及为什么要优于其他经典线性和非线性近似方法。这项调查包括三章。在第1章中,我们回顾了深层网络及其组成非线性结构的关键思想和概念。我们通过在解决回归和分类问题时将其作为优化问题来形式化神经网络问题。我们简要讨论用于解决优化问题的随机梯度下降算法以及用于解决优化问题的后传播公式,并解决了与神经网络性能相关的一些问题,包括选择激活功能,成本功能,过度适应问题和正则化。在第2章中,我们将重点转移到神经网络的近似理论上。我们首先介绍多项式近似中的密度概念,尤其是研究实现连续函数的Stone-WeierStrass定理。然后,在线性近似的框架内,我们回顾了馈电网络的密度和收敛速率的一些经典结果,然后在近似Sobolev函数中进行有关深网络复杂性的最新发展。在第3章中,利用非线性近似理论,我们进一步详细介绍了深度和近似网络与其他经典非线性近似方法相比的近似优势。
translated by 谷歌翻译
神经体系结构搜索(NAS)促进了神经体系结构的自动发现,从而实现了图像识别的最新精度。尽管NAS取得了进展,但到目前为止,NAS对理论保证几乎没有关注。在这项工作中,我们研究了NAS在统一框架下的概括属性,从而实现(深)层跳过连接搜索和激活功能搜索。为此,我们从搜索空间(包括混合的激活功能,完全连接和残留的神经网络)的(包括)有限宽度方向上得出了神经切线核的最小特征值的下(和上)边界。由于在统一框架下的各种体系结构和激活功能的耦合,我们的分析是不平凡的。然后,我们利用特征值边界在随机梯度下降训练中建立NAS的概括误差界。重要的是,我们从理论上和实验上展示了衍生结果如何指导NAS,即使在没有培训的情况下,即使在没有培训的情况下,也可以根据我们的理论进行无训练的算法。因此,我们的数值验证阐明了NAS计算有效方法的设计。
translated by 谷歌翻译
过度分辨的神经网络概括井,但训练昂贵。理想情况下,人们希望减少其计算成本,同时保留其概括的益处。稀疏的模型培训是实现这一目标的简单和有希望的方法,但随着现有方法与准确性损失,慢速训练运行时的困难或困难,仍然存在挑战,仍然存在困难的挑战。核心问题是,在离散的一组稀疏矩阵上搜索稀疏性掩模是困难和昂贵的。为了解决此问题,我们的主要见解是通过具有称为蝴蝶矩阵产品的固定结构的固定结构来优化优化稀疏矩阵的连续超集。随着蝴蝶矩阵不是硬件效率,我们提出了简单的蝴蝶(块和平坦)的变体来利用现代硬件。我们的方法(像素化蝴蝶)使用基于扁平块蝴蝶和低秩矩阵的简单固定稀疏模式,以缩小大多数网络层(例如,注意,MLP)。我们经验验证了像素化蝴蝶比蝴蝶快3倍,加快培训,以实现有利的准确性效率权衡。在ImageNet分类和Wikitext-103语言建模任务中,我们的稀疏模型训练比致密的MLP - 混频器,视觉变压器和GPT-2媒体更快地训练高达2.5倍,没有精确下降。
translated by 谷歌翻译
作为一种强大的建模方法,分段线性神经网络(PWLNNS)已在各个领域都被证明是成功的,最近在深度学习中。为了应用PWLNN方法,长期以来一直研究了表示和学习。 1977年,规范表示率先通过增量设计学到了浅层PWLNN的作品,但禁止使用大规模数据的应用。 2010年,纠正的线性单元(RELU)提倡在深度学习中PWLNN的患病率。从那以后,PWLNNS已成功地应用于广泛的任务并实现了有利的表现。在本引物中,我们通过将作品分组为浅网络和深层网络来系统地介绍PWLNNS的方法。首先,不同的PWLNN表示模型是由详细示例构建的。使用PWLNNS,提出了学习数据的学习算法的演变,并且基本理论分析遵循深入的理解。然后,将代表性应用与讨论和前景一起引入。
translated by 谷歌翻译
本文开发了简单的前馈神经网络,实现了所有连续功能的通用近似性,具有固定的有限数量的神经元。这些神经网络很简单,因为它们的设计具有简单且可增加的连续激活功能$ \ Sigma $利用三角波函数和软片功能。我们证明了$ \ Sigma $ -Activated网络,宽度为36d $ 36d(2d + 1)$和11 $ 11 $可以在任意小错误中估计$ d $ -dimensioanl超级函数上的任何连续功能。因此,对于监督学习及其相关的回归问题,这些网络产生的假设空间,尺寸不小于36d(2d + 1)\ times 11 $的持续功能的空间。此外,由图像和信号分类引起的分类函数在$ \ sigma $ -activated网络生成的假设空间中,宽度为36d(2d + 1)$和12 $ 12 $,当存在$ \的成对不相交的界限子集时mathbb {r} ^ d $,使得同一类的样本位于同一子集中。
translated by 谷歌翻译
Consider the multivariate nonparametric regression model. It is shown that estimators based on sparsely connected deep neural networks with ReLU activation function and properly chosen network architecture achieve the minimax rates of convergence (up to log nfactors) under a general composition assumption on the regression function. The framework includes many well-studied structural constraints such as (generalized) additive models. While there is a lot of flexibility in the network architecture, the tuning parameter is the sparsity of the network. Specifically, we consider large networks with number of potential network parameters exceeding the sample size. The analysis gives some insights into why multilayer feedforward neural networks perform well in practice. Interestingly, for ReLU activation function the depth (number of layers) of the neural network architectures plays an important role and our theory suggests that for nonparametric regression, scaling the network depth with the sample size is natural. It is also shown that under the composition assumption wavelet estimators can only achieve suboptimal rates.
translated by 谷歌翻译
众所周知,$ O(n)$参数足以让神经网络记住任意$ N $ INPUT-LABE标签对。通过利用深度,我们显示$ O(n ^ {2/3})$参数足以在输入点的分离的温和条件下记住$ n $对。特别是,更深的网络(即使是宽度为3美元),也会显示比浅网络更有成对,这也同意最近的作品对函数近似的深度的好处。我们还提供支持我们理论发现的经验结果。
translated by 谷歌翻译
本文通过引入几何深度学习(GDL)框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型,从而解决了对非欧国人数据进行处理的需求。我们表明,我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反,我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数,任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件,确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现,任何“现实世界”(即有限)数据集始终满足我们的状况,相反,如果目标函数平滑,则任何数据集都满足我们的要求。作为应用,我们确认了以下GDL模型的通用近似功能:Ganea等。 (2018)的双波利馈电网络,实施Krishnan等人的体系结构。 (2015年)的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了:Meyer等人的SPD-Matrix回归剂的通用扩展/变体。 (2011)和Fletcher(2003)的Procrustean回归剂。在欧几里得的环境中,我们的结果暗示了Kidger和Lyons(2020)的近似定理和Yarotsky和Zhevnerchuk(2019)无估计近似率的数据依赖性版本的定量版本。
translated by 谷歌翻译
This paper provides theoretical insights into why and how deep learning can generalize well, despite its large capacity, complexity, possible algorithmic instability, nonrobustness, and sharp minima, responding to an open question in the literature. We also discuss approaches to provide non-vacuous generalization guarantees for deep learning. Based on theoretical observations, we propose new open problems and discuss the limitations of our results.
translated by 谷歌翻译
近年来,人们对无限宽网络与高斯流程之间的对应关系产生了越来越多的兴趣。尽管当前的神经网络高斯过程理论具有有效性和优雅性,但据我们所知,所有神经网络高斯过程基本上都是通过增加宽度引起的。但是,在深度学习的时代,关于神经网络的更多关注是它的深度以及深度如何影响网络的行为。受宽度深度对称考虑因素的启发,我们使用快捷网络表明,增加神经网络的深度也会引起高斯过程,这是对现有理论的宝贵补充,并有助于揭示的真实情况深度学习。除了深入提出的高斯过程之外,我们从理论上表征了其均匀的紧密度和高斯工艺过程中最小的特征值。这些特征不仅可以增强我们对拟议深度引起的高斯过程的理解,而且还可以为未来的应用铺平道路。最后,我们通过对两个基准数据集的回归实验来检查提出的高斯过程的性能。
translated by 谷歌翻译
为了更好地了解深度神经网络的结构效益和泛化能力,我们首先提出了一种新颖的神经网络模型的理论制定,包括完全连接的残余网络(Reset)和密集连接的网络(Densenet)。其次,我们将两层网络\ CITE {EW2019PRIORITWO}和RESET \ CITE {E2019PRIORIRES}的误差分析扩展到DENSENET,并进一步显示满足某些温和条件的神经网络,可以获得类似的估计。这些估计本质上是先验的,因为它们依赖于在训练过程之前的信息上依赖于信息,特别是估计误差的界限与输入维度无关。
translated by 谷歌翻译
神经普通微分方程(神经ODE)是残留神经网络(RESNETS)的连续类似物。我们研究了重新NET定义的离散动力学是否接近连续的神经颂歌。我们首先量化了Resnet的隐藏状态轨迹与其相应神经ODE的解之间的距离。我们的界限很紧,在负面的一侧,如果残留函数的深度不光滑,则不会以深度为0。在正面,我们表明这种平滑度是通过梯度下降来保留的,该梯度下降具有线性残留功能和足够小的初始损失的重新系统。它确保在n上以1的速率1均匀地沿速率1的速率和优化时间对极限神经的隐式正则化。作为我们分析的副产品,我们考虑使用不含内存的离散伴随方法来训练重新NET,通过通过网络的向后传动恢复激活,并证明该方法理论上在大深度上取得了成功,如果残留功能是带有输入的Lipschitz。然后,我们证明HEUN的方法是一种二阶Ode集成方案,当残留函数及其深度平滑时,使用伴随方法进行更好的梯度估计。我们通过实验验证我们的伴随方法在很大程度上取得了成功,并且Heun方法需要更少的层才能成功。我们最终成功地使用了伴随方法来微调非常深的重新连接,而无需残留层的内存消耗。
translated by 谷歌翻译
神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括,以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似,使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外,我们介绍了四类运算符参数化:基于图形的运算符,低秩运算符,基于多极图形的运算符和傅里叶运算符,并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的:它们在底层函数空间的不同离散化之间共享相同的网络参数,并且可以用于零击超分辨率。在数值上,与现有的基于机器学习的方法,达西流程和Navier-Stokes方程相比,所提出的模型显示出卓越的性能,而与传统的PDE求解器相比,与现有的基于机器学习的方法有关的基于机器学习的方法。
translated by 谷歌翻译
Computational units in artificial neural networks follow a simplified model of biological neurons. In the biological model, the output signal of a neuron runs down the axon, splits following the many branches at its end, and passes identically to all the downward neurons of the network. Each of the downward neurons will use their copy of this signal as one of many inputs dendrites, integrate them all and fire an output, if above some threshold. In the artificial neural network, this translates to the fact that the nonlinear filtering of the signal is performed in the upward neuron, meaning that in practice the same activation is shared between all the downward neurons that use that signal as their input. Dendrites thus play a passive role. We propose a slightly more complex model for the biological neuron, where dendrites play an active role: the activation in the output of the upward neuron becomes optional, and instead the signals going through each dendrite undergo independent nonlinear filterings, before the linear combination. We implement this new model into a ReLU computational unit and discuss its biological plausibility. We compare this new computational unit with the standard one and describe it from a geometrical point of view. We provide a Keras implementation of this unit into fully connected and convolutional layers and estimate their FLOPs and weights change. We then use these layers in ResNet architectures on CIFAR-10, CIFAR-100, Imagenette, and Imagewoof, obtaining performance improvements over standard ResNets up to 1.73%. Finally, we prove a universal representation theorem for continuous functions on compact sets and show that this new unit has more representational power than its standard counterpart.
translated by 谷歌翻译
我们研究了$ \ Mathcal {r} $的结构和统计属性 - 规范最小化由特定目标函数标记的数据集的内侧插值。$ \ MATHCAL {R} $ - 标准是两层神经网络的电感偏差的基础,最近引入了捕获网络权重大小的功能效果,与网络宽度无关。我们发现,即使有适合数据的脊函数,这些插值也是本质上的多元功能,而且$ \ Mathcal {r} $ - 规范归纳偏见不足以实现某些学习问题的统计上最佳概括。总的来说,这些结果为与实际神经网络训练有关的感应偏见提供了新的启示。
translated by 谷歌翻译
我们在监督分类的背景下研究深网的过剩能力。也就是说,给定对基本假设类别的能力度量(在我们的情况下,是经验性的Rademacher的复杂性),我们(先验)可以限制该类别的数量,同时在与无约束性方面保持经验误差的同时保留经验误差?为了评估现代体系结构(例如残留网络)的过剩能力,我们扩展并统一了先前的Rademacher复杂性界限,以适应功能组成和添加以及卷积的结构。我们边界中的容量驱动项是层的Lipschitz常数和卷积权重初始化的(2,1)组的范围距离。在不同任务难度的基准数据集上进行的实验表明,(1)每个任务的容量大量超过容量,并且(2)可以将容量保持在整个任务的惊人相似水平。总体而言,这表明了重量规范的可压缩性概念,这是通过重量修剪正交的经典压缩概念。
translated by 谷歌翻译
These notes were compiled as lecture notes for a course developed and taught at the University of the Southern California. They should be accessible to a typical engineering graduate student with a strong background in Applied Mathematics. The main objective of these notes is to introduce a student who is familiar with concepts in linear algebra and partial differential equations to select topics in deep learning. These lecture notes exploit the strong connections between deep learning algorithms and the more conventional techniques of computational physics to achieve two goals. First, they use concepts from computational physics to develop an understanding of deep learning algorithms. Not surprisingly, many concepts in deep learning can be connected to similar concepts in computational physics, and one can utilize this connection to better understand these algorithms. Second, several novel deep learning algorithms can be used to solve challenging problems in computational physics. Thus, they offer someone who is interested in modeling a physical phenomena with a complementary set of tools.
translated by 谷歌翻译
我们研究了深层神经网络的表达能力,以在扩张的转移不变空间中近似功能,这些空间被广泛用于信号处理,图像处理,通信等。相对于神经网络的宽度和深度估算了近似误差界限。网络构建基于深神经网络的位提取和数据拟合能力。作为我们主要结果的应用,获得了经典函数空间(例如Sobolev空间和BESOV空间)的近似速率。我们还给出了$ l^p(1 \ le p \ le \ infty)$近似误差的下限,这表明我们的神经网络的构建是渐近的最佳选择,即最大程度地达到对数因素。
translated by 谷歌翻译
本文在内在参数的数量(即,根据目标函数$ F $)的数量来研究Relu网络的近似误差。首先,我们证明了建设,对于任何Lipschitz连续功能$ f $ w $ thy $ [0,1] ^ d $与lipschitz常数$ \ lambda> 0 $,带有$ n + 2 $ 2 $ 2 $ contrincic参数的Relu网络可以近似$ f $与$ l ^ p $ -norm以$ p \ in [1,\ idty)$中,$ f $ 5 \ lambda \ sqrt {d} \,2 ^ { - n} $。更一般于任意连续函数$ [0,1] ^ d $与连续性$ \ omega_f(\ cdot)$的模数,近似误差是$ \ omega_f(\ sqrt {d} \,2 ^ { - n})+ 2 ^ { - n + 2} \ omega_f(\ sqrt {d})$。接下来,我们以$ l ^ p $ -norm延长这两个结果,以$ 3 ^ d n + 2美元的价格为$ l ^ \ infty $ -norm。最后,通过使用高精度二进制表示和比特提取技术,通过固定的Relu网络独立于目标函数,我们设计,只有三个内在参数的Relu网络,以近似H +“较旧的连续功能小错误。
translated by 谷歌翻译