本文着重于在二维空间中建立深层卷积神经网络(CNN)的$ l^2 $近似属性。该分析基于具有较大空间大小和多通道的卷积内核的分解定理。鉴于分解结果,relu激活函数的性质和通道的特定结构,通过显示其与一层隐藏层的Relu神经网络(NNS)的联系,获得了具有经典结构的深层relu CNN的通用近似定理。此外,基于这些网络之间的连接,可以为具有重新NET,PER-ACT RESNET和MGNET体系结构的一个版本的神经网络获得近似属性。
translated by 谷歌翻译
我们通过在有限元方法中研究其连接,研究其深层神经网络(DNN)。首先,我们表明,$ x^2 $和$ xy $的relu dnns的近似方案是这两个函数的层次基础近似值的组成版本。基于这一事实,我们获得了多项式依赖DNN的近似结果的几何解释和系统证明,该结果在一系列最新的指数近似结果中起着重要作用。通过调查Relu dnns和$ x^2 $和$ xy $的层次基础近似之间的连接,我们表明,具有这种特殊结构的Relu DNN只能应用于近似二次函数。此外,我们获得了一个简洁的表示,以通过仅使用只有两个隐藏层的Relu DNNS在二维均匀网格上明确重现任何线性有限元函数。
translated by 谷歌翻译
我们试图通过探索(深)卷积神经网络和伏特拉卷积之间的关系来理解卷积神经网络。我们提出了一种新颖的方法来解释和研究神经网络的总体特征,而不会受到可怕的复杂体系结构的干扰。具体而言,我们将基本结构及其组合转换为Volterra卷积的形式。结果表明,大多数卷积神经网络可以转换为Volterra卷积的形式,在该形式中,转换后的代理内核保留了原始网络的特征。分析这些代理内核可能会给原始网络提供宝贵的见解。基于此设置,我们提出了近似零订单和订单的代理内核的方法,并验证了结果的正确性和有效性。
translated by 谷歌翻译
我们将受约束的线性数据特征映射模型提出作为使用卷积神经网络(CNN)的图像分类的可解释数学模型。从这个角度来看,我们建立了线性系统的传统迭代方案与Reset-and Mgnet型模型的基本块体系结构之间的详细连接。使用这些连接,我们介绍了一些修改的Reset模型,与原始模型相比具有更少的参数,但可以产生更准确的结果,从而展示该受约束的学习数据特征映射假设的有效性。基于此假设,我们进一步提出了一般的数据特征迭代方案来展示MGNet的合理性。我们还对MGNet提供系统的数值研究,以显示其在图像分类问题中的成功和优势,并展示其与已建立的网络相比的优点。
translated by 谷歌翻译
本文开发了简单的前馈神经网络,实现了所有连续功能的通用近似性,具有固定的有限数量的神经元。这些神经网络很简单,因为它们的设计具有简单且可增加的连续激活功能$ \ Sigma $利用三角波函数和软片功能。我们证明了$ \ Sigma $ -Activated网络,宽度为36d $ 36d(2d + 1)$和11 $ 11 $可以在任意小错误中估计$ d $ -dimensioanl超级函数上的任何连续功能。因此,对于监督学习及其相关的回归问题,这些网络产生的假设空间,尺寸不小于36d(2d + 1)\ times 11 $的持续功能的空间。此外,由图像和信号分类引起的分类函数在$ \ sigma $ -activated网络生成的假设空间中,宽度为36d(2d + 1)$和12 $ 12 $,当存在$ \的成对不相交的界限子集时mathbb {r} ^ d $,使得同一类的样本位于同一子集中。
translated by 谷歌翻译
众所周知,$ O(n)$参数足以让神经网络记住任意$ N $ INPUT-LABE标签对。通过利用深度,我们显示$ O(n ^ {2/3})$参数足以在输入点的分离的温和条件下记住$ n $对。特别是,更深的网络(即使是宽度为3美元),也会显示比浅网络更有成对,这也同意最近的作品对函数近似的深度的好处。我们还提供支持我们理论发现的经验结果。
translated by 谷歌翻译
过度参数化的神经网络在复杂数据上具有很大的代表能力,更重要的是产生足够平滑的输出,这对于它们的概括和稳健性至关重要。大多数现有函数近似理论表明,使用足够多的参数,神经网络可以很好地近似于功能值的某些类别的函数。然而,神经网络本身可能是高度平滑的。为了弥合这一差距,我们以卷积残留网络(Rescresnets)为例,并证明大型响应不仅可以在功能值方面近似目标函数,而且还可以表现出足够的一阶平滑度。此外,我们将理论扩展到在低维歧管上支持的近似功能。我们的理论部分证明了在实践中使用深层网络的好处。提供了关于对抗性鲁棒图像分类的数值实验,以支持我们的理论。
translated by 谷歌翻译
我们研究了深层神经网络的表达能力,以在扩张的转移不变空间中近似功能,这些空间被广泛用于信号处理,图像处理,通信等。相对于神经网络的宽度和深度估算了近似误差界限。网络构建基于深神经网络的位提取和数据拟合能力。作为我们主要结果的应用,获得了经典函数空间(例如Sobolev空间和BESOV空间)的近似速率。我们还给出了$ l^p(1 \ le p \ le \ infty)$近似误差的下限,这表明我们的神经网络的构建是渐近的最佳选择,即最大程度地达到对数因素。
translated by 谷歌翻译
This paper investigates the approximation properties of deep neural networks with piecewise-polynomial activation functions. We derive the required depth, width, and sparsity of a deep neural network to approximate any H\"{o}lder smooth function up to a given approximation error in H\"{o}lder norms in such a way that all weights of this neural network are bounded by $1$. The latter feature is essential to control generalization errors in many statistical and machine learning applications.
translated by 谷歌翻译
这项调查的目的是介绍对深神经网络的近似特性的解释性回顾。具体而言,我们旨在了解深神经网络如何以及为什么要优于其他经典线性和非线性近似方法。这项调查包括三章。在第1章中,我们回顾了深层网络及其组成非线性结构的关键思想和概念。我们通过在解决回归和分类问题时将其作为优化问题来形式化神经网络问题。我们简要讨论用于解决优化问题的随机梯度下降算法以及用于解决优化问题的后传播公式,并解决了与神经网络性能相关的一些问题,包括选择激活功能,成本功能,过度适应问题和正则化。在第2章中,我们将重点转移到神经网络的近似理论上。我们首先介绍多项式近似中的密度概念,尤其是研究实现连续函数的Stone-WeierStrass定理。然后,在线性近似的框架内,我们回顾了馈电网络的密度和收敛速率的一些经典结果,然后在近似Sobolev函数中进行有关深网络复杂性的最新发展。在第3章中,利用非线性近似理论,我们进一步详细介绍了深度和近似网络与其他经典非线性近似方法相比的近似优势。
translated by 谷歌翻译
神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括,以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似,使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外,我们介绍了四类运算符参数化:基于图形的运算符,低秩运算符,基于多极图形的运算符和傅里叶运算符,并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的:它们在底层函数空间的不同离散化之间共享相同的网络参数,并且可以用于零击超分辨率。在数值上,与现有的基于机器学习的方法,达西流程和Navier-Stokes方程相比,所提出的模型显示出卓越的性能,而与传统的PDE求解器相比,与现有的基于机器学习的方法有关的基于机器学习的方法。
translated by 谷歌翻译
我们有助于更好地理解由具有Relu激活和给定架构的神经网络表示的功能。使用来自混合整数优化,多面体理论和热带几何的技术,我们为普遍近似定理提供了数学逆向,这表明单个隐藏层足以用于学习任务。特别是,我们调查完全可增值功能是否完全可以通过添加更多层(没有限制大小)来严格增加。由于它为神经假设类别代表的函数类提供给算法和统计方面,这个问题对算法和统计方面具有潜在的影响。然而,据我们所知,这个问题尚未在神经网络文学中调查。我们还在这些神经假设类别中代表功能所需的神经网络的大小上存在上限。
translated by 谷歌翻译
Consider the multivariate nonparametric regression model. It is shown that estimators based on sparsely connected deep neural networks with ReLU activation function and properly chosen network architecture achieve the minimax rates of convergence (up to log nfactors) under a general composition assumption on the regression function. The framework includes many well-studied structural constraints such as (generalized) additive models. While there is a lot of flexibility in the network architecture, the tuning parameter is the sparsity of the network. Specifically, we consider large networks with number of potential network parameters exceeding the sample size. The analysis gives some insights into why multilayer feedforward neural networks perform well in practice. Interestingly, for ReLU activation function the depth (number of layers) of the neural network architectures plays an important role and our theory suggests that for nonparametric regression, scaling the network depth with the sample size is natural. It is also shown that under the composition assumption wavelet estimators can only achieve suboptimal rates.
translated by 谷歌翻译
在这项工作中,我们探讨了H +“旧常规功能的深度整流二次单位神经网络的近似能力,相对于统一标准。我们发现理论近似大量取决于神经网络中的所选激活函数。
translated by 谷歌翻译
How well does a classic deep net architecture like AlexNet or VGG19 classify on a standard dataset such as CIFAR-10 when its "width"-namely, number of channels in convolutional layers, and number of nodes in fully-connected internal layers -is allowed to increase to infinity? Such questions have come to the forefront in the quest to theoretically understand deep learning and its mysteries about optimization and generalization. They also connect deep learning to notions such as Gaussian processes and kernels. A recent paper [Jacot et al., 2018] introduced the Neural Tangent Kernel (NTK) which captures the behavior of fully-connected deep nets in the infinite width limit trained by gradient descent; this object was implicit in some other recent papers. An attraction of such ideas is that a pure kernel-based method is used to capture the power of a fully-trained deep net of infinite width. The current paper gives the first efficient exact algorithm for computing the extension of NTK to convolutional neural nets, which we call Convolutional NTK (CNTK), as well as an efficient GPU implementation of this algorithm. This results in a significant new benchmark for performance of a pure kernel-based method on CIFAR-10, being 10% higher than the methods reported in [Novak et al., 2019], and only 6% lower than the performance of the corresponding finite deep net architecture (once batch normalization etc. are turned off). Theoretically, we also give the first non-asymptotic proof showing that a fully-trained sufficiently wide net is indeed equivalent to the kernel regression predictor using NTK.
translated by 谷歌翻译
虽然最近,已经提出了许多设计来提高卷积神经网络的模型效率(CNNS)在固定资源预算上,对这些设计的理论理解仍然显着缺乏。本文旨在为回答问题提供新框架:压缩CNN中还有剩余的模型冗余吗?我们首先通过张量分解开发CNN和压缩的CNN的一般统计制剂,使得跨层的重物可以总结为单个张量。然后,通过严谨的样本复杂性分析,我们揭示了衍生的样本复杂性和天真参数计数之间的重要差异,它用作模型冗余的直接指示器。通过此发现的激励,我们为压缩CNN的压缩CNN介绍了一种新的模型冗余度量,称为$ k / r $比率,进一步允许非线性激活。通过对流行块设计和数据集的消融研究支持这种新措施的有用性。
translated by 谷歌翻译
在过去的十年中,神经网络在各种各样的反问题中取得了显着的成功,从医学成像到地震分析等学科中的采用促进了他们的收养。但是,这种反问题的高维度同时使当前理论预测,网络应在问题的维度上成倍扩展,无法解释为什么在这些设置中使用的看似很小的网络在实践中也可以正常工作。为了减少理论和实践之间的差距,在本文中提供了一种在具有低复杂性结构的高维置的神经网络近似Lipschitz函数所需的复杂性的一般方法。该方法基于这样的观察,即在\ mathbb {r}^in \ mathbb {r}^{d \ times d} $ in \ mathbb {a} \ in \ mathbb {a} \ in \ mathcal集合$ \ mathcal {S } \ subset \ mathbb {r}^d $中的低维立方体$ [ - m,m]^d $意味着对于任何Lipschitz函数$ f:\ mathcal {s} \ to \ mathbb {r}^p $ ,存在lipschitz函数$ g:[-m,m]^d \ to \ mathbb {r}^p $,使得$ g(\ mathbf {a} \ mathbf {x})= f(\ mathbf {x })$用于所有$ \ mathbf {x} \ in \ mathcal {s} $。因此,如果一个人具有一个近似$ g的神经网络:[-m,m]^d \ to \ mathbb {r}^p $,则可以添加一个图层,以实现JL嵌入$ \ mathbf {A a} $要获得一个近似于$ f的神经网络:\ mathcal {s} \ to \ mathbb {r}^p $。通过将JL嵌入结果与神经网络近似Lipschitz函数的近似结果配对,然后获得了一个结果,这些结果绑定了神经网络所需的复杂性,以近似Lipschitz在高尺寸集合上的功能。最终结果是一个一般的理论框架,然后可以用它来更好地解释比当前理论所允许的更广泛的逆问题中较小的网络的经验成功。
translated by 谷歌翻译
我们研究了使用动力学系统的流量图相对于输入指数的某些置换的函数的近似值。这种不变的功能包括涉及图像任务的经过研究的翻译不变性功能,但还包含许多在科学和工程中找到新兴应用程序的置换不变函数。我们证明了通过受控的模棱两可的动态系统的通用近似的足够条件,可以将其视为具有对称约束的深度残留网络的一般抽象。这些结果不仅意味着用于对称函数近似的各种常用神经网络体系结构的通用近似,而且还指导设计具有近似值保证的架构的设计,以保证涉及新对称要求的应用。
translated by 谷歌翻译
在分析过度参数化神经网络的训练动力学方面的最新进展主要集中在广泛的网络上,因此无法充分解决深度在深度学习中的作用。在这项工作中,我们介绍了第一个无限深层但狭窄的神经网络的训练保证。我们研究具有特定初始化的多层感知器(MLP)的无限深度极限,并使用NTK理论建立了可训练性保证。然后,我们将分析扩展到无限深的卷积神经网络(CNN),并进行简短的实验。
translated by 谷歌翻译
我们从经典非参数回归问题的镜头研究神经网络(NN)的理论,重点是NN具有异质平滑度自适应估计功能的能力 - BESOV或有界变异(BV)类的功能属性。关于此问题的现有工作需要根据功能空间和样本量来调整NN体系结构。我们考虑了Deep Relu网络的“平行NN”变体,并表明标准重量衰减相当于促进端到端学习的系数向量的$ \ ell_p $ -sparsity($ 0 <p <1 $)函数基础,即字典。使用这种等效性,我们进一步确定,仅通过调整权重衰减,这种平行的NN就可以任意接近BESOV和BV类的最小值率达到估计误差。值得注意的是,随着NN的深度,它呈指数级接近最佳。我们的研究为为什么深度重要以及NNS如何比内核方法更强大。
translated by 谷歌翻译