其中的许多神经网络能够复制复杂的任务或功能的原因之一是其普遍性财产。在过去的几十年里已经在提供单一或类神经网络的构造性证明见过很多尝试。本文是为了提供一大类,包括激活现有的大多数激活和超越的普遍性统一的和建设性的框架。在框架的心脏是神经网络近似标识的概念。事实证明,大多数现有的激活是神经网络近似的标志,因此在连续的函数对致密的空间普遍。该框架诱导几个优点。首先,它是建设性与功能分析,概率论,和数值分析的基本手段。其次,它是第一个统一的尝试,其有效期为大多数现有的激活。第三,作为一个以产品,该框架提供了一些现有的激活功能,包括米什司炉ELU,格鲁,等四的第一所大学证明,它发现带有普遍性的保证财产新的激活。事实上,任何活化\ textemdash其$ \ķ$阶导数,以$ \ķ$为整数,是积并且基本上界定\ textemdash是普遍的。第五,对于给定的激活和容错,框架精确地提供了具有预定数量的神经元,和重量/偏差的值中对应的一个隐藏神经网络的体系结构。
translated by 谷歌翻译
众所周知,进食前馈神经网络的学习速度很慢,并且在深度学习应用中呈现了几十年的瓶颈。例如,广泛用于训练神经网络的基于梯度的学习算法在所有网络参数都必须迭代调整时往往会缓慢起作用。为了解决这个问题,研究人员和从业人员都尝试引入随机性来减少学习要求。基于Igelnik和Pao的原始结构,具有随机输入层的重量和偏见的单层神经网络在实践中取得了成功,但是缺乏必要的理论理由。在本文中,我们开始填补这一理论差距。我们提供了一个(校正的)严格证明,即Igelnik和PAO结构是连续函数在紧凑型域上连续函数的通用近似值,并且近似错误渐近地衰减,例如$ o(1/\ sqrt {n})网络节点。然后,我们将此结果扩展到非反应设置,证明人们可以在$ n $的情况下实现任何理想的近似误差,而概率很大。我们进一步调整了这种随机神经网络结构,以近似欧几里得空间的平滑,紧凑的亚曼叶量的功能,从而在渐近和非催化形式的理论保证中提供了理论保证。最后,我们通过数值实验说明了我们在歧管上的结果。
translated by 谷歌翻译
这项调查的目的是介绍对深神经网络的近似特性的解释性回顾。具体而言,我们旨在了解深神经网络如何以及为什么要优于其他经典线性和非线性近似方法。这项调查包括三章。在第1章中,我们回顾了深层网络及其组成非线性结构的关键思想和概念。我们通过在解决回归和分类问题时将其作为优化问题来形式化神经网络问题。我们简要讨论用于解决优化问题的随机梯度下降算法以及用于解决优化问题的后传播公式,并解决了与神经网络性能相关的一些问题,包括选择激活功能,成本功能,过度适应问题和正则化。在第2章中,我们将重点转移到神经网络的近似理论上。我们首先介绍多项式近似中的密度概念,尤其是研究实现连续函数的Stone-WeierStrass定理。然后,在线性近似的框架内,我们回顾了馈电网络的密度和收敛速率的一些经典结果,然后在近似Sobolev函数中进行有关深网络复杂性的最新发展。在第3章中,利用非线性近似理论,我们进一步详细介绍了深度和近似网络与其他经典非线性近似方法相比的近似优势。
translated by 谷歌翻译
对于人造深神经网络,我们证明了分析函数的表达率$ f:\ mathbb {r} ^ d \ to \ mathbb {r} $中的$ l ^ 2(\ mathbb {r} ^ d,\ gamma_d )$ down $ d \ in {\ mathbb {n}} \ cup \ {\ idty \} $。 $ \ gamma_d $ denot $ \ mathbb {r} ^ d $的高斯产品概率测量。我们特别考虑relu和relu $ {} ^ $ y ^ $ yrucations for Integer $ k \ geq 2 $。对于$ d \ in \ mathbb {n} $,我们显示了$ l ^ 2(\ mathbb {r} ^ d,\ gamma_d)$的指数融合率。在$ d = \ infty $,在$ f:\ mathbb {r} ^ {\ mathbb {r}} \ to \ mathbb {r} $的适当平滑和稀疏假设下,用$ \ gamma_ \ idty $表示$ \ mathbb {r} ^ {\ mathbb {n}} $的无限(高斯)产品测量值,我们证明了$ l ^ 2(\ mathbb {r} ^ {\ mathbb { n}},\ gamma_ \ idty)$。该速率仅取决于(分析延续)的量化全阵列(分析延续)地图$ f $到$ \ mathbb {c} ^ d $中的条带产品。作为应用程序,我们将深度Relu-NNS的表达率界限进行了椭圆PDE的响应曲面与Log-Gaussian随机场输入。
translated by 谷歌翻译
We generalize the classical universal approximation theorem for neural networks to the case of complex-valued neural networks. Precisely, we consider feedforward networks with a complex activation function $\sigma : \mathbb{C} \to \mathbb{C}$ in which each neuron performs the operation $\mathbb{C}^N \to \mathbb{C}, z \mapsto \sigma(b + w^T z)$ with weights $w \in \mathbb{C}^N$ and a bias $b \in \mathbb{C}$, and with $\sigma$ applied componentwise. We completely characterize those activation functions $\sigma$ for which the associated complex networks have the universal approximation property, meaning that they can uniformly approximate any continuous function on any compact subset of $\mathbb{C}^d$ arbitrarily well. Unlike the classical case of real networks, the set of "good activation functions" which give rise to networks with the universal approximation property differs significantly depending on whether one considers deep networks or shallow networks: For deep networks with at least two hidden layers, the universal approximation property holds as long as $\sigma$ is neither a polynomial, a holomorphic function, or an antiholomorphic function. Shallow networks, on the other hand, are universal if and only if the real part or the imaginary part of $\sigma$ is not a polyharmonic function.
translated by 谷歌翻译
在本文中,我们研究了针对泊松方程的解决方案的概率和神经网络近似,但在$ \ mathbb {r}^d $的一般边界域中,较旧或$ c^2 $数据。我们的目标是两个基本目标。首先,也是最重要的是,我们证明了泊松方程的解决方案可以通过蒙特卡洛方法在sup-norm中进行数值近似,但基于球形算法的步行略有变化。这提供了相对于相对于相对于相对于有效的估计值规定的近似误差且没有维度的诅咒。此外,样品的总数不取决于执行近似的点。作为第二个目标,我们表明获得的蒙特卡洛求解器renders relu relu深层神经网络(DNN)解决泊松问题的解决方案,其大小在尺寸$ d $以及所需的错误中大多数取决于多项式。和低多项式复杂性。
translated by 谷歌翻译
本文通过引入几何深度学习(GDL)框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型,从而解决了对非欧国人数据进行处理的需求。我们表明,我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反,我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数,任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件,确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现,任何“现实世界”(即有限)数据集始终满足我们的状况,相反,如果目标函数平滑,则任何数据集都满足我们的要求。作为应用,我们确认了以下GDL模型的通用近似功能:Ganea等。 (2018)的双波利馈电网络,实施Krishnan等人的体系结构。 (2015年)的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了:Meyer等人的SPD-Matrix回归剂的通用扩展/变体。 (2011)和Fletcher(2003)的Procrustean回归剂。在欧几里得的环境中,我们的结果暗示了Kidger和Lyons(2020)的近似定理和Yarotsky和Zhevnerchuk(2019)无估计近似率的数据依赖性版本的定量版本。
translated by 谷歌翻译
量化概率分布之间的异化的统计分歧(SDS)是统计推理和机器学习的基本组成部分。用于估计这些分歧的现代方法依赖于通过神经网络(NN)进行参数化经验变化形式并优化参数空间。这种神经估算器在实践中大量使用,但相应的性能保证是部分的,并呼吁进一步探索。特别是,涉及的两个错误源之间存在基本的权衡:近似和经验估计。虽然前者需要NN课程富有富有表现力,但后者依赖于控制复杂性。我们通过非渐近误差界限基于浅NN的基于浅NN的估计的估算权,重点关注四个流行的$ \ mathsf {f} $ - 分离 - kullback-leibler,chi squared,squared hellinger,以及总变异。我们分析依赖于实证过程理论的非渐近功能近似定理和工具。界限揭示了NN尺寸和样品数量之间的张力,并使能够表征其缩放速率,以确保一致性。对于紧凑型支持的分布,我们进一步表明,上述上三次分歧的神经估算器以适当的NN生长速率接近Minimax率 - 最佳,实现了对数因子的参数速率。
translated by 谷歌翻译
深度分离结果提出了对深度神经网络过较浅的架构的好处的理论解释,建立前者具有卓越的近似能力。然而,没有已知的结果,其中更深的架构利用这种优势成为可提供的优化保证。我们证明,当数据由具有满足某些温和假设的径向对称的分布产生的数据时,梯度下降可以使用具有两层S形激活的深度2神经网络有效地学习球指示器功能,并且隐藏层固定在一起训练。由于众所周知,当使用用单层非线性的深度2网络(Safran和Shamir,2017)使用深度2网络时,球指示器难以近似于一定的重型分配,这建立了我们最好的知识,基于第一优化的分离结果,其中近似架构的近似效益在实践中可怕的。我们的证明技术依赖于随机特征方法,该方法减少了用单个神经元学习的问题,其中新工具需要在数据分布重尾时显示梯度下降的收敛。
translated by 谷歌翻译
在本文中,我们研究了与具有多种激活函数的浅神经网络相对应的变异空间的近似特性。我们介绍了两个主要工具,用于估计这些空间的度量熵,近似率和$ n $宽度。首先,我们介绍了平滑参数化词典的概念,并在非线性近似速率,度量熵和$ n $ widths上给出了上限。上限取决于参数化的平滑度。该结果适用于与浅神经网络相对应的脊功能的字典,并且在许多情况下它们的现有结果改善了。接下来,我们提供了一种方法,用于下限度量熵和$ n $ widths的变化空间,其中包含某些类别的山脊功能。该结果给出了$ l^2 $ approximation速率,度量熵和$ n $ widths的变化空间的急剧下限具有界变化的乙状结激活函数。
translated by 谷歌翻译
在本说明中,我们研究了如何使用单个隐藏层和RELU激活的神经网络插值数据,该数据是从径向对称分布中的,目标标签1处的目标标签1和单位球外部0,如果单位球内没有标签。通过重量衰减正则化和无限神经元的无限数据限制,我们证明存在独特的径向对称最小化器,其重量衰减正常器和Lipschitz常数分别为$ d $和$ \ sqrt {d} $。我们此外表明,如果标签$ 1 $强加于半径$ \ varepsilon $,而不仅仅是源头,则重量衰减正规剂会在$ d $中成倍增长。相比之下,具有两个隐藏层的神经网络可以近似目标函数,而不会遇到维度的诅咒。
translated by 谷歌翻译
在这项工作中,我们通过整流电源单元激活功能导出浅神经网络的整体表示的公式。主要是,我们的第一件结果涉及REPU浅网络的非相似性表现能力。本文的多维结果表征了可以用有界规范和可能无界宽度表示的功能集。
translated by 谷歌翻译
在本文中,我们通过任意大量的隐藏层研究了全连接的前馈深度Relu Ann,我们证明了在假设不正常化的概率密度函数下,在训练中具有随机初始化的GD优化方法的风险的融合在考虑的监督学习问题的输入数据的概率分布是分段多项式,假设目标函数(描述输入数据与输出数据之间的关系)是分段多项式,并且在假设风险函数下被认为的监督学习问题至少承认至少一个常规全球最低限度。此外,在浅句的特殊情况下只有一个隐藏的层和一维输入,我们还通过证明对每个LipsChitz连续目标功能的培训来验证这种假设,风险景观中存在全球最小值。最后,在具有Relu激活的深度广域的训练中,我们还研究梯度流(GF)差分方程的解决方案,并且我们证明每个非发散的GF轨迹会聚在临界点的多项式收敛速率(在限制意义上FR \'ECHET子提让性)。我们的数学融合分析造成了来自真实代数几何的工具,例如半代数函数和广义Kurdyka-Lojasiewicz不等式,从功能分析(如Arzel \)Ascoli定理等工具,在来自非本地结构的工具中作为限制FR \'echet子分子的概念,以及具有固定架构的浅印刷ANN的实现功能的事实形成由Petersen等人显示的连续功能集的封闭子集。
translated by 谷歌翻译
在本文中,我们将Wiener-Ito混乱分解扩展到扩散过程的类别,其漂移和扩散系数具有线性生长。通过省略混乱扩展中的正交性,我们能够证明,对于[1,\ infty)$中的$ p \ in [1,\ infty)$的每个$ p $积分功能都可以表示为基础过程的迭代积分的总和。使用此扩展的截断和(可能是随机的)神经网络的截断总和,在机器学习设置中学习了参数,我们证明,每个财务衍生物都可以在$ l^p $ sense中任意地近似。此外,可以以封闭形式计算近似财务导数的对冲策略。
translated by 谷歌翻译
本文开发了简单的前馈神经网络,实现了所有连续功能的通用近似性,具有固定的有限数量的神经元。这些神经网络很简单,因为它们的设计具有简单且可增加的连续激活功能$ \ Sigma $利用三角波函数和软片功能。我们证明了$ \ Sigma $ -Activated网络,宽度为36d $ 36d(2d + 1)$和11 $ 11 $可以在任意小错误中估计$ d $ -dimensioanl超级函数上的任何连续功能。因此,对于监督学习及其相关的回归问题,这些网络产生的假设空间,尺寸不小于36d(2d + 1)\ times 11 $的持续功能的空间。此外,由图像和信号分类引起的分类函数在$ \ sigma $ -activated网络生成的假设空间中,宽度为36d(2d + 1)$和12 $ 12 $,当存在$ \的成对不相交的界限子集时mathbb {r} ^ d $,使得同一类的样本位于同一子集中。
translated by 谷歌翻译
直到最近,神经网络在机器学习中的应用几乎完全依赖于实际网络。然而,它最近观察到,该复合值的神经网络(CVNNS)在应用中表现出卓越的性能,其中输入自然复合值,例如MRI指纹识别。虽然现实价值网络的数学理论已经达到了一定程度的成熟度,但这远远不适用于复合网络。在本文中,我们通过提供近似美元的Compact Qualets上的Compact Value的神经网络上的Compact-valued神经网络,通过提供明确的定量误差界来分析复合网络的表达性。激活函数,由$ \ sigma(z)= \ mathrm {creu}(| z | - 1)\,\ mathrm {sgn}(z)$,它是实际使用的最受欢迎的复杂激活功能之一。我们表明,衍生的近似值率在Modroleu网络类中的最佳(最多为日志因子),其具有适度增长的重量。
translated by 谷歌翻译
为了理论上了解训练有素的深神经网络的行为,有必要研究来自随机初始化的梯度方法引起的动态。然而,这些模型的非线性和组成结构使得这些动态难以分析。为了克服这些挑战,最近出现了大宽度的渐近学作为富有成效的观点,并导致了对真实世界的深网络的实用洞察。对于双层神经网络,已经通过这些渐近学理解,训练模型的性质根据初始随机权重的规模而变化,从内核制度(大初始方差)到特征学习制度(对于小初始方差)。对于更深的网络,更多的制度是可能的,并且在本文中,我们详细研究了与神经网络的“卑鄙字段”限制相对应的“小”初始化的特定选择,我们称之为可分配的参数化(IP)。首先,我们展示了标准I.I.D.零平均初始化,具有多于四个层的神经网络的可集参数,从无限宽度限制的静止点开始,并且不会发生学习。然后,我们提出了各种方法来避免这种琐碎的行为并详细分析所得到的动态。特别是,这些方法中的一种包括使用大的初始学习速率,并且我们表明它相当于最近提出的最大更新参数化$ \ mu $ p的修改。我们将结果与图像分类任务的数值实验确认,其另外显示出在尚未捕获的激活功能的各种选择之间的行为中的强烈差异。
translated by 谷歌翻译
显示了最佳的收敛速率,显示了对保守随机偏微分方程的平均场限制对解决方案解决方案解决方案解决方案的收敛。作为第二个主要结果,该SPDE的定量中心极限定理再次得出,并以最佳的收敛速率得出。该结果尤其适用于在过叠层化的,浅的神经网络中与SPDES溶液中随机梯度下降动力学的平均场缩放率的收敛性。结果表明,在限制SPDE中包含波动可以提高收敛速度,并保留有关随机梯度下降的波动的信息。
translated by 谷歌翻译
The logit outputs of a feedforward neural network at initialization are conditionally Gaussian, given a random covariance matrix defined by the penultimate layer. In this work, we study the distribution of this random matrix. Recent work has shown that shaping the activation function as network depth grows large is necessary for this covariance matrix to be non-degenerate. However, the current infinite-width-style understanding of this shaping method is unsatisfactory for large depth: infinite-width analyses ignore the microscopic fluctuations from layer to layer, but these fluctuations accumulate over many layers. To overcome this shortcoming, we study the random covariance matrix in the shaped infinite-depth-and-width limit. We identify the precise scaling of the activation function necessary to arrive at a non-trivial limit, and show that the random covariance matrix is governed by a stochastic differential equation (SDE) that we call the Neural Covariance SDE. Using simulations, we show that the SDE closely matches the distribution of the random covariance matrix of finite networks. Additionally, we recover an if-and-only-if condition for exploding and vanishing norms of large shaped networks based on the activation function.
translated by 谷歌翻译
This paper investigates the stability of deep ReLU neural networks for nonparametric regression under the assumption that the noise has only a finite p-th moment. We unveil how the optimal rate of convergence depends on p, the degree of smoothness and the intrinsic dimension in a class of nonparametric regression functions with hierarchical composition structure when both the adaptive Huber loss and deep ReLU neural networks are used. This optimal rate of convergence cannot be obtained by the ordinary least squares but can be achieved by the Huber loss with a properly chosen parameter that adapts to the sample size, smoothness, and moment parameters. A concentration inequality for the adaptive Huber ReLU neural network estimators with allowable optimization errors is also derived. To establish a matching lower bound within the class of neural network estimators using the Huber loss, we employ a different strategy from the traditional route: constructing a deep ReLU network estimator that has a better empirical loss than the true function and the difference between these two functions furnishes a low bound. This step is related to the Huberization bias, yet more critically to the approximability of deep ReLU networks. As a result, we also contribute some new results on the approximation theory of deep ReLU neural networks.
translated by 谷歌翻译