过度参数化的神经网络在复杂数据上具有很大的代表能力,更重要的是产生足够平滑的输出,这对于它们的概括和稳健性至关重要。大多数现有函数近似理论表明,使用足够多的参数,神经网络可以很好地近似于功能值的某些类别的函数。然而,神经网络本身可能是高度平滑的。为了弥合这一差距,我们以卷积残留网络(Rescresnets)为例,并证明大型响应不仅可以在功能值方面近似目标函数,而且还可以表现出足够的一阶平滑度。此外,我们将理论扩展到在低维歧管上支持的近似功能。我们的理论部分证明了在实践中使用深层网络的好处。提供了关于对抗性鲁棒图像分类的数值实验,以支持我们的理论。
translated by 谷歌翻译
无限尺寸空间之间的学习运营商是机器学习,成像科学,数学建模和仿真等广泛应用中出现的重要学习任务。本文研究了利用深神经网络的Lipschitz运营商的非参数估计。 Non-asymptotic upper bounds are derived for the generalization error of the empirical risk minimizer over a properly chosen network class.在假设目标操作员表现出低维结构的情况下,由于训练样本大小增加,我们的误差界限衰减,根据我们估计中的内在尺寸,具有吸引力的快速速度。我们的假设涵盖了实际应用中的大多数情况,我们的结果通过利用操作员估算中的低维结构来产生快速速率。我们还研究了网络结构(例如,网络宽度,深度和稀疏性)对神经网络估计器的泛化误差的影响,并提出了对网络结构的选择来定量地最大化学习效率的一般建议。
translated by 谷歌翻译
众所周知,现代神经网络容易受到对抗例子的影响。为了减轻这个问题,已经提出了一系列强大的学习算法。但是,尽管通过某些方法可以通过某些方法接近稳定的训练误差,但所有现有的算法都会导致较高的鲁棒概括误差。在本文中,我们从深层神经网络的表达能力的角度提供了对这种令人困惑的现象的理论理解。具体而言,对于二进制分类数据,我们表明,对于Relu网络,虽然轻度的过度参数足以满足较高的鲁棒训练精度,但存在持续的稳健概括差距,除非神经网络的大小是指数的,却是指数的。数据维度$ d $。即使数据是线性可分离的,这意味着要实现低清洁概括错误很容易,我们仍然可以证明$ \ exp({\ omega}(d))$下限可用于鲁棒概括。通常,只要它们的VC维度最多是参数数量,我们的指数下限也适用于各种神经网络家族和其他功能类别。此外,我们为网络大小建立了$ \ exp({\ mathcal {o}}(k))$的改进的上限,当数据放在具有内在尺寸$ k $的歧管上时,以实现低鲁棒的概括错误($) k \ ll d $)。尽管如此,我们也有一个下限,相对于$ k $成倍增长 - 维度的诅咒是不可避免的。通过证明网络大小之间的指数分离以实现较低的鲁棒训练和泛化错误,我们的结果表明,鲁棒概括的硬度可能源于实用模型的表现力。
translated by 谷歌翻译
生成的对抗网络(GAN)在无监督学习方面取得了巨大的成功。尽管具有显着的经验表现,但关于gan的统计特性的理论研究有限。本文提供了gan的近似值和统计保证,以估算具有H \“ {o} lder空间密度的数据分布。我们的主要结果表明,如果正确选择了生成器和鉴别器网络架构,则gan是一致的估计器在较强的差异指标下的数据分布(例如Wasserstein-1距离。 ,这不受环境维度的诅咒。我们对低维数据的分析基于具有Lipschitz连续性保证的神经网络的通用近似理论,这可能具有独立的兴趣。
translated by 谷歌翻译
本文通过引入几何深度学习(GDL)框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型,从而解决了对非欧国人数据进行处理的需求。我们表明,我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反,我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数,任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件,确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现,任何“现实世界”(即有限)数据集始终满足我们的状况,相反,如果目标函数平滑,则任何数据集都满足我们的要求。作为应用,我们确认了以下GDL模型的通用近似功能:Ganea等。 (2018)的双波利馈电网络,实施Krishnan等人的体系结构。 (2015年)的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了:Meyer等人的SPD-Matrix回归剂的通用扩展/变体。 (2011)和Fletcher(2003)的Procrustean回归剂。在欧几里得的环境中,我们的结果暗示了Kidger和Lyons(2020)的近似定理和Yarotsky和Zhevnerchuk(2019)无估计近似率的数据依赖性版本的定量版本。
translated by 谷歌翻译
我们研究了深层神经网络的表达能力,以在扩张的转移不变空间中近似功能,这些空间被广泛用于信号处理,图像处理,通信等。相对于神经网络的宽度和深度估算了近似误差界限。网络构建基于深神经网络的位提取和数据拟合能力。作为我们主要结果的应用,获得了经典函数空间(例如Sobolev空间和BESOV空间)的近似速率。我们还给出了$ l^p(1 \ le p \ le \ infty)$近似误差的下限,这表明我们的神经网络的构建是渐近的最佳选择,即最大程度地达到对数因素。
translated by 谷歌翻译
我们为特殊神经网络架构,称为运营商复发性神经网络的理论分析,用于近似非线性函数,其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量,因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此,我们介绍一个类似标准的神经网络架构的新系列,但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析,我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后,我们研究其表示属性以及其近似属性。我们还表明,可以引入明确的正则化,其可以从所述逆问题的数学分析导出,并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后,我们讨论如何将运营商复发网络视为深度学习模拟,以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。
translated by 谷歌翻译
本文开发了简单的前馈神经网络,实现了所有连续功能的通用近似性,具有固定的有限数量的神经元。这些神经网络很简单,因为它们的设计具有简单且可增加的连续激活功能$ \ Sigma $利用三角波函数和软片功能。我们证明了$ \ Sigma $ -Activated网络,宽度为36d $ 36d(2d + 1)$和11 $ 11 $可以在任意小错误中估计$ d $ -dimensioanl超级函数上的任何连续功能。因此,对于监督学习及其相关的回归问题,这些网络产生的假设空间,尺寸不小于36d(2d + 1)\ times 11 $的持续功能的空间。此外,由图像和信号分类引起的分类函数在$ \ sigma $ -activated网络生成的假设空间中,宽度为36d(2d + 1)$和12 $ 12 $,当存在$ \的成对不相交的界限子集时mathbb {r} ^ d $,使得同一类的样本位于同一子集中。
translated by 谷歌翻译
This paper investigates the stability of deep ReLU neural networks for nonparametric regression under the assumption that the noise has only a finite p-th moment. We unveil how the optimal rate of convergence depends on p, the degree of smoothness and the intrinsic dimension in a class of nonparametric regression functions with hierarchical composition structure when both the adaptive Huber loss and deep ReLU neural networks are used. This optimal rate of convergence cannot be obtained by the ordinary least squares but can be achieved by the Huber loss with a properly chosen parameter that adapts to the sample size, smoothness, and moment parameters. A concentration inequality for the adaptive Huber ReLU neural network estimators with allowable optimization errors is also derived. To establish a matching lower bound within the class of neural network estimators using the Huber loss, we employ a different strategy from the traditional route: constructing a deep ReLU network estimator that has a better empirical loss than the true function and the difference between these two functions furnishes a low bound. This step is related to the Huberization bias, yet more critically to the approximability of deep ReLU networks. As a result, we also contribute some new results on the approximation theory of deep ReLU neural networks.
translated by 谷歌翻译
这项调查的目的是介绍对深神经网络的近似特性的解释性回顾。具体而言,我们旨在了解深神经网络如何以及为什么要优于其他经典线性和非线性近似方法。这项调查包括三章。在第1章中,我们回顾了深层网络及其组成非线性结构的关键思想和概念。我们通过在解决回归和分类问题时将其作为优化问题来形式化神经网络问题。我们简要讨论用于解决优化问题的随机梯度下降算法以及用于解决优化问题的后传播公式,并解决了与神经网络性能相关的一些问题,包括选择激活功能,成本功能,过度适应问题和正则化。在第2章中,我们将重点转移到神经网络的近似理论上。我们首先介绍多项式近似中的密度概念,尤其是研究实现连续函数的Stone-WeierStrass定理。然后,在线性近似的框架内,我们回顾了馈电网络的密度和收敛速率的一些经典结果,然后在近似Sobolev函数中进行有关深网络复杂性的最新发展。在第3章中,利用非线性近似理论,我们进一步详细介绍了深度和近似网络与其他经典非线性近似方法相比的近似优势。
translated by 谷歌翻译
Consider the multivariate nonparametric regression model. It is shown that estimators based on sparsely connected deep neural networks with ReLU activation function and properly chosen network architecture achieve the minimax rates of convergence (up to log nfactors) under a general composition assumption on the regression function. The framework includes many well-studied structural constraints such as (generalized) additive models. While there is a lot of flexibility in the network architecture, the tuning parameter is the sparsity of the network. Specifically, we consider large networks with number of potential network parameters exceeding the sample size. The analysis gives some insights into why multilayer feedforward neural networks perform well in practice. Interestingly, for ReLU activation function the depth (number of layers) of the neural network architectures plays an important role and our theory suggests that for nonparametric regression, scaling the network depth with the sample size is natural. It is also shown that under the composition assumption wavelet estimators can only achieve suboptimal rates.
translated by 谷歌翻译
在本文中,我们研究了与具有多种激活函数的浅神经网络相对应的变异空间的近似特性。我们介绍了两个主要工具,用于估计这些空间的度量熵,近似率和$ n $宽度。首先,我们介绍了平滑参数化词典的概念,并在非线性近似速率,度量熵和$ n $ widths上给出了上限。上限取决于参数化的平滑度。该结果适用于与浅神经网络相对应的脊功能的字典,并且在许多情况下它们的现有结果改善了。接下来,我们提供了一种方法,用于下限度量熵和$ n $ widths的变化空间,其中包含某些类别的山脊功能。该结果给出了$ l^2 $ approximation速率,度量熵和$ n $ widths的变化空间的急剧下限具有界变化的乙状结激活函数。
translated by 谷歌翻译
在过去的十年中,神经网络在各种各样的反问题中取得了显着的成功,从医学成像到地震分析等学科中的采用促进了他们的收养。但是,这种反问题的高维度同时使当前理论预测,网络应在问题的维度上成倍扩展,无法解释为什么在这些设置中使用的看似很小的网络在实践中也可以正常工作。为了减少理论和实践之间的差距,在本文中提供了一种在具有低复杂性结构的高维置的神经网络近似Lipschitz函数所需的复杂性的一般方法。该方法基于这样的观察,即在\ mathbb {r}^in \ mathbb {r}^{d \ times d} $ in \ mathbb {a} \ in \ mathbb {a} \ in \ mathcal集合$ \ mathcal {S } \ subset \ mathbb {r}^d $中的低维立方体$ [ - m,m]^d $意味着对于任何Lipschitz函数$ f:\ mathcal {s} \ to \ mathbb {r}^p $ ,存在lipschitz函数$ g:[-m,m]^d \ to \ mathbb {r}^p $,使得$ g(\ mathbf {a} \ mathbf {x})= f(\ mathbf {x })$用于所有$ \ mathbf {x} \ in \ mathcal {s} $。因此,如果一个人具有一个近似$ g的神经网络:[-m,m]^d \ to \ mathbb {r}^p $,则可以添加一个图层,以实现JL嵌入$ \ mathbf {A a} $要获得一个近似于$ f的神经网络:\ mathcal {s} \ to \ mathbb {r}^p $。通过将JL嵌入结果与神经网络近似Lipschitz函数的近似结果配对,然后获得了一个结果,这些结果绑定了神经网络所需的复杂性,以近似Lipschitz在高尺寸集合上的功能。最终结果是一个一般的理论框架,然后可以用它来更好地解释比当前理论所允许的更广泛的逆问题中较小的网络的经验成功。
translated by 谷歌翻译
Many applications, such as system identification, classification of time series, direct and inverse problems in partial differential equations, and uncertainty quantification lead to the question of approximation of a non-linear operator between metric spaces $\mathfrak{X}$ and $\mathfrak{Y}$. We study the problem of determining the degree of approximation of such operators on a compact subset $K_\mathfrak{X}\subset \mathfrak{X}$ using a finite amount of information. If $\mathcal{F}: K_\mathfrak{X}\to K_\mathfrak{Y}$, a well established strategy to approximate $\mathcal{F}(F)$ for some $F\in K_\mathfrak{X}$ is to encode $F$ (respectively, $\mathcal{F}(F)$) in terms of a finite number $d$ (repectively $m$) of real numbers. Together with appropriate reconstruction algorithms (decoders), the problem reduces to the approximation of $m$ functions on a compact subset of a high dimensional Euclidean space $\mathbb{R}^d$, equivalently, the unit sphere $\mathbb{S}^d$ embedded in $\mathbb{R}^{d+1}$. The problem is challenging because $d$, $m$, as well as the complexity of the approximation on $\mathbb{S}^d$ are all large, and it is necessary to estimate the accuracy keeping track of the inter-dependence of all the approximations involved. In this paper, we establish constructive methods to do this efficiently; i.e., with the constants involved in the estimates on the approximation on $\mathbb{S}^d$ being $\mathcal{O}(d^{1/6})$. We study different smoothness classes for the operators, and also propose a method for approximation of $\mathcal{F}(F)$ using only information in a small neighborhood of $F$, resulting in an effective reduction in the number of parameters involved.
translated by 谷歌翻译
众所周知,进食前馈神经网络的学习速度很慢,并且在深度学习应用中呈现了几十年的瓶颈。例如,广泛用于训练神经网络的基于梯度的学习算法在所有网络参数都必须迭代调整时往往会缓慢起作用。为了解决这个问题,研究人员和从业人员都尝试引入随机性来减少学习要求。基于Igelnik和Pao的原始结构,具有随机输入层的重量和偏见的单层神经网络在实践中取得了成功,但是缺乏必要的理论理由。在本文中,我们开始填补这一理论差距。我们提供了一个(校正的)严格证明,即Igelnik和PAO结构是连续函数在紧凑型域上连续函数的通用近似值,并且近似错误渐近地衰减,例如$ o(1/\ sqrt {n})网络节点。然后,我们将此结果扩展到非反应设置,证明人们可以在$ n $的情况下实现任何理想的近似误差,而概率很大。我们进一步调整了这种随机神经网络结构,以近似欧几里得空间的平滑,紧凑的亚曼叶量的功能,从而在渐近和非催化形式的理论保证中提供了理论保证。最后,我们通过数值实验说明了我们在歧管上的结果。
translated by 谷歌翻译
We study expressive power of shallow and deep neural networks with piece-wise linear activation functions. We establish new rigorous upper and lower bounds for the network complexity in the setting of approximations in Sobolev spaces. In particular, we prove that deep ReLU networks more efficiently approximate smooth functions than shallow networks. In the case of approximations of 1D Lipschitz functions we describe adaptive depth-6 network architectures more efficient than the standard shallow architecture.
translated by 谷歌翻译
我们引入了一个深度学习模型,该模型通常可以近似于常规条件分布(RCD)。所提出的模型分为三个阶段:首先从给定的度量空间$ \ mathcal {x} $到$ \ mathbb {r}^d $通过功能映射进行线性化输入,然后这些线性化的功能由深层馈电的神经网络处理,然后通过Bahdanau等人引入的注意机制的概率扩展,将网络的输出转换为$ 1 $ -WASSERSTEIN SPACE $ \ MATHCAL {P} _1(\ Mathbb {r}^d)$。 (2014)。我们发现,使用我们的框架构建的模型可以从$ \ mathbb {r}^d $到$ \ mathcal {p} _1(\ mathbb {r}^d)$均匀地在紧凑的集合上近似任何连续功能。当近似$ \ mathcal {p} _1(\ mathbb {r}^d)$ - 有价值的函数时,我们确定了两种避免维数的诅咒的方法。第一个策略描述了$ c(\ mathbb {r}^d,\ mathcal {p} _1(\ mathbb {r}^d))$中的函数,可以在$ \ mathbb {r}的任何紧凑子集上有效地近似地近似^D $。第二种方法描述了$ \ mathbb {r}^d $的紧凑子集,其中最多的$ c(\ mathbb {r}^d,\ mathcal {p} _1 _1(\ mathbb {r}^d))$可以有效地近似。结果经过实验验证。
translated by 谷歌翻译
Existing generalization bounds fail to explain crucial factors that drive generalization of modern neural networks. Since such bounds often hold uniformly over all parameters, they suffer from over-parametrization, and fail to account for the strong inductive bias of initialization and stochastic gradient descent. As an alternative, we propose a novel optimal transport interpretation of the generalization problem. This allows us to derive instance-dependent generalization bounds that depend on the local Lipschitz regularity of the earned prediction function in the data space. Therefore, our bounds are agnostic to the parametrization of the model and work well when the number of training samples is much smaller than the number of parameters. With small modifications, our approach yields accelerated rates for data on low-dimensional manifolds, and guarantees under distribution shifts. We empirically analyze our generalization bounds for neural networks, showing that the bound values are meaningful and capture the effect of popular regularization methods during training.
translated by 谷歌翻译
本文在内在参数的数量(即,根据目标函数$ F $)的数量来研究Relu网络的近似误差。首先,我们证明了建设,对于任何Lipschitz连续功能$ f $ w $ thy $ [0,1] ^ d $与lipschitz常数$ \ lambda> 0 $,带有$ n + 2 $ 2 $ 2 $ contrincic参数的Relu网络可以近似$ f $与$ l ^ p $ -norm以$ p \ in [1,\ idty)$中,$ f $ 5 \ lambda \ sqrt {d} \,2 ^ { - n} $。更一般于任意连续函数$ [0,1] ^ d $与连续性$ \ omega_f(\ cdot)$的模数,近似误差是$ \ omega_f(\ sqrt {d} \,2 ^ { - n})+ 2 ^ { - n + 2} \ omega_f(\ sqrt {d})$。接下来,我们以$ l ^ p $ -norm延长这两个结果,以$ 3 ^ d n + 2美元的价格为$ l ^ \ infty $ -norm。最后,通过使用高精度二进制表示和比特提取技术,通过固定的Relu网络独立于目标函数,我们设计,只有三个内在参数的Relu网络,以近似H +“较旧的连续功能小错误。
translated by 谷歌翻译
我们研究了使用前馈神经网络实施其支持集的同时近似紧凑型积分功能的问题。我们的第一个主要结果将这个“结构化”近似问题转录为普遍性问题。我们通过在空间上构建通常的拓扑结构来做到这一点,$ l^1 _ {\ propatatorName {loc}}(\ m athbb {r}^d,\ m athbb {r}^d)locally-intellable-intellable-intellable-intellable-intellable-in紧凑型函数只能通过具有匹配的离散支持的函数来近似于$ l^1 $ norm。我们建立了Relu Feedforwward网络的普遍性,并在此精致拓扑结构中具有双线性池层。因此,我们发现具有双线性池的Relu FeedForward网络可以在实施其离散支持的同时近似紧凑的功能。我们在紧凑型Lipschitz函数的致密亚类中得出了通用近似定理的定量均匀版本。该定量结果表达了通过目标函数的规律性,其基本支持的度量和直径以及输入和输出空间的尺寸来构建此relu网络所需的双线性池层层的深度,宽度和数量。相反,我们表明多项式回归器和分析前馈网络在该空间中并非通用。
translated by 谷歌翻译