在本文中,我们研究了由布尔阈值函数组成的AutoEncoders的大小和宽度,其中AutoEncoder是分层神经网络,其结构可以被视为由编码器组成,该编码器将输入向量压缩到较低尺寸向量,以及一个将低维向量转换回原始输入向量的解码器确切地(或大致)。我们专注于解码器部分,并显示$ \ omega(\ sqrt {dn / d})$和$ o(\ sqrt {dn})$节点需要在$ d $ -dimential二进制中转换$ n $ vectors空间到$ d $ -dimimential二进制空间。我们还表明,如果我们允许小错误,则可以减少宽度,其中误差被定义为在对编码器部分的每个向量和由解码器输出的每个向量输入的汉明距离的平均值。
translated by 谷歌翻译
单调功能和数据集在各种应用中都会出现。我们研究单调数据集的插值问题:输入是带有$ n $点的单调数据集,目标是找到一个大小和深度有效的单调神经网络,具有非负参数和阈值单元,可以插入数据放。我们表明,单调数据集无法通过深度$ 2 $的单调网络插值。另一方面,我们证明,对于每个单调数据集,在$ \ mathbb {r}^d $中$ n $点,存在一个插值的单调网络,该网络的深度为$ 4 $ $ 4 $和size $ o(nd)$。我们的插值结果意味着,每个单调功能超过$ [0,1]^d $可以通过DEPTH-4单调网络任意地近似,从而改善了先前最著名的深度构建$ d+1 $。最后,基于布尔电路复杂性的结果,我们表明,当近似单调函数时,具有正参数的电感偏差会导致神经元数量的超顺式爆炸。
translated by 谷歌翻译
Recent work shows that the expressive power of Graph Neural Networks (GNNs) in distinguishing non-isomorphic graphs is exactly the same as that of the Weisfeiler-Lehman (WL) graph test. In particular, they show that the WL test can be simulated by GNNs. However, those simulations involve neural networks for the 'combine' function of size polynomial or even exponential in the number of graph nodes $n$, as well as feature vectors of length linear in $n$. We present an improved simulation of the WL test on GNNs with \emph{exponentially} lower complexity. In particular, the neural network implementing the combine function in each node has only a polylogarithmic number of parameters in $n$, and the feature vectors exchanged by the nodes of GNN consists of only $O(\log n)$ bits. We also give logarithmic lower bounds for the feature vector length and the size of the neural networks, showing the (near)-optimality of our construction.
translated by 谷歌翻译
众所周知,$ O(n)$参数足以让神经网络记住任意$ N $ INPUT-LABE标签对。通过利用深度,我们显示$ O(n ^ {2/3})$参数足以在输入点的分离的温和条件下记住$ n $对。特别是,更深的网络(即使是宽度为3美元),也会显示比浅网络更有成对,这也同意最近的作品对函数近似的深度的好处。我们还提供支持我们理论发现的经验结果。
translated by 谷歌翻译
我们推导了非负神经网络的固定点的存在条件,这是一个重要的研究目标,了解了涉及自动化器和循环展开技术的现代应用中神经网络的行为。特别是,我们表明,具有非负输入和非负参数的神经网络可以在非线性珀罗尼乌斯理论的框架内被识别为单调和(弱)可扩展的功能。这一事实使我们能够推导出存在非空白神经网络的非空的固定点集的条件,并且这些条件比最近使用凸分析中的参数获得的条件较弱,这通常是基于激活函数的非扩张性的假设。此外,我们证明了单调和弱可伸缩的神经网络的固定点集的形状通常是一个间隔,其为可伸缩网络的情况的点退化。本文的首席结果在数值模拟中验证,我们考虑了一种自动型型网络,首先将角度功率谱压缩在大规模的MIMO系统中,并且第二,从压缩信号重建输入光谱。
translated by 谷歌翻译
We study expressive power of shallow and deep neural networks with piece-wise linear activation functions. We establish new rigorous upper and lower bounds for the network complexity in the setting of approximations in Sobolev spaces. In particular, we prove that deep ReLU networks more efficiently approximate smooth functions than shallow networks. In the case of approximations of 1D Lipschitz functions we describe adaptive depth-6 network architectures more efficient than the standard shallow architecture.
translated by 谷歌翻译
我们证明,可以通过恒定的深度统一阈值电路模拟输入长度中具有对数精度的变压器神经网络(以及使用输入长度中的线性空间计算的FeedForward子网络)。因此,此类变压器仅在$ \ mathsf {tc}^0 $中识别形式语言,这是由常数深度,多大小阈值电路定义的语言类。这证明了NLP中的实际主张与计算复杂性理论中的理论猜想之间的联系:“注意就是您需要的一切”(Vaswani等,2017),即,只有在所有有效地计算的情况下,变形金刚都能够进行所有有效的计算可以使用日志空间来解决问题,即$ \ mathsf l = \ mathsf p $。我们还构建了一个可以在任何输入上评估任何恒定深度阈值电路的变压器,证明变形金刚可以遵循$ \ Mathsf {tc}^0 $中表示的说明。
translated by 谷歌翻译
当前深度学习方法的许多应用程序的警告是需要大规模数据。Kolmogorov复杂性结果提出的一种改进是将最小描述长度原理与计算通用模型应用。我们研究了这种方法原则上可以带来的样品效率的潜在提高。我们使用多项式时间图灵机代表计算上的通用模型和布尔电路,以表示作用于有限精确数字的人工神经网络(ANN)。我们的分析解散了我们的问题与计算复杂性结果之间的直接联系。我们在使用图灵机而不是ANN应用的MDL之间的样品效率上提供了下限和上限。我们的界限取决于要学习的布尔函数的输入的位尺寸。此外,我们重点介绍了电路复杂性的经典开放问题与这些问题的紧密关系之间的密切关系。
translated by 谷歌翻译
我们研究神经网络的基于规范的统一收敛范围,旨在密切理解它们如何受到规范约束的架构和类型的影响,对于简单的标量价值一类隐藏的一层网络,并在其中界定了输入。欧几里得规范。我们首先证明,通常,控制隐藏层重量矩阵的光谱规范不足以获得均匀的收敛保证(与网络宽度无关),而更强的Frobenius Norm Control是足够的,扩展并改善了以前的工作。在证明构造中,我们识别和分析了两个重要的设置,在这些设置中(可能令人惊讶)仅光谱规范控制就足够了:首先,当网络的激活函数足够平滑时(结果扩展到更深的网络);其次,对于某些类型的卷积网络。在后一种情况下,我们研究样品复杂性如何受到参数的影响,例如斑块之间的重叠量和斑块的总数。
translated by 谷歌翻译
神经网络的通用近似特性(UAP)对于深度学习至关重要,众所周知,广泛的神经网络是$ l^p $ norm和连续/统一规范中连续功能的通用近似概要。但是,确切的最小宽度,$ w _ {\ min} $,尚未对UAP进行彻底研究。最近,使用解码器模式编码器方案,\ citet {park2021mimine}发现$ w _ {\ min} = \ max(d_x+1,d_y)$ for $ l^p $ up of relu Networks和the $ c $ - relu+step网络,其中$ d_x,d_y $分别是输入和输出尺寸。在本文中,我们考虑具有任意激活功能的神经网络。我们证明,紧凑型域上功能的$ c $ uap和$ l^p $ -uap共享最小宽度的通用下限;也就是说,$ w^*_ {\ min} = \ max(d_x,d_y)$。特别是,只要输入或输出尺寸大于一个,就可以通过泄漏的relu网络来实现临界宽度,$ w^*_ {\ min} $,可以通过泄漏的relu网络来实现。我们的构建基于神经普通微分方程的近似能力以及通过神经网络近似流量图的能力。还讨论了非单极管或不连续的激活函数情况和一维情况。
translated by 谷歌翻译
我们研究了深层神经网络的表达能力,以在扩张的转移不变空间中近似功能,这些空间被广泛用于信号处理,图像处理,通信等。相对于神经网络的宽度和深度估算了近似误差界限。网络构建基于深神经网络的位提取和数据拟合能力。作为我们主要结果的应用,获得了经典函数空间(例如Sobolev空间和BESOV空间)的近似速率。我们还给出了$ l^p(1 \ le p \ le \ infty)$近似误差的下限,这表明我们的神经网络的构建是渐近的最佳选择,即最大程度地达到对数因素。
translated by 谷歌翻译
在本文中,我们在具有线性阈值激活功能的神经网络上提出了新的结果。我们精确地表征了这种神经网络可表示的功能,并且显示2个隐藏层是必要的并且足以表示类中可表示的任何功能。鉴于使用其他流行的激活功能的神经网络的最近精确的可比性调查,这是一个令人惊讶的结果,这些功能使用其他流行的激活功能,如整流的线性单元(Relu)。我们还给出了代表类中任意函数所需的神经网络的大小的精确界限。最后,我们设计了一种算法来解决具有固定架构的这些神经网络的全球最优性的经验风险最小化(ERM)问题。如果输入维度和网络架构的大小被认为是固定常数,则算法的运行时间是数据样本大小的多项式。该算法的意义上是独一无二的,即它适用于任何数量的层数,而先前的多项式时间全局最佳算法仅适用于非常受限制的架构类。
translated by 谷歌翻译
This paper investigates the stability of deep ReLU neural networks for nonparametric regression under the assumption that the noise has only a finite p-th moment. We unveil how the optimal rate of convergence depends on p, the degree of smoothness and the intrinsic dimension in a class of nonparametric regression functions with hierarchical composition structure when both the adaptive Huber loss and deep ReLU neural networks are used. This optimal rate of convergence cannot be obtained by the ordinary least squares but can be achieved by the Huber loss with a properly chosen parameter that adapts to the sample size, smoothness, and moment parameters. A concentration inequality for the adaptive Huber ReLU neural network estimators with allowable optimization errors is also derived. To establish a matching lower bound within the class of neural network estimators using the Huber loss, we employ a different strategy from the traditional route: constructing a deep ReLU network estimator that has a better empirical loss than the true function and the difference between these two functions furnishes a low bound. This step is related to the Huberization bias, yet more critically to the approximability of deep ReLU networks. As a result, we also contribute some new results on the approximation theory of deep ReLU neural networks.
translated by 谷歌翻译
本文研究了粗略量化的神经网络的近似能力 - 那些参数选自一小组允许值的那些。我们表明,任何平滑的多变量功能都可以通过适当的粗略量化的神经网络任意地近似地近似,并提供定量近似速率。对于二次激活,可以仅使用一位字母表进行;对于Relu激活,我们使用三位字母。主要定理依赖于伯恩斯坦多项式的重要属性。我们证明了伯尔斯坦多项式,伯恩斯坦对伯恩斯坦的噪声整形量化的近似的新结果,并通过粗略量化的神经网络实现伯恩斯坦多项式。
translated by 谷歌翻译
无限尺寸空间之间的学习运营商是机器学习,成像科学,数学建模和仿真等广泛应用中出现的重要学习任务。本文研究了利用深神经网络的Lipschitz运营商的非参数估计。 Non-asymptotic upper bounds are derived for the generalization error of the empirical risk minimizer over a properly chosen network class.在假设目标操作员表现出低维结构的情况下,由于训练样本大小增加,我们的误差界限衰减,根据我们估计中的内在尺寸,具有吸引力的快速速度。我们的假设涵盖了实际应用中的大多数情况,我们的结果通过利用操作员估算中的低维结构来产生快速速率。我们还研究了网络结构(例如,网络宽度,深度和稀疏性)对神经网络估计器的泛化误差的影响,并提出了对网络结构的选择来定量地最大化学习效率的一般建议。
translated by 谷歌翻译
Consider the multivariate nonparametric regression model. It is shown that estimators based on sparsely connected deep neural networks with ReLU activation function and properly chosen network architecture achieve the minimax rates of convergence (up to log nfactors) under a general composition assumption on the regression function. The framework includes many well-studied structural constraints such as (generalized) additive models. While there is a lot of flexibility in the network architecture, the tuning parameter is the sparsity of the network. Specifically, we consider large networks with number of potential network parameters exceeding the sample size. The analysis gives some insights into why multilayer feedforward neural networks perform well in practice. Interestingly, for ReLU activation function the depth (number of layers) of the neural network architectures plays an important role and our theory suggests that for nonparametric regression, scaling the network depth with the sample size is natural. It is also shown that under the composition assumption wavelet estimators can only achieve suboptimal rates.
translated by 谷歌翻译
在这项工作中,我们展示了对称神经网络体系结构之间的新型分离。具体而言,我们将关系网络〜\ parencite {santoro2017simple}架构视为对深度群体的自然概括〜\ parencite {zaheer2017deep}架构,并研究了他们的代表性差距。在限制分析激活函数的限制下,我们构建了一个对称函数,该功能在尺寸$ n $的集合上具有尺寸$ d $中的元素,以前的架构可以有效地近似,但事实证明需要$ n $和$的宽度指数D $为后者。
translated by 谷歌翻译
我们研究神经网络表达能力的基本限制。给定两组$ f $,$ g $的实值函数,我们首先证明了$ f $中的功能的一般下限,可以在$ l^p(\ mu)$ norm中通过$ g中的功能近似$,对于任何$ p \ geq 1 $和任何概率度量$ \ mu $。下限取决于$ f $的包装数,$ f $的范围以及$ g $的脂肪震动尺寸。然后,我们实例化了$ g $对应于分段的馈电神经网络的情况,并详细描述了两组$ f $:h {\“ o} lder balls和多变量单调函数。除了匹配(已知或新的)上限与日志因素外,我们的下限还阐明了$ l^p $ Norm或SUP Norm中近似之间的相似性或差异,解决了Devore等人的开放问题(2021年))。我们的证明策略与SUP Norm案例不同,并使用了Mendelson(2002)的关键概率结果。
translated by 谷歌翻译
我们指出,对于随机深神经网络(SDNN)的隐藏层以及整个SDNN的输出,浓度和martingale不平等现象。这些结果使我们能够引入预期的分类器(EC),并为EC的分类误差提供概率上限。我们还通过最佳的停止过程陈述了SDNN的最佳层数。我们将分析应用于具有Relu激活函数的前馈神经网络的随机版本。
translated by 谷歌翻译
本文提出了关于自动编码器机制的理论框架。在编码器部分中,在降低维度的主要用途下,我们研究了其两个基本属性:徒图和数据删除。给出了满足以上两个属性的编码器的一般构造方法。对于解码器部分而言,由于编码器构造的结果,我们提出了解决方案的新基本原理,而无需使用仿射变换。对自动编码器的概括机制进行了建模。 Relu自动编码器的结果概括为某些非Relu情况,特别是对于Sigmoid-Unit自动编码器。基于上面的理论框架,我们解释了变异自动编码器,降解自动编码器和线性单位自动编码器的一些实验结果,重点是通过编码器对数据的下维表示解释;而且,通过自动编码器恢复图像的机理是很自然的,可以通过这些解释来理解。与PCA和决策树相比,分别证明了(广义)自动编码器对降低和分类的优势。卷积神经网络和随机加权的神经网络也通过该框架解释。
translated by 谷歌翻译