对于人造深神经网络,我们证明了分析函数的表达率$ f:\ mathbb {r} ^ d \ to \ mathbb {r} $中的$ l ^ 2(\ mathbb {r} ^ d,\ gamma_d )$ down $ d \ in {\ mathbb {n}} \ cup \ {\ idty \} $。 $ \ gamma_d $ denot $ \ mathbb {r} ^ d $的高斯产品概率测量。我们特别考虑relu和relu $ {} ^ $ y ^ $ yrucations for Integer $ k \ geq 2 $。对于$ d \ in \ mathbb {n} $,我们显示了$ l ^ 2(\ mathbb {r} ^ d,\ gamma_d)$的指数融合率。在$ d = \ infty $,在$ f:\ mathbb {r} ^ {\ mathbb {r}} \ to \ mathbb {r} $的适当平滑和稀疏假设下,用$ \ gamma_ \ idty $表示$ \ mathbb {r} ^ {\ mathbb {n}} $的无限(高斯)产品测量值,我们证明了$ l ^ 2(\ mathbb {r} ^ {\ mathbb { n}},\ gamma_ \ idty)$。该速率仅取决于(分析延续)的量化全阵列(分析延续)地图$ f $到$ \ mathbb {c} ^ d $中的条带产品。作为应用程序,我们将深度Relu-NNS的表达率界限进行了椭圆PDE的响应曲面与Log-Gaussian随机场输入。
translated by 谷歌翻译
分析了无限维函数空间之间地图的深层替代物的近似速率,例如作为线性和非线性偏微分方程的数据到解决图。具体而言,我们研究了深神经操作员和广义多项式混乱(GPC)操作员的近似速率,用于无线性,可分开的希尔伯特空间之间的非线性,全态图。假定功能空间的运算符和输出通过稳定的仿射表示系统进行参数化。可接受的表示系统包括正常基础,RIESZ底座或所考虑的空间的合适的紧密框架。建立了代数表达速率界限,为具有有限的Sobolev或BESOV规律性的范围内的深层神经和GPC操作员替代物都作用于可分离的Hilbert空间和拟合图表的范围。我们通过表达速率界限来说明抽象速率界限的系数到测序图,用于圆环上线性椭圆形PDE。
translated by 谷歌翻译
On general regular simplicial partitions $\mathcal{T}$ of bounded polytopal domains $\Omega \subset \mathbb{R}^d$, $d\in\{2,3\}$, we construct \emph{exact neural network (NN) emulations} of all lowest order finite element spaces in the discrete de Rham complex. These include the spaces of piecewise constant functions, continuous piecewise linear (CPwL) functions, the classical ``Raviart-Thomas element'', and the ``N\'{e}d\'{e}lec edge element''. For all but the CPwL case, our network architectures employ both ReLU (rectified linear unit) and BiSU (binary step unit) activations to capture discontinuities. In the important case of CPwL functions, we prove that it suffices to work with pure ReLU nets. Our construction and DNN architecture generalizes previous results in that no geometric restrictions on the regular simplicial partitions $\mathcal{T}$ of $\Omega$ are required for DNN emulation. In addition, for CPwL functions our DNN construction is valid in any dimension $d\geq 2$. Our ``FE-Nets'' are required in the variationally correct, structure-preserving approximation of boundary value problems of electromagnetism in nonconvex polyhedra $\Omega \subset \mathbb{R}^3$. They are thus an essential ingredient in the application of e.g., the methodology of ``physics-informed NNs'' or ``deep Ritz methods'' to electromagnetic field simulation via deep learning techniques. We indicate generalizations of our constructions to higher-order compatible spaces and other, non-compatible classes of discretizations, in particular the ``Crouzeix-Raviart'' elements and Hybridized, Higher Order (HHO) methods.
translated by 谷歌翻译
我们在无限尺寸空间之间构建深度操作网络(ONET),其以指数收敛率的指数到椭圆二阶PDE的系数到溶液映射率。特别是,我们考虑在$ -dimimension周期域中设置的问题,$ d = 1,2,\ dots $,以及分析右手边和系数。我们的分析包括扩散反应问题,参数扩散方程和椭圆体系,例如异质材料的线性各向同性插座。我们利用了解决方案是分析的边值问题的谱串联方法的指数趋同。在本周期性和分析环境中,这是经典椭圆规则的。在[陈和陈,1993]和[Lu等人,2021]的oneet分支和主干构建中,我们展示了深度one的存在,它模拟了溶液映射为精确度$ \ varepsilon> 0 $在$ h ^ 1 $ norm,均匀地通过系数集。我们证明了在某些$ \ kappa> 0 $的oneet中的神经网络具有尺寸$ \ mathcal {o}(\ log | \ log(\ varepsilon)\ reval | ^ \ kappa),具体取决于物理空间维度。
translated by 谷歌翻译
Many applications, such as system identification, classification of time series, direct and inverse problems in partial differential equations, and uncertainty quantification lead to the question of approximation of a non-linear operator between metric spaces $\mathfrak{X}$ and $\mathfrak{Y}$. We study the problem of determining the degree of approximation of such operators on a compact subset $K_\mathfrak{X}\subset \mathfrak{X}$ using a finite amount of information. If $\mathcal{F}: K_\mathfrak{X}\to K_\mathfrak{Y}$, a well established strategy to approximate $\mathcal{F}(F)$ for some $F\in K_\mathfrak{X}$ is to encode $F$ (respectively, $\mathcal{F}(F)$) in terms of a finite number $d$ (repectively $m$) of real numbers. Together with appropriate reconstruction algorithms (decoders), the problem reduces to the approximation of $m$ functions on a compact subset of a high dimensional Euclidean space $\mathbb{R}^d$, equivalently, the unit sphere $\mathbb{S}^d$ embedded in $\mathbb{R}^{d+1}$. The problem is challenging because $d$, $m$, as well as the complexity of the approximation on $\mathbb{S}^d$ are all large, and it is necessary to estimate the accuracy keeping track of the inter-dependence of all the approximations involved. In this paper, we establish constructive methods to do this efficiently; i.e., with the constants involved in the estimates on the approximation on $\mathbb{S}^d$ being $\mathcal{O}(d^{1/6})$. We study different smoothness classes for the operators, and also propose a method for approximation of $\mathcal{F}(F)$ using only information in a small neighborhood of $F$, resulting in an effective reduction in the number of parameters involved.
translated by 谷歌翻译
其中的许多神经网络能够复制复杂的任务或功能的原因之一是其普遍性财产。在过去的几十年里已经在提供单一或类神经网络的构造性证明见过很多尝试。本文是为了提供一大类,包括激活现有的大多数激活和超越的普遍性统一的和建设性的框架。在框架的心脏是神经网络近似标识的概念。事实证明,大多数现有的激活是神经网络近似的标志,因此在连续的函数对致密的空间普遍。该框架诱导几个优点。首先,它是建设性与功能分析,概率论,和数值分析的基本手段。其次,它是第一个统一的尝试,其有效期为大多数现有的激活。第三,作为一个以产品,该框架提供了一些现有的激活功能,包括米什司炉ELU,格鲁,等四的第一所大学证明,它发现带有普遍性的保证财产新的激活。事实上,任何活化\ textemdash其$ \ķ$阶导数,以$ \ķ$为整数,是积并且基本上界定\ textemdash是普遍的。第五,对于给定的激活和容错,框架精确地提供了具有预定数量的神经元,和重量/偏差的值中对应的一个隐藏神经网络的体系结构。
translated by 谷歌翻译
我们为特殊神经网络架构,称为运营商复发性神经网络的理论分析,用于近似非线性函数,其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量,因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此,我们介绍一个类似标准的神经网络架构的新系列,但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析,我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后,我们研究其表示属性以及其近似属性。我们还表明,可以引入明确的正则化,其可以从所述逆问题的数学分析导出,并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后,我们讨论如何将运营商复发网络视为深度学习模拟,以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。
translated by 谷歌翻译
本文通过引入几何深度学习(GDL)框架来构建通用馈电型型模型与可区分的流形几何形状兼容的通用馈电型模型,从而解决了对非欧国人数据进行处理的需求。我们表明,我们的GDL模型可以在受控最大直径的紧凑型组上均匀地近似任何连续目标函数。我们在近似GDL模型的深度上获得了最大直径和上限的曲率依赖性下限。相反,我们发现任何两个非分类紧凑型歧管之间始终都有连续的函数,任何“局部定义”的GDL模型都不能均匀地近似。我们的最后一个主要结果确定了数据依赖性条件,确保实施我们近似的GDL模型破坏了“维度的诅咒”。我们发现,任何“现实世界”(即有限)数据集始终满足我们的状况,相反,如果目标函数平滑,则任何数据集都满足我们的要求。作为应用,我们确认了以下GDL模型的通用近似功能:Ganea等。 (2018)的双波利馈电网络,实施Krishnan等人的体系结构。 (2015年)的深卡尔曼 - 滤波器和深度玛克斯分类器。我们构建了:Meyer等人的SPD-Matrix回归剂的通用扩展/变体。 (2011)和Fletcher(2003)的Procrustean回归剂。在欧几里得的环境中,我们的结果暗示了Kidger和Lyons(2020)的近似定理和Yarotsky和Zhevnerchuk(2019)无估计近似率的数据依赖性版本的定量版本。
translated by 谷歌翻译
我们因与Relu神经网络的参数双曲标量保护定律的近似值所产生的误差得出了严格的界限。我们表明,通过克服维度诅咒的relu神经网络,可以使近似误差尽可能小。此外,我们在训练误差,训练样本数量和神经网络大小方面提供了明确的上限。理论结果通过数值实验说明。
translated by 谷歌翻译
在本文中,我们研究了针对泊松方程的解决方案的概率和神经网络近似,但在$ \ mathbb {r}^d $的一般边界域中,较旧或$ c^2 $数据。我们的目标是两个基本目标。首先,也是最重要的是,我们证明了泊松方程的解决方案可以通过蒙特卡洛方法在sup-norm中进行数值近似,但基于球形算法的步行略有变化。这提供了相对于相对于相对于相对于有效的估计值规定的近似误差且没有维度的诅咒。此外,样品的总数不取决于执行近似的点。作为第二个目标,我们表明获得的蒙特卡洛求解器renders relu relu深层神经网络(DNN)解决泊松问题的解决方案,其大小在尺寸$ d $以及所需的错误中大多数取决于多项式。和低多项式复杂性。
translated by 谷歌翻译
本文涉及使用多项式的有限样品的平滑,高维函数的近似。这项任务是计算科学和工程中许多应用的核心 - 尤其是由参数建模和不确定性量化引起的。通常在此类应用中使用蒙特卡洛(MC)采样,以免屈服于维度的诅咒。但是,众所周知,这种策略在理论上是最佳的。尺寸$ n $有许多多项式空间,样品复杂度尺度划分为$ n $。这种有据可查的现象导致了一致的努力,以设计改进的,实际上是近乎最佳的策略,其样本复杂性是线性的,甚至线性地缩小了$ n $。自相矛盾的是,在这项工作中,我们表明MC实际上是高维度中的一个非常好的策略。我们首先通过几个数值示例记录了这种现象。接下来,我们提出一个理论分析,该分析能够解决这种悖论,以实现无限多变量的全体形态功能。我们表明,基于$ M $ MC样本的最小二乘方案,其错误衰减为$ m/\ log(m)$,其速率与最佳$ n $ term的速率相同多项式近似。该结果是非构造性的,因为它假定了进行近似的合适多项式空间的知识。接下来,我们提出了一个基于压缩感应的方案,该方案达到了相同的速率,除了较大的聚类因子。该方案是实用的,并且在数值上,它的性能和比知名的自适应最小二乘方案的性能和更好。总体而言,我们的发现表明,当尺寸足够高时,MC采样非常适合平滑功能近似。因此,改进的采样策略的好处通常仅限于较低维度的设置。
translated by 谷歌翻译
神经操作员是科学机器学习中一种流行的技术,可以从数据中学习未知物理系统行为的数学模型。当数值求解器不可用或对基础物理学的理解不佳时,神经运算符对于学习与局部微分方程(PDE)相关的解决方案运算符特别有用。在这项工作中,我们试图提供理论基础,以了解学习时间依赖性PDE所需的培训数据量。从任何空间尺寸$ n \ geq 1 $中的抛物线PDE中给定输入输出对,我们得出了学习相关解决方案运算符的第一个理论上严格的方案,该方案采取了带有绿色功能$ g $的卷积的形式。到目前为止,严格学习与时间相关PDE相关的Green的功能一直是科学机器学习领域的主要挑战。通过将$ g $的层次低级结构与随机数字线性代数结合在一起,我们构建了$ g $的近似值,该$ g $实现了$ \ smash {\ smash {\ smashcal {\ mathcal {o}(\ gamma_ \ epsilon^epsilon^{ - 1/2} \ epsilon)}} $在$ l^1 $ -NORM中具有高概率,最多可以使用$ \ smash {\ MathCal {\ Mathcal {o}(\ Epsilon^{ - \ frac {n+2} {2} {2} {2} {2} {2} {2} } \ log(1/\ epsilon))}} $输入输出培训对,其中$ \ gamma_ \ epsilon $是衡量学习$ g $的培训数据集质量的量度,而$ \ epsilon> 0 $就足够了小的。
translated by 谷歌翻译
我们研究了使用前馈神经网络实施其支持集的同时近似紧凑型积分功能的问题。我们的第一个主要结果将这个“结构化”近似问题转录为普遍性问题。我们通过在空间上构建通常的拓扑结构来做到这一点,$ l^1 _ {\ propatatorName {loc}}(\ m athbb {r}^d,\ m athbb {r}^d)locally-intellable-intellable-intellable-intellable-intellable-in紧凑型函数只能通过具有匹配的离散支持的函数来近似于$ l^1 $ norm。我们建立了Relu Feedforwward网络的普遍性,并在此精致拓扑结构中具有双线性池层。因此,我们发现具有双线性池的Relu FeedForward网络可以在实施其离散支持的同时近似紧凑的功能。我们在紧凑型Lipschitz函数的致密亚类中得出了通用近似定理的定量均匀版本。该定量结果表达了通过目标函数的规律性,其基本支持的度量和直径以及输入和输出空间的尺寸来构建此relu网络所需的双线性池层层的深度,宽度和数量。相反,我们表明多项式回归器和分析前馈网络在该空间中并非通用。
translated by 谷歌翻译
我们研究神经网络表达能力的基本限制。给定两组$ f $,$ g $的实值函数,我们首先证明了$ f $中的功能的一般下限,可以在$ l^p(\ mu)$ norm中通过$ g中的功能近似$,对于任何$ p \ geq 1 $和任何概率度量$ \ mu $。下限取决于$ f $的包装数,$ f $的范围以及$ g $的脂肪震动尺寸。然后,我们实例化了$ g $对应于分段的馈电神经网络的情况,并详细描述了两组$ f $:h {\“ o} lder balls和多变量单调函数。除了匹配(已知或新的)上限与日志因素外,我们的下限还阐明了$ l^p $ Norm或SUP Norm中近似之间的相似性或差异,解决了Devore等人的开放问题(2021年))。我们的证明策略与SUP Norm案例不同,并使用了Mendelson(2002)的关键概率结果。
translated by 谷歌翻译
实施深层神经网络来学习参数部分微分方程(PDE)的解决方案图比使用许多常规数值方法更有效。但是,对这种方法进行了有限的理论分析。在这项研究中,我们研究了深层二次单元(requ)神经网络的表达能力,以近似参数PDE的溶液图。拟议的方法是由G. Kutyniok,P。Petersen,M。Raslan和R. Schneider(Gitta Kutyniok,Philipp Petersen,Mones Raslan和Reinhold Schneider。深层神经网络和参数PDES的理论分析)的最新重要工作激励的。 。建设性近似,第1-53、2021页,该第1-53、2021页,它使用深层的线性单元(relu)神经网络来求解参数PDE。与先前建立的复杂性$ \ MATHCAL {O} \ left(d^3 \ log_ {2}}^{q}(1/ \ epsilon)\ right)$用于relu神经网络,我们得出了上限的上限$ \ MATHCAL {o} \ left(d^3 \ log_ {2}^{q} \ log_ {2}(1/ \ epsilon)\ right)$)$ right Requ Neural网络的大小,以实现精度$ \ epsilon> 0 $,其中$ d $是代表解决方案的减少基础的维度。我们的方法充分利用了解决方案歧管的固有低维度和深层reque neural网络的更好近似性能。进行数值实验以验证我们的理论结果。
translated by 谷歌翻译
这项调查的目的是介绍对深神经网络的近似特性的解释性回顾。具体而言,我们旨在了解深神经网络如何以及为什么要优于其他经典线性和非线性近似方法。这项调查包括三章。在第1章中,我们回顾了深层网络及其组成非线性结构的关键思想和概念。我们通过在解决回归和分类问题时将其作为优化问题来形式化神经网络问题。我们简要讨论用于解决优化问题的随机梯度下降算法以及用于解决优化问题的后传播公式,并解决了与神经网络性能相关的一些问题,包括选择激活功能,成本功能,过度适应问题和正则化。在第2章中,我们将重点转移到神经网络的近似理论上。我们首先介绍多项式近似中的密度概念,尤其是研究实现连续函数的Stone-WeierStrass定理。然后,在线性近似的框架内,我们回顾了馈电网络的密度和收敛速率的一些经典结果,然后在近似Sobolev函数中进行有关深网络复杂性的最新发展。在第3章中,利用非线性近似理论,我们进一步详细介绍了深度和近似网络与其他经典非线性近似方法相比的近似优势。
translated by 谷歌翻译
无限尺寸空间之间的学习运营商是机器学习,成像科学,数学建模和仿真等广泛应用中出现的重要学习任务。本文研究了利用深神经网络的Lipschitz运营商的非参数估计。 Non-asymptotic upper bounds are derived for the generalization error of the empirical risk minimizer over a properly chosen network class.在假设目标操作员表现出低维结构的情况下,由于训练样本大小增加,我们的误差界限衰减,根据我们估计中的内在尺寸,具有吸引力的快速速度。我们的假设涵盖了实际应用中的大多数情况,我们的结果通过利用操作员估算中的低维结构来产生快速速率。我们还研究了网络结构(例如,网络宽度,深度和稀疏性)对神经网络估计器的泛化误差的影响,并提出了对网络结构的选择来定量地最大化学习效率的一般建议。
translated by 谷歌翻译
We generalize the classical universal approximation theorem for neural networks to the case of complex-valued neural networks. Precisely, we consider feedforward networks with a complex activation function $\sigma : \mathbb{C} \to \mathbb{C}$ in which each neuron performs the operation $\mathbb{C}^N \to \mathbb{C}, z \mapsto \sigma(b + w^T z)$ with weights $w \in \mathbb{C}^N$ and a bias $b \in \mathbb{C}$, and with $\sigma$ applied componentwise. We completely characterize those activation functions $\sigma$ for which the associated complex networks have the universal approximation property, meaning that they can uniformly approximate any continuous function on any compact subset of $\mathbb{C}^d$ arbitrarily well. Unlike the classical case of real networks, the set of "good activation functions" which give rise to networks with the universal approximation property differs significantly depending on whether one considers deep networks or shallow networks: For deep networks with at least two hidden layers, the universal approximation property holds as long as $\sigma$ is neither a polynomial, a holomorphic function, or an antiholomorphic function. Shallow networks, on the other hand, are universal if and only if the real part or the imaginary part of $\sigma$ is not a polyharmonic function.
translated by 谷歌翻译
深度分离结果提出了对深度神经网络过较浅的架构的好处的理论解释,建立前者具有卓越的近似能力。然而,没有已知的结果,其中更深的架构利用这种优势成为可提供的优化保证。我们证明,当数据由具有满足某些温和假设的径向对称的分布产生的数据时,梯度下降可以使用具有两层S形激活的深度2神经网络有效地学习球指示器功能,并且隐藏层固定在一起训练。由于众所周知,当使用用单层非线性的深度2网络(Safran和Shamir,2017)使用深度2网络时,球指示器难以近似于一定的重型分配,这建立了我们最好的知识,基于第一优化的分离结果,其中近似架构的近似效益在实践中可怕的。我们的证明技术依赖于随机特征方法,该方法减少了用单个神经元学习的问题,其中新工具需要在数据分布重尾时显示梯度下降的收敛。
translated by 谷歌翻译
众所周知,进食前馈神经网络的学习速度很慢,并且在深度学习应用中呈现了几十年的瓶颈。例如,广泛用于训练神经网络的基于梯度的学习算法在所有网络参数都必须迭代调整时往往会缓慢起作用。为了解决这个问题,研究人员和从业人员都尝试引入随机性来减少学习要求。基于Igelnik和Pao的原始结构,具有随机输入层的重量和偏见的单层神经网络在实践中取得了成功,但是缺乏必要的理论理由。在本文中,我们开始填补这一理论差距。我们提供了一个(校正的)严格证明,即Igelnik和PAO结构是连续函数在紧凑型域上连续函数的通用近似值,并且近似错误渐近地衰减,例如$ o(1/\ sqrt {n})网络节点。然后,我们将此结果扩展到非反应设置,证明人们可以在$ n $的情况下实现任何理想的近似误差,而概率很大。我们进一步调整了这种随机神经网络结构,以近似欧几里得空间的平滑,紧凑的亚曼叶量的功能,从而在渐近和非催化形式的理论保证中提供了理论保证。最后,我们通过数值实验说明了我们在歧管上的结果。
translated by 谷歌翻译