我们在无限尺寸空间之间构建深度操作网络(ONET),其以指数收敛率的指数到椭圆二阶PDE的系数到溶液映射率。特别是,我们考虑在$ -dimimension周期域中设置的问题,$ d = 1,2,\ dots $,以及分析右手边和系数。我们的分析包括扩散反应问题,参数扩散方程和椭圆体系,例如异质材料的线性各向同性插座。我们利用了解决方案是分析的边值问题的谱串联方法的指数趋同。在本周期性和分析环境中,这是经典椭圆规则的。在[陈和陈,1993]和[Lu等人,2021]的oneet分支和主干构建中,我们展示了深度one的存在,它模拟了溶液映射为精确度$ \ varepsilon> 0 $在$ h ^ 1 $ norm,均匀地通过系数集。我们证明了在某些$ \ kappa> 0 $的oneet中的神经网络具有尺寸$ \ mathcal {o}(\ log | \ log(\ varepsilon)\ reval | ^ \ kappa),具体取决于物理空间维度。
translated by 谷歌翻译
实施深层神经网络来学习参数部分微分方程(PDE)的解决方案图比使用许多常规数值方法更有效。但是,对这种方法进行了有限的理论分析。在这项研究中,我们研究了深层二次单元(requ)神经网络的表达能力,以近似参数PDE的溶液图。拟议的方法是由G. Kutyniok,P。Petersen,M。Raslan和R. Schneider(Gitta Kutyniok,Philipp Petersen,Mones Raslan和Reinhold Schneider。深层神经网络和参数PDES的理论分析)的最新重要工作激励的。 。建设性近似,第1-53、2021页,该第1-53、2021页,它使用深层的线性单元(relu)神经网络来求解参数PDE。与先前建立的复杂性$ \ MATHCAL {O} \ left(d^3 \ log_ {2}}^{q}(1/ \ epsilon)\ right)$用于relu神经网络,我们得出了上限的上限$ \ MATHCAL {o} \ left(d^3 \ log_ {2}^{q} \ log_ {2}(1/ \ epsilon)\ right)$)$ right Requ Neural网络的大小,以实现精度$ \ epsilon> 0 $,其中$ d $是代表解决方案的减少基础的维度。我们的方法充分利用了解决方案歧管的固有低维度和深层reque neural网络的更好近似性能。进行数值实验以验证我们的理论结果。
translated by 谷歌翻译
对于人造深神经网络,我们证明了分析函数的表达率$ f:\ mathbb {r} ^ d \ to \ mathbb {r} $中的$ l ^ 2(\ mathbb {r} ^ d,\ gamma_d )$ down $ d \ in {\ mathbb {n}} \ cup \ {\ idty \} $。 $ \ gamma_d $ denot $ \ mathbb {r} ^ d $的高斯产品概率测量。我们特别考虑relu和relu $ {} ^ $ y ^ $ yrucations for Integer $ k \ geq 2 $。对于$ d \ in \ mathbb {n} $,我们显示了$ l ^ 2(\ mathbb {r} ^ d,\ gamma_d)$的指数融合率。在$ d = \ infty $,在$ f:\ mathbb {r} ^ {\ mathbb {r}} \ to \ mathbb {r} $的适当平滑和稀疏假设下,用$ \ gamma_ \ idty $表示$ \ mathbb {r} ^ {\ mathbb {n}} $的无限(高斯)产品测量值,我们证明了$ l ^ 2(\ mathbb {r} ^ {\ mathbb { n}},\ gamma_ \ idty)$。该速率仅取决于(分析延续)的量化全阵列(分析延续)地图$ f $到$ \ mathbb {c} ^ d $中的条带产品。作为应用程序,我们将深度Relu-NNS的表达率界限进行了椭圆PDE的响应曲面与Log-Gaussian随机场输入。
translated by 谷歌翻译
分析了无限维函数空间之间地图的深层替代物的近似速率,例如作为线性和非线性偏微分方程的数据到解决图。具体而言,我们研究了深神经操作员和广义多项式混乱(GPC)操作员的近似速率,用于无线性,可分开的希尔伯特空间之间的非线性,全态图。假定功能空间的运算符和输出通过稳定的仿射表示系统进行参数化。可接受的表示系统包括正常基础,RIESZ底座或所考虑的空间的合适的紧密框架。建立了代数表达速率界限,为具有有限的Sobolev或BESOV规律性的范围内的深层神经和GPC操作员替代物都作用于可分离的Hilbert空间和拟合图表的范围。我们通过表达速率界限来说明抽象速率界限的系数到测序图,用于圆环上线性椭圆形PDE。
translated by 谷歌翻译
Many applications, such as system identification, classification of time series, direct and inverse problems in partial differential equations, and uncertainty quantification lead to the question of approximation of a non-linear operator between metric spaces $\mathfrak{X}$ and $\mathfrak{Y}$. We study the problem of determining the degree of approximation of such operators on a compact subset $K_\mathfrak{X}\subset \mathfrak{X}$ using a finite amount of information. If $\mathcal{F}: K_\mathfrak{X}\to K_\mathfrak{Y}$, a well established strategy to approximate $\mathcal{F}(F)$ for some $F\in K_\mathfrak{X}$ is to encode $F$ (respectively, $\mathcal{F}(F)$) in terms of a finite number $d$ (repectively $m$) of real numbers. Together with appropriate reconstruction algorithms (decoders), the problem reduces to the approximation of $m$ functions on a compact subset of a high dimensional Euclidean space $\mathbb{R}^d$, equivalently, the unit sphere $\mathbb{S}^d$ embedded in $\mathbb{R}^{d+1}$. The problem is challenging because $d$, $m$, as well as the complexity of the approximation on $\mathbb{S}^d$ are all large, and it is necessary to estimate the accuracy keeping track of the inter-dependence of all the approximations involved. In this paper, we establish constructive methods to do this efficiently; i.e., with the constants involved in the estimates on the approximation on $\mathbb{S}^d$ being $\mathcal{O}(d^{1/6})$. We study different smoothness classes for the operators, and also propose a method for approximation of $\mathcal{F}(F)$ using only information in a small neighborhood of $F$, resulting in an effective reduction in the number of parameters involved.
translated by 谷歌翻译
我们为特殊神经网络架构,称为运营商复发性神经网络的理论分析,用于近似非线性函数,其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量,因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此,我们介绍一个类似标准的神经网络架构的新系列,但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析,我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后,我们研究其表示属性以及其近似属性。我们还表明,可以引入明确的正则化,其可以从所述逆问题的数学分析导出,并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后,我们讨论如何将运营商复发网络视为深度学习模拟,以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。
translated by 谷歌翻译
On general regular simplicial partitions $\mathcal{T}$ of bounded polytopal domains $\Omega \subset \mathbb{R}^d$, $d\in\{2,3\}$, we construct \emph{exact neural network (NN) emulations} of all lowest order finite element spaces in the discrete de Rham complex. These include the spaces of piecewise constant functions, continuous piecewise linear (CPwL) functions, the classical ``Raviart-Thomas element'', and the ``N\'{e}d\'{e}lec edge element''. For all but the CPwL case, our network architectures employ both ReLU (rectified linear unit) and BiSU (binary step unit) activations to capture discontinuities. In the important case of CPwL functions, we prove that it suffices to work with pure ReLU nets. Our construction and DNN architecture generalizes previous results in that no geometric restrictions on the regular simplicial partitions $\mathcal{T}$ of $\Omega$ are required for DNN emulation. In addition, for CPwL functions our DNN construction is valid in any dimension $d\geq 2$. Our ``FE-Nets'' are required in the variationally correct, structure-preserving approximation of boundary value problems of electromagnetism in nonconvex polyhedra $\Omega \subset \mathbb{R}^3$. They are thus an essential ingredient in the application of e.g., the methodology of ``physics-informed NNs'' or ``deep Ritz methods'' to electromagnetic field simulation via deep learning techniques. We indicate generalizations of our constructions to higher-order compatible spaces and other, non-compatible classes of discretizations, in particular the ``Crouzeix-Raviart'' elements and Hybridized, Higher Order (HHO) methods.
translated by 谷歌翻译
我们建立了对椭圆形问题的误差对空间中的椭圆状况的误差,以及不同的边界条件。对于Dirichlet边界条件,我们在通过边界损失方法中大致强制强制执行边界值时估计错误。我们的结果适用于任意和一般非线性类$ v \ subseteq h ^ 1(\ omega)$的ansatz函数,并估算依赖优化精度,ansatz类的近似能力和 - 在案例中Dirichlet边界值 - 惩罚强度$ \ lambda $。对于非基本边界条件,RITZ方法的误差与ansatz类的近似率相同的速率。对于基本边界条件,鉴于$ H ^ 1(\ OMEGA)$的近似率和$ l ^ 2(\ partial \ omega)$的$ l ^ 2(\ partial \ omega)$的近似率,最佳衰减率的估计错误是$ \ min(s / 2,r)$,通过选择$ \ lambda_n \ sim n ^ {s} $来实现。我们讨论了通过Relu网络给出的Ansatz类的影响以及与有限元函数的现有估计的关系。
translated by 谷歌翻译
无限尺寸空间之间的学习运营商是机器学习,成像科学,数学建模和仿真等广泛应用中出现的重要学习任务。本文研究了利用深神经网络的Lipschitz运营商的非参数估计。 Non-asymptotic upper bounds are derived for the generalization error of the empirical risk minimizer over a properly chosen network class.在假设目标操作员表现出低维结构的情况下,由于训练样本大小增加,我们的误差界限衰减,根据我们估计中的内在尺寸,具有吸引力的快速速度。我们的假设涵盖了实际应用中的大多数情况,我们的结果通过利用操作员估算中的低维结构来产生快速速率。我们还研究了网络结构(例如,网络宽度,深度和稀疏性)对神经网络估计器的泛化误差的影响,并提出了对网络结构的选择来定量地最大化学习效率的一般建议。
translated by 谷歌翻译
在本文中,我们将Wiener-Ito混乱分解扩展到扩散过程的类别,其漂移和扩散系数具有线性生长。通过省略混乱扩展中的正交性,我们能够证明,对于[1,\ infty)$中的$ p \ in [1,\ infty)$的每个$ p $积分功能都可以表示为基础过程的迭代积分的总和。使用此扩展的截断和(可能是随机的)神经网络的截断总和,在机器学习设置中学习了参数,我们证明,每个财务衍生物都可以在$ l^p $ sense中任意地近似。此外,可以以封闭形式计算近似财务导数的对冲策略。
translated by 谷歌翻译
现代神经网络通常以强烈的过度构造状态运行:它们包含许多参数,即使实际标签被纯粹随机的标签代替,它们也可以插入训练集。尽管如此,他们在看不见的数据上达到了良好的预测错误:插值训练集并不会导致巨大的概括错误。此外,过度散色化似乎是有益的,因为它简化了优化景观。在这里,我们在神经切线(NT)制度中的两层神经网络的背景下研究这些现象。我们考虑了一个简单的数据模型,以及各向同性协变量的矢量,$ d $尺寸和$ n $隐藏的神经元。我们假设样本量$ n $和尺寸$ d $都很大,并且它们在多项式上相关。我们的第一个主要结果是对过份术的经验NT内核的特征结构的特征。这种表征意味着必然的表明,经验NT内核的最低特征值在$ ND \ gg n $后立即从零界限,因此网络可以在同一制度中精确插值任意标签。我们的第二个主要结果是对NT Ridge回归的概括误差的表征,包括特殊情况,最小值-ULL_2 $ NORD插值。我们证明,一旦$ nd \ gg n $,测试误差就会被内核岭回归之一相对于无限宽度内核而近似。多项式脊回归的误差依次近似后者,从而通过与激活函数的高度组件相关的“自我诱导的”项增加了正则化参数。多项式程度取决于样本量和尺寸(尤其是$ \ log n/\ log d $)。
translated by 谷歌翻译
基于神经网络的高维部分微分方程(PDE)的数值解具有令人兴奋的发展。本文推出了Barron空间中$ -dimimensional二阶椭圆PDE的解决方案的复杂性估计,这是一组函数,即承认某些参数脊函数的积分与参数上的概率测量。我们证明在一些适当的假设中,如果椭圆PDE的系数和源期限位于Barron空间中,则PDE的解决方案是$ \ epsilon $ -close关于$ h ^ 1 $ norm到Barron功能。此外,我们证明了这种近似解决方案的Barron标准的维度显式范围,这取决于大多数多项式在PDE的维度$ D $上。作为复杂性估计的直接后果,通过双层神经网络,PDE的解决方案可以通过双层神经网络在任何有界面的神经网络上近似于尺寸显式收敛速度的$ H ^ 1 $常态。
translated by 谷歌翻译
最近的一项工作已经通过神经切线核(NTK)分析了深神经网络的理论特性。特别是,NTK的最小特征值与记忆能力,梯度下降算法的全球收敛性和深网的概括有关。但是,现有结果要么在两层设置中提供边界,要么假设对于多层网络,将NTK矩阵的频谱从0界限为界限。在本文中,我们在无限宽度和有限宽度的限制情况下,在最小的ntk矩阵的最小特征值上提供了紧密的界限。在有限宽度的设置中,我们认为的网络体系结构相当笼统:我们需要大致订购$ n $神经元的宽层,$ n $是数据示例的数量;剩余层宽度的缩放是任意的(取决于对数因素)。为了获得我们的结果,我们分析了各种量的独立兴趣:我们对隐藏特征矩阵的最小奇异值以及输入输出特征图的Lipschitz常数上的上限给出了下限。
translated by 谷歌翻译
Artificial neural networks are functions depending on a finite number of parameters typically encoded as weights and biases. The identification of the parameters of the network from finite samples of input-output pairs is often referred to as the \emph{teacher-student model}, and this model has represented a popular framework for understanding training and generalization. Even if the problem is NP-complete in the worst case, a rapidly growing literature -- after adding suitable distributional assumptions -- has established finite sample identification of two-layer networks with a number of neurons $m=\mathcal O(D)$, $D$ being the input dimension. For the range $D<m<D^2$ the problem becomes harder, and truly little is known for networks parametrized by biases as well. This paper fills the gap by providing constructive methods and theoretical guarantees of finite sample identification for such wider shallow networks with biases. Our approach is based on a two-step pipeline: first, we recover the direction of the weights, by exploiting second order information; next, we identify the signs by suitable algebraic evaluations, and we recover the biases by empirical risk minimization via gradient descent. Numerical results demonstrate the effectiveness of our approach.
translated by 谷歌翻译
我们因与Relu神经网络的参数双曲标量保护定律的近似值所产生的误差得出了严格的界限。我们表明,通过克服维度诅咒的relu神经网络,可以使近似误差尽可能小。此外,我们在训练误差,训练样本数量和神经网络大小方面提供了明确的上限。理论结果通过数值实验说明。
translated by 谷歌翻译
本文提出了一个无网格的计算框架和机器学习理论,用于在未知的歧管上求解椭圆形PDE,并根据扩散地图(DM)和深度学习确定点云。 PDE求解器是作为监督的学习任务制定的,以解决最小二乘回归问题,该问题施加了近似PDE的代数方程(如果适用)。该代数方程涉及通过DM渐近扩展获得的图形拉平型矩阵,该基质是二阶椭圆差差算子的一致估计器。最终的数值方法是解决受神经网络假设空间解决方案的高度非凸经验最小化问题。在体积良好的椭圆PDE设置中,当假设空间由具有无限宽度或深度的神经网络组成时,我们表明,经验损失函数的全球最小化器是大型训练数据极限的一致解决方案。当假设空间是一个两层神经网络时,我们表明,对于足够大的宽度,梯度下降可以识别经验损失函数的全局最小化器。支持数值示例证明了解决方案的收敛性,范围从具有低和高共限度的简单歧管到具有和没有边界的粗糙表面。我们还表明,所提出的NN求解器可以在具有概括性误差的新数据点上稳健地概括PDE解决方案,这些误差几乎与训练错误相同,从而取代了基于Nystrom的插值方法。
translated by 谷歌翻译
This paper investigates the approximation properties of deep neural networks with piecewise-polynomial activation functions. We derive the required depth, width, and sparsity of a deep neural network to approximate any H\"{o}lder smooth function up to a given approximation error in H\"{o}lder norms in such a way that all weights of this neural network are bounded by $1$. The latter feature is essential to control generalization errors in many statistical and machine learning applications.
translated by 谷歌翻译
考虑基于相同的输入变量的同时学习大量响应函数的问题。训练数据包括从共同分布绘制的输入变量的单个独立随机样本以及相关的响应。将输入变量映射到称为特征空间的高维线性空间,并且响应函数被建模为映射特征的线性功能,通过普通最小二乘校准系数。我们通过在响应函数均匀地控制过度风险的收敛速度来提供最坏情况过度预测风险的收敛保证。允许特征图的尺寸倾向于与样本大小无穷大。响应功能的集合虽然可能是无限的,但应该具有有限的VAPNIK-Chervonenkis维度。在合理的计算时间内构建多个代理模型时,可以应用所派生的界限。
translated by 谷歌翻译
找到模型概率密度的好方法是概率推断的关键。理想的模型应该能够简单地近似于概率,同时也与两个主要操作兼容:两个模型(产品规则)的乘法和相对于随机变量的子集(SUM规则)的边缘化。在这项工作中,我们表明最近提出的非负函数的正半明确(PSD)模型特别适用于此。特别是,我们表征了PSD模型的近似和泛化能力,显示它们享有强烈的理论保证。此外,我们表明我们可以通过矩阵操作以封闭形式的封闭形式有效地执行和产品规则,享受混合模型的相同多功能性。我们的结果为PSD模型应用于密度估计,决策理论和推理的方式开辟了途径。
translated by 谷歌翻译
神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括,以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似,使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外,我们介绍了四类运算符参数化:基于图形的运算符,低秩运算符,基于多极图形的运算符和傅里叶运算符,并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的:它们在底层函数空间的不同离散化之间共享相同的网络参数,并且可以用于零击超分辨率。在数值上,与现有的基于机器学习的方法,达西流程和Navier-Stokes方程相比,所提出的模型显示出卓越的性能,而与传统的PDE求解器相比,与现有的基于机器学习的方法有关的基于机器学习的方法。
translated by 谷歌翻译