在科学文献中,这是一个基本事实,即FeedForward完全连接的整流线性单元(relu)人工神经网络(ANN)的Lipschitz规范可以通过上面的总和来限制乘法常数ANN参数矢量规范的幂。粗略地说,在这项工作中,我们揭示了浅不会的,即交谈不平等也是正确的。更正式地,我们证明具有相同实现函数的ANN参数向量的等价类别的规范是由上面的乘法常数,该常数是由ANN实现函数的Lipschitz Norm的幂等(指数) $ 1/2 $和$ 1 $)。此外,我们证明,这种上限仅在使用Lipschitz Norm时才能存在,但既不适用于“较旧的规范,也不适合Sobolev-slobodeckij规范。此外,我们证明,这种上限仅适用于Lipschitz Norm of Lipschitz Norm的力量指数$ 1/2 $和$ 1 $,但仅凭Lipschitz Norm就不满意。
translated by 谷歌翻译
在本文中,我们通过任意大量的隐藏层研究了全连接的前馈深度Relu Ann,我们证明了在假设不正常化的概率密度函数下,在训练中具有随机初始化的GD优化方法的风险的融合在考虑的监督学习问题的输入数据的概率分布是分段多项式,假设目标函数(描述输入数据与输出数据之间的关系)是分段多项式,并且在假设风险函数下被认为的监督学习问题至少承认至少一个常规全球最低限度。此外,在浅句的特殊情况下只有一个隐藏的层和一维输入,我们还通过证明对每个LipsChitz连续目标功能的培训来验证这种假设,风险景观中存在全球最小值。最后,在具有Relu激活的深度广域的训练中,我们还研究梯度流(GF)差分方程的解决方案,并且我们证明每个非发散的GF轨迹会聚在临界点的多项式收敛速率(在限制意义上FR \'ECHET子提让性)。我们的数学融合分析造成了来自真实代数几何的工具,例如半代数函数和广义Kurdyka-Lojasiewicz不等式,从功能分析(如Arzel \)Ascoli定理等工具,在来自非本地结构的工具中作为限制FR \'echet子分子的概念,以及具有固定架构的浅印刷ANN的实现功能的事实形成由Petersen等人显示的连续功能集的封闭子集。
translated by 谷歌翻译
在许多数值模拟中,随机梯度下降(SGD)型优化方法在深度神经网络(DNN)的训练中非常有效地执行,但直到这一天,它仍然是研究的开放问题,以提供一个严格解释SGD成功的数学融合分析键入DNN训练中的优化方法。在这项工作中,我们研究了通过整流线性单元(Relu)激活的完全连接的前馈DNN训练中的SGD型优化方法。我们首先为风险函数建立一般规律性,并出现在此类DNN的培训中出现的广义梯度函数,并且在此后,我们调查普通的Vanilla SGD优化方法在此假设所考虑的目标功能是如此常量功能。具体而言,我们证明了假设学习速率(SGD优化方法的步骤尺寸)足够小但不是$ l ^ 1 $ -sumbable并且在假设目标函数是期望的常量函数下由于SGD步骤的数量增加到无穷大,所考虑的SGD进程的风险将这些DNN的训练收敛到零。
translated by 谷歌翻译
如今,对人工神经网络(ANN)的培训已成为科学和工业中许多应用的高度相关算法程序。粗略地说,可以将ANN视为仿射线性函数和某些固定非线性函数之间的迭代组成,这些函数通常是一维所谓的激活函数的多维版本。这样的一维激活函数的最流行选择是整流的线性单元(relu)激活函数,该功能将真实的数字映射到其正零件$ \ mathbb {r} \ ni x \ mapsto \ mapsto \ max \ x,x,0 \ {x,0 } \ in \ mathbb {r} $。在本文中,我们提出并分析了此类relu ANN的标准训练程序的修改变体,从某种意义上说,我们建议将负梯度流动动力学限制为ANN参数空间的大型子序列,这是一个严格的$ c^{{ \ infty} $ -SubManifold的整个ANN参数空间似乎比整个ANN参数空间都享有更好的规律性属性整个ANN参数空间。在只有一维ANN层的浅周围的特殊情况下,我们也为每个Lipschitz连续目标函数证明,ANN参数空间的大型子元中的每个梯度流轨迹都具有全球界限。对于具有Lipschitz连续目标函数的整个ANN参数空间上的标准梯度流,即使在仅具有一维ANN层的浅ANN的情况下,也是一个开放的研究问题,可以证明或反驳梯度流轨迹的全局界限。
translated by 谷歌翻译
最近在优化中应用了动力学系统理论,以证明梯度下降算法避免了所谓的损失函数的严格鞍点。但是,在许多现代机器学习应用中,不满足所需的规律条件。特别是,整流线性单元(RELU)网络就是这种情况。在本文中,我们证明了相关动力系统结果的变体,即中心稳定的歧管定理,其中我们放宽了一些规律性要求。然后,我们验证浅层relu网络适合新框架。在基于针对仿射目标功能测量的浅层relu网络的正方形积分损失的临界点的分类为基础,我们推断出梯度下降避免了大多数鞍点。如果初始化足够好,我们将继续证明与全球最小值的融合,这是由限制损失的明确阈值表示的。
translated by 谷歌翻译
我们研究了神经网络中平方损耗训练问题的优化景观和稳定性,但通用非线性圆锥近似方案。据证明,如果认为非线性圆锥近似方案是(以适当定义的意义)比经典线性近似方法更具表现力,并且如果存在不完美的标签向量,则在方位损耗的训练问题必须在其中不稳定感知其解决方案集在训练数据中的标签向量上不连续地取决于标签向量。我们进一步证明对这些不稳定属性负责的效果也是马鞍点出现的原因和杂散的局部最小值,这可能是从全球解决方案的任意遥远的,并且既不训练问题也不是训练问题的不稳定性通常,杂散局部最小值的存在可以通过向目标函数添加正则化术语来克服衡量近似方案中参数大小的目标函数。无论可实现的可实现性是否满足,后一种结果都被证明是正确的。我们表明,我们的分析特别适用于具有可变宽度的自由结插值方案和深层和浅层神经网络的培训问题,其涉及各种激活功能的任意混合(例如,二进制,六骨,Tanh,arctan,软标志, ISRU,Soft-Clip,SQNL,Relu,Lifley Relu,Soft-Plus,Bent Identity,Silu,Isrlu和ELU)。总之,本文的发现说明了神经网络和一般非线性圆锥近似仪器的改进近似特性以直接和可量化的方式与必须解决的优化问题的不期望的性质链接,以便训练它们。
translated by 谷歌翻译
显示了最佳的收敛速率,显示了对保守随机偏微分方程的平均场限制对解决方案解决方案解决方案解决方案的收敛。作为第二个主要结果,该SPDE的定量中心极限定理再次得出,并以最佳的收敛速率得出。该结果尤其适用于在过叠层化的,浅的神经网络中与SPDES溶液中随机梯度下降动力学的平均场缩放率的收敛性。结果表明,在限制SPDE中包含波动可以提高收敛速度,并保留有关随机梯度下降的波动的信息。
translated by 谷歌翻译
深度分离结果提出了对深度神经网络过较浅的架构的好处的理论解释,建立前者具有卓越的近似能力。然而,没有已知的结果,其中更深的架构利用这种优势成为可提供的优化保证。我们证明,当数据由具有满足某些温和假设的径向对称的分布产生的数据时,梯度下降可以使用具有两层S形激活的深度2神经网络有效地学习球指示器功能,并且隐藏层固定在一起训练。由于众所周知,当使用用单层非线性的深度2网络(Safran和Shamir,2017)使用深度2网络时,球指示器难以近似于一定的重型分配,这建立了我们最好的知识,基于第一优化的分离结果,其中近似架构的近似效益在实践中可怕的。我们的证明技术依赖于随机特征方法,该方法减少了用单个神经元学习的问题,其中新工具需要在数据分布重尾时显示梯度下降的收敛。
translated by 谷歌翻译
找到Reset中的参数的最佳配置是一个非凸显最小化问题,但一阶方法尽管如此,找到了过度分辨率制度的全局最优。通过将Reset的训练过程转化为梯度流部分微分方程(PDE)和检查该限制过程的收敛性能,我们研究了这种现象。假设激活函数为2美元 - 最佳或部分$ 1 $-homerence;正则Relu满足后一种条件。我们表明,如果Reset足够大,则深度和宽度根据代数上的准确性和置信水平,一阶优化方法可以找到适合培训数据的全局最小化器。
translated by 谷歌翻译
着名的工作系列(Barron,1993; Bresiman,1993; Klusowski&Barron,2018)提供了宽度$ N $的界限,所需的relu两层神经网络需要近似函数$ f $超过球。 \ mathcal {b} _r(\ mathbb {r} ^ d)$最终$ \ epsilon $,当傅立叶的数量$ c_f = \ frac {1} {(2 \ pi)^ {d / 2}} \ int _ {\ mathbb {r} ^ d} \ | \ xi \ | ^ 2 | \ hat {f}(\ xi)| \ d \ xi $是有限的。最近ongie等。 (2019)将Radon变换用作分析无限宽度Relu两层网络的工具。特别是,他们介绍了基于氡的$ \ mathcal {r} $ - norms的概念,并显示$ \ mathbb {r} ^ d $上定义的函数可以表示为无限宽度的双层神经网络如果只有在$ \ mathcal {r} $ - norm是有限的。在这项工作中,我们扩展了Ongie等人的框架。 (2019)并定义类似的基于氡的半规范($ \ mathcal {r},\ mathcal {r} $ - norms),使得函数承认在有界开放式$ \ mathcal上的无限宽度神经网络表示{ u} \ subseteq \ mathbb {r} ^ d $当它$ \ mathcal {r}时,\ mathcal {u} $ - norm是有限的。建立在这方面,我们派生稀疏(有限宽度)神经网络近似界,其优化Breiman(1993); Klusowski&Barron(2018)。最后,我们表明有限开放集的无限宽度神经网络表示不是唯一的,并研究其结构,提供模式连接的功能视图。
translated by 谷歌翻译
我们因与Relu神经网络的参数双曲标量保护定律的近似值所产生的误差得出了严格的界限。我们表明,通过克服维度诅咒的relu神经网络,可以使近似误差尽可能小。此外,我们在训练误差,训练样本数量和神经网络大小方面提供了明确的上限。理论结果通过数值实验说明。
translated by 谷歌翻译
在一个拟合训练数据的深度神经网络(NN)中找到参数是一个非渗透优化问题,但基本的一阶优化方法(梯度下降)在许多实际情况下,具有完美拟合(零损失)的全局优化器。我们在限制性制度中检查残留神经网络(Reset)的剩余神经网络(Reset)的情况的这种现象,其中每个层(宽度)的层数(深度)和权重的数量均转到无穷大。首先,我们使用平均场限制参数来证明参数训练的梯度下降成为概率分布的梯度流,其特征在于大NN限制中的部分微分方程(PDE)。接下来,我们表明,在某些假设下,PDE的解决方案在训练时间内收敛到零损失解决方案。这些结果表明,如果Reset足够大,则reset的培训给出了近零损失。我们给出了减少给定阈值以下低于给定阈值的损失所需的深度和宽度的估计值。
translated by 谷歌翻译
在这项工作中,我们通过整流电源单元激活功能导出浅神经网络的整体表示的公式。主要是,我们的第一件结果涉及REPU浅网络的非相似性表现能力。本文的多维结果表征了可以用有界规范和可能无界宽度表示的功能集。
translated by 谷歌翻译
在本文中,我们分析了用Relu,泄漏的Relu以及二次激活的一个隐藏层网络的真实丧失的景观。在所有三种情况下,我们在目标函数所仿射的情况下提供了完整的关键点的分类。特别是,我们表明没有局部最大值,并阐明马鞍点的结构。此外,我们证明了非全球局部最小值只能由“死”recu神经元引起。特别是,它们不会出现在泄漏的Relu或二次激活的情况下。我们的方法是组合性质,并在仔细分析可能发生的不同类型的隐性神经元。
translated by 谷歌翻译
古典统计学习理论表示,拟合太多参数导致过度舒服和性能差。尽管大量参数矛盾,但是现代深度神经网络概括了这一发现,并构成了解释深度学习成功的主要未解决的问题。随机梯度下降(SGD)引起的隐式正规被认为是重要的,但其特定原则仍然是未知的。在这项工作中,我们研究了当地最小值周围的能量景观的局部几何学如何影响SGD的统计特性,具有高斯梯度噪声。我们争辩说,在合理的假设下,局部几何形状力强制SGD保持接近低维子空间,这会引起隐式正则化并导致深神经网络的泛化误差界定更严格的界限。为了获得神经网络的泛化误差界限,我们首先引入局部最小值周围的停滞迹象,并施加人口风险的局部基本凸性财产。在这些条件下,推导出SGD的下界,以保留在这些停滞套件中。如果发生停滞,我们会导出涉及权重矩阵的光谱规范的深神经网络的泛化误差的界限,但不是网络参数的数量。从技术上讲,我们的证据基于控制SGD中的参数值的变化以及基于局部最小值周围的合适邻域的熵迭代的参数值和局部均匀收敛。我们的工作试图通过统一收敛更好地连接非凸优化和泛化分析。
translated by 谷歌翻译
We consider the problem of estimating the optimal transport map between a (fixed) source distribution $P$ and an unknown target distribution $Q$, based on samples from $Q$. The estimation of such optimal transport maps has become increasingly relevant in modern statistical applications, such as generative modeling. At present, estimation rates are only known in a few settings (e.g. when $P$ and $Q$ have densities bounded above and below and when the transport map lies in a H\"older class), which are often not reflected in practice. We present a unified methodology for obtaining rates of estimation of optimal transport maps in general function spaces. Our assumptions are significantly weaker than those appearing in the literature: we require only that the source measure $P$ satisfies a Poincar\'e inequality and that the optimal map be the gradient of a smooth convex function that lies in a space whose metric entropy can be controlled. As a special case, we recover known estimation rates for bounded densities and H\"older transport maps, but also obtain nearly sharp results in many settings not covered by prior work. For example, we provide the first statistical rates of estimation when $P$ is the normal distribution and the transport map is given by an infinite-width shallow neural network.
translated by 谷歌翻译
过度分化的深网络的泛化神秘具有有动力的努力,了解梯度下降(GD)如何收敛到概括井的低损耗解决方案。现实生活中的神经网络从小随机值初始化,并以分类的“懒惰”或“懒惰”或“NTK”的训练训练,分析更成功,以及最近的结果序列(Lyu和Li ,2020年; Chizat和Bach,2020; Ji和Telgarsky,2020)提供了理论证据,即GD可以收敛到“Max-ramin”解决方案,其零损失可能呈现良好。但是,仅在某些环境中证明了余量的全球最优性,其中神经网络无限或呈指数级宽。目前的纸张能够为具有梯度流动训练的两层泄漏的Relu网,无论宽度如何,都能为具有梯度流动的双层泄漏的Relu网建立这种全局最优性。分析还为最近的经验研究结果(Kalimeris等,2019)给出了一些理论上的理由,就GD的所谓简单的偏见为线性或其他“简单”的解决方案,特别是在训练中。在悲观方面,该论文表明这种结果是脆弱的。简单的数据操作可以使梯度流量会聚到具有次优裕度的线性分类器。
translated by 谷歌翻译
我们研究神经网络表达能力的基本限制。给定两组$ f $,$ g $的实值函数,我们首先证明了$ f $中的功能的一般下限,可以在$ l^p(\ mu)$ norm中通过$ g中的功能近似$,对于任何$ p \ geq 1 $和任何概率度量$ \ mu $。下限取决于$ f $的包装数,$ f $的范围以及$ g $的脂肪震动尺寸。然后,我们实例化了$ g $对应于分段的馈电神经网络的情况,并详细描述了两组$ f $:h {\“ o} lder balls和多变量单调函数。除了匹配(已知或新的)上限与日志因素外,我们的下限还阐明了$ l^p $ Norm或SUP Norm中近似之间的相似性或差异,解决了Devore等人的开放问题(2021年))。我们的证明策略与SUP Norm案例不同,并使用了Mendelson(2002)的关键概率结果。
translated by 谷歌翻译
在本文中,我们研究了与具有多种激活函数的浅神经网络相对应的变异空间的近似特性。我们介绍了两个主要工具,用于估计这些空间的度量熵,近似率和$ n $宽度。首先,我们介绍了平滑参数化词典的概念,并在非线性近似速率,度量熵和$ n $ widths上给出了上限。上限取决于参数化的平滑度。该结果适用于与浅神经网络相对应的脊功能的字典,并且在许多情况下它们的现有结果改善了。接下来,我们提供了一种方法,用于下限度量熵和$ n $ widths的变化空间,其中包含某些类别的山脊功能。该结果给出了$ l^2 $ approximation速率,度量熵和$ n $ widths的变化空间的急剧下限具有界变化的乙状结激活函数。
translated by 谷歌翻译
基于神经网络的高维部分微分方程(PDE)的数值解具有令人兴奋的发展。本文推出了Barron空间中$ -dimimensional二阶椭圆PDE的解决方案的复杂性估计,这是一组函数,即承认某些参数脊函数的积分与参数上的概率测量。我们证明在一些适当的假设中,如果椭圆PDE的系数和源期限位于Barron空间中,则PDE的解决方案是$ \ epsilon $ -close关于$ h ^ 1 $ norm到Barron功能。此外,我们证明了这种近似解决方案的Barron标准的维度显式范围,这取决于大多数多项式在PDE的维度$ D $上。作为复杂性估计的直接后果,通过双层神经网络,PDE的解决方案可以通过双层神经网络在任何有界面的神经网络上近似于尺寸显式收敛速度的$ H ^ 1 $常态。
translated by 谷歌翻译