神经网络是一种自动拟合过于复杂而无法手动描述的功能的便捷方法。这种方法的缺点是,它导致在不了解内部发生的事情的情况下构建一个黑框。找到预先形象将有助于更好地了解这种神经网络如何以及为什么给出这样的输出。由于大多数神经网络都是非注入函数,因此通常不可能仅通过数值方式完全计算它。这项研究的目的是提供一种方法,以计算任何具有线性或分段线性激活函数的馈送神经网络的精确预先形象。与其他方法相反,该方法没有为唯一的输出返回唯一的解决方案,而是在分析整个预先映射的情况下返回。
translated by 谷歌翻译
这项调查的目的是介绍对深神经网络的近似特性的解释性回顾。具体而言,我们旨在了解深神经网络如何以及为什么要优于其他经典线性和非线性近似方法。这项调查包括三章。在第1章中,我们回顾了深层网络及其组成非线性结构的关键思想和概念。我们通过在解决回归和分类问题时将其作为优化问题来形式化神经网络问题。我们简要讨论用于解决优化问题的随机梯度下降算法以及用于解决优化问题的后传播公式,并解决了与神经网络性能相关的一些问题,包括选择激活功能,成本功能,过度适应问题和正则化。在第2章中,我们将重点转移到神经网络的近似理论上。我们首先介绍多项式近似中的密度概念,尤其是研究实现连续函数的Stone-WeierStrass定理。然后,在线性近似的框架内,我们回顾了馈电网络的密度和收敛速率的一些经典结果,然后在近似Sobolev函数中进行有关深网络复杂性的最新发展。在第3章中,利用非线性近似理论,我们进一步详细介绍了深度和近似网络与其他经典非线性近似方法相比的近似优势。
translated by 谷歌翻译
在本文中,开发了一种新的不连续性捕获浅神经网络(DCSNN),以近似于$ d $ d $二维的分段连续功能和解决椭圆界面问题。当前网络中有三个新颖的功能。即,(i)跳跃不连续性被准确捕获,(ii)它完全浅,仅包含一个隐藏层,(iii)它完全无网格,用于求解部分微分方程。这里的关键想法是,可以将$ d $维的分段连续函数扩展到$(d+1)$ - 尺寸空间中定义的连续函数,其中增强坐标变量标记每个子域的零件。然后,我们构建一个浅神经网络来表达这一新功能。由于仅使用一个隐藏层,因此训练参数(权重和偏见)的数量与隐藏层中使用的维度和神经元线性缩放。为了解决椭圆界面问题,通过最大程度地减少由管理方程式,边界条件和接口跳跃条件组成的均方误差损失来训练网络。我们执行一系列数值测试以证明本网络的准确性。我们的DCSNN模型由于仅需要训练的参数数量中等(在所有数值示例中使用了几百个参数),因此很有效,结果表明准确性良好。与传统的基于网格的浸入界面方法(IIM)获得的结果相比,该方法专门针对椭圆界面问题而设计,我们的网络模型比IIM表现出更好的精度。我们通过解决一个六维问题来结论,以证明本网络在高维应用中的能力。
translated by 谷歌翻译
鉴于神经网络,训练数据和阈值,已知它是NP-HARD,用于找到神经网络的权重,使得总误差低于阈值。我们精确地确定了这种基本问题的算法复杂性,通过表示它是$ \存在\ mathbb r $ -complete。这意味着问题是等同的,达到多项式时间减少,以决定多项式方程和具有整数系数的不等式和真实未知的不平等是否具有解决方案。如果广泛预期,$ \存在\ MathBB r $严格大于NP,我们的工作意味着培训神经网络的问题甚至不是在NP中。通常使用反向化的一些变异培训神经网络。本文的结果提供了一种解释,为什么常用的技术常用于NP完全问题的大实例似乎不用于此任务。这种技术的示例是SAT求解器,IP求解器,本地搜索,动态编程,命名几个一般的。
translated by 谷歌翻译
使用神经网络学习依赖于可代表功能的复杂性,但更重要的是,典型参数的特定分配与不同复杂度的功能。将激活区域的数量作为复杂性度量,最近的作品表明,深度释放网络的实际复杂性往往远远远非理论最大值。在这项工作中,我们表明这种现象也发生在具有颤扬(多参数)激活功能的网络中,并且在考虑分类任务中的决策边界时。我们还表明参数空间具有多维全维区域,具有广泛不同的复杂性,并在预期的复杂性上获得非竞争下限。最后,我们调查了不同的参数初始化程序,并表明他们可以提高培训的收敛速度。
translated by 谷歌翻译
本文的目标是两倍。第一个目标是作为深度学习模型的工作的陈述教程,这强调了关于深度学习成功原因的几何直觉。第二个目标是补充当前的结果对深度学习模型的表现力及其具有新颖洞察力和结果的损失。特别是,我们描述了深度神经网络如何雕刻歧管,尤其是当乘法神经元引入倍增神经元时。乘法用于点产品和注意机制,它采用胶囊网络和基于自我关注的变压器。我们还描述了如何对损耗表面上的随机多项式,随机矩阵,旋转玻璃和计算复杂性观点是互连的。
translated by 谷歌翻译
我们提出了一种基于物理知识的随机投影神经网络的数值方法,用于解决常微分方程(ODES)的初始值问题(IVPS)的解决方案,重点是僵硬的问题。我们使用具有径向基函数的单个隐藏层来解决一个极端学习机,其具有宽度均匀分布的随机变量,而输入和隐藏层之间的权重的值设置为等于1。通过构造非线性代数方程的系统来获得IVPS的数值解决方案,该系统由高斯-Nythto方法通过Gauss-Newton方法解决了输出权重,以调整集成时间间隔的简单自适应方案。为了评估其性能,我们应用了四个基准僵硬IVPS解决方案的提议方法,即预热罗宾逊,梵德,罗伯和雇用问题。我们的方法与基于Dormand-Prince对的自适应跳动-Kutta方法进行比较,以及基于数值差分公式的可变步骤可变序列多步解算器,如\ texttt {ode45}和\ texttt {ode15s}所实现的MATLAB功能分别。我们表明所提出的方案产生良好的近似精度,从而优于\ texttt {ode45}和\ texttt {ode15s},尤其是在出现陡峭梯度的情况下。此外,我们的方法的计算时间与两种Matlab溶剂的计算时间用于实际目的。
translated by 谷歌翻译
我们有助于更好地理解由具有Relu激活和给定架构的神经网络表示的功能。使用来自混合整数优化,多面体理论和热带几何的技术,我们为普遍近似定理提供了数学逆向,这表明单个隐藏层足以用于学习任务。特别是,我们调查完全可增值功能是否完全可以通过添加更多层(没有限制大小)来严格增加。由于它为神经假设类别代表的函数类提供给算法和统计方面,这个问题对算法和统计方面具有潜在的影响。然而,据我们所知,这个问题尚未在神经网络文学中调查。我们还在这些神经假设类别中代表功能所需的神经网络的大小上存在上限。
translated by 谷歌翻译
机器学习技术越来越多地用于预测科学应用中的材料行为,并比常规数值方法具有显着优势。在这项工作中,将人工神经网络(ANN)模型用于有限元公式中,以定义金属材料的流量定律是塑性应变,塑性应变速率和温度的函数。首先,我们介绍了神经网络的一般结构,其运作和关注网络在没有事先学习的情况下推导的能力,即相对于模型输入的流量定律的衍生物。为了验证所提出模型的鲁棒性和准确性,我们就42CRMO4钢的Johnson-Cook行为定律的分析公式进行了比较和分析几个网络体系结构的性能。在第二部分中,在选择了带有$ 2 $隐藏层的人工神经网络体系结构之后,我们以Vuhard Subroutine的形式在Abaqus显式计算代码中介绍了该模型的实现。然后在两个测试用例的数值模拟过程中证明了所提出模型的预测能力:圆形条的颈部和泰勒冲击试验。获得的结果表明,ANN具有很高的能力,可以在有限的元素代码中替换约翰逊 - 库克行为定律的分析公式,同时与经典方法相比,在数值模拟时间方面保持竞争力。
translated by 谷歌翻译
由于其在输入空间子集上的功能的知识,因此可以根据情况,诅咒或祝福来恢复神经网络的参数权重和偏差的可能性。一方面,恢复参数允许更好的对抗攻击,并且还可以从用于构造网络的数据集中披露敏感信息。另一方面,如果可以恢复网络的参数,它可以保证用户可以解释潜在空间中的特征。它还提供基础,以获得对网络性能的正式保障。因此,表征可以识别其参数的网络以及其参数不能的网络是很重要的。在本文中,我们在深度全连接的前馈recu网络上提供了一组条件,在该馈电中,网络的参数是唯一识别的模型置换和正重型 - 从其实现输入空间的子集。
translated by 谷歌翻译
在本文中,我们在具有线性阈值激活功能的神经网络上提出了新的结果。我们精确地表征了这种神经网络可表示的功能,并且显示2个隐藏层是必要的并且足以表示类中可表示的任何功能。鉴于使用其他流行的激活功能的神经网络的最近精确的可比性调查,这是一个令人惊讶的结果,这些功能使用其他流行的激活功能,如整流的线性单元(Relu)。我们还给出了代表类中任意函数所需的神经网络的大小的精确界限。最后,我们设计了一种算法来解决具有固定架构的这些神经网络的全球最优性的经验风险最小化(ERM)问题。如果输入维度和网络架构的大小被认为是固定常数,则算法的运行时间是数据样本大小的多项式。该算法的意义上是独一无二的,即它适用于任何数量的层数,而先前的多项式时间全局最佳算法仅适用于非常受限制的架构类。
translated by 谷歌翻译
我们指出,对于随机深神经网络(SDNN)的隐藏层以及整个SDNN的输出,浓度和martingale不平等现象。这些结果使我们能够引入预期的分类器(EC),并为EC的分类误差提供概率上限。我们还通过最佳的停止过程陈述了SDNN的最佳层数。我们将分析应用于具有Relu激活函数的前馈神经网络的随机版本。
translated by 谷歌翻译
我们为特殊神经网络架构,称为运营商复发性神经网络的理论分析,用于近似非线性函数,其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量,因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此,我们介绍一个类似标准的神经网络架构的新系列,但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析,我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后,我们研究其表示属性以及其近似属性。我们还表明,可以引入明确的正则化,其可以从所述逆问题的数学分析导出,并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后,我们讨论如何将运营商复发网络视为深度学习模拟,以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。
translated by 谷歌翻译
We consider the algorithmic problem of finding the optimal weights and biases for a two-layer fully connected neural network to fit a given set of data points. This problem is known as empirical risk minimization in the machine learning community. We show that the problem is $\exists\mathbb{R}$-complete. This complexity class can be defined as the set of algorithmic problems that are polynomial-time equivalent to finding real roots of a polynomial with integer coefficients. Furthermore, we show that arbitrary algebraic numbers are required as weights to be able to train some instances to optimality, even if all data points are rational. Our results hold even if the following restrictions are all added simultaneously. $\bullet$ There are exactly two output neurons. $\bullet$ There are exactly two input neurons. $\bullet$ The data has only 13 different labels. $\bullet$ The number of hidden neurons is a constant fraction of the number of data points. $\bullet$ The target training error is zero. $\bullet$ The ReLU activation function is used. This shows that even very simple networks are difficult to train. The result explains why typical methods for $\mathsf{NP}$-complete problems, like mixed-integer programming or SAT-solving, cannot train neural networks to global optimality, unless $\mathsf{NP}=\exists\mathbb{R}$. We strengthen a recent result by Abrahamsen, Kleist and Miltzow [NeurIPS 2021].
translated by 谷歌翻译
我们因与Relu神经网络的参数双曲标量保护定律的近似值所产生的误差得出了严格的界限。我们表明,通过克服维度诅咒的relu神经网络,可以使近似误差尽可能小。此外,我们在训练误差,训练样本数量和神经网络大小方面提供了明确的上限。理论结果通过数值实验说明。
translated by 谷歌翻译
本文介绍了OptNet,该网络架构集成了优化问题(这里,专门以二次程序的形式),作为较大端到端可训练的深网络中的单个层。这些层在隐藏状态之间编码约束和复杂依赖性,传统的卷积和完全连接的层通常无法捕获。我们探索这种架构的基础:我们展示了如何使用敏感性分析,彼得优化和隐式差分的技术如何通过这些层和相对于层参数精确地区分;我们为这些层开发了一种高效的解算器,用于利用基于GPU的基于GPU的批处理在原始 - 双内部点法中解决,并且在求解的顶部几乎没有额外的成本提供了反向衰减梯度;我们突出了这些方法在几个问题中的应用。在一个值得注意的示例中,该方法学习仅在输入和输出游戏中播放Mini-sudoku(4x4),没有关于游戏规则的a-priori信息;这突出了OptNet比其他神经架构更好地学习硬限制的能力。
translated by 谷歌翻译
These notes were compiled as lecture notes for a course developed and taught at the University of the Southern California. They should be accessible to a typical engineering graduate student with a strong background in Applied Mathematics. The main objective of these notes is to introduce a student who is familiar with concepts in linear algebra and partial differential equations to select topics in deep learning. These lecture notes exploit the strong connections between deep learning algorithms and the more conventional techniques of computational physics to achieve two goals. First, they use concepts from computational physics to develop an understanding of deep learning algorithms. Not surprisingly, many concepts in deep learning can be connected to similar concepts in computational physics, and one can utilize this connection to better understand these algorithms. Second, several novel deep learning algorithms can be used to solve challenging problems in computational physics. Thus, they offer someone who is interested in modeling a physical phenomena with a complementary set of tools.
translated by 谷歌翻译
在本说明中,我们研究了如何使用单个隐藏层和RELU激活的神经网络插值数据,该数据是从径向对称分布中的,目标标签1处的目标标签1和单位球外部0,如果单位球内没有标签。通过重量衰减正则化和无限神经元的无限数据限制,我们证明存在独特的径向对称最小化器,其重量衰减正常器和Lipschitz常数分别为$ d $和$ \ sqrt {d} $。我们此外表明,如果标签$ 1 $强加于半径$ \ varepsilon $,而不仅仅是源头,则重量衰减正规剂会在$ d $中成倍增长。相比之下,具有两个隐藏层的神经网络可以近似目标函数,而不会遇到维度的诅咒。
translated by 谷歌翻译
样本是否足够丰富,至少在本地确定神经网络的参数?为了回答这个问题,我们通过固定其某些权重的值来介绍给定深层神经网络的新局部参数化。这使我们能够定义本地提升操作员,其倒置是高维空间的平滑歧管的图表。Deep Relu神经网络实现的函数由依赖样本的线性操作员组成局部提升。我们从这种方便的表示中得出了局部可识别性的几何必要条件。查看切线空间,几何条件提供了:1/可识别性的尖锐而可测试的必要条件以及2/可识别局部可识别性的尖锐且可测试的足够条件。可以使用反向传播和矩阵等级计算对条件的有效性进行数值测试。
translated by 谷歌翻译
我们考虑非线性优化问题,涉及神经网络代表代理模型。我们首先展示了如何直接将神经网络评估嵌入优化模型中,突出难以防止收敛的方法,然后表征这些模型的平稳性。然后,我们在具有Relu激活的前馈神经网络的特定情况下存在两种替代配方,其具有recu激活:作为混合整数优化问题,作为具有互补限制的数学程序。对于后一种制剂,我们证明了在该问题的点处的有同性,对应于嵌入式制剂的实质性。这些配方中的每一个都可以用最先进的优化方法来解决,并且我们展示了如何为这些方法获得良好的初始可行解决方案。我们将三种实际应用的配方进行比较,在燃烧发动机的设计和控制中产生的三种实际应用,在对分类器网络的对抗攻击中产生的产生,以及在油井网中的最佳流动确定。
translated by 谷歌翻译