神经网络的经典发展主要集中在有限维欧基德空间或有限组之间的学习映射。我们提出了神经网络的概括,以学习映射无限尺寸函数空间之间的运算符。我们通过一类线性积分运算符和非线性激活函数的组成制定运营商的近似,使得组合的操作员可以近似复杂的非线性运算符。我们证明了我们建筑的普遍近似定理。此外,我们介绍了四类运算符参数化:基于图形的运算符,低秩运算符,基于多极图形的运算符和傅里叶运算符,并描述了每个用于用每个计算的高效算法。所提出的神经运营商是决议不变的:它们在底层函数空间的不同离散化之间共享相同的网络参数,并且可以用于零击超分辨率。在数值上,与现有的基于机器学习的方法,达西流程和Navier-Stokes方程相比,所提出的模型显示出卓越的性能,而与传统的PDE求解器相比,与现有的基于机器学习的方法有关的基于机器学习的方法。
translated by 谷歌翻译
Recent years have witnessed a growth in mathematics for deep learning--which seeks a deeper understanding of the concepts of deep learning with mathematics, and explores how to make it more robust--and deep learning for mathematics, where deep learning algorithms are used to solve problems in mathematics. The latter has popularised the field of scientific machine learning where deep learning is applied to problems in scientific computing. Specifically, more and more neural network architectures have been developed to solve specific classes of partial differential equations (PDEs). Such methods exploit properties that are inherent to PDEs and thus solve the PDEs better than classical feed-forward neural networks, recurrent neural networks, and convolutional neural networks. This has had a great impact in the area of mathematical modeling where parametric PDEs are widely used to model most natural and physical processes arising in science and engineering, In this work, we review such methods and extend them for parametric studies as well as for solving the related inverse problems. We equally proceed to show their relevance in some industrial applications.
translated by 谷歌翻译
标准的神经网络可以近似一般的非线性操作员,要么通过数学运算符的组合(例如,在对流 - 扩散反应部分微分方程中)的组合,要么仅仅是黑匣子,例如黑匣子,例如一个系统系统。第一个神经操作员是基于严格的近似理论于2019年提出的深层操作员网络(DeepOnet)。从那时起,已经发布了其他一些较少的一般操作员,例如,基于图神经网络或傅立叶变换。对于黑匣子系统,对神经操作员的培训仅是数据驱动的,但是如果知道管理方程式可以在培训期间将其纳入损失功能,以开发物理知识的神经操作员。神经操作员可以用作设计问题,不确定性量化,自主系统以及几乎任何需要实时推断的应用程序中的代替代物。此外,通过将它们与相对轻的训练耦合,可以将独立的预训练deponets用作复杂多物理系统的组成部分。在这里,我们介绍了Deponet,傅立叶神经操作员和图神经操作员的评论,以及适当的扩展功能扩展,并突出显示它们在计算机械师中的各种应用中的实用性,包括多孔媒体,流体力学和固体机制, 。
translated by 谷歌翻译
Recent advances in operator learning theory have improved our knowledge about learning maps between infinite dimensional spaces. However, for large-scale engineering problems such as concurrent multiscale simulation for mechanical properties, the training cost for the current operator learning methods is very high. The article presents a thorough analysis on the mathematical underpinnings of the operator learning paradigm and proposes a kernel learning method that maps between function spaces. We first provide a survey of modern kernel and operator learning theory, as well as discuss recent results and open problems. From there, the article presents an algorithm to how we can analytically approximate the piecewise constant functions on R for operator learning. This implies the potential feasibility of success of neural operators on clustered functions. Finally, a k-means clustered domain on the basis of a mechanistic response is considered and the Lippmann-Schwinger equation for micro-mechanical homogenization is solved. The article briefly discusses the mathematics of previous kernel learning methods and some preliminary results with those methods. The proposed kernel operator learning method uses graph kernel networks to come up with a mechanistic reduced order method for multiscale homogenization.
translated by 谷歌翻译
监督运营商学习是一种新兴机器学习范例,用于建模时空动态系统的演变和近似功能数据之间的一般黑盒关系的应用。我们提出了一种新颖的操作员学习方法,LOCA(学习操作员耦合注意力),激励了最近的注意机制的成功。在我们的体系结构中,输入函数被映射到有限的一组特征,然后按照依赖于输出查询位置的注意重量平均。通过将这些注意重量与积分变换一起耦合,LOCA能够明确地学习目标输出功能中的相关性,使我们能够近似非线性运算符,即使训练集测量中的输出功能的数量非常小。我们的配方伴随着拟议模型的普遍表现力的严格近似理论保证。经验上,我们在涉及普通和部分微分方程的系统管理的若干操作员学习场景中,评估LOCA的表现,以及黑盒气候预测问题。通过这些场景,我们展示了最先进的准确性,对噪声输入数据的鲁棒性以及在测试数据集上始终如一的错误传播,即使对于分发超出预测任务。
translated by 谷歌翻译
在许多学科中,动态系统的数据信息预测模型的开发引起了广泛的兴趣。我们提出了一个统一的框架,用于混合机械和机器学习方法,以从嘈杂和部分观察到的数据中识别动态系统。我们将纯数据驱动的学习与混合模型进行比较,这些学习结合了不完善的域知识。我们的公式与所选的机器学习模型不可知,在连续和离散的时间设置中都呈现,并且与表现出很大的内存和错误的模型误差兼容。首先,我们从学习理论的角度研究无内存线性(W.R.T.参数依赖性)模型误差,从而定义了过多的风险和概括误差。对于沿阵行的连续时间系统,我们证明,多余的风险和泛化误差都通过与T的正方形介于T的术语(指定训练数据的时间间隔)的术语界定。其次,我们研究了通过记忆建模而受益的方案,证明了两类连续时间复发性神经网络(RNN)的通用近似定理:两者都可以学习与内存有关的模型误差。此外,我们将一类RNN连接到储层计算,从而将学习依赖性错误的学习与使用随机特征在Banach空间之间进行监督学习的最新工作联系起来。给出了数值结果(Lorenz '63,Lorenz '96多尺度系统),以比较纯粹的数据驱动和混合方法,发现混合方法较少,渴望数据较少,并且更有效。最后,我们从数值上证明了如何利用数据同化来从嘈杂,部分观察到的数据中学习隐藏的动态,并说明了通过这种方法和培训此类模型来表示记忆的挑战。
translated by 谷歌翻译
我们为特殊神经网络架构,称为运营商复发性神经网络的理论分析,用于近似非线性函数,其输入是线性运算符。这些功能通常在解决方案算法中出现用于逆边值问题的问题。传统的神经网络将输入数据视为向量,因此它们没有有效地捕获与对应于这种逆问题中的数据的线性运算符相关联的乘法结构。因此,我们介绍一个类似标准的神经网络架构的新系列,但是输入数据在向量上乘法作用。由较小的算子出现在边界控制中的紧凑型操作员和波动方程的反边值问题分析,我们在网络中的选择权重矩阵中促进结构和稀疏性。在描述此架构后,我们研究其表示属性以及其近似属性。我们还表明,可以引入明确的正则化,其可以从所述逆问题的数学分析导出,并导致概括属性上的某些保证。我们观察到重量矩阵的稀疏性改善了概括估计。最后,我们讨论如何将运营商复发网络视为深度学习模拟,以确定诸如用于从边界测量的声波方程中重建所未知的WAVESTED的边界控制的算法算法。
translated by 谷歌翻译
物理信息的神经网络(PINN)是神经网络(NNS),它们作为神经网络本身的组成部分编码模型方程,例如部分微分方程(PDE)。如今,PINN是用于求解PDE,分数方程,积分分化方程和随机PDE的。这种新颖的方法已成为一个多任务学习框架,在该框架中,NN必须在减少PDE残差的同时拟合观察到的数据。本文对PINNS的文献进行了全面的综述:虽然该研究的主要目标是表征这些网络及其相关的优势和缺点。该综述还试图将出版物纳入更广泛的基于搭配的物理知识的神经网络,这些神经网络构成了香草·皮恩(Vanilla Pinn)以及许多其他变体,例如物理受限的神经网络(PCNN),各种HP-VPINN,变量HP-VPINN,VPINN,VPINN,变体。和保守的Pinn(CPINN)。该研究表明,大多数研究都集中在通过不同的激活功能,梯度优化技术,神经网络结构和损耗功能结构来定制PINN。尽管使用PINN的应用范围广泛,但通过证明其在某些情况下比有限元方法(FEM)等经典数值技术更可行的能力,但仍有可能的进步,最著名的是尚未解决的理论问题。
translated by 谷歌翻译
These notes were compiled as lecture notes for a course developed and taught at the University of the Southern California. They should be accessible to a typical engineering graduate student with a strong background in Applied Mathematics. The main objective of these notes is to introduce a student who is familiar with concepts in linear algebra and partial differential equations to select topics in deep learning. These lecture notes exploit the strong connections between deep learning algorithms and the more conventional techniques of computational physics to achieve two goals. First, they use concepts from computational physics to develop an understanding of deep learning algorithms. Not surprisingly, many concepts in deep learning can be connected to similar concepts in computational physics, and one can utilize this connection to better understand these algorithms. Second, several novel deep learning algorithms can be used to solve challenging problems in computational physics. Thus, they offer someone who is interested in modeling a physical phenomena with a complementary set of tools.
translated by 谷歌翻译
Koopman运算符是无限维的运算符,可全球线性化非线性动态系统,使其光谱信息可用于理解动态。然而,Koopman运算符可以具有连续的光谱和无限维度的子空间,使得它们的光谱信息提供相当大的挑战。本文介绍了具有严格融合的数据驱动算法,用于从轨迹数据计算Koopman运算符的频谱信息。我们引入了残余动态模式分解(ResDMD),它提供了第一种用于计算普通Koopman运算符的Spectra和PseudtoStra的第一种方案,无需光谱污染。使用解析器操作员和RESDMD,我们还计算与测量保存动态系统相关的光谱度量的平滑近似。我们证明了我们的算法的显式收敛定理,即使计算连续频谱和离散频谱的密度,也可以实现高阶收敛即使是混沌系统。我们展示了在帐篷地图,高斯迭代地图,非线性摆,双摆,洛伦茨系统和11美元延长洛伦兹系统的算法。最后,我们为具有高维状态空间的动态系统提供了我们的算法的核化变体。这使我们能够计算与具有20,046维状态空间的蛋白质分子的动态相关的光谱度量,并计算出湍流流过空气的误差界限的非线性Koopman模式,其具有雷诺数为$> 10 ^ 5 $。一个295,122维的状态空间。
translated by 谷歌翻译
神经运营商最近成为设计神经网络形式的功能空间之间的解决方案映射的流行工具。不同地,从经典的科学机器学习方法,以固定分辨率为输入参数的单个实例学习参数,神经运算符近似PDE系列的解决方案图。尽管他们取得了成功,但是神经运营商的用途迄今为止仅限于相对浅的神经网络,并限制了学习隐藏的管理法律。在这项工作中,我们提出了一种新颖的非局部神经运营商,我们将其称为非本体内核网络(NKN),即独立的分辨率,其特征在于深度神经网络,并且能够处理各种任务,例如学习管理方程和分类图片。我们的NKN源于神经网络的解释,作为离散的非局部扩散反应方程,在无限层的极限中,相当于抛物线非局部方程,其稳定性通过非本种载体微积分分析。与整体形式的神经运算符相似允许NKN捕获特征空间中的远程依赖性,而节点到节点交互的持续处理使NKNS分辨率独立于NKNS分辨率。与神经杂物中的相似性,在非本体意义上重新解释,并且层之间的稳定网络动态允许NKN的最佳参数从浅到深网络中的概括。这一事实使得能够使用浅层初始化技术。我们的测试表明,NKNS在学习管理方程和图像分类任务中占据基线方法,并概括到不同的分辨率和深度。
translated by 谷歌翻译
这项调查的目的是介绍对深神经网络的近似特性的解释性回顾。具体而言,我们旨在了解深神经网络如何以及为什么要优于其他经典线性和非线性近似方法。这项调查包括三章。在第1章中,我们回顾了深层网络及其组成非线性结构的关键思想和概念。我们通过在解决回归和分类问题时将其作为优化问题来形式化神经网络问题。我们简要讨论用于解决优化问题的随机梯度下降算法以及用于解决优化问题的后传播公式,并解决了与神经网络性能相关的一些问题,包括选择激活功能,成本功能,过度适应问题和正则化。在第2章中,我们将重点转移到神经网络的近似理论上。我们首先介绍多项式近似中的密度概念,尤其是研究实现连续函数的Stone-WeierStrass定理。然后,在线性近似的框架内,我们回顾了馈电网络的密度和收敛速率的一些经典结果,然后在近似Sobolev函数中进行有关深网络复杂性的最新发展。在第3章中,利用非线性近似理论,我们进一步详细介绍了深度和近似网络与其他经典非线性近似方法相比的近似优势。
translated by 谷歌翻译
随机偏微分方程(SPDES)是在随机性影响下模拟动态系统的选择的数学工具。通过将搜索SPDE的温和解决方案作为神经定点问题,我们介绍了神经SPDE模型,以便从部分观察到的数据中使用(可能随机)的PDE溶液运营商。我们的模型为两类物理启发神经架构提供了扩展。一方面,它延伸了神经CDES,SDES,RDE - RNN的连续时间类似物,因为即使当后者在无限尺寸状态空间中演变时,它也能够处理进入的顺序信息。另一方面,它扩展了神经运营商 - 神经网络的概括到函数空间之间的模型映射 - 因为它可以用于学习解决方案运算符$(U_0,\ xi)\ MapSto U $同时上的SPDES初始条件$ u_0 $和驾驶噪声$ \ xi $的实现。神经SPDE是不变的,它可以使用基于记忆有效的隐式分化的反向化的训练,并且一旦接受训练,其评估比传统求解器快3个数量级。在包括2D随机Navier-Stokes方程的各种半线性SPDES的实验证明了神经间隙如何能够以更好的准确性学习复杂的时空动态,并仅使用适度的培训数据与所有替代模型相比。
translated by 谷歌翻译
在本文中,我们在关注最先进的变压器中应用自我关注,这是第一次需要与部分微分方程相关的数据驱动的操作员学习问题。努力放在一起解释启发式,提高注意机制的功效。通过在希尔伯特空间中采用操作员近似理论,首次证明了Softmax归一化在缩放的点产品中的关注中足够但没有必要。在没有软墨中的情况下,可以证明线性化变换器变型的近似容量与Petrov-Galerkin投影层 - 明智相当,并且估计是相对于序列长度的独立性。提出了一种模仿Petrov-Galerkin投影的新层归一化方案,以允许缩放通过注意层传播,这有助于模型在具有非通信数据的操作员学习任务中实现显着准确性。最后,我们展示了三个操作员学习实验,包括粘虫汉堡方程,接口达西流程,以及逆接口系数识别问题。新提出的简单关注的算子学习者Galerkin变压器,在Softmax归一化的同行中,培训成本和评估准确性都显示出显着的改进。
translated by 谷歌翻译
高维时空动力学通常可以在低维子空间中编码。用于建模,表征,设计和控制此类大规模系统的工程应用通常依赖于降低尺寸,以实时计算解决方案。降低维度的常见范例包括线性方法,例如奇异值分解(SVD)和非线性方法,例如卷积自动编码器(CAE)的变体。但是,这些编码技术缺乏有效地表示与时空数据相关的复杂性的能力,后者通常需要可变的几何形状,非均匀的网格分辨率,自适应网格化和/或参数依赖性。为了解决这些实用的工程挑战,我们提出了一个称为神经隐式流(NIF)的一般框架,该框架可以实现大型,参数,时空数据的网格不稳定,低级别表示。 NIF由两个修改的多层感知器(MLP)组成:(i)shapenet,它分离并代表空间复杂性,以及(ii)参数,该参数解释了任何其他输入复杂性,包括参数依赖关系,时间和传感器测量值。我们演示了NIF用于参数替代建模的实用性,从而实现了复杂时空动力学的可解释表示和压缩,有效的多空间质量任务以及改善了稀疏重建的通用性能。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
Low-rank matrix approximations, such as the truncated singular value decomposition and the rank-revealing QR decomposition, play a central role in data analysis and scientific computing. This work surveys and extends recent research which demonstrates that randomization offers a powerful tool for performing low-rank matrix approximation. These techniques exploit modern computational architectures more fully than classical methods and open the possibility of dealing with truly massive data sets.This paper presents a modular framework for constructing randomized algorithms that compute partial matrix decompositions. These methods use random sampling to identify a subspace that captures most of the action of a matrix. The input matrix is then compressed-either explicitly or implicitly-to this subspace, and the reduced matrix is manipulated deterministically to obtain the desired low-rank factorization. In many cases, this approach beats its classical competitors in terms of accuracy, speed, and robustness. These claims are supported by extensive numerical experiments and a detailed error analysis.The specific benefits of randomized techniques depend on the computational environment. Consider the model problem of finding the k dominant components of the singular value decomposition of an m × n matrix. (i) For a dense input matrix, randomized algorithms require O(mn log(k)) floating-point operations (flops) in contrast with O(mnk) for classical algorithms. (ii) For a sparse input matrix, the flop count matches classical Krylov subspace methods, but the randomized approach is more robust and can easily be reorganized to exploit multi-processor architectures. (iii) For a matrix that is too large to fit in fast memory, the randomized techniques require only a constant number of passes over the data, as opposed to O(k) passes for classical algorithms. In fact, it is sometimes possible to perform matrix approximation with a single pass over the data.
translated by 谷歌翻译
Linear partial differential equations (PDEs) are an important, widely applied class of mechanistic models, describing physical processes such as heat transfer, electromagnetism, and wave propagation. In practice, specialized numerical methods based on discretization are used to solve PDEs. They generally use an estimate of the unknown model parameters and, if available, physical measurements for initialization. Such solvers are often embedded into larger scientific models or analyses with a downstream application such that error quantification plays a key role. However, by entirely ignoring parameter and measurement uncertainty, classical PDE solvers may fail to produce consistent estimates of their inherent approximation error. In this work, we approach this problem in a principled fashion by interpreting solving linear PDEs as physics-informed Gaussian process (GP) regression. Our framework is based on a key generalization of a widely-applied theorem for conditioning GPs on a finite number of direct observations to observations made via an arbitrary bounded linear operator. Crucially, this probabilistic viewpoint allows to (1) quantify the inherent discretization error; (2) propagate uncertainty about the model parameters to the solution; and (3) condition on noisy measurements. Demonstrating the strength of this formulation, we prove that it strictly generalizes methods of weighted residuals, a central class of PDE solvers including collocation, finite volume, pseudospectral, and (generalized) Galerkin methods such as finite element and spectral methods. This class can thus be directly equipped with a structured error estimate and the capability to incorporate uncertain model parameters and observations. In summary, our results enable the seamless integration of mechanistic models as modular building blocks into probabilistic models.
translated by 谷歌翻译
深度学习替代模型已显示出在解决部分微分方程(PDE)方面的希望。其中,傅立叶神经操作员(FNO)达到了良好的准确性,并且与数值求解器(例如流体流量)上的数值求解器相比要快得多。但是,FNO使用快速傅立叶变换(FFT),该变换仅限于具有均匀网格的矩形域。在这项工作中,我们提出了一个新框架,即Geo-Fno,以解决任意几何形状的PDE。 Geo-FNO学会将可能不规则的输入(物理)结构域变形为具有均匀网格的潜在空间。具有FFT的FNO模型应用于潜在空间。所得的GEO-FNO模型既具有FFT的计算效率,也具有处理任意几何形状的灵活性。我们的Geo-FNO在其输入格式,,即点云,网格和设计参数方面也很灵活。我们考虑了各种PDE,例如弹性,可塑性,Euler和Navier-Stokes方程,以及正向建模和逆设计问题。与标准数值求解器相比,与标准数值求解器相比,Geo-fno的价格比标准数值求解器快两倍,与在现有基于ML的PDE求解器(如标准FNO)上进行直接插值相比,Geo-fno更准确。
translated by 谷歌翻译
无限尺寸空间之间的学习运营商是机器学习,成像科学,数学建模和仿真等广泛应用中出现的重要学习任务。本文研究了利用深神经网络的Lipschitz运营商的非参数估计。 Non-asymptotic upper bounds are derived for the generalization error of the empirical risk minimizer over a properly chosen network class.在假设目标操作员表现出低维结构的情况下,由于训练样本大小增加,我们的误差界限衰减,根据我们估计中的内在尺寸,具有吸引力的快速速度。我们的假设涵盖了实际应用中的大多数情况,我们的结果通过利用操作员估算中的低维结构来产生快速速率。我们还研究了网络结构(例如,网络宽度,深度和稀疏性)对神经网络估计器的泛化误差的影响,并提出了对网络结构的选择来定量地最大化学习效率的一般建议。
translated by 谷歌翻译