在从蛋白质折叠到材料发现的许多领域中,采样分子系统的相空间 - 更普遍地是通过随机微分方程有效建模的复杂系统的相位空间。这些问题本质上通常是多尺度的:可以用少数“慢速”反应坐标参数参数的低维有效自由能表面来描述它们;其余的“快速”自由度填充了反应坐标值的平衡度量。有关此类问题的抽样程序用于估计有效的自由能差以及相对于条件平衡分布的合奏平均值;后者平均值导致有效减少动态模型的关闭。多年来,已经开发了增强的采样技术与分子模拟。引人入胜的类比是与机器学习领域(ML)产生的,在该领域中,生成的对抗网络可以从低维概率分布中产生高维样品。该样本生成从有关其低维表示的信息中返回模型状态的合理高维空间实现。在这项工作中,我们提出了一种方法,该方法将基于物理学的模拟和偏置方法与基于ML的条件生成对抗网络对条件分布进行采样,以实现相同的任务。我们调节精细规模实现的“粗糙描述符”可以先验地知道,也可以通过非线性维度降低来学习。我们建议这可能会带来两种方法的最佳功能:我们证明,夫妻CGAN具有基于物理学的增强采样技术的框架可以改善多尺度SDE动力学系统采样,甚至显示出对增加复杂性系统的希望。
translated by 谷歌翻译
在计算物理和化学中,增强的采样方法是必不可少的,由于采样问题,原子模拟无法详尽地对动态系统的高维配置空间进行采样。一类增强的抽样方法通过识别一些缓慢的自由度,称为集体变量(CVS)并增强沿这些CVS的采样来起作用。选择CVS来分析和驱动采样并不是微不足道的,并且通常依赖于物理和化学直觉。尽管使用流形学习通常会从标准模拟中直接估算CVS,但这种方法无法通过增强的采样模拟为低维流形提供映射,因为学到的歧管的几何形状和密度是有偏见的。在这里,我们解决了这个关键问题,并根据各向异性扩散图提供了一个普遍的重新加权框架,以考虑到流形学习,该框架考虑了学习数据集是从偏见的概率分布中采样的。我们考虑基于构建马尔可夫链的流形学习方法,描述了高维样品之间的过渡概率。我们表明,我们的框架恢复了偏置效应,从而产生了正确描述平衡密度的CV。这种进步可以直接从增强的采样模拟生成的数据中直接使用流形学习来构建低维CV。我们称我们的框架重新持续的流形学习。我们表明,它可以在来自标准和增强采样模拟的数据上的许多流形学习技术中使用。
translated by 谷歌翻译
我们确定有效的随机微分方程(SDE),用于基于精细的粒子或基于试剂的模拟的粗糙观察结果;然后,这些SDE提供了精细规模动力学的有用的粗替代模型。我们通过神经网络近似这些有效的SDE中的漂移和扩散率函数,可以将其视为有效的随机分解。损失函数的灵感来自于已建立的随机数值集成剂的结构(在这里,欧拉 - 玛鲁山和米尔斯坦);因此,我们的近似值可以受益于这些基本数值方案的向后误差分析。当近似粗的模型(例如平均场方程)可用时,它们还自然而然地适合“物理信息”的灰色盒识别。 Langevin型方程和随机部分微分方程(SPDE)的现有数值集成方案也可以用于训练;我们在随机强迫振荡器和随机波方程式上证明了这一点。我们的方法不需要长时间的轨迹,可以在散落的快照数据上工作,并且旨在自然处理每个快照的不同时间步骤。我们考虑了预先知道粗糙的集体观察物以及必须以数据驱动方式找到它们的情况。
translated by 谷歌翻译
我们介绍了一个名为统计信息的神经网络(SINN)的机器学习框架,用于从数据中学习随机动力学。从理论上讲,这种新的架构是受到随机系统的通用近似定理的启发,我们在本文中介绍了它,以及用于随机建模的投影手术形式。我们设计了训练神经网络模型的机制,以重现目标随机过程的正确\ emph {统计}行为。数值模拟结果表明,受过良好训练的SINN可以可靠地近似马尔可夫和非马克维亚随机动力学。我们证明了SINN对粗粒问题和过渡动力学的建模的适用性。此外,我们表明可以在时间粗粒的数据上训练所获得的减少阶模型,因此非常适合稀有事实模拟。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
粗粒(CG)分子模拟已成为研究全原子模拟无法访问的时间和长度尺度上分子过程的标准工具。参数化CG力场以匹配全原子模拟,主要依赖于力匹配或相对熵最小化,这些熵最小化分别需要来自具有全原子或CG分辨率的昂贵模拟中的许多样本。在这里,我们提出了流量匹配,这是一种针对CG力场的新训练方法,它通过利用正常流量(一种生成的深度学习方法)来结合两种方法的优势。流量匹配首先训练标准化流程以表示CG概率密度,这等同于最小化相对熵而无需迭代CG模拟。随后,该流量根据学习分布生成样品和力,以通过力匹配来训练所需的CG能量模型。即使不需要全部原子模拟的力,流程匹配就数据效率的数量级优于经典力匹配,并产生CG模型,可以捕获小蛋白质的折叠和展开过渡。
translated by 谷歌翻译
了解复杂分子过程的动力学通常与长期稳定状态之间不经常过渡的研究有关。进行此类罕见事件采样的标准方法是使用轨迹空间中的随机步行生成过渡路径的集合。然而,这伴随着随后访问的路径之间的较强相关性和在平行采样过程中的内在难度之间存在很强的相关性。我们建议基于神经网络生成的配置的过渡路径采样方案。这些是采用归一化流量获得的,即能够从给定分布中生成非相关样品的神经网络类。使用这种方法,不仅删除了访问的路径之间的相关性,而且采样过程很容易平行。此外,通过调节归一化流,可以将配置的采样转向感兴趣的区域。我们表明,这允许解决过渡区域的热力学和动力学。
translated by 谷歌翻译
在许多学科中,动态系统的数据信息预测模型的开发引起了广泛的兴趣。我们提出了一个统一的框架,用于混合机械和机器学习方法,以从嘈杂和部分观察到的数据中识别动态系统。我们将纯数据驱动的学习与混合模型进行比较,这些学习结合了不完善的域知识。我们的公式与所选的机器学习模型不可知,在连续和离散的时间设置中都呈现,并且与表现出很大的内存和错误的模型误差兼容。首先,我们从学习理论的角度研究无内存线性(W.R.T.参数依赖性)模型误差,从而定义了过多的风险和概括误差。对于沿阵行的连续时间系统,我们证明,多余的风险和泛化误差都通过与T的正方形介于T的术语(指定训练数据的时间间隔)的术语界定。其次,我们研究了通过记忆建模而受益的方案,证明了两类连续时间复发性神经网络(RNN)的通用近似定理:两者都可以学习与内存有关的模型误差。此外,我们将一类RNN连接到储层计算,从而将学习依赖性错误的学习与使用随机特征在Banach空间之间进行监督学习的最新工作联系起来。给出了数值结果(Lorenz '63,Lorenz '96多尺度系统),以比较纯粹的数据驱动和混合方法,发现混合方法较少,渴望数据较少,并且更有效。最后,我们从数值上证明了如何利用数据同化来从嘈杂,部分观察到的数据中学习隐藏的动态,并说明了通过这种方法和培训此类模型来表示记忆的挑战。
translated by 谷歌翻译
随机梯度下降(SGD)由于其计算效率而被广泛用于深度学习,但对为什么SGD的性能如此出色的完全理解仍然是一个重大挑战。从经验上观察到,损失功能的大多数特征值在过度参数的深神经网络的损失景观上接近零,而只有少数特征值大。零特征值表示沿相应方向的零扩散。这表明最小值选择的过程主要发生在与Hessian最高特征值相对应的相对较低的子空间中。尽管参数空间非常高,但这些发现似乎表明SGD动力学可能主要存在于低维歧管上。在本文中,我们采取了一种真正的数据驱动方法,以解决对高维参数表面的潜在深入了解,尤其是通过分析通过SGD或任何其他任何其他数据来追溯到SGD所追踪的景观的理解,尤其是对景观的了解。为此,优化器为了发现优化景观的(本地)低维表示。作为探索的车辆,我们使用R. Coifman和合着者引入的扩散图。
translated by 谷歌翻译
我们开发了一种多尺度方法,以从实验或模拟中观察到的物理字段或配置的数据集估算高维概率分布。通过这种方式,我们可以估计能量功能(或哈密顿量),并有效地在从统计物理学到宇宙学的各个领域中生成多体系统的新样本。我们的方法 - 小波条件重新归一化组(WC-RG) - 按比例进行估算,以估算由粗粒磁场来调节的“快速自由度”的条件概率的模型。这些概率分布是由与比例相互作用相关的能量函数建模的,并以正交小波为基础表示。 WC-RG将微观能量函数分解为各个尺度上的相互作用能量之和,并可以通过从粗尺度到细度来有效地生成新样品。近相变,它避免了直接估计和采样算法的“临界减速”。理论上通过结合RG和小波理论的结果来解释这一点,并为高斯和$ \ varphi^4 $字段理论进行数值验证。我们表明,多尺度WC-RG基于能量的模型比局部电位模型更通用,并且可以在所有长度尺度上捕获复杂的多体相互作用系统的物理。这是针对反映宇宙学中暗物质分布的弱透镜镜头的,其中包括与长尾概率分布的长距离相互作用。 WC-RG在非平衡系统中具有大量的潜在应用,其中未知基础分布{\ it先验}。最后,我们讨论了WC-RG和深层网络体系结构之间的联系。
translated by 谷歌翻译
物理信息的神经网络(PINN)是神经网络(NNS),它们作为神经网络本身的组成部分编码模型方程,例如部分微分方程(PDE)。如今,PINN是用于求解PDE,分数方程,积分分化方程和随机PDE的。这种新颖的方法已成为一个多任务学习框架,在该框架中,NN必须在减少PDE残差的同时拟合观察到的数据。本文对PINNS的文献进行了全面的综述:虽然该研究的主要目标是表征这些网络及其相关的优势和缺点。该综述还试图将出版物纳入更广泛的基于搭配的物理知识的神经网络,这些神经网络构成了香草·皮恩(Vanilla Pinn)以及许多其他变体,例如物理受限的神经网络(PCNN),各种HP-VPINN,变量HP-VPINN,VPINN,VPINN,变体。和保守的Pinn(CPINN)。该研究表明,大多数研究都集中在通过不同的激活功能,梯度优化技术,神经网络结构和损耗功能结构来定制PINN。尽管使用PINN的应用范围广泛,但通过证明其在某些情况下比有限元方法(FEM)等经典数值技术更可行的能力,但仍有可能的进步,最著名的是尚未解决的理论问题。
translated by 谷歌翻译
罕见事件计算研究中的一个中心对象是委员会函数。尽管计算成本高昂,但委员会功能编码涉及罕见事件的过程的完整机械信息,包括反应率和过渡状态合奏。在过渡路径理论(TPT)的框架下,最近的工作[1]提出了一种算法,其中反馈回路融合了一个神经网络,该神经网络将委员会功能建模为重要性采样,主要是伞形采样,该摘要收集了自适应训练所需的数据。在这项工作中,我们显示需要进行其他修改以提高算法的准确性。第一个修改增加了监督学习的要素,这使神经网络通过拟合从短分子动力学轨迹获得的委员会值的样本均值估计来改善其预测。第二个修改用有限的温度字符串(FTS)方法代替了基于委员会的伞采样,该方法可以在过渡途径的区域中进行均匀抽样。我们测试了具有非凸电势能的低维系统的修改,可以通过分析或有限元方法找到参考解决方案,并显示如何将监督学习和FTS方法组合在一起,从而准确地计算了委员会功能和反应速率。我们还为使用FTS方法的算法提供了错误分析,使用少数样品在训练过程中可以准确估算反应速率。然后将这些方法应用于未知参考溶液的分子系统,其中仍然可以获得委员会功能和反应速率的准确计算。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
Despite great progress in simulating multiphysics problems using the numerical discretization of partial differential equations (PDEs), one still cannot seamlessly incorporate noisy data into existing algorithms, mesh generation remains complex, and high-dimensional problems governed by parameterized PDEs cannot be tackled. Moreover, solving inverse problems with hidden physics is often prohibitively expensive and requires different formulations and elaborate computer codes. Machine learning has emerged as a promising alternative, but training deep neural networks requires big data, not always available for scientific problems. Instead, such networks can be trained from additional information obtained by enforcing the physical laws (for example, at random points in the continuous space-time domain). Such physics-informed learning integrates (noisy) data and mathematical models, and implements them through neural networks or other kernel-based regression networks. Moreover, it may be possible to design specialized network architectures that automatically satisfy some of the physical invariants for better accuracy, faster training and improved generalization. Here, we review some of the prevailing trends in embedding physics into machine learning, present some of the current capabilities and limitations and discuss diverse applications of physics-informed learning both for forward and inverse problems, including discovering hidden physics and tackling high-dimensional problems.
translated by 谷歌翻译
这项研究的目的是评估历史匹配的潜力(HM),以调整具有多尺度动力学的气候系统。通过考虑玩具气候模型,即两尺度的Lorenz96模型并在完美模型设置中生产实验,我们详细探讨了如何需要仔细测试几种内置选择。我们还展示了在参数范围内引入物理专业知识的重要性,这是运行HM的先验性。最后,我们重新审视气候模型调整中的经典过程,该程序包括分别调整慢速和快速组件。通过在Lorenz96模型中这样做,我们说明了合理参数的非唯一性,并突出了从耦合中出现的指标的特异性。本文也有助于弥合不确定性量化,机器学习和气候建模的社区,这是通过在每个社区使用的术语之间建立相同概念的术语并提出有希望的合作途径,从而使气候建模研究受益。
translated by 谷歌翻译
动态系统参见在物理,生物学,化学等自然科学中广泛使用,以及电路分析,计算流体动力学和控制等工程学科。对于简单的系统,可以通过应用基本物理法来导出管理动态的微分方程。然而,对于更复杂的系统,这种方法变得非常困难。数据驱动建模是一种替代范式,可以使用真实系统的观察来了解系统的动态的近似值。近年来,对数据驱动的建模技术的兴趣增加,特别是神经网络已被证明提供了解决广泛任务的有效框架。本文提供了使用神经网络构建动态系统模型的不同方式的调查。除了基础概述外,我们还审查了相关的文献,概述了这些建模范式必须克服的数值模拟中最重要的挑战。根据审查的文献和确定的挑战,我们提供了关于有前途的研究领域的讨论。
translated by 谷歌翻译
归一化流量是用于在物理系统中建模概率分布的有希望的工具。虽然最先进的流动精确地近似分布和能量,但物理中的应用还需要平滑能量来计算力量和高阶导数。此外,这种密度通常在非琐碎拓扑上定义。最近的一个例子是用于产生肽和小蛋白质的3D结构的Boltzmann发电机。这些生成模型利用内部坐标(Dihedrals,角度和粘合)的空间,这是过度矫戈尔和紧凑的间隔的产物。在这项工作中,我们介绍了一类在紧凑型间隔和高血症上工作的平滑混合转换。混合物转化采用根除方法在实践中反转它们,这已经防止了双向流动训练。为此,我们示出了通过逆函数定理从前向评估计算这种反转的参数梯度和力。我们展示了如此平滑流动的两个优点:它们允许通过力匹配匹配模拟数据,并且可以用作分子动力学模拟的电位。
translated by 谷歌翻译
我们提供了一个方程/可变的免费机器学习(EVFML)框架,以控制通过基于微观/代理模拟器建模的复杂/多尺度系统的集体动力学。该方法避免了构建替代物,还原级模型的需求。〜所提出的实现包括三个步骤:(a)来自基于高维代理的模拟,机器学习(尤其是非线性歧管学习(扩散图)(扩散地图) (DMS))有助于确定一组粗粒变量,该变量参数化了出现/集体动力学的低维歧管。从高维输入空间到低维歧管和背部,通过将DMS与NyStrom扩展和几何谐波耦合来求解;(b)已确定了歧管及其坐标,我们将方程式的方法利用了方程的方法对出现动力学执行数值分叉分析;然后,基于先前的步骤(C),我们设计了数据驱动的嵌入式洗涤控制器,该控制器将基于代理的模拟器驱动其内在的IM精确知道的,新兴的开环不稳定稳态,因此表明该方案对数值近似误差和建模不确定性是可靠的。交通动态模型和(ii)与哑剧的随机金融市场代理模型的平衡。
translated by 谷歌翻译
分子动力学模拟是科学的基石,允许从系统的热力学调查以分析复杂的分子相互作用。通常,为了创建扩展的分子轨迹,可以是计算昂贵的过程,例如,在运行$ ab-initio $ simulations时。因此,重复这样的计算以获得更准确的热力学或在由细粒度量子相互作用产生的动态中获得更高的分辨率可以是时间和计算的。在这项工作中,我们探讨了不同的机器学习(ML)方法,以提高在后处理步骤内按需的分子动力学轨迹的分辨率。作为概念证明,我们分析了神经杂物,哈密顿网络,经常性神经网络和LSTM等双向神经网络的表现,以及作为参考的单向变体,用于分子动力学模拟(这里是: MD17数据集)。我们发现Bi-LSTMS是表现最佳的模型;通过利用恒温轨迹的局部时对称,它们甚至可以学习远程相关性,并在分子复杂性上显示高稳健性。我们的模型可以达到轨迹插值中最多10美元^ {-4}的准确度,同时忠实地重建了几个无奈复杂的高频分子振动的全周期,使学习和参考轨迹之间的比较难以区分。该工作中报告的结果可以作为更大系统的基线服务(1),以及(2)用于建造更好的MD集成商。
translated by 谷歌翻译
我们使用生成的对抗网络(GaN)展示了一种数学上良好的湍流模型的合成建模方法。基于对遍历性的混沌,确定性系统的分析,我们概述了一个数学证据,即GaN实际上可以学习采样状态快照,从而形成混沌系统的不变度量。基于该分析,我们研究了从Lorenz吸引子开始的混沌系统的层次,然后继续与GaN的湍流模拟。作为培训数据,我们使用从大型涡流模拟(LES)获得的速度波动领域。详细研究了两种建筑:我们使用深卷积的GaN(DCGAN)来合成圆柱周围的湍流。我们还使用PIX2PIXHD架构模拟低压涡轮定子围绕的流量,用于条件DCGAN在定子前方的旋转唤醒位置上调节。解释了对抗性培训的设置和使用特定GAN架构的影响。从而表明,GaN在技术上挑战流动问题的基础上的训练日期是有效的模拟湍流。与经典的数值方法,特别是LES相比,GaN训练和推理时间显着下降,同时仍然在高分辨率下提供湍流流动。
translated by 谷歌翻译