在本文中,我们使用支持向量机(SVM)来开发机器学习框架,以发现区分不同反应途径的相空间结构。SVM模型使用来自Hamilton方程的轨迹的数据进行培训,并且即使使用相对较少的轨迹也很好地运行。此外,该框架专门设计用于在系统中最初的先验知识。这使得我们的方法比现有的高维系统和系统的方法更适合,其中集成轨迹昂贵。我们在Chesnavich's Ch $ _4 ^ + $ Hamiltonian上基准测试我们的方法。
translated by 谷歌翻译
我们开发一种方法来构造来自表示基本上非线性(或不可连锁的)动态系统的数据集构成低维预测模型,其中具有由有限许多频率的外部强制进行外部矫正的双曲线线性部分。我们的数据驱动,稀疏,非线性模型获得为低维,吸引动力系统的光谱子纤维(SSM)的降低的动态的延长正常形式。我们说明了数据驱动的SSM降低了高维数值数据集的功率和涉及梁振荡,涡旋脱落和水箱中的晃动的实验测量。我们发现,在未加工的数据上培训的SSM减少也在额外的外部强制下准确预测非线性响应。
translated by 谷歌翻译
分子动力学模拟是科学的基石,允许从系统的热力学调查以分析复杂的分子相互作用。通常,为了创建扩展的分子轨迹,可以是计算昂贵的过程,例如,在运行$ ab-initio $ simulations时。因此,重复这样的计算以获得更准确的热力学或在由细粒度量子相互作用产生的动态中获得更高的分辨率可以是时间和计算的。在这项工作中,我们探讨了不同的机器学习(ML)方法,以提高在后处理步骤内按需的分子动力学轨迹的分辨率。作为概念证明,我们分析了神经杂物,哈密顿网络,经常性神经网络和LSTM等双向神经网络的表现,以及作为参考的单向变体,用于分子动力学模拟(这里是: MD17数据集)。我们发现Bi-LSTMS是表现最佳的模型;通过利用恒温轨迹的局部时对称,它们甚至可以学习远程相关性,并在分子复杂性上显示高稳健性。我们的模型可以达到轨迹插值中最多10美元^ {-4}的准确度,同时忠实地重建了几个无奈复杂的高频分子振动的全周期,使学习和参考轨迹之间的比较难以区分。该工作中报告的结果可以作为更大系统的基线服务(1),以及(2)用于建造更好的MD集成商。
translated by 谷歌翻译
在本文中,我们考虑了与未知(或部分未知),非平稳性,潜在的嘈杂和混乱的时间演变相关的机器学习(ML)任务,以预测临界点过渡和长期尖端行为动力系统。我们专注于特别具有挑战性的情况,在过去的情况下,过去的动态状态时间序列主要是在状态空间的受限区域中,而要预测的行为会在ML未完全观察到的较大状态空间集中演变出来训练期间的模型。在这种情况下,要求ML预测系统能够推断出在训练过程中观察到的不同动态。我们研究了ML方法在多大程度上能够为此任务完成有用的结果以及它们失败的条件。通常,我们发现即使在极具挑战性的情况下,ML方法也出奇地有效,但是(正如人们所期望的)``需要``太多''的外推。基于科学知识的传统建模的ML方法,因此即使单独采取行动时,我们发现的混合预测系统也可以实现有用的预测。我们还发现,实现有用的结果可能需要使用使用非常仔细选择的ML超参数,我们提出了一个超参数优化策略来解决此问题。本文的主要结论是,基于ML (也许是由于临界点的穿越)包括在训练数据探索的集合中的动态。
translated by 谷歌翻译
许多科学领域需要对复杂系统的时间行为的可靠预测。然而,这种强烈的兴趣是通过建模问题阻碍:通常,描述所考虑的系统物理学的控制方程是不可访问的,或者在已知时,它们的解决方案可能需要与预测时间约束不兼容的计算时间。如今,以通用功能格式近似复杂的系统,并从可用观察中通知IT Nihilo已成为一个常见的做法,如过去几年出现的巨大科学工作所示。许多基于深神经网络的成功示例已经可用,尽管易于忽视了模型和保证边缘的概括性。在这里,我们考虑长期内存神经网络,并彻底调查训练集的影响及其结构对长期预测的质量。利用ergodic理论,我们分析了保证物理系统忠实模型的先验的数据量。我们展示了根据系统不变的培训集的知情设计如何以及潜在的吸引子的结构,显着提高了所产生的模型,在积极学习的背景下开放研究。此外,将说明依赖于存储器能够的模型时内存初始化的非琐碎效果。我们的调查结果为有效数据驱动建模的任何复杂动态系统所需的数量和选择提供了基于证据的良好实践。
translated by 谷歌翻译
罕见事件计算研究中的一个中心对象是委员会函数。尽管计算成本高昂,但委员会功能编码涉及罕见事件的过程的完整机械信息,包括反应率和过渡状态合奏。在过渡路径理论(TPT)的框架下,最近的工作[1]提出了一种算法,其中反馈回路融合了一个神经网络,该神经网络将委员会功能建模为重要性采样,主要是伞形采样,该摘要收集了自适应训练所需的数据。在这项工作中,我们显示需要进行其他修改以提高算法的准确性。第一个修改增加了监督学习的要素,这使神经网络通过拟合从短分子动力学轨迹获得的委员会值的样本均值估计来改善其预测。第二个修改用有限的温度字符串(FTS)方法代替了基于委员会的伞采样,该方法可以在过渡途径的区域中进行均匀抽样。我们测试了具有非凸电势能的低维系统的修改,可以通过分析或有限元方法找到参考解决方案,并显示如何将监督学习和FTS方法组合在一起,从而准确地计算了委员会功能和反应速率。我们还为使用FTS方法的算法提供了错误分析,使用少数样品在训练过程中可以准确估算反应速率。然后将这些方法应用于未知参考溶液的分子系统,其中仍然可以获得委员会功能和反应速率的准确计算。
translated by 谷歌翻译
Koopman运算符是无限维的运算符,可全球线性化非线性动态系统,使其光谱信息可用于理解动态。然而,Koopman运算符可以具有连续的光谱和无限维度的子空间,使得它们的光谱信息提供相当大的挑战。本文介绍了具有严格融合的数据驱动算法,用于从轨迹数据计算Koopman运算符的频谱信息。我们引入了残余动态模式分解(ResDMD),它提供了第一种用于计算普通Koopman运算符的Spectra和PseudtoStra的第一种方案,无需光谱污染。使用解析器操作员和RESDMD,我们还计算与测量保存动态系统相关的光谱度量的平滑近似。我们证明了我们的算法的显式收敛定理,即使计算连续频谱和离散频谱的密度,也可以实现高阶收敛即使是混沌系统。我们展示了在帐篷地图,高斯迭代地图,非线性摆,双摆,洛伦茨系统和11美元延长洛伦兹系统的算法。最后,我们为具有高维状态空间的动态系统提供了我们的算法的核化变体。这使我们能够计算与具有20,046维状态空间的蛋白质分子的动态相关的光谱度量,并计算出湍流流过空气的误差界限的非线性Koopman模式,其具有雷诺数为$> 10 ^ 5 $。一个295,122维的状态空间。
translated by 谷歌翻译
多项式方程的参数化系统在科学和工程中的许多应用中都出现了真实的解决方案,例如,描述了动态系统的平衡,链接满足设计约束,以及计算机视觉中的场景重建。由于不同的参数值可以具有不同数量的实际解决方案,因此参数空间被分解为边界形成真实判别基因座的区域。本文认为将真实的判别基因座定位为机器学习中的监督分类问题,该目标是确定参数空间上的分类边界,其中类是实际解决方案的数量。对于多维参数空间,本文提出了一种新型的采样方法,该方法仔细采样了参数空间。在每个示例点,同质延续用于获取相应多项式系统的真实溶液数量。包括最近的邻居和深度学习在内的机器学习技术可有效地近似实际的判别基因座。学习了真实判别基因座的一种应用是开发一种真实的同义方法,该方法仅跟踪真正的解决方案路径,与传统方法不同,该方法跟踪所有〜复杂〜解决方案路径。示例表明,所提出的方法可以有效地近似复杂的解决方案边界,例如由库拉莫托模型的平衡引起的。
translated by 谷歌翻译
使用精确能量功能的原子模拟可以为气体和冷凝相中的分子的功能运动提供分子水平洞察。与最近开发的和目前在整合和结合的努力与机器学习技术相结合,提供了一个独特的机会,使这种动态模拟更接近现实。这种观点界定了现场其他人的努力和您自己的工作的现状,并讨论了开放问题和未来的前景。
translated by 谷歌翻译
Traditionally, robots are regarded as universal motion generation machines. They are designed mainly by kinematics considerations while the desired dynamics is imposed by strong actuators and high-rate control loops. As an alternative, one can first consider the robot's intrinsic dynamics and optimize it in accordance with the desired tasks. Therefore, one needs to better understand intrinsic, uncontrolled dynamics of robotic systems. In this paper we focus on periodic orbits, as fundamental dynamic properties with many practical applications. Algebraic topology and differential geometry provide some fundamental statements about existence of periodic orbits. As an example, we present periodic orbits of the simplest multi-body system: the double-pendulum in gravity. This simple system already displays a rich variety of periodic orbits. We classify these into three classes: toroidal orbits, disk orbits and nonlinear normal modes. Some of these we found by geometrical insights and some by numerical simulation and sampling.
translated by 谷歌翻译
计算催化和机器学习社区在开发用于催化剂发现和设计的机器学习模型方面取得了长足的进步。然而,跨越催化的化学空间的一般机器学习潜力仍然无法触及。一个重大障碍是在广泛的材料中获得访问培训数据的访问。缺乏数据的一类重要材料是氧化物,它抑制模型无法更广泛地研究氧气进化反应和氧化物电催化。为了解决这个问题,我们开发了开放的催化剂2022(OC22)数据集,包括62,521个密度功能理论(DFT)放松(〜9,884,504个单点计算),遍及一系列氧化物材料,覆盖范围,覆盖率和吸附物( *H, *o, *o, *o, *o, *o, * n, *c, *ooh, *oh, *oh2, *o2, *co)。我们定义广义任务,以预测催化过程中适用的总系统能量,发展几个图神经网络的基线性能(Schnet,Dimenet ++,Forcenet,Spinconv,Painn,Painn,Gemnet-DT,Gemnet-DT,Gemnet-OC),并提供预先定义的数据集分割以建立明确的基准,以实现未来的努力。对于所有任务,我们研究组合数据集是否会带来更好的结果,即使它们包含不同的材料或吸附物。具体而言,我们在Open Catalyst 2020(OC20)数据集和OC22上共同训练模型,或OC22上的微调OC20型号。在最一般的任务中,Gemnet-OC看到通过微调来提高了约32%的能量预测,通过联合训练的力预测提高了约9%。令人惊讶的是,OC20和较小的OC22数据集的联合培训也将OC20的总能量预测提高了约19%。数据集和基线模型是开源的,公众排行榜将遵循,以鼓励社区的持续发展,以了解总能源任务和数据。
translated by 谷歌翻译
这篇综述的目的是将读者介绍到图表内,以将其应用于化学信息学中的分类问题。图内核是使我们能够推断分子的化学特性的功能,可以帮助您完成诸如寻找适合药物设计的化合物等任务。内核方法的使用只是一种特殊的两种方式量化了图之间的相似性。我们将讨论限制在这种方法上,尽管近年来已经出现了流行的替代方法,但最著名的是图形神经网络。
translated by 谷歌翻译
The saddle point (SP) calculation is a grand challenge for computationally intensive energy function in computational chemistry area, where the saddle point may represent the transition state (TS). The traditional methods need to evaluate the gradients of the energy function at a very large number of locations. To reduce the number of expensive computations of the true gradients, we propose an active learning framework consisting of a statistical surrogate model, Gaussian process regression (GPR) for the energy function, and a single-walker dynamics method, gentle accent dynamics (GAD), for the saddle-type transition states. SP is detected by the GAD applied to the GPR surrogate for the gradient vector and the Hessian matrix. Our key ingredient for efficiency improvements is an active learning method which sequentially designs the most informative locations and takes evaluations of the original model at these locations to train GPR. We formulate this active learning task as the optimal experimental design problem and propose a very efficient sample-based sub-optimal criterion to construct the optimal locations. We show that the new method significantly decreases the required number of energy or force evaluations of the original model.
translated by 谷歌翻译
我们介绍了一种算法,用于计算采样歧管的测量测量算法,其依赖于对采样数据的植物嵌入的曲线图的模拟。我们的方法利用经典的结果在半导体分析和量子古典对应中,并形成用于学习数据集的歧管的技术的基础,随后用于高维数据集的非线性维度降低。我们以基于CoVID-19移动数据的聚类演示,从模型歧管中采样数据采样的数据,并通过集群演示来说明新的算法。最后,我们的方法揭示了数据采样和量化提供的离散化之间有趣的连接。
translated by 谷歌翻译
储层计算是一种机器学习方法,可以生成动态系统的替代模型。它可以使用较少的可训练参数来学习基础动力系统,从而比竞争方法更少。最近,一种更简单的公式(称为下一代储层计算)可以去除许多算法的元掌握器,并识别出良好的传统储层计算机,从而进一步简化了训练。在这里,我们研究了一个特别具有挑战性的问题,即学习具有不同时间尺度和多个共存动态状态(吸引子)的动态系统。我们使用量化地面真相和预测吸引子的几何形状的指标比较了下一代和传统的储层计算机。对于所研究的四维系统,下一代储层计算方法使用$ \ sim 1.7 \ times $少培训数据,需要$ 10^3 \ times $ $ shorter $ shorter“热身”时间,具有$ \ \ \ \ \ \ \ \ \ \ \ \ \ SIM 100 \ times $与传统的储层计算机相比,预测共存吸引人特性的精度更高。此外,我们证明了它以高精度预测吸引力的盆地。这项工作为动态系统的这种新机器学习算法的出色学习能力提供了进一步的支持。
translated by 谷歌翻译
为N($ ^ 4 $ s)+ o $ _呈现和定量测试了一种用于预测来自特定初始状态(状态为分布或STD)的产品状态分布的机器学习(ML)模型。 {2} $(x $ ^ 3 \ sigma _ {\ rm g} ^ { - } $)$ \ lightarrow $ no(x $ ^ 2 \ pi $)+ o($ ^ 3 $ p)反应。用于训练神经网络(NN)的参考数据集由用于$ \ SIM 2000 $初始条件的显式准古典轨迹(QCT)模拟确定的最终状态分布。总体而言,通过根均方平方差价量化的预测精度$(\ SIM 0.003)$和$ r ^ 2 $ $(\ SIM 0.99)$之间的参考QCT和STD模型的预测很高测试集和离网状态特定的初始条件和从反应性状态分布中汲取的初始条件,其特征在于通过平移,旋转和振动温度。与在相同的初始状态分布上评估的更粗糙的粒度分布 - 分布(DTD)模型相比,STD模型表明了在反应物制剂中的状态分辨率的额外益处具有相当的性能。从特定的初始状态开始,还导致更多样化的最终状态分布,需要更具表现力的神经网络与DTD相比。显式QCT模拟之间的直接比较,STD模型和广泛使用的Larsen-Borgnakke(LB)模型表明,STD模型是定量的,而LB模型最适合旋转分布$ P(J')$和失败振动分布$ p(v')$。因此,STD模型可以非常适合模拟非预测高速流,例如,使用直接仿真蒙特卡罗方法。
translated by 谷歌翻译
最近,对具有神经网络的物理系统建模和计算的兴趣越来越多。在古典力学中,哈密顿系统是一种优雅而紧凑的形式主义,该动力学由一个标量功能,哈密顿量完全决定。解决方案轨迹通常受到约束,以在线性矢量空间的子序列上进化。在这项工作中,我们提出了新的方法,以准确地逼近其解决方案的示例数据信息的约束机械系统的哈密顿功能。我们通过使用明确的谎言组集成商和其他经典方案来关注学习策略中约束的重要性。
translated by 谷歌翻译
预测分子系统的结构和能量特性是分子模拟的基本任务之一,并且具有化学,生物学和医学的用例。在过去的十年中,机器学习算法的出现影响了各种任务的分子模拟,包括原子系统的财产预测。在本文中,我们提出了一种新的方法,用于将从简单分子系统获得的知识转移到更复杂的知识中,并具有明显的原子和自由度。特别是,我们专注于高自由能状态的分类。我们的方法依赖于(i)分子的新型超图表,编码所有相关信息来表征构象的势能,以及(ii)新的消息传递和汇总层来处理和对此类超图结构数据进行预测。尽管问题的复杂性,但我们的结果表明,从三丙氨酸转移到DECA-丙氨酸系统的转移学习中,AUC的AUC为0.92。此外,我们表明,相同的转移学习方法可以用无监督的方式分组,在具有相似的自由能值的簇中,deca-丙氨酸的各种二级结构。我们的研究代表了一个概念证明,即可以设计用于分子系统的可靠传输学习模型,为预测生物学相关系统的结构和能量性能的未开发途径铺平道路。
translated by 谷歌翻译
本文介绍了一组数字方法,用于在不变(弹性)二阶Sobolev指标的设置中对3D表面进行Riemannian形状分析。更具体地说,我们解决了代表为3D网格的参数化或未参数浸入式表面之间的测量学和地球距离的计算。在此基础上,我们为表面集的统计形状分析开发了工具,包括用于估算Karcher均值并在形状群体上执行切线PCA的方法,以及计算沿表面路径的平行传输。我们提出的方法从根本上依赖于通过使用Varifold Fidelity术语来为地球匹配问题提供轻松的变异配方,这使我们能够在计算未参数化表面之间的地理位置时强制执行重新训练的独立性,同时还可以使我们能够与多用途算法相比,使我们能够将表面与vare表面进行比较。采样或网状结构。重要的是,我们演示了如何扩展放松的变分框架以解决部分观察到的数据。在合成和真实的各种示例中,说明了我们的数值管道的不同好处。
translated by 谷歌翻译
本文为工程产品的计算模型或仅返回分类信息的过程提供了一种新的高效和健壮方法,用于罕见事件概率估计,例如成功或失败。对于此类模型,大多数用于估计故障概率的方法,这些方法使用结果的数值来计算梯度或估计与故障表面的接近度。即使性能函数不仅提供了二进制输出,系统的状态也可能是连续输入变量域中定义的不平滑函数,甚至是不连续的函数。在这些情况下,基于经典的梯度方法通常会失败。我们提出了一种简单而有效的算法,该算法可以从随机变量的输入域进行顺序自适应选择点,以扩展和完善简单的基于距离的替代模型。可以在连续采样的任何阶段完成两个不同的任务:(i)估计失败概率,以及(ii)如果需要进一步改进,则选择最佳的候选者进行后续模型评估。选择用于模型评估的下一个点的建议标准最大化了使用候选者分类的预期概率。因此,全球探索与本地剥削之间的完美平衡是自动维持的。该方法可以估计多种故障类型的概率。此外,当可以使用模型评估的数值来构建平滑的替代物时,该算法可以容纳此信息以提高估计概率的准确性。最后,我们定义了一种新的简单但一般的几何测量,这些测量是对稀有事实概率对单个变量的全局敏感性的定义,该度量是作为所提出算法的副产品获得的。
translated by 谷歌翻译