我们开发了一种组合量子蒙特卡罗的准确性在描述与机器学习电位(MLP)的效率描述电子相关性的技术。我们使用内核线性回归与肥皂(平滑的重叠原子位置)方法结合使用,以非常有效的方式在此实现。关键成分是:i)一种基于最远点采样的稀疏技术,确保我们的MLP的一般性和可转换性和II)所谓的$ \ Delta $ -Learning,允许小型训练数据集,这是一种高度准确的基本属性但是计算地要求计算,例如基于量子蒙特卡罗的计算。作为第一个应用,我们通过强调这一非常高精度的重要性,展示了高压氢气液体过渡的基准研究,并显示了我们的MLP的高精度的重要性,实验室在实验中难以进行实验,以及实验理论仍然远非结论。
translated by 谷歌翻译
最近,机器学习(ML)电位的发展使得以量子力学(QM)模型的精度进行大规模和长期分子模拟成为可能。但是,对于高水平的QM方法,例如在元gga级和/或具有精确交换的密度函数理论(DFT),量子蒙特卡洛等,生成足够数量的用于训练的数据由于其高成本,计算挑战性。在这项工作中,我们证明了基于ML的DFT模型Deep Kohn-Sham(Deepks)可以在很大程度上缓解这个问题。 DeepKS采用计算高效的基于神经网络的功能模型来构建在廉价DFT模型上添加的校正项。在训练后,DeepKs提供了与高级QM方法相比,具有紧密匹配的能量和力,但是所需的训练数据的数量是比训练可靠的ML潜力所需的数量级要小。因此,DeepKs可以用作昂贵的QM型号和ML电位之间的桥梁:一个人可以生成相当数量的高准确性QM数据来训练DeepKs模型,然后使用DeepKs型号来标记大量的配置以标记训练ML潜力。该周期系统方案在DFT软件包算盘中实施,该计划是开源的,可以在各种应用程序中使用。
translated by 谷歌翻译
机器学习电位通常是在基态的,未脑的能量表面上训练的,该能量表面仅取决于原子位置而不取决于模拟温度。这无视热激发电子的影响,这在金属中很重要,对于描述温暖的物质至关重要。这些效果的准确物理描述要求该核在温度依赖性电子自由能上移动。我们提出了一种方法,以在任意电子温度下使用地面计算中专门训练数据,避免需要训练温度依赖的电位,并在金属液体氢上基准在任意电子温度下获得该自由能的机器学习预测。天然气巨头和棕色矮人的核心。这项工作证明了混合方案的优势,这些方案使用物理考虑来结合机器学习预测,为开发类似方法的开发提供了蓝图,这些方法通过消除物理和数据驱动方法之间的屏障来扩展原子建模的覆盖范围。
translated by 谷歌翻译
分子或材料的电子密度最近作为机器学习模型的目标数量受到了主要关注。一种自然选择,用于构建可传递可转移和线性缩放预测的模型是使用类似于通常用于密度拟合近似值的常规使用的原子基础来表示标量场。但是,基础的非正交性对学习练习构成了挑战,因为它需要立即考虑所有原子密度成分。我们设计了一种基于梯度的方法,可以直接在优化且高度稀疏的特征空间中最大程度地减少回归问题的损失函数。这样,我们克服了与采用以原子为中心的模型相关的限制,以在任意复杂的数据集上学习电子密度,从而获得极为准确的预测。增强的框架已在32个液体水的32个周期细胞上进行测试,具有足够的复杂性,需要在准确性和计算效率之间取得最佳平衡。我们表明,从预测的密度开始,可以执行单个Kohn-Sham对角度步骤,以访问总能量组件,而总能量组件仅针对参考密度函数计算,而误差仅为0.1 MEV/ATOM。最后,我们测试了高度异构QM9基准数据集的方法,这表明训练数据的一小部分足以在化学精度内得出地面总能量。
translated by 谷歌翻译
开发神经网络电位(NNPS)的一个隐藏但重要的问题是培训算法的选择。在这里,我们使用Photl-Parrinello神经网络(BPNN)和两个可公开可访问的液体数据集进行比较两个流行训练算法,自适应力矩估计算法(ADAM)和扩展卡尔曼滤波算法(EKF)的性能。natl。阿卡。SCI。U.S.A. 2016,113,8368-8373和Proc。natl。阿卡。SCI。U.S.A. 2019,116,1110-1115]。这是通过在Tensorflow中实施EKF来实现的。结果发现,与ADAM相比,用EKF培训的NNP对学习率的价值更为可转让和更敏感。在这两种情况下,验证集的错误指标并不总是作为NNP的实际性能的良好指标。相反,我们表明它们的性能很好地与基于Fisher信息的相似度措施相互作用。
translated by 谷歌翻译
Data-driven interatomic potentials have emerged as a powerful class of surrogate models for {\it ab initio} potential energy surfaces that are able to reliably predict macroscopic properties with experimental accuracy. In generating accurate and transferable potentials the most time-consuming and arguably most important task is generating the training set, which still requires significant expert user input. To accelerate this process, this work presents \text{\it hyperactive learning} (HAL), a framework for formulating an accelerated sampling algorithm specifically for the task of training database generation. The key idea is to start from a physically motivated sampler (e.g., molecular dynamics) and add a biasing term that drives the system towards high uncertainty and thus to unseen training configurations. Building on this framework, general protocols for building training databases for alloys and polymers leveraging the HAL framework will be presented. For alloys, ACE potentials for AlSi10 are created by fitting to a minimal HAL-generated database containing 88 configurations (32 atoms each) with fast evaluation times of <100 microsecond/atom/cpu-core. These potentials are demonstrated to predict the melting temperature with excellent accuracy. For polymers, a HAL database is built using ACE, able to determine the density of a long polyethylene glycol (PEG) polymer formed of 200 monomer units with experimental accuracy by only fitting to small isolated PEG polymers with sizes ranging from 2 to 32.
translated by 谷歌翻译
氢化镁(MGH $ _2 $)已被广泛研究有效储氢。然而,其散装解吸温度(553 k)被认为是实际应用的太高。除了掺杂外,可以降低这种用于释放氢的这种反应能量的策略是使用MGH $ _2 $基本的纳米颗粒(NPS)。在这里,我们首先调查Mg $ _N $ H $ _ {2n} $ NPS($ N <10 $)的热力学特性,特别是通过评估对焓,熵和热膨胀的anharmonic影响随机自我一致的谐波近似(SSCHA)。后一种方法超出了先前的方法,通常基于分子力学和准谐波近似,允许AB初始自由能量计算。我们发现了几乎线性依赖于间隙键长度的温度 - 具有超过300k的相对变化,与Mg-H键的键距离降低。为了将NPS的大小增加到MGH $ _2 $的氢解吸的实验中,我们设计了培训的计算有效的机器学习模型,以准确地确定力量和总能量(即潜在能量表面),与SSCHA模型集成了后者完全包括anharmonic效应。我们发现亚纳米簇Mg $ _n $ h $ _ {2n} $以$ n \ leq 10 $的显着减少,但不可忽视,虽然因anharmonicities(最多) 10%)。
translated by 谷歌翻译
这项工作介绍了神经性等因素的外部潜力(NEQUIP),E(3) - 用于学习分子动力学模拟的AB-INITIO计算的用于学习网状体电位的e(3)的神经网络方法。虽然大多数当代对称的模型使用不变的卷曲,但仅在标量上采取行动,Nequip采用E(3) - 几何张量的相互作用,举起Quivariant卷曲,导致了更多的信息丰富和忠实的原子环境代表。该方法在挑战和多样化的分子和材料集中实现了最先进的准确性,同时表现出显着的数据效率。 Nequip优先于现有型号,最多三个数量级的培训数据,挑战深度神经网络需要大量培训套装。该方法的高数据效率允许使用高阶量子化学水平的理论作为参考的精确潜力构建,并且在长时间尺度上实现高保真分子动力学模拟。
translated by 谷歌翻译
几乎每个机器学习算法的输入瞄准原子秤上的物质属性涉及笛卡尔原子坐标列表的转换为更称对称表示。许多最流行的表示可以被视为原子密度的对称相关性的扩展,并且主要在于基础的选择。相当大的努力一直致力于优化基础集,通常由关于回归目标行为的启发式考虑因素驱动。在这里,我们采取了不同的无监督的观点,旨在确定以最紧凑的方式进行编码的基础,可能是与手头数据集相关的结构信息。对于每个训练数据集和基础函数数,可以确定在这种意义上最佳的独特基础,并且可以通过用样条近似于近似地基于原始基础来计算。我们证明,这种结构产生了准确和计算效率的表示,特别是在构建对应于高于高机标相关性的表示时。我们提出了涉及分子和凝聚相机器学习模型的示例。
translated by 谷歌翻译
Developing machine learning-based interatomic potentials from ab-initio electronic structure methods remains a challenging task for computational chemistry and materials science. This work studies the capability of transfer learning for efficiently generating chemically accurate interatomic neural network potentials on organic molecules from the MD17 and ANI data sets. We show that pre-training the network parameters on data obtained from density functional calculations considerably improves the sample efficiency of models trained on more accurate ab-initio data. Additionally, we show that fine-tuning with energy labels alone suffices to obtain accurate atomic forces and run large-scale atomistic simulations. We also investigate possible limitations of transfer learning, especially regarding the design and size of the pre-training and fine-tuning data sets. Finally, we provide GM-NN potentials pre-trained and fine-tuned on the ANI-1x and ANI-1ccx data sets, which can easily be fine-tuned on and applied to organic molecules.
translated by 谷歌翻译
分子照片开关是光激活药物的基础。关键的照片开关是偶氮苯,它表现出对光线的反式cis异构主义。顺式异构体的热半衰期至关重要,因为它控制着光诱导的生物学效应的持续时间。在这里,我们介绍了一种计算工具,用于预测偶氮苯衍生物的热半衰期。我们的自动化方法使用了经过量子化学数据训练的快速准确的机器学习潜力。在建立在良好的早期证据的基础上,我们认为热异构化是通过Intersystem Crossing介导的旋转来进行的,并将这种机制纳入我们的自动化工作流程。我们使用我们的方法来预测19,000种偶氮苯衍生物的热半衰期。我们探索障碍和吸收波长之间的趋势和权衡,并开源我们的数据和软件以加速光精神病学研究。
translated by 谷歌翻译
我们为致密氢的方程式提供了基于深层生成模型的变化自由能方法。我们采用归一化流网络来对质子玻尔兹曼分布和费米子神经网络进行建模,以在给定的质子位置对电子波函数进行建模。通过共同优化两个神经网络,我们达到了与先前的电子蒙特卡洛计算相当的变异自由能。我们的结果表明,与先前的蒙特卡洛和从头算分子动力学数据相比,行星条件下的氢甚至更浓密,这远离经验化学模型的预测。获得可靠的密集氢状态方程,尤其是直接进入熵和自由能,为行星建模和高压物理学研究开辟了新的机会。
translated by 谷歌翻译
Machine-learning models are increasingly used to predict properties of atoms in chemical systems. There have been major advances in developing descriptors and regression frameworks for this task, typically starting from (relatively) small sets of quantum-mechanical reference data. Larger datasets of this kind are becoming available, but remain expensive to generate. Here we demonstrate the use of a large dataset that we have "synthetically" labelled with per-atom energies from an existing ML potential model. The cheapness of this process, compared to the quantum-mechanical ground truth, allows us to generate millions of datapoints, in turn enabling rapid experimentation with atomistic ML models from the small- to the large-data regime. This approach allows us here to compare regression frameworks in depth, and to explore visualisation based on learned representations. We also show that learning synthetic data labels can be a useful pre-training task for subsequent fine-tuning on small datasets. In the future, we expect that our open-sourced dataset, and similar ones, will be useful in rapidly exploring deep-learning models in the limit of abundant chemical data.
translated by 谷歌翻译
对称考虑对于用于提供原子配置的有效数学表示的主要框架的核心,然后在机器学习模型中用于预测与每个结构相关的特性。在大多数情况下,模型依赖于以原子为中心的环境的描述,并且适合于学习可以分解成原子贡献的原子特性或全局观察到。然而,许多与量子机械计算相关的数量 - 最值得注意的是,以原子轨道基础写入时的单粒子哈密顿矩阵 - 与单个中心无关,但结构中有两个(或更多个)原子。我们讨论一系列结构描述符,以概括为N中心案例的非常成功的原子居中密度相关特征,特别是如何应用这种结构,以有效地学习(有效)单粒子汉密尔顿人的矩阵元素以原子为中心的轨道基础。这些N中心的特点是完全的,不仅在转换和旋转方面,而且还就与原子相关的指数的排列而言 - 并且适合于构建新类的对称适应的机器学习模型分子和材料的性质。
translated by 谷歌翻译
基于原子间位置的相关性的机器学习框架首先是对系统中每个原子附近其他原子密度的离散描述。对称考虑因素支持使用球形谐波扩大该密度的角度依赖性,但是尚无明确的理由来选择一种径向基础而不是另一种径向基础。在这里,我们调查了laplacian特征值问题在感兴趣原子周围的球体中的解决方案。我们表明,这在球体内生成了给定尺寸的最平稳依据,并且拉普拉斯本征态的张量产品也为扩展适当的超晶体内原子密度的任何高阶相关性提供了最平稳的可能基础。我们考虑了给定数据集的基础质量的几个无监督的指标,并表明拉普拉斯特征态的基础的性能比某些广泛使用的基础集要好得多,并且与数据驱动的基础具有竞争力,该基础基础具有数值优化每个度量的基础。在监督的机器学习测试中,我们发现拉普拉斯特征状态的最佳功能平滑度导致可比或更好的性能,而不是从相似大小的数据驱动的基础上获得的,该基础已优化,以描述用于描述原子密度相关的相关性特定数据集。我们得出的结论是,基本函数的平滑度是成功的原子密度表示的关键,迄今为止,迄今为止却在很大程度上被忽略了。
translated by 谷歌翻译
机器学习,特别是深度学习方法在许多模式识别和数据处理问题,游戏玩法中都优于人类的能力,现在在科学发现中也起着越来越重要的作用。机器学习在分子科学中的关键应用是通过使用密度函数理论,耦合群或其他量子化学方法获得的电子schr \“ odinger方程的Ab-Initio溶液中的势能表面或力场。我们回顾了一种最新和互补的方法:使用机器学习来辅助从第一原理中直接解决量子化学问题。具体来说,我们专注于使用神经网络ANSATZ功能的量子蒙特卡洛(QMC)方法,以解决电子SCHR \ “ Odinger方程在第一和第二量化中,计算场和激发态,并概括多个核构型。与现有的量子化学方法相比,这些新的深QMC方法具有以相对适度的计算成本生成高度准确的Schr \“ Odinger方程的溶液。
translated by 谷歌翻译
我们提供了证据表明,学到的密度功能理论(``dft')的力场已准备好进行基态催化剂发现。我们的关键发现是,尽管预测的力与地面真相有很大差异,但使用从超过50 \%的评估系统中使用RPBE功能的能量与使用RPBE功能相似或较低能量的力量的力量与使用RPBE功能相似或较低的力量放松。这具有令人惊讶的含义,即学习的潜力可能已经准备好在挑战性的催化系统中替换DFT,例如在Open Catalyst 2020数据集中发现的电位。此外,我们表明,在局部谐波能量表面上具有与目标DFT能量相同的局部谐波能量表面训练的力场也能够在50 \%的情况下找到较低或相似的能量结构。与在真实能量和力量训练的标准模型相比,这种``简易电位''的收敛步骤更少,这进一步加速了计算。它的成功说明了一个关键:即使模型具有高力误差,学到的电位也可以定位能量最小值。结构优化的主要要求仅仅是学到的电位具有正确的最小值。由于学到的电位与系统大小的速度快速且尺寸为线性,因此我们的结果开辟了快速找到大型系统基础状态的可能性。
translated by 谷歌翻译
基于原子量表的材料建模在新材料的发展及其特性的理解中起着重要作用。粒子模拟的准确性由原子间电位确定,该电位允许计算原子系统的势能作为原子坐标和潜在的其他特性的函数。基于原理的临界电位可以达到任意水平的准确性,但是它们的合理性受其高计算成本的限制。机器学习(ML)最近已成为一种有效的方法,可以通过用经过电子结构数据培训的高效替代物代替昂贵的模型来抵消Ab始于原子电位的高计算成本。在当前大量方法中,符号回归(SR)正在成为一种强大的“白盒”方法,以发现原子质潜力的功能形式。这项贡献讨论了符号回归在材料科学(MS)中的作用,并对当前的方法论挑战和最新结果提供了全面的概述。提出了一种基于遗传编程的方法来建模原子能(由原子位置和相关势能的快照组成),并在从头算电子结构数据上进行了经验验证。
translated by 谷歌翻译
粗粒(CG)分子模拟已成为研究全原子模拟无法访问的时间和长度尺度上分子过程的标准工具。参数化CG力场以匹配全原子模拟,主要依赖于力匹配或相对熵最小化,这些熵最小化分别需要来自具有全原子或CG分辨率的昂贵模拟中的许多样本。在这里,我们提出了流量匹配,这是一种针对CG力场的新训练方法,它通过利用正常流量(一种生成的深度学习方法)来结合两种方法的优势。流量匹配首先训练标准化流程以表示CG概率密度,这等同于最小化相对熵而无需迭代CG模拟。随后,该流量根据学习分布生成样品和力,以通过力匹配来训练所需的CG能量模型。即使不需要全部原子模拟的力,流程匹配就数据效率的数量级优于经典力匹配,并产生CG模型,可以捕获小蛋白质的折叠和展开过渡。
translated by 谷歌翻译
我们描述了与全球结构搜索方法结合使用的局部替代模型。该模型遵循高斯近似电势(GAP)形式主义,并基于原子位置描述符的平滑重叠,而使用Mini Batch $ K $ -MEANS则减少了本地环境的稀疏性。该模型是在原子全局优化X框架中实现的,并用作盆地跳结构搜索中局部放松的部分替代。该方法对于多种原子系统(包括分子,纳米颗粒,表面支撑的簇和表面薄膜)来说是可靠的。展示了本地替代模型的结构搜索环境中的好处。这包括从较小的系统转移学习的能力,以及执行并发多层计量搜索的可能性。
translated by 谷歌翻译