计算催化和机器学习社区在开发用于催化剂发现和设计的机器学习模型方面取得了长足的进步。然而,跨越催化的化学空间的一般机器学习潜力仍然无法触及。一个重大障碍是在广泛的材料中获得访问培训数据的访问。缺乏数据的一类重要材料是氧化物,它抑制模型无法更广泛地研究氧气进化反应和氧化物电催化。为了解决这个问题,我们开发了开放的催化剂2022(OC22)数据集,包括62,521个密度功能理论(DFT)放松(〜9,884,504个单点计算),遍及一系列氧化物材料,覆盖范围,覆盖率和吸附物( *H, *o, *o, *o, *o, *o, * n, *c, *ooh, *oh, *oh2, *o2, *co)。我们定义广义任务,以预测催化过程中适用的总系统能量,发展几个图神经网络的基线性能(Schnet,Dimenet ++,Forcenet,Spinconv,Painn,Painn,Gemnet-DT,Gemnet-DT,Gemnet-OC),并提供预先定义的数据集分割以建立明确的基准,以实现未来的努力。对于所有任务,我们研究组合数据集是否会带来更好的结果,即使它们包含不同的材料或吸附物。具体而言,我们在Open Catalyst 2020(OC20)数据集和OC22上共同训练模型,或OC22上的微调OC20型号。在最一般的任务中,Gemnet-OC看到通过微调来提高了约32%的能量预测,通过联合训练的力预测提高了约9%。令人惊讶的是,OC20和较小的OC22数据集的联合培训也将OC20的总能量预测提高了约19%。数据集和基线模型是开源的,公众排行榜将遵循,以鼓励社区的持续发展,以了解总能源任务和数据。
translated by 谷歌翻译
Computational catalysis is playing an increasingly significant role in the design of catalysts across a wide range of applications. A common task for many computational methods is the need to accurately compute the minimum binding energy - the adsorption energy - for an adsorbate and a catalyst surface of interest. Traditionally, the identification of low energy adsorbate-surface configurations relies on heuristic methods and researcher intuition. As the desire to perform high-throughput screening increases, it becomes challenging to use heuristics and intuition alone. In this paper, we demonstrate machine learning potentials can be leveraged to identify low energy adsorbate-surface configurations more accurately and efficiently. Our algorithm provides a spectrum of trade-offs between accuracy and efficiency, with one balanced option finding the lowest energy configuration, within a 0.1 eV threshold, 86.63% of the time, while achieving a 1387x speedup in computation. To standardize benchmarking, we introduce the Open Catalyst Dense dataset containing nearly 1,000 diverse surfaces and 87,045 unique configurations.
translated by 谷歌翻译
近年来,分子模拟数据集的出现是大数量级,更多样化的阶。这些新数据集在复杂性的四个方面有很大差异:1。化学多样性(不同元素的数量),2。系统大小(每个样品原子数),3。数据集大小(数据样本数)和4.域移动(培训和测试集的相似性)。尽管存在这些较大的差异,但在狭窄和狭窄的数据集上的基准仍然是证明分子模拟的图形神经网络(GNN)进展的主要方法,这可能是由于较便宜的训练计算要求所致。这就提出了一个问题 - GNN在小和狭窄的数据集上的进展是否转化为这些更复杂的数据集?这项工作通过首先根据大型开放催化剂2020(OC20)数据集开发Gemnet-OC模型来研究这个问题。 Gemnet-OC的表现优于OC20上的先前最新ART,同时将训练时间减少10倍。然后,我们比较了18个模型组件和超参数选择对多个数据集的性能的影响。我们发现,根据用于做出模型选择的数据集,所得模型将大不相同。为了隔离这种差异的来源,我们研究了OC20数据集的六个子集,这些子集分别测试了上述四个数据集方面的每个数据集。我们发现,OC-2M子集的结果与完整的OC20数据集良好相关,同时训练得更便宜。我们的发现挑战了仅在小型数据集上开发GNN的常见做法,但突出了通过中等尺寸的代表性数据集(例如OC-2M)以及Gemnet-oc等高效模型来实现快速开发周期和可推广结果的方法。我们的代码和预估计的模型权重是开源的。
translated by 谷歌翻译
这项工作介绍了神经性等因素的外部潜力(NEQUIP),E(3) - 用于学习分子动力学模拟的AB-INITIO计算的用于学习网状体电位的e(3)的神经网络方法。虽然大多数当代对称的模型使用不变的卷曲,但仅在标量上采取行动,Nequip采用E(3) - 几何张量的相互作用,举起Quivariant卷曲,导致了更多的信息丰富和忠实的原子环境代表。该方法在挑战和多样化的分子和材料集中实现了最先进的准确性,同时表现出显着的数据效率。 Nequip优先于现有型号,最多三个数量级的培训数据,挑战深度神经网络需要大量培训套装。该方法的高数据效率允许使用高阶量子化学水平的理论作为参考的精确潜力构建,并且在长时间尺度上实现高保真分子动力学模拟。
translated by 谷歌翻译
磁性材料是许多技术的重要组成部分,可以推动生态过渡,包括电动机,风力涡轮机发生器和磁性制冷系统。因此,发现具有大磁矩的材料是越来越优先的。在这里,使用最先进的机器学习方法,我们扫描数十万现有材料的无机晶体结构数据库(ICSD),以找到那些铁磁并具有大的磁矩。晶体图卷积神经网络(CGCNN),材料图网络(MEGNET)和随机森林都培训了包含高吞吐量DFT预测结果的材料项目数据库。对于随机林,我们使用随机方法选择基于化学成分和晶体结构的近百个相关描述符。事实证明,为测试集提供与神经网络相当的测试集。这些不同机器学习方法之间的比较给出了对ICSD数据库预测的错误的估计。
translated by 谷歌翻译
分子照片开关是光激活药物的基础。关键的照片开关是偶氮苯,它表现出对光线的反式cis异构主义。顺式异构体的热半衰期至关重要,因为它控制着光诱导的生物学效应的持续时间。在这里,我们介绍了一种计算工具,用于预测偶氮苯衍生物的热半衰期。我们的自动化方法使用了经过量子化学数据训练的快速准确的机器学习潜力。在建立在良好的早期证据的基础上,我们认为热异构化是通过Intersystem Crossing介导的旋转来进行的,并将这种机制纳入我们的自动化工作流程。我们使用我们的方法来预测19,000种偶氮苯衍生物的热半衰期。我们探索障碍和吸收波长之间的趋势和权衡,并开源我们的数据和软件以加速光精神病学研究。
translated by 谷歌翻译
新催化剂的发现是计算化学的重要主题之一,因为它有可能加速采用可再生能源。最近开发的深度学习方法,例如图形神经网络(GNNS)开放的新机会,以显着扩大新型高性能催化剂的范围。然而,由于模棱两可的连接方案和节点和边缘的众多嵌入,特定晶体结构的图表并不是一项简单的任务。在这里,我们提出了GNN的嵌入改进,该改进已通过Voronoi Tesselation修改,并能够预测开放催化剂项目数据集中催化系统的能量。通过Voronoi镶嵌计算图的富集,并将相应的触点固体角度和类型(直接或间接)视为边缘的特征,而Voronoi体积用作节点特征。辅助方法是通过内在的原子特性(电负性,周期和组位置)富集节点表示。提出的修改使我们能够改善原始模型的平均绝对误差,最终误差等于“开放催化剂项目数据集”上每个原子的651 MeV,并且在金属中数据集上的每个原子6 MeV。同样,通过考虑其他数据集,我们表明,明智的数据选择可以将误差降低到高于每个原子阈值20 MEV的值的值。
translated by 谷歌翻译
我们提供了证据表明,学到的密度功能理论(``dft')的力场已准备好进行基态催化剂发现。我们的关键发现是,尽管预测的力与地面真相有很大差异,但使用从超过50 \%的评估系统中使用RPBE功能的能量与使用RPBE功能相似或较低能量的力量的力量与使用RPBE功能相似或较低的力量放松。这具有令人惊讶的含义,即学习的潜力可能已经准备好在挑战性的催化系统中替换DFT,例如在Open Catalyst 2020数据集中发现的电位。此外,我们表明,在局部谐波能量表面上具有与目标DFT能量相同的局部谐波能量表面训练的力场也能够在50 \%的情况下找到较低或相似的能量结构。与在真实能量和力量训练的标准模型相比,这种``简易电位''的收敛步骤更少,这进一步加速了计算。它的成功说明了一个关键:即使模型具有高力误差,学到的电位也可以定位能量最小值。结构优化的主要要求仅仅是学到的电位具有正确的最小值。由于学到的电位与系统大小的速度快速且尺寸为线性,因此我们的结果开辟了快速找到大型系统基础状态的可能性。
translated by 谷歌翻译
图神经网络(GNN)从材料科学家那里引起了越来越多的关注,并证明了建立结构和属性之间的连接的高能力。但是,只有仅提供的未删除结构作为输入,很少有GNN模型可以预测带有可接受的误差水平的放松配置的热力学特性。在这项工作中,我们开发了基于Dimenet ++和混合密度网络的多任务(MT)体系结构,以提高此类任务的性能。将基于CU的单原子合金催化剂的共吸附作为例证,我们表明我们的方法可以可靠地估计CO的吸附能,其平均绝对误差为0.087 eV,从初始CO的吸附结构中,而无需昂贵的第一原则计算。此外,与其他最先进的GNN方法相比,我们的模型在预测具有看不见的底物表面或掺杂物种的催化性能时具有提高的概括能力。我们表明,拟议的GNN策略可以促进催化剂发现。
translated by 谷歌翻译
建模原子系统的能量和力是计算化学中的一个基本问题,有可能帮助解决世界上许多最紧迫的问题,包括与能源稀缺和气候变化有关的问题。这些计算传统上是使用密度函数理论进行的,这在计算上非常昂贵。机器学习有可能从天数或小时到秒从天数大幅提高这些计算的效率。我们建议球形通道网络(SCN)对原子能量和力进行建模。 SCN是一个图神经网络,节点代表原子并边缘其相邻原子。原子嵌入是使用球形谐波表示的一组球形函数,称为球形通道。我们证明,通过基于3D边缘方向旋转嵌入式,可以在保持消息的旋转模糊性的同时使用更多信息。虽然均衡性是理想的属性,但我们发现,通过在消息传递和聚合中放松这种约束,可以提高准确性。我们在大规模开放催化剂2020数据集中展示了最新的结果,这些数据集在能源和力量预测中,用于许多任务和指标。
translated by 谷歌翻译
电子密度$ \ rho(\ vec {r})$是用密度泛函理论(dft)计算地面能量的基本变量。除了总能量之外,$ \ rho(\ vec {r})$分布和$ \ rho(\ vec {r})$的功能通常用于捕获电子规模以功能材料和分子中的关键物理化学现象。方法提供对$ \ rho(\ vec {r})的可紊乱系统,其具有少量计算成本的复杂无序系统可以是对材料相位空间的加快探索朝向具有更好功能的新材料的逆设计的游戏更换者。我们为预测$ \ rho(\ vec {r})$。该模型基于成本图形神经网络,并且在作为消息传递图的一部分的特殊查询点顶点上预测了电子密度,但仅接收消息。该模型在多个数据组中进行测试,分子(QM9),液体乙烯碳酸酯电解质(EC)和Lixniymnzco(1-Y-Z)O 2锂离子电池阴极(NMC)。对于QM9分子,所提出的模型的准确性超过了从DFT获得的$ \ Rho(\ vec {r})$中的典型变异性,以不同的交换相关功能,并显示超出最先进的准确性。混合氧化物(NMC)和电解质(EC)数据集更好的精度甚至更好。线性缩放模型同时探测成千上万点的能力允许计算$ \ Rho(\ vec {r})$的大型复杂系统,比DFT快于允许筛选无序的功能材料。
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
The accurate prediction of physicochemical properties of chemical compounds in mixtures (such as the activity coefficient at infinite dilution $\gamma_{ij}^\infty$) is essential for developing novel and more sustainable chemical processes. In this work, we analyze the performance of previously-proposed GNN-based models for the prediction of $\gamma_{ij}^\infty$, and compare them with several mechanistic models in a series of 9 isothermal studies. Moreover, we develop the Gibbs-Helmholtz Graph Neural Network (GH-GNN) model for predicting $\ln \gamma_{ij}^\infty$ of molecular systems at different temperatures. Our method combines the simplicity of a Gibbs-Helmholtz-derived expression with a series of graph neural networks that incorporate explicit molecular and intermolecular descriptors for capturing dispersion and hydrogen bonding effects. We have trained this model using experimentally determined $\ln \gamma_{ij}^\infty$ data of 40,219 binary-systems involving 1032 solutes and 866 solvents, overall showing superior performance compared to the popular UNIFAC-Dortmund model. We analyze the performance of GH-GNN for continuous and discrete inter/extrapolation and give indications for the model's applicability domain and expected accuracy. In general, GH-GNN is able to produce accurate predictions for extrapolated binary-systems if at least 25 systems with the same combination of solute-solvent chemical classes are contained in the training set and a similarity indicator above 0.35 is also present. This model and its applicability domain recommendations have been made open-source at https://github.com/edgarsmdn/GH-GNN.
translated by 谷歌翻译
Developing machine learning-based interatomic potentials from ab-initio electronic structure methods remains a challenging task for computational chemistry and materials science. This work studies the capability of transfer learning for efficiently generating chemically accurate interatomic neural network potentials on organic molecules from the MD17 and ANI data sets. We show that pre-training the network parameters on data obtained from density functional calculations considerably improves the sample efficiency of models trained on more accurate ab-initio data. Additionally, we show that fine-tuning with energy labels alone suffices to obtain accurate atomic forces and run large-scale atomistic simulations. We also investigate possible limitations of transfer learning, especially regarding the design and size of the pre-training and fine-tuning data sets. Finally, we provide GM-NN potentials pre-trained and fine-tuned on the ANI-1x and ANI-1ccx data sets, which can easily be fine-tuned on and applied to organic molecules.
translated by 谷歌翻译
我们向高吞吐量基准介绍了用于材料和分子数据集的化学系统的多种表示的高吞吐量基准的机器学习(ML)框架。基准测试方法的指导原理是通过将模型复杂性限制在简单的回归方案的同时,在执行最佳ML实践的同时将模型复杂性限制为简单的回归方案,允许通过沿着同步的列车测试分裂的系列进行学习曲线来评估学习进度来评估原始描述符性能。结果模型旨在为未来方法开发提供通知的基线,旁边指示可以学习给定的数据集多么容易。通过对各种物理化学,拓扑和几何表示的培训结果的比较分析,我们介绍了这些陈述的相对优点以及它们的相互关联。
translated by 谷歌翻译
机器学习(ML)模型与它们在分子动力学研究中的有用性相反,作为反应屏障搜索的替代潜力,成功的成功有限。这是由于化学空间相关过渡状态区域中训练数据的稀缺性。当前,用于培训小分子系统上的ML模型的可用数据集几乎仅包含在平衡处或附近的配置。在这项工作中,我们介绍了包含960万密度函数理论(DFT)的数据集过渡1X的计算,对WB97X/6-31G(D)理论水平的反应途径上和周围的分子构型的力和能量计算。数据是通过在10K反应上以DFT运行轻度弹性带(NEB)计算而生成的,同时保存中间计算。我们在Transition1x上训练最先进的等效图形消息通讯神经网络模型,并在流行的ANI1X和QM9数据集上进行交叉验证。我们表明,ML模型不能仅通过迄今为止流行的基准数据集进行过渡状态区域的特征。 Transition1x是一种新的具有挑战性的基准,它将为开发下一代ML力场提供一个重要的步骤,该电场也远离平衡配置和反应性系统。
translated by 谷歌翻译
实现一般逆设计可以通过用户定义的属性极大地加速对新材料的发现。然而,最先进的生成模型往往限于特定的组成或晶体结构。这里,我们提出了一种能够一般逆设计的框架(不限于给定的一组元件或晶体结构),其具有在实际和往复空间中编码晶体的广义可逆表示,以及来自变分的属性结构潜空间autoencoder(vae)。在三种设计情况下,该框架通过用户定义的形成能量,带隙,热电(TE)功率因数和组合产生142个新晶体。在训练数据库中缺席的这些生成的晶体通过第一原理计算验证。成功率(验证的第一原理验证的目标圆形晶体/数量的设计晶体)范围为7.1%和38.9%。这些结果表示利用生成模型朝着性质驱动的一般逆设计的重要步骤,尽管在与实验合成结合时仍然存在实际挑战。
translated by 谷歌翻译
机器学习(ML)模型与它们在分子动力学研究中的有用性相反,作为反应屏障搜索的替代潜力,成功的成功有限。这是由于化学空间相关过渡状态区域中训练数据的稀缺性。当前,用于培训小分子系统上的ML模型的可用数据集几乎仅包含在平衡处或附近的配置。在这项工作中,我们介绍了包含960万密度函数理论(DFT)的数据集过渡1X的计算,对WB97X/6-31G(D)理论水平的反应途径上和周围的分子构型的力和能量计算。数据是通过在10K反应上以DFT运行轻度弹性带(NEB)计算而生成的,同时保存中间计算。我们在Transition1x上训练最先进的等效图形消息通讯神经网络模型,并在流行的ANI1X和QM9数据集上进行交叉验证。我们表明,ML模型不能仅通过迄今为止流行的基准数据集进行过渡状态区域的特征。 Transition1x是一种新的具有挑战性的基准,它将为开发下一代ML力场提供一个重要的步骤,该电场也远离平衡配置和反应性系统。
translated by 谷歌翻译
由于控制结构特性关系的分子间相互作用的微妙平衡,预测由分子构建块形成的晶体结构的稳定性是一个高度非平凡的科学问题。一种特别活跃和富有成果的方法涉及对相互作用的化学部分的不同组合进行分类,因为了解不同相互作用的相对能量可以使分子晶体的设计和微调其稳定性。尽管这通常是基于对已知晶体结构中最常见的基序的经验观察进行的,但我们建议采用有监督和无监督的机器学习技术的组合来自动化分子构建块的广泛库。我们介绍了一个针对有机晶体的结合能量预测的结构描述符,并利用以原子为中心的性质来获得对不同化学基团对晶体晶格能量的贡献的数据驱动评估。然后,我们使用结构 - 能量景观的低维表示来解释该库,并讨论可以从本分析中提取的见解的选定示例,从而提供了一个完整的数据库来指导分子材料的设计。
translated by 谷歌翻译
Machine-learning models are increasingly used to predict properties of atoms in chemical systems. There have been major advances in developing descriptors and regression frameworks for this task, typically starting from (relatively) small sets of quantum-mechanical reference data. Larger datasets of this kind are becoming available, but remain expensive to generate. Here we demonstrate the use of a large dataset that we have "synthetically" labelled with per-atom energies from an existing ML potential model. The cheapness of this process, compared to the quantum-mechanical ground truth, allows us to generate millions of datapoints, in turn enabling rapid experimentation with atomistic ML models from the small- to the large-data regime. This approach allows us here to compare regression frameworks in depth, and to explore visualisation based on learned representations. We also show that learning synthetic data labels can be a useful pre-training task for subsequent fine-tuning on small datasets. In the future, we expect that our open-sourced dataset, and similar ones, will be useful in rapidly exploring deep-learning models in the limit of abundant chemical data.
translated by 谷歌翻译