电子密度$ \ rho(\ vec {r})$是用密度泛函理论(dft)计算地面能量的基本变量。除了总能量之外,$ \ rho(\ vec {r})$分布和$ \ rho(\ vec {r})$的功能通常用于捕获电子规模以功能材料和分子中的关键物理化学现象。方法提供对$ \ rho(\ vec {r})的可紊乱系统,其具有少量计算成本的复杂无序系统可以是对材料相位空间的加快探索朝向具有更好功能的新材料的逆设计的游戏更换者。我们为预测$ \ rho(\ vec {r})$。该模型基于成本图形神经网络,并且在作为消息传递图的一部分的特殊查询点顶点上预测了电子密度,但仅接收消息。该模型在多个数据组中进行测试,分子(QM9),液体乙烯碳酸酯电解质(EC)和Lixniymnzco(1-Y-Z)O 2锂离子电池阴极(NMC)。对于QM9分子,所提出的模型的准确性超过了从DFT获得的$ \ Rho(\ vec {r})$中的典型变异性,以不同的交换相关功能,并显示超出最先进的准确性。混合氧化物(NMC)和电解质(EC)数据集更好的精度甚至更好。线性缩放模型同时探测成千上万点的能力允许计算$ \ Rho(\ vec {r})$的大型复杂系统,比DFT快于允许筛选无序的功能材料。
translated by 谷歌翻译
这项工作介绍了神经性等因素的外部潜力(NEQUIP),E(3) - 用于学习分子动力学模拟的AB-INITIO计算的用于学习网状体电位的e(3)的神经网络方法。虽然大多数当代对称的模型使用不变的卷曲,但仅在标量上采取行动,Nequip采用E(3) - 几何张量的相互作用,举起Quivariant卷曲,导致了更多的信息丰富和忠实的原子环境代表。该方法在挑战和多样化的分子和材料集中实现了最先进的准确性,同时表现出显着的数据效率。 Nequip优先于现有型号,最多三个数量级的培训数据,挑战深度神经网络需要大量培训套装。该方法的高数据效率允许使用高阶量子化学水平的理论作为参考的精确潜力构建,并且在长时间尺度上实现高保真分子动力学模拟。
translated by 谷歌翻译
在计算化学和材料科学中,创建快速准确的力场是一项长期挑战。最近,已经证明,几个直径传递神经网络(MPNN)超过了使用其他方法在准确性方面构建的模型。但是,大多数MPNN的计算成本高和可伸缩性差。我们建议出现这些局限性,因为MPNN仅传递两体消息,从而导致层数与网络的表达性之间的直接关系。在这项工作中,我们介绍了MACE,这是一种使用更高的车身订单消息的新型MPNN模型。特别是,我们表明,使用四体消息将所需的消息传递迭代数减少到\ emph {两},从而导致快速且高度可行的模型,达到或超过RMD17的最新准确性,3BPA和ACAC基准任务。我们还证明,使用高阶消息会导致学习曲线的陡峭程度改善。
translated by 谷歌翻译
Supervised learning on molecules has incredible potential to be useful in chemistry, drug discovery, and materials science. Luckily, several promising and closely related neural network models invariant to molecular symmetries have already been described in the literature. These models learn a message passing algorithm and aggregation procedure to compute a function of their entire input graph. At this point, the next step is to find a particularly effective variant of this general approach and apply it to chemical prediction benchmarks until we either solve them or reach the limits of the approach. In this paper, we reformulate existing models into a single common framework we call Message Passing Neural Networks (MPNNs) and explore additional novel variations within this framework. Using MPNNs we demonstrate state of the art results on an important molecular property prediction benchmark; these results are strong enough that we believe future work should focus on datasets with larger molecules or more accurate ground truth labels.Recently, large scale quantum chemistry calculation and molecular dynamics simulations coupled with advances in high throughput experiments have begun to generate data at an unprecedented rate. Most classical techniques do not make effective use of the larger amounts of data that are now available. The time is ripe to apply more powerful and flexible machine learning methods to these problems, assuming we can find models with suitable inductive biases. The symmetries of atomic systems suggest neural networks that operate on graph structured data and are invariant to graph isomorphism might also be appropriate for molecules. Sufficiently successful models could someday help automate challenging chemical search problems in drug discovery or materials science.In this paper, our goal is to demonstrate effective machine learning models for chemical prediction problems
translated by 谷歌翻译
偶极矩是一个物理量,指示分子的极性,并通过反映成分原子的电性能和分子的几何特性来确定。大多数用于表示传统图神经网络方法中图表表示的嵌入方式将分子视为拓扑图,从而为识别几何信息的目标造成了重大障碍。与现有的嵌入涉及均值的嵌入不同,该嵌入适当地处理分子的3D结构不同,我们的拟议嵌入直接表达了偶极矩局部贡献的物理意义。我们表明,即使对于具有扩展几何形状的分子并捕获更多的原子相互作用信息,开发的模型甚至可以合理地工作,从而显着改善了预测结果,准确性与AB-Initio计算相当。
translated by 谷歌翻译
Graph neural networks have recently achieved great successes in predicting quantum mechanical properties of molecules. These models represent a molecule as a graph using only the distance between atoms (nodes). They do not, however, consider the spatial direction from one atom to another, despite directional information playing a central role in empirical potentials for molecules, e.g. in angular potentials. To alleviate this limitation we propose directional message passing, in which we embed the messages passed between atoms instead of the atoms themselves. Each message is associated with a direction in coordinate space. These directional message embeddings are rotationally equivariant since the associated directions rotate with the molecule. We propose a message passing scheme analogous to belief propagation, which uses the directional information by transforming messages based on the angle between them. Additionally, we use spherical Bessel functions and spherical harmonics to construct theoretically well-founded, orthogonal representations that achieve better performance than the currently prevalent Gaussian radial basis representations while using fewer than 1 /4 of the parameters. We leverage these innovations to construct the directional message passing neural network (DimeNet). DimeNet outperforms previous GNNs on average by 76 % on MD17 and by 31 % on QM9. Our implementation is available online. 1
translated by 谷歌翻译
建模原子系统的能量和力是计算化学中的一个基本问题,有可能帮助解决世界上许多最紧迫的问题,包括与能源稀缺和气候变化有关的问题。这些计算传统上是使用密度函数理论进行的,这在计算上非常昂贵。机器学习有可能从天数或小时到秒从天数大幅提高这些计算的效率。我们建议球形通道网络(SCN)对原子能量和力进行建模。 SCN是一个图神经网络,节点代表原子并边缘其相邻原子。原子嵌入是使用球形谐波表示的一组球形函数,称为球形通道。我们证明,通过基于3D边缘方向旋转嵌入式,可以在保持消息的旋转模糊性的同时使用更多信息。虽然均衡性是理想的属性,但我们发现,通过在消息传递和聚合中放松这种约束,可以提高准确性。我们在大规模开放催化剂2020数据集中展示了最新的结果,这些数据集在能源和力量预测中,用于许多任务和指标。
translated by 谷歌翻译
计算催化和机器学习社区在开发用于催化剂发现和设计的机器学习模型方面取得了长足的进步。然而,跨越催化的化学空间的一般机器学习潜力仍然无法触及。一个重大障碍是在广泛的材料中获得访问培训数据的访问。缺乏数据的一类重要材料是氧化物,它抑制模型无法更广泛地研究氧气进化反应和氧化物电催化。为了解决这个问题,我们开发了开放的催化剂2022(OC22)数据集,包括62,521个密度功能理论(DFT)放松(〜9,884,504个单点计算),遍及一系列氧化物材料,覆盖范围,覆盖率和吸附物( *H, *o, *o, *o, *o, *o, * n, *c, *ooh, *oh, *oh2, *o2, *co)。我们定义广义任务,以预测催化过程中适用的总系统能量,发展几个图神经网络的基线性能(Schnet,Dimenet ++,Forcenet,Spinconv,Painn,Painn,Gemnet-DT,Gemnet-DT,Gemnet-OC),并提供预先定义的数据集分割以建立明确的基准,以实现未来的努力。对于所有任务,我们研究组合数据集是否会带来更好的结果,即使它们包含不同的材料或吸附物。具体而言,我们在Open Catalyst 2020(OC20)数据集和OC22上共同训练模型,或OC22上的微调OC20型号。在最一般的任务中,Gemnet-OC看到通过微调来提高了约32%的能量预测,通过联合训练的力预测提高了约9%。令人惊讶的是,OC20和较小的OC22数据集的联合培训也将OC20的总能量预测提高了约19%。数据集和基线模型是开源的,公众排行榜将遵循,以鼓励社区的持续发展,以了解总能源任务和数据。
translated by 谷歌翻译
分子动力学(MD)仿真是一种强大的工具,用于了解物质的动态和结构。由于MD的分辨率是原子尺度,因此实现了使用飞秒集成的长时间模拟非常昂贵。在每个MD步骤中,执行许多可以学习和避免的冗余计算。这些冗余计算可以由像图形神经网络(GNN)的深度学习模型代替和建模。在这项工作中,我们开发了一个GNN加速分子动力学(GAMD)模型,实现了快速准确的力预测,并产生与经典MD模拟一致的轨迹。我们的研究结果表明,Gamd可以准确地预测两个典型的分子系统,Lennard-Jones(LJ)颗粒和水(LJ +静电)的动态。 GAMD的学习和推理是不可知论的,它可以在测试时间缩放到更大的系统。我们还进行了一项全面的基准测试,将GAMD的实施与生产级MD软件进行了比较,我们展示了GAMD在大规模模拟上对它们具有竞争力。
translated by 谷歌翻译
基于合并和处理对称信息的神经网络架构的几何深度学习(GDL)已经成为人工智能最近的范式。GDL在分子建模应用中具有特定的承诺,其中存在具有不同对称性和抽象水平的各种分子表示。本综述提供了分子GDL的结构化和协调概述,突出了其在药物发现,化学合成预测和量子化学中的应用。重点是学习的分子特征的相关性及其对成熟的分子描述符的互补性。本综述概述了当前的挑战和机会,并提出了用于分子科学GDL的未来的预测。
translated by 谷歌翻译
图神经网络(GNN)是机器学习中非常流行的方法,并且非常成功地应用于分子和材料的性质。众所周知,一阶GNN是不完整的,即存在不同的图形,但在通过GNN的镜头看到时似乎相同。因此,更复杂的方案旨在提高其分辨能力。但是,在分子(以及更一般的点云)上的应用,为问题添加了几何维度。构造分子图表表示原子的最直接和普遍的方法将原子视为图中的顶点,并在所选截止中的每对原子之间绘制一个键。键可以用原子之间的距离进行装饰,所得的“距离图NN”(DGNN)在经验上已证明了出色的分辨能力,并广泛用于化学ML,所有已知的不可区分的图都在完全连接的极限中解析。在这里,我们表明,即使对于由3D原子云引起的完全连接图的受限情况也不完整。我们构造了一对不同的点云对产生图形,对于任何截止半径,基于一阶Weisfeiler-Lehman测试都是等效的。这类退化的结构包括化学上可见的构型,为某些完善的GNN架构的原子学机器学习设定了最终的限制。在原子环境描述中明确使用角度或方向信息的模型可以解决这些变性。
translated by 谷歌翻译
SchNetPack is a versatile neural networks toolbox that addresses both the requirements of method development and application of atomistic machine learning. Version 2.0 comes with an improved data pipeline, modules for equivariant neural networks as well as a PyTorch implementation of molecular dynamics. An optional integration with PyTorch Lightning and the Hydra configuration framework powers a flexible command-line interface. This makes SchNetPack 2.0 easily extendable with custom code and ready for complex training task such as generation of 3d molecular structures.
translated by 谷歌翻译
The accurate prediction of physicochemical properties of chemical compounds in mixtures (such as the activity coefficient at infinite dilution $\gamma_{ij}^\infty$) is essential for developing novel and more sustainable chemical processes. In this work, we analyze the performance of previously-proposed GNN-based models for the prediction of $\gamma_{ij}^\infty$, and compare them with several mechanistic models in a series of 9 isothermal studies. Moreover, we develop the Gibbs-Helmholtz Graph Neural Network (GH-GNN) model for predicting $\ln \gamma_{ij}^\infty$ of molecular systems at different temperatures. Our method combines the simplicity of a Gibbs-Helmholtz-derived expression with a series of graph neural networks that incorporate explicit molecular and intermolecular descriptors for capturing dispersion and hydrogen bonding effects. We have trained this model using experimentally determined $\ln \gamma_{ij}^\infty$ data of 40,219 binary-systems involving 1032 solutes and 866 solvents, overall showing superior performance compared to the popular UNIFAC-Dortmund model. We analyze the performance of GH-GNN for continuous and discrete inter/extrapolation and give indications for the model's applicability domain and expected accuracy. In general, GH-GNN is able to produce accurate predictions for extrapolated binary-systems if at least 25 systems with the same combination of solute-solvent chemical classes are contained in the training set and a similarity indicator above 0.35 is also present. This model and its applicability domain recommendations have been made open-source at https://github.com/edgarsmdn/GH-GNN.
translated by 谷歌翻译
我们提供了证据表明,学到的密度功能理论(``dft')的力场已准备好进行基态催化剂发现。我们的关键发现是,尽管预测的力与地面真相有很大差异,但使用从超过50 \%的评估系统中使用RPBE功能的能量与使用RPBE功能相似或较低能量的力量的力量与使用RPBE功能相似或较低的力量放松。这具有令人惊讶的含义,即学习的潜力可能已经准备好在挑战性的催化系统中替换DFT,例如在Open Catalyst 2020数据集中发现的电位。此外,我们表明,在局部谐波能量表面上具有与目标DFT能量相同的局部谐波能量表面训练的力场也能够在50 \%的情况下找到较低或相似的能量结构。与在真实能量和力量训练的标准模型相比,这种``简易电位''的收敛步骤更少,这进一步加速了计算。它的成功说明了一个关键:即使模型具有高力误差,学到的电位也可以定位能量最小值。结构优化的主要要求仅仅是学到的电位具有正确的最小值。由于学到的电位与系统大小的速度快速且尺寸为线性,因此我们的结果开辟了快速找到大型系统基础状态的可能性。
translated by 谷歌翻译
近年来,分子模拟数据集的出现是大数量级,更多样化的阶。这些新数据集在复杂性的四个方面有很大差异:1。化学多样性(不同元素的数量),2。系统大小(每个样品原子数),3。数据集大小(数据样本数)和4.域移动(培训和测试集的相似性)。尽管存在这些较大的差异,但在狭窄和狭窄的数据集上的基准仍然是证明分子模拟的图形神经网络(GNN)进展的主要方法,这可能是由于较便宜的训练计算要求所致。这就提出了一个问题 - GNN在小和狭窄的数据集上的进展是否转化为这些更复杂的数据集?这项工作通过首先根据大型开放催化剂2020(OC20)数据集开发Gemnet-OC模型来研究这个问题。 Gemnet-OC的表现优于OC20上的先前最新ART,同时将训练时间减少10倍。然后,我们比较了18个模型组件和超参数选择对多个数据集的性能的影响。我们发现,根据用于做出模型选择的数据集,所得模型将大不相同。为了隔离这种差异的来源,我们研究了OC20数据集的六个子集,这些子集分别测试了上述四个数据集方面的每个数据集。我们发现,OC-2M子集的结果与完整的OC20数据集良好相关,同时训练得更便宜。我们的发现挑战了仅在小型数据集上开发GNN的常见做法,但突出了通过中等尺寸的代表性数据集(例如OC-2M)以及Gemnet-oc等高效模型来实现快速开发周期和可推广结果的方法。我们的代码和预估计的模型权重是开源的。
translated by 谷歌翻译
Molecular machine learning has been maturing rapidly over the last few years.Improved methods and the presence of larger datasets have enabled machine learning algorithms to make increasingly accurate predictions about molecular properties. However, algorithmic progress has been limited due to the lack of a standard benchmark to compare the efficacy of proposed methods; most new algorithms are benchmarked on different datasets making it challenging to gauge the quality of proposed methods. This work introduces MoleculeNet, a large scale benchmark for molecular machine learning. MoleculeNet curates multiple public datasets, establishes metrics for evaluation, and offers high quality open-source implementations of multiple previously proposed molecular featurization and learning algorithms (released as part of the DeepChem
translated by 谷歌翻译
对称考虑对于用于提供原子配置的有效数学表示的主要框架的核心,然后在机器学习模型中用于预测与每个结构相关的特性。在大多数情况下,模型依赖于以原子为中心的环境的描述,并且适合于学习可以分解成原子贡献的原子特性或全局观察到。然而,许多与量子机械计算相关的数量 - 最值得注意的是,以原子轨道基础写入时的单粒子哈密顿矩阵 - 与单个中心无关,但结构中有两个(或更多个)原子。我们讨论一系列结构描述符,以概括为N中心案例的非常成功的原子居中密度相关特征,特别是如何应用这种结构,以有效地学习(有效)单粒子汉密尔顿人的矩阵元素以原子为中心的轨道基础。这些N中心的特点是完全的,不仅在转换和旋转方面,而且还就与原子相关的指数的排列而言 - 并且适合于构建新类的对称适应的机器学习模型分子和材料的性质。
translated by 谷歌翻译
有效地预测分子相互作用具有通过多个数量级的加速分子动力学的可能性,从而彻底改变化学模拟。图表神经网络(GNNS)最近显示了这项任务的巨大成功,超越了基于固定分子核的经典方法。然而,它们仍然从理论角度出现非常有限,因为常规GNN不能区分某些类型的图表。在这项工作中,我们在理论和实践之间缩小了这种差距。我们表明,具有指示边缘嵌入和两个跳消息传递的GNN是必然的近似器,用于翻译的预测,并且等于排列和旋转。然后,我们利用这些见解和多种结构改进来提出通过神经网络(GemNet)的几何消息。我们展示了拟议的多次消融研究变化的好处。 GEMNET在Coll,MD17和OC20数据集上优于34%,41%和20%的先前模型,并在最具挑战性分子上表现尤其好。我们的实现可在线获取。
translated by 谷歌翻译
预测分子系统的结构和能量特性是分子模拟的基本任务之一,并且具有化学,生物学和医学的用例。在过去的十年中,机器学习算法的出现影响了各种任务的分子模拟,包括原子系统的财产预测。在本文中,我们提出了一种新的方法,用于将从简单分子系统获得的知识转移到更复杂的知识中,并具有明显的原子和自由度。特别是,我们专注于高自由能状态的分类。我们的方法依赖于(i)分子的新型超图表,编码所有相关信息来表征构象的势能,以及(ii)新的消息传递和汇总层来处理和对此类超图结构数据进行预测。尽管问题的复杂性,但我们的结果表明,从三丙氨酸转移到DECA-丙氨酸系统的转移学习中,AUC的AUC为0.92。此外,我们表明,相同的转移学习方法可以用无监督的方式分组,在具有相似的自由能值的簇中,deca-丙氨酸的各种二级结构。我们的研究代表了一个概念证明,即可以设计用于分子系统的可靠传输学习模型,为预测生物学相关系统的结构和能量性能的未开发途径铺平道路。
translated by 谷歌翻译
分子动力学模拟是许多科学领域中的宝贵工具。但是,无处不在的经典力场无法描述反应性系统,量子分子动力学在计算上要求太大,无法处理大型系统或长时间尺度。基于物理或机器学习的反应力场可以在时间和长度尺度上弥合差距,但是这些力场需要大量努力来构建,并且对给定的化学组成和应用高度特异性。机器学习模型的一个重要局限性是使用特定于元素的功能,导致模型随着元素数量而缩小范围很差。这项工作介绍了高斯多极(GMP)特征化方案,该方案利用了原子周围电子密度的物理相关的多极膨胀,以产生特征向量,这些向量在元素类型之间插值并且具有固定尺寸,而不管存在的元素数量。我们将GMP与神经网络相结合,将其直接与MD17数据集的广泛使用的Beller-Parinello对称函数进行比较,从而表明它表现出提高的准确性和计算效率。此外,我们证明了基于GMP的模型可以实现QM9数据集的化学准确性,即使推断到新元素时,它们的准确性仍然是合理的。最后,我们测试了基于GMP的开放式催化项目(OCP)数据集的模型,揭示了与图形卷积深度学习模型相当的性能。结果表明,这种特征方案填补了有效且可转移的机器学习力场的构建方面的关键空白。
translated by 谷歌翻译