这项工作介绍了神经性等因素的外部潜力(NEQUIP),E(3) - 用于学习分子动力学模拟的AB-INITIO计算的用于学习网状体电位的e(3)的神经网络方法。虽然大多数当代对称的模型使用不变的卷曲,但仅在标量上采取行动,Nequip采用E(3) - 几何张量的相互作用,举起Quivariant卷曲,导致了更多的信息丰富和忠实的原子环境代表。该方法在挑战和多样化的分子和材料集中实现了最先进的准确性,同时表现出显着的数据效率。 Nequip优先于现有型号,最多三个数量级的培训数据,挑战深度神经网络需要大量培训套装。该方法的高数据效率允许使用高阶量子化学水平的理论作为参考的精确潜力构建,并且在长时间尺度上实现高保真分子动力学模拟。
translated by 谷歌翻译
在计算化学和材料科学中,创建快速准确的力场是一项长期挑战。最近,已经证明,几个直径传递神经网络(MPNN)超过了使用其他方法在准确性方面构建的模型。但是,大多数MPNN的计算成本高和可伸缩性差。我们建议出现这些局限性,因为MPNN仅传递两体消息,从而导致层数与网络的表达性之间的直接关系。在这项工作中,我们介绍了MACE,这是一种使用更高的车身订单消息的新型MPNN模型。特别是,我们表明,使用四体消息将所需的消息传递迭代数减少到\ emph {两},从而导致快速且高度可行的模型,达到或超过RMD17的最新准确性,3BPA和ACAC基准任务。我们还证明,使用高阶消息会导致学习曲线的陡峭程度改善。
translated by 谷歌翻译
电子密度$ \ rho(\ vec {r})$是用密度泛函理论(dft)计算地面能量的基本变量。除了总能量之外,$ \ rho(\ vec {r})$分布和$ \ rho(\ vec {r})$的功能通常用于捕获电子规模以功能材料和分子中的关键物理化学现象。方法提供对$ \ rho(\ vec {r})的可紊乱系统,其具有少量计算成本的复杂无序系统可以是对材料相位空间的加快探索朝向具有更好功能的新材料的逆设计的游戏更换者。我们为预测$ \ rho(\ vec {r})$。该模型基于成本图形神经网络,并且在作为消息传递图的一部分的特殊查询点顶点上预测了电子密度,但仅接收消息。该模型在多个数据组中进行测试,分子(QM9),液体乙烯碳酸酯电解质(EC)和Lixniymnzco(1-Y-Z)O 2锂离子电池阴极(NMC)。对于QM9分子,所提出的模型的准确性超过了从DFT获得的$ \ Rho(\ vec {r})$中的典型变异性,以不同的交换相关功能,并显示超出最先进的准确性。混合氧化物(NMC)和电解质(EC)数据集更好的精度甚至更好。线性缩放模型同时探测成千上万点的能力允许计算$ \ Rho(\ vec {r})$的大型复杂系统,比DFT快于允许筛选无序的功能材料。
translated by 谷歌翻译
Graph neural networks have recently achieved great successes in predicting quantum mechanical properties of molecules. These models represent a molecule as a graph using only the distance between atoms (nodes). They do not, however, consider the spatial direction from one atom to another, despite directional information playing a central role in empirical potentials for molecules, e.g. in angular potentials. To alleviate this limitation we propose directional message passing, in which we embed the messages passed between atoms instead of the atoms themselves. Each message is associated with a direction in coordinate space. These directional message embeddings are rotationally equivariant since the associated directions rotate with the molecule. We propose a message passing scheme analogous to belief propagation, which uses the directional information by transforming messages based on the angle between them. Additionally, we use spherical Bessel functions and spherical harmonics to construct theoretically well-founded, orthogonal representations that achieve better performance than the currently prevalent Gaussian radial basis representations while using fewer than 1 /4 of the parameters. We leverage these innovations to construct the directional message passing neural network (DimeNet). DimeNet outperforms previous GNNs on average by 76 % on MD17 and by 31 % on QM9. Our implementation is available online. 1
translated by 谷歌翻译
Developing machine learning-based interatomic potentials from ab-initio electronic structure methods remains a challenging task for computational chemistry and materials science. This work studies the capability of transfer learning for efficiently generating chemically accurate interatomic neural network potentials on organic molecules from the MD17 and ANI data sets. We show that pre-training the network parameters on data obtained from density functional calculations considerably improves the sample efficiency of models trained on more accurate ab-initio data. Additionally, we show that fine-tuning with energy labels alone suffices to obtain accurate atomic forces and run large-scale atomistic simulations. We also investigate possible limitations of transfer learning, especially regarding the design and size of the pre-training and fine-tuning data sets. Finally, we provide GM-NN potentials pre-trained and fine-tuned on the ANI-1x and ANI-1ccx data sets, which can easily be fine-tuned on and applied to organic molecules.
translated by 谷歌翻译
计算催化和机器学习社区在开发用于催化剂发现和设计的机器学习模型方面取得了长足的进步。然而,跨越催化的化学空间的一般机器学习潜力仍然无法触及。一个重大障碍是在广泛的材料中获得访问培训数据的访问。缺乏数据的一类重要材料是氧化物,它抑制模型无法更广泛地研究氧气进化反应和氧化物电催化。为了解决这个问题,我们开发了开放的催化剂2022(OC22)数据集,包括62,521个密度功能理论(DFT)放松(〜9,884,504个单点计算),遍及一系列氧化物材料,覆盖范围,覆盖率和吸附物( *H, *o, *o, *o, *o, *o, * n, *c, *ooh, *oh, *oh2, *o2, *co)。我们定义广义任务,以预测催化过程中适用的总系统能量,发展几个图神经网络的基线性能(Schnet,Dimenet ++,Forcenet,Spinconv,Painn,Painn,Gemnet-DT,Gemnet-DT,Gemnet-OC),并提供预先定义的数据集分割以建立明确的基准,以实现未来的努力。对于所有任务,我们研究组合数据集是否会带来更好的结果,即使它们包含不同的材料或吸附物。具体而言,我们在Open Catalyst 2020(OC20)数据集和OC22上共同训练模型,或OC22上的微调OC20型号。在最一般的任务中,Gemnet-OC看到通过微调来提高了约32%的能量预测,通过联合训练的力预测提高了约9%。令人惊讶的是,OC20和较小的OC22数据集的联合培训也将OC20的总能量预测提高了约19%。数据集和基线模型是开源的,公众排行榜将遵循,以鼓励社区的持续发展,以了解总能源任务和数据。
translated by 谷歌翻译
我们设计了一种新型的前馈神经网络。相对于统一组$ u(n)$,它是均等的。输入和输出可以是$ \ mathbb {c}^n $的向量,并具有任意尺寸$ n $。我们的实施中不需要卷积层。我们避免因傅立叶样转换中的高阶项截断而导致错误。可以使用简单的计算有效地完成每一层的实现。作为概念的证明,我们已经对原子运动动力学的预测给出了经验结果,以证明我们的方法的实用性。
translated by 谷歌翻译
SchNetPack is a versatile neural networks toolbox that addresses both the requirements of method development and application of atomistic machine learning. Version 2.0 comes with an improved data pipeline, modules for equivariant neural networks as well as a PyTorch implementation of molecular dynamics. An optional integration with PyTorch Lightning and the Hydra configuration framework powers a flexible command-line interface. This makes SchNetPack 2.0 easily extendable with custom code and ready for complex training task such as generation of 3d molecular structures.
translated by 谷歌翻译
对称考虑对于用于提供原子配置的有效数学表示的主要框架的核心,然后在机器学习模型中用于预测与每个结构相关的特性。在大多数情况下,模型依赖于以原子为中心的环境的描述,并且适合于学习可以分解成原子贡献的原子特性或全局观察到。然而,许多与量子机械计算相关的数量 - 最值得注意的是,以原子轨道基础写入时的单粒子哈密顿矩阵 - 与单个中心无关,但结构中有两个(或更多个)原子。我们讨论一系列结构描述符,以概括为N中心案例的非常成功的原子居中密度相关特征,特别是如何应用这种结构,以有效地学习(有效)单粒子汉密尔顿人的矩阵元素以原子为中心的轨道基础。这些N中心的特点是完全的,不仅在转换和旋转方面,而且还就与原子相关的指数的排列而言 - 并且适合于构建新类的对称适应的机器学习模型分子和材料的性质。
translated by 谷歌翻译
分子动力学(MD)仿真是一种强大的工具,用于了解物质的动态和结构。由于MD的分辨率是原子尺度,因此实现了使用飞秒集成的长时间模拟非常昂贵。在每个MD步骤中,执行许多可以学习和避免的冗余计算。这些冗余计算可以由像图形神经网络(GNN)的深度学习模型代替和建模。在这项工作中,我们开发了一个GNN加速分子动力学(GAMD)模型,实现了快速准确的力预测,并产生与经典MD模拟一致的轨迹。我们的研究结果表明,Gamd可以准确地预测两个典型的分子系统,Lennard-Jones(LJ)颗粒和水(LJ +静电)的动态。 GAMD的学习和推理是不可知论的,它可以在测试时间缩放到更大的系统。我们还进行了一项全面的基准测试,将GAMD的实施与生产级MD软件进行了比较,我们展示了GAMD在大规模模拟上对它们具有竞争力。
translated by 谷歌翻译
偶极矩是一个物理量,指示分子的极性,并通过反映成分原子的电性能和分子的几何特性来确定。大多数用于表示传统图神经网络方法中图表表示的嵌入方式将分子视为拓扑图,从而为识别几何信息的目标造成了重大障碍。与现有的嵌入涉及均值的嵌入不同,该嵌入适当地处理分子的3D结构不同,我们的拟议嵌入直接表达了偶极矩局部贡献的物理意义。我们表明,即使对于具有扩展几何形状的分子并捕获更多的原子相互作用信息,开发的模型甚至可以合理地工作,从而显着改善了预测结果,准确性与AB-Initio计算相当。
translated by 谷歌翻译
图神经网络(GNN)是机器学习中非常流行的方法,并且非常成功地应用于分子和材料的性质。众所周知,一阶GNN是不完整的,即存在不同的图形,但在通过GNN的镜头看到时似乎相同。因此,更复杂的方案旨在提高其分辨能力。但是,在分子(以及更一般的点云)上的应用,为问题添加了几何维度。构造分子图表表示原子的最直接和普遍的方法将原子视为图中的顶点,并在所选截止中的每对原子之间绘制一个键。键可以用原子之间的距离进行装饰,所得的“距离图NN”(DGNN)在经验上已证明了出色的分辨能力,并广泛用于化学ML,所有已知的不可区分的图都在完全连接的极限中解析。在这里,我们表明,即使对于由3D原子云引起的完全连接图的受限情况也不完整。我们构造了一对不同的点云对产生图形,对于任何截止半径,基于一阶Weisfeiler-Lehman测试都是等效的。这类退化的结构包括化学上可见的构型,为某些完善的GNN架构的原子学机器学习设定了最终的限制。在原子环境描述中明确使用角度或方向信息的模型可以解决这些变性。
translated by 谷歌翻译
3D相关的电感偏见,例如翻译不变性和旋转率偏差,对于在3D原子图(例如分子)上运行的图形神经网络是必不可少的。受到变压器在各个领域的成功的启发,我们研究了如何将这些电感偏置纳入变压器。在本文中,我们提出了Equibrouner,这是一个图形神经网络,利用了变压器体系结构的强度,并结合了基于不可减至表示(IRREPS)的$ SE(3)/e(3)$ - 均值功能。 IRREPS在通道尺寸中的编码均值信息而不使图形结构复杂化。简单性使我们能够通过用eproimiant对应物替换原始操作来直接合并它们。此外,为了更好地适应3D图,我们提出了一种新颖的模棱两可的图形注意力,该图都考虑了内容和几何信息,例如IRRERPS特征中包含的相对位置。为了提高注意力的表现力,我们用多层感知器的注意力取代了点产品的注意力,并包括非线性消息传递。我们在两个量子性能预测数据集(QM9和OC20)上进行基准测试。对于QM9,在接受相同数据分区训练的模型中,Equibourer在12个回归任务中的11个中取得了最佳结果。对于OC20,在使用IS2RE数据和IS2RS数据的培训设置下,Equibourer对最先进的模型进行了改进。复制所有主要结果的代码将很快获得。
translated by 谷歌翻译
有效地预测分子相互作用具有通过多个数量级的加速分子动力学的可能性,从而彻底改变化学模拟。图表神经网络(GNNS)最近显示了这项任务的巨大成功,超越了基于固定分子核的经典方法。然而,它们仍然从理论角度出现非常有限,因为常规GNN不能区分某些类型的图表。在这项工作中,我们在理论和实践之间缩小了这种差距。我们表明,具有指示边缘嵌入和两个跳消息传递的GNN是必然的近似器,用于翻译的预测,并且等于排列和旋转。然后,我们利用这些见解和多种结构改进来提出通过神经网络(GemNet)的几何消息。我们展示了拟议的多次消融研究变化的好处。 GEMNET在Coll,MD17和OC20数据集上优于34%,41%和20%的先前模型,并在最具挑战性分子上表现尤其好。我们的实现可在线获取。
translated by 谷歌翻译
建模原子系统的能量和力是计算化学中的一个基本问题,有可能帮助解决世界上许多最紧迫的问题,包括与能源稀缺和气候变化有关的问题。这些计算传统上是使用密度函数理论进行的,这在计算上非常昂贵。机器学习有可能从天数或小时到秒从天数大幅提高这些计算的效率。我们建议球形通道网络(SCN)对原子能量和力进行建模。 SCN是一个图神经网络,节点代表原子并边缘其相邻原子。原子嵌入是使用球形谐波表示的一组球形函数,称为球形通道。我们证明,通过基于3D边缘方向旋转嵌入式,可以在保持消息的旋转模糊性的同时使用更多信息。虽然均衡性是理想的属性,但我们发现,通过在消息传递和聚合中放松这种约束,可以提高准确性。我们在大规模开放催化剂2020数据集中展示了最新的结果,这些数据集在能源和力量预测中,用于许多任务和指标。
translated by 谷歌翻译
包括协调性信息,例如位置,力,速度或旋转在计算物理和化学中的许多任务中是重要的。我们介绍了概括了等级图形网络的可控e(3)的等值图形神经网络(Segnns),使得节点和边缘属性不限于不变的标量,而是可以包含相协同信息,例如矢量或张量。该模型由可操纵的MLP组成,能够在消息和更新功能中包含几何和物理信息。通过可操纵节点属性的定义,MLP提供了一种新的Activation函数,以便与可转向功能字段一般使用。我们讨论我们的镜头通过等级的非线性卷曲镜头讨论我们的相关工作,进一步允许我们引脚点点的成功组件:非线性消息聚集在经典线性(可操纵)点卷积上改善;可操纵的消息在最近发送不变性消息的最近的等价图形网络上。我们展示了我们对计算物理学和化学的若干任务的方法的有效性,并提供了广泛的消融研究。
translated by 谷歌翻译
Molecular dynamics (MD) has long been the de facto choice for simulating complex atomistic systems from first principles. Recently deep learning models become a popular way to accelerate MD. Notwithstanding, existing models depend on intermediate variables such as the potential energy or force fields to update atomic positions, which requires additional computations to perform back-propagation. To waive this requirement, we propose a novel model called DiffMD by directly estimating the gradient of the log density of molecular conformations. DiffMD relies on a score-based denoising diffusion generative model that perturbs the molecular structure with a conditional noise depending on atomic accelerations and treats conformations at previous timeframes as the prior distribution for sampling. Another challenge of modeling such a conformation generation process is that a molecule is kinetic instead of static, which no prior works have strictly studied. To solve this challenge, we propose an equivariant geometric Transformer as the score function in the diffusion process to calculate corresponding gradients. It incorporates the directions and velocities of atomic motions via 3D spherical Fourier-Bessel representations. With multiple architectural improvements, we outperform state-of-the-art baselines on MD17 and isomers of C7O2H10 datasets. This work contributes to accelerating material and drug discovery.
translated by 谷歌翻译
建模分子势能表面在科学中至关重要。图神经网络在该领域表现出了巨大的成功,尤其是那些使用旋转等级表示的人。但是,他们要么患有复杂的数学形式,要么缺乏理论支持和设计原则。为了避免使用模棱两可的表示,我们引入了一种新型的本地框架方法来分子表示学习并分析其表现力。借助框架上的框架和模棱两可的向量的投影,GNN可以将原子的局部环境映射到标量表示。也可以在框架上投影在本地环境中传递消息。我们进一步分析了何时以及如何构建此类本地框架。我们证明,当局部环境没有对称性时,局部框架总是存在的,就像分子动力学模拟中一样。对于对称分子,尽管只能构建退化框架,但我们发现,由于自由度降低,在某些常见情况下,局部框架方法仍可能达到高表达能力。仅使用标量表示,我们可以采用现有的简单和强大的GNN体系结构。我们的模型在实验中的表现优于一系列最先进的基线。更简单的体系结构也可以提高更高的可扩展性。与最快的基线相比,我们的模型仅需30%的推理时间。
translated by 谷歌翻译
This work presents Time-reversal Equivariant Neural Network (TENN) framework. With TENN, the time-reversal symmetry is considered in the equivariant neural network (ENN), which generalizes the ENN to consider physical quantities related to time-reversal symmetry such as spin and velocity of atoms. TENN-e3, as the time-reversal-extension of E(3) equivariant neural network, is developed to keep the Time-reversal E(3) equivariant with consideration of whether to include the spin-orbit effect for both collinear and non-collinear magnetic moments situations for magnetic material. TENN-e3 can construct spin neural network potential and the Hamiltonian of magnetic material from ab-initio calculations. Time-reversal-E(3)-equivariant convolutions for interactions of spinor and geometric tensors are employed in TENN-e3. Compared to the popular ENN, TENN-e3 can describe the complex spin-lattice coupling with high accuracy and keep time-reversal symmetry which is not preserved in the existing E(3)-equivariant model. Also, the Hamiltonian of magnetic material with time-reversal symmetry can be built with TENN-e3. TENN paves a new way to spin-lattice dynamics simulations over long-time scales and electronic structure calculations of large-scale magnetic materials.
translated by 谷歌翻译
Molecular machine learning has been maturing rapidly over the last few years.Improved methods and the presence of larger datasets have enabled machine learning algorithms to make increasingly accurate predictions about molecular properties. However, algorithmic progress has been limited due to the lack of a standard benchmark to compare the efficacy of proposed methods; most new algorithms are benchmarked on different datasets making it challenging to gauge the quality of proposed methods. This work introduces MoleculeNet, a large scale benchmark for molecular machine learning. MoleculeNet curates multiple public datasets, establishes metrics for evaluation, and offers high quality open-source implementations of multiple previously proposed molecular featurization and learning algorithms (released as part of the DeepChem
translated by 谷歌翻译