偶极矩是一个物理量,指示分子的极性,并通过反映成分原子的电性能和分子的几何特性来确定。大多数用于表示传统图神经网络方法中图表表示的嵌入方式将分子视为拓扑图,从而为识别几何信息的目标造成了重大障碍。与现有的嵌入涉及均值的嵌入不同,该嵌入适当地处理分子的3D结构不同,我们的拟议嵌入直接表达了偶极矩局部贡献的物理意义。我们表明,即使对于具有扩展几何形状的分子并捕获更多的原子相互作用信息,开发的模型甚至可以合理地工作,从而显着改善了预测结果,准确性与AB-Initio计算相当。
translated by 谷歌翻译
Graph neural networks have recently achieved great successes in predicting quantum mechanical properties of molecules. These models represent a molecule as a graph using only the distance between atoms (nodes). They do not, however, consider the spatial direction from one atom to another, despite directional information playing a central role in empirical potentials for molecules, e.g. in angular potentials. To alleviate this limitation we propose directional message passing, in which we embed the messages passed between atoms instead of the atoms themselves. Each message is associated with a direction in coordinate space. These directional message embeddings are rotationally equivariant since the associated directions rotate with the molecule. We propose a message passing scheme analogous to belief propagation, which uses the directional information by transforming messages based on the angle between them. Additionally, we use spherical Bessel functions and spherical harmonics to construct theoretically well-founded, orthogonal representations that achieve better performance than the currently prevalent Gaussian radial basis representations while using fewer than 1 /4 of the parameters. We leverage these innovations to construct the directional message passing neural network (DimeNet). DimeNet outperforms previous GNNs on average by 76 % on MD17 and by 31 % on QM9. Our implementation is available online. 1
translated by 谷歌翻译
通过定向消息传递通过方向消息通过的图形神经网络最近在多个分子特性预测任务上设置了最先进的技术。然而,它们依赖于通常不可用的原子位置信息,并获得它通常非常昂贵甚至不可能。在本文中,我们提出了合成坐标,使得能够使用高级GNN而不需要真正的分子配置。我们提出了两个距离作为合成坐标:使用个性化PageRank的对称变体指定分子配置的粗糙范围和基于图的距离的距离界限。为了利用距离和角度信息,我们提出了一种将正常图形神经网络转换为定向MPNN的方法。我们表明,通过这种转变,我们可以将正常图形神经网络的误差减少55%在锌基准。我们还通过在SMP和DimeNet ++模型中纳入合成坐标,在锌和自由QM9上设定了最新技术。我们的实现可在线获取。
translated by 谷歌翻译
建模分子势能表面在科学中至关重要。图神经网络在该领域表现出了巨大的成功,尤其是那些使用旋转等级表示的人。但是,他们要么患有复杂的数学形式,要么缺乏理论支持和设计原则。为了避免使用模棱两可的表示,我们引入了一种新型的本地框架方法来分子表示学习并分析其表现力。借助框架上的框架和模棱两可的向量的投影,GNN可以将原子的局部环境映射到标量表示。也可以在框架上投影在本地环境中传递消息。我们进一步分析了何时以及如何构建此类本地框架。我们证明,当局部环境没有对称性时,局部框架总是存在的,就像分子动力学模拟中一样。对于对称分子,尽管只能构建退化框架,但我们发现,由于自由度降低,在某些常见情况下,局部框架方法仍可能达到高表达能力。仅使用标量表示,我们可以采用现有的简单和强大的GNN体系结构。我们的模型在实验中的表现优于一系列最先进的基线。更简单的体系结构也可以提高更高的可扩展性。与最快的基线相比,我们的模型仅需30%的推理时间。
translated by 谷歌翻译
电子密度$ \ rho(\ vec {r})$是用密度泛函理论(dft)计算地面能量的基本变量。除了总能量之外,$ \ rho(\ vec {r})$分布和$ \ rho(\ vec {r})$的功能通常用于捕获电子规模以功能材料和分子中的关键物理化学现象。方法提供对$ \ rho(\ vec {r})的可紊乱系统,其具有少量计算成本的复杂无序系统可以是对材料相位空间的加快探索朝向具有更好功能的新材料的逆设计的游戏更换者。我们为预测$ \ rho(\ vec {r})$。该模型基于成本图形神经网络,并且在作为消息传递图的一部分的特殊查询点顶点上预测了电子密度,但仅接收消息。该模型在多个数据组中进行测试,分子(QM9),液体乙烯碳酸酯电解质(EC)和Lixniymnzco(1-Y-Z)O 2锂离子电池阴极(NMC)。对于QM9分子,所提出的模型的准确性超过了从DFT获得的$ \ Rho(\ vec {r})$中的典型变异性,以不同的交换相关功能,并显示超出最先进的准确性。混合氧化物(NMC)和电解质(EC)数据集更好的精度甚至更好。线性缩放模型同时探测成千上万点的能力允许计算$ \ Rho(\ vec {r})$的大型复杂系统,比DFT快于允许筛选无序的功能材料。
translated by 谷歌翻译
在计算化学和材料科学中,创建快速准确的力场是一项长期挑战。最近,已经证明,几个直径传递神经网络(MPNN)超过了使用其他方法在准确性方面构建的模型。但是,大多数MPNN的计算成本高和可伸缩性差。我们建议出现这些局限性,因为MPNN仅传递两体消息,从而导致层数与网络的表达性之间的直接关系。在这项工作中,我们介绍了MACE,这是一种使用更高的车身订单消息的新型MPNN模型。特别是,我们表明,使用四体消息将所需的消息传递迭代数减少到\ emph {两},从而导致快速且高度可行的模型,达到或超过RMD17的最新准确性,3BPA和ACAC基准任务。我们还证明,使用高阶消息会导致学习曲线的陡峭程度改善。
translated by 谷歌翻译
这项工作介绍了神经性等因素的外部潜力(NEQUIP),E(3) - 用于学习分子动力学模拟的AB-INITIO计算的用于学习网状体电位的e(3)的神经网络方法。虽然大多数当代对称的模型使用不变的卷曲,但仅在标量上采取行动,Nequip采用E(3) - 几何张量的相互作用,举起Quivariant卷曲,导致了更多的信息丰富和忠实的原子环境代表。该方法在挑战和多样化的分子和材料集中实现了最先进的准确性,同时表现出显着的数据效率。 Nequip优先于现有型号,最多三个数量级的培训数据,挑战深度神经网络需要大量培训套装。该方法的高数据效率允许使用高阶量子化学水平的理论作为参考的精确潜力构建,并且在长时间尺度上实现高保真分子动力学模拟。
translated by 谷歌翻译
Recently, graph neural networks (GNNs) have achieved remarkable performances for quantum mechanical problems. However, a graph convolution can only cover a localized region, and cannot capture long-range interactions of atoms. This behavior is contrary to theoretical interatomic potentials, which is a fundamental limitation of the spatial based GNNs. In this work, we propose a novel attention-based framework for molecular property prediction tasks. We represent a molecular conformation as a discrete atomic sequence combined by atom-atom distance attributes, named Geometry-aware Transformer (GeoT). In particular, we adopt a Transformer architecture, which has been widely used for sequential data. Our proposed model trains sequential representations of molecular graphs based on globally constructed attentions, maintaining all spatial arrangements of atom pairs. Our method does not suffer from cost intensive computations, such as angle calculations. The experimental results on several public benchmarks and visualization maps verified that keeping the long-range interatomic attributes can significantly improve the model predictability.
translated by 谷歌翻译
图形神经网络(GNN)正在化学工程中出现,以基于分子图的物理化学特性端到端学习。 GNNS的一个关键要素是合并函数,将原子矢量结合到分子指纹中。大多数以前的作品都使用标准池功能来预测各种属性。但是,不合适的合并功能会导致概括不佳的非物理GNN。我们根据有关学习特性的物理知识比较并选择有意义的GNN合并方法。通过量子机械计算计算出的分子特性证明了物理池函数的影响。我们还将结果与最近的SET2Set合并方法进行了比较。我们建议使用总和池来预测取决于分子大小的性能并比较分子大小无关的属性的池函数。总体而言,我们表明物理池功能的使用显着增强了概括。
translated by 谷歌翻译
Supervised learning on molecules has incredible potential to be useful in chemistry, drug discovery, and materials science. Luckily, several promising and closely related neural network models invariant to molecular symmetries have already been described in the literature. These models learn a message passing algorithm and aggregation procedure to compute a function of their entire input graph. At this point, the next step is to find a particularly effective variant of this general approach and apply it to chemical prediction benchmarks until we either solve them or reach the limits of the approach. In this paper, we reformulate existing models into a single common framework we call Message Passing Neural Networks (MPNNs) and explore additional novel variations within this framework. Using MPNNs we demonstrate state of the art results on an important molecular property prediction benchmark; these results are strong enough that we believe future work should focus on datasets with larger molecules or more accurate ground truth labels.Recently, large scale quantum chemistry calculation and molecular dynamics simulations coupled with advances in high throughput experiments have begun to generate data at an unprecedented rate. Most classical techniques do not make effective use of the larger amounts of data that are now available. The time is ripe to apply more powerful and flexible machine learning methods to these problems, assuming we can find models with suitable inductive biases. The symmetries of atomic systems suggest neural networks that operate on graph structured data and are invariant to graph isomorphism might also be appropriate for molecules. Sufficiently successful models could someday help automate challenging chemical search problems in drug discovery or materials science.In this paper, our goal is to demonstrate effective machine learning models for chemical prediction problems
translated by 谷歌翻译
基于合并和处理对称信息的神经网络架构的几何深度学习(GDL)已经成为人工智能最近的范式。GDL在分子建模应用中具有特定的承诺,其中存在具有不同对称性和抽象水平的各种分子表示。本综述提供了分子GDL的结构化和协调概述,突出了其在药物发现,化学合成预测和量子化学中的应用。重点是学习的分子特征的相关性及其对成熟的分子描述符的互补性。本综述概述了当前的挑战和机会,并提出了用于分子科学GDL的未来的预测。
translated by 谷歌翻译
3D相关的电感偏见,例如翻译不变性和旋转率偏差,对于在3D原子图(例如分子)上运行的图形神经网络是必不可少的。受到变压器在各个领域的成功的启发,我们研究了如何将这些电感偏置纳入变压器。在本文中,我们提出了Equibrouner,这是一个图形神经网络,利用了变压器体系结构的强度,并结合了基于不可减至表示(IRREPS)的$ SE(3)/e(3)$ - 均值功能。 IRREPS在通道尺寸中的编码均值信息而不使图形结构复杂化。简单性使我们能够通过用eproimiant对应物替换原始操作来直接合并它们。此外,为了更好地适应3D图,我们提出了一种新颖的模棱两可的图形注意力,该图都考虑了内容和几何信息,例如IRRERPS特征中包含的相对位置。为了提高注意力的表现力,我们用多层感知器的注意力取代了点产品的注意力,并包括非线性消息传递。我们在两个量子性能预测数据集(QM9和OC20)上进行基准测试。对于QM9,在接受相同数据分区训练的模型中,Equibourer在12个回归任务中的11个中取得了最佳结果。对于OC20,在使用IS2RE数据和IS2RS数据的培训设置下,Equibourer对最先进的模型进行了改进。复制所有主要结果的代码将很快获得。
translated by 谷歌翻译
自我监督学习(SSL)是一种通过利用数据中固有的监督来学习数据表示的方法。这种学习方法是药物领域的焦点,由于耗时且昂贵的实验,缺乏带注释的数据。使用巨大未标记数据的SSL显示出在分子属性预测方面表现出色的性能,但存在一些问题。 (1)现有的SSL模型是大规模的;在计算资源不足的情况下实现SSL有限制。 (2)在大多数情况下,它们不利用3D结构信息进行分子表示学习。药物的活性与药物分子的结构密切相关。但是,大多数当前模型不使用3D信息或部分使用它。 (3)以前对分子进行对比学习的模型使用置换原子和键的增强。因此,具有不同特征的分子可以在相同的阳性样品中。我们提出了一个新颖的对比学习框架,用于分子属性预测的小规模3D图对比度学习(3DGCL),以解决上述问题。 3DGCL通过不改变药物语义的预训练过程来反映分子的结构来学习分子表示。仅使用1,128个样本用于预训练数据和100万个模型参数,我们在四个回归基准数据集中实现了最先进或可比性的性能。广泛的实验表明,基于化学知识的3D结构信息对于用于财产预测的分子表示学习至关重要。
translated by 谷歌翻译
The field of geometric deep learning has had a profound impact on the development of innovative and powerful graph neural network architectures. Disciplines such as computer vision and computational biology have benefited significantly from such methodological advances, which has led to breakthroughs in scientific domains such as protein structure prediction and design. In this work, we introduce GCPNet, a new geometry-complete, SE(3)-equivariant graph neural network designed for 3D graph representation learning. We demonstrate the state-of-the-art utility and expressiveness of our method on six independent datasets designed for three distinct geometric tasks: protein-ligand binding affinity prediction, protein structure ranking, and Newtonian many-body systems modeling. Our results suggest that GCPNet is a powerful, general method for capturing complex geometric and physical interactions within 3D graphs for downstream prediction tasks. The source code, data, and instructions to train new models or reproduce our results are freely available on GitHub.
translated by 谷歌翻译
分子动力学(MD)仿真是一种强大的工具,用于了解物质的动态和结构。由于MD的分辨率是原子尺度,因此实现了使用飞秒集成的长时间模拟非常昂贵。在每个MD步骤中,执行许多可以学习和避免的冗余计算。这些冗余计算可以由像图形神经网络(GNN)的深度学习模型代替和建模。在这项工作中,我们开发了一个GNN加速分子动力学(GAMD)模型,实现了快速准确的力预测,并产生与经典MD模拟一致的轨迹。我们的研究结果表明,Gamd可以准确地预测两个典型的分子系统,Lennard-Jones(LJ)颗粒和水(LJ +静电)的动态。 GAMD的学习和推理是不可知论的,它可以在测试时间缩放到更大的系统。我们还进行了一项全面的基准测试,将GAMD的实施与生产级MD软件进行了比较,我们展示了GAMD在大规模模拟上对它们具有竞争力。
translated by 谷歌翻译
图神经网络(GNN)是机器学习中非常流行的方法,并且非常成功地应用于分子和材料的性质。众所周知,一阶GNN是不完整的,即存在不同的图形,但在通过GNN的镜头看到时似乎相同。因此,更复杂的方案旨在提高其分辨能力。但是,在分子(以及更一般的点云)上的应用,为问题添加了几何维度。构造分子图表表示原子的最直接和普遍的方法将原子视为图中的顶点,并在所选截止中的每对原子之间绘制一个键。键可以用原子之间的距离进行装饰,所得的“距离图NN”(DGNN)在经验上已证明了出色的分辨能力,并广泛用于化学ML,所有已知的不可区分的图都在完全连接的极限中解析。在这里,我们表明,即使对于由3D原子云引起的完全连接图的受限情况也不完整。我们构造了一对不同的点云对产生图形,对于任何截止半径,基于一阶Weisfeiler-Lehman测试都是等效的。这类退化的结构包括化学上可见的构型,为某些完善的GNN架构的原子学机器学习设定了最终的限制。在原子环境描述中明确使用角度或方向信息的模型可以解决这些变性。
translated by 谷歌翻译
分子财产预测是药物和材料行业的基本任务。从物理上讲,分子的特性取决于其自身的电子结构,可以通过schr \“ odinger方程来精确描述。但是,由于大多数分子的求解schr \“ odinger”方程非常具有挑战性量子多体系统的行为。虽然已证明深度学习方法在分子性质预测中有效,但我们设计了一种新颖的方法,即GEM-2,它全面考虑了分子中的远距离和多体相互作用。 GEM-2由两个相互作用的轨道组成:一个原子级轨道模拟任意两个原子之间的局部和全局相关性,以及一个对所有原子对之间的相关性建模的成对轨道,它们嵌入任何3或4个原子之间的信息。广泛的实验证明了GEM-2在量子化学和药物发现任务中的多种基线方法的优越性。
translated by 谷歌翻译
The accurate prediction of physicochemical properties of chemical compounds in mixtures (such as the activity coefficient at infinite dilution $\gamma_{ij}^\infty$) is essential for developing novel and more sustainable chemical processes. In this work, we analyze the performance of previously-proposed GNN-based models for the prediction of $\gamma_{ij}^\infty$, and compare them with several mechanistic models in a series of 9 isothermal studies. Moreover, we develop the Gibbs-Helmholtz Graph Neural Network (GH-GNN) model for predicting $\ln \gamma_{ij}^\infty$ of molecular systems at different temperatures. Our method combines the simplicity of a Gibbs-Helmholtz-derived expression with a series of graph neural networks that incorporate explicit molecular and intermolecular descriptors for capturing dispersion and hydrogen bonding effects. We have trained this model using experimentally determined $\ln \gamma_{ij}^\infty$ data of 40,219 binary-systems involving 1032 solutes and 866 solvents, overall showing superior performance compared to the popular UNIFAC-Dortmund model. We analyze the performance of GH-GNN for continuous and discrete inter/extrapolation and give indications for the model's applicability domain and expected accuracy. In general, GH-GNN is able to produce accurate predictions for extrapolated binary-systems if at least 25 systems with the same combination of solute-solvent chemical classes are contained in the training set and a similarity indicator above 0.35 is also present. This model and its applicability domain recommendations have been made open-source at https://github.com/edgarsmdn/GH-GNN.
translated by 谷歌翻译
没有标签的预处理分子表示模型是各种应用的基础。常规方法主要是处理2D分子图,并仅专注于2D任务,使其预验证的模型无法表征3D几何形状,因此对于下游3D任务有缺陷。在这项工作中,我们从完整而新颖的意义上处理了3D分子预处理。特别是,我们首先提议采用基于能量的模型作为预处理的骨干,该模型具有实现3D空间对称性的优点。然后,我们为力预测开发了节点级预处理损失,在此过程中,我们进一步利用了Riemann-Gaussian分布,以确保损失为E(3) - 不变,从而实现了更多的稳健性。此外,还利用了图形噪声量表预测任务,以进一步促进最终的性能。我们评估了从两个具有挑战性的3D基准:MD17和QM9的大规模3D数据集GEOM-QM9预测的模型。实验结果支持我们方法对当前最新预处理方法的更好疗效,并验证我们设计的有效性。
translated by 谷歌翻译
这项工作考虑了在属性关系图(ARG)上表示表示的任务。 ARG中的节点和边缘都与属性/功能相关联,允许ARG编码在实际应用中广泛观察到的丰富结构信息。现有的图形神经网络提供了有限的能力,可以在局部结构环境中捕获复杂的相互作用,从而阻碍他们利用ARG的表达能力。我们提出了Motif卷积模块(MCM),这是一种新的基于基线的图表表示技术,以更好地利用本地结构信息。处理连续边缘和节点功能的能力是MCM比现有基于基础图案的模型的优势之一。 MCM以无监督的方式构建了一个主题词汇,并部署了一种新型的主题卷积操作,以提取单个节点的局部结构上下文,然后将其用于通过多层perceptron学习高级节点表示,并在图神经网络中传递消息。与其他图形学习方法进行分类的合成图相比,我们的方法在捕获结构环境方面要好得多。我们还通过将其应用于几个分子基准来证明我们方法的性能和解释性优势。
translated by 谷歌翻译