精确预测物理性质对于发现和设计新材料至关重要。机器学习技术引起了材料科学界的重大关注,以实现大规模筛选的潜力。图表卷积神经网络(GCNN)是最成功的机器学习方法之一,因为它在描述3D结构数据时的灵活性和有效性。大多数现有的GCNN模型集中在拓扑结构上,但过度简化了三维几何结构。然而,在材料科学中,原子的3D空间分布对于确定原子状态和内部力是至关重要的。本文提出了一种具有新型卷积机制的自适应GCNN,其同时在三维空间中同时模拟所有邻的原子之间的原子相互作用。我们将拟议模型应用于预测材料特性的两个明显挑战的问题。首先是亨利在金属 - 有机框架(MOF)中的气体吸附恒定,这是众所周知的,因为它对原子配置的高敏感性。第二种是固态晶体材料中的离子电导率,这是由于少数可用于训练的标记数据而困难。新模型优于两个数据集上的现有基于图形的模型,这表明临界三维几何信息确实捕获。
translated by 谷歌翻译
电子密度$ \ rho(\ vec {r})$是用密度泛函理论(dft)计算地面能量的基本变量。除了总能量之外,$ \ rho(\ vec {r})$分布和$ \ rho(\ vec {r})$的功能通常用于捕获电子规模以功能材料和分子中的关键物理化学现象。方法提供对$ \ rho(\ vec {r})的可紊乱系统,其具有少量计算成本的复杂无序系统可以是对材料相位空间的加快探索朝向具有更好功能的新材料的逆设计的游戏更换者。我们为预测$ \ rho(\ vec {r})$。该模型基于成本图形神经网络,并且在作为消息传递图的一部分的特殊查询点顶点上预测了电子密度,但仅接收消息。该模型在多个数据组中进行测试,分子(QM9),液体乙烯碳酸酯电解质(EC)和Lixniymnzco(1-Y-Z)O 2锂离子电池阴极(NMC)。对于QM9分子,所提出的模型的准确性超过了从DFT获得的$ \ Rho(\ vec {r})$中的典型变异性,以不同的交换相关功能,并显示超出最先进的准确性。混合氧化物(NMC)和电解质(EC)数据集更好的精度甚至更好。线性缩放模型同时探测成千上万点的能力允许计算$ \ Rho(\ vec {r})$的大型复杂系统,比DFT快于允许筛选无序的功能材料。
translated by 谷歌翻译
偶极矩是一个物理量,指示分子的极性,并通过反映成分原子的电性能和分子的几何特性来确定。大多数用于表示传统图神经网络方法中图表表示的嵌入方式将分子视为拓扑图,从而为识别几何信息的目标造成了重大障碍。与现有的嵌入涉及均值的嵌入不同,该嵌入适当地处理分子的3D结构不同,我们的拟议嵌入直接表达了偶极矩局部贡献的物理意义。我们表明,即使对于具有扩展几何形状的分子并捕获更多的原子相互作用信息,开发的模型甚至可以合理地工作,从而显着改善了预测结果,准确性与AB-Initio计算相当。
translated by 谷歌翻译
Molecular machine learning has been maturing rapidly over the last few years.Improved methods and the presence of larger datasets have enabled machine learning algorithms to make increasingly accurate predictions about molecular properties. However, algorithmic progress has been limited due to the lack of a standard benchmark to compare the efficacy of proposed methods; most new algorithms are benchmarked on different datasets making it challenging to gauge the quality of proposed methods. This work introduces MoleculeNet, a large scale benchmark for molecular machine learning. MoleculeNet curates multiple public datasets, establishes metrics for evaluation, and offers high quality open-source implementations of multiple previously proposed molecular featurization and learning algorithms (released as part of the DeepChem
translated by 谷歌翻译
这项工作介绍了神经性等因素的外部潜力(NEQUIP),E(3) - 用于学习分子动力学模拟的AB-INITIO计算的用于学习网状体电位的e(3)的神经网络方法。虽然大多数当代对称的模型使用不变的卷曲,但仅在标量上采取行动,Nequip采用E(3) - 几何张量的相互作用,举起Quivariant卷曲,导致了更多的信息丰富和忠实的原子环境代表。该方法在挑战和多样化的分子和材料集中实现了最先进的准确性,同时表现出显着的数据效率。 Nequip优先于现有型号,最多三个数量级的培训数据,挑战深度神经网络需要大量培训套装。该方法的高数据效率允许使用高阶量子化学水平的理论作为参考的精确潜力构建,并且在长时间尺度上实现高保真分子动力学模拟。
translated by 谷歌翻译
Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
translated by 谷歌翻译
新催化剂的发现是计算化学的重要主题之一,因为它有可能加速采用可再生能源。最近开发的深度学习方法,例如图形神经网络(GNNS)开放的新机会,以显着扩大新型高性能催化剂的范围。然而,由于模棱两可的连接方案和节点和边缘的众多嵌入,特定晶体结构的图表并不是一项简单的任务。在这里,我们提出了GNN的嵌入改进,该改进已通过Voronoi Tesselation修改,并能够预测开放催化剂项目数据集中催化系统的能量。通过Voronoi镶嵌计算图的富集,并将相应的触点固体角度和类型(直接或间接)视为边缘的特征,而Voronoi体积用作节点特征。辅助方法是通过内在的原子特性(电负性,周期和组位置)富集节点表示。提出的修改使我们能够改善原始模型的平均绝对误差,最终误差等于“开放催化剂项目数据集”上每个原子的651 MeV,并且在金属中数据集上的每个原子6 MeV。同样,通过考虑其他数据集,我们表明,明智的数据选择可以将误差降低到高于每个原子阈值20 MEV的值的值。
translated by 谷歌翻译
Molecular "fingerprints" encoding structural information are the workhorse of cheminformatics and machine learning in drug discovery applications. However, fingerprint representations necessarily emphasize particular aspects of the molecular structure while ignoring others, rather than allowing the model to make datadriven decisions. We describe molecular graph convolutions, a machine learning architecture for learning from undirected graphs, specifically small molecules. Graph convolutions use a simple encoding of the molecular graph-atoms, bonds, distances, etc.-which allows the model to take greater advantage of information in the graph structure. Although graph convolutions do not outperform all fingerprint-based methods, they (along with other graph-based methods) represent a new paradigm in ligand-based virtual screening with exciting opportunities for future improvement.
translated by 谷歌翻译
Supervised learning on molecules has incredible potential to be useful in chemistry, drug discovery, and materials science. Luckily, several promising and closely related neural network models invariant to molecular symmetries have already been described in the literature. These models learn a message passing algorithm and aggregation procedure to compute a function of their entire input graph. At this point, the next step is to find a particularly effective variant of this general approach and apply it to chemical prediction benchmarks until we either solve them or reach the limits of the approach. In this paper, we reformulate existing models into a single common framework we call Message Passing Neural Networks (MPNNs) and explore additional novel variations within this framework. Using MPNNs we demonstrate state of the art results on an important molecular property prediction benchmark; these results are strong enough that we believe future work should focus on datasets with larger molecules or more accurate ground truth labels.Recently, large scale quantum chemistry calculation and molecular dynamics simulations coupled with advances in high throughput experiments have begun to generate data at an unprecedented rate. Most classical techniques do not make effective use of the larger amounts of data that are now available. The time is ripe to apply more powerful and flexible machine learning methods to these problems, assuming we can find models with suitable inductive biases. The symmetries of atomic systems suggest neural networks that operate on graph structured data and are invariant to graph isomorphism might also be appropriate for molecules. Sufficiently successful models could someday help automate challenging chemical search problems in drug discovery or materials science.In this paper, our goal is to demonstrate effective machine learning models for chemical prediction problems
translated by 谷歌翻译
格子振动频率与许多重要的材料属性有关,例如热和导电性以及超导性。然而,使用密度泛函理论(DFT)方法的振动频率的计算计算过于计算地要求大量的材料筛选样本。在这里,我们提出了一种基于深度的基于神经网络的基于神经网络的算法,用于预测具有高精度的晶体结构的晶振频率。我们的算法使用零填充方案来解决振动频谱的变量尺寸。有关15,000和35552个样本的两个数据集的基准研究表明,汇总$ ^ 2 $分别分别达到0.554和0.724。我们的作品展示了深图神经网络的能力,除了输出尺寸是恒定的状态(DOS)和电子DOS的声子密度之外,还可以学习晶体结构的声光谱性能。
translated by 谷歌翻译
分子动力学(MD)仿真是一种强大的工具,用于了解物质的动态和结构。由于MD的分辨率是原子尺度,因此实现了使用飞秒集成的长时间模拟非常昂贵。在每个MD步骤中,执行许多可以学习和避免的冗余计算。这些冗余计算可以由像图形神经网络(GNN)的深度学习模型代替和建模。在这项工作中,我们开发了一个GNN加速分子动力学(GAMD)模型,实现了快速准确的力预测,并产生与经典MD模拟一致的轨迹。我们的研究结果表明,Gamd可以准确地预测两个典型的分子系统,Lennard-Jones(LJ)颗粒和水(LJ +静电)的动态。 GAMD的学习和推理是不可知论的,它可以在测试时间缩放到更大的系统。我们还进行了一项全面的基准测试,将GAMD的实施与生产级MD软件进行了比较,我们展示了GAMD在大规模模拟上对它们具有竞争力。
translated by 谷歌翻译
构建代表原子构型的有效描述符对于开发出色的机器学习电位至关重要。广泛使用的常规描述符基于原子分布的两种或三体相关性。最近,揭示了这些多体描述符在分类不同配置时的几个局限性,这对物理特性的预测产生了不利影响。我们根据持续的同源性提出了一类新的描述符。我们专注于持续同源性的二维可视化,即持久图,作为图像形式的原子配置的描述。我们证明,基于该描述符的卷积神经网络模型在预测无定形石墨烯和无定形碳的平均能量方面提供了足够的准确性。我们的结果为使用描述拓扑和几何信息的描述符提供了改善机器学习潜力的途径。
translated by 谷歌翻译
许多现实世界数据可以建模为3D图,但是完全有效地包含3D信息的学习表示形式具有挑战性。现有方法要么使用部分3D信息,要么遭受过多的计算成本。为了完全有效地合并3D信息,我们提出了一个新的消息传递方案,该方案在1跳社区内运行。我们的方法通过实现全球和本地完整性来确保有关3D图的3D信息的完整性。值得注意的是,我们提出了重要的旋转角度来实现全球完整性。此外,我们证明我们的方法比先前的方法快。我们为我们的方法提供了严格的完整性证明和时间复杂性的分析。由于分子本质上是量子系统,我们通过梳理量子启发的基础函数和提出的消息传递方案来构建\下划线{com} plete {com} plete {com} plete {com} plete {e}。实验结果证明了COMENET的能力和效率,尤其是在数量和尺寸大小的现实数据集上。我们的代码作为DIG库的一部分公开可用(\ url {https://github.com/divelab/dig})。
translated by 谷歌翻译
计算催化和机器学习社区在开发用于催化剂发现和设计的机器学习模型方面取得了长足的进步。然而,跨越催化的化学空间的一般机器学习潜力仍然无法触及。一个重大障碍是在广泛的材料中获得访问培训数据的访问。缺乏数据的一类重要材料是氧化物,它抑制模型无法更广泛地研究氧气进化反应和氧化物电催化。为了解决这个问题,我们开发了开放的催化剂2022(OC22)数据集,包括62,521个密度功能理论(DFT)放松(〜9,884,504个单点计算),遍及一系列氧化物材料,覆盖范围,覆盖率和吸附物( *H, *o, *o, *o, *o, *o, * n, *c, *ooh, *oh, *oh2, *o2, *co)。我们定义广义任务,以预测催化过程中适用的总系统能量,发展几个图神经网络的基线性能(Schnet,Dimenet ++,Forcenet,Spinconv,Painn,Painn,Gemnet-DT,Gemnet-DT,Gemnet-OC),并提供预先定义的数据集分割以建立明确的基准,以实现未来的努力。对于所有任务,我们研究组合数据集是否会带来更好的结果,即使它们包含不同的材料或吸附物。具体而言,我们在Open Catalyst 2020(OC20)数据集和OC22上共同训练模型,或OC22上的微调OC20型号。在最一般的任务中,Gemnet-OC看到通过微调来提高了约32%的能量预测,通过联合训练的力预测提高了约9%。令人惊讶的是,OC20和较小的OC22数据集的联合培训也将OC20的总能量预测提高了约19%。数据集和基线模型是开源的,公众排行榜将遵循,以鼓励社区的持续发展,以了解总能源任务和数据。
translated by 谷歌翻译
Use of graphs to represent molecular crystals has become popular in recent years as they provide a natural translation from atoms and bonds to nodes and edges. Graphs capture structure, while remaining invariant to the symmetries that crystals display. Several works in property prediction, including those with state-of-the-art results, make use of the Crystal Graph. The present work offers a graph based on Point-wise Distance Distributions which retains symmetrical invariance, decreases computational load, and yields similar or better prediction accuracy on both experimental and simulated crystals.
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
Recently, graph neural networks (GNNs) have achieved remarkable performances for quantum mechanical problems. However, a graph convolution can only cover a localized region, and cannot capture long-range interactions of atoms. This behavior is contrary to theoretical interatomic potentials, which is a fundamental limitation of the spatial based GNNs. In this work, we propose a novel attention-based framework for molecular property prediction tasks. We represent a molecular conformation as a discrete atomic sequence combined by atom-atom distance attributes, named Geometry-aware Transformer (GeoT). In particular, we adopt a Transformer architecture, which has been widely used for sequential data. Our proposed model trains sequential representations of molecular graphs based on globally constructed attentions, maintaining all spatial arrangements of atom pairs. Our method does not suffer from cost intensive computations, such as angle calculations. The experimental results on several public benchmarks and visualization maps verified that keeping the long-range interatomic attributes can significantly improve the model predictability.
translated by 谷歌翻译
预测分子系统的结构和能量特性是分子模拟的基本任务之一,并且具有化学,生物学和医学的用例。在过去的十年中,机器学习算法的出现影响了各种任务的分子模拟,包括原子系统的财产预测。在本文中,我们提出了一种新的方法,用于将从简单分子系统获得的知识转移到更复杂的知识中,并具有明显的原子和自由度。特别是,我们专注于高自由能状态的分类。我们的方法依赖于(i)分子的新型超图表,编码所有相关信息来表征构象的势能,以及(ii)新的消息传递和汇总层来处理和对此类超图结构数据进行预测。尽管问题的复杂性,但我们的结果表明,从三丙氨酸转移到DECA-丙氨酸系统的转移学习中,AUC的AUC为0.92。此外,我们表明,相同的转移学习方法可以用无监督的方式分组,在具有相似的自由能值的簇中,deca-丙氨酸的各种二级结构。我们的研究代表了一个概念证明,即可以设计用于分子系统的可靠传输学习模型,为预测生物学相关系统的结构和能量性能的未开发途径铺平道路。
translated by 谷歌翻译
机器学习(ML)已经证明了用于准确和结晶材料的准确性能预测的承诺。为了化学结构的高度精确的ML型号的化学结构属性预测,需要具有足够样品的数据集。然而,获得昂贵的化学性质的获得和充分数据可以是昂贵的令人昂贵的,这大大限制了ML模型的性能。通过计算机视觉和黑暗语言处理中数据增强的成功,我们开发了奥古里希姆:数据八级化图书馆化学结构。引入了弃头晶系统和分子的增强方法,其可以对基于指纹的ML模型和图形神经网络(GNNS)进行脱颖而出。我们表明,使用我们的增强策略意义地提高了ML模型的性能,特别是在使用GNNS时,我们开发的增强件在训练期间可以用作广告插件模块,并在用不同的GNN实施时证明了有效性。模型通过Theauglichem图书馆。基于Python的封装我们实现了EugliChem:用于化学结构的数据增强库,可公开获取:https://github.com/baratilab/auglichem.1
translated by 谷歌翻译
我们考虑在编码晶体材料的周期图上的表示形式学习。与常规图不同,周期图由最小单位单元组成,该单元在3D空间中的常规晶格上重复出现。如何有效编码这些周期结构会带来常规图表学习中不存在的独特挑战。除了E(3)不变外,周期性的图表表示还需要定期不变。也就是说,学到的表示形式应该不变,因为它们是人为强加的。此外,需要明确捕获周期性重复模式,因为不同尺寸和方向的晶格可能对应于不同的材料。在这项工作中,我们提出了一个变压器体系结构,称为Matformer,以进行周期性图表学习。我们的拟合器设计为周期性不变,可以明确捕获重复模式。特别是,Matformer通过有效使用相邻细胞中相同原子之间的几何距离来编码周期模式。多个通用基准数据集的实验结果表明,我们的配合器的表现始终超过基线方法。此外,我们的结果证明了定期不变性和对晶体表示学习的明确重复模式编码的重要性。
translated by 谷歌翻译