机器学习辅助建模的原子势能表面(PES)正在彻底改变分子模拟的领域。随着高质量电子结构数据的积累,可以在所有可用数据上鉴定的模型,并在下游任务上以较小的额外努力进行填充,这将使该领域进入新阶段。在这里,我们提出了DPA-1,这是一种具有新颖的注意机制的深层潜在模型,该模型非常有效地表示原子系统的构象和化学空间并学习PES。我们在许多系统上测试了DPA-1,并且与现有基准相比,观察到了卓越的性能。当在包含56个元素的大规模数据集上进行预估计时,DPA-1可以成功应用于各种下游任务,并有很大的提高样品效率。令人惊讶的是,对于不同的元素,学习的类型嵌入参数在潜在空间中形成$螺旋$,并具有自然对应的元素性表位,显示了预审预周化的DPA-1模型的有趣解释性。
translated by 谷歌翻译
计算催化和机器学习社区在开发用于催化剂发现和设计的机器学习模型方面取得了长足的进步。然而,跨越催化的化学空间的一般机器学习潜力仍然无法触及。一个重大障碍是在广泛的材料中获得访问培训数据的访问。缺乏数据的一类重要材料是氧化物,它抑制模型无法更广泛地研究氧气进化反应和氧化物电催化。为了解决这个问题,我们开发了开放的催化剂2022(OC22)数据集,包括62,521个密度功能理论(DFT)放松(〜9,884,504个单点计算),遍及一系列氧化物材料,覆盖范围,覆盖率和吸附物( *H, *o, *o, *o, *o, *o, * n, *c, *ooh, *oh, *oh2, *o2, *co)。我们定义广义任务,以预测催化过程中适用的总系统能量,发展几个图神经网络的基线性能(Schnet,Dimenet ++,Forcenet,Spinconv,Painn,Painn,Gemnet-DT,Gemnet-DT,Gemnet-OC),并提供预先定义的数据集分割以建立明确的基准,以实现未来的努力。对于所有任务,我们研究组合数据集是否会带来更好的结果,即使它们包含不同的材料或吸附物。具体而言,我们在Open Catalyst 2020(OC20)数据集和OC22上共同训练模型,或OC22上的微调OC20型号。在最一般的任务中,Gemnet-OC看到通过微调来提高了约32%的能量预测,通过联合训练的力预测提高了约9%。令人惊讶的是,OC20和较小的OC22数据集的联合培训也将OC20的总能量预测提高了约19%。数据集和基线模型是开源的,公众排行榜将遵循,以鼓励社区的持续发展,以了解总能源任务和数据。
translated by 谷歌翻译
这项工作介绍了神经性等因素的外部潜力(NEQUIP),E(3) - 用于学习分子动力学模拟的AB-INITIO计算的用于学习网状体电位的e(3)的神经网络方法。虽然大多数当代对称的模型使用不变的卷曲,但仅在标量上采取行动,Nequip采用E(3) - 几何张量的相互作用,举起Quivariant卷曲,导致了更多的信息丰富和忠实的原子环境代表。该方法在挑战和多样化的分子和材料集中实现了最先进的准确性,同时表现出显着的数据效率。 Nequip优先于现有型号,最多三个数量级的培训数据,挑战深度神经网络需要大量培训套装。该方法的高数据效率允许使用高阶量子化学水平的理论作为参考的精确潜力构建,并且在长时间尺度上实现高保真分子动力学模拟。
translated by 谷歌翻译
Machine-learning models are increasingly used to predict properties of atoms in chemical systems. There have been major advances in developing descriptors and regression frameworks for this task, typically starting from (relatively) small sets of quantum-mechanical reference data. Larger datasets of this kind are becoming available, but remain expensive to generate. Here we demonstrate the use of a large dataset that we have "synthetically" labelled with per-atom energies from an existing ML potential model. The cheapness of this process, compared to the quantum-mechanical ground truth, allows us to generate millions of datapoints, in turn enabling rapid experimentation with atomistic ML models from the small- to the large-data regime. This approach allows us here to compare regression frameworks in depth, and to explore visualisation based on learned representations. We also show that learning synthetic data labels can be a useful pre-training task for subsequent fine-tuning on small datasets. In the future, we expect that our open-sourced dataset, and similar ones, will be useful in rapidly exploring deep-learning models in the limit of abundant chemical data.
translated by 谷歌翻译
Developing machine learning-based interatomic potentials from ab-initio electronic structure methods remains a challenging task for computational chemistry and materials science. This work studies the capability of transfer learning for efficiently generating chemically accurate interatomic neural network potentials on organic molecules from the MD17 and ANI data sets. We show that pre-training the network parameters on data obtained from density functional calculations considerably improves the sample efficiency of models trained on more accurate ab-initio data. Additionally, we show that fine-tuning with energy labels alone suffices to obtain accurate atomic forces and run large-scale atomistic simulations. We also investigate possible limitations of transfer learning, especially regarding the design and size of the pre-training and fine-tuning data sets. Finally, we provide GM-NN potentials pre-trained and fine-tuned on the ANI-1x and ANI-1ccx data sets, which can easily be fine-tuned on and applied to organic molecules.
translated by 谷歌翻译
电子密度$ \ rho(\ vec {r})$是用密度泛函理论(dft)计算地面能量的基本变量。除了总能量之外,$ \ rho(\ vec {r})$分布和$ \ rho(\ vec {r})$的功能通常用于捕获电子规模以功能材料和分子中的关键物理化学现象。方法提供对$ \ rho(\ vec {r})的可紊乱系统,其具有少量计算成本的复杂无序系统可以是对材料相位空间的加快探索朝向具有更好功能的新材料的逆设计的游戏更换者。我们为预测$ \ rho(\ vec {r})$。该模型基于成本图形神经网络,并且在作为消息传递图的一部分的特殊查询点顶点上预测了电子密度,但仅接收消息。该模型在多个数据组中进行测试,分子(QM9),液体乙烯碳酸酯电解质(EC)和Lixniymnzco(1-Y-Z)O 2锂离子电池阴极(NMC)。对于QM9分子,所提出的模型的准确性超过了从DFT获得的$ \ Rho(\ vec {r})$中的典型变异性,以不同的交换相关功能,并显示超出最先进的准确性。混合氧化物(NMC)和电解质(EC)数据集更好的精度甚至更好。线性缩放模型同时探测成千上万点的能力允许计算$ \ Rho(\ vec {r})$的大型复杂系统,比DFT快于允许筛选无序的功能材料。
translated by 谷歌翻译
由于控制结构特性关系的分子间相互作用的微妙平衡,预测由分子构建块形成的晶体结构的稳定性是一个高度非平凡的科学问题。一种特别活跃和富有成果的方法涉及对相互作用的化学部分的不同组合进行分类,因为了解不同相互作用的相对能量可以使分子晶体的设计和微调其稳定性。尽管这通常是基于对已知晶体结构中最常见的基序的经验观察进行的,但我们建议采用有监督和无监督的机器学习技术的组合来自动化分子构建块的广泛库。我们介绍了一个针对有机晶体的结合能量预测的结构描述符,并利用以原子为中心的性质来获得对不同化学基团对晶体晶格能量的贡献的数据驱动评估。然后,我们使用结构 - 能量景观的低维表示来解释该库,并讨论可以从本分析中提取的见解的选定示例,从而提供了一个完整的数据库来指导分子材料的设计。
translated by 谷歌翻译
近年来,分子模拟数据集的出现是大数量级,更多样化的阶。这些新数据集在复杂性的四个方面有很大差异:1。化学多样性(不同元素的数量),2。系统大小(每个样品原子数),3。数据集大小(数据样本数)和4.域移动(培训和测试集的相似性)。尽管存在这些较大的差异,但在狭窄和狭窄的数据集上的基准仍然是证明分子模拟的图形神经网络(GNN)进展的主要方法,这可能是由于较便宜的训练计算要求所致。这就提出了一个问题 - GNN在小和狭窄的数据集上的进展是否转化为这些更复杂的数据集?这项工作通过首先根据大型开放催化剂2020(OC20)数据集开发Gemnet-OC模型来研究这个问题。 Gemnet-OC的表现优于OC20上的先前最新ART,同时将训练时间减少10倍。然后,我们比较了18个模型组件和超参数选择对多个数据集的性能的影响。我们发现,根据用于做出模型选择的数据集,所得模型将大不相同。为了隔离这种差异的来源,我们研究了OC20数据集的六个子集,这些子集分别测试了上述四个数据集方面的每个数据集。我们发现,OC-2M子集的结果与完整的OC20数据集良好相关,同时训练得更便宜。我们的发现挑战了仅在小型数据集上开发GNN的常见做法,但突出了通过中等尺寸的代表性数据集(例如OC-2M)以及Gemnet-oc等高效模型来实现快速开发周期和可推广结果的方法。我们的代码和预估计的模型权重是开源的。
translated by 谷歌翻译
分子动力学模拟是许多科学领域中的宝贵工具。但是,无处不在的经典力场无法描述反应性系统,量子分子动力学在计算上要求太大,无法处理大型系统或长时间尺度。基于物理或机器学习的反应力场可以在时间和长度尺度上弥合差距,但是这些力场需要大量努力来构建,并且对给定的化学组成和应用高度特异性。机器学习模型的一个重要局限性是使用特定于元素的功能,导致模型随着元素数量而缩小范围很差。这项工作介绍了高斯多极(GMP)特征化方案,该方案利用了原子周围电子密度的物理相关的多极膨胀,以产生特征向量,这些向量在元素类型之间插值并且具有固定尺寸,而不管存在的元素数量。我们将GMP与神经网络相结合,将其直接与MD17数据集的广泛使用的Beller-Parinello对称函数进行比较,从而表明它表现出提高的准确性和计算效率。此外,我们证明了基于GMP的模型可以实现QM9数据集的化学准确性,即使推断到新元素时,它们的准确性仍然是合理的。最后,我们测试了基于GMP的开放式催化项目(OCP)数据集的模型,揭示了与图形卷积深度学习模型相当的性能。结果表明,这种特征方案填补了有效且可转移的机器学习力场的构建方面的关键空白。
translated by 谷歌翻译
我们开发了一种组合量子蒙特卡罗的准确性在描述与机器学习电位(MLP)的效率描述电子相关性的技术。我们使用内核线性回归与肥皂(平滑的重叠原子位置)方法结合使用,以非常有效的方式在此实现。关键成分是:i)一种基于最远点采样的稀疏技术,确保我们的MLP的一般性和可转换性和II)所谓的$ \ Delta $ -Learning,允许小型训练数据集,这是一种高度准确的基本属性但是计算地要求计算,例如基于量子蒙特卡罗的计算。作为第一个应用,我们通过强调这一非常高精度的重要性,展示了高压氢气液体过渡的基准研究,并显示了我们的MLP的高精度的重要性,实验室在实验中难以进行实验,以及实验理论仍然远非结论。
translated by 谷歌翻译
对称考虑对于用于提供原子配置的有效数学表示的主要框架的核心,然后在机器学习模型中用于预测与每个结构相关的特性。在大多数情况下,模型依赖于以原子为中心的环境的描述,并且适合于学习可以分解成原子贡献的原子特性或全局观察到。然而,许多与量子机械计算相关的数量 - 最值得注意的是,以原子轨道基础写入时的单粒子哈密顿矩阵 - 与单个中心无关,但结构中有两个(或更多个)原子。我们讨论一系列结构描述符,以概括为N中心案例的非常成功的原子居中密度相关特征,特别是如何应用这种结构,以有效地学习(有效)单粒子汉密尔顿人的矩阵元素以原子为中心的轨道基础。这些N中心的特点是完全的,不仅在转换和旋转方面,而且还就与原子相关的指数的排列而言 - 并且适合于构建新类的对称适应的机器学习模型分子和材料的性质。
translated by 谷歌翻译
精确预测物理性质对于发现和设计新材料至关重要。机器学习技术引起了材料科学界的重大关注,以实现大规模筛选的潜力。图表卷积神经网络(GCNN)是最成功的机器学习方法之一,因为它在描述3D结构数据时的灵活性和有效性。大多数现有的GCNN模型集中在拓扑结构上,但过度简化了三维几何结构。然而,在材料科学中,原子的3D空间分布对于确定原子状态和内部力是至关重要的。本文提出了一种具有新型卷积机制的自适应GCNN,其同时在三维空间中同时模拟所有邻的原子之间的原子相互作用。我们将拟议模型应用于预测材料特性的两个明显挑战的问题。首先是亨利在金属 - 有机框架(MOF)中的气体吸附恒定,这是众所周知的,因为它对原子配置的高敏感性。第二种是固态晶体材料中的离子电导率,这是由于少数可用于训练的标记数据而困难。新模型优于两个数据集上的现有基于图形的模型,这表明临界三维几何信息确实捕获。
translated by 谷歌翻译
在计算化学和材料科学中,创建快速准确的力场是一项长期挑战。最近,已经证明,几个直径传递神经网络(MPNN)超过了使用其他方法在准确性方面构建的模型。但是,大多数MPNN的计算成本高和可伸缩性差。我们建议出现这些局限性,因为MPNN仅传递两体消息,从而导致层数与网络的表达性之间的直接关系。在这项工作中,我们介绍了MACE,这是一种使用更高的车身订单消息的新型MPNN模型。特别是,我们表明,使用四体消息将所需的消息传递迭代数减少到\ emph {两},从而导致快速且高度可行的模型,达到或超过RMD17的最新准确性,3BPA和ACAC基准任务。我们还证明,使用高阶消息会导致学习曲线的陡峭程度改善。
translated by 谷歌翻译
数据驱动的机器学习方法有可能显着加速材料设计的速率,而不是传统的人类指导方法。这些方法将有助于识别或在生成模型的情况下,甚至可以创建具有一组指定功能特性的新型材料结构,然后在实验室中合成或隔离。对于晶体结构的产生,关键的瓶颈在于为机器学习模型开发合适的原子结构指纹或表示,类似于分子生成中使用的基于图或微笑的表示。但是,找到对翻译,旋转和排列不变的数据有效表示,而笛卡尔原子坐标仍然是可逆的,仍然是一个持续的挑战。在这里,我们通过采用具有所需的不变的现有的不可糊化表示并开发算法来通过使用自动分化的基于梯度的优化来重建原子坐标,从而提出了一种替代方法。然后,可以将其与生成机器学习模型耦合,该模型在表示空间内生成新材料,而不是在数据范围内的笛卡尔空间中生成新材料。在这项工作中,我们使用以原子为中心的对称函数来实现这种端到端的结构生成方法,作为表示和条件变化自动编码器作为生成模型。我们能够成功地生成亚纳米PT纳米颗粒的新颖和有效的原子结构,作为概念证明。此外,该方法可以很容易地扩展到任何合适的结构表示形式,从而为基于结构的生成提供了强大的,可推广的框架。
translated by 谷歌翻译
Recently, graph neural networks (GNNs) have achieved remarkable performances for quantum mechanical problems. However, a graph convolution can only cover a localized region, and cannot capture long-range interactions of atoms. This behavior is contrary to theoretical interatomic potentials, which is a fundamental limitation of the spatial based GNNs. In this work, we propose a novel attention-based framework for molecular property prediction tasks. We represent a molecular conformation as a discrete atomic sequence combined by atom-atom distance attributes, named Geometry-aware Transformer (GeoT). In particular, we adopt a Transformer architecture, which has been widely used for sequential data. Our proposed model trains sequential representations of molecular graphs based on globally constructed attentions, maintaining all spatial arrangements of atom pairs. Our method does not suffer from cost intensive computations, such as angle calculations. The experimental results on several public benchmarks and visualization maps verified that keeping the long-range interatomic attributes can significantly improve the model predictability.
translated by 谷歌翻译
由于它们在元素之间代表复杂互动的能力,变压器已成为许多应用中的选择方法。然而,将变压器架构扩展到非顺序数据,例如分子,并使其对小型数据集的训练仍然是一个挑战。在这项工作中,我们引入了一种用于分子性能预测的基于变压器的架构,其能够捕获分子的几何形状。我们通过分子几何形状的初始编码来修改经典位置编码器,以及学习的门控自我关注机制。我们进一步提出了一种增强方案,用于避免通过过次分辨率的架构引起的过度拟合的分子数据。所提出的框架优于最先进的方法,同时仅基于纯机器学习,即,即该方法不包含量子化学的域知识,并且在成对原子距离旁边没有使用延伸的几何输入。
translated by 谷歌翻译
产生稳定材料的周期性结构是材料设计界的长期挑战。这个任务很难,因为稳定的材料只存在于原子的所有可能的周期性布置的低维子空间中:1)坐标必须位于量子力学限定的局部能量最小,而2)全球稳定性也需要遵循结构不同原子类型之间的复杂,但特定的粘合偏好。现有方法未能纳入这些因素,并且经常缺乏适当的侵略者。我们提出了一种晶体扩散变分性AutoEncoder(CDVAE),其捕获材料稳定性的物理感应偏差。通过从稳定材料的数据分布中学习,解码器在扩散过程中产生材料,其将原子坐标朝向较低能量状态移动并更新原子类型以满足邻居之间的粘接偏好。我们的模型还明确地编码了周期性边界的交互,尊重置换,转换,旋转和周期性修正。我们在三个任务中显着优于过去的方法:1)重建输入结构,2)产生有效,多样化和现实的材料和3)产生优化特定性质的材料。我们还为更广泛的机器学习界提供了几个标准数据集和评估指标。
translated by 谷歌翻译
几乎每个机器学习算法的输入瞄准原子秤上的物质属性涉及笛卡尔原子坐标列表的转换为更称对称表示。许多最流行的表示可以被视为原子密度的对称相关性的扩展,并且主要在于基础的选择。相当大的努力一直致力于优化基础集,通常由关于回归目标行为的启发式考虑因素驱动。在这里,我们采取了不同的无监督的观点,旨在确定以最紧凑的方式进行编码的基础,可能是与手头数据集相关的结构信息。对于每个训练数据集和基础函数数,可以确定在这种意义上最佳的独特基础,并且可以通过用样条近似于近似地基于原始基础来计算。我们证明,这种结构产生了准确和计算效率的表示,特别是在构建对应于高于高机标相关性的表示时。我们提出了涉及分子和凝聚相机器学习模型的示例。
translated by 谷歌翻译
我们向高吞吐量基准介绍了用于材料和分子数据集的化学系统的多种表示的高吞吐量基准的机器学习(ML)框架。基准测试方法的指导原理是通过将模型复杂性限制在简单的回归方案的同时,在执行最佳ML实践的同时将模型复杂性限制为简单的回归方案,允许通过沿着同步的列车测试分裂的系列进行学习曲线来评估学习进度来评估原始描述符性能。结果模型旨在为未来方法开发提供通知的基线,旁边指示可以学习给定的数据集多么容易。通过对各种物理化学,拓扑和几何表示的培训结果的比较分析,我们介绍了这些陈述的相对优点以及它们的相互关联。
translated by 谷歌翻译
机器学习潜力是分子模拟的重要工具,但是由于缺乏高质量数据集来训练它们的发展,它们的开发阻碍了它们。我们描述了Spice数据集,这是一种新的量子化学数据集,用于训练与模拟与蛋白质相互作用的药物样的小分子相关的潜在。它包含超过110万个小分子,二聚体,二肽和溶剂化氨基酸的构象。它包括15个元素,带电和未充电的分子以及广泛的共价和非共价相互作用。它提供了在{\ omega} b97m-d3(bj)/def2-tzVPPD理论水平以及其他有用的数量(例如多极矩和键阶)上计算出的力和能量。我们在其上训练一组机器学习潜力,并证明它们可以在化学空间的广泛区域中实现化学精度。它可以作为创建可转移的,准备使用潜在功能用于分子模拟的宝贵资源。
translated by 谷歌翻译