与多体波函数相比,使用2电子降低密度矩阵(2RDM)编码分子的电子结构已经是一个数十年的任务,因为2RDM包含足够的信息来计算精确的分子能量,但只需要多项式存储。我们专注于具有不同构象和单体数量的线性聚合物,并表明我们可以使用机器学习来预测1电子和2电子降低密度矩阵。此外,通过将哈密顿操作员应用于预测的降低密度矩阵,我们表明我们可以恢复分子能。因此,我们证明了机器学习方法可以预测新构象和新分子的电子结构的可行性。同时,我们的工作规避了通过直接机器学习有效的有效降低密度矩阵来阻碍2RDM方法适应的N-陈述性问题。
translated by 谷歌翻译
对称考虑对于用于提供原子配置的有效数学表示的主要框架的核心,然后在机器学习模型中用于预测与每个结构相关的特性。在大多数情况下,模型依赖于以原子为中心的环境的描述,并且适合于学习可以分解成原子贡献的原子特性或全局观察到。然而,许多与量子机械计算相关的数量 - 最值得注意的是,以原子轨道基础写入时的单粒子哈密顿矩阵 - 与单个中心无关,但结构中有两个(或更多个)原子。我们讨论一系列结构描述符,以概括为N中心案例的非常成功的原子居中密度相关特征,特别是如何应用这种结构,以有效地学习(有效)单粒子汉密尔顿人的矩阵元素以原子为中心的轨道基础。这些N中心的特点是完全的,不仅在转换和旋转方面,而且还就与原子相关的指数的排列而言 - 并且适合于构建新类的对称适应的机器学习模型分子和材料的性质。
translated by 谷歌翻译
由于控制结构特性关系的分子间相互作用的微妙平衡,预测由分子构建块形成的晶体结构的稳定性是一个高度非平凡的科学问题。一种特别活跃和富有成果的方法涉及对相互作用的化学部分的不同组合进行分类,因为了解不同相互作用的相对能量可以使分子晶体的设计和微调其稳定性。尽管这通常是基于对已知晶体结构中最常见的基序的经验观察进行的,但我们建议采用有监督和无监督的机器学习技术的组合来自动化分子构建块的广泛库。我们介绍了一个针对有机晶体的结合能量预测的结构描述符,并利用以原子为中心的性质来获得对不同化学基团对晶体晶格能量的贡献的数据驱动评估。然后,我们使用结构 - 能量景观的低维表示来解释该库,并讨论可以从本分析中提取的见解的选定示例,从而提供了一个完整的数据库来指导分子材料的设计。
translated by 谷歌翻译
分子或材料的电子密度最近作为机器学习模型的目标数量受到了主要关注。一种自然选择,用于构建可传递可转移和线性缩放预测的模型是使用类似于通常用于密度拟合近似值的常规使用的原子基础来表示标量场。但是,基础的非正交性对学习练习构成了挑战,因为它需要立即考虑所有原子密度成分。我们设计了一种基于梯度的方法,可以直接在优化且高度稀疏的特征空间中最大程度地减少回归问题的损失函数。这样,我们克服了与采用以原子为中心的模型相关的限制,以在任意复杂的数据集上学习电子密度,从而获得极为准确的预测。增强的框架已在32个液体水的32个周期细胞上进行测试,具有足够的复杂性,需要在准确性和计算效率之间取得最佳平衡。我们表明,从预测的密度开始,可以执行单个Kohn-Sham对角度步骤,以访问总能量组件,而总能量组件仅针对参考密度函数计算,而误差仅为0.1 MEV/ATOM。最后,我们测试了高度异构QM9基准数据集的方法,这表明训练数据的一小部分足以在化学精度内得出地面总能量。
translated by 谷歌翻译
我们开发了一种组合量子蒙特卡罗的准确性在描述与机器学习电位(MLP)的效率描述电子相关性的技术。我们使用内核线性回归与肥皂(平滑的重叠原子位置)方法结合使用,以非常有效的方式在此实现。关键成分是:i)一种基于最远点采样的稀疏技术,确保我们的MLP的一般性和可转换性和II)所谓的$ \ Delta $ -Learning,允许小型训练数据集,这是一种高度准确的基本属性但是计算地要求计算,例如基于量子蒙特卡罗的计算。作为第一个应用,我们通过强调这一非常高精度的重要性,展示了高压氢气液体过渡的基准研究,并显示了我们的MLP的高精度的重要性,实验室在实验中难以进行实验,以及实验理论仍然远非结论。
translated by 谷歌翻译
这项工作介绍了神经性等因素的外部潜力(NEQUIP),E(3) - 用于学习分子动力学模拟的AB-INITIO计算的用于学习网状体电位的e(3)的神经网络方法。虽然大多数当代对称的模型使用不变的卷曲,但仅在标量上采取行动,Nequip采用E(3) - 几何张量的相互作用,举起Quivariant卷曲,导致了更多的信息丰富和忠实的原子环境代表。该方法在挑战和多样化的分子和材料集中实现了最先进的准确性,同时表现出显着的数据效率。 Nequip优先于现有型号,最多三个数量级的培训数据,挑战深度神经网络需要大量培训套装。该方法的高数据效率允许使用高阶量子化学水平的理论作为参考的精确潜力构建,并且在长时间尺度上实现高保真分子动力学模拟。
translated by 谷歌翻译
定量探索了量子化学参考数据的训练神经网络(NNS)预测的不确定性量化的价值。为此,适当地修改了Physnet NN的体系结构,并使用不同的指标评估所得模型,以量化校准,预测质量以及预测误差和预测的不确定性是否可以相关。 QM9数据库培训的结果以及分布内外的测试集的数据表明,错误和不确定性与线性无关。结果阐明了噪声和冗余使分子的性质预测复杂化,即使在发生变化的情况下,例如在两个原本相同的分子中的双键迁移 - 很小。然后将模型应用于互变异反应的真实数据库。分析特征空间中的成员之间的距离与其他参数结合在一起表明,训练数据集中的冗余信息会导致较大的差异和小错误,而存在相似但非特定的信息的存在会返回大错误,但差异很小。例如,这是对含硝基的脂肪族链的观察到的,尽管训练集包含了与芳香族分子结合的硝基组的几个示例,但这些预测很困难。这强调了训练数据组成的重要性,并提供了化学洞察力,以了解这如何影响ML模型的预测能力。最后,提出的方法可用于通过主动学习优化基于信息的化学数据库改进目标应用程序。
translated by 谷歌翻译
我们在基于分子的机器学习(MOB-ML)中介绍了一种新颖的机器学习策略,即内核加法过程回归(KA-GPR),以了解封闭式和开放式壳的通用电子结构理论的总相关能力通过引入机器学习策略来系统。 MOB-ML(KA-GPR)的学习效率与最小的Criegee分子的原始MOB-ML方法相同,这是具有多引用特征的封闭壳分子。此外,通过示例结构训练,不同小自由基的预测精度可以达到1 kcal/mol的化学精度。 MOB-ML(KA-GPR)也可以生成H10链(闭合壳)和水OH OH离解(开放壳)的准确势能表面。为了探索KA-GPR可以描述的化学系统的广度,我们进一步应用MOB-ML准确预测闭合的大型基准数据集,用于闭合 - (QM7B-T,GDB-13-T)和Open-Shell(QMSPIN)分子。
translated by 谷歌翻译
图神经网络(GNN)是机器学习中非常流行的方法,并且非常成功地应用于分子和材料的性质。众所周知,一阶GNN是不完整的,即存在不同的图形,但在通过GNN的镜头看到时似乎相同。因此,更复杂的方案旨在提高其分辨能力。但是,在分子(以及更一般的点云)上的应用,为问题添加了几何维度。构造分子图表表示原子的最直接和普遍的方法将原子视为图中的顶点,并在所选截止中的每对原子之间绘制一个键。键可以用原子之间的距离进行装饰,所得的“距离图NN”(DGNN)在经验上已证明了出色的分辨能力,并广泛用于化学ML,所有已知的不可区分的图都在完全连接的极限中解析。在这里,我们表明,即使对于由3D原子云引起的完全连接图的受限情况也不完整。我们构造了一对不同的点云对产生图形,对于任何截止半径,基于一阶Weisfeiler-Lehman测试都是等效的。这类退化的结构包括化学上可见的构型,为某些完善的GNN架构的原子学机器学习设定了最终的限制。在原子环境描述中明确使用角度或方向信息的模型可以解决这些变性。
translated by 谷歌翻译
预测分子系统的结构和能量特性是分子模拟的基本任务之一,并且具有化学,生物学和医学的用例。在过去的十年中,机器学习算法的出现影响了各种任务的分子模拟,包括原子系统的财产预测。在本文中,我们提出了一种新的方法,用于将从简单分子系统获得的知识转移到更复杂的知识中,并具有明显的原子和自由度。特别是,我们专注于高自由能状态的分类。我们的方法依赖于(i)分子的新型超图表,编码所有相关信息来表征构象的势能,以及(ii)新的消息传递和汇总层来处理和对此类超图结构数据进行预测。尽管问题的复杂性,但我们的结果表明,从三丙氨酸转移到DECA-丙氨酸系统的转移学习中,AUC的AUC为0.92。此外,我们表明,相同的转移学习方法可以用无监督的方式分组,在具有相似的自由能值的簇中,deca-丙氨酸的各种二级结构。我们的研究代表了一个概念证明,即可以设计用于分子系统的可靠传输学习模型,为预测生物学相关系统的结构和能量性能的未开发途径铺平道路。
translated by 谷歌翻译
Proteins play a central role in biology from immune recognition to brain activity. While major advances in machine learning have improved our ability to predict protein structure from sequence, determining protein function from structure remains a major challenge. Here, we introduce Holographic Convolutional Neural Network (H-CNN) for proteins, which is a physically motivated machine learning approach to model amino acid preferences in protein structures. H-CNN reflects physical interactions in a protein structure and recapitulates the functional information stored in evolutionary data. H-CNN accurately predicts the impact of mutations on protein function, including stability and binding of protein complexes. Our interpretable computational model for protein structure-function maps could guide design of novel proteins with desired function.
translated by 谷歌翻译
最近,机器学习(ML)电位的发展使得以量子力学(QM)模型的精度进行大规模和长期分子模拟成为可能。但是,对于高水平的QM方法,例如在元gga级和/或具有精确交换的密度函数理论(DFT),量子蒙特卡洛等,生成足够数量的用于训练的数据由于其高成本,计算挑战性。在这项工作中,我们证明了基于ML的DFT模型Deep Kohn-Sham(Deepks)可以在很大程度上缓解这个问题。 DeepKS采用计算高效的基于神经网络的功能模型来构建在廉价DFT模型上添加的校正项。在训练后,DeepKs提供了与高级QM方法相比,具有紧密匹配的能量和力,但是所需的训练数据的数量是比训练可靠的ML潜力所需的数量级要小。因此,DeepKs可以用作昂贵的QM型号和ML电位之间的桥梁:一个人可以生成相当数量的高准确性QM数据来训练DeepKs模型,然后使用DeepKs型号来标记大量的配置以标记训练ML潜力。该周期系统方案在DFT软件包算盘中实施,该计划是开源的,可以在各种应用程序中使用。
translated by 谷歌翻译
机器学习潜力是分子模拟的重要工具,但是由于缺乏高质量数据集来训练它们的发展,它们的开发阻碍了它们。我们描述了Spice数据集,这是一种新的量子化学数据集,用于训练与模拟与蛋白质相互作用的药物样的小分子相关的潜在。它包含超过110万个小分子,二聚体,二肽和溶剂化氨基酸的构象。它包括15个元素,带电和未充电的分子以及广泛的共价和非共价相互作用。它提供了在{\ omega} b97m-d3(bj)/def2-tzVPPD理论水平以及其他有用的数量(例如多极矩和键阶)上计算出的力和能量。我们在其上训练一组机器学习潜力,并证明它们可以在化学空间的广泛区域中实现化学精度。它可以作为创建可转移的,准备使用潜在功能用于分子模拟的宝贵资源。
translated by 谷歌翻译
几乎每个机器学习算法的输入瞄准原子秤上的物质属性涉及笛卡尔原子坐标列表的转换为更称对称表示。许多最流行的表示可以被视为原子密度的对称相关性的扩展,并且主要在于基础的选择。相当大的努力一直致力于优化基础集,通常由关于回归目标行为的启发式考虑因素驱动。在这里,我们采取了不同的无监督的观点,旨在确定以最紧凑的方式进行编码的基础,可能是与手头数据集相关的结构信息。对于每个训练数据集和基础函数数,可以确定在这种意义上最佳的独特基础,并且可以通过用样条近似于近似地基于原始基础来计算。我们证明,这种结构产生了准确和计算效率的表示,特别是在构建对应于高于高机标相关性的表示时。我们提出了涉及分子和凝聚相机器学习模型的示例。
translated by 谷歌翻译
在多种重要应用中,获得电子系统的准确地面和低洼激发态至关重要。一种用于求解对大型系统缩放的Schr \“ Odinger方程的方法是变异量蒙特卡洛(QMC)。最近引入的深层QMC方法使用以深神经网络代表的Ansatzes,并生成几乎精确的分子解决方案的分子解决方案最多包含几十个电子,并有可能扩展到更大的系统,而其他高度准确的方法不可行。在本文中,我们扩展了一个这样的Ansatz(Paulinet)来计算电子激发态。我们在各种方法上演示了我们的方法小原子和分子,并始终达到低洼状态的高精度。为了突出该方法的潜力,我们计算了较大的苯分子的第一个激发态,以及乙烯的圆锥形交集,Paulinet匹配的结果更昂贵高级方法。
translated by 谷歌翻译
机器学习,特别是深度学习方法在许多模式识别和数据处理问题,游戏玩法中都优于人类的能力,现在在科学发现中也起着越来越重要的作用。机器学习在分子科学中的关键应用是通过使用密度函数理论,耦合群或其他量子化学方法获得的电子schr \“ odinger方程的Ab-Initio溶液中的势能表面或力场。我们回顾了一种最新和互补的方法:使用机器学习来辅助从第一原理中直接解决量子化学问题。具体来说,我们专注于使用神经网络ANSATZ功能的量子蒙特卡洛(QMC)方法,以解决电子SCHR \ “ Odinger方程在第一和第二量化中,计算场和激发态,并概括多个核构型。与现有的量子化学方法相比,这些新的深QMC方法具有以相对适度的计算成本生成高度准确的Schr \“ Odinger方程的溶液。
translated by 谷歌翻译
Molecular machine learning has been maturing rapidly over the last few years.Improved methods and the presence of larger datasets have enabled machine learning algorithms to make increasingly accurate predictions about molecular properties. However, algorithmic progress has been limited due to the lack of a standard benchmark to compare the efficacy of proposed methods; most new algorithms are benchmarked on different datasets making it challenging to gauge the quality of proposed methods. This work introduces MoleculeNet, a large scale benchmark for molecular machine learning. MoleculeNet curates multiple public datasets, establishes metrics for evaluation, and offers high quality open-source implementations of multiple previously proposed molecular featurization and learning algorithms (released as part of the DeepChem
translated by 谷歌翻译
神经网络和量子蒙特卡罗方法的组合作为前进的高精度电子结构计算的道路出现。以前的建议具有组合具有反对称层的增强的神经网络层,以满足电子波技的反对称要求。但是,迄今为止,如果可以代表物理兴趣的反对称功能,则不清楚尚不清楚,并且难以测量反对称层的富有效果。这项工作通过将明确的防视通用神经网络层作为诊断工具引入明确的防视通用神经网络层来解决这个问题。我们首先介绍一种通用的反对二手(GA)层,我们用于更换称为FEMINET的高精度ANSATZ的整个防反对二层层。我们证明所得到的FERMINET-GA架构可以有效地产生小型系统的确切地位能量。然后,我们考虑一种分解的反对称(FA)层,其通过替换具有反对称神经网络的产品的决定因素的产品更易于推广FERMINET。有趣的是,由此产生的FERMINET-FA架构并不优于FERMINET。这表明抗体产品的总和是Ferminet架构的关键限制方面。为了进一步探索这一点,我们研究了称为全决定性模式的FERMINET的微小修改,其用单一组合的决定蛋白取代了决定因素的每个产物。完整的单决定性Ferminet封闭标准单决定性Ferminet和Ferminet-Ga之间的大部分间隙。令人惊讶的是,在4.0 BoHR的解离键长度的氮素分子上,全单决定性Ferminet可以显着优于标准的64个决定性Ferminet,从而在0.4千卡/摩尔中获得最佳可用计算基准的能量。
translated by 谷歌翻译
量子状态的神经网络表示的变异优化已成功地用于解决相互作用的费米子问题。尽管发展迅速,但在考虑大规模分子时会出现重大的可伸缩性挑战,这些分子与非局部相互作用的量子自旋汉密尔顿人相对应,这些量子旋转汉密尔顿人由数千甚至数百万的保利操作员组成。在这项工作中,我们引入了可扩展的并行化策略,以改善基于神经网络的量子量蒙特卡洛计算,用于AB-Initio量子化学应用。我们建立了由GPU支持的局部能量并行性,以计算潜在复杂分子的哈密顿量的优化目标。使用自回旋抽样技术,我们证明了实现CCSD基线目标能量所需的壁锁定时间的系统改进。通过将最终的旋转汉顿量的结构适应自回归抽样顺序,进一步提高了性能。与经典的近似方法相比,该算法实现了有希望的性能,并且比现有基于神经网络的方法具有运行时间和可伸缩性优势。
translated by 谷歌翻译