A generalized understanding of protein dynamics is an unsolved scientific problem, the solution of which is critical to the interpretation of the structure-function relationships that govern essential biological processes. Here, we approach this problem by constructing coarse-grained molecular potentials based on artificial neural networks and grounded in statistical mechanics. For training, we build a unique dataset of unbiased all-atom molecular dynamics simulations of approximately 9 ms for twelve different proteins with multiple secondary structure arrangements. The coarse-grained models are capable of accelerating the dynamics by more than three orders of magnitude while preserving the thermodynamics of the systems. Coarse-grained simulations identify relevant structural states in the ensemble with comparable energetics to the all-atom systems. Furthermore, we show that a single coarse-grained potential can integrate all twelve proteins and can capture experimental structural features of mutated proteins. These results indicate that machine learning coarse-grained potentials could provide a feasible approach to simulate and understand protein dynamics.
translated by 谷歌翻译
粗粒(CG)分子模拟已成为研究全原子模拟无法访问的时间和长度尺度上分子过程的标准工具。参数化CG力场以匹配全原子模拟,主要依赖于力匹配或相对熵最小化,这些熵最小化分别需要来自具有全原子或CG分辨率的昂贵模拟中的许多样本。在这里,我们提出了流量匹配,这是一种针对CG力场的新训练方法,它通过利用正常流量(一种生成的深度学习方法)来结合两种方法的优势。流量匹配首先训练标准化流程以表示CG概率密度,这等同于最小化相对熵而无需迭代CG模拟。随后,该流量根据学习分布生成样品和力,以通过力匹配来训练所需的CG能量模型。即使不需要全部原子模拟的力,流程匹配就数据效率的数量级优于经典力匹配,并产生CG模型,可以捕获小蛋白质的折叠和展开过渡。
translated by 谷歌翻译
从诸如蛋白质折叠或配体 - 受体结合如蛋白质 - 折叠或配体 - 受体结合等生物分子过程的长时间轨迹的低尺寸表示是基本的重要性和动力学模型,例如Markov建模,这些模型已经证明是有用的,用于描述这些系统的动力学。最近,引入了一种被称为vampnet的无监督机器学习技术,以以端到端的方式学习低维度表示和线性动态模型。 Vampnet基于Markov进程(VAMP)的变分方法,并依赖于神经网络来学习粗粒度的动态。在此贡献中,我们将Vampnet和图形神经网络组合生成端到端的框架,以从长时间的分子动力学轨迹有效地学习高级动态和亚稳态。该方法承载图形表示学习的优点,并使用图形消息传递操作来生成用于VAMPNET中使用的每个数据点以生成粗粒化表示的嵌入。这种类型的分子表示结果导致更高的分辨率和更可接定的Markov模型,而不是标准Vampnet,使得对生物分子过程更详细的动力学研究。我们的GraphVampNet方法也具有注意机制,以找到分类为不同亚稳态的重要残留物。
translated by 谷歌翻译
预测分子系统的结构和能量特性是分子模拟的基本任务之一,并且具有化学,生物学和医学的用例。在过去的十年中,机器学习算法的出现影响了各种任务的分子模拟,包括原子系统的财产预测。在本文中,我们提出了一种新的方法,用于将从简单分子系统获得的知识转移到更复杂的知识中,并具有明显的原子和自由度。特别是,我们专注于高自由能状态的分类。我们的方法依赖于(i)分子的新型超图表,编码所有相关信息来表征构象的势能,以及(ii)新的消息传递和汇总层来处理和对此类超图结构数据进行预测。尽管问题的复杂性,但我们的结果表明,从三丙氨酸转移到DECA-丙氨酸系统的转移学习中,AUC的AUC为0.92。此外,我们表明,相同的转移学习方法可以用无监督的方式分组,在具有相似的自由能值的簇中,deca-丙氨酸的各种二级结构。我们的研究代表了一个概念证明,即可以设计用于分子系统的可靠传输学习模型,为预测生物学相关系统的结构和能量性能的未开发途径铺平道路。
translated by 谷歌翻译
分子动力学(MD)模拟是各种科学领域的主力,但受到高计算成本的限制。基于学习的力场在加速AB-Initio MD模拟方面取得了重大进展,但对于许多需要长期MD仿真的现实世界应用程序仍然不够快。在本文中,我们采用了一种不同的机器学习方法,使用图形群集将物理系统粗糙化,并使用图形神经网络使用非常大的时间整合步骤对系统演变进行建模。一个新型的基于分数的GNN改进模块解决了长期模拟不稳定性的长期挑战。尽管仅接受了简短的MD轨迹数据训练,但我们学到的模拟器仍可以推广到看不见的新型系统,并比训练轨迹更长的时间。需要10-100 ns级的长时间动力学的属性可以在多个刻度级的速度上准确恢复,而不是经典的力场。我们证明了方法对两个现实的复杂系统的有效性:(1)隐式溶剂中的单链粗粒聚合物; (2)多组分锂离子聚合物电解质系统。
translated by 谷歌翻译
与原子分辨率上可实现的分子量相比,粗晶片(CG)能够研究较大系统和更长的时间尺度的分子特性。最近已经提出了机器学习技术来学习CG粒子相互作用,即开发CG力场。分子的图表和图形卷积神经网络结构的监督训练用于通过力匹配方案来学习平均力的潜力。在这项工作中,作用在每个CG粒子上的力与以Schnet的名义相关的其本地环境的表示,该代表通过连续过滤器卷积构建。我们探讨了Schnet模型在获得液体苯的CG潜力的应用,研究模型结构和超参数对模拟CG系统的热力学,动力学和结构特性的影响,并报告和讨论所设想的挑战以及未来的指导。
translated by 谷歌翻译
从实验或模拟数据中学习对的相互作用对于分子模拟引起了极大的兴趣。我们提出了一种使用可区分的模拟(DIFFSIM)从数据中学习对相互作用的通用随机方法。 DIFFSIM通过分子动力学(MD)模拟定义了基于结构可观察物(例如径向分布函数)的损耗函数。然后,使用反向传播直接通过随机梯度下降直接学习相互作用电位,以通过MD模拟计算相互作用势的结构损耗度量标准的梯度。这种基于梯度的方法是灵活的,可以配置以同时模拟和优化多个系统。例如,可以同时学习不同温度或不同组合物的潜力。我们通过从径向分布函数中恢复简单的对电位(例如Lennard-Jones系统)来证明该方法。我们发现,与迭代Boltzmann倒置相比,DIFFSIM可用于探测配对电位的更广泛的功能空间。我们表明,我们的方法可用于同时拟合不同组成和温度下的模拟电位,以提高学习势的可传递性。
translated by 谷歌翻译
分子模拟的粗粒度(CG)通过将选定的原子分组为伪珠并大幅加速模拟来简化粒子的表示。但是,这种CG程序会导致信息损失,从而使准确的背景映射,即从CG坐标恢复细粒度(FG)坐标,这是一个长期存在的挑战。受生成模型和e象网络的最新进展的启发,我们提出了一个新型模型,该模型严格嵌入了背态转换的重要概率性质和几何一致性要求。我们的模型将FG的不确定性编码为不变的潜在空间,并通过Equivariant卷积将其解码为FG几何形状。为了标准化该领域的评估,我们根据分子动力学轨迹提供了三个综合基准。实验表明,我们的方法始终恢复更现实的结构,并以显着的边距胜过现有的数据驱动方法。
translated by 谷歌翻译
准确的蛋白质结合亲和力预测在药物设计和许多其他分子识别问题中至关重要。尽管基于机器学习技术的亲和力预测取得了许多进步,但由于蛋白质 - 配体结合取决于原子和分子的动力学,它们仍然受到限制。为此,我们策划了一个包含3,218个动态蛋白质配合物的MD数据集,并进一步开发了DynaFormer,这是一个基于图的深度学习框架。 DynaFormer可以通过考虑相互作用的各种几何特征来完全捕获动态结合规则。我们的方法显示出优于迄今报告的方法。此外,我们通过将模型与基于结构的对接整合在一起,对热休克蛋白90(HSP90)进行了虚拟筛选。我们对其他基线进行了基准测试,表明我们的方法可以鉴定具有最高实验效力的分子。我们预计大规模的MD数据集和机器学习模型将形成新的协同作用,为加速药物发现和优化提供新的途径。
translated by 谷歌翻译
Accurate determination of a small molecule candidate (ligand) binding pose in its target protein pocket is important for computer-aided drug discovery. Typical rigid-body docking methods ignore the pocket flexibility of protein, while the more accurate pose generation using molecular dynamics is hindered by slow protein dynamics. We develop a tiered tensor transform (3T) algorithm to rapidly generate diverse protein-ligand complex conformations for both pose and affinity estimation in drug screening, requiring neither machine learning training nor lengthy dynamics computation, while maintaining both coarse-grain-like coordinated protein dynamics and atomistic-level details of the complex pocket. The 3T conformation structures we generate are closer to experimental co-crystal structures than those generated by docking software, and more importantly achieve significantly higher accuracy in active ligand classification than traditional ensemble docking using hundreds of experimental protein conformations. 3T structure transformation is decoupled from the system physics, making future usage in other computational scientific domains possible.
translated by 谷歌翻译
分子动力学(MD)仿真是一种强大的工具,用于了解物质的动态和结构。由于MD的分辨率是原子尺度,因此实现了使用飞秒集成的长时间模拟非常昂贵。在每个MD步骤中,执行许多可以学习和避免的冗余计算。这些冗余计算可以由像图形神经网络(GNN)的深度学习模型代替和建模。在这项工作中,我们开发了一个GNN加速分子动力学(GAMD)模型,实现了快速准确的力预测,并产生与经典MD模拟一致的轨迹。我们的研究结果表明,Gamd可以准确地预测两个典型的分子系统,Lennard-Jones(LJ)颗粒和水(LJ +静电)的动态。 GAMD的学习和推理是不可知论的,它可以在测试时间缩放到更大的系统。我们还进行了一项全面的基准测试,将GAMD的实施与生产级MD软件进行了比较,我们展示了GAMD在大规模模拟上对它们具有竞争力。
translated by 谷歌翻译
这项工作介绍了神经性等因素的外部潜力(NEQUIP),E(3) - 用于学习分子动力学模拟的AB-INITIO计算的用于学习网状体电位的e(3)的神经网络方法。虽然大多数当代对称的模型使用不变的卷曲,但仅在标量上采取行动,Nequip采用E(3) - 几何张量的相互作用,举起Quivariant卷曲,导致了更多的信息丰富和忠实的原子环境代表。该方法在挑战和多样化的分子和材料集中实现了最先进的准确性,同时表现出显着的数据效率。 Nequip优先于现有型号,最多三个数量级的培训数据,挑战深度神经网络需要大量培训套装。该方法的高数据效率允许使用高阶量子化学水平的理论作为参考的精确潜力构建,并且在长时间尺度上实现高保真分子动力学模拟。
translated by 谷歌翻译
基于机器学习(ML)的转向可以通过在线选择更科学意义的计算来提高基于合奏的模拟的性能。我们提出了DeepDrivemd,这是ML驱动的科学模拟转向的框架,我们用来通过在大型平行计算机上的有效耦合ML和HPC来实现分子动力学(MD)性能的稳定性提高。我们讨论了DeepDrivemd的设计,并描述了其性能。我们证明,与其他方法相对于其他方法,DeepDrivemd可以在100-1000倍加速度之间达到100-1000倍的加速度,这是通过执行的模拟时间量来衡量的,同时覆盖了模拟过程中采样的状态所量化的相同构象景观。实验是在最多1020个节点的领导级平台上进行的。该结果将DeepDrivemd作为ML驱动的HPC模拟方案的高性能框架建立,该场景支持不同的MD仿真和ML后端,并通过改善当前计算能力来改善长度和时间尺度来实现新的科学见解。
translated by 谷歌翻译
SchNetPack is a versatile neural networks toolbox that addresses both the requirements of method development and application of atomistic machine learning. Version 2.0 comes with an improved data pipeline, modules for equivariant neural networks as well as a PyTorch implementation of molecular dynamics. An optional integration with PyTorch Lightning and the Hydra configuration framework powers a flexible command-line interface. This makes SchNetPack 2.0 easily extendable with custom code and ready for complex training task such as generation of 3d molecular structures.
translated by 谷歌翻译
Proteins play a central role in biology from immune recognition to brain activity. While major advances in machine learning have improved our ability to predict protein structure from sequence, determining protein function from structure remains a major challenge. Here, we introduce Holographic Convolutional Neural Network (H-CNN) for proteins, which is a physically motivated machine learning approach to model amino acid preferences in protein structures. H-CNN reflects physical interactions in a protein structure and recapitulates the functional information stored in evolutionary data. H-CNN accurately predicts the impact of mutations on protein function, including stability and binding of protein complexes. Our interpretable computational model for protein structure-function maps could guide design of novel proteins with desired function.
translated by 谷歌翻译
蛋白质功能预测的最新进展利用了基于图的深度学习方法,以将蛋白质的结构和拓扑特征与其分子功能相关联。然而,体内蛋白质不是静态的,而是为功能目的改变构象的动态分子。在这里,我们通过在动态相关的残基对之间连接边缘,将正常模式分析应用于天然蛋白质构象和增强蛋白图。在Multilabel函数分类任务中,我们的方法基于此动态信息表示,演示了出色的性能增益。提出的图形神经网络(Prodar)提高了残基级注释的可解释性和普遍性,并鲁棒反映了蛋白质中的结构细微差别。我们通过比较HMTH1,硝基酚蛋白和SARS-COV-2受体结合结构域的类激活图来阐明图表中动态信息的重要性。我们的模型成功地学习了蛋白质的动态指纹,并指出了功能影响的残基,具有广泛的生物技术和药物应用的巨大潜力。
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
在分子动力学(MD)中,最近在量子机械数据上训练的神经网络(NN)潜力训练了巨大的成功。直接从实验数据学习NN电位的自上而下的方法在通过MD模拟背交时,通常面临着数值和计算挑战。我们介绍了可分辨率的轨迹重新重量(差异)方法,该方法通过MD模拟绕过差异,以对时间无关的可观察可观察。利用热力学扰动理论,避免爆炸梯度,并在自上而下学习的梯度计算中实现大约2次数量级加速。我们在基于多样化的实验可观察结果,表明了在学习NN电位学习NN电位的有效性,包括热力学,结构和机械性能的不同实验性观察。重要的是,衍射还概括了自下而上的结构粗晶体方法,例如迭代Boltzmann反转到任意潜力。呈现的方法构成了富有实验数据富集NN电位的重要里程碑,特别是当准确的自下而上数据不可用时。
translated by 谷歌翻译
计算催化和机器学习社区在开发用于催化剂发现和设计的机器学习模型方面取得了长足的进步。然而,跨越催化的化学空间的一般机器学习潜力仍然无法触及。一个重大障碍是在广泛的材料中获得访问培训数据的访问。缺乏数据的一类重要材料是氧化物,它抑制模型无法更广泛地研究氧气进化反应和氧化物电催化。为了解决这个问题,我们开发了开放的催化剂2022(OC22)数据集,包括62,521个密度功能理论(DFT)放松(〜9,884,504个单点计算),遍及一系列氧化物材料,覆盖范围,覆盖率和吸附物( *H, *o, *o, *o, *o, *o, * n, *c, *ooh, *oh, *oh2, *o2, *co)。我们定义广义任务,以预测催化过程中适用的总系统能量,发展几个图神经网络的基线性能(Schnet,Dimenet ++,Forcenet,Spinconv,Painn,Painn,Gemnet-DT,Gemnet-DT,Gemnet-OC),并提供预先定义的数据集分割以建立明确的基准,以实现未来的努力。对于所有任务,我们研究组合数据集是否会带来更好的结果,即使它们包含不同的材料或吸附物。具体而言,我们在Open Catalyst 2020(OC20)数据集和OC22上共同训练模型,或OC22上的微调OC20型号。在最一般的任务中,Gemnet-OC看到通过微调来提高了约32%的能量预测,通过联合训练的力预测提高了约9%。令人惊讶的是,OC20和较小的OC22数据集的联合培训也将OC20的总能量预测提高了约19%。数据集和基线模型是开源的,公众排行榜将遵循,以鼓励社区的持续发展,以了解总能源任务和数据。
translated by 谷歌翻译
Developing machine learning-based interatomic potentials from ab-initio electronic structure methods remains a challenging task for computational chemistry and materials science. This work studies the capability of transfer learning for efficiently generating chemically accurate interatomic neural network potentials on organic molecules from the MD17 and ANI data sets. We show that pre-training the network parameters on data obtained from density functional calculations considerably improves the sample efficiency of models trained on more accurate ab-initio data. Additionally, we show that fine-tuning with energy labels alone suffices to obtain accurate atomic forces and run large-scale atomistic simulations. We also investigate possible limitations of transfer learning, especially regarding the design and size of the pre-training and fine-tuning data sets. Finally, we provide GM-NN potentials pre-trained and fine-tuned on the ANI-1x and ANI-1ccx data sets, which can easily be fine-tuned on and applied to organic molecules.
translated by 谷歌翻译