本文通过将MD势能分量引入我们的生成模型,我们利用了生成模型,并在分子动力学(MD)模拟中的问题进行了重构。通过将潜在的能量纳入从TORCHMD进入条件的生成框架,我们试图在螺旋〜$ \ Lightarrow $〜蛋白的线圈结构之间构建低势能的转化途径。我们展示了如何为条件生成模型添加额外的损失功能,其通过分子配置的潜在能量为动机,并且还提出了一种用于这种增强损耗功能的优化技术。我们的结果表明,这种额外的损失术语在合成现实分子轨迹上的好处。
translated by 谷歌翻译
A generalized understanding of protein dynamics is an unsolved scientific problem, the solution of which is critical to the interpretation of the structure-function relationships that govern essential biological processes. Here, we approach this problem by constructing coarse-grained molecular potentials based on artificial neural networks and grounded in statistical mechanics. For training, we build a unique dataset of unbiased all-atom molecular dynamics simulations of approximately 9 ms for twelve different proteins with multiple secondary structure arrangements. The coarse-grained models are capable of accelerating the dynamics by more than three orders of magnitude while preserving the thermodynamics of the systems. Coarse-grained simulations identify relevant structural states in the ensemble with comparable energetics to the all-atom systems. Furthermore, we show that a single coarse-grained potential can integrate all twelve proteins and can capture experimental structural features of mutated proteins. These results indicate that machine learning coarse-grained potentials could provide a feasible approach to simulate and understand protein dynamics.
translated by 谷歌翻译
全原子和粗粒分子动力学是两个广泛使用的计算工具,用于研究蛋白质的构象状态。然而,这两种仿真方法遭受了这样的事实,即在没有获得超级计算资源的情况下,难以实现这些状态的时间和长度尺度。这种方法的一种替代方法是基于编码分子动力学的原子轨迹作为没有物理粒子的速记版本,然后学习通过使用人工智能来传播编码的轨迹。在这里,我们表明,作为Ramachandran盆地类的向量,分子动力学轨迹框架框架的简单文本表示保留了蛋白质在每个帧中的完整原子代表的大多数结构信息,并且可用于生成无原子轨迹适用于训练不同类型的生成神经网络。反过来,训练有素的生成模型可用于无限期地扩展无原子动力学,或在潜在的模型中从其表示中采样蛋白质的构象空间。我们将这种方法定义为没有分子的分子动力学,并表明它可以涵盖与传统分子动力学难以访问的蛋白质的物理相关状态。
translated by 谷歌翻译
粗粒(CG)分子模拟已成为研究全原子模拟无法访问的时间和长度尺度上分子过程的标准工具。参数化CG力场以匹配全原子模拟,主要依赖于力匹配或相对熵最小化,这些熵最小化分别需要来自具有全原子或CG分辨率的昂贵模拟中的许多样本。在这里,我们提出了流量匹配,这是一种针对CG力场的新训练方法,它通过利用正常流量(一种生成的深度学习方法)来结合两种方法的优势。流量匹配首先训练标准化流程以表示CG概率密度,这等同于最小化相对熵而无需迭代CG模拟。随后,该流量根据学习分布生成样品和力,以通过力匹配来训练所需的CG能量模型。即使不需要全部原子模拟的力,流程匹配就数据效率的数量级优于经典力匹配,并产生CG模型,可以捕获小蛋白质的折叠和展开过渡。
translated by 谷歌翻译
Protein structure prediction is a fundamental problem in computational molecular biology. Classical algorithms such as ab-initio or threading as well as many learning methods have been proposed to solve this challenging problem. However, most reinforcement learning methods tend to model the state-action pairs as discrete objects. In this paper, we develop a reinforcement learning (RL) framework in a continuous setting and based on a stochastic parametrized Hamiltonian version of the Pontryagin maximum principle (PMP) to solve the side-chain packing and protein-folding problem. For special cases our formulation can be reduced to previous work where the optimal folding trajectories are trained using an explicit use of Langevin dynamics. Optimal continuous stochastic Hamiltonian dynamics folding pathways can be derived with use of different models of molecular energetics and force fields. In our RL implementation we adopt a soft actor-critic methodology however we can replace this other RL training based on A2C, A3C or PPO.
translated by 谷歌翻译
准确的蛋白质结合亲和力预测在药物设计和许多其他分子识别问题中至关重要。尽管基于机器学习技术的亲和力预测取得了许多进步,但由于蛋白质 - 配体结合取决于原子和分子的动力学,它们仍然受到限制。为此,我们策划了一个包含3,218个动态蛋白质配合物的MD数据集,并进一步开发了DynaFormer,这是一个基于图的深度学习框架。 DynaFormer可以通过考虑相互作用的各种几何特征来完全捕获动态结合规则。我们的方法显示出优于迄今报告的方法。此外,我们通过将模型与基于结构的对接整合在一起,对热休克蛋白90(HSP90)进行了虚拟筛选。我们对其他基线进行了基准测试,表明我们的方法可以鉴定具有最高实验效力的分子。我们预计大规模的MD数据集和机器学习模型将形成新的协同作用,为加速药物发现和优化提供新的途径。
translated by 谷歌翻译
Molecular dynamics (MD) has long been the de facto choice for simulating complex atomistic systems from first principles. Recently deep learning models become a popular way to accelerate MD. Notwithstanding, existing models depend on intermediate variables such as the potential energy or force fields to update atomic positions, which requires additional computations to perform back-propagation. To waive this requirement, we propose a novel model called DiffMD by directly estimating the gradient of the log density of molecular conformations. DiffMD relies on a score-based denoising diffusion generative model that perturbs the molecular structure with a conditional noise depending on atomic accelerations and treats conformations at previous timeframes as the prior distribution for sampling. Another challenge of modeling such a conformation generation process is that a molecule is kinetic instead of static, which no prior works have strictly studied. To solve this challenge, we propose an equivariant geometric Transformer as the score function in the diffusion process to calculate corresponding gradients. It incorporates the directions and velocities of atomic motions via 3D spherical Fourier-Bessel representations. With multiple architectural improvements, we outperform state-of-the-art baselines on MD17 and isomers of C7O2H10 datasets. This work contributes to accelerating material and drug discovery.
translated by 谷歌翻译
在从蛋白质折叠到材料发现的许多领域中,采样分子系统的相空间 - 更普遍地是通过随机微分方程有效建模的复杂系统的相位空间。这些问题本质上通常是多尺度的:可以用少数“慢速”反应坐标参数参数的低维有效自由能表面来描述它们;其余的“快速”自由度填充了反应坐标值的平衡度量。有关此类问题的抽样程序用于估计有效的自由能差以及相对于条件平衡分布的合奏平均值;后者平均值导致有效减少动态模型的关闭。多年来,已经开发了增强的采样技术与分子模拟。引人入胜的类比是与机器学习领域(ML)产生的,在该领域中,生成的对抗网络可以从低维概率分布中产生高维样品。该样本生成从有关其低维表示的信息中返回模型状态的合理高维空间实现。在这项工作中,我们提出了一种方法,该方法将基于物理学的模拟和偏置方法与基于ML的条件生成对抗网络对条件分布进行采样,以实现相同的任务。我们调节精细规模实现的“粗糙描述符”可以先验地知道,也可以通过非线性维度降低来学习。我们建议这可能会带来两种方法的最佳功能:我们证明,夫妻CGAN具有基于物理学的增强采样技术的框架可以改善多尺度SDE动力学系统采样,甚至显示出对增加复杂性系统的希望。
translated by 谷歌翻译
分子动力学模拟是科学的基石,允许从系统的热力学调查以分析复杂的分子相互作用。通常,为了创建扩展的分子轨迹,可以是计算昂贵的过程,例如,在运行$ ab-initio $ simulations时。因此,重复这样的计算以获得更准确的热力学或在由细粒度量子相互作用产生的动态中获得更高的分辨率可以是时间和计算的。在这项工作中,我们探讨了不同的机器学习(ML)方法,以提高在后处理步骤内按需的分子动力学轨迹的分辨率。作为概念证明,我们分析了神经杂物,哈密顿网络,经常性神经网络和LSTM等双向神经网络的表现,以及作为参考的单向变体,用于分子动力学模拟(这里是: MD17数据集)。我们发现Bi-LSTMS是表现最佳的模型;通过利用恒温轨迹的局部时对称,它们甚至可以学习远程相关性,并在分子复杂性上显示高稳健性。我们的模型可以达到轨迹插值中最多10美元^ {-4}的准确度,同时忠实地重建了几个无奈复杂的高频分子振动的全周期,使学习和参考轨迹之间的比较难以区分。该工作中报告的结果可以作为更大系统的基线服务(1),以及(2)用于建造更好的MD集成商。
translated by 谷歌翻译
预测分子系统的结构和能量特性是分子模拟的基本任务之一,并且具有化学,生物学和医学的用例。在过去的十年中,机器学习算法的出现影响了各种任务的分子模拟,包括原子系统的财产预测。在本文中,我们提出了一种新的方法,用于将从简单分子系统获得的知识转移到更复杂的知识中,并具有明显的原子和自由度。特别是,我们专注于高自由能状态的分类。我们的方法依赖于(i)分子的新型超图表,编码所有相关信息来表征构象的势能,以及(ii)新的消息传递和汇总层来处理和对此类超图结构数据进行预测。尽管问题的复杂性,但我们的结果表明,从三丙氨酸转移到DECA-丙氨酸系统的转移学习中,AUC的AUC为0.92。此外,我们表明,相同的转移学习方法可以用无监督的方式分组,在具有相似的自由能值的簇中,deca-丙氨酸的各种二级结构。我们的研究代表了一个概念证明,即可以设计用于分子系统的可靠传输学习模型,为预测生物学相关系统的结构和能量性能的未开发途径铺平道路。
translated by 谷歌翻译
分子动力学(MD)仿真是一种强大的工具,用于了解物质的动态和结构。由于MD的分辨率是原子尺度,因此实现了使用飞秒集成的长时间模拟非常昂贵。在每个MD步骤中,执行许多可以学习和避免的冗余计算。这些冗余计算可以由像图形神经网络(GNN)的深度学习模型代替和建模。在这项工作中,我们开发了一个GNN加速分子动力学(GAMD)模型,实现了快速准确的力预测,并产生与经典MD模拟一致的轨迹。我们的研究结果表明,Gamd可以准确地预测两个典型的分子系统,Lennard-Jones(LJ)颗粒和水(LJ +静电)的动态。 GAMD的学习和推理是不可知论的,它可以在测试时间缩放到更大的系统。我们还进行了一项全面的基准测试,将GAMD的实施与生产级MD软件进行了比较,我们展示了GAMD在大规模模拟上对它们具有竞争力。
translated by 谷歌翻译
从诸如蛋白质折叠或配体 - 受体结合如蛋白质 - 折叠或配体 - 受体结合等生物分子过程的长时间轨迹的低尺寸表示是基本的重要性和动力学模型,例如Markov建模,这些模型已经证明是有用的,用于描述这些系统的动力学。最近,引入了一种被称为vampnet的无监督机器学习技术,以以端到端的方式学习低维度表示和线性动态模型。 Vampnet基于Markov进程(VAMP)的变分方法,并依赖于神经网络来学习粗粒度的动态。在此贡献中,我们将Vampnet和图形神经网络组合生成端到端的框架,以从长时间的分子动力学轨迹有效地学习高级动态和亚稳态。该方法承载图形表示学习的优点,并使用图形消息传递操作来生成用于VAMPNET中使用的每个数据点以生成粗粒化表示的嵌入。这种类型的分子表示结果导致更高的分辨率和更可接定的Markov模型,而不是标准Vampnet,使得对生物分子过程更详细的动力学研究。我们的GraphVampNet方法也具有注意机制,以找到分类为不同亚稳态的重要残留物。
translated by 谷歌翻译
这项工作介绍了神经性等因素的外部潜力(NEQUIP),E(3) - 用于学习分子动力学模拟的AB-INITIO计算的用于学习网状体电位的e(3)的神经网络方法。虽然大多数当代对称的模型使用不变的卷曲,但仅在标量上采取行动,Nequip采用E(3) - 几何张量的相互作用,举起Quivariant卷曲,导致了更多的信息丰富和忠实的原子环境代表。该方法在挑战和多样化的分子和材料集中实现了最先进的准确性,同时表现出显着的数据效率。 Nequip优先于现有型号,最多三个数量级的培训数据,挑战深度神经网络需要大量培训套装。该方法的高数据效率允许使用高阶量子化学水平的理论作为参考的精确潜力构建,并且在长时间尺度上实现高保真分子动力学模拟。
translated by 谷歌翻译
Accurate determination of a small molecule candidate (ligand) binding pose in its target protein pocket is important for computer-aided drug discovery. Typical rigid-body docking methods ignore the pocket flexibility of protein, while the more accurate pose generation using molecular dynamics is hindered by slow protein dynamics. We develop a tiered tensor transform (3T) algorithm to rapidly generate diverse protein-ligand complex conformations for both pose and affinity estimation in drug screening, requiring neither machine learning training nor lengthy dynamics computation, while maintaining both coarse-grain-like coordinated protein dynamics and atomistic-level details of the complex pocket. The 3T conformation structures we generate are closer to experimental co-crystal structures than those generated by docking software, and more importantly achieve significantly higher accuracy in active ligand classification than traditional ensemble docking using hundreds of experimental protein conformations. 3T structure transformation is decoupled from the system physics, making future usage in other computational scientific domains possible.
translated by 谷歌翻译
In molecular research, simulation \& design of molecules are key areas with significant implications for drug development, material science, and other fields. Current classical computational power falls inadequate to simulate any more than small molecules, let alone protein chains on hundreds of peptide. Therefore these experiment are done physically in wet-lab, but it takes a lot of time \& not possible to examine every molecule due to the size of the search area, tens of billions of dollars are spent every year in these research experiments. Molecule simulation \& design has lately advanced significantly by machine learning models, A fresh perspective on the issue of chemical synthesis is provided by deep generative models for graph-structured data. By optimising differentiable models that produce molecular graphs directly, it is feasible to avoid costly search techniques in the discrete and huge space of chemical structures. But these models also suffer from computational limitations when dimensions become huge and consume huge amount of resources. Quantum Generative machine learning in recent years have shown some empirical results promising significant advantages over classical counterparts.
translated by 谷歌翻译
分子动力学(MD)模拟是各种科学领域的主力,但受到高计算成本的限制。基于学习的力场在加速AB-Initio MD模拟方面取得了重大进展,但对于许多需要长期MD仿真的现实世界应用程序仍然不够快。在本文中,我们采用了一种不同的机器学习方法,使用图形群集将物理系统粗糙化,并使用图形神经网络使用非常大的时间整合步骤对系统演变进行建模。一个新型的基于分数的GNN改进模块解决了长期模拟不稳定性的长期挑战。尽管仅接受了简短的MD轨迹数据训练,但我们学到的模拟器仍可以推广到看不见的新型系统,并比训练轨迹更长的时间。需要10-100 ns级的长时间动力学的属性可以在多个刻度级的速度上准确恢复,而不是经典的力场。我们证明了方法对两个现实的复杂系统的有效性:(1)隐式溶剂中的单链粗粒聚合物; (2)多组分锂离子聚合物电解质系统。
translated by 谷歌翻译
我们介绍了一个名为统计信息的神经网络(SINN)的机器学习框架,用于从数据中学习随机动力学。从理论上讲,这种新的架构是受到随机系统的通用近似定理的启发,我们在本文中介绍了它,以及用于随机建模的投影手术形式。我们设计了训练神经网络模型的机制,以重现目标随机过程的正确\ emph {统计}行为。数值模拟结果表明,受过良好训练的SINN可以可靠地近似马尔可夫和非马克维亚随机动力学。我们证明了SINN对粗粒问题和过渡动力学的建模的适用性。此外,我们表明可以在时间粗粒的数据上训练所获得的减少阶模型,因此非常适合稀有事实模拟。
translated by 谷歌翻译
使用精确能量功能的原子模拟可以为气体和冷凝相中的分子的功能运动提供分子水平洞察。与最近开发的和目前在整合和结合的努力与机器学习技术相结合,提供了一个独特的机会,使这种动态模拟更接近现实。这种观点界定了现场其他人的努力和您自己的工作的现状,并讨论了开放问题和未来的前景。
translated by 谷歌翻译
了解生物分子的动力学和热力学概况是为了了解其在机制驱动药物发现中具有重大影响的功能作用。分子动力学模拟已经常规地用于了解生物分子的构象动态和分子识别。来自分子动力学模拟产生的高维时空数据的统计分析需要识别几个低维变量,这可以描述系统的基本动态,而无需显着损失信息。在物理化学中,这些低维变量通常称为集体变量。集体变量用于产生可减少的自由能表面的表示,并计算不同亚稳态盆地之间的过渡概率。然而,复杂系统的集体变量的选择并不琐碎。集体变量范围从几何标准等距离,Dihedral角度到抽象的标准,例如诸如多个几何变量的加权线性组合的抽象线性组合。机器学习算法的出现导致越来越多地利用抽象集体变量来代表生物分子动态。在本次审查中,我将突出几个常用的集体变量的几个细微差别,范围从几何到抽象的变量。此外,我将提出一些情况,其中基于机器学习的集体变量来描述原则上的简单系统可以由几何可以描述。最后,我将提出我对人工综合情报的思考以及如何用于发现和预测来自分子动力学模拟产生的时空数据的集体变量。
translated by 谷歌翻译
归一化流量是用于在物理系统中建模概率分布的有希望的工具。虽然最先进的流动精确地近似分布和能量,但物理中的应用还需要平滑能量来计算力量和高阶导数。此外,这种密度通常在非琐碎拓扑上定义。最近的一个例子是用于产生肽和小蛋白质的3D结构的Boltzmann发电机。这些生成模型利用内部坐标(Dihedrals,角度和粘合)的空间,这是过度矫戈尔和紧凑的间隔的产物。在这项工作中,我们介绍了一类在紧凑型间隔和高血症上工作的平滑混合转换。混合物转化采用根除方法在实践中反转它们,这已经防止了双向流动训练。为此,我们示出了通过逆函数定理从前向评估计算这种反转的参数梯度和力。我们展示了如此平滑流动的两个优点:它们允许通过力匹配匹配模拟数据,并且可以用作分子动力学模拟的电位。
translated by 谷歌翻译