使用精确能量功能的原子模拟可以为气体和冷凝相中的分子的功能运动提供分子水平洞察。与最近开发的和目前在整合和结合的努力与机器学习技术相结合,提供了一个独特的机会,使这种动态模拟更接近现实。这种观点界定了现场其他人的努力和您自己的工作的现状,并讨论了开放问题和未来的前景。
translated by 谷歌翻译
分子照片开关是光激活药物的基础。关键的照片开关是偶氮苯,它表现出对光线的反式cis异构主义。顺式异构体的热半衰期至关重要,因为它控制着光诱导的生物学效应的持续时间。在这里,我们介绍了一种计算工具,用于预测偶氮苯衍生物的热半衰期。我们的自动化方法使用了经过量子化学数据训练的快速准确的机器学习潜力。在建立在良好的早期证据的基础上,我们认为热异构化是通过Intersystem Crossing介导的旋转来进行的,并将这种机制纳入我们的自动化工作流程。我们使用我们的方法来预测19,000种偶氮苯衍生物的热半衰期。我们探索障碍和吸收波长之间的趋势和权衡,并开源我们的数据和软件以加速光精神病学研究。
translated by 谷歌翻译
分子动力学模拟是科学的基石,允许从系统的热力学调查以分析复杂的分子相互作用。通常,为了创建扩展的分子轨迹,可以是计算昂贵的过程,例如,在运行$ ab-initio $ simulations时。因此,重复这样的计算以获得更准确的热力学或在由细粒度量子相互作用产生的动态中获得更高的分辨率可以是时间和计算的。在这项工作中,我们探讨了不同的机器学习(ML)方法,以提高在后处理步骤内按需的分子动力学轨迹的分辨率。作为概念证明,我们分析了神经杂物,哈密顿网络,经常性神经网络和LSTM等双向神经网络的表现,以及作为参考的单向变体,用于分子动力学模拟(这里是: MD17数据集)。我们发现Bi-LSTMS是表现最佳的模型;通过利用恒温轨迹的局部时对称,它们甚至可以学习远程相关性,并在分子复杂性上显示高稳健性。我们的模型可以达到轨迹插值中最多10美元^ {-4}的准确度,同时忠实地重建了几个无奈复杂的高频分子振动的全周期,使学习和参考轨迹之间的比较难以区分。该工作中报告的结果可以作为更大系统的基线服务(1),以及(2)用于建造更好的MD集成商。
translated by 谷歌翻译
最近,机器学习(ML)电位的发展使得以量子力学(QM)模型的精度进行大规模和长期分子模拟成为可能。但是,对于高水平的QM方法,例如在元gga级和/或具有精确交换的密度函数理论(DFT),量子蒙特卡洛等,生成足够数量的用于训练的数据由于其高成本,计算挑战性。在这项工作中,我们证明了基于ML的DFT模型Deep Kohn-Sham(Deepks)可以在很大程度上缓解这个问题。 DeepKS采用计算高效的基于神经网络的功能模型来构建在廉价DFT模型上添加的校正项。在训练后,DeepKs提供了与高级QM方法相比,具有紧密匹配的能量和力,但是所需的训练数据的数量是比训练可靠的ML潜力所需的数量级要小。因此,DeepKs可以用作昂贵的QM型号和ML电位之间的桥梁:一个人可以生成相当数量的高准确性QM数据来训练DeepKs模型,然后使用DeepKs型号来标记大量的配置以标记训练ML潜力。该周期系统方案在DFT软件包算盘中实施,该计划是开源的,可以在各种应用程序中使用。
translated by 谷歌翻译
计算催化和机器学习社区在开发用于催化剂发现和设计的机器学习模型方面取得了长足的进步。然而,跨越催化的化学空间的一般机器学习潜力仍然无法触及。一个重大障碍是在广泛的材料中获得访问培训数据的访问。缺乏数据的一类重要材料是氧化物,它抑制模型无法更广泛地研究氧气进化反应和氧化物电催化。为了解决这个问题,我们开发了开放的催化剂2022(OC22)数据集,包括62,521个密度功能理论(DFT)放松(〜9,884,504个单点计算),遍及一系列氧化物材料,覆盖范围,覆盖率和吸附物( *H, *o, *o, *o, *o, *o, * n, *c, *ooh, *oh, *oh2, *o2, *co)。我们定义广义任务,以预测催化过程中适用的总系统能量,发展几个图神经网络的基线性能(Schnet,Dimenet ++,Forcenet,Spinconv,Painn,Painn,Gemnet-DT,Gemnet-DT,Gemnet-OC),并提供预先定义的数据集分割以建立明确的基准,以实现未来的努力。对于所有任务,我们研究组合数据集是否会带来更好的结果,即使它们包含不同的材料或吸附物。具体而言,我们在Open Catalyst 2020(OC20)数据集和OC22上共同训练模型,或OC22上的微调OC20型号。在最一般的任务中,Gemnet-OC看到通过微调来提高了约32%的能量预测,通过联合训练的力预测提高了约9%。令人惊讶的是,OC20和较小的OC22数据集的联合培训也将OC20的总能量预测提高了约19%。数据集和基线模型是开源的,公众排行榜将遵循,以鼓励社区的持续发展,以了解总能源任务和数据。
translated by 谷歌翻译
这项工作介绍了神经性等因素的外部潜力(NEQUIP),E(3) - 用于学习分子动力学模拟的AB-INITIO计算的用于学习网状体电位的e(3)的神经网络方法。虽然大多数当代对称的模型使用不变的卷曲,但仅在标量上采取行动,Nequip采用E(3) - 几何张量的相互作用,举起Quivariant卷曲,导致了更多的信息丰富和忠实的原子环境代表。该方法在挑战和多样化的分子和材料集中实现了最先进的准确性,同时表现出显着的数据效率。 Nequip优先于现有型号,最多三个数量级的培训数据,挑战深度神经网络需要大量培训套装。该方法的高数据效率允许使用高阶量子化学水平的理论作为参考的精确潜力构建,并且在长时间尺度上实现高保真分子动力学模拟。
translated by 谷歌翻译
为N($ ^ 4 $ s)+ o $ _呈现和定量测试了一种用于预测来自特定初始状态(状态为分布或STD)的产品状态分布的机器学习(ML)模型。 {2} $(x $ ^ 3 \ sigma _ {\ rm g} ^ { - } $)$ \ lightarrow $ no(x $ ^ 2 \ pi $)+ o($ ^ 3 $ p)反应。用于训练神经网络(NN)的参考数据集由用于$ \ SIM 2000 $初始条件的显式准古典轨迹(QCT)模拟确定的最终状态分布。总体而言,通过根均方平方差价量化的预测精度$(\ SIM 0.003)$和$ r ^ 2 $ $(\ SIM 0.99)$之间的参考QCT和STD模型的预测很高测试集和离网状态特定的初始条件和从反应性状态分布中汲取的初始条件,其特征在于通过平移,旋转和振动温度。与在相同的初始状态分布上评估的更粗糙的粒度分布 - 分布(DTD)模型相比,STD模型表明了在反应物制剂中的状态分辨率的额外益处具有相当的性能。从特定的初始状态开始,还导致更多样化的最终状态分布,需要更具表现力的神经网络与DTD相比。显式QCT模拟之间的直接比较,STD模型和广泛使用的Larsen-Borgnakke(LB)模型表明,STD模型是定量的,而LB模型最适合旋转分布$ P(J')$和失败振动分布$ p(v')$。因此,STD模型可以非常适合模拟非预测高速流,例如,使用直接仿真蒙特卡罗方法。
translated by 谷歌翻译
准确的蛋白质结合亲和力预测在药物设计和许多其他分子识别问题中至关重要。尽管基于机器学习技术的亲和力预测取得了许多进步,但由于蛋白质 - 配体结合取决于原子和分子的动力学,它们仍然受到限制。为此,我们策划了一个包含3,218个动态蛋白质配合物的MD数据集,并进一步开发了DynaFormer,这是一个基于图的深度学习框架。 DynaFormer可以通过考虑相互作用的各种几何特征来完全捕获动态结合规则。我们的方法显示出优于迄今报告的方法。此外,我们通过将模型与基于结构的对接整合在一起,对热休克蛋白90(HSP90)进行了虚拟筛选。我们对其他基线进行了基准测试,表明我们的方法可以鉴定具有最高实验效力的分子。我们预计大规模的MD数据集和机器学习模型将形成新的协同作用,为加速药物发现和优化提供新的途径。
translated by 谷歌翻译
A generalized understanding of protein dynamics is an unsolved scientific problem, the solution of which is critical to the interpretation of the structure-function relationships that govern essential biological processes. Here, we approach this problem by constructing coarse-grained molecular potentials based on artificial neural networks and grounded in statistical mechanics. For training, we build a unique dataset of unbiased all-atom molecular dynamics simulations of approximately 9 ms for twelve different proteins with multiple secondary structure arrangements. The coarse-grained models are capable of accelerating the dynamics by more than three orders of magnitude while preserving the thermodynamics of the systems. Coarse-grained simulations identify relevant structural states in the ensemble with comparable energetics to the all-atom systems. Furthermore, we show that a single coarse-grained potential can integrate all twelve proteins and can capture experimental structural features of mutated proteins. These results indicate that machine learning coarse-grained potentials could provide a feasible approach to simulate and understand protein dynamics.
translated by 谷歌翻译
预测分子系统的结构和能量特性是分子模拟的基本任务之一,并且具有化学,生物学和医学的用例。在过去的十年中,机器学习算法的出现影响了各种任务的分子模拟,包括原子系统的财产预测。在本文中,我们提出了一种新的方法,用于将从简单分子系统获得的知识转移到更复杂的知识中,并具有明显的原子和自由度。特别是,我们专注于高自由能状态的分类。我们的方法依赖于(i)分子的新型超图表,编码所有相关信息来表征构象的势能,以及(ii)新的消息传递和汇总层来处理和对此类超图结构数据进行预测。尽管问题的复杂性,但我们的结果表明,从三丙氨酸转移到DECA-丙氨酸系统的转移学习中,AUC的AUC为0.92。此外,我们表明,相同的转移学习方法可以用无监督的方式分组,在具有相似的自由能值的簇中,deca-丙氨酸的各种二级结构。我们的研究代表了一个概念证明,即可以设计用于分子系统的可靠传输学习模型,为预测生物学相关系统的结构和能量性能的未开发途径铺平道路。
translated by 谷歌翻译
Developing machine learning-based interatomic potentials from ab-initio electronic structure methods remains a challenging task for computational chemistry and materials science. This work studies the capability of transfer learning for efficiently generating chemically accurate interatomic neural network potentials on organic molecules from the MD17 and ANI data sets. We show that pre-training the network parameters on data obtained from density functional calculations considerably improves the sample efficiency of models trained on more accurate ab-initio data. Additionally, we show that fine-tuning with energy labels alone suffices to obtain accurate atomic forces and run large-scale atomistic simulations. We also investigate possible limitations of transfer learning, especially regarding the design and size of the pre-training and fine-tuning data sets. Finally, we provide GM-NN potentials pre-trained and fine-tuned on the ANI-1x and ANI-1ccx data sets, which can easily be fine-tuned on and applied to organic molecules.
translated by 谷歌翻译
氢化镁(MGH $ _2 $)已被广泛研究有效储氢。然而,其散装解吸温度(553 k)被认为是实际应用的太高。除了掺杂外,可以降低这种用于释放氢的这种反应能量的策略是使用MGH $ _2 $基本的纳米颗粒(NPS)。在这里,我们首先调查Mg $ _N $ H $ _ {2n} $ NPS($ N <10 $)的热力学特性,特别是通过评估对焓,熵和热膨胀的anharmonic影响随机自我一致的谐波近似(SSCHA)。后一种方法超出了先前的方法,通常基于分子力学和准谐波近似,允许AB初始自由能量计算。我们发现了几乎线性依赖于间隙键长度的温度 - 具有超过300k的相对变化,与Mg-H键的键距离降低。为了将NPS的大小增加到MGH $ _2 $的氢解吸的实验中,我们设计了培训的计算有效的机器学习模型,以准确地确定力量和总能量(即潜在能量表面),与SSCHA模型集成了后者完全包括anharmonic效应。我们发现亚纳米簇Mg $ _n $ h $ _ {2n} $以$ n \ leq 10 $的显着减少,但不可忽视,虽然因anharmonicities(最多) 10%)。
translated by 谷歌翻译
Drug development is a wide scientific field that faces many challenges these days. Among them are extremely high development costs, long development times, as well as a low number of new drugs that are approved each year. To solve these problems, new and innovate technologies are needed that make the drug discovery process of small-molecules more time and cost-efficient, and which allow to target previously undruggable target classes such as protein-protein interactions. Structure-based virtual screenings have become a leading contender in this context. In this review, we give an introduction to the foundations of structure-based virtual screenings, and survey their progress in the past few years. We outline key principles, recent success stories, new methods, available software, and promising future research directions. Virtual screenings have an enormous potential for the development of new small-molecule drugs, and are already starting to transform early-stage drug discovery.
translated by 谷歌翻译
机器学习(ML)模型与它们在分子动力学研究中的有用性相反,作为反应屏障搜索的替代潜力,成功的成功有限。这是由于化学空间相关过渡状态区域中训练数据的稀缺性。当前,用于培训小分子系统上的ML模型的可用数据集几乎仅包含在平衡处或附近的配置。在这项工作中,我们介绍了包含960万密度函数理论(DFT)的数据集过渡1X的计算,对WB97X/6-31G(D)理论水平的反应途径上和周围的分子构型的力和能量计算。数据是通过在10K反应上以DFT运行轻度弹性带(NEB)计算而生成的,同时保存中间计算。我们在Transition1x上训练最先进的等效图形消息通讯神经网络模型,并在流行的ANI1X和QM9数据集上进行交叉验证。我们表明,ML模型不能仅通过迄今为止流行的基准数据集进行过渡状态区域的特征。 Transition1x是一种新的具有挑战性的基准,它将为开发下一代ML力场提供一个重要的步骤,该电场也远离平衡配置和反应性系统。
translated by 谷歌翻译
粗粒(CG)分子模拟已成为研究全原子模拟无法访问的时间和长度尺度上分子过程的标准工具。参数化CG力场以匹配全原子模拟,主要依赖于力匹配或相对熵最小化,这些熵最小化分别需要来自具有全原子或CG分辨率的昂贵模拟中的许多样本。在这里,我们提出了流量匹配,这是一种针对CG力场的新训练方法,它通过利用正常流量(一种生成的深度学习方法)来结合两种方法的优势。流量匹配首先训练标准化流程以表示CG概率密度,这等同于最小化相对熵而无需迭代CG模拟。随后,该流量根据学习分布生成样品和力,以通过力匹配来训练所需的CG能量模型。即使不需要全部原子模拟的力,流程匹配就数据效率的数量级优于经典力匹配,并产生CG模型,可以捕获小蛋白质的折叠和展开过渡。
translated by 谷歌翻译
机器学习电位通常是在基态的,未脑的能量表面上训练的,该能量表面仅取决于原子位置而不取决于模拟温度。这无视热激发电子的影响,这在金属中很重要,对于描述温暖的物质至关重要。这些效果的准确物理描述要求该核在温度依赖性电子自由能上移动。我们提出了一种方法,以在任意电子温度下使用地面计算中专门训练数据,避免需要训练温度依赖的电位,并在金属液体氢上基准在任意电子温度下获得该自由能的机器学习预测。天然气巨头和棕色矮人的核心。这项工作证明了混合方案的优势,这些方案使用物理考虑来结合机器学习预测,为开发类似方法的开发提供了蓝图,这些方法通过消除物理和数据驱动方法之间的屏障来扩展原子建模的覆盖范围。
translated by 谷歌翻译
Data-driven interatomic potentials have emerged as a powerful class of surrogate models for {\it ab initio} potential energy surfaces that are able to reliably predict macroscopic properties with experimental accuracy. In generating accurate and transferable potentials the most time-consuming and arguably most important task is generating the training set, which still requires significant expert user input. To accelerate this process, this work presents \text{\it hyperactive learning} (HAL), a framework for formulating an accelerated sampling algorithm specifically for the task of training database generation. The key idea is to start from a physically motivated sampler (e.g., molecular dynamics) and add a biasing term that drives the system towards high uncertainty and thus to unseen training configurations. Building on this framework, general protocols for building training databases for alloys and polymers leveraging the HAL framework will be presented. For alloys, ACE potentials for AlSi10 are created by fitting to a minimal HAL-generated database containing 88 configurations (32 atoms each) with fast evaluation times of <100 microsecond/atom/cpu-core. These potentials are demonstrated to predict the melting temperature with excellent accuracy. For polymers, a HAL database is built using ACE, able to determine the density of a long polyethylene glycol (PEG) polymer formed of 200 monomer units with experimental accuracy by only fitting to small isolated PEG polymers with sizes ranging from 2 to 32.
translated by 谷歌翻译
由于控制结构特性关系的分子间相互作用的微妙平衡,预测由分子构建块形成的晶体结构的稳定性是一个高度非平凡的科学问题。一种特别活跃和富有成果的方法涉及对相互作用的化学部分的不同组合进行分类,因为了解不同相互作用的相对能量可以使分子晶体的设计和微调其稳定性。尽管这通常是基于对已知晶体结构中最常见的基序的经验观察进行的,但我们建议采用有监督和无监督的机器学习技术的组合来自动化分子构建块的广泛库。我们介绍了一个针对有机晶体的结合能量预测的结构描述符,并利用以原子为中心的性质来获得对不同化学基团对晶体晶格能量的贡献的数据驱动评估。然后,我们使用结构 - 能量景观的低维表示来解释该库,并讨论可以从本分析中提取的见解的选定示例,从而提供了一个完整的数据库来指导分子材料的设计。
translated by 谷歌翻译
从实验或模拟数据中学习对的相互作用对于分子模拟引起了极大的兴趣。我们提出了一种使用可区分的模拟(DIFFSIM)从数据中学习对相互作用的通用随机方法。 DIFFSIM通过分子动力学(MD)模拟定义了基于结构可观察物(例如径向分布函数)的损耗函数。然后,使用反向传播直接通过随机梯度下降直接学习相互作用电位,以通过MD模拟计算相互作用势的结构损耗度量标准的梯度。这种基于梯度的方法是灵活的,可以配置以同时模拟和优化多个系统。例如,可以同时学习不同温度或不同组合物的潜力。我们通过从径向分布函数中恢复简单的对电位(例如Lennard-Jones系统)来证明该方法。我们发现,与迭代Boltzmann倒置相比,DIFFSIM可用于探测配对电位的更广泛的功能空间。我们表明,我们的方法可用于同时拟合不同组成和温度下的模拟电位,以提高学习势的可传递性。
translated by 谷歌翻译
基于机器学习(ML)的转向可以通过在线选择更科学意义的计算来提高基于合奏的模拟的性能。我们提出了DeepDrivemd,这是ML驱动的科学模拟转向的框架,我们用来通过在大型平行计算机上的有效耦合ML和HPC来实现分子动力学(MD)性能的稳定性提高。我们讨论了DeepDrivemd的设计,并描述了其性能。我们证明,与其他方法相对于其他方法,DeepDrivemd可以在100-1000倍加速度之间达到100-1000倍的加速度,这是通过执行的模拟时间量来衡量的,同时覆盖了模拟过程中采样的状态所量化的相同构象景观。实验是在最多1020个节点的领导级平台上进行的。该结果将DeepDrivemd作为ML驱动的HPC模拟方案的高性能框架建立,该场景支持不同的MD仿真和ML后端,并通过改善当前计算能力来改善长度和时间尺度来实现新的科学见解。
translated by 谷歌翻译