了解生物分子的动力学和热力学概况是为了了解其在机制驱动药物发现中具有重大影响的功能作用。分子动力学模拟已经常规地用于了解生物分子的构象动态和分子识别。来自分子动力学模拟产生的高维时空数据的统计分析需要识别几个低维变量,这可以描述系统的基本动态,而无需显着损失信息。在物理化学中,这些低维变量通常称为集体变量。集体变量用于产生可减少的自由能表面的表示,并计算不同亚稳态盆地之间的过渡概率。然而,复杂系统的集体变量的选择并不琐碎。集体变量范围从几何标准等距离,Dihedral角度到抽象的标准,例如诸如多个几何变量的加权线性组合的抽象线性组合。机器学习算法的出现导致越来越多地利用抽象集体变量来代表生物分子动态。在本次审查中,我将突出几个常用的集体变量的几个细微差别,范围从几何到抽象的变量。此外,我将提出一些情况,其中基于机器学习的集体变量来描述原则上的简单系统可以由几何可以描述。最后,我将提出我对人工综合情报的思考以及如何用于发现和预测来自分子动力学模拟产生的时空数据的集体变量。
translated by 谷歌翻译
在计算物理和化学中,增强的采样方法是必不可少的,由于采样问题,原子模拟无法详尽地对动态系统的高维配置空间进行采样。一类增强的抽样方法通过识别一些缓慢的自由度,称为集体变量(CVS)并增强沿这些CVS的采样来起作用。选择CVS来分析和驱动采样并不是微不足道的,并且通常依赖于物理和化学直觉。尽管使用流形学习通常会从标准模拟中直接估算CVS,但这种方法无法通过增强的采样模拟为低维流形提供映射,因为学到的歧管的几何形状和密度是有偏见的。在这里,我们解决了这个关键问题,并根据各向异性扩散图提供了一个普遍的重新加权框架,以考虑到流形学习,该框架考虑了学习数据集是从偏见的概率分布中采样的。我们考虑基于构建马尔可夫链的流形学习方法,描述了高维样品之间的过渡概率。我们表明,我们的框架恢复了偏置效应,从而产生了正确描述平衡密度的CV。这种进步可以直接从增强的采样模拟生成的数据中直接使用流形学习来构建低维CV。我们称我们的框架重新持续的流形学习。我们表明,它可以在来自标准和增强采样模拟的数据上的许多流形学习技术中使用。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
鉴于RCS在确定化学反应的进展中,识别反应坐标(RCS)是研究的活跃领域。反应坐标的选择通常是基于启发式知识。但是,选择的基本标准是坐标应明确捕获反应物和产物态。同样,坐标应该是最慢的,以便所有其他自由度都可以轻松地沿反应坐标平衡。同样,坐标应该是最慢的,以便所有其他自由度都可以轻松地沿反应坐标平衡。我们使用了一个基于能量的模型的正则稀疏自动编码器来发现一组至关重要的反应坐标。除了发现反应坐标外,我们的模型还预测了分子动力学(MD)轨迹的演变。我们表明,包括实施正则化的稀疏性有助于选择一组少量但重要的反应坐标集。我们使用了两个模型系统来证明我们的方法:丙氨酸二肽系统和prollavine和DNA系统,它们在水性环境中表现出proflavine插入到DNA小凹槽中。我们将MD轨迹建模为多元时间序列,我们的潜在变量模型执行了多步骤时间序列预测的任务。这个想法的灵感来自流行的稀疏编码方法 - 将每个输入样本表示为从一组代表性模式中获取的几个元素的线性组合。
translated by 谷歌翻译
粗粒(CG)分子模拟已成为研究全原子模拟无法访问的时间和长度尺度上分子过程的标准工具。参数化CG力场以匹配全原子模拟,主要依赖于力匹配或相对熵最小化,这些熵最小化分别需要来自具有全原子或CG分辨率的昂贵模拟中的许多样本。在这里,我们提出了流量匹配,这是一种针对CG力场的新训练方法,它通过利用正常流量(一种生成的深度学习方法)来结合两种方法的优势。流量匹配首先训练标准化流程以表示CG概率密度,这等同于最小化相对熵而无需迭代CG模拟。随后,该流量根据学习分布生成样品和力,以通过力匹配来训练所需的CG能量模型。即使不需要全部原子模拟的力,流程匹配就数据效率的数量级优于经典力匹配,并产生CG模型,可以捕获小蛋白质的折叠和展开过渡。
translated by 谷歌翻译
预测分子系统的结构和能量特性是分子模拟的基本任务之一,并且具有化学,生物学和医学的用例。在过去的十年中,机器学习算法的出现影响了各种任务的分子模拟,包括原子系统的财产预测。在本文中,我们提出了一种新的方法,用于将从简单分子系统获得的知识转移到更复杂的知识中,并具有明显的原子和自由度。特别是,我们专注于高自由能状态的分类。我们的方法依赖于(i)分子的新型超图表,编码所有相关信息来表征构象的势能,以及(ii)新的消息传递和汇总层来处理和对此类超图结构数据进行预测。尽管问题的复杂性,但我们的结果表明,从三丙氨酸转移到DECA-丙氨酸系统的转移学习中,AUC的AUC为0.92。此外,我们表明,相同的转移学习方法可以用无监督的方式分组,在具有相似的自由能值的簇中,deca-丙氨酸的各种二级结构。我们的研究代表了一个概念证明,即可以设计用于分子系统的可靠传输学习模型,为预测生物学相关系统的结构和能量性能的未开发途径铺平道路。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
时间序列数据的生成和分析与许多从经济学到流体力学的定量字段相关。在物理科学中,诸如亚稳态和连贯的组的结构,慢松弛过程,集体变量显性过渡途径或歧管流动流动的概率流动可能非常重视理解和表征系统的动力动力学和机械性质。 Deeptime是一种通用Python库,提供各种工具来估计基于时间序列数据的动态模型,包括传统的线性学习方法,例如马尔可夫状态模型(MSM),隐藏的马尔可夫模型和Koopman模型,以及内核和深度学习方法如vampnets和深msms。该库主要兼容Scikit-Searn,为这些不同的模型提供一系列估计器类,但与Scikit-Ge劳说相比,还提供了深度模型类,例如,在MSM的情况下,提供了多种分析方法来计算有趣的热力学,动力学和动态量,例如自由能,松弛时间和过渡路径。图书馆专为易于使用而设计,而且易于维护和可扩展的代码。在本文中,我们介绍了Deeptime软件的主要特征和结构。
translated by 谷歌翻译
大量的数据和创新算法使数据驱动的建模成为现代行业的流行技术。在各种数据驱动方法中,潜在变量模型(LVM)及其对应物占主要份额,并在许多工业建模领域中起着至关重要的作用。 LVM通常可以分为基于统计学习的经典LVM和基于神经网络的深层LVM(DLVM)。我们首先讨论经典LVM的定义,理论和应用,该定义和应用既是综合教程,又是对经典LVM的简短申请调查。然后,我们对当前主流DLVM进行了彻底的介绍,重点是其理论和模型体系结构,此后不久就提供了有关DLVM的工业应用的详细调查。上述两种类型的LVM具有明显的优势和缺点。具体而言,经典的LVM具有简洁的原理和良好的解释性,但是它们的模型能力无法解决复杂的任务。基于神经网络的DLVM具有足够的模型能力,可以在复杂的场景中实现令人满意的性能,但它以模型的解释性和效率为例。旨在结合美德并减轻这两种类型的LVM的缺点,并探索非神经网络的举止以建立深层模型,我们提出了一个新颖的概念,称为“轻量级Deep LVM(LDLVM)”。在提出了这个新想法之后,该文章首先阐述了LDLVM的动机和内涵,然后提供了两个新颖的LDLVM,并详尽地描述了其原理,建筑和优点。最后,讨论了前景和机会,包括重要的开放问题和可能的研究方向。
translated by 谷歌翻译
蛋白质功能预测的最新进展利用了基于图的深度学习方法,以将蛋白质的结构和拓扑特征与其分子功能相关联。然而,体内蛋白质不是静态的,而是为功能目的改变构象的动态分子。在这里,我们通过在动态相关的残基对之间连接边缘,将正常模式分析应用于天然蛋白质构象和增强蛋白图。在Multilabel函数分类任务中,我们的方法基于此动态信息表示,演示了出色的性能增益。提出的图形神经网络(Prodar)提高了残基级注释的可解释性和普遍性,并鲁棒反映了蛋白质中的结构细微差别。我们通过比较HMTH1,硝基酚蛋白和SARS-COV-2受体结合结构域的类激活图来阐明图表中动态信息的重要性。我们的模型成功地学习了蛋白质的动态指纹,并指出了功能影响的残基,具有广泛的生物技术和药物应用的巨大潜力。
translated by 谷歌翻译
从诸如蛋白质折叠或配体 - 受体结合如蛋白质 - 折叠或配体 - 受体结合等生物分子过程的长时间轨迹的低尺寸表示是基本的重要性和动力学模型,例如Markov建模,这些模型已经证明是有用的,用于描述这些系统的动力学。最近,引入了一种被称为vampnet的无监督机器学习技术,以以端到端的方式学习低维度表示和线性动态模型。 Vampnet基于Markov进程(VAMP)的变分方法,并依赖于神经网络来学习粗粒度的动态。在此贡献中,我们将Vampnet和图形神经网络组合生成端到端的框架,以从长时间的分子动力学轨迹有效地学习高级动态和亚稳态。该方法承载图形表示学习的优点,并使用图形消息传递操作来生成用于VAMPNET中使用的每个数据点以生成粗粒化表示的嵌入。这种类型的分子表示结果导致更高的分辨率和更可接定的Markov模型,而不是标准Vampnet,使得对生物分子过程更详细的动力学研究。我们的GraphVampNet方法也具有注意机制,以找到分类为不同亚稳态的重要残留物。
translated by 谷歌翻译
A generalized understanding of protein dynamics is an unsolved scientific problem, the solution of which is critical to the interpretation of the structure-function relationships that govern essential biological processes. Here, we approach this problem by constructing coarse-grained molecular potentials based on artificial neural networks and grounded in statistical mechanics. For training, we build a unique dataset of unbiased all-atom molecular dynamics simulations of approximately 9 ms for twelve different proteins with multiple secondary structure arrangements. The coarse-grained models are capable of accelerating the dynamics by more than three orders of magnitude while preserving the thermodynamics of the systems. Coarse-grained simulations identify relevant structural states in the ensemble with comparable energetics to the all-atom systems. Furthermore, we show that a single coarse-grained potential can integrate all twelve proteins and can capture experimental structural features of mutated proteins. These results indicate that machine learning coarse-grained potentials could provide a feasible approach to simulate and understand protein dynamics.
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
尽管表示学习对于机器学习和人工智能的兴起至关重要,但仍有一个关键问题在使学习的表示有意义。为此,典型的方法是通过先前的概率分布正规化学习的表示形式。但是,这样的先验通常不可用或临时。为了解决这个问题,我们提出了一个动态约束的表示学习框架。我们不使用预定义的概率,而是将潜在表示限制为遵循特定的动力学,这是在动态系统中的表示形式学习的更自然的约束。我们的信念源于物理学的基本观察,尽管不同的系统可以具有不同的边缘化概率分布,但它们通常遵守相同的动态,例如牛顿和施罗宾格的方程。我们验证了不同系统的框架,包括真实的荧光DNA电影数据集。我们表明,我们的算法可以唯一识别不相关的,等距和有意义的潜在表示。
translated by 谷歌翻译
在从蛋白质折叠到材料发现的许多领域中,采样分子系统的相空间 - 更普遍地是通过随机微分方程有效建模的复杂系统的相位空间。这些问题本质上通常是多尺度的:可以用少数“慢速”反应坐标参数参数的低维有效自由能表面来描述它们;其余的“快速”自由度填充了反应坐标值的平衡度量。有关此类问题的抽样程序用于估计有效的自由能差以及相对于条件平衡分布的合奏平均值;后者平均值导致有效减少动态模型的关闭。多年来,已经开发了增强的采样技术与分子模拟。引人入胜的类比是与机器学习领域(ML)产生的,在该领域中,生成的对抗网络可以从低维概率分布中产生高维样品。该样本生成从有关其低维表示的信息中返回模型状态的合理高维空间实现。在这项工作中,我们提出了一种方法,该方法将基于物理学的模拟和偏置方法与基于ML的条件生成对抗网络对条件分布进行采样,以实现相同的任务。我们调节精细规模实现的“粗糙描述符”可以先验地知道,也可以通过非线性维度降低来学习。我们建议这可能会带来两种方法的最佳功能:我们证明,夫妻CGAN具有基于物理学的增强采样技术的框架可以改善多尺度SDE动力学系统采样,甚至显示出对增加复杂性系统的希望。
translated by 谷歌翻译
我们采用变化性AutoEncoders从单粒子Anderson杂质模型谱函数的数据集中提取物理洞察。培训AutoEncoders以查找低维,潜在的空间表示,其忠实地表征培训集的每个元素,通过重建误差测量。变形式自动化器,标准自动化器的概率概括,进一步条件促进了高度可解释的特征。在我们的研究中,我们发现学习的潜在变量与众所周知的众所周知,但非活动的参数强烈关联,这些参数表征了安德森杂质模型中的紧急行为。特别地,一种潜在的可变变量与粒子孔不对称相关,而另一个潜在的变量与杂质模型中动态产生的低能量尺度接近一对一的对应关系。使用符号回归,我们将此变量模拟了该变量作为已知的裸物理输入参数和“重新发现”的kondo温度的非扰动公式。我们开发的机器学习管道表明了一种通用方法,它开启了发现其他物理系统中的新领域知识的机会。
translated by 谷歌翻译
用冷冻电子显微镜(Cryo-EM)溶液中生物分子高分辨率成像的近期突破已经解锁了用于重建分子体积的新门,从而有望在其他人之间进一步进一步进展。尽管有很大的入脚,但Cryo-EM数据分析中的巨大挑战仍然是军团和错综复杂的自然间学科,需要物理学家,结构生物学家,计算机科学家,统计学家和应用数学家的见解。同时,最近的下一代卷重建算法与端到端无监督的深度学习技术相结合的生成建模已经显示了对模拟数据的有希望的结果,但在应用于实验Cryo-EM图像时仍然面临相当大的障碍。鉴于此类方法的增殖并鉴于任务的跨学科性质,我们提出了对高分辨率低分辨率建模领域的最近进步的批判性审查。目前的审查旨在(i)比较和对比这些新方法,而(ii)将它们从透视和使用科学家熟悉的术语呈现出来,在任何五个上述领域中没有Cryo-Em中没有具体的背景。审查始于引言介绍低温 - EM批量重建的深度生成模型的数学和计算挑战,同时概述了这类算法中共享的基线方法。通过这些不同的模型建立了常见的线程编织,我们提供了这些最先进的算法的实际比较,突出了它们的相对优势和劣势以及它们依赖的假设。这使我们能够识别当前方法和途径的瓶颈,以便将来的研究。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
准确的蛋白质结合亲和力预测在药物设计和许多其他分子识别问题中至关重要。尽管基于机器学习技术的亲和力预测取得了许多进步,但由于蛋白质 - 配体结合取决于原子和分子的动力学,它们仍然受到限制。为此,我们策划了一个包含3,218个动态蛋白质配合物的MD数据集,并进一步开发了DynaFormer,这是一个基于图的深度学习框架。 DynaFormer可以通过考虑相互作用的各种几何特征来完全捕获动态结合规则。我们的方法显示出优于迄今报告的方法。此外,我们通过将模型与基于结构的对接整合在一起,对热休克蛋白90(HSP90)进行了虚拟筛选。我们对其他基线进行了基准测试,表明我们的方法可以鉴定具有最高实验效力的分子。我们预计大规模的MD数据集和机器学习模型将形成新的协同作用,为加速药物发现和优化提供新的途径。
translated by 谷歌翻译
分子模拟的粗粒度(CG)通过将选定的原子分组为伪珠并大幅加速模拟来简化粒子的表示。但是,这种CG程序会导致信息损失,从而使准确的背景映射,即从CG坐标恢复细粒度(FG)坐标,这是一个长期存在的挑战。受生成模型和e象网络的最新进展的启发,我们提出了一个新型模型,该模型严格嵌入了背态转换的重要概率性质和几何一致性要求。我们的模型将FG的不确定性编码为不变的潜在空间,并通过Equivariant卷积将其解码为FG几何形状。为了标准化该领域的评估,我们根据分子动力学轨迹提供了三个综合基准。实验表明,我们的方法始终恢复更现实的结构,并以显着的边距胜过现有的数据驱动方法。
translated by 谷歌翻译