捕获复杂的生物学现象通常需要多尺度建模,在使用有限的昂贵和高保真模型的有限组件开发粗糙和廉价的模型的情况下。在这里,我们在癌症生物学的背景下考虑了这样的多尺度框架,并解决了评估使用分子动力学模型的一维统计数据开发的连续模型的描述能力的挑战。使用深度学习,我们开发了一个高度预测性的分类模型,该模型可以从连续模型中识别复杂和新兴行为。两次模拟证明了超过99.9%的精度,我们的方法证实了蛋白质特异性的“脂质指纹”的存在,即脂质的空间重排以响应感兴趣的蛋白质。通过此演示,我们的模型还提供了对连续模型的外部验证,肯定了这种多尺度建模的价值,并可以通过进一步分析这些指纹来促进新的见解。
translated by 谷歌翻译
对RAS和RAF蛋白的行为与细胞膜中局部脂质环境之间关系之间的关系的了解对了解癌症形成的基础机制至关重要。在这项工作中,我们采用深度学习(DL)来学习这种关系,通过预测基于脂质膜的RAS和RAS-RAF蛋白复合物的蛋白质定位状态,该状态基于蛋白质结构域周围的脂质密度(CG),相对于脂质膜。分子动力学(MD)模拟。我们的DL模型可以预测六个蛋白质状态,总体准确性超过80%。这项工作的发现为蛋白质如何调节脂质环境提供了新的见解,这反过来又可以帮助设计新型疗法以调节与癌症发展相关的机制中的这种相互作用。
translated by 谷歌翻译
由影响它们折叠并因此决定其功能和特征的氨基酸链组成,蛋白质是一类大分子,它们在主要生物过程中起着核心作用,并且是人体组织的结构,功能和调节所必需的。了解蛋白质功能对于治疗和精确医学的发展至关重要,因此可以根据可测量特征对蛋白质进行分类及其功能至关重要。实际上,从其主要结构(称为其主要结构)中对蛋白质特性的自动推断仍然是生物信息学领域中的一个重要开放问题,尤其是考虑到测序技术的最新进展和广泛的已知但未分类的蛋白质具有未知属性。在这项工作中,我们演示和比较了几个深度学习框架的性能,包括新型双向LSTM和卷积模型,这些卷积模型在蛋白质数据库(PDB)的广泛可用的测序数据合作中,结构生物信息信息技术(RCSB),RCSB),RCSB(RCSB),RCSB(RCSB)的研究合作。除了对经典的机器学习方法进行基准测试,包括K-Nearest邻居和多项式回归分类器,对实验数据进行了培训。我们的结果表明,我们的深度学习模型为经典的机器学习方法提供了卓越的性能,卷积体系结构提供了最令人印象深刻的推理性能。
translated by 谷歌翻译
A generalized understanding of protein dynamics is an unsolved scientific problem, the solution of which is critical to the interpretation of the structure-function relationships that govern essential biological processes. Here, we approach this problem by constructing coarse-grained molecular potentials based on artificial neural networks and grounded in statistical mechanics. For training, we build a unique dataset of unbiased all-atom molecular dynamics simulations of approximately 9 ms for twelve different proteins with multiple secondary structure arrangements. The coarse-grained models are capable of accelerating the dynamics by more than three orders of magnitude while preserving the thermodynamics of the systems. Coarse-grained simulations identify relevant structural states in the ensemble with comparable energetics to the all-atom systems. Furthermore, we show that a single coarse-grained potential can integrate all twelve proteins and can capture experimental structural features of mutated proteins. These results indicate that machine learning coarse-grained potentials could provide a feasible approach to simulate and understand protein dynamics.
translated by 谷歌翻译
蛋白质功能预测的最新进展利用了基于图的深度学习方法,以将蛋白质的结构和拓扑特征与其分子功能相关联。然而,体内蛋白质不是静态的,而是为功能目的改变构象的动态分子。在这里,我们通过在动态相关的残基对之间连接边缘,将正常模式分析应用于天然蛋白质构象和增强蛋白图。在Multilabel函数分类任务中,我们的方法基于此动态信息表示,演示了出色的性能增益。提出的图形神经网络(Prodar)提高了残基级注释的可解释性和普遍性,并鲁棒反映了蛋白质中的结构细微差别。我们通过比较HMTH1,硝基酚蛋白和SARS-COV-2受体结合结构域的类激活图来阐明图表中动态信息的重要性。我们的模型成功地学习了蛋白质的动态指纹,并指出了功能影响的残基,具有广泛的生物技术和药物应用的巨大潜力。
translated by 谷歌翻译
从诸如蛋白质折叠或配体 - 受体结合如蛋白质 - 折叠或配体 - 受体结合等生物分子过程的长时间轨迹的低尺寸表示是基本的重要性和动力学模型,例如Markov建模,这些模型已经证明是有用的,用于描述这些系统的动力学。最近,引入了一种被称为vampnet的无监督机器学习技术,以以端到端的方式学习低维度表示和线性动态模型。 Vampnet基于Markov进程(VAMP)的变分方法,并依赖于神经网络来学习粗粒度的动态。在此贡献中,我们将Vampnet和图形神经网络组合生成端到端的框架,以从长时间的分子动力学轨迹有效地学习高级动态和亚稳态。该方法承载图形表示学习的优点,并使用图形消息传递操作来生成用于VAMPNET中使用的每个数据点以生成粗粒化表示的嵌入。这种类型的分子表示结果导致更高的分辨率和更可接定的Markov模型,而不是标准Vampnet,使得对生物分子过程更详细的动力学研究。我们的GraphVampNet方法也具有注意机制,以找到分类为不同亚稳态的重要残留物。
translated by 谷歌翻译
We consider the prediction of interfaces between proteins, a challenging problem with important applications in drug discovery and design, and examine the performance of existing and newly proposed spatial graph convolution operators for this task. By performing convolution over a local neighborhood of a node of interest, we are able to stack multiple layers of convolution and learn effective latent representations that integrate information across the graph that represent the three dimensional structure of a protein of interest. An architecture that combines the learned features across pairs of proteins is then used to classify pairs of amino acid residues as part of an interface or not. In our experiments, several graph convolution operators yielded accuracy that is better than the state-of-the-art SVM method in this task. † denotes equal contribution 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA.
translated by 谷歌翻译
用于预测蛋白质之间的界面触点的计算方法对于药物发现,因此可以显着地推进替代方法的准确性,例如蛋白质 - 蛋白质对接,蛋白质功能分析工具和其他用于蛋白质生物信息学的计算方法。在这项工作中,我们介绍了几何变压器,一种用于旋转的新型几何不变性的曲线图变压器,用于旋转和平移 - 不变的蛋白质接口接触预测,包装在膨胀的端到端预测管道内。 Deepinteract预测伴侣特异性蛋白质界面触点(即,蛋白质残留物 - 残留物接触)给出了两种蛋白质的3D三级结构作为输入。在严格的基准测试中,深入的蛋白质复杂目标来自第13和第14次CASP-CAPRI实验以及对接基准5,实现14%和1.1%顶部L / 5精度(L:蛋白质单位的长度) , 分别。在这样做的情况下,使用几何变压器作为其基于图形的骨干,除了与深度兼容的其他图形的神经网络骨架之外,还优于接口接触预测的现有方法,从而验证了几何变压器学习丰富关系的有效性用于3D蛋白质结构下游任务的-Geometric特征。
translated by 谷歌翻译
鉴定新型药物靶标相互作用(DTI)是药物发现中的关键和速率限制步骤。虽然已经提出了深入学习模型来加速识别过程,但我们表明最先进的模型无法概括到新颖(即,从未见过的)结构上。我们首先揭示负责此缺点的机制,展示模型如何依赖于利用蛋白质 - 配体二分网络拓扑的捷径,而不是学习节点特征。然后,我们介绍AI-BIND,这是一个与无监督的预训练的基于网络的采样策略相结合的管道,使我们能够限制注释不平衡并改善新型蛋白质和配体的结合预测。我们通过预测具有结合亲和力的药物和天然化合物对SARS-COV-2病毒蛋白和相关的人蛋白质来说明Ai-reat的值。我们还通过自动扩展模拟和与最近的实验证据进行比较来验证这些预测。总体而言,AI-Bind提供了一种强大的高通量方法来识别药物目标组合,具有成为药物发现中强大工具的可能性。
translated by 谷歌翻译
Machine learning (ML) is revolutionizing protein structural analysis, including an important subproblem of predicting protein residue contact maps, i.e., which amino-acid residues are in close spatial proximity given the amino-acid sequence of a protein. Despite recent progresses in ML-based protein contact prediction, predicting contacts with a wide range of distances (commonly classified into short-, medium- and long-range contacts) remains a challenge. Here, we propose a multiscale graph neural network (GNN) based approach taking a cue from multiscale physics simulations, in which a standard pipeline involving a recurrent neural network (RNN) is augmented with three GNNs to refine predictive capability for short-, medium- and long-range residue contacts, respectively. Test results on the ProteinNet dataset show improved accuracy for contacts of all ranges using the proposed multiscale RNN+GNN approach over the conventional approach, including the most challenging case of long-range contact prediction.
translated by 谷歌翻译
预测药物目标相互作用是药物发现的关键。最近基于深度学习的方法显示出令人鼓舞的表现,但仍有两个挑战:(i)如何明确建模并学习药物与目标之间的局部互动,以更好地预测和解释; (ii)如何从不同分布的新型药物目标对上概括预测性能。在这项工作中,我们提出了Dugban,这是一个深层双线性注意网络(BAN)框架,并适应了域的适应性,以明确学习药物与目标之间的配对局部相互作用,并适应了分布数据外的数据。 Dugban在药物分子图和靶蛋白序列上进行预测的作品,有条件结构域对抗性学习,以使跨不同分布的学习相互作用表示,以更好地对新型药物目标对进行更好的概括。在内域和跨域设置下,在三个基准数据集上进行的实验表明,对于五个最先进的基准,Dugban取得了最佳的总体表现。此外,可视化学习的双线性注意图图提供了可解释的见解,从预测结果中提供了可解释的见解。
translated by 谷歌翻译
在这项工作中,我们开始使用深入学习方法来找到对蛋白质结构进行分类的方法。我们的人工智能已经训练,以识别从蛋白质数据库(PDB)数据库外推的复杂的生物分子结构,并将其被重新处理为图像;为此目的,已经使用预先训练的卷积神经网络进行了各种测试,例如InceptionResnetv2或Inceptionv3,以便从这些图像中提取有效的特征并正确对分子进行分类。因此,将产生对各种网络的性能的比较分析。
translated by 谷歌翻译
在这项工作中,我们介绍了亲和力-VAE:基于其相似性在多维图像数据中自动聚类和对象分类的框架。该方法扩展了$ \ beta $ -vaes的概念,其基于亲和力矩阵驱动的知情相似性损失组件。与标准的$ \ beta $ -VAE相比,该亲和力VAE能够在潜在表示中创建旋转不变的,形态上均匀的簇,并具有改进的群集分离。我们探讨了2D和3D图像数据上潜在空间的潜在分离和连续性的程度,包括模拟的生物电子冷冻术(Cryo-ET)体积,作为科学应用的一个例子。
translated by 谷歌翻译
病毒感染导致全世界的显着发病率和死亡率。理解特定病毒和人类蛋白质之间的相互作用模式在揭示病毒感染和发病机制的潜在机制方面发挥着至关重要的作用。这可以进一步帮助预防和治疗病毒相关疾病。然而,由于病毒 - 人类相互作用的稀缺数据和大多数病毒的快速突变率,预测新病毒和人体细胞之间的蛋白质 - 蛋白质相互作用的任务是非常挑战性的。我们开发了一种多任务转移学习方法,利用人类互乱组约2400万蛋白序列和相互作用模式的信息来解决小型训练数据集的问题。除了使用手工制作的蛋白质特征,而不是通过深语模型方法从巨大的蛋白质序列来源学习的统计学上丰富的蛋白质表示。此外,我们采用了额外的目的,旨在最大限度地提高观察人蛋白质蛋白质相互作用的可能性。这一附加任务目标充当规律器,还允许纳入域知识来告知病毒 - 人蛋白质 - 蛋白质相互作用预测模型。我们的方法在13个基准数据集中实现了竞争力,以及SAR-COV-2病毒受体的案例研究。实验结果表明,我们所提出的模型有效地用于病毒 - 人和细菌 - 人蛋白质 - 蛋白质 - 蛋白质相互作用预测任务。我们分享我们的重复性和未来研究代码,以便在https://git.l3s.uni-hannover.de/dong/multitastastastastastastastastastask-transfer。
translated by 谷歌翻译
氨基酸的分类及其序列分析在生命科学中起着至关重要的作用,并且是一项艰巨的任务。本文使用并比较了最新的深度学习模型,例如卷积神经网络(CNN),长期记忆(LSTM)和门控复发单元(GRU),以解决使用氨基酸的大分子分类问题。与传统的机器学习技术相比,这些模型具有有效的框架来解决广泛的复杂学习问题。我们使用嵌入单词来表示氨基酸序列作为向量。CNN从氨基酸序列中提取特征,这些特征被视为向量,然后喂入上面提到的模型以训练健壮的分类器。我们的结果表明,嵌入与VGG-16相结合的Word2Vec的性能比LSTM和GRU更好。提出的方法的错误率为1.5%。
translated by 谷歌翻译
Protein subcellular localization is an important factor in normal cellular processes and disease. While many protein localization resources treat it as static, protein localization is dynamic and heavily influenced by biological context. Biological pathways are graphs that represent a specific biological context and can be inferred from large-scale data. We develop graph algorithms to predict the localization of all interactions in a biological pathway as an edge-labeling task. We compare a variety of models including graph neural networks, probabilistic graphical models, and discriminative classifiers for predicting localization annotations from curated pathway databases. We also perform a case study where we construct biological pathways and predict localizations of human fibroblasts undergoing viral infection. Pathway localization prediction is a promising approach for integrating publicly available localization data into the analysis of large-scale biological data.
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
在这项工作中,我们通过使用卷积神经网络,基于深度学习方法的系统提供了一种基于蛋白质数据库中包含的蛋白质描述来分类氨基酸的蛋白质链。每个蛋白质在其XML格式中的文件中的化学物理 - 几何属性中完全描述。这项工作的目的是设计一个原型的深层学习机械,用于收集和管理大量数据,并通过其应用于氨基酸序列的分类来验证。我们设想将所述方法应用于与结构性质和相似性有关的生物分子中的更通用分类问题。
translated by 谷歌翻译
学习有效的蛋白质表示在生物学的各种任务中至关重要,例如预测蛋白质功能或结构。现有的方法通常在大量未标记的氨基酸序列上预先蛋白质语言模型,然后在下游任务中使用一些标记的数据来对模型进行修复。尽管基于序列的方法具有有效性,但尚未探索蛋白质性能预测的已知蛋白质结构的预处理功能,尽管蛋白质结构已知是蛋白质功能的决定因素,但尚未探索。在本文中,我们建议根据其3D结构预处理蛋白质。我们首先提出一个简单而有效的编码器,以学习蛋白质的几何特征。我们通过利用多视图对比学习和不同的自我预测任务来预先蛋白质图编码器。对功能预测和折叠分类任务的实验结果表明,我们提出的预处理方法表现优于或与最新的基于最新的序列方法相提并论,同时使用较少的数据。我们的实施可在https://github.com/deepgraphlearning/gearnet上获得。
translated by 谷歌翻译
深度学习在涉及数据的每个领域都起着至关重要的作用。它已经成为一个强大而有效的框架,可以应用于广泛的复杂学习问题,这些问题过去很难使用传统的机器学习技术来解决。在这项研究中,我们专注于用深度学习技术的蛋白质序列分类。氨基酸序列的研究在生命科学中至关重要。我们使用自然语言处理中不同单词嵌入技术来表示氨基酸序列作为向量。我们的主要目标是将序列分类为DNA,RNA,蛋白质和杂交的四组类别。经过几次测试,我们达到了近99%的火车和测试准确性。我们已经在CNN,LSTM,双向LSTM和GRU上进行了实验。
translated by 谷歌翻译