蛋白质 - 蛋白质相互作用(PPI)对于许多生物过程至关重要,其中两种或更多种蛋白质物理地结合在一起以实现其功能。建模PPI对许多生物医学应用有用,例如疫苗设计,抗体治疗和肽药物发现。预先训练蛋白质模型以学习有效的代表对于PPI至关重要。对于PPI的大多数预训练模型是基于序列的,这是基于序列的,该模型是基于氨基酸序列的自然语言处理中使用的语言模型。更先进的作品利用结构感知的预训练技术,利用已知蛋白质结构的联系地图。然而,既不是序列和联系地图都可以完全表征蛋白质的结构和功能,这与PPI问题密切相关。灵感来自这种洞察力,我们提出了一种具有三种方式的多模式蛋白质预训练模型:序列,结构和功能(S2F)。值得注意的是,而不是使用联系地图来学习氨基酸水平刚性结构,而是用重度原子的点云的拓扑复合物编码结构特征。它允许我们的模型不仅仅是基于底部的结构信息,还可以了解侧链。此外,我们的模型包括从文献或手动注释中提取的蛋白质的功能描述中的知识。我们的实验表明,S2F学习蛋白质嵌入物,在包括各种PPI,包括跨物种PPI,抗体 - 抗原亲和预测,抗体中和对SARS-COV-2的抗体中和预测的蛋白质嵌入,以及突变驱动的结合亲和力变化预测。
translated by 谷歌翻译
现在,我们目睹了深度学习方法在各种蛋白质(或数据集)中的重大进展。但是,缺乏评估不同方法的性能的标准基准,这阻碍了该领域的深度学习进步。在本文中,我们提出了一种称为PEER的基准,这是一种用于蛋白质序列理解的全面和多任务基准。 PEER提供了一组不同的蛋白质理解任务,包括蛋白质功能预测,蛋白质定位预测,蛋白质结构预测,蛋白质 - 蛋白质相互作用预测和蛋白质 - 配体相互作用预测。我们评估每个任务的不同类型的基于序列的方法,包括传统的特征工程方法,不同的序列编码方法以及大规模的预训练蛋白质语言模型。此外,我们还研究了这些方法在多任务学习设置下的性能。实验结果表明,大规模的预训练蛋白质语言模型可实现大多数单个任务的最佳性能,共同训练多个任务进一步提高了性能。该基准的数据集和源代码均可在https://github.com/deepgraphlearning/peer_benchmark上获得
translated by 谷歌翻译
蛋白质RNA相互作用对各种细胞活性至关重要。已经开发出实验和计算技术来研究相互作用。由于先前数据库的限制,尤其是缺乏蛋白质结构数据,大多数现有的计算方法严重依赖于序列数据,只有一小部分使用结构信息。最近,alphafold彻底改变了整个蛋白质和生物领域。可预应学,在即将到来的年份,也将显着促进蛋白质-RNA相互作用预测。在这项工作中,我们对该字段进行了彻底的审查,调查绑定站点和绑定偏好预测问题,并覆盖常用的数据集,功能和模型。我们还指出了这一领域的潜在挑战和机遇。本调查总结了过去的RBP-RNA互动领域的发展,并预见到了alphafold时代未来的发展。
translated by 谷歌翻译
药物目标亲和力(DTA)预测是药物发现和药物研究的重要任务。 DTA的准确预测可以极大地受益于新药的设计。随着湿实验的昂贵且耗时,DTA预测的监督数据非常有限。这严重阻碍了基于深度学习的方法的应用,这些方法需要大量的监督数据。为了应对这一挑战并提高DTA预测准确性,我们在这项工作中提出了一个具有几种简单但有效的策略的框架:(1)多任务培训策略,该策略将DTA预测和蒙版语言建模(MLM)任务采用配对的药品目标数据集; (2)一种半监督的训练方法,通过利用大规模的未配对分子和蛋白质来赋予药物和靶向代表性学习,这与以前仅利用仅利用预训练的预训练和微调方法,这些方法仅利用前培训和微调方法训练; (3)一个交叉意见模块,以增强药物和靶代表性之间的相互作用。在三个现实世界基准数据集上进行了广泛的实验:BindingDB,Davis和Kiba。结果表明,我们的框架大大优于现有方法,并实现最先进的性能,例如,$ 0.712 $ rmse在bindingdb ic $ _ {50} $测量上,比以前的最佳工作要改善了$ 5 \%。此外,关于特定药物目标结合活动,药物特征可视化和现实世界应用的案例研究证明了我们工作的巨大潜力。代码和数据在https://github.com/qizhipei/smt-dta上发布
translated by 谷歌翻译
Geometric deep learning has recently achieved great success in non-Euclidean domains, and learning on 3D structures of large biomolecules is emerging as a distinct research area. However, its efficacy is largely constrained due to the limited quantity of structural data. Meanwhile, protein language models trained on substantial 1D sequences have shown burgeoning capabilities with scale in a broad range of applications. Nevertheless, no preceding studies consider combining these different protein modalities to promote the representation power of geometric neural networks. To address this gap, we make the foremost step to integrate the knowledge learned by well-trained protein language models into several state-of-the-art geometric networks. Experiments are evaluated on a variety of protein representation learning benchmarks, including protein-protein interface prediction, model quality assessment, protein-protein rigid-body docking, and binding affinity prediction, leading to an overall improvement of 20% over baselines and the new state-of-the-art performance. Strong evidence indicates that the incorporation of protein language models' knowledge enhances geometric networks' capacity by a significant margin and can be generalized to complex tasks.
translated by 谷歌翻译
大规模蛋白质语言模型(PLM)在蛋白质预测任务中的性能提高,范围从3D结构预测到各种功能预测。特别是,Alphafold(一种开创性的AI系统)可能会重塑结构生物学。但是,尚未探索超出结构预测的AlphaFold,Evoformer的PLM模块的效用。在本文中,我们研究了三个流行PLM的表示能力:ESM-1B(单序),MSA转换器(多个序列比对)和Evoformer(结构),并特别关注Evoformer。具体而言,我们旨在回答以下关键问题:(i)作为Alphafold的一部分,Evoformer是否会产生可预测蛋白质功能的表示形式? (ii)如果是的,可以替换ESM-1B和MSA转换器? (iii)这些PLM多少依赖于进化相关的蛋白质数据?在这方面,他们彼此补充吗?我们通过实证研究以及新的见解和结论来比较这些模型。最后,我们发布代码和数据集以获得可重复性。
translated by 谷歌翻译
The prediction of protein structures from sequences is an important task for function prediction, drug design, and related biological processes understanding. Recent advances have proved the power of language models (LMs) in processing the protein sequence databases, which inherit the advantages of attention networks and capture useful information in learning representations for proteins. The past two years have witnessed remarkable success in tertiary protein structure prediction (PSP), including evolution-based and single-sequence-based PSP. It seems that instead of using energy-based models and sampling procedures, protein language model (pLM)-based pipelines have emerged as mainstream paradigms in PSP. Despite the fruitful progress, the PSP community needs a systematic and up-to-date survey to help bridge the gap between LMs in the natural language processing (NLP) and PSP domains and introduce their methodologies, advancements and practical applications. To this end, in this paper, we first introduce the similarities between protein and human languages that allow LMs extended to pLMs, and applied to protein databases. Then, we systematically review recent advances in LMs and pLMs from the perspectives of network architectures, pre-training strategies, applications, and commonly-used protein databases. Next, different types of methods for PSP are discussed, particularly how the pLM-based architectures function in the process of protein folding. Finally, we identify challenges faced by the PSP community and foresee promising research directions along with the advances of pLMs. This survey aims to be a hands-on guide for researchers to understand PSP methods, develop pLMs and tackle challenging problems in this field for practical purposes.
translated by 谷歌翻译
病毒感染导致全世界的显着发病率和死亡率。理解特定病毒和人类蛋白质之间的相互作用模式在揭示病毒感染和发病机制的潜在机制方面发挥着至关重要的作用。这可以进一步帮助预防和治疗病毒相关疾病。然而,由于病毒 - 人类相互作用的稀缺数据和大多数病毒的快速突变率,预测新病毒和人体细胞之间的蛋白质 - 蛋白质相互作用的任务是非常挑战性的。我们开发了一种多任务转移学习方法,利用人类互乱组约2400万蛋白序列和相互作用模式的信息来解决小型训练数据集的问题。除了使用手工制作的蛋白质特征,而不是通过深语模型方法从巨大的蛋白质序列来源学习的统计学上丰富的蛋白质表示。此外,我们采用了额外的目的,旨在最大限度地提高观察人蛋白质蛋白质相互作用的可能性。这一附加任务目标充当规律器,还允许纳入域知识来告知病毒 - 人蛋白质 - 蛋白质相互作用预测模型。我们的方法在13个基准数据集中实现了竞争力,以及SAR-COV-2病毒受体的案例研究。实验结果表明,我们所提出的模型有效地用于病毒 - 人和细菌 - 人蛋白质 - 蛋白质 - 蛋白质相互作用预测任务。我们分享我们的重复性和未来研究代码,以便在https://git.l3s.uni-hannover.de/dong/multitastastastastastastastastastask-transfer。
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
鉴定新型药物靶标相互作用(DTI)是药物发现中的关键和速率限制步骤。虽然已经提出了深入学习模型来加速识别过程,但我们表明最先进的模型无法概括到新颖(即,从未见过的)结构上。我们首先揭示负责此缺点的机制,展示模型如何依赖于利用蛋白质 - 配体二分网络拓扑的捷径,而不是学习节点特征。然后,我们介绍AI-BIND,这是一个与无监督的预训练的基于网络的采样策略相结合的管道,使我们能够限制注释不平衡并改善新型蛋白质和配体的结合预测。我们通过预测具有结合亲和力的药物和天然化合物对SARS-COV-2病毒蛋白和相关的人蛋白质来说明Ai-reat的值。我们还通过自动扩展模拟和与最近的实验证据进行比较来验证这些预测。总体而言,AI-Bind提供了一种强大的高通量方法来识别药物目标组合,具有成为药物发现中强大工具的可能性。
translated by 谷歌翻译
The development of deep neural networks has improved representation learning in various domains, including textual, graph structural, and relational triple representations. This development opened the door to new relation extraction beyond the traditional text-oriented relation extraction. However, research on the effectiveness of considering multiple heterogeneous domain information simultaneously is still under exploration, and if a model can take an advantage of integrating heterogeneous information, it is expected to exhibit a significant contribution to many problems in the world. This thesis works on Drug-Drug Interactions (DDIs) from the literature as a case study and realizes relation extraction utilizing heterogeneous domain information. First, a deep neural relation extraction model is prepared and its attention mechanism is analyzed. Next, a method to combine the drug molecular structure information and drug description information to the input sentence information is proposed, and the effectiveness of utilizing drug molecular structures and drug descriptions for the relation extraction task is shown. Then, in order to further exploit the heterogeneous information, drug-related items, such as protein entries, medical terms and pathways are collected from multiple existing databases and a new data set in the form of a knowledge graph (KG) is constructed. A link prediction task on the constructed data set is conducted to obtain embedding representations of drugs that contain the heterogeneous domain information. Finally, a method that integrates the input sentence information and the heterogeneous KG information is proposed. The proposed model is trained and evaluated on a widely used data set, and as a result, it is shown that utilizing heterogeneous domain information significantly improves the performance of relation extraction from the literature.
translated by 谷歌翻译
预测药物目标相互作用是药物发现的关键。最近基于深度学习的方法显示出令人鼓舞的表现,但仍有两个挑战:(i)如何明确建模并学习药物与目标之间的局部互动,以更好地预测和解释; (ii)如何从不同分布的新型药物目标对上概括预测性能。在这项工作中,我们提出了Dugban,这是一个深层双线性注意网络(BAN)框架,并适应了域的适应性,以明确学习药物与目标之间的配对局部相互作用,并适应了分布数据外的数据。 Dugban在药物分子图和靶蛋白序列上进行预测的作品,有条件结构域对抗性学习,以使跨不同分布的学习相互作用表示,以更好地对新型药物目标对进行更好的概括。在内域和跨域设置下,在三个基准数据集上进行的实验表明,对于五个最先进的基准,Dugban取得了最佳的总体表现。此外,可视化学习的双线性注意图图提供了可解释的见解,从预测结果中提供了可解释的见解。
translated by 谷歌翻译
学习有效的蛋白质表示在生物学的各种任务中至关重要,例如预测蛋白质功能或结构。现有的方法通常在大量未标记的氨基酸序列上预先蛋白质语言模型,然后在下游任务中使用一些标记的数据来对模型进行修复。尽管基于序列的方法具有有效性,但尚未探索蛋白质性能预测的已知蛋白质结构的预处理功能,尽管蛋白质结构已知是蛋白质功能的决定因素,但尚未探索。在本文中,我们建议根据其3D结构预处理蛋白质。我们首先提出一个简单而有效的编码器,以学习蛋白质的几何特征。我们通过利用多视图对比学习和不同的自我预测任务来预先蛋白质图编码器。对功能预测和折叠分类任务的实验结果表明,我们提出的预处理方法表现优于或与最新的基于最新的序列方法相提并论,同时使用较少的数据。我们的实施可在https://github.com/deepgraphlearning/gearnet上获得。
translated by 谷歌翻译
在基因组生物学研究中,调节基因组建模是许多监管下游任务的重要课题,例如推动者分类,交易因子结合位点预测。核心问题是模拟监管元素如何相互交互及其跨不同小区类型的可变性。然而,目前的深度学习方法通​​常专注于建模固定的细胞类型集的基因组序列,并且不考虑多个调节元件之间的相互作用,使它们仅在训练集中的小区类型上表现良好,并且缺乏所需的概括生物学应用。在这项工作中,我们提出了一种简单但有效的方法,用于以多模态和自我监督的方式预先培训基因组数据,我们称之为Genebert。具体而言,我们同时服用1D基因组数据和2D矩阵(转录因子X区)作为输入,其中提出了三项预训练任务,以提高模型的鲁棒性和概括性。我们在ATAC-SEQ数据集上预先培训我们的模型,具有1700万基因组序列。我们在不同细胞类型中评估我们的Genebert关于监管下游任务,包括启动子分类,交易因子结合位点预测,疾病风险估计和剪接部位预测。广泛的实验证明了大型监管基因组学数据的多模态和自我监督的预培训的有效性。
translated by 谷歌翻译
基于AI的蛋白质结构预测管道(例如AlphaFold2)已达到了几乎实验的准确性。这些高级管道主要依赖于多个序列比对(MSA)和模板作为输入来从同源序列中学习共进化信息。但是,从蛋白质数据库中搜索MSA和模板很耗时,通常需要数十分钟。因此,我们尝试通过仅使用蛋白质的主要序列来探索快速蛋白质结构预测的极限。提出了Helixfold单一的形式将大规模蛋白质语言模型与AlphaFold2的优质几何学习能力相结合。我们提出的方法,Helixfold单个,首先预先培训是一种大规模蛋白质语言模型(PLM),使用了数以千计的主要序列利用自我监督的学习范式,将用作MSA和模板的替代方法共同进化信息。然后,通过将预训练的PLM和AlphaFold2的必需组件组合在一起,我们获得了一个端到端可区分模型,以仅从主要序列预测原子的3D坐标。 Helixfold-Single在数据集CASP14和Cameo中得到了验证,通过基于MSA的方法,具有大型同源家庭的基于MSA的方法,从而实现了竞争精度。此外,与主流管道进行蛋白质结构预测相比,Helixfold单个的时间比主流管道的时间少得多,这表明其在需要许多预测的任务中的潜力。 HelixFold-Single的守则可在https://github.com/paddlepaddle/paddlehelix/tree/dev/dev/pprotein_folding/helixfold-single上获得,我们还在https://paddlehelix.baidu.com上提供稳定的Web服务。 /app/drug/protein-single/prevast。
translated by 谷歌翻译
蛋白质功能预测的最新进展利用了基于图的深度学习方法,以将蛋白质的结构和拓扑特征与其分子功能相关联。然而,体内蛋白质不是静态的,而是为功能目的改变构象的动态分子。在这里,我们通过在动态相关的残基对之间连接边缘,将正常模式分析应用于天然蛋白质构象和增强蛋白图。在Multilabel函数分类任务中,我们的方法基于此动态信息表示,演示了出色的性能增益。提出的图形神经网络(Prodar)提高了残基级注释的可解释性和普遍性,并鲁棒反映了蛋白质中的结构细微差别。我们通过比较HMTH1,硝基酚蛋白和SARS-COV-2受体结合结构域的类激活图来阐明图表中动态信息的重要性。我们的模型成功地学习了蛋白质的动态指纹,并指出了功能影响的残基,具有广泛的生物技术和药物应用的巨大潜力。
translated by 谷歌翻译
Proteins are fundamental biological entities that play a key role in life activities. The amino acid sequences of proteins can be folded into stable 3D structures in the real physicochemical world, forming a special kind of sequence-structure data. With the development of Artificial Intelligence (AI) techniques, Protein Representation Learning (PRL) has recently emerged as a promising research topic for extracting informative knowledge from massive protein sequences or structures. To pave the way for AI researchers with little bioinformatics background, we present a timely and comprehensive review of PRL formulations and existing PRL methods from the perspective of model architectures, pretext tasks, and downstream applications. We first briefly introduce the motivations for protein representation learning and formulate it in a general and unified framework. Next, we divide existing PRL methods into three main categories: sequence-based, structure-based, and sequence-structure co-modeling. Finally, we discuss some technical challenges and potential directions for improving protein representation learning. The latest advances in PRL methods are summarized in a GitHub repository https://github.com/LirongWu/awesome-protein-representation-learning.
translated by 谷歌翻译
蛋白质与几乎每个生命过程都相关联。因此,分析蛋白质序列的生物学结构和性质对植物勘探至关重要,以及疾病检测和药物发现。传统的蛋白质分析方法往往是劳动密集型和耗时的。深度学习模型的出现使得大量数据的建模数据模式可能。跨学科研究人员已经开始利用深入学习方法来建模大型生物数据集,例如,使用长短期记忆和卷积神经网络进行蛋白质序列分类。在数百万年的进化之后,进化信息在蛋白质序列中编码。灵感来自自然语言和蛋白质序列之间的相似性,我们使用大规模的语言模型来模拟进化尺度蛋白序列,编码表示的蛋白质生物学信息。在令牌级和序列级任务中观察到显着改进,表明我们的大规模模型可以准确地捕获进化尺度单个序列上的预测信息。我们的代码和型号可在https://github.com/thudm/proteinlm获得。
translated by 谷歌翻译
Deep learning has been widely used for protein engineering. However, it is limited by the lack of sufficient experimental data to train an accurate model for predicting the functional fitness of high-order mutants. Here, we develop SESNet, a supervised deep-learning model to predict the fitness for protein mutants by leveraging both sequence and structure information, and exploiting attention mechanism. Our model integrates local evolutionary context from homologous sequences, the global evolutionary context encoding rich semantic from the universal protein sequence space and the structure information accounting for the microenvironment around each residue in a protein. We show that SESNet outperforms state-of-the-art models for predicting the sequence-function relationship on 26 deep mutational scanning datasets. More importantly, we propose a data augmentation strategy by leveraging the data from unsupervised models to pre-train our model. After that, our model can achieve strikingly high accuracy in prediction of the fitness of protein mutants, especially for the higher order variants (> 4 mutation sites), when finetuned by using only a small number of experimental mutation data (<50). The strategy proposed is of great practical value as the required experimental effort, i.e., producing a few tens of experimental mutation data on a given protein, is generally affordable by an ordinary biochemical group and can be applied on almost any protein.
translated by 谷歌翻译
Applying deep learning concepts from image detection and graph theory has greatly advanced protein-ligand binding affinity prediction, a challenge with enormous ramifications for both drug discovery and protein engineering. We build upon these advances by designing a novel deep learning architecture consisting of a 3-dimensional convolutional neural network utilizing channel-wise attention and two graph convolutional networks utilizing attention-based aggregation of node features. HAC-Net (Hybrid Attention-Based Convolutional Neural Network) obtains state-of-the-art results on the PDBbind v.2016 core set, the most widely recognized benchmark in the field. We extensively assess the generalizability of our model using multiple train-test splits, each of which maximizes differences between either protein structures, protein sequences, or ligand extended-connectivity fingerprints. Furthermore, we perform 10-fold cross-validation with a similarity cutoff between SMILES strings of ligands in the training and test sets, and also evaluate the performance of HAC-Net on lower-quality data. We envision that this model can be extended to a broad range of supervised learning problems related to structure-based biomolecular property prediction. All of our software is available as open source at https://github.com/gregory-kyro/HAC-Net/.
translated by 谷歌翻译