计算抗体设计旨在自动创建与抗原结合的抗体。结合亲和力受3D结合界面的控制,其中抗体残基(角膜膜)与抗原残基(表位)紧密相互作用。因此,预测3D副观察复合物(对接)是找到最佳寄生虫的关键。在本文中,我们提出了一个新模型,称为层状码头和设计的名为层次层次的改进网络(HERN)。在对接过程中,Hern采用层次消息传递网络来预测原子力,并利用它们以迭代性,模棱两可的方式来完善结合复合物。在生成期间,其自动回解码器逐渐扩展了寄生虫,并构建了绑定界面的几何表示,以指导下一个残基选择。我们的结果表明,HERN在伞形对接和设计基准测试方面的先验最先进。
translated by 谷歌翻译
抗体设计对于治疗用法和生物学研究很有价值。现有的基于深度学习的方法遇到了几个关键问题:1)互补性区域(CDRS)生成的不完整上下文; 2)无法捕获输入结构的整个3D几何; 3)以自回归方式对CDR序列的效率低下。在本文中,我们提出了多通道等效的注意网络(平均值),这是一个能够共同设计1D序列和CDR的3D结构的端到端模型。要具体,平均值将抗体设计作为条件图翻译问题,通过导入包括靶抗原和抗体的轻链在内的额外组件。然后,平均诉诸于E(3) - 等级信息以及提出的注意机制,以更好地捕获不同组件之间的几何相关性。最后,它通过多轮渐进式完整射击方案来输出1D序列和3D结构,该方案在以前的自动回归方法上具有更高的效率。我们的方法显着超过了序列和结构建模,抗原结合抗体设计和结合亲和力优化的最新模型。具体而言,抗原结合CDR设计的相对改善约为22%,亲和力优化为34%。
translated by 谷歌翻译
蛋白质复合物形成是生物学中的核心问题,参与了大部分细胞的过程,以及对应用是必不可少的,例如,药物设计或蛋白质工程。我们解决刚性体蛋白 - 蛋白质对接,即计算地预测来自个体未结合结构的蛋白质 - 蛋白质复合物的3D结构,假设在结合期间蛋白质内没有构象变化。我们设计一种新的成对独立的SE(3)-Quivariant的图形匹配网络,以预测旋转和翻译,以将其中一个蛋白质放置在右对接位置相对于第二蛋白质。我们在数学上保证了基本原理:无论两个结构的初始位置和方向如何,预测复合物都是相同的。我们的模型,名为Equidock,近似于绑定口袋并通过最佳传输和可分辨率的Kabsch算法实现,实现了使用关键点匹配和对准的对接姿势。凭经验,尽管没有依赖于沉重的候选抽样,结构细化或模板,我们才能实现显着的运行时间改进,并且通常优于现有的对接软件。
translated by 谷歌翻译
我们考虑对具有3D结构的蛋白质的代表性学习。我们基于蛋白质结构构建3D图并开发图形网络以学习其表示形式。根据我们希望捕获的细节级别,可以在不同级别计算蛋白质表示,\ emph {e.g。},氨基酸,骨干或全原子水平。重要的是,不同级别之间存在层次关系。在这项工作中,我们建议开发一个新型的层次图网络(称为pronet)来捕获关系。我们的pronet非常灵活,可用于计算不同水平粒度的蛋白质表示。我们表明,鉴于完整的基本3D图网络,我们的PRONET表示在所有级别上也已完成。为了关闭循环,我们开发了一个完整有效的3D图网络,以用作基本模型,从而使我们的pronet完成。我们对多个下游任务进行实验。结果表明,PRONET优于大多数数据集上的最新方法。此外,结果表明,不同的下游任务可能需要不同级别的表示。我们的代码可作为DIG库的一部分(\ url {https://github.com/divelab/dig})。
translated by 谷歌翻译
用于预测蛋白质之间的界面触点的计算方法对于药物发现,因此可以显着地推进替代方法的准确性,例如蛋白质 - 蛋白质对接,蛋白质功能分析工具和其他用于蛋白质生物信息学的计算方法。在这项工作中,我们介绍了几何变压器,一种用于旋转的新型几何不变性的曲线图变压器,用于旋转和平移 - 不变的蛋白质接口接触预测,包装在膨胀的端到端预测管道内。 Deepinteract预测伴侣特异性蛋白质界面触点(即,蛋白质残留物 - 残留物接触)给出了两种蛋白质的3D三级结构作为输入。在严格的基准测试中,深入的蛋白质复杂目标来自第13和第14次CASP-CAPRI实验以及对接基准5,实现14%和1.1%顶部L / 5精度(L:蛋白质单位的长度) , 分别。在这样做的情况下,使用几何变压器作为其基于图形的骨干,除了与深度兼容的其他图形的神经网络骨架之外,还优于接口接触预测的现有方法,从而验证了几何变压器学习丰富关系的有效性用于3D蛋白质结构下游任务的-Geometric特征。
translated by 谷歌翻译
如何设计有效,有效地折叠成所需结构的蛋白质序列?近年来,基于结构的蛋白质设计吸引了越来越多的关注。但是,由于缺乏表达性特征和自回归序列解码器,很少有方法可以同时提高准确性和效率。为了解决这些问题,我们提出了Prodesign,其中包含一种新型的残基特征和Prognn层,以一种单发的方式生成蛋白质序列,并改善恢复。实验表明,Prodesign可以在CATH 4.2上实现51.66 \%的回收率,而推理速度的速度比自动进取的竞争对手快70倍。此外,Prodesign分别在TS50和TS500上获得58.72 \%和60.42 \%的恢复分数。我们进行全面的消融研究,以揭示不同类型的蛋白质特征和模型设计的作用,从而激发了进一步的简化和改进。
translated by 谷歌翻译
Geometric deep learning has recently achieved great success in non-Euclidean domains, and learning on 3D structures of large biomolecules is emerging as a distinct research area. However, its efficacy is largely constrained due to the limited quantity of structural data. Meanwhile, protein language models trained on substantial 1D sequences have shown burgeoning capabilities with scale in a broad range of applications. Nevertheless, no preceding studies consider combining these different protein modalities to promote the representation power of geometric neural networks. To address this gap, we make the foremost step to integrate the knowledge learned by well-trained protein language models into several state-of-the-art geometric networks. Experiments are evaluated on a variety of protein representation learning benchmarks, including protein-protein interface prediction, model quality assessment, protein-protein rigid-body docking, and binding affinity prediction, leading to an overall improvement of 20% over baselines and the new state-of-the-art performance. Strong evidence indicates that the incorporation of protein language models' knowledge enhances geometric networks' capacity by a significant margin and can be generalized to complex tasks.
translated by 谷歌翻译
RNA结构的确定和预测可以促进靶向RNA的药物开发和可用的共性元素设计。但是,由于RNA的固有结构灵活性,所有三种主流结构测定方法(X射线晶体学,NMR和Cryo-EM)在解决RNA结构时会遇到挑战,这导致已解决的RNA结构的稀缺性。计算预测方法作为实验技术的补充。但是,\ textit {de从头}的方法都不基于深度学习,因为可用的结构太少。取而代之的是,他们中的大多数采用了耗时的采样策略,而且它们的性能似乎达到了高原。在这项工作中,我们开发了第一种端到端的深度学习方法E2FOLD-3D,以准确执行\ textit {de de novo} RNA结构预测。提出了几个新的组件来克服数据稀缺性,例如完全不同的端到端管道,二级结构辅助自我鉴定和参数有效的骨干配方。此类设计在独立的,非重叠的RNA拼图测试数据集上进行了验证,并达到平均sub-4 \ aa {}根平方偏差,与最先进的方法相比,它表现出了优越的性能。有趣的是,它在预测RNA复杂结构时也可以取得令人鼓舞的结果,这是先前系统无法完成的壮举。当E2FOLD-3D与实验技术耦合时,RNA结构预测场可以大大提高。
translated by 谷歌翻译
Generating molecules that bind to specific proteins is an important but challenging task in drug discovery. Previous works usually generate atoms in an auto-regressive way, where element types and 3D coordinates of atoms are generated one by one. However, in real-world molecular systems, the interactions among atoms in an entire molecule are global, leading to the energy function pair-coupled among atoms. With such energy-based consideration, the modeling of probability should be based on joint distributions, rather than sequentially conditional ones. Thus, the unnatural sequentially auto-regressive modeling of molecule generation is likely to violate the physical rules, thus resulting in poor properties of the generated molecules. In this work, a generative diffusion model for molecular 3D structures based on target proteins as contextual constraints is established, at a full-atom level in a non-autoregressive way. Given a designated 3D protein binding site, our model learns the generative process that denoises both element types and 3D coordinates of an entire molecule, with an equivariant network. Experimentally, the proposed method shows competitive performance compared with prevailing works in terms of high affinity with proteins and appropriate molecule sizes as well as other drug properties such as drug-likeness of the generated molecules.
translated by 谷歌翻译
Molecular conformation generation aims to generate three-dimensional coordinates of all the atoms in a molecule and is an important task in bioinformatics and pharmacology. Previous methods usually first predict the interatomic distances, the gradients of interatomic distances or the local structures (e.g., torsion angles) of a molecule, and then reconstruct its 3D conformation. How to directly generate the conformation without the above intermediate values is not fully explored. In this work, we propose a method that directly predicts the coordinates of atoms: (1) the loss function is invariant to roto-translation of coordinates and permutation of symmetric atoms; (2) the newly proposed model adaptively aggregates the bond and atom information and iteratively refines the coordinates of the generated conformation. Our method achieves the best results on GEOM-QM9 and GEOM-Drugs datasets. Further analysis shows that our generated conformations have closer properties (e.g., HOMO-LUMO gap) with the groundtruth conformations. In addition, our method improves molecular docking by providing better initial conformations. All the results demonstrate the effectiveness of our method and the great potential of the direct approach. The code is released at https://github.com/DirectMolecularConfGen/DMCG
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
蛋白质RNA相互作用对各种细胞活性至关重要。已经开发出实验和计算技术来研究相互作用。由于先前数据库的限制,尤其是缺乏蛋白质结构数据,大多数现有的计算方法严重依赖于序列数据,只有一小部分使用结构信息。最近,alphafold彻底改变了整个蛋白质和生物领域。可预应学,在即将到来的年份,也将显着促进蛋白质-RNA相互作用预测。在这项工作中,我们对该字段进行了彻底的审查,调查绑定站点和绑定偏好预测问题,并覆盖常用的数据集,功能和模型。我们还指出了这一领域的潜在挑战和机遇。本调查总结了过去的RBP-RNA互动领域的发展,并预见到了alphafold时代未来的发展。
translated by 谷歌翻译
产生稳定材料的周期性结构是材料设计界的长期挑战。这个任务很难,因为稳定的材料只存在于原子的所有可能的周期性布置的低维子空间中:1)坐标必须位于量子力学限定的局部能量最小,而2)全球稳定性也需要遵循结构不同原子类型之间的复杂,但特定的粘合偏好。现有方法未能纳入这些因素,并且经常缺乏适当的侵略者。我们提出了一种晶体扩散变分性AutoEncoder(CDVAE),其捕获材料稳定性的物理感应偏差。通过从稳定材料的数据分布中学习,解码器在扩散过程中产生材料,其将原子坐标朝向较低能量状态移动并更新原子类型以满足邻居之间的粘接偏好。我们的模型还明确地编码了周期性边界的交互,尊重置换,转换,旋转和周期性修正。我们在三个任务中显着优于过去的方法:1)重建输入结构,2)产生有效,多样化和现实的材料和3)产生优化特定性质的材料。我们还为更广泛的机器学习界提供了几个标准数据集和评估指标。
translated by 谷歌翻译
分子模拟的粗粒度(CG)通过将选定的原子分组为伪珠并大幅加速模拟来简化粒子的表示。但是,这种CG程序会导致信息损失,从而使准确的背景映射,即从CG坐标恢复细粒度(FG)坐标,这是一个长期存在的挑战。受生成模型和e象网络的最新进展的启发,我们提出了一个新型模型,该模型严格嵌入了背态转换的重要概率性质和几何一致性要求。我们的模型将FG的不确定性编码为不变的潜在空间,并通过Equivariant卷积将其解码为FG几何形状。为了标准化该领域的评估,我们根据分子动力学轨迹提供了三个综合基准。实验表明,我们的方法始终恢复更现实的结构,并以显着的边距胜过现有的数据驱动方法。
translated by 谷歌翻译
Protein structure prediction aims to determine the three-dimensional shape of a protein from its amino acid sequence 1 . This problem is of fundamental importance to biology as the structure of a protein largely determines its function 2 but can be hard to determine experimentally. In recent years, considerable progress has been made by leveraging genetic information: analysing the co-variation of homologous sequences can allow one to infer which amino acid residues are in contact, which in turn can aid structure prediction 3 . In this work, we show that we can train a neural network to accurately predict the distances between pairs of residues in a protein which convey more about structure than contact predictions. With this information we construct a potential of mean force 4 that can accurately describe the shape of a protein. We find that the resulting potential can be optimised by a simple gradient descent algorithm, to realise structures without the need for complex sampling procedures.The resulting system, named AlphaFold, has been shown to achieve high accuracy, even for sequences with relatively few homologous sequences. In the most recent Critical Assessment of Protein Structure Prediction 5 (CASP13), a blind assessment of the state of the field of protein structure prediction, AlphaFold created high-accuracy structures (with TM-scores † of 0.7 or higher) for 24 out of 43 free modelling domains whereas the next best method, using sampling and contact information, achieved such accuracy for only 14 out of 43 domains.AlphaFold represents a significant advance in protein structure prediction. We expect the increased accuracy of structure predictions for proteins to enable insights in understanding the function and malfunction of these proteins, especially in cases where no homologous proteins have been experimentally determined 7 .Proteins are at the core of most biological processes. Since the function of a protein is dependent on its structure, understanding protein structure has been a grand challenge in biology for decades. While several experimental structure determination techniques have been developed
translated by 谷歌翻译
最近,基于深度神经网络(DNN)的药物 - 目标相互作用(DTI)模型以高精度突出显示,具有实惠的计算成本。然而,模型在硅药物发现的实践中仍然是一个具有挑战性的问题。我们提出了两项​​关键策略,以提高DTI模型的概括。首先是通过用神经网络参数化的物理通知方程来预测原子原子对相互作用,并提供蛋白质 - 配体复合物作为其总和的总结合亲和力。通过增强更广泛的绑定姿势和配体来培训数据,我们进一步改善了模型泛化。我们验证了我们的模型,PIGNET,在评分职能(CASF)2016的比较评估中,展示了比以前的方法更优于对接和筛选力。我们的物理信息策略还通过可视化配体副结构的贡献来解释预测的亲和力,为进一步配体优化提供了见解。
translated by 谷歌翻译
Proteins play a central role in biology from immune recognition to brain activity. While major advances in machine learning have improved our ability to predict protein structure from sequence, determining protein function from structure remains a major challenge. Here, we introduce Holographic Convolutional Neural Network (H-CNN) for proteins, which is a physically motivated machine learning approach to model amino acid preferences in protein structures. H-CNN reflects physical interactions in a protein structure and recapitulates the functional information stored in evolutionary data. H-CNN accurately predicts the impact of mutations on protein function, including stability and binding of protein complexes. Our interpretable computational model for protein structure-function maps could guide design of novel proteins with desired function.
translated by 谷歌翻译
学习有效的蛋白质表示在生物学的各种任务中至关重要,例如预测蛋白质功能或结构。现有的方法通常在大量未标记的氨基酸序列上预先蛋白质语言模型,然后在下游任务中使用一些标记的数据来对模型进行修复。尽管基于序列的方法具有有效性,但尚未探索蛋白质性能预测的已知蛋白质结构的预处理功能,尽管蛋白质结构已知是蛋白质功能的决定因素,但尚未探索。在本文中,我们建议根据其3D结构预处理蛋白质。我们首先提出一个简单而有效的编码器,以学习蛋白质的几何特征。我们通过利用多视图对比学习和不同的自我预测任务来预先蛋白质图编码器。对功能预测和折叠分类任务的实验结果表明,我们提出的预处理方法表现优于或与最新的基于最新的序列方法相提并论,同时使用较少的数据。我们的实施可在https://github.com/deepgraphlearning/gearnet上获得。
translated by 谷歌翻译
基于结构的药物设计涉及发现具有对蛋白质袋的结构和化学互补性的配体分子。深度生成方法表明了在提出从划痕(De-Novo设计)的新型分子中的承诺,避免了化学空间的详尽虚拟筛选。大多数生成的de-novo模型未能包含详细的配体 - 蛋白质相互作用和3D袋结构。我们提出了一种新的监督模型,在离散的分子空间中与3D姿势共同产生分子图。分子在口袋内部构建原子原子,由来自晶体数据的结构信息引导。我们使用对接基准进行评估我们的模型,并发现引导生成将预测的结合亲和力提高了8%,并在基线上通过10%的药物相似分数提高了预测的结合亲和力。此外,我们的模型提出了具有超过一些已知配体的结合分数的分子,这可能在未来的湿式实验室研究中有用。
translated by 谷歌翻译
We propose an algorithm for learning a conditional generative model of a molecule given a target. Specifically, given a receptor molecule that one wishes to bind to, the conditional model generates candidate ligand molecules that may bind to it. The distribution should be invariant to rigid body transformations that act $\textit{jointly}$ on the ligand and the receptor; it should also be invariant to permutations of either the ligand or receptor atoms. Our learning algorithm is based on a continuous normalizing flow. We establish semi-equivariance conditions on the flow which guarantee the aforementioned invariance conditions on the conditional distribution. We propose a graph neural network architecture which implements this flow, and which is designed to learn effectively despite the vast differences in size between the ligand and receptor. We evaluate our method on the CrossDocked2020 dataset, attaining a significant improvement in binding affinity over competing methods.
translated by 谷歌翻译