作为药物开发的必要过程,找到可以选择性地与特定蛋白质结合的药物化合物是高度挑战性和昂贵的。代表药物目标相互作用(DTI)强度的药物目标亲和力(DTA)在过去十年中在DTI预测任务中发挥了重要作用。尽管已将深度学习应用于与DTA相关的研究,但现有的解决方案忽略了分子亚结构之间的基本相关性,在分子代表学习药物化合物分子/蛋白质靶标之间。此外,传统方法缺乏DTA预测过程的解释性。这导致缺少分子间相互作用的特征信息,从而影响预测性能。因此,本文提出了一种使用交互式学习和自动编码器机制的DTA预测方法。提出的模型增强了通过药物/蛋白质分子表示学习模块捕获单个分子序列的特征信息的相应能力,并通过交互式信息学习模块补充了分子序列对之间的信息相互作用。 DTA值预测模块融合了药物目标对相互作用信息,以输出DTA的预测值。此外,从理论上讲,本文提出的方法最大化了DTA预测模型联合分布的证据下限(ELBO),从而增强了实际值和预测值之间概率分布的一致性。实验结果证实了相互变压器 - 药物目标亲和力(MT-DTA)的性能比其他比较方法更好。
translated by 谷歌翻译
在药物发现中,具有所需生物活性的新分子的合理设计是一项至关重要但具有挑战性的任务,尤其是在治疗新的靶家庭或研究靶标时。在这里,我们提出了PGMG,这是一种用于生物活化分子产生的药效团的深度学习方法。PGMG通过药理的指导提供了一种灵活的策略,以使用训练有素的变异自动编码器在各种情况下生成具有结构多样性的生物活性分子。我们表明,PGMG可以在给定药效团模型的情况下生成匹配的分子,同时保持高度的有效性,独特性和新颖性。在案例研究中,我们证明了PGMG在基于配体和基于结构的药物从头设计以及铅优化方案中生成生物活性分子的应用。总体而言,PGMG的灵活性和有效性使其成为加速药物发现过程的有用工具。
translated by 谷歌翻译
预测药物目标相互作用是药物发现的关键。最近基于深度学习的方法显示出令人鼓舞的表现,但仍有两个挑战:(i)如何明确建模并学习药物与目标之间的局部互动,以更好地预测和解释; (ii)如何从不同分布的新型药物目标对上概括预测性能。在这项工作中,我们提出了Dugban,这是一个深层双线性注意网络(BAN)框架,并适应了域的适应性,以明确学习药物与目标之间的配对局部相互作用,并适应了分布数据外的数据。 Dugban在药物分子图和靶蛋白序列上进行预测的作品,有条件结构域对抗性学习,以使跨不同分布的学习相互作用表示,以更好地对新型药物目标对进行更好的概括。在内域和跨域设置下,在三个基准数据集上进行的实验表明,对于五个最先进的基准,Dugban取得了最佳的总体表现。此外,可视化学习的双线性注意图图提供了可解释的见解,从预测结果中提供了可解释的见解。
translated by 谷歌翻译
药物目标亲和力(DTA)预测是药物发现和药物研究的重要任务。 DTA的准确预测可以极大地受益于新药的设计。随着湿实验的昂贵且耗时,DTA预测的监督数据非常有限。这严重阻碍了基于深度学习的方法的应用,这些方法需要大量的监督数据。为了应对这一挑战并提高DTA预测准确性,我们在这项工作中提出了一个具有几种简单但有效的策略的框架:(1)多任务培训策略,该策略将DTA预测和蒙版语言建模(MLM)任务采用配对的药品目标数据集; (2)一种半监督的训练方法,通过利用大规模的未配对分子和蛋白质来赋予药物和靶向代表性学习,这与以前仅利用仅利用预训练的预训练和微调方法,这些方法仅利用前培训和微调方法训练; (3)一个交叉意见模块,以增强药物和靶代表性之间的相互作用。在三个现实世界基准数据集上进行了广泛的实验:BindingDB,Davis和Kiba。结果表明,我们的框架大大优于现有方法,并实现最先进的性能,例如,$ 0.712 $ rmse在bindingdb ic $ _ {50} $测量上,比以前的最佳工作要改善了$ 5 \%。此外,关于特定药物目标结合活动,药物特征可视化和现实世界应用的案例研究证明了我们工作的巨大潜力。代码和数据在https://github.com/qizhipei/smt-dta上发布
translated by 谷歌翻译
从理论上讲,通过引入蛋白质3D结构信息,可以改善化合物蛋白结合亲和力(CPA)中计算模型的准确性。但是,由于缺乏有效编码信息蛋白质特征的有效方法,这些模型中的大多数仍然存在低精度。主要的挑战是如何结合多模式信息,例如蛋白质的残基序列,残基原子坐标和扭转角。为了解决这个问题,我们开发了快速的进化关注和彻底的图形神经网络(featnn),以促进蛋白质3D结构信息的应用以预测CPA。具体而言,我们建立了一种新型的端到端结构,以共同嵌入扭转矩阵,离散距离矩阵以及蛋白质和提取具有深图卷积层的复合特征的序列信息。此外,引入了一种新的成对映射注意机制,以全面了解蛋白质和化合物之间的潜在相互作用信息。在CPA预测中,R2系数升高约21.33%,在CPA预测中的各种最新基准都大大优于各种最新基线。因此,壮举为高度准确的CPA预测提供了出色的方法,并促进了候选药物的高通量虚拟筛查。
translated by 谷歌翻译
与靶蛋白具有高结合亲和力的药物样分子的产生仍然是药物发现中的一项困难和资源密集型任务。现有的方法主要采用强化学习,马尔可夫采样或以高斯过程为指导的深层生成模型,在生成具有高结合亲和力的分子时,通过基于计算量的物理学方法计算出的高结合亲和力。我们提出了对分子(豪华轿车)的潜在构成主义,它通过类似于Inceptionism的技术显着加速了分子的产生。豪华轿车采用序列的两个神经网络采用变异自动编码器生成的潜在空间和性质预测,从而使基于梯度的分子特性更快地基于梯度的反相比。综合实验表明,豪华轿车在基准任务上具有竞争力,并且在产生具有高结合亲和力的类似药物的化合物的新任务上,其最先进的技术表现出了最先进的技术,可针对两个蛋白质靶标达到纳摩尔范围。我们通过对绝对结合能的基于更准确的基于分子动力学的计算来证实这些基于对接的结果,并表明我们生成的类似药物的化合物之一的预测$ k_d $(结合亲和力的量度)为$ 6 \ cdot 10^ {-14} $ m针对人类雌激素受体,远远超出了典型的早期药物候选物和大多数FDA批准的药物的亲和力。代码可从https://github.com/rose-stl-lab/limo获得。
translated by 谷歌翻译
人工智能(AI)在过去十年中一直在改变药物发现的实践。各种AI技术已在广泛的应用中使用,例如虚拟筛选和药物设计。在本调查中,我们首先概述了药物发现,并讨论了相关的应用,可以减少到两个主要任务,即分子性质预测和分子产生。然后,我们讨论常见的数据资源,分子表示和基准平台。此外,为了总结AI在药物发现中的进展情况,我们介绍了在调查的论文中包括模型架构和学习范式的相关AI技术。我们预计本调查将作为有兴趣在人工智能和药物发现界面工作的研究人员的指南。我们还提供了GitHub存储库(HTTPS:///github.com/dengjianyuan/survey_survey_au_drug_discovery),其中包含文件和代码,如适用,作为定期更新的学习资源。
translated by 谷歌翻译
Drug targets are the main focus of drug discovery due to their key role in disease pathogenesis. Computational approaches are widely applied to drug development because of the increasing availability of biological molecular datasets. Popular generative approaches can create new drug molecules by learning the given molecule distributions. However, these approaches are mostly not for target-specific drug discovery. We developed an energy-based probabilistic model for computational target-specific drug discovery. Results show that our proposed TagMol can generate molecules with similar binding affinity scores as real molecules. GAT-based models showed faster and better learning relative to GCN baseline models.
translated by 谷歌翻译
In this work, we propose MEDICO, a Multi-viEw Deep generative model for molecule generation, structural optimization, and the SARS-CoV-2 Inhibitor disCOvery. To the best of our knowledge, MEDICO is the first-of-this-kind graph generative model that can generate molecular graphs similar to the structure of targeted molecules, with a multi-view representation learning framework to sufficiently and adaptively learn comprehensive structural semantics from targeted molecular topology and geometry. We show that our MEDICO significantly outperforms the state-of-the-art methods in generating valid, unique, and novel molecules under benchmarking comparisons. In particular, we showcase the multi-view deep learning model enables us to generate not only the molecules structurally similar to the targeted molecules but also the molecules with desired chemical properties, demonstrating the strong capability of our model in exploring the chemical space deeply. Moreover, case study results on targeted molecule generation for the SARS-CoV-2 main protease (Mpro) show that by integrating molecule docking into our model as chemical priori, we successfully generate new small molecules with desired drug-like properties for the Mpro, potentially accelerating the de novo design of Covid-19 drugs. Further, we apply MEDICO to the structural optimization of three well-known Mpro inhibitors (N3, 11a, and GC376) and achieve ~88% improvement in their binding affinity to Mpro, demonstrating the application value of our model for the development of therapeutics for SARS-CoV-2 infection.
translated by 谷歌翻译
虽然最近在许多科学领域都变得无处不在,但对其评估的关注较少。对于分子生成模型,最先进的是孤立或与其输入有关的输出。但是,它们的生物学和功能特性(例如配体 - 靶标相互作用)尚未得到解决。在这项研究中,提出了一种新型的生物学启发的基准,用于评估分子生成模型。具体而言,设计了三个不同的参考数据集,并引入了与药物发现过程直接相关的一组指标。特别是我们提出了一个娱乐指标,将药物目标亲和力预测和分子对接应用作为评估生成产量的互补技术。虽然所有三个指标均在测试的生成模型中均表现出一致的结果,但对药物目标亲和力结合和分子对接分数进行了更详细的比较,表明单峰预测器可能会导致关于目标结合在分子水平和多模式方法的错误结论,而多模式的方法是错误的结论。因此优选。该框架的关键优点是,它通过明确关注配体 - 靶标相互作用,将先前的物理化学域知识纳入基准测试过程,从而创建了一种高效的工具,不仅用于评估分子生成型输出,而且还用于丰富富含分子生成的输出。一般而言,药物发现过程。
translated by 谷歌翻译
深度生成模型吸引了具有所需特性的分子设计的极大关注。大多数现有模型通过顺序添加原子来产生分子。这通常会使产生的分子与目标性能和低合成可接近性较少。诸如官能团的分子片段与分子性质和合成可接近的比原子更密切相关。在此,我们提出了一种基于片段的分子发生模型,其通过顺序向任何给定的起始分子依次向任何给定的起始分子添加分子片段来设计具有靶性质的新分子。我们模型的一个关键特征是属性控制和片段类型方面的高概括能力。通过以自动回归方式学习各个片段对目标属性的贡献来实现前者。对于后者,我们使用深神经网络,其从两个分子的嵌入载体中预测两个分子的键合概率作为输入。在用金砖石分解方法制备片段文库的同时隐式考虑所生成的分子的高合成可用性。我们表明该模型可以以高成功率同时控制多个目标性质的分子。即使在培训数据很少的财产范围内,它也与看不见的片段同样很好地工作,验证高概括能力。作为一种实际应用,我们证明,在对接得分方面,该模型可以产生具有高结合亲和力的潜在抑制剂,其抗对接得分的3CL-COV-2。
translated by 谷歌翻译
蛋白质 - 配体相互作用(PLIS)是生化研究的基础,其鉴定对于估计合理治疗设计的生物物理和生化特性至关重要。目前,这些特性的实验表征是最准确的方法,然而,这是非常耗时和劳动密集型的。在这种情况下已经开发了许多计算方法,但大多数现有PLI预测大量取决于2D蛋白质序列数据。在这里,我们提出了一种新颖的并行图形神经网络(GNN),以集成PLI预测的知识表示和推理,以便通过专家知识引导的深度学习,并通过3D结构数据通知。我们开发了两个不同的GNN架构,GNNF是采用不同特种的基础实现,以增强域名认识,而GNNP是一种新颖的实现,可以预测未经分子间相互作用的先验知识。综合评价证明,GNN可以成功地捕获配体和蛋白质3D结构之间的二元相互作用,对于GNNF的测试精度和0.958,用于预测蛋白质 - 配体络合物的活性。这些模型进一步适用于回归任务以预测实验结合亲和力,PIC50对于药物效力和功效至关重要。我们在实验亲和力上达到0.66和0.65的Pearson相关系数,分别在PIC50和GNNP上进行0.50和0.51,优于基于2D序列的模型。我们的方法可以作为可解释和解释的人工智能(AI)工具,用于预测活动,效力和铅候选的生物物理性质。为此,我们通过筛选大型复合库并将我们的预测与实验测量数据进行比较来展示GNNP对SARS-COV-2蛋白靶标的实用性。
translated by 谷歌翻译
发现更适合特定目的的新材料是提高人类生活质量的重要问题。这里,提出了一种神经网络,其建议基于对化学语言的深刻理解符合一些所需条件的神经网络(生成的化学变压器,GCT)。 GCT中的注意机制允许更深入地了解超出化学语言本身的局限性的分子结构,这使得语义不连续性稀疏地对角色造成了注意力。通过定量评估所生成的分子的质量,研究了语言模型对逆分子设计问题的重要性。 GCT产生高度现实的化学串,满足化学和语言语法规则。从生成的字符串解析的分子同时满足多个目标属性并因单个条件集而变化。通过加速所需物质发现的过程,这些进展将有助于提高人类生活质量。
translated by 谷歌翻译
The development of deep neural networks has improved representation learning in various domains, including textual, graph structural, and relational triple representations. This development opened the door to new relation extraction beyond the traditional text-oriented relation extraction. However, research on the effectiveness of considering multiple heterogeneous domain information simultaneously is still under exploration, and if a model can take an advantage of integrating heterogeneous information, it is expected to exhibit a significant contribution to many problems in the world. This thesis works on Drug-Drug Interactions (DDIs) from the literature as a case study and realizes relation extraction utilizing heterogeneous domain information. First, a deep neural relation extraction model is prepared and its attention mechanism is analyzed. Next, a method to combine the drug molecular structure information and drug description information to the input sentence information is proposed, and the effectiveness of utilizing drug molecular structures and drug descriptions for the relation extraction task is shown. Then, in order to further exploit the heterogeneous information, drug-related items, such as protein entries, medical terms and pathways are collected from multiple existing databases and a new data set in the form of a knowledge graph (KG) is constructed. A link prediction task on the constructed data set is conducted to obtain embedding representations of drugs that contain the heterogeneous domain information. Finally, a method that integrates the input sentence information and the heterogeneous KG information is proposed. The proposed model is trained and evaluated on a widely used data set, and as a result, it is shown that utilizing heterogeneous domain information significantly improves the performance of relation extraction from the literature.
translated by 谷歌翻译
准确的蛋白质结合亲和力预测在药物设计和许多其他分子识别问题中至关重要。尽管基于机器学习技术的亲和力预测取得了许多进步,但由于蛋白质 - 配体结合取决于原子和分子的动力学,它们仍然受到限制。为此,我们策划了一个包含3,218个动态蛋白质配合物的MD数据集,并进一步开发了DynaFormer,这是一个基于图的深度学习框架。 DynaFormer可以通过考虑相互作用的各种几何特征来完全捕获动态结合规则。我们的方法显示出优于迄今报告的方法。此外,我们通过将模型与基于结构的对接整合在一起,对热休克蛋白90(HSP90)进行了虚拟筛选。我们对其他基线进行了基准测试,表明我们的方法可以鉴定具有最高实验效力的分子。我们预计大规模的MD数据集和机器学习模型将形成新的协同作用,为加速药物发现和优化提供新的途径。
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
3D空间中的空间结构对于确定分子特性是重要的。最近的论文使用几何深度学习来代表分子和预测性质。然而,这些论文在捕获输入原子的远程依赖性时在计算上昂贵;并且尚未考虑外部距离的不均匀性,因此未能学习不同尺度的上下文依赖表示。为了处理这些问题,我们引入了3D变压器,变压器的变型,用于结合3D空间信息的分子表示。 3D变压器在完全连接的图形上运行,在原子之间的直接连接。为了应对外部距离的不均匀性,我们开发了一种多尺度的自我关注模块,利用局部细粒度模式随着越来越多的上下文尺度来利用局部细粒度模式。由于不同尺寸的分子依赖于不同种类的空间特征,我们设计了一种自适应位置编码模块,用于针对小型和大分子采用不同的位置编码方法。最后,为了获得原子嵌入的分子表示,我们提出了一种殷勤最远的点采样算法,该算法在注意分数的帮助下选择一部分原子,克服虚拟节点的障碍和先前的距离 - 优势下采样方法。我们通过三个重要的科学域验证3D变压器:量子化学,物质科学和蛋白质组学。我们的实验表现出对晶体性能预测任务和蛋白质 - 配体结合亲和预测任务的最先进模型的显着改善,并且在量子化学分子数据集中显示了更好或更有竞争的性能。这项工作提供了明确的证据表明,生物化学任务可以从3D分子表示中获得一致的益处,不同的任务需要不同的位置编码方法。
translated by 谷歌翻译
鉴定新型药物靶标相互作用(DTI)是药物发现中的关键和速率限制步骤。虽然已经提出了深入学习模型来加速识别过程,但我们表明最先进的模型无法概括到新颖(即,从未见过的)结构上。我们首先揭示负责此缺点的机制,展示模型如何依赖于利用蛋白质 - 配体二分网络拓扑的捷径,而不是学习节点特征。然后,我们介绍AI-BIND,这是一个与无监督的预训练的基于网络的采样策略相结合的管道,使我们能够限制注释不平衡并改善新型蛋白质和配体的结合预测。我们通过预测具有结合亲和力的药物和天然化合物对SARS-COV-2病毒蛋白和相关的人蛋白质来说明Ai-reat的值。我们还通过自动扩展模拟和与最近的实验证据进行比较来验证这些预测。总体而言,AI-Bind提供了一种强大的高通量方法来识别药物目标组合,具有成为药物发现中强大工具的可能性。
translated by 谷歌翻译
Artificial intelligence (AI) in the form of deep learning bears promise for drug discovery and chemical biology, $\textit{e.g.}$, to predict protein structure and molecular bioactivity, plan organic synthesis, and design molecules $\textit{de novo}$. While most of the deep learning efforts in drug discovery have focused on ligand-based approaches, structure-based drug discovery has the potential to tackle unsolved challenges, such as affinity prediction for unexplored protein targets, binding-mechanism elucidation, and the rationalization of related chemical kinetic properties. Advances in deep learning methodologies and the availability of accurate predictions for protein tertiary structure advocate for a $\textit{renaissance}$ in structure-based approaches for drug discovery guided by AI. This review summarizes the most prominent algorithmic concepts in structure-based deep learning for drug discovery, and forecasts opportunities, applications, and challenges ahead.
translated by 谷歌翻译
We report a method to convert discrete representations of molecules to and from a multidimensional continuous representation. This model allows us to generate new molecules for efficient exploration and optimization through open-ended spaces of chemical compounds.
translated by 谷歌翻译