抗癌药物的发现是偶然的,我们试图介绍开放的分子图学习基准,称为Cantidrug4cancer,这是一个具有挑战性且逼真的基准数据集,可促进可扩展,健壮和可重复的图形机器学习用于抗癌药物发现的机器学习研究。候选物4CANCER数据集涵盖了多个最多的癌症靶标,涵盖了54869个与癌症相关的药物分子,其范围从临床前,临床和FDA批准的范围内。除了构建数据集外,我们还使用描述符和表达性图神经网络进行了有效的药物靶点相互作用(DTI)预测基准的基准实验。实验结果表明,候选物4Cancer在实际应用中对学习分子图和目标提出了重大挑战,这表明将来有机会开发用于治疗癌症的候选药物的研究。
translated by 谷歌翻译
Artificial intelligence (AI) in the form of deep learning bears promise for drug discovery and chemical biology, $\textit{e.g.}$, to predict protein structure and molecular bioactivity, plan organic synthesis, and design molecules $\textit{de novo}$. While most of the deep learning efforts in drug discovery have focused on ligand-based approaches, structure-based drug discovery has the potential to tackle unsolved challenges, such as affinity prediction for unexplored protein targets, binding-mechanism elucidation, and the rationalization of related chemical kinetic properties. Advances in deep learning methodologies and the availability of accurate predictions for protein tertiary structure advocate for a $\textit{renaissance}$ in structure-based approaches for drug discovery guided by AI. This review summarizes the most prominent algorithmic concepts in structure-based deep learning for drug discovery, and forecasts opportunities, applications, and challenges ahead.
translated by 谷歌翻译
我们提出了分子法律网络(MOOMIN)一种由阿斯利康肿瘤学家使用的多模式图神经网络,以预测用于癌症治疗的药物组合的协同作用。我们的模型基于药物蛋白质相互作用网络和元数据以多种尺度学习药物表示。对化合物和蛋白质的结构特性进行编码,以创建在双方相互作用图上运行的消息通话方案的顶点特征。传播消息形成多分辨率的药物表示,我们用来创建药物对描述符。通过调节癌细胞类型的药物组合表示形式,我们定义了一种协同评分功能,该功能可以感应地评分看不见的药物对。有关协同评分任务的实验结果表明,穆明的表现优于最先进的图形指纹,保持节点嵌入以及现有的深度学习方法。进一步的结果表明,我们的模型的预测性能对超参数变化是可靠的。我们证明该模型可以在癌细胞系组织中进行高质量的预测,样本外预测可以通过外部协同效应数据库进行验证,并且所提出的模型在学习方面有效。
translated by 谷歌翻译
人工智能(AI)在过去十年中一直在改变药物发现的实践。各种AI技术已在广泛的应用中使用,例如虚拟筛选和药物设计。在本调查中,我们首先概述了药物发现,并讨论了相关的应用,可以减少到两个主要任务,即分子性质预测和分子产生。然后,我们讨论常见的数据资源,分子表示和基准平台。此外,为了总结AI在药物发现中的进展情况,我们介绍了在调查的论文中包括模型架构和学习范式的相关AI技术。我们预计本调查将作为有兴趣在人工智能和药物发现界面工作的研究人员的指南。我们还提供了GitHub存储库(HTTPS:///github.com/dengjianyuan/survey_survey_au_drug_discovery),其中包含文件和代码,如适用,作为定期更新的学习资源。
translated by 谷歌翻译
Drug repositioning holds great promise because it can reduce the time and cost of new drug development. While drug repositioning can omit various R&D processes, confirming pharmacological effects on biomolecules is essential for application to new diseases. Biomedical explainability in a drug repositioning model can support appropriate insights in subsequent in-depth studies. However, the validity of the XAI methodology is still under debate, and the effectiveness of XAI in drug repositioning prediction applications remains unclear. In this study, we propose GraphIX, an explainable drug repositioning framework using biological networks, and quantitatively evaluate its explainability. GraphIX first learns the network weights and node features using a graph neural network from known drug indication and knowledge graph that consists of three types of nodes (but not given node type information): disease, drug, and protein. Analysis of the post-learning features showed that node types that were not known to the model beforehand are distinguished through the learning process based on the graph structure. From the learned weights and features, GraphIX then predicts the disease-drug association and calculates the contribution values of the nodes located in the neighborhood of the predicted disease and drug. We hypothesized that the neighboring protein node to which the model gave a high contribution is important in understanding the actual pharmacological effects. Quantitative evaluation of the validity of protein nodes' contribution using a real-world database showed that the high contribution proteins shown by GraphIX are reasonable as a mechanism of drug action. GraphIX is a framework for evidence-based drug discovery that can present to users new disease-drug associations and identify the protein important for understanding its pharmacological effects from a large and complex knowledge base.
translated by 谷歌翻译
SARS-COV-2是一种积极的单链RNA基于大分子,自2022年6月以来,已导致超过630万人死亡。此外,通过封锁扰乱了全球供应链,该病毒对全球经济造成了毁灭性的破坏。为该病毒及其各种变体设计和开发药物至关重要。在本文中,我们使用了一个内部研究框架来重新利用现有的治疗剂,以找到可以治愈COVID-19的药物样生物活性分子。我们使用了从Chembl数据库中检索到的分子的Lipinski规则,以发现针对SARS冠状病毒3Cl蛋白酶的133种吸毒生物活性分子。在标准IC50的基础上,数据集分为三类活动性,无效和中间体。我们的比较分析表明,提出的额外树回收剂(ETR)集成模型改善了结果,同时相对于其他最先进的机器学习模型,可以预测化学化合物的准确生物活性。使用ADMET分析,我们确定了13个具有化学ID的新型生物活性分子187460,190743,222234,222628,222735,222769,222840,222840,222893,2255515,358279,358279,33535,363535,363535,365134 and 422688.88.88.88.88.88.88.88.88.88。 SARS-COV-2 3Cl蛋白酶。这些候选分子进一步研究了结合亲和力。为此,我们进行了分子对接和简短列出的六个具有Chembl IDS 187460、222769、225515、358279、363535和36513的生物活性分子。这些分子可以是SARS-COV-2-2。预计药物学家社区可能会使用这些有希望的化合物进行进一步的体外分析。
translated by 谷歌翻译
蛋白质 - 配体相互作用(PLIS)是生化研究的基础,其鉴定对于估计合理治疗设计的生物物理和生化特性至关重要。目前,这些特性的实验表征是最准确的方法,然而,这是非常耗时和劳动密集型的。在这种情况下已经开发了许多计算方法,但大多数现有PLI预测大量取决于2D蛋白质序列数据。在这里,我们提出了一种新颖的并行图形神经网络(GNN),以集成PLI预测的知识表示和推理,以便通过专家知识引导的深度学习,并通过3D结构数据通知。我们开发了两个不同的GNN架构,GNNF是采用不同特种的基础实现,以增强域名认识,而GNNP是一种新颖的实现,可以预测未经分子间相互作用的先验知识。综合评价证明,GNN可以成功地捕获配体和蛋白质3D结构之间的二元相互作用,对于GNNF的测试精度和0.958,用于预测蛋白质 - 配体络合物的活性。这些模型进一步适用于回归任务以预测实验结合亲和力,PIC50对于药物效力和功效至关重要。我们在实验亲和力上达到0.66和0.65的Pearson相关系数,分别在PIC50和GNNP上进行0.50和0.51,优于基于2D序列的模型。我们的方法可以作为可解释和解释的人工智能(AI)工具,用于预测活动,效力和铅候选的生物物理性质。为此,我们通过筛选大型复合库并将我们的预测与实验测量数据进行比较来展示GNNP对SARS-COV-2蛋白靶标的实用性。
translated by 谷歌翻译
Predicting drug side-effects before they occur is a key task in keeping the number of drug-related hospitalizations low and to improve drug discovery processes. Automatic predictors of side-effects generally are not able to process the structure of the drug, resulting in a loss of information. Graph neural networks have seen great success in recent years, thanks to their ability of exploiting the information conveyed by the graph structure and labels. These models have been used in a wide variety of biological applications, among which the prediction of drug side-effects on a large knowledge graph. Exploiting the molecular graph encoding the structure of the drug represents a novel approach, in which the problem is formulated as a multi-class multi-label graph-focused classification. We developed a methodology to carry out this task, using recurrent Graph Neural Networks, and building a dataset from freely accessible and well established data sources. The results show that our method has an improved classification capability, under many parameters and metrics, with respect to previously available predictors.
translated by 谷歌翻译
机器学习在虚拟筛选中显示出巨大的潜力,用于药物发现。目前正在加速基于对接的虚拟筛选的努力不考虑使用其他先前开发的目标的现有数据。为了利用其他目标的知识并利用现有数据,在这项工作中,我们将多任务学习应用于基于对接的虚拟筛选问题。通过两个大型对接数据集,广泛实验结果表明,多任务学习可以实现对接分数预测的更好性能。通过在多个目标上学习知识,由多任务学习训练的模型显示了适应新目标的更好能力。额外的实证研究表明,药物发现中的其他问题,例如实验药物 - 目标亲和预测,也可能受益于多任务学习。我们的结果表明,多任务学习是基于对接的虚拟筛选和加速药物发现过程的有前途的机器学习方法。
translated by 谷歌翻译
药物发现和发展是一个复杂和昂贵的过程。正在研究机器学习方法,以帮助提高药物发现管道多个阶段的有效性和速度。其中,使用知识图表(kg)的那些在许多任务中具有承诺,包括药物修复,药物毒性预测和靶基因疾病优先级。在药物发现kg中,包括基因,疾病和药物在内的关键因素被认为是实体,而它们之间的关系表示相互作用。但是,为了构建高质量的KG,需要合适的数据。在这篇综述中,我们详细介绍了适用于构建聚焦KGS的药物发现的公开使用来源。我们的目标是帮助引导机器学习和kg从业者对吸毒者发现领域应用新技术,但是谁可能不熟悉相关的数据来源。通过严格的标准选择数据集,根据包含内部包含的主要信息类型,并基于可以提取的信息来进行分类以构建kg。然后,我们对现有的公共药物发现KGS进行了比较分析,并评估了文献中所选择的激励案例研究。此外,我们还提出了众多和与域及其数据集相关的众多挑战和问题,同时突出了关键的未来研究方向。我们希望本综述将激励KGS在药物发现领域的关键和新兴问题中使用。
translated by 谷歌翻译
协同的药物组合为增强治疗功效和减少不良反应提供了巨大的潜力。然而,由于未知的因果疾病信号通路,有效和协同的药物组合预测仍然是一个悬而未决的问题。尽管已经提出了各种深度学习(AI)模型来定量预测药物组合的协同作用。现有深度学习方法的主要局限性是它们本质上是不可解释的,这使得AI模型的结论是对人类专家的非透明度的结论,因此限制了模型结论的鲁棒性和这些模型在现实世界中的实施能力人类医疗保健。在本文中,我们开发了一个可解释的图神经网络(GNN),该神经网络(GNN)揭示了通过挖掘非常重要的亚分子网络来揭示协同(MOS)的基本基本治疗靶标和机制。可解释的GNN预测模型的关键点是一个新颖的图池层,基于自我注意的节点和边缘池(此后为SANEPOOL),可以根据节点特征和图表计算节点和边缘的注意力评分(重要性)拓扑。因此,提出的GNN模型提供了一种系统的方法来预测和解释基于检测到的关键亚分子网络的药物组合协同作用。我们评估了来自NCI Almanac药物组合筛查数据的46个核心癌症信号通路和药物组合的基因制造的分子网络。实验结果表明,1)Sanepool可以在其他流行的图神经网络中实现当前的最新性能; 2)由SANEPOOOL检测到的亚分子网络是可自我解释的,并且可以鉴定协同的药物组合。
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
生物医学网络是与疾病网络的蛋白质相互作用的普遍描述符,从蛋白质相互作用,一直到医疗保健系统和科学知识。随着代表学习提供强大的预测和洞察的显着成功,我们目睹了表现形式学习技术的快速扩展,进入了这些网络的建模,分析和学习。在这篇综述中,我们提出了一个观察到生物学和医学中的网络长期原则 - 而在机器学习研究中经常出口 - 可以为代表学习提供概念基础,解释其当前的成功和限制,并告知未来进步。我们综合了一系列算法方法,即在其核心利用图形拓扑到将网络嵌入到紧凑的向量空间中,并捕获表示陈述学习证明有用的方式的广度。深远的影响包括鉴定复杂性状的变异性,单细胞的异心行为及其对健康的影响,协助患者的诊断和治疗以及制定安全有效的药物。
translated by 谷歌翻译
刺激:鉴定药物靶标相互作用(DTIS)是药物重新定位的关键步骤。近年来,大量基因组学和药理学数据的积累已经形成了大众药物和目标相关的异构网络(HNS),这提供了开发基于HN的计算模型的新机遇,以准确地预测DTI。 HN意味着许多有关DTI的有用信息,还包含无关的数据,以及如何使最佳的异构网络仍然是一个挑战。结果:在本文中,我们提出了一种基于异构的图形自动元路径学习的DTI预测方法(Hampdti)。 Hampdti从HN自动学习药物和目标之间的重要元路径,并产生元路径图。对于每个元路径图,从药物分子图和靶蛋白序列中学习的特征用作节点属性,然后设计了有效地考虑节点类型信息(药物或目标)的节点类型特定图卷积网络(NSGCN)学习药物和目标的嵌入。最后,组合来自多个元路径图的嵌入式以预测新的DTI。基准数据集的实验表明,与最先进的DTI预测方法相比,我们提出的Hampdti实现了卓越的性能。更重要的是,Hampdti识别DTI预测的重要元路径,这可以解释药物如何与HNS中的目标连接。
translated by 谷歌翻译
与靶蛋白具有高结合亲和力的药物样分子的产生仍然是药物发现中的一项困难和资源密集型任务。现有的方法主要采用强化学习,马尔可夫采样或以高斯过程为指导的深层生成模型,在生成具有高结合亲和力的分子时,通过基于计算量的物理学方法计算出的高结合亲和力。我们提出了对分子(豪华轿车)的潜在构成主义,它通过类似于Inceptionism的技术显着加速了分子的产生。豪华轿车采用序列的两个神经网络采用变异自动编码器生成的潜在空间和性质预测,从而使基于梯度的分子特性更快地基于梯度的反相比。综合实验表明,豪华轿车在基准任务上具有竞争力,并且在产生具有高结合亲和力的类似药物的化合物的新任务上,其最先进的技术表现出了最先进的技术,可针对两个蛋白质靶标达到纳摩尔范围。我们通过对绝对结合能的基于更准确的基于分子动力学的计算来证实这些基于对接的结果,并表明我们生成的类似药物的化合物之一的预测$ k_d $(结合亲和力的量度)为$ 6 \ cdot 10^ {-14} $ m针对人类雌激素受体,远远超出了典型的早期药物候选物和大多数FDA批准的药物的亲和力。代码可从https://github.com/rose-stl-lab/limo获得。
translated by 谷歌翻译
分子表示学习(MRL)是建立机器学习与化学科学之间联系的关键步骤。特别是,它将分子编码为保留分子结构和特征的数值向量,在其上可以执行下游任务(例如,属性预测)。最近,MRL取得了相当大的进步,尤其是在基于深的分子图学习方法中。在这项调查中,我们系统地回顾了这些基于图的分子表示技术。具体而言,我们首先介绍2D和3D图分子数据集的数据和功能。然后,我们总结了专门为MRL设计的方法,并将其分为四种策略。此外,我们讨论了MRL支持的一些典型化学应用。为了促进该快速发展领域的研究,我们还列出了论文中的基准和常用数据集。最后,我们分享我们对未来研究方向的想法。
translated by 谷歌翻译
预测药物目标相互作用是药物发现的关键。最近基于深度学习的方法显示出令人鼓舞的表现,但仍有两个挑战:(i)如何明确建模并学习药物与目标之间的局部互动,以更好地预测和解释; (ii)如何从不同分布的新型药物目标对上概括预测性能。在这项工作中,我们提出了Dugban,这是一个深层双线性注意网络(BAN)框架,并适应了域的适应性,以明确学习药物与目标之间的配对局部相互作用,并适应了分布数据外的数据。 Dugban在药物分子图和靶蛋白序列上进行预测的作品,有条件结构域对抗性学习,以使跨不同分布的学习相互作用表示,以更好地对新型药物目标对进行更好的概括。在内域和跨域设置下,在三个基准数据集上进行的实验表明,对于五个最先进的基准,Dugban取得了最佳的总体表现。此外,可视化学习的双线性注意图图提供了可解释的见解,从预测结果中提供了可解释的见解。
translated by 谷歌翻译
Drug development is a wide scientific field that faces many challenges these days. Among them are extremely high development costs, long development times, as well as a low number of new drugs that are approved each year. To solve these problems, new and innovate technologies are needed that make the drug discovery process of small-molecules more time and cost-efficient, and which allow to target previously undruggable target classes such as protein-protein interactions. Structure-based virtual screenings have become a leading contender in this context. In this review, we give an introduction to the foundations of structure-based virtual screenings, and survey their progress in the past few years. We outline key principles, recent success stories, new methods, available software, and promising future research directions. Virtual screenings have an enormous potential for the development of new small-molecule drugs, and are already starting to transform early-stage drug discovery.
translated by 谷歌翻译
在本文中,我们研究了在药物对评分的背景下,将图形的分布式表示形式纳入模型的实用性和实用性。我们认为,现实世界的增长和更新毒品对分数数据集的周期,颠覆了与分布式表示相关的转导学习的局限性。此外,我们认为,由于原子类型有限和对化学强制执行的键合模式的限制,因此在药物集中引起的离散子结构模式的词汇并不大。基于这个借口,我们探讨了药物对评分任务中药物分子图的分布式表示的有效性,例如药物协同作用,多药和药物 - 药物相互作用预测。为了实现这一目标,我们提出了一种学习和将图形分布式表示形式纳入统一的药物对评分框架中的方法。随后,我们增加了许多最新和最先进的模型来利用我们的嵌入。我们从经验上表明,这些嵌入的合并改善了不同药物对评分任务的几乎每个模型的下游性能,即使是原始模型也不是为了设计的。我们将公开释放所有药物嵌入为DugcomBDB,Drugcomb,Drugbankddi和Twosides数据集。
translated by 谷歌翻译
阐明并准确预测分子的吸毒性和生物活性在药物设计和发现中起关键作用,并且仍然是一个开放的挑战。最近,图神经网络(GNN)在基于图的分子属性预测方面取得了显着进步。但是,当前基于图的深度学习方法忽略了分子的分层信息以及特征通道之间的关系。在这项研究中,我们提出了一个精心设计的分层信息图神经网络框架(称为hignn),用于通过利用分子图和化学合成的可见的无限元素片段来预测分子特性。此外,首先在Hignn体系结构中设计了一个插件功能的注意块,以适应消息传递阶段后自适应重新校准原子特征。广泛的实验表明,Hignn在许多具有挑战性的药物发现相关基准数据集上实现了最先进的预测性能。此外,我们设计了一种分子碎片的相似性机制,以全面研究Hignn模型在子图水平上的解释性,表明Hignn作为强大的深度学习工具可以帮助化学家和药剂师识别出设计更好分子的关键分子,以设计更好的分子,以设计出所需的更好分子。属性或功能。源代码可在https://github.com/idruglab/hignn上公开获得。
translated by 谷歌翻译