Drug repositioning holds great promise because it can reduce the time and cost of new drug development. While drug repositioning can omit various R&D processes, confirming pharmacological effects on biomolecules is essential for application to new diseases. Biomedical explainability in a drug repositioning model can support appropriate insights in subsequent in-depth studies. However, the validity of the XAI methodology is still under debate, and the effectiveness of XAI in drug repositioning prediction applications remains unclear. In this study, we propose GraphIX, an explainable drug repositioning framework using biological networks, and quantitatively evaluate its explainability. GraphIX first learns the network weights and node features using a graph neural network from known drug indication and knowledge graph that consists of three types of nodes (but not given node type information): disease, drug, and protein. Analysis of the post-learning features showed that node types that were not known to the model beforehand are distinguished through the learning process based on the graph structure. From the learned weights and features, GraphIX then predicts the disease-drug association and calculates the contribution values of the nodes located in the neighborhood of the predicted disease and drug. We hypothesized that the neighboring protein node to which the model gave a high contribution is important in understanding the actual pharmacological effects. Quantitative evaluation of the validity of protein nodes' contribution using a real-world database showed that the high contribution proteins shown by GraphIX are reasonable as a mechanism of drug action. GraphIX is a framework for evidence-based drug discovery that can present to users new disease-drug associations and identify the protein important for understanding its pharmacological effects from a large and complex knowledge base.
translated by 谷歌翻译
刺激:鉴定药物靶标相互作用(DTIS)是药物重新定位的关键步骤。近年来,大量基因组学和药理学数据的积累已经形成了大众药物和目标相关的异构网络(HNS),这提供了开发基于HN的计算模型的新机遇,以准确地预测DTI。 HN意味着许多有关DTI的有用信息,还包含无关的数据,以及如何使最佳的异构网络仍然是一个挑战。结果:在本文中,我们提出了一种基于异构的图形自动元路径学习的DTI预测方法(Hampdti)。 Hampdti从HN自动学习药物和目标之间的重要元路径,并产生元路径图。对于每个元路径图,从药物分子图和靶蛋白序列中学习的特征用作节点属性,然后设计了有效地考虑节点类型信息(药物或目标)的节点类型特定图卷积网络(NSGCN)学习药物和目标的嵌入。最后,组合来自多个元路径图的嵌入式以预测新的DTI。基准数据集的实验表明,与最先进的DTI预测方法相比,我们提出的Hampdti实现了卓越的性能。更重要的是,Hampdti识别DTI预测的重要元路径,这可以解释药物如何与HNS中的目标连接。
translated by 谷歌翻译
该药物发现​​和开发过程是一个漫长而昂贵的过程,每次药物平均耗资超过10亿美元,需要10 - 15年的时间。为了减少在整个过程中的高水平流失量,在最近十年中,越来越多地将机器学习方法应用于药物发现和发育的各个阶段,尤其是在最早鉴定可药物疾病基因的阶段。在本文中,我们开发了一种新的张量分解模型,以预测用于治疗疾病的潜在药物靶标(基因或蛋白质)。我们创建了一个三维数据张量,该数据张量由1,048个基因靶标,860个疾病和230,0111111111111111111111111111111的证据属性和临床结果,并使用从开放式目标和药物数据库中提取的数据组成。我们用从药物发现的知识图中学到的基因目标表示丰富了数据,并应用了我们提出的方法来预测看不见的基因靶标和疾病对的临床结果。我们设计了三种评估策略来衡量预测性能,并将几个常用的机器学习分类器与贝叶斯矩阵和张量分解方法进行了基准测试。结果表明,合并知识图嵌入可显着提高预测准确性,并与密集的神经网络一起训练张量分解优于所有其他基线。总而言之,我们的框架结合了两种积极研究的机器学习方法,用于疾病目标识别,即张量分解和知识图表示学习,这可能是在数据驱动的药物发现中进一步探索的有希望的途径。
translated by 谷歌翻译
在2019年的大流行病(Covid-19)感染SARS-COV-2的小型冠状病病(Covid-19)中,很快就迅速进行了大量的预防和治疗药物研究,但迄今为止,这些努力取得了不成功。我们的目标是利用药物重新淘点的管道优先考虑可重复的药物,系统地整合多个SARS-COV-2和药物相互作用,深图神经网络和基于体外/人口的验证。我们首先通过CTDBase收集涉及Covid-19患者治疗的所有可用药物(n = 3,635)。我们基于病毒诱饵,宿主基因,途径,药物和表型之间的相互作用构建了SARS-COV-2知识图。基于生物相互作用,使用深图神经网络方法来得出候选表示。我们利用临床试验验证药物优先考虑候选药物,然后用它们的遗传谱,体外实验疗效和电子健康记录验证。我们突出了前22名药物,包括阿奇霉素,阿托伐他汀,阿司匹林,对乙酰氨基酚和阿巴替代醇。我们进一步确定了可能协同靶向Covid-19的药物组合。总之,我们证明了广泛的相互作用,深度神经网络和严格验证的整合可以促进Covid-19治疗的候选药物的快速鉴定。这是一个post-poser-review,在科学报告中发布的文章的Pre-Copyedit版本最终经过身份验证版本可在线获取:https://www.researchsquare.com/article/rs-114758/v1
translated by 谷歌翻译
多药物(定义为使用多种药物)是一种标准治疗方法,尤其是对于严重和慢性疾病。但是,将多种药物一起使用可能会导致药物之间的相互作用。药物 - 药物相互作用(DDI)是一种与另一种药物结合时的影响发生变化时发生的活性。 DDI可能会阻塞,增加或减少药物的预期作用,或者在最坏情况下,会产生不利的副作用。虽然准时检测DDI至关重要,但由于持续时间短,并且在临床试验中识别它们是时间的,而且昂贵,并且要考虑许多可能的药物对进行测试。结果,需要计算方法来预测DDI。在本文中,我们提出了一种新型的异质图注意模型Han-DDI,以预测药物 - 药物相互作用。我们建立了具有不同生物实体的药物网络。然后,我们开发了一个异质的图形注意网络,以使用药物与其他实体的关系学习DDI。它由一个基于注意力的异质图节点编码器组成,用于获得药物节点表示和用于预测药物相互作用的解码器。此外,我们利用全面的实验来评估我们的模型并将其与最先进的模型进行比较。实验结果表明,我们提出的方法Han-DDI的表现可以显着,准确地预测DDI,即使对于新药也是如此。
translated by 谷歌翻译
生物医学网络是与疾病网络的蛋白质相互作用的普遍描述符,从蛋白质相互作用,一直到医疗保健系统和科学知识。随着代表学习提供强大的预测和洞察的显着成功,我们目睹了表现形式学习技术的快速扩展,进入了这些网络的建模,分析和学习。在这篇综述中,我们提出了一个观察到生物学和医学中的网络长期原则 - 而在机器学习研究中经常出口 - 可以为代表学习提供概念基础,解释其当前的成功和限制,并告知未来进步。我们综合了一系列算法方法,即在其核心利用图形拓扑到将网络嵌入到紧凑的向量空间中,并捕获表示陈述学习证明有用的方式的广度。深远的影响包括鉴定复杂性状的变异性,单细胞的异心行为及其对健康的影响,协助患者的诊断和治疗以及制定安全有效的药物。
translated by 谷歌翻译
改善疾病的护理标准是关于更好的治疗方法,反过来依赖于寻找和开发新药。然而,药物发现是一个复杂且昂贵的过程。通过机器学习的方法采用了利用域固有的互连性质的药物发现知识图的创建。基于图形的数据建模,结合知识图形嵌入式提供了更直观的域表示,适用于推理任务,例如预测缺失链路。一个这样的例子将产生对给定疾病的可能相关基因的排名列表,通常被称为目标发现。因此,这是关键的,即这些预测不仅是相关的,而且是生物学上的有意义的。然而,知识图形可以直接偏向,由于集成的底层数据源,或者由于图形构造中的建模选择,其中的一个结果是某些实体可以在拓扑上超越。我们展示了知识图形嵌入模型可能受到这种结构不平衡的影响,导致无论上下文都要高度排名的密集连接实体。我们在不同的数据集,模型和预测任务中提供对此观察的支持。此外,我们展示了如何通过随机,生物学上无意义的信息扰乱图形拓扑结构以人为地改变基因的等级。这表明这种模型可能会受到实体频率而不是在关系中编码的生物学信息的影响,当实体频率不是基础数据的真实反射时,创建问题。我们的结果突出了数据建模选择的重要性,并强调了从业者在解释模型输出和知识图形组合期间时要注意这些问题。
translated by 谷歌翻译
在本文中,我们提供了针对深度学习(DL)模型的结构化文献分析,该模型用于支持癌症生物学的推论,并特别强调了多词分析。这项工作着重于现有模型如何通过先验知识,生物学合理性和解释性,生物医学领域的基本特性来解决更好的对话。我们讨论了DL模型的最新进化拱门沿整合先前的生物关系和网络知识的方向,以支持更好的概括(例如途径或蛋白质 - 蛋白质相互作用网络)和解释性。这代表了向模型的基本功能转变,该模型可以整合机械和统计推断方面。我们讨论了在此类模型中整合域先验知识的代表性方法。该论文还为解释性和解释性的当代方法提供了关键的看法。该分析指向编码先验知识和改善解释性之间的融合方向。
translated by 谷歌翻译
抗癌药物的发现是偶然的,我们试图介绍开放的分子图学习基准,称为Cantidrug4cancer,这是一个具有挑战性且逼真的基准数据集,可促进可扩展,健壮和可重复的图形机器学习用于抗癌药物发现的机器学习研究。候选物4CANCER数据集涵盖了多个最多的癌症靶标,涵盖了54869个与癌症相关的药物分子,其范围从临床前,临床和FDA批准的范围内。除了构建数据集外,我们还使用描述符和表达性图神经网络进行了有效的药物靶点相互作用(DTI)预测基准的基准实验。实验结果表明,候选物4Cancer在实际应用中对学习分子图和目标提出了重大挑战,这表明将来有机会开发用于治疗癌症的候选药物的研究。
translated by 谷歌翻译
根据有关批准药物的信息预测药物的新作用可以被视为推荐系统。矩阵分解是最常用的推荐系统之一,为其设计了各种算法。用于预测药物效应的现有算法的文献调查和摘要表明,大多数此类方法,包括邻里正规逻辑矩阵分解,这是基准测试中最佳性能的最佳性能,它使用了仅考虑存在或不存在相互作用的二进制矩阵。但是,已知药物作用具有两个相反的方面,例如副作用和治疗作用。在本研究中,我们建议使用邻域正规化双向基质分解(NRBDMF)通过纳入双向性来预测药物作用,这是药物效应的特征。我们使用这种建议的方法使用矩阵来预测副作用,该基质考虑了药物效应的双向,其中已知的副作用被分配为阳性标签(加1),并为已知的治疗效应分配了阴性(负1)标签。使用药物双向信息的NRBDMF模型在预测列表的底部达到了副作用的富集和指示。第一次尝试使用NRBDMF来考虑药物效应的双向性质的尝试表明,它降低了假阳性并产生了高度可解释的输出。
translated by 谷歌翻译
药物发现和发展是一个复杂和昂贵的过程。正在研究机器学习方法,以帮助提高药物发现管道多个阶段的有效性和速度。其中,使用知识图表(kg)的那些在许多任务中具有承诺,包括药物修复,药物毒性预测和靶基因疾病优先级。在药物发现kg中,包括基因,疾病和药物在内的关键因素被认为是实体,而它们之间的关系表示相互作用。但是,为了构建高质量的KG,需要合适的数据。在这篇综述中,我们详细介绍了适用于构建聚焦KGS的药物发现的公开使用来源。我们的目标是帮助引导机器学习和kg从业者对吸毒者发现领域应用新技术,但是谁可能不熟悉相关的数据来源。通过严格的标准选择数据集,根据包含内部包含的主要信息类型,并基于可以提取的信息来进行分类以构建kg。然后,我们对现有的公共药物发现KGS进行了比较分析,并评估了文献中所选择的激励案例研究。此外,我们还提出了众多和与域及其数据集相关的众多挑战和问题,同时突出了关键的未来研究方向。我们希望本综述将激励KGS在药物发现领域的关键和新兴问题中使用。
translated by 谷歌翻译
The development of deep neural networks has improved representation learning in various domains, including textual, graph structural, and relational triple representations. This development opened the door to new relation extraction beyond the traditional text-oriented relation extraction. However, research on the effectiveness of considering multiple heterogeneous domain information simultaneously is still under exploration, and if a model can take an advantage of integrating heterogeneous information, it is expected to exhibit a significant contribution to many problems in the world. This thesis works on Drug-Drug Interactions (DDIs) from the literature as a case study and realizes relation extraction utilizing heterogeneous domain information. First, a deep neural relation extraction model is prepared and its attention mechanism is analyzed. Next, a method to combine the drug molecular structure information and drug description information to the input sentence information is proposed, and the effectiveness of utilizing drug molecular structures and drug descriptions for the relation extraction task is shown. Then, in order to further exploit the heterogeneous information, drug-related items, such as protein entries, medical terms and pathways are collected from multiple existing databases and a new data set in the form of a knowledge graph (KG) is constructed. A link prediction task on the constructed data set is conducted to obtain embedding representations of drugs that contain the heterogeneous domain information. Finally, a method that integrates the input sentence information and the heterogeneous KG information is proposed. The proposed model is trained and evaluated on a widely used data set, and as a result, it is shown that utilizing heterogeneous domain information significantly improves the performance of relation extraction from the literature.
translated by 谷歌翻译
药物 - 药物相互作用(DDIS)可能会阻碍药物的功能,在最坏的情况下,它们可能导致不良药物反应(ADR)。预测所有DDI是一个具有挑战性且关键的问题。大多数现有的计算模型都集成了来自不同来源的药物中心信息,并利用它们作为机器学习分类器中的功能来预测DDIS。但是,这些模型有很大的失败机会,尤其是对于所有信息都没有可用的新药。本文提出了一个新型的HyperGraph神经网络(HYGNN)模型,仅基于用于DDI预测问题的任何药物的微笑串。为了捕获药物的相似性,我们创建了从微笑字符串中提取的药物的化学子结构中创建的超图。然后,我们开发了由新型的基于注意力的超图边缘编码器组成的HYGNN,以使药物的表示形式和解码器,以预测药物对之间的相互作用。此外,我们进行了广泛的实验,以评估我们的模型并将其与几种最新方法进行比较。实验结果表明,我们提出的HYGNN模型有效地预测了DDI,并以最大的ROC-AUC和PR-AUC分别超过基准,分别为97.9%和98.1%。
translated by 谷歌翻译
背景:感染细菌和古代的原核病毒是生物圈中最丰富和多样化的生物实体。要了解各种生态系统中的监管作用,并利用治疗中使用的噬菌体的潜力,需要了解有病毒宿主关系的知识。高通量测序及其对微生物组的应用已经为预测宿主特定病毒可能感染的预测提供了新的机会。但是,计算宿主预测存在两个主要挑战。首先,经验上已知的病毒 - 宿主关系非常有限。其次,虽然病毒与其原核寄存器之间的序列相似度被用作宿主预测的主要特征,但在许多情况下,对齐在丢失或含糊不清。因此,仍然需要提高宿主预测的准确性。结果:在这项工作中,我们提出了一个半监督的学习模型,名为Hostg,为新颖病毒进行主机预测。我们通过利用病毒病毒蛋白质相似性和病毒宿主DNA序列相似性构建知识图。然后采用图形卷积网络(GCN)来利用或没有已知主机在培训中进行病毒来提高学习能力。在GCN培训期间,我们最小化预期的校准错误(ECE),以确保预测的信心。我们在模拟和实际测序数据上测试了HostG,并将其性能与其他用于病毒主机分类(VHM-Net,Wish,PHP,Hophage,Rafah,VHulk和VPF-Class)设计的最先进的方法。结论:Hostg优于其他流行的方法,展示了使用基于GCN的半监督学习方法的功效。 Hostg的特殊优势是它能够从新的分类群中预测主机。
translated by 谷歌翻译
来自最近的研究的日益增长的证据意味着MicroRNA或miRNA可以作为各种复杂人类疾病中的生物标志物。由于湿实验室实验昂贵且耗时,MiRNA疾病协会预测的计算技术近年来引起了很多关注。数据稀缺是建立可靠机器学习模式的主要挑战之一。数据稀缺结合使用预先计算的手工制作输入功能导致了过度装备和数据泄漏的问题。我们通过提出一种基于新的多任务图卷积的方法来克服现有作品的局限性,我们称之为粘基。杀菌允许自动特征提取,同时将知识与五个异质生物信息来源(miRNA /疾病和蛋白质编码基因(PCG)之间的相互作用,多任务设置中的蛋白质编码基因,miRNA家族信息和病理学之间的相互作用。这是一种新颖的视角,并未在之前进行过。为了有效地测试我们模型的泛化能力,我们在标准基准数据集中构建了大规模实验,以及我们提出的更大的独立测试集和案例研究。杀螨物显示出在HMDDV2.0和HMDDV3.0数据集上的5倍CV评估中的至少3%,并且在较大独立的测试集上至少35%,并在最先进的方法上具有看不见的miRNA和疾病。我们分享我们的重复性和未来研究代码,以便在https://git.l3s.uni-hannover.de/dong/cmtt。
translated by 谷歌翻译
We present the OPEN GRAPH BENCHMARK (OGB), a diverse set of challenging and realistic benchmark datasets to facilitate scalable, robust, and reproducible graph machine learning (ML) research. OGB datasets are large-scale, encompass multiple important graph ML tasks, and cover a diverse range of domains, ranging from social and information networks to biological networks, molecular graphs, source code ASTs, and knowledge graphs. For each dataset, we provide a unified evaluation protocol using meaningful application-specific data splits and evaluation metrics. In addition to building the datasets, we also perform extensive benchmark experiments for each dataset. Our experiments suggest that OGB datasets present significant challenges of scalability to large-scale graphs and out-of-distribution generalization under realistic data splits, indicating fruitful opportunities for future research. Finally, OGB provides an automated end-to-end graph ML pipeline that simplifies and standardizes the process of graph data loading, experimental setup, and model evaluation. OGB will be regularly updated and welcomes inputs from the community. OGB datasets as well as data loaders, evaluation scripts, baseline code, and leaderboards are publicly available at https://ogb.stanford.edu.
translated by 谷歌翻译
不良事件是药物开发中的一个严重问题,并且已经开发了许多使用机器学习的预测方法。随机的拆分交叉验证是机器学习中模型构建和评估的事实上的标准,但是在不利事件预测中应注意,因为这种方法与现实世界的情况不符。使用时轴的时间拆分被认为适用于现实世界预测。但是,由于缺乏可比的研究,使用时间和随机分裂获得的模型性能差异尚不清楚。为了了解差异,我们使用九种类型的复合信息作为输入,八个不良事件作为目标和六种机器学习算法比较了时间和随机分裂之间的模型性能。在曲线值下,随机分裂显示的面积比八个目标中的六个时间分配比分裂更高。训练和测试数据集的化学空间相似,这表明适用性域的概念不足以解释从分裂中得出的差异。对于蛋白质相互作用,曲线差异下的面积比其他数据集更小。随后的详细分析表明,在时间分配时间内使用基于知识的信息的危险。这些发现表明,在不利事件预测中了解时间和随机分裂之间的差异的重要性,并强烈表明适当使用分裂策略和结果的解释对于不利事件的现实预测是必要的。我们提供本研究中使用的分析代码和数据集(https://github.com/mizuno-group/ae_prediction)。
translated by 谷歌翻译
Drug-Drug Interactions (DDIs) prediction is an essential issue in the molecular field. Traditional methods of observing DDIs in medical experiments require plenty of resources and labor. In this paper, we present a computational model dubbed MedKGQA based on Graph Neural Networks to automatically predict the DDIs after reading multiple medical documents in the form of multi-hop machine reading comprehension. We introduced a knowledge fusion system to obtain the complete nature of drugs and proteins and exploited a graph reasoning system to infer the drugs and proteins contained in the documents. Our model significantly improves the performance compared to previous state-of-the-art models on the QANGAROO MedHop dataset, which obtained a 4.5% improvement in terms of DDIs prediction accuracy.
translated by 谷歌翻译
一种感染细菌和古代的原核病毒是微生物社区的关键球员。预测原核病毒的宿主有助于破译微生物之间的动态关系。虽然存在用于宿主鉴定的实验方法,但它们是劳动密集型或需要培养宿主细胞,从而产生对计算宿主预测的需求。尽管结果有一些有希望的结果,但计算宿主预测仍然是挑战,因为通过高通量测序技术通过有限的已知的相互作用和纯粹的测序量。最先进的方法只能在物种级别达到43%的精度。这项工作呈现樱桃,该工具配制主机预测作为知识图中的链路预测。作为病毒原核相互作用预测工具,可以应用樱桃以预测新发现病毒的宿主以及感染抗生素抗菌细菌的病毒。我们展示了樱桃对既有应用的效用,并将其性能与不同情景中的最先进的方法进行了比较。为了我们最好的知识,樱桃在识别病毒 - 原核互动方面具有最高的准确性。它优于物种水平的所有现有方法,精度增加37%。此外,樱桃的性能比其他工具更短的Contig。
translated by 谷歌翻译
协同的药物组合为增强治疗功效和减少不良反应提供了巨大的潜力。然而,由于未知的因果疾病信号通路,有效和协同的药物组合预测仍然是一个悬而未决的问题。尽管已经提出了各种深度学习(AI)模型来定量预测药物组合的协同作用。现有深度学习方法的主要局限性是它们本质上是不可解释的,这使得AI模型的结论是对人类专家的非透明度的结论,因此限制了模型结论的鲁棒性和这些模型在现实世界中的实施能力人类医疗保健。在本文中,我们开发了一个可解释的图神经网络(GNN),该神经网络(GNN)揭示了通过挖掘非常重要的亚分子网络来揭示协同(MOS)的基本基本治疗靶标和机制。可解释的GNN预测模型的关键点是一个新颖的图池层,基于自我注意的节点和边缘池(此后为SANEPOOL),可以根据节点特征和图表计算节点和边缘的注意力评分(重要性)拓扑。因此,提出的GNN模型提供了一种系统的方法来预测和解释基于检测到的关键亚分子网络的药物组合协同作用。我们评估了来自NCI Almanac药物组合筛查数据的46个核心癌症信号通路和药物组合的基因制造的分子网络。实验结果表明,1)Sanepool可以在其他流行的图神经网络中实现当前的最新性能; 2)由SANEPOOOL检测到的亚分子网络是可自我解释的,并且可以鉴定协同的药物组合。
translated by 谷歌翻译