生物医学网络上的自我监督的代表学习(SSL)为药物发现提供了新的机会,这些机会缺乏可用的生物或临床表型。但是,如何有效地结合多个SSL模型是具有挑战性的并且很少探索。因此,我们提出了对药物发现的生物医学网络的自我监督代表学习的多任务联合策略,命名为MSSL2DRUG。我们设计了六种基本的SSL任务,这些任务受到各种方式特征,包括生物医学异构网络中的结构,语义和属性,包括结构,语义和属性。此外,通过两种药物发现场景中的基于图表的对抗的对抗性多任务学习框架评估了多份任务的十五个组合。结果表明了两个重要的发现。 (1)与其他多任务联合策略相比,多模式任务的组合实现了最佳性能。 (2)本地和全球SSL任务的联合培训比随机任务组合产生更高的性能。因此,我们猜想多式联运和本地全球组合策略可以被视为多任务SSL对药物发现的指导。
translated by 谷歌翻译
多药物(定义为使用多种药物)是一种标准治疗方法,尤其是对于严重和慢性疾病。但是,将多种药物一起使用可能会导致药物之间的相互作用。药物 - 药物相互作用(DDI)是一种与另一种药物结合时的影响发生变化时发生的活性。 DDI可能会阻塞,增加或减少药物的预期作用,或者在最坏情况下,会产生不利的副作用。虽然准时检测DDI至关重要,但由于持续时间短,并且在临床试验中识别它们是时间的,而且昂贵,并且要考虑许多可能的药物对进行测试。结果,需要计算方法来预测DDI。在本文中,我们提出了一种新型的异质图注意模型Han-DDI,以预测药物 - 药物相互作用。我们建立了具有不同生物实体的药物网络。然后,我们开发了一个异质的图形注意网络,以使用药物与其他实体的关系学习DDI。它由一个基于注意力的异质图节点编码器组成,用于获得药物节点表示和用于预测药物相互作用的解码器。此外,我们利用全面的实验来评估我们的模型并将其与最先进的模型进行比较。实验结果表明,我们提出的方法Han-DDI的表现可以显着,准确地预测DDI,即使对于新药也是如此。
translated by 谷歌翻译
药物 - 药物相互作用(DDIS)可能会阻碍药物的功能,在最坏的情况下,它们可能导致不良药物反应(ADR)。预测所有DDI是一个具有挑战性且关键的问题。大多数现有的计算模型都集成了来自不同来源的药物中心信息,并利用它们作为机器学习分类器中的功能来预测DDIS。但是,这些模型有很大的失败机会,尤其是对于所有信息都没有可用的新药。本文提出了一个新型的HyperGraph神经网络(HYGNN)模型,仅基于用于DDI预测问题的任何药物的微笑串。为了捕获药物的相似性,我们创建了从微笑字符串中提取的药物的化学子结构中创建的超图。然后,我们开发了由新型的基于注意力的超图边缘编码器组成的HYGNN,以使药物的表示形式和解码器,以预测药物对之间的相互作用。此外,我们进行了广泛的实验,以评估我们的模型并将其与几种最新方法进行比较。实验结果表明,我们提出的HYGNN模型有效地预测了DDI,并以最大的ROC-AUC和PR-AUC分别超过基准,分别为97.9%和98.1%。
translated by 谷歌翻译
生物医学网络是与疾病网络的蛋白质相互作用的普遍描述符,从蛋白质相互作用,一直到医疗保健系统和科学知识。随着代表学习提供强大的预测和洞察的显着成功,我们目睹了表现形式学习技术的快速扩展,进入了这些网络的建模,分析和学习。在这篇综述中,我们提出了一个观察到生物学和医学中的网络长期原则 - 而在机器学习研究中经常出口 - 可以为代表学习提供概念基础,解释其当前的成功和限制,并告知未来进步。我们综合了一系列算法方法,即在其核心利用图形拓扑到将网络嵌入到紧凑的向量空间中,并捕获表示陈述学习证明有用的方式的广度。深远的影响包括鉴定复杂性状的变异性,单细胞的异心行为及其对健康的影响,协助患者的诊断和治疗以及制定安全有效的药物。
translated by 谷歌翻译
刺激:鉴定药物靶标相互作用(DTIS)是药物重新定位的关键步骤。近年来,大量基因组学和药理学数据的积累已经形成了大众药物和目标相关的异构网络(HNS),这提供了开发基于HN的计算模型的新机遇,以准确地预测DTI。 HN意味着许多有关DTI的有用信息,还包含无关的数据,以及如何使最佳的异构网络仍然是一个挑战。结果:在本文中,我们提出了一种基于异构的图形自动元路径学习的DTI预测方法(Hampdti)。 Hampdti从HN自动学习药物和目标之间的重要元路径,并产生元路径图。对于每个元路径图,从药物分子图和靶蛋白序列中学习的特征用作节点属性,然后设计了有效地考虑节点类型信息(药物或目标)的节点类型特定图卷积网络(NSGCN)学习药物和目标的嵌入。最后,组合来自多个元路径图的嵌入式以预测新的DTI。基准数据集的实验表明,与最先进的DTI预测方法相比,我们提出的Hampdti实现了卓越的性能。更重要的是,Hampdti识别DTI预测的重要元路径,这可以解释药物如何与HNS中的目标连接。
translated by 谷歌翻译
在这里,我们提出了一种用于多模式神经影像融合学习(HGM)的异质图形神经网络。传统的基于GNN的模型通常假设大脑网络是具有单一类型节点和边缘的均匀图形。然而,巨大的文献已经显示出人脑的异质性,特别是在两个半球之间。均匀脑网络不足以模拟复杂的脑状态。因此,在这项工作中,我们首先用多型节点(即左右半球节点)和多型边缘(即半球形边缘)来模拟大脑网络作为异质图。此外,我们还提出了一种基于Hetergoneou Brain网络的自我监督的预训练策略,以解决由于复杂的模型和小样本大小而过度的问题。我们在两个数据集合的结果显示出拟议模型的优越性,以疾病预测任务的其他多模型方法。此外,消融实验表明,我们具有预训练策略的模型可以减轻训练样本大小有限的问题。
translated by 谷歌翻译
关于图表的深度学习最近吸引了重要的兴趣。然而,大多数作品都侧重于(半)监督学习,导致缺点包括重标签依赖,普遍性差和弱势稳健性。为了解决这些问题,通过良好设计的借口任务在不依赖于手动标签的情况下提取信息知识的自我监督学习(SSL)已成为图形数据的有希望和趋势的学习范例。与计算机视觉和自然语言处理等其他域的SSL不同,图表上的SSL具有独家背景,设计理念和分类。在图表的伞下自我监督学习,我们对采用图表数据采用SSL技术的现有方法及时及全面的审查。我们构建一个统一的框架,数学上正式地规范图表SSL的范例。根据借口任务的目标,我们将这些方法分为四类:基于生成的,基于辅助性的,基于对比的和混合方法。我们进一步描述了曲线图SSL在各种研究领域的应用,并总结了绘图SSL的常用数据集,评估基准,性能比较和开源代码。最后,我们讨论了该研究领域的剩余挑战和潜在的未来方向。
translated by 谷歌翻译
图表可以模拟实体之间的复杂交互,它在许多重要的应用程序中自然出现。这些应用程序通常可以投入到标准图形学习任务中,其中关键步骤是学习低维图表示。图形神经网络(GNN)目前是嵌入方法中最受欢迎的模型。然而,邻域聚合范例中的标准GNN患有区分\ EMPH {高阶}图形结构的有限辨别力,而不是\ EMPH {低位}结构。为了捕获高阶结构,研究人员求助于主题和开发的基于主题的GNN。然而,现有的基于主基的GNN仍然仍然遭受较少的辨别力的高阶结构。为了克服上述局限性,我们提出了一个新颖的框架,以更好地捕获高阶结构的新框架,铰接于我们所提出的主题冗余最小化操作员和注射主题组合的新颖框架。首先,MGNN生成一组节点表示W.R.T.每个主题。下一阶段是我们在图案中提出的冗余最小化,该主题在彼此相互比较并蒸馏出每个主题的特征。最后,MGNN通过组合来自不同图案的多个表示来执行节点表示的更新。特别地,为了增强鉴别的功率,MGNN利用重新注射功能来组合表示的函数w.r.t.不同的主题。我们进一步表明,我们的拟议体系结构增加了GNN的表现力,具有理论分析。我们展示了MGNN在节点分类和图形分类任务上的七个公共基准上表现出最先进的方法。
translated by 谷歌翻译
发现药物目标相互作用(DTI)是一个非常有前途的研究领域,具有巨大的潜力。通过计算方法对药物和蛋白质之间可靠的相互作用的准确鉴定,这些方法通常利用从不同数据源检索到的异质信息,可以提高有效药物的发展。尽管随机行走和基质分解技术被广泛用于DTI预测中,但它们有几个局限性。通常以无监督的方式进行基于步行的嵌入生成,而矩阵分解中的线性相似性组合会扭曲不同视图提供的单个见解。为了解决这些问题,我们采用多层网络方法来处理多样化的药物和靶向相似性,并提出了一个新颖的优化框架,称为多重相似性基于DEEPSWALK的矩阵分解(MDMF),以进行DTI预测。该框架统一了嵌入的产生和相互作用预测,药物的学习矢量表示以及目标不仅保留了所有超层和特定层特异性局部不变性的高阶接近性,而且还可以近似与其内部产品的相互作用。此外,我们开发了一种集成方法(MDMF2A),该方法集成了MDMF模型的两个实例化,优化了Precision-Recall曲线(AUPR)和接收器操作特征曲线(AUC)下的面积。关于现实世界DTI数据集的实证研究表明,我们的方法在四种不同的环境中对当前最新方法实现了统计学上的显着改善。此外,对高度排名的非相互作用对的验证也证明了MDMF2A发现新型DTI的潜力。
translated by 谷歌翻译
预测药物目标相互作用是药物发现的关键。最近基于深度学习的方法显示出令人鼓舞的表现,但仍有两个挑战:(i)如何明确建模并学习药物与目标之间的局部互动,以更好地预测和解释; (ii)如何从不同分布的新型药物目标对上概括预测性能。在这项工作中,我们提出了Dugban,这是一个深层双线性注意网络(BAN)框架,并适应了域的适应性,以明确学习药物与目标之间的配对局部相互作用,并适应了分布数据外的数据。 Dugban在药物分子图和靶蛋白序列上进行预测的作品,有条件结构域对抗性学习,以使跨不同分布的学习相互作用表示,以更好地对新型药物目标对进行更好的概括。在内域和跨域设置下,在三个基准数据集上进行的实验表明,对于五个最先进的基准,Dugban取得了最佳的总体表现。此外,可视化学习的双线性注意图图提供了可解释的见解,从预测结果中提供了可解释的见解。
translated by 谷歌翻译
学习有效的蛋白质表示在生物学的各种任务中至关重要,例如预测蛋白质功能或结构。现有的方法通常在大量未标记的氨基酸序列上预先蛋白质语言模型,然后在下游任务中使用一些标记的数据来对模型进行修复。尽管基于序列的方法具有有效性,但尚未探索蛋白质性能预测的已知蛋白质结构的预处理功能,尽管蛋白质结构已知是蛋白质功能的决定因素,但尚未探索。在本文中,我们建议根据其3D结构预处理蛋白质。我们首先提出一个简单而有效的编码器,以学习蛋白质的几何特征。我们通过利用多视图对比学习和不同的自我预测任务来预先蛋白质图编码器。对功能预测和折叠分类任务的实验结果表明,我们提出的预处理方法表现优于或与最新的基于最新的序列方法相提并论,同时使用较少的数据。我们的实施可在https://github.com/deepgraphlearning/gearnet上获得。
translated by 谷歌翻译
The development of deep neural networks has improved representation learning in various domains, including textual, graph structural, and relational triple representations. This development opened the door to new relation extraction beyond the traditional text-oriented relation extraction. However, research on the effectiveness of considering multiple heterogeneous domain information simultaneously is still under exploration, and if a model can take an advantage of integrating heterogeneous information, it is expected to exhibit a significant contribution to many problems in the world. This thesis works on Drug-Drug Interactions (DDIs) from the literature as a case study and realizes relation extraction utilizing heterogeneous domain information. First, a deep neural relation extraction model is prepared and its attention mechanism is analyzed. Next, a method to combine the drug molecular structure information and drug description information to the input sentence information is proposed, and the effectiveness of utilizing drug molecular structures and drug descriptions for the relation extraction task is shown. Then, in order to further exploit the heterogeneous information, drug-related items, such as protein entries, medical terms and pathways are collected from multiple existing databases and a new data set in the form of a knowledge graph (KG) is constructed. A link prediction task on the constructed data set is conducted to obtain embedding representations of drugs that contain the heterogeneous domain information. Finally, a method that integrates the input sentence information and the heterogeneous KG information is proposed. The proposed model is trained and evaluated on a widely used data set, and as a result, it is shown that utilizing heterogeneous domain information significantly improves the performance of relation extraction from the literature.
translated by 谷歌翻译
Graph neural network, as a powerful graph representation technique based on deep learning, has shown superior performance and attracted considerable research interest. However, it has not been fully considered in graph neural network for heterogeneous graph which contains different types of nodes and links. The heterogeneity and rich semantic information bring great challenges for designing a graph neural network for heterogeneous graph. Recently, one of the most exciting advancements in deep learning is the attention mechanism, whose great potential has been well demonstrated in various areas. In this paper, we first propose a novel heterogeneous graph neural network based on the hierarchical attention, including node-level and semantic-level attentions. Specifically, the node-level attention aims to learn the importance between a node and its metapath based neighbors, while the semantic-level attention is able to learn the importance of different meta-paths. With the learned importance from both node-level and semantic-level attention, the importance of node and meta-path can be fully considered. Then the proposed model can generate node embedding by aggregating features from meta-path based neighbors in a hierarchical manner. Extensive experimental results on three real-world heterogeneous graphs not only show the superior performance of our proposed model over the state-of-the-arts, but also demonstrate its potentially good interpretability for graph analysis.
translated by 谷歌翻译
来自最近的研究的日益增长的证据意味着MicroRNA或miRNA可以作为各种复杂人类疾病中的生物标志物。由于湿实验室实验昂贵且耗时,MiRNA疾病协会预测的计算技术近年来引起了很多关注。数据稀缺是建立可靠机器学习模式的主要挑战之一。数据稀缺结合使用预先计算的手工制作输入功能导致了过度装备和数据泄漏的问题。我们通过提出一种基于新的多任务图卷积的方法来克服现有作品的局限性,我们称之为粘基。杀菌允许自动特征提取,同时将知识与五个异质生物信息来源(miRNA /疾病和蛋白质编码基因(PCG)之间的相互作用,多任务设置中的蛋白质编码基因,miRNA家族信息和病理学之间的相互作用。这是一种新颖的视角,并未在之前进行过。为了有效地测试我们模型的泛化能力,我们在标准基准数据集中构建了大规模实验,以及我们提出的更大的独立测试集和案例研究。杀螨物显示出在HMDDV2.0和HMDDV3.0数据集上的5倍CV评估中的至少3%,并且在较大独立的测试集上至少35%,并在最先进的方法上具有看不见的miRNA和疾病。我们分享我们的重复性和未来研究代码,以便在https://git.l3s.uni-hannover.de/dong/cmtt。
translated by 谷歌翻译
The discovery of drug-target interactions (DTIs) is a pivotal process in pharmaceutical development. Computational approaches are a promising and efficient alternative to tedious and costly wet-lab experiments for predicting novel DTIs from numerous candidates. Recently, with the availability of abundant heterogeneous biological information from diverse data sources, computational methods have been able to leverage multiple drug and target similarities to boost the performance of DTI prediction. Similarity integration is an effective and flexible strategy to extract crucial information across complementary similarity views, providing a compressed input for any similarity-based DTI prediction model. However, existing similarity integration methods filter and fuse similarities from a global perspective, neglecting the utility of similarity views for each drug and target. In this study, we propose a Fine-Grained Selective similarity integration approach, called FGS, which employs a local interaction consistency-based weight matrix to capture and exploit the importance of similarities at a finer granularity in both similarity selection and combination steps. We evaluate FGS on five DTI prediction datasets under various prediction settings. Experimental results show that our method not only outperforms similarity integration competitors with comparable computational costs, but also achieves better prediction performance than state-of-the-art DTI prediction approaches by collaborating with conventional base models. Furthermore, case studies on the analysis of similarity weights and on the verification of novel predictions confirm the practical ability of FGS.
translated by 谷歌翻译
异质图卷积网络在解决异质网络数据的各种网络分析任务方面已广受欢迎,从链接预测到节点分类。但是,大多数现有作品都忽略了多型节点之间的多重网络的关系异质性,而在元路径中,元素嵌入中关系的重要性不同,这几乎无法捕获不同关系跨不同关系的异质结构信号。为了应对这一挑战,这项工作提出了用于异质网络嵌入的多重异质图卷积网络(MHGCN)。我们的MHGCN可以通过多层卷积聚合自动学习多重异质网络中不同长度的有用的异质元路径相互作用。此外,我们有效地将多相关结构信号和属性语义集成到学习的节点嵌入中,并具有无监督和精选的学习范式。在具有各种网络分析任务的五个现实世界数据集上进行的广泛实验表明,根据所有评估指标,MHGCN与最先进的嵌入基线的优势。
translated by 谷歌翻译
图表是一个宇宙数据结构,广泛用于组织现实世界中的数据。像交通网络,社交和学术网络这样的各种实际网络网络可以由图表代表。近年来,目睹了在网络中代表顶点的快速发展,进入低维矢量空间,称为网络表示学习。表示学习可以促进图形数据上的新算法的设计。在本调查中,我们对网络代表学习的当前文献进行了全面审查。现有算法可以分为三组:浅埋模型,异构网络嵌入模型,图形神经网络的模型。我们为每个类别审查最先进的算法,并讨论这些算法之间的基本差异。调查的一个优点是,我们系统地研究了不同类别的算法底层的理论基础,这提供了深入的见解,以更好地了解网络表示学习领域的发展。
translated by 谷歌翻译
Many applications of machine learning require a model to make accurate predictions on test examples that are distributionally different from training ones, while task-specific labels are scarce during training. An effective approach to this challenge is to pre-train a model on related tasks where data is abundant, and then fine-tune it on a downstream task of interest. While pre-training has been effective in many language and vision domains, it remains an open question how to effectively use pre-training on graph datasets. In this paper, we develop a new strategy and self-supervised methods for pre-training Graph Neural Networks (GNNs). The key to the success of our strategy is to pre-train an expressive GNN at the level of individual nodes as well as entire graphs so that the GNN can learn useful local and global representations simultaneously. We systematically study pre-training on multiple graph classification datasets. We find that naïve strategies, which pre-train GNNs at the level of either entire graphs or individual nodes, give limited improvement and can even lead to negative transfer on many downstream tasks. In contrast, our strategy avoids negative transfer and improves generalization significantly across downstream tasks, leading up to 9.4% absolute improvements in ROC-AUC over non-pre-trained models and achieving state-of-the-art performance for molecular property prediction and protein function prediction.However, pre-training on graph datasets remains a hard challenge. Several key studies (
translated by 谷歌翻译
Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
translated by 谷歌翻译
图形神经网络(GNN)是通过学习通用节点表示形式来建模和处理图形结构数据的主要范例。传统的培训方式GNNS取决于许多标记的数据,这导致了成本和时间的高需求。在某个特殊场景中,它甚至不可用。可以通过图形结构数据本身生成标签的自我监督表示学习是解决此问题的潜在方法。并且要研究对异质图的自学学习问题的研究比处理同质图更具挑战性,对此,研究也更少。在本文中,我们通过基于Metapath(SESIM)的结构信息提出了一种用于异质图的自我监督学习方法。提出的模型可以通过预测每个Metapath中节点之间的跳跃数来构建借口任务,以提高主任务的表示能力。为了预测跳跃数量,Sesim使用数据本身来生成标签,避免了耗时的手动标签。此外,预测每个Metapath中的跳跃数量可以有效地利用图形结构信息,这是节点之间的重要属性。因此,Sesim加深对图形结构模型的理解。最后,我们共同培训主要任务和借口任务,并使用元学习来平衡借口任务对主要任务的贡献。经验结果验证了SESIM方法的性能,并证明该方法可以提高传统神经网络在链接预测任务和节点分类任务上的表示能力。
translated by 谷歌翻译