蛋白质 - 蛋白质相互作用(PPI)网络由生物体的蛋白质之间的物理和/或功能相互作用组成。由于用于形成PPI网络的生物物理和高通量方法是昂贵的,耗时的,而且通常包含不准确性,因此最终的网络通常不完整。为了推断这些网络中缺少的相互作用,我们提出了基于连续的经典和量子随机步行的新型链接预测方法。在量子步行的情况下,我们检查了网络邻接和拉普拉斯矩阵的用法来控制步行动力学。我们根据相应的过渡概率定义得分函数,并在四个现实世界PPI数据集上执行测试。我们的结果表明,使用网络邻接矩阵的连续时间经典随机步行和量子步行可以成功预测缺失的蛋白质 - 蛋白质相互作用,并且性能与艺术的状态媲美。
translated by 谷歌翻译
复杂的网络是代表现实生活系统的图形,这些系统表现出独特的特征,这些特征在纯粹的常规或完全随机的图中未发现。由于基础过程的复杂性,对此类系统的研究至关重要,但具有挑战性。然而,由于大量网络数据的可用性,近几十年来,这项任务变得更加容易。复杂网络中的链接预测旨在估计网络中缺少两个节点之间的链接的可能性。由于数据收集的不完美或仅仅是因为它们尚未出现,因此可能会缺少链接。发现网络数据中实体之间的新关系吸引了研究人员在社会学,计算机科学,物理学和生物学等各个领域的关注。大多数现有研究的重点是无向复杂网络中的链接预测。但是,并非所有现实生活中的系统都可以忠实地表示为无向网络。当使用链接预测算法时,通常会做出这种简化的假设,但不可避免地会导致有关节点之间关系和预测性能中降解的信息的丢失。本文介绍了针对有向网络的明确设计的链接预测方法。它基于相似性范式,该范式最近已证明在无向网络中成功。提出的算法通过在相似性和受欢迎程度上将其建模为不对称性来处理节点关系中的不对称性。鉴于观察到的网络拓扑结构,该算法将隐藏的相似性近似为最短路径距离,并使用边缘权重捕获并取消链接的不对称性和节点的受欢迎程度。在现实生活中评估了所提出的方法,实验结果证明了其在预测各种网络数据类型和大小的丢失链接方面的有效性。
translated by 谷歌翻译
神经网络的最新进步已经解决了常见的图表问题,例如链路预测,节点分类,节点聚类,通过将实体和关系的嵌入和关系开发到向量空间中来看。绘图嵌入式对图中存在的结构信息进行编码。然后,编码嵌入式可用于预测图中的缺失链接。然而,获得图表的最佳嵌入可以是嵌入式系统中的计算具有挑战性的任务。我们在这项工作中专注的两种技术是1)节点嵌入来自随机步行的方法和2)知识图形嵌入。随机播放的嵌入物是计算地廉价的,但是是次优的,而知识图形嵌入物表现更好,但是计算得昂贵。在这项工作中,我们研究了转换从基于随机步行方法获得的节点嵌入的转换模型,以直接从知识图方法获得的嵌入,而不会增加计算成本。广泛的实验表明,所提出的变换模型可用于实时解决链路预测。
translated by 谷歌翻译
Clustering is a fundamental problem in network analysis that finds closely connected groups of nodes and separates them from other nodes in the graph, while link prediction is to predict whether two nodes in a network are likely to have a link. The definition of both naturally determines that clustering must play a positive role in obtaining accurate link prediction tasks. Yet researchers have long ignored or used inappropriate ways to undermine this positive relationship. In this article, We construct a simple but efficient clustering-driven link prediction framework(ClusterLP), with the goal of directly exploiting the cluster structures to obtain connections between nodes as accurately as possible in both undirected graphs and directed graphs. Specifically, we propose that it is easier to establish links between nodes with similar representation vectors and cluster tendencies in undirected graphs, while nodes in a directed graphs can more easily point to nodes similar to their representation vectors and have greater influence in their own cluster. We customized the implementation of ClusterLP for undirected and directed graphs, respectively, and the experimental results using multiple real-world networks on the link prediction task showed that our models is highly competitive with existing baseline models. The code implementation of ClusterLP and baselines we use are available at https://github.com/ZINUX1998/ClusterLP.
translated by 谷歌翻译
图形嵌入是将网络的节点转换为一组向量。良好的嵌入应捕获底层图形拓扑和结构,节点到节点关系以及图形,其子图和节点的其他相关信息。如果实现了这些目标,则嵌入是网络的有意义,可以理解的,通常是压缩的。不幸的是,选择最好的嵌入是一个具有挑战性的任务,并且通常需要域名专家。在本文中,我们扩展了评估作者最近引入的图形嵌入的框架。现在,该框架为每个嵌入的嵌入分配两个分数,本地和全局,测量评估嵌入的嵌入的质量,以便分别需要良好地表示网络的全局属性。如果需要,最好的嵌入可以以无监督的方式选择,或者框架可以识别一些值得进一步调查的少数嵌入。该框架灵活,可扩展,可以处理无向/定向,加权/未加权图。
translated by 谷歌翻译
Link prediction is a key problem for network-structured data. Link prediction heuristics use some score functions, such as common neighbors and Katz index, to measure the likelihood of links. They have obtained wide practical uses due to their simplicity, interpretability, and for some of them, scalability. However, every heuristic has a strong assumption on when two nodes are likely to link, which limits their effectiveness on networks where these assumptions fail. In this regard, a more reasonable way should be learning a suitable heuristic from a given network instead of using predefined ones. By extracting a local subgraph around each target link, we aim to learn a function mapping the subgraph patterns to link existence, thus automatically learning a "heuristic" that suits the current network. In this paper, we study this heuristic learning paradigm for link prediction. First, we develop a novel γ-decaying heuristic theory. The theory unifies a wide range of heuristics in a single framework, and proves that all these heuristics can be well approximated from local subgraphs. Our results show that local subgraphs reserve rich information related to link existence. Second, based on the γ-decaying theory, we propose a new method to learn heuristics from local subgraphs using a graph neural network (GNN). Its experimental results show unprecedented performance, working consistently well on a wide range of problems.
translated by 谷歌翻译
Infomap是一种流行的方法,用于检测网络中节点的密度连接的“社区”。要检测此类社区,它建立在标准类型的马尔可夫链和信息理论中的想法。通过在网络上传播的疾病动态的动机,其节点可能具有异质疾病脱模速率,我们将Infomap扩展到吸收随机散步。为此,我们使用吸收缩放的图形,其中边缘权重根据吸收率缩放,以及马尔可夫时间扫描。我们的Infomap的一个扩展之一会聚到Infomap的标准版本,其中吸收率接近$ 0 $。我们发现,使用我们的Infomap扩展检测的社区结构可以从社区结构中显着不同,即一个使用不考虑节点吸收率的方法检测。此外,我们表明,局部动态引起的社区结构可以对环形格网络上的敏感感染恢复(SIR)动力学产生重要意义。例如,我们发现在适度数量的节点具有大的节点吸收率时,爆发持续时间最大化的情况。我们还使用我们的Infomap扩展来研究性接触网络中的社区结构。我们认为社区结构,与网络中无家可归者的不同吸收率相对应,以及对网络上的梅毒动力学的相关影响。我们观察到,当无家可归者人口中的治疗率低于其他人群时,当治疗率较低时,最终爆发规模可能会比其他人口相同。
translated by 谷歌翻译
一组广泛建立的无监督节点嵌入方法可以解释为由两个独特的步骤组成:i)基于兴趣图的相似性矩阵的定义,然后是II)ii)该矩阵的明确或隐式因素化。受这个观点的启发,我们提出了框架的两个步骤的改进。一方面,我们建议根据自由能距离编码节点相似性,该自由能距离在最短路径和通勤时间距离之间进行了插值,从而提供了额外的灵活性。另一方面,我们根据损耗函数提出了一种基质分解方法,该方法将Skip-Gram模型的损失函数推广到任意相似性矩阵。与基于广泛使用的$ \ ell_2 $损失的因素化相比,该方法可以更好地保留与较高相似性分数相关的节点对。此外,它可以使用高级自动分化工具包轻松实现,并通过利用GPU资源进行有效计算。在现实世界数据集上的节点聚类,节点分类和链接预测实验证明了与最先进的替代方案相比,合并基于自由能的相似性以及所提出的矩阵分解的有效性。
translated by 谷歌翻译
我们考虑在维护生成的图形的实用程序时生成包含私人信息的实际综合版本的实际综合版本的问题。差异隐私是数据隐私的金标准,差异私有随机梯度下降(DP-SGD)算法的引入已经促进了许多域中的私人神经模型的培训。通过深度生成网络的图形生成的最新进展已经产生了几种高性能的模型。我们评估和比较包括基于邻接矩阵的模型和基于边缘模型的最先进的模型,并显示了在常用的图形数据集上评估时利用高斯噪声机制的实际实现。基于我们的研究结果,我们提出了一种生成模型,可以在保持边缘差异隐私的同时重现现实网络的特性。所提出的模型基于随机神经网络,其产生分立边缘列表样本,并使用与DP-SGD Optimizer的Wassersein GaN目标训练。作为结合这些有益特性的第一种方法,我们的模型有助于进一步研究图表数据隐私。
translated by 谷歌翻译
复杂网络分析的最新进展为不同领域的应用开辟了广泛的可能性。网络分析的功能取决于节点特征。基于拓扑的节点特征是对局部和全局空间关系和节点连接结构的实现。因此,收集有关节点特征的正确信息和相邻节点的连接结构在复杂网络分析中在节点分类和链接预测中起着最突出的作用。目前的工作介绍了一种新的特征抽象方法,即基于嵌入匿名随机步行向量上的匿名随机步行,即过渡概率矩阵(TPM)。节点特征向量由从预定义半径中的一组步行中获得的过渡概率组成。过渡概率与局部连接结构直接相关,因此正确嵌入到特征向量上。在节点识别/分类中测试了建议的嵌入方法的成功,并在三个常用的现实世界网络上进行了链接预测。在现实世界网络中,具有相似连接结构的节点很常见。因此,从类似网络中获取新网络预测的信息是一种显着特征,它使所提出的算法在跨网络概括任务方面优于最先进的算法。
translated by 谷歌翻译
Prediction tasks over nodes and edges in networks require careful effort in engineering features used by learning algorithms. Recent research in the broader field of representation learning has led to significant progress in automating prediction by learning the features themselves. However, present feature learning approaches are not expressive enough to capture the diversity of connectivity patterns observed in networks.Here we propose node2vec, an algorithmic framework for learning continuous feature representations for nodes in networks. In node2vec, we learn a mapping of nodes to a low-dimensional space of features that maximizes the likelihood of preserving network neighborhoods of nodes. We define a flexible notion of a node's network neighborhood and design a biased random walk procedure, which efficiently explores diverse neighborhoods. Our algorithm generalizes prior work which is based on rigid notions of network neighborhoods, and we argue that the added flexibility in exploring neighborhoods is the key to learning richer representations.We demonstrate the efficacy of node2vec over existing state-ofthe-art techniques on multi-label classification and link prediction in several real-world networks from diverse domains. Taken together, our work represents a new way for efficiently learning stateof-the-art task-independent representations in complex networks.
translated by 谷歌翻译
图形嵌入,代表数值向量的本地和全局邻域信息,是广泛的现实系统数学建模的关键部分。在嵌入算法中,事实证明,基于步行的随机算法非常成功。这些算法通过创建许多随机步行,并重新定义步骤来收集信息。创建随机步行是嵌入过程中最苛刻的部分。计算需求随着网络的规模而增加。此外,对于现实世界网络,考虑到相同基础上的所有节点,低度节点的丰度都会造成不平衡的数据问题。在这项工作中,提出了一种计算较少且节点连接性统一抽样方法。在提出的方法中,随机步行的数量与节点的程度成比例地创建。当将算法应用于大图时,所提出的算法的优点将变得更加增强。提出了使用两个网络(即Cora和Citeseer)进行比较研究。与固定数量的步行情况相比,提出的方法需要减少50%的计算工作,以达到节点分类和链接预测计算的相同精度。
translated by 谷歌翻译
单纯性神经网络(SNN)最近被出现为图表学习中最新方向,这扩大了从节点空间到图形上的单纯复合体的卷积体系结构的想法。在目前的实践中,单纯复合资源允许我们描述高阶交互和多节点图结构的节点中的节点之间的成对关系进行预先定位通过在卷积操作和新块Hodge-Laplacian之间建立连接时,我们提出了第一个用于链接预测的SNN。我们的新块单纯性复杂神经网络(BSCNET)模型通过系统地掺入不同尺寸的多个高阶图结构之间的突出相互作用来推广现有的图形卷积网络(GCN)框架。我们讨论BSCNET背后的理论基础,并说明了其在八个现实世界和合成数据集上的链接预测的实用性。我们的实验表明,BSCNETS在保持低计算成本的同时优于最先进的模型,同时保持最高的余量。最后,我们展示了BSCnets作为追踪Covid-19等传染病传播的新有前途的替代品,并测量医疗保障风险缓解策略的有效性。
translated by 谷歌翻译
Inferring missing links or detecting spurious ones based on observed graphs, known as link prediction, is a long-standing challenge in graph data analysis. With the recent advances in deep learning, graph neural networks have been used for link prediction and have achieved state-of-the-art performance. Nevertheless, existing methods developed for this purpose are typically discriminative, computing features of local subgraphs around two neighboring nodes and predicting potential links between them from the perspective of subgraph classification. In this formalism, the selection of enclosing subgraphs and heuristic structural features for subgraph classification significantly affects the performance of the methods. To overcome this limitation, this paper proposes a novel and radically different link prediction algorithm based on the network reconstruction theory, called GraphLP. Instead of sampling positive and negative links and heuristically computing the features of their enclosing subgraphs, GraphLP utilizes the feature learning ability of deep-learning models to automatically extract the structural patterns of graphs for link prediction under the assumption that real-world graphs are not locally isolated. Moreover, GraphLP explores high-order connectivity patterns to utilize the hierarchical organizational structures of graphs for link prediction. Our experimental results on all common benchmark datasets from different applications demonstrate that the proposed method consistently outperforms other state-of-the-art methods. Unlike the discriminative neural network models used for link prediction, GraphLP is generative, which provides a new paradigm for neural-network-based link prediction.
translated by 谷歌翻译
图嵌入方法旨在通过将节点映射到低维矢量空间来查找有用的图表。这是一项具有重要下游应用程序的任务,例如链接预测,图形重建,数据可视化,节点分类和语言建模。近年来,图形嵌入领域见证了从线性代数方法转向基于局部的优化方法,结合了随机步行和深神经网络,以解决嵌入大图的问题。但是,尽管优化工具有所改进,但图形嵌入方法仍然是一般设计的,以忽略现实生活网络的特殊性的方式。确实,近年来,理解和建模复杂的现实生活网络取得了重大进展。但是,获得的结果对嵌入算法的发展产生了很小的影响。本文旨在通过设计一种图形嵌入方法来解决此问题,该方法利用网络科学领域的最新有价值的见解。更确切地说,我们基于普及性相似性和局部吸引力范例提出了一种新颖的图形嵌入方法。我们在大量现实生活网络上评估了在链接预测任务上提出的方法的性能。我们使用广泛的实验分析表明,所提出的方法优于嵌入算法的最先进的图。我们还证明了它对数据稀缺性和嵌入维度的选择的稳健性。
translated by 谷歌翻译
在过去的二十年中,我们目睹了以图形或网络形式构建的有价值的大数据的大幅增长。为了将传统的机器学习和数据分析技术应用于此类数据,有必要将图形转换为基于矢量的表示,以保留图形最重要的结构属性。为此,文献中已经提出了大量的图形嵌入方法。它们中的大多数产生了适用于各种应用的通用嵌入,例如节点聚类,节点分类,图形可视化和链接预测。在本文中,我们提出了两个新的图形嵌入算法,这些算法是基于专门为节点分类问题设计的随机步道。已设计算法的随机步行采样策略旨在特别注意集线器 - 高度节点,这些节点在大规模图中具有最关键的作用。通过分析对现实世界网络嵌入的三种分类算法的分类性能,对所提出的方法进行实验评估。获得的结果表明,与当前最流行的随机步行方法相比,我们的方法可大大提高所检查分类器的预测能力(NODE2VEC)。
translated by 谷歌翻译
能够推荐在线社交网络中用户之间的链接对于用户与志趣相投的个人以及利用社交媒体信息发展业务的平台本身和第三方联系很重要。预测通常基于无监督或监督的学习,通常利用简单而有效的图形拓扑信息,例如普通邻居的数量。但是,我们认为有关个人个人社会结构的更丰富信息可能会带来更好的预测。在本文中,我们建议利用良好的社会认知理论来提高链接预测绩效。根据这些理论,个人平均将自己的社会关系安排在五个同心圆下,以减少亲密关系。我们假设不同圈子中的关系在预测新链接方面具有不同的重要性。为了验证这一主张,我们专注于流行的功能萃取预测算法(既无监督和监督),并将其扩展到包括社交圈的意识。我们验证了这些圆圈感知算法对几个基准测试的预测性能(包括其基线版本以及基于节点的链接和GNN链接预测),利用了两个Twitter数据集,其中包括一个视频游戏玩家和通用用户的社区。我们表明,社会意识通常可以在预测绩效方面有重大改进,击败了Node2Vec和Seal等最新解决方案,而不会增加计算复杂性。最后,我们表明可以使用社交意识来代替针对特定类别用户的分类器(可能是昂贵或不切实际)的。
translated by 谷歌翻译
Data mining algorithms are facing the challenge to deal with an increasing number of complex objects. For graph data, a whole toolbox of data mining algorithms becomes available by defining a kernel function on instances of graphs. Graph kernels based on walks, subtrees and cycles in graphs have been proposed so far. As a general problem, these kernels are either computationally expensive or limited in their expressiveness. We try to overcome this problem by defining expressive graph kernels which are based on paths. As the computation of all paths and longest paths in a graph is NP-hard, we propose graph kernels based on shortest paths. These kernels are computable in polynomial time, retain expressivity and are still positive definite. In experiments on classification of graph models of proteins, our shortest-path kernels show significantly higher classification accuracy than walk-based kernels.
translated by 谷歌翻译
网络表示学习(NRL)方法在过去几年中受到了重大关注,因此由于它们在几个图形分析问题中的成功,包括节点分类,链路预测和聚类。这种方法旨在以一种保留网络的结构信息的方式将网络的每个顶点映射到低维空间中。特别感兴趣的是基于随机行走的方法;这些方法将网络转换为节点序列的集合,旨在通过预测序列内每个节点的上下文来学习节点表示。在本文中,我们介绍了一种通用框架,以增强通过基于主题信息的随机行走方法获取的节点的嵌入。类似于自然语言处理中局部单词嵌入的概念,所提出的模型首先将每个节点分配给潜在社区,并有利于各种统计图模型和社区检测方法,然后了解增强的主题感知表示。我们在两个下游任务中评估我们的方法:节点分类和链路预测。实验结果表明,通过纳入节点和社区嵌入,我们能够以广泛的广泛的基线NRL模型表明。
translated by 谷歌翻译
近年来,对图表的研究受到了极大的关注。但是,到目前为止,大多数研究都集中在单层图的嵌入上。涉及多层结构的表示问题问题的少数研究取决于以下强烈的假设:层间链接是已知的,这限制了可能的应用范围。在这里,我们提出了多层,这是允许嵌入多重网络的图形算法的概括。我们表明,多层能够重建层内和层间连接性,超过了图形,该图是为简单图形而设计的。接下来,通过全面的实验分析,我们还以简单和多重网络中的嵌入性能阐明,表明图的密度或链接的随机性都会强烈影响嵌入的质量。
translated by 谷歌翻译