复杂的网络是代表现实生活系统的图形,这些系统表现出独特的特征,这些特征在纯粹的常规或完全随机的图中未发现。由于基础过程的复杂性,对此类系统的研究至关重要,但具有挑战性。然而,由于大量网络数据的可用性,近几十年来,这项任务变得更加容易。复杂网络中的链接预测旨在估计网络中缺少两个节点之间的链接的可能性。由于数据收集的不完美或仅仅是因为它们尚未出现,因此可能会缺少链接。发现网络数据中实体之间的新关系吸引了研究人员在社会学,计算机科学,物理学和生物学等各个领域的关注。大多数现有研究的重点是无向复杂网络中的链接预测。但是,并非所有现实生活中的系统都可以忠实地表示为无向网络。当使用链接预测算法时,通常会做出这种简化的假设,但不可避免地会导致有关节点之间关系和预测性能中降解的信息的丢失。本文介绍了针对有向网络的明确设计的链接预测方法。它基于相似性范式,该范式最近已证明在无向网络中成功。提出的算法通过在相似性和受欢迎程度上将其建模为不对称性来处理节点关系中的不对称性。鉴于观察到的网络拓扑结构,该算法将隐藏的相似性近似为最短路径距离,并使用边缘权重捕获并取消链接的不对称性和节点的受欢迎程度。在现实生活中评估了所提出的方法,实验结果证明了其在预测各种网络数据类型和大小的丢失链接方面的有效性。
translated by 谷歌翻译
图嵌入方法旨在通过将节点映射到低维矢量空间来查找有用的图表。这是一项具有重要下游应用程序的任务,例如链接预测,图形重建,数据可视化,节点分类和语言建模。近年来,图形嵌入领域见证了从线性代数方法转向基于局部的优化方法,结合了随机步行和深神经网络,以解决嵌入大图的问题。但是,尽管优化工具有所改进,但图形嵌入方法仍然是一般设计的,以忽略现实生活网络的特殊性的方式。确实,近年来,理解和建模复杂的现实生活网络取得了重大进展。但是,获得的结果对嵌入算法的发展产生了很小的影响。本文旨在通过设计一种图形嵌入方法来解决此问题,该方法利用网络科学领域的最新有价值的见解。更确切地说,我们基于普及性相似性和局部吸引力范例提出了一种新颖的图形嵌入方法。我们在大量现实生活网络上评估了在链接预测任务上提出的方法的性能。我们使用广泛的实验分析表明,所提出的方法优于嵌入算法的最先进的图。我们还证明了它对数据稀缺性和嵌入维度的选择的稳健性。
translated by 谷歌翻译
Clustering is a fundamental problem in network analysis that finds closely connected groups of nodes and separates them from other nodes in the graph, while link prediction is to predict whether two nodes in a network are likely to have a link. The definition of both naturally determines that clustering must play a positive role in obtaining accurate link prediction tasks. Yet researchers have long ignored or used inappropriate ways to undermine this positive relationship. In this article, We construct a simple but efficient clustering-driven link prediction framework(ClusterLP), with the goal of directly exploiting the cluster structures to obtain connections between nodes as accurately as possible in both undirected graphs and directed graphs. Specifically, we propose that it is easier to establish links between nodes with similar representation vectors and cluster tendencies in undirected graphs, while nodes in a directed graphs can more easily point to nodes similar to their representation vectors and have greater influence in their own cluster. We customized the implementation of ClusterLP for undirected and directed graphs, respectively, and the experimental results using multiple real-world networks on the link prediction task showed that our models is highly competitive with existing baseline models. The code implementation of ClusterLP and baselines we use are available at https://github.com/ZINUX1998/ClusterLP.
translated by 谷歌翻译
时间网络链接预测是网络科学领域的重要任务,并且在实际情况下具有广泛的应用。揭示网络的进化机制对于链接预测至关重要,如何有效利用历史信息来实现时间链接并有效提取网络结构的高阶模式仍然是一个至关重要的挑战。为了解决这些问题,在本文中,我们提出了一个具有调整后的Sigmoid函数和2-Simplex结构(TLPSS)的新型时间链接预测模型。调整后的Sigmoid衰减模式考虑了活跃,衰减和稳定的边缘状态,这适当适合信息的生命周期。此外,引入了由单纯形高阶结构组成的潜在矩阵序列,以增强链接预测方法的性能,因为它在稀疏网络中非常可行。结合信息的生命周期和单纯级结构,通过满足动态网络中时间和结构信息的一致性来实现TLPS的整体性能。六个现实世界数据集的实验结果证明了TLPS的有效性,与其他基线方法相比,我们提出的模型平均提高了链接预测的性能15%。
translated by 谷歌翻译
一组广泛建立的无监督节点嵌入方法可以解释为由两个独特的步骤组成:i)基于兴趣图的相似性矩阵的定义,然后是II)ii)该矩阵的明确或隐式因素化。受这个观点的启发,我们提出了框架的两个步骤的改进。一方面,我们建议根据自由能距离编码节点相似性,该自由能距离在最短路径和通勤时间距离之间进行了插值,从而提供了额外的灵活性。另一方面,我们根据损耗函数提出了一种基质分解方法,该方法将Skip-Gram模型的损失函数推广到任意相似性矩阵。与基于广泛使用的$ \ ell_2 $损失的因素化相比,该方法可以更好地保留与较高相似性分数相关的节点对。此外,它可以使用高级自动分化工具包轻松实现,并通过利用GPU资源进行有效计算。在现实世界数据集上的节点聚类,节点分类和链接预测实验证明了与最先进的替代方案相比,合并基于自由能的相似性以及所提出的矩阵分解的有效性。
translated by 谷歌翻译
Given a snapshot of a social network, can we infer which new interactions among its members are likely to occur in the near future? We formalize this question as the linkprediction problem, and we develop approaches to link prediction based on measures for analyzing the "proximity" of nodes in a network. Experiments on large coauthorship networks suggest that information about future interactions can be extracted from network topology alone, and that fairly subtle measures for detecting node proximity can outperform more direct measures.
translated by 谷歌翻译
能够推荐在线社交网络中用户之间的链接对于用户与志趣相投的个人以及利用社交媒体信息发展业务的平台本身和第三方联系很重要。预测通常基于无监督或监督的学习,通常利用简单而有效的图形拓扑信息,例如普通邻居的数量。但是,我们认为有关个人个人社会结构的更丰富信息可能会带来更好的预测。在本文中,我们建议利用良好的社会认知理论来提高链接预测绩效。根据这些理论,个人平均将自己的社会关系安排在五个同心圆下,以减少亲密关系。我们假设不同圈子中的关系在预测新链接方面具有不同的重要性。为了验证这一主张,我们专注于流行的功能萃取预测算法(既无监督和监督),并将其扩展到包括社交圈的意识。我们验证了这些圆圈感知算法对几个基准测试的预测性能(包括其基线版本以及基于节点的链接和GNN链接预测),利用了两个Twitter数据集,其中包括一个视频游戏玩家和通用用户的社区。我们表明,社会意识通常可以在预测绩效方面有重大改进,击败了Node2Vec和Seal等最新解决方案,而不会增加计算复杂性。最后,我们表明可以使用社交意识来代替针对特定类别用户的分类器(可能是昂贵或不切实际)的。
translated by 谷歌翻译
Inferring missing links or detecting spurious ones based on observed graphs, known as link prediction, is a long-standing challenge in graph data analysis. With the recent advances in deep learning, graph neural networks have been used for link prediction and have achieved state-of-the-art performance. Nevertheless, existing methods developed for this purpose are typically discriminative, computing features of local subgraphs around two neighboring nodes and predicting potential links between them from the perspective of subgraph classification. In this formalism, the selection of enclosing subgraphs and heuristic structural features for subgraph classification significantly affects the performance of the methods. To overcome this limitation, this paper proposes a novel and radically different link prediction algorithm based on the network reconstruction theory, called GraphLP. Instead of sampling positive and negative links and heuristically computing the features of their enclosing subgraphs, GraphLP utilizes the feature learning ability of deep-learning models to automatically extract the structural patterns of graphs for link prediction under the assumption that real-world graphs are not locally isolated. Moreover, GraphLP explores high-order connectivity patterns to utilize the hierarchical organizational structures of graphs for link prediction. Our experimental results on all common benchmark datasets from different applications demonstrate that the proposed method consistently outperforms other state-of-the-art methods. Unlike the discriminative neural network models used for link prediction, GraphLP is generative, which provides a new paradigm for neural-network-based link prediction.
translated by 谷歌翻译
复杂网络分析的最新进展为不同领域的应用开辟了广泛的可能性。网络分析的功能取决于节点特征。基于拓扑的节点特征是对局部和全局空间关系和节点连接结构的实现。因此,收集有关节点特征的正确信息和相邻节点的连接结构在复杂网络分析中在节点分类和链接预测中起着最突出的作用。目前的工作介绍了一种新的特征抽象方法,即基于嵌入匿名随机步行向量上的匿名随机步行,即过渡概率矩阵(TPM)。节点特征向量由从预定义半径中的一组步行中获得的过渡概率组成。过渡概率与局部连接结构直接相关,因此正确嵌入到特征向量上。在节点识别/分类中测试了建议的嵌入方法的成功,并在三个常用的现实世界网络上进行了链接预测。在现实世界网络中,具有相似连接结构的节点很常见。因此,从类似网络中获取新网络预测的信息是一种显着特征,它使所提出的算法在跨网络概括任务方面优于最先进的算法。
translated by 谷歌翻译
图形嵌入是将网络的节点转换为一组向量。良好的嵌入应捕获底层图形拓扑和结构,节点到节点关系以及图形,其子图和节点的其他相关信息。如果实现了这些目标,则嵌入是网络的有意义,可以理解的,通常是压缩的。不幸的是,选择最好的嵌入是一个具有挑战性的任务,并且通常需要域名专家。在本文中,我们扩展了评估作者最近引入的图形嵌入的框架。现在,该框架为每个嵌入的嵌入分配两个分数,本地和全局,测量评估嵌入的嵌入的质量,以便分别需要良好地表示网络的全局属性。如果需要,最好的嵌入可以以无监督的方式选择,或者框架可以识别一些值得进一步调查的少数嵌入。该框架灵活,可扩展,可以处理无向/定向,加权/未加权图。
translated by 谷歌翻译
Online Social Networks have embarked on the importance of connection strength measures which has a broad array of applications such as, analyzing diffusion behaviors, community detection, link predictions, recommender systems. Though there are some existing connection strength measures, the density that a connection shares with it's neighbors and the directionality aspect has not received much attention. In this paper, we have proposed an asymmetric edge similarity measure namely, Neighborhood Density-based Edge Similarity (NDES) which provides a fundamental support to derive the strength of connection. The time complexity of NDES is $O(nk^2)$. An application of NDES for community detection in social network is shown. We have considered a similarity based community detection technique and substituted its similarity measure with NDES. The performance of NDES is evaluated on several small real-world datasets in terms of the effectiveness in detecting communities and compared with three widely used similarity measures. Empirical results show NDES enables detecting comparatively better communities both in terms of accuracy and quality.
translated by 谷歌翻译
Most real-world networks suffer from incompleteness or incorrectness, which is an inherent attribute to real-world datasets. As a consequence, those downstream machine learning tasks in complex network like community detection methods may yield less satisfactory results, i.e., a proper preprocessing measure is required here. To address this issue, in this paper, we design a new community attribute based link prediction strategy HAP and propose a two-step community enhancement algorithm with automatic evolution process based on HAP. This paper aims at providing a community enhancement measure through adding links to clarify ambiguous community structures. The HAP method takes the neighbourhood uncertainty and Shannon entropy to identify boundary nodes, and establishes links by considering the nodes' community attributes and community size at the same time. The experimental results on twelve real-world datasets with ground truth community indicate that the proposed link prediction method outperforms other baseline methods and the enhancement of community follows the expected evolution process.
translated by 谷歌翻译
社交网络(SN)是一个由代表它们之间相互作用的群体组成的社会结构。 SNS最近被广泛使用,随后已成为产品推广和信息扩散的合适平台。 SN中的人们直接影响彼此的利益和行为。 SNS中最重要的问题之一是,如果选择将它们作为网络扩散场景的种子节点选择,那么他们可以以级联的方式对网络中的其他节点产生最大影响。有影响力的扩散器是人们,如果他们被选为网络中出版问题中的种子,那么该网络将拥有最多了解该扩散实体的人。这是称为影响最大化(IM)问题的文献中的一个众所周知的问题。尽管已证明这是一个NP完整的问题,并且在多项式时间内没有解决方案,但有人认为它具有子模块化功能的属性,因此可以使用贪婪的算法来解决。提出改善这种复杂性的大多数方法都是基于以下假设:整个图都是可见的。但是,此假设不适合许多真实世界图。进行了这项研究,以扩展使用链接预测技术与伪可见性图的电流最大化方法。为此,将一种称为指数随机图模型(ERGM)的图生成方法用于链接预测。使用斯坦福大学SNAP数据集的数据对所提出的方法进行了测试。根据实验测试,所提出的方法在现实世界图上有效。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
图表表示学习是一种快速增长的领域,其中一个主要目标是在低维空间中产生有意义的图形表示。已经成功地应用了学习的嵌入式来执行各种预测任务,例如链路预测,节点分类,群集和可视化。图表社区的集体努力提供了数百种方法,但在所有评估指标下没有单一方法擅长,例如预测准确性,运行时间,可扩展性等。该调查旨在通过考虑算法来评估嵌入方法的所有主要类别的图表变体,参数选择,可伸缩性,硬件和软件平台,下游ML任务和多样化数据集。我们使用包含手动特征工程,矩阵分解,浅神经网络和深图卷积网络的分类法组织了图形嵌入技术。我们使用广泛使用的基准图表评估了节点分类,链路预测,群集和可视化任务的这些类别算法。我们在Pytorch几何和DGL库上设计了我们的实验,并在不同的多核CPU和GPU平台上运行实验。我们严格地审查了各种性能指标下嵌入方法的性能,并总结了结果。因此,本文可以作为比较指南,以帮助用户选择最适合其任务的方法。
translated by 谷歌翻译
作为图表上链路预测的自然扩展,超链接预测的目的是推断超图中缺失的超链接,其中超链接可以连接两个以上的节点。超链接预测在从化学反应网络,社交通信网络到蛋白质 - 蛋白质相互作用网络的广泛系统中具有应用。在本文中,我们提供了有关超链接预测的系统和全面调查。我们提出了一种新的分类法,将现有的超链接预测方法分类为四类:基于相似性的基于概率,基于矩阵优化和基于深度学习的方法。为了比较来自不同类别的方法的性能,我们使用每个类别的代表性方法对各种超图应用进行了基准研究。值得注意的是,基于深度学习的方法比超链接预测中的其他方法占了上风。
translated by 谷歌翻译
图形嵌入,代表数值向量的本地和全局邻域信息,是广泛的现实系统数学建模的关键部分。在嵌入算法中,事实证明,基于步行的随机算法非常成功。这些算法通过创建许多随机步行,并重新定义步骤来收集信息。创建随机步行是嵌入过程中最苛刻的部分。计算需求随着网络的规模而增加。此外,对于现实世界网络,考虑到相同基础上的所有节点,低度节点的丰度都会造成不平衡的数据问题。在这项工作中,提出了一种计算较少且节点连接性统一抽样方法。在提出的方法中,随机步行的数量与节点的程度成比例地创建。当将算法应用于大图时,所提出的算法的优点将变得更加增强。提出了使用两个网络(即Cora和Citeseer)进行比较研究。与固定数量的步行情况相比,提出的方法需要减少50%的计算工作,以达到节点分类和链接预测计算的相同精度。
translated by 谷歌翻译
局部内在维度(LID)的概念是数据维度分析的重要进步,并在数据挖掘,机器学习和相似性搜索问题中应用了。现有的基于距离的盖估计器设计用于包含欧几里得空间中向量的数据点的表格数据集。在讨论了考虑图嵌入和图形距离的图形结构数据的局限性之后,我们提出了NC-lid,这是一种与盖子相关的新型措施,用于量化最短路径距离相对于自然群落的固有区域的歧视能力。它显示了如何使用该度量来设计嵌入算法的图形图,并通过根据NC-LID值调整了Node2VEC的两个LID弹性变体。我们对NC-LID对大量实际图表的经验分析表明,该措施能够指向Node2VEC嵌入中具有高链路重建错误的节点,而不是节点中心度指标。实验评估还表明,通过在生成的嵌入中更好地保​​留图形结构,提出的盖 - 弹性节点2VEC扩展可以改善节点2VEC。
translated by 谷歌翻译
许多复杂网络的结构包括其拓扑顶部的边缘方向性和权重。可以无缝考虑这些属性组合的网络分析是可取的。在本文中,我们研究了两个重要的这样的网络分析技术,即中心和聚类。采用信息流基于集群的模型,该模型本身就是在计算中心的信息定理措施时构建。我们的主要捐款包括马尔可夫熵中心的广义模型,灵活地调整节点度,边缘权重和方向的重要性,具有闭合形式的渐近分析。它导致一种新颖的两级图形聚类算法。中心分析有助于推理我们对给定图形的方法的适用性,并确定探索当地社区结构的“查询”节点,从而导致群集聚类机制。熵中心计算由我们的聚类算法摊销,使其计算得高效:与使用马尔可夫熵中心为聚类的先前方法相比,我们的实验表明了多个速度的速度。我们的聚类算法自然地继承了适应边缘方向性的灵活性,以及​​边缘权重和节点度之间的不同解释和相互作用。总的来说,本文不仅具有显着的理论和概念贡献,还转化为实际相关性的文物,产生新的,有效和可扩展的中心计算和图形聚类算法,其有效通过广泛的基准测试进行了验证。
translated by 谷歌翻译
链接预测旨在预测未直接可见的网络的链接,并在生物和社会系统中采用深刻的应用。尽管该任务中拓扑特征的大量利用,但尚不清楚可以在多大程度上利用特定功能来推断丢失的链接。在这里,我们表明拓扑特征的最大能力遵循一个简单的数学表达式,这与索引如何计量功能无关。因此,与一个拓扑特征相关的索引家族具有相同的性能限制。在监督预测中取消了功能的功能,与无监督的预测相比,这通常会产生更好的结果。550个结构上不同的网络在经验上验证了所见模式的普遍性,这些网络可用于特征选择和与链接预测中拓扑特征相关的网络特征分析。
translated by 谷歌翻译