图形嵌入,代表数值向量的本地和全局邻域信息,是广泛的现实系统数学建模的关键部分。在嵌入算法中,事实证明,基于步行的随机算法非常成功。这些算法通过创建许多随机步行,并重新定义步骤来收集信息。创建随机步行是嵌入过程中最苛刻的部分。计算需求随着网络的规模而增加。此外,对于现实世界网络,考虑到相同基础上的所有节点,低度节点的丰度都会造成不平衡的数据问题。在这项工作中,提出了一种计算较少且节点连接性统一抽样方法。在提出的方法中,随机步行的数量与节点的程度成比例地创建。当将算法应用于大图时,所提出的算法的优点将变得更加增强。提出了使用两个网络(即Cora和Citeseer)进行比较研究。与固定数量的步行情况相比,提出的方法需要减少50%的计算工作,以达到节点分类和链接预测计算的相同精度。
translated by 谷歌翻译
复杂网络分析的最新进展为不同领域的应用开辟了广泛的可能性。网络分析的功能取决于节点特征。基于拓扑的节点特征是对局部和全局空间关系和节点连接结构的实现。因此,收集有关节点特征的正确信息和相邻节点的连接结构在复杂网络分析中在节点分类和链接预测中起着最突出的作用。目前的工作介绍了一种新的特征抽象方法,即基于嵌入匿名随机步行向量上的匿名随机步行,即过渡概率矩阵(TPM)。节点特征向量由从预定义半径中的一组步行中获得的过渡概率组成。过渡概率与局部连接结构直接相关,因此正确嵌入到特征向量上。在节点识别/分类中测试了建议的嵌入方法的成功,并在三个常用的现实世界网络上进行了链接预测。在现实世界网络中,具有相似连接结构的节点很常见。因此,从类似网络中获取新网络预测的信息是一种显着特征,它使所提出的算法在跨网络概括任务方面优于最先进的算法。
translated by 谷歌翻译
网络表示学习(NRL)方法在过去几年中受到了重大关注,因此由于它们在几个图形分析问题中的成功,包括节点分类,链路预测和聚类。这种方法旨在以一种保留网络的结构信息的方式将网络的每个顶点映射到低维空间中。特别感兴趣的是基于随机行走的方法;这些方法将网络转换为节点序列的集合,旨在通过预测序列内每个节点的上下文来学习节点表示。在本文中,我们介绍了一种通用框架,以增强通过基于主题信息的随机行走方法获取的节点的嵌入。类似于自然语言处理中局部单词嵌入的概念,所提出的模型首先将每个节点分配给潜在社区,并有利于各种统计图模型和社区检测方法,然后了解增强的主题感知表示。我们在两个下游任务中评估我们的方法:节点分类和链路预测。实验结果表明,通过纳入节点和社区嵌入,我们能够以广泛的广泛的基线NRL模型表明。
translated by 谷歌翻译
图表上的表示学习(也称为图形嵌入)显示了其对一系列机器学习应用程序(例如分类,预测和建议)的重大影响。但是,现有的工作在很大程度上忽略了现代应用程序中图和边缘的属性(或属性)中包含的丰富信息,例如,属性图表示的节点和边缘。迄今为止,大多数现有的图形嵌入方法要么仅关注具有图形拓扑的普通图,要么仅考虑节点上的属性。我们提出了PGE,这是一个图形表示学习框架,该框架将节点和边缘属性都包含到图形嵌入过程中。 PGE使用节点聚类来分配偏差来区分节点的邻居,并利用多个数据驱动的矩阵来汇总基于偏置策略采样的邻居的属性信息。 PGE采用了流行的邻里聚合归纳模型。我们通过显示PGE如何实现更好的嵌入结果的详细分析,并验证PGE的性能,而不是最新的嵌入方法嵌入方法在基准应用程序上的嵌入方法,例如节点分类和对现实世界中的链接预测数据集。
translated by 谷歌翻译
Prediction tasks over nodes and edges in networks require careful effort in engineering features used by learning algorithms. Recent research in the broader field of representation learning has led to significant progress in automating prediction by learning the features themselves. However, present feature learning approaches are not expressive enough to capture the diversity of connectivity patterns observed in networks.Here we propose node2vec, an algorithmic framework for learning continuous feature representations for nodes in networks. In node2vec, we learn a mapping of nodes to a low-dimensional space of features that maximizes the likelihood of preserving network neighborhoods of nodes. We define a flexible notion of a node's network neighborhood and design a biased random walk procedure, which efficiently explores diverse neighborhoods. Our algorithm generalizes prior work which is based on rigid notions of network neighborhoods, and we argue that the added flexibility in exploring neighborhoods is the key to learning richer representations.We demonstrate the efficacy of node2vec over existing state-ofthe-art techniques on multi-label classification and link prediction in several real-world networks from diverse domains. Taken together, our work represents a new way for efficiently learning stateof-the-art task-independent representations in complex networks.
translated by 谷歌翻译
局部内在维度(LID)的概念是数据维度分析的重要进步,并在数据挖掘,机器学习和相似性搜索问题中应用了。现有的基于距离的盖估计器设计用于包含欧几里得空间中向量的数据点的表格数据集。在讨论了考虑图嵌入和图形距离的图形结构数据的局限性之后,我们提出了NC-lid,这是一种与盖子相关的新型措施,用于量化最短路径距离相对于自然群落的固有区域的歧视能力。它显示了如何使用该度量来设计嵌入算法的图形图,并通过根据NC-LID值调整了Node2VEC的两个LID弹性变体。我们对NC-LID对大量实际图表的经验分析表明,该措施能够指向Node2VEC嵌入中具有高链路重建错误的节点,而不是节点中心度指标。实验评估还表明,通过在生成的嵌入中更好地保​​留图形结构,提出的盖 - 弹性节点2VEC扩展可以改善节点2VEC。
translated by 谷歌翻译
在低维空间中节点的学习表示是一项至关重要的任务,在网络分析中具有许多有趣的应用,包括链接预测,节点分类和可视化。解决此问题的两种流行方法是矩阵分解和基于步行的随机模型。在本文中,我们旨在将两全其美的最好的人融合在一起,以学习节点表示。特别是,我们提出了一个加权矩阵分解模型,该模型编码有关网络节点的随机步行信息。这种新颖的表述的好处是,它使我们能够利用内核函数,而无需意识到确切的接近矩阵,从而增强现有矩阵分解方法的表达性,并减轻其计算复杂性。我们通过多个内核学习公式扩展了方法,该公式提供了学习内核作为以数据驱动方式的词典的线性组合的灵活性。我们在现实世界网络上执行经验评估,表明所提出的模型优于基线节点嵌入下游机器学习任务中的算法。
translated by 谷歌翻译
在过去的二十年中,我们目睹了以图形或网络形式构建的有价值的大数据的大幅增长。为了将传统的机器学习和数据分析技术应用于此类数据,有必要将图形转换为基于矢量的表示,以保留图形最重要的结构属性。为此,文献中已经提出了大量的图形嵌入方法。它们中的大多数产生了适用于各种应用的通用嵌入,例如节点聚类,节点分类,图形可视化和链接预测。在本文中,我们提出了两个新的图形嵌入算法,这些算法是基于专门为节点分类问题设计的随机步道。已设计算法的随机步行采样策略旨在特别注意集线器 - 高度节点,这些节点在大规模图中具有最关键的作用。通过分析对现实世界网络嵌入的三种分类算法的分类性能,对所提出的方法进行实验评估。获得的结果表明,与当前最流行的随机步行方法相比,我们的方法可大大提高所检查分类器的预测能力(NODE2VEC)。
translated by 谷歌翻译
图形嵌入是图形节点到一组向量的转换。良好的嵌入应捕获图形拓扑,节点与节点的关系以及有关图,其子图和节点的其他相关信息。如果实现了这些目标,则嵌入是网络中有意义的,可理解的,可理解的压缩表示形式,可用于其他机器学习工具,例如节点分类,社区检测或链接预测。主要的挑战是,需要确保嵌入很好地描述图形的属性。结果,选择最佳嵌入是一项具有挑战性的任务,并且通常需要领域专家。在本文中,我们在现实世界网络和人为生成的网络上进行了一系列广泛的实验,并使用选定的图嵌入算法进行了一系列的实验。根据这些实验,我们制定了两个一般结论。首先,如果需要在运行实验之前选择一种嵌入算法,则Node2Vec是最佳选择,因为它在我们的测试中表现最好。话虽如此,在所有测试中都没有单一的赢家,此外,大多数嵌入算法都具有应该调整并随机分配的超参数。因此,如果可能的话,我们对从业者的主要建议是生成几个问题的嵌入,然后使用一个通用框架,该框架为无监督的图形嵌入比较提供了工具。该框架(最近在文献中引入并在GitHub存储库中很容易获得)将分歧分数分配给嵌入,以帮助区分好的分数和不良的分数。
translated by 谷歌翻译
Machine learning on graphs is an important and ubiquitous task with applications ranging from drug design to friendship recommendation in social networks. The primary challenge in this domain is finding a way to represent, or encode, graph structure so that it can be easily exploited by machine learning models. Traditionally, machine learning approaches relied on user-defined heuristics to extract features encoding structural information about a graph (e.g., degree statistics or kernel functions). However, recent years have seen a surge in approaches that automatically learn to encode graph structure into low-dimensional embeddings, using techniques based on deep learning and nonlinear dimensionality reduction. Here we provide a conceptual review of key advancements in this area of representation learning on graphs, including matrix factorization-based methods, random-walk based algorithms, and graph neural networks. We review methods to embed individual nodes as well as approaches to embed entire (sub)graphs. In doing so, we develop a unified framework to describe these recent approaches, and we highlight a number of important applications and directions for future work.
translated by 谷歌翻译
We present DeepWalk, a novel approach for learning latent representations of vertices in a network. These latent representations encode social relations in a continuous vector space, which is easily exploited by statistical models. Deep-Walk generalizes recent advancements in language modeling and unsupervised feature learning (or deep learning) from sequences of words to graphs.DeepWalk uses local information obtained from truncated random walks to learn latent representations by treating walks as the equivalent of sentences. We demonstrate DeepWalk's latent representations on several multi-label network classification tasks for social networks such as Blog-Catalog, Flickr, and YouTube. Our results show that Deep-Walk outperforms challenging baselines which are allowed a global view of the network, especially in the presence of missing information. DeepWalk's representations can provide F1 scores up to 10% higher than competing methods when labeled data is sparse. In some experiments, Deep-Walk's representations are able to outperform all baseline methods while using 60% less training data.DeepWalk is also scalable. It is an online learning algorithm which builds useful incremental results, and is trivially parallelizable. These qualities make it suitable for a broad class of real world applications such as network classification, and anomaly detection.
translated by 谷歌翻译
图表表示学习是一种快速增长的领域,其中一个主要目标是在低维空间中产生有意义的图形表示。已经成功地应用了学习的嵌入式来执行各种预测任务,例如链路预测,节点分类,群集和可视化。图表社区的集体努力提供了数百种方法,但在所有评估指标下没有单一方法擅长,例如预测准确性,运行时间,可扩展性等。该调查旨在通过考虑算法来评估嵌入方法的所有主要类别的图表变体,参数选择,可伸缩性,硬件和软件平台,下游ML任务和多样化数据集。我们使用包含手动特征工程,矩阵分解,浅神经网络和深图卷积网络的分类法组织了图形嵌入技术。我们使用广泛使用的基准图表评估了节点分类,链路预测,群集和可视化任务的这些类别算法。我们在Pytorch几何和DGL库上设计了我们的实验,并在不同的多核CPU和GPU平台上运行实验。我们严格地审查了各种性能指标下嵌入方法的性能,并总结了结果。因此,本文可以作为比较指南,以帮助用户选择最适合其任务的方法。
translated by 谷歌翻译
神经网络的最新进步已经解决了常见的图表问题,例如链路预测,节点分类,节点聚类,通过将实体和关系的嵌入和关系开发到向量空间中来看。绘图嵌入式对图中存在的结构信息进行编码。然后,编码嵌入式可用于预测图中的缺失链接。然而,获得图表的最佳嵌入可以是嵌入式系统中的计算具有挑战性的任务。我们在这项工作中专注的两种技术是1)节点嵌入来自随机步行的方法和2)知识图形嵌入。随机播放的嵌入物是计算地廉价的,但是是次优的,而知识图形嵌入物表现更好,但是计算得昂贵。在这项工作中,我们研究了转换从基于随机步行方法获得的节点嵌入的转换模型,以直接从知识图方法获得的嵌入,而不会增加计算成本。广泛的实验表明,所提出的变换模型可用于实时解决链路预测。
translated by 谷歌翻译
序列在许多真实的情况下出现;因此,识别符号生成背后的机制对于理解许多复杂系统至关重要。本文分析了在网络拓扑上行走的代理产生的序列。鉴于在许多实际情况下,生成序列的基础过程是隐藏的,我们研究了通过共发生方法重建网络是否对恢复网络拓扑和代理动力学生成序列很有用。我们发现,重建网络的表征提供了有关用于创建序列的过程和拓扑的有价值的信息。在考虑16种网络拓扑和代理动力学组合的机器学习方法中,我们获得了87%的精度,序列生成的序列少于访问量的少于40%。事实证明,较大的序列可以生成改进的机器学习模型。我们的发现表明,可以扩展所提出的方法以对序列进行分类并了解序列产生背后的机制。
translated by 谷歌翻译
时间图代表实体之间的动态关系,并发生在许多现实生活中的应用中,例如社交网络,电子商务,通信,道路网络,生物系统等。他们需要根据其生成建模和表示学习的研究超出与静态图有关的研究。在这项调查中,我们全面回顾了近期针对处理时间图提出的神经时间依赖图表的学习和生成建模方法。最后,我们确定了现有方法的弱点,并讨论了我们最近发表的论文提格的研究建议[24]。
translated by 谷歌翻译
Community detection is the task of discovering groups of nodes sharing similar patterns within a network. With recent advancements in deep learning, methods utilizing graph representation learning and deep clustering have shown great results in community detection. However, these methods often rely on the topology of networks (i) ignoring important features such as network heterogeneity, temporality, multimodality, and other possibly relevant features. Besides, (ii) the number of communities is not known a priori and is often left to model selection. In addition, (iii) in multimodal networks all nodes are assumed to be symmetrical in their features; while true for homogeneous networks, most of the real-world networks are heterogeneous where feature availability often varies. In this paper, we propose a novel framework (named MGTCOM) that overcomes the above challenges (i)--(iii). MGTCOM identifies communities through multimodal feature learning by leveraging a new sampling technique for unsupervised learning of temporal embeddings. Importantly, MGTCOM is an end-to-end framework optimizing network embeddings, communities, and the number of communities in tandem. In order to assess its performance, we carried out an extensive evaluation on a number of multimodal networks. We found out that our method is competitive against state-of-the-art and performs well in inductive inference.
translated by 谷歌翻译
复杂的网络是代表现实生活系统的图形,这些系统表现出独特的特征,这些特征在纯粹的常规或完全随机的图中未发现。由于基础过程的复杂性,对此类系统的研究至关重要,但具有挑战性。然而,由于大量网络数据的可用性,近几十年来,这项任务变得更加容易。复杂网络中的链接预测旨在估计网络中缺少两个节点之间的链接的可能性。由于数据收集的不完美或仅仅是因为它们尚未出现,因此可能会缺少链接。发现网络数据中实体之间的新关系吸引了研究人员在社会学,计算机科学,物理学和生物学等各个领域的关注。大多数现有研究的重点是无向复杂网络中的链接预测。但是,并非所有现实生活中的系统都可以忠实地表示为无向网络。当使用链接预测算法时,通常会做出这种简化的假设,但不可避免地会导致有关节点之间关系和预测性能中降解的信息的丢失。本文介绍了针对有向网络的明确设计的链接预测方法。它基于相似性范式,该范式最近已证明在无向网络中成功。提出的算法通过在相似性和受欢迎程度上将其建模为不对称性来处理节点关系中的不对称性。鉴于观察到的网络拓扑结构,该算法将隐藏的相似性近似为最短路径距离,并使用边缘权重捕获并取消链接的不对称性和节点的受欢迎程度。在现实生活中评估了所提出的方法,实验结果证明了其在预测各种网络数据类型和大小的丢失链接方面的有效性。
translated by 谷歌翻译
一组广泛建立的无监督节点嵌入方法可以解释为由两个独特的步骤组成:i)基于兴趣图的相似性矩阵的定义,然后是II)ii)该矩阵的明确或隐式因素化。受这个观点的启发,我们提出了框架的两个步骤的改进。一方面,我们建议根据自由能距离编码节点相似性,该自由能距离在最短路径和通勤时间距离之间进行了插值,从而提供了额外的灵活性。另一方面,我们根据损耗函数提出了一种基质分解方法,该方法将Skip-Gram模型的损失函数推广到任意相似性矩阵。与基于广泛使用的$ \ ell_2 $损失的因素化相比,该方法可以更好地保留与较高相似性分数相关的节点对。此外,它可以使用高级自动分化工具包轻松实现,并通过利用GPU资源进行有效计算。在现实世界数据集上的节点聚类,节点分类和链接预测实验证明了与最先进的替代方案相比,合并基于自由能的相似性以及所提出的矩阵分解的有效性。
translated by 谷歌翻译
近年来,图形嵌入技术导致了重大进展。然而,目前的技术不足以捕获网络的模式。本文提出了邻居2VEC,一种基于邻居的采样策略使用算法来学习节点的邻域表示,通过节点与其邻居之间的特征传播来收集结构信息的框架。我们声称,邻居2VEC是一种简单有效的方法来提高可扩展性以及图形嵌入的平等,并且它破坏了现有最先进的无监督技术的限制。我们对诸如OGBN-ARXIV,OGBN-产品,OGBN-蛋白,OGBL-PPA,OGBL-COLLAB和OGBL-CTITE2等网络的多个节点分类和链路预测任务进行实验。结果表明,邻居2VEC的表示提供了比节点分类任务中的竞争方法高达6.8%的平均精度,以及链路预测任务中的3.0%。邻居2VEC的表示能够在所有六个实验中优于所有基线方法和两个古典GNN模型。
translated by 谷歌翻译
许多复杂网络的结构包括其拓扑顶部的边缘方向性和权重。可以无缝考虑这些属性组合的网络分析是可取的。在本文中,我们研究了两个重要的这样的网络分析技术,即中心和聚类。采用信息流基于集群的模型,该模型本身就是在计算中心的信息定理措施时构建。我们的主要捐款包括马尔可夫熵中心的广义模型,灵活地调整节点度,边缘权重和方向的重要性,具有闭合形式的渐近分析。它导致一种新颖的两级图形聚类算法。中心分析有助于推理我们对给定图形的方法的适用性,并确定探索当地社区结构的“查询”节点,从而导致群集聚类机制。熵中心计算由我们的聚类算法摊销,使其计算得高效:与使用马尔可夫熵中心为聚类的先前方法相比,我们的实验表明了多个速度的速度。我们的聚类算法自然地继承了适应边缘方向性的灵活性,以及​​边缘权重和节点度之间的不同解释和相互作用。总的来说,本文不仅具有显着的理论和概念贡献,还转化为实际相关性的文物,产生新的,有效和可扩展的中心计算和图形聚类算法,其有效通过广泛的基准测试进行了验证。
translated by 谷歌翻译