我们研究大规模网络嵌入问题,旨在学习网络挖掘应用的低维潜在表示。网络嵌入领域的最新研究导致了大型进展,如深散,线,NetMF,NetSMF。然而,许多真实网络的巨大尺寸使得从整个网络学习网络嵌入的网络昂贵。在这项工作中,我们提出了一种新的网络嵌入方法,称为“NES”,其学习来自小型代表性子图的网络嵌入。 NES利用图表采样的理论,以有效地构建具有较小尺寸的代表性子图,该子图尺寸可用于对完整网络进行推断,使得能够显着提高嵌入学习的效率。然后,NES有效地计算从该代表子图嵌入的网络。与众所周知的方法相比,对各种规模和类型网络的广泛实验表明NES实现了可比性和显着的效率优势。
translated by 谷歌翻译
图表表示学习是一种快速增长的领域,其中一个主要目标是在低维空间中产生有意义的图形表示。已经成功地应用了学习的嵌入式来执行各种预测任务,例如链路预测,节点分类,群集和可视化。图表社区的集体努力提供了数百种方法,但在所有评估指标下没有单一方法擅长,例如预测准确性,运行时间,可扩展性等。该调查旨在通过考虑算法来评估嵌入方法的所有主要类别的图表变体,参数选择,可伸缩性,硬件和软件平台,下游ML任务和多样化数据集。我们使用包含手动特征工程,矩阵分解,浅神经网络和深图卷积网络的分类法组织了图形嵌入技术。我们使用广泛使用的基准图表评估了节点分类,链路预测,群集和可视化任务的这些类别算法。我们在Pytorch几何和DGL库上设计了我们的实验,并在不同的多核CPU和GPU平台上运行实验。我们严格地审查了各种性能指标下嵌入方法的性能,并总结了结果。因此,本文可以作为比较指南,以帮助用户选择最适合其任务的方法。
translated by 谷歌翻译
Since the invention of word2vec [28,29], the skip-gram model has significantly advanced the research of network embedding, such as the recent emergence of the DeepWalk, LINE, PTE, and node2vec approaches. In this work, we show that all of the aforementioned models with negative sampling can be unified into the matrix factorization framework with closed forms. Our analysis and proofs reveal that: (1) DeepWalk [31] empirically produces a low-rank transformation of a network's normalized Laplacian matrix; (2) LINE [37], in theory, is a special case of DeepWalk when the size of vertices' context is set to one; (3) As an extension of LINE, PTE [36] can be viewed as the joint factorization of multiple networks' Laplacians; (4) node2vec [16] is factorizing a matrix related to the stationary distribution and transition probability tensor of a 2nd-order random walk. We further provide the theoretical connections between skip-gram based network embedding algorithms and the theory of graph Laplacian. Finally, we present the NetMF method 1 as well as its approximation algorithm for computing network embedding. Our method offers significant improvements over DeepWalk and LINE for conventional network mining tasks. This work lays the theoretical foundation for skip-gram based network embedding methods, leading to a better understanding of latent network representation learning.
translated by 谷歌翻译
一组广泛建立的无监督节点嵌入方法可以解释为由两个独特的步骤组成:i)基于兴趣图的相似性矩阵的定义,然后是II)ii)该矩阵的明确或隐式因素化。受这个观点的启发,我们提出了框架的两个步骤的改进。一方面,我们建议根据自由能距离编码节点相似性,该自由能距离在最短路径和通勤时间距离之间进行了插值,从而提供了额外的灵活性。另一方面,我们根据损耗函数提出了一种基质分解方法,该方法将Skip-Gram模型的损失函数推广到任意相似性矩阵。与基于广泛使用的$ \ ell_2 $损失的因素化相比,该方法可以更好地保留与较高相似性分数相关的节点对。此外,它可以使用高级自动分化工具包轻松实现,并通过利用GPU资源进行有效计算。在现实世界数据集上的节点聚类,节点分类和链接预测实验证明了与最先进的替代方案相比,合并基于自由能的相似性以及所提出的矩阵分解的有效性。
translated by 谷歌翻译
在低维空间中节点的学习表示是一项至关重要的任务,在网络分析中具有许多有趣的应用,包括链接预测,节点分类和可视化。解决此问题的两种流行方法是矩阵分解和基于步行的随机模型。在本文中,我们旨在将两全其美的最好的人融合在一起,以学习节点表示。特别是,我们提出了一个加权矩阵分解模型,该模型编码有关网络节点的随机步行信息。这种新颖的表述的好处是,它使我们能够利用内核函数,而无需意识到确切的接近矩阵,从而增强现有矩阵分解方法的表达性,并减轻其计算复杂性。我们通过多个内核学习公式扩展了方法,该公式提供了学习内核作为以数据驱动方式的词典的线性组合的灵活性。我们在现实世界网络上执行经验评估,表明所提出的模型优于基线节点嵌入下游机器学习任务中的算法。
translated by 谷歌翻译
网络表示学习(NRL)方法在过去几年中受到了重大关注,因此由于它们在几个图形分析问题中的成功,包括节点分类,链路预测和聚类。这种方法旨在以一种保留网络的结构信息的方式将网络的每个顶点映射到低维空间中。特别感兴趣的是基于随机行走的方法;这些方法将网络转换为节点序列的集合,旨在通过预测序列内每个节点的上下文来学习节点表示。在本文中,我们介绍了一种通用框架,以增强通过基于主题信息的随机行走方法获取的节点的嵌入。类似于自然语言处理中局部单词嵌入的概念,所提出的模型首先将每个节点分配给潜在社区,并有利于各种统计图模型和社区检测方法,然后了解增强的主题感知表示。我们在两个下游任务中评估我们的方法:节点分类和链路预测。实验结果表明,通过纳入节点和社区嵌入,我们能够以广泛的广泛的基线NRL模型表明。
translated by 谷歌翻译
Prediction tasks over nodes and edges in networks require careful effort in engineering features used by learning algorithms. Recent research in the broader field of representation learning has led to significant progress in automating prediction by learning the features themselves. However, present feature learning approaches are not expressive enough to capture the diversity of connectivity patterns observed in networks.Here we propose node2vec, an algorithmic framework for learning continuous feature representations for nodes in networks. In node2vec, we learn a mapping of nodes to a low-dimensional space of features that maximizes the likelihood of preserving network neighborhoods of nodes. We define a flexible notion of a node's network neighborhood and design a biased random walk procedure, which efficiently explores diverse neighborhoods. Our algorithm generalizes prior work which is based on rigid notions of network neighborhoods, and we argue that the added flexibility in exploring neighborhoods is the key to learning richer representations.We demonstrate the efficacy of node2vec over existing state-ofthe-art techniques on multi-label classification and link prediction in several real-world networks from diverse domains. Taken together, our work represents a new way for efficiently learning stateof-the-art task-independent representations in complex networks.
translated by 谷歌翻译
图表是一个宇宙数据结构,广泛用于组织现实世界中的数据。像交通网络,社交和学术网络这样的各种实际网络网络可以由图表代表。近年来,目睹了在网络中代表顶点的快速发展,进入低维矢量空间,称为网络表示学习。表示学习可以促进图形数据上的新算法的设计。在本调查中,我们对网络代表学习的当前文献进行了全面审查。现有算法可以分为三组:浅埋模型,异构网络嵌入模型,图形神经网络的模型。我们为每个类别审查最先进的算法,并讨论这些算法之间的基本差异。调查的一个优点是,我们系统地研究了不同类别的算法底层的理论基础,这提供了深入的见解,以更好地了解网络表示学习领域的发展。
translated by 谷歌翻译
This paper studies the problem of embedding very large information networks into low-dimensional vector spaces, which is useful in many tasks such as visualization, node classification, and link prediction. Most existing graph embedding methods do not scale for real world information networks which usually contain millions of nodes. In this paper, we propose a novel network embedding method called the "LINE," which is suitable for arbitrary types of information networks: undirected, directed, and/or weighted. The method optimizes a carefully designed objective function that preserves both the local and global network structures. An edge-sampling algorithm is proposed that addresses the limitation of the classical stochastic gradient descent and improves both the effectiveness and the efficiency of the inference. Empirical experiments prove the effectiveness of the LINE on a variety of real-world information networks, including language networks, social networks, and citation networks. The algorithm is very efficient, which is able to learn the embedding of a network with millions of vertices and billions of edges in a few hours on a typical single machine. The source code of the LINE is available online. 1
translated by 谷歌翻译
图表上的表示学习(也称为图形嵌入)显示了其对一系列机器学习应用程序(例如分类,预测和建议)的重大影响。但是,现有的工作在很大程度上忽略了现代应用程序中图和边缘的属性(或属性)中包含的丰富信息,例如,属性图表示的节点和边缘。迄今为止,大多数现有的图形嵌入方法要么仅关注具有图形拓扑的普通图,要么仅考虑节点上的属性。我们提出了PGE,这是一个图形表示学习框架,该框架将节点和边缘属性都包含到图形嵌入过程中。 PGE使用节点聚类来分配偏差来区分节点的邻居,并利用多个数据驱动的矩阵来汇总基于偏置策略采样的邻居的属性信息。 PGE采用了流行的邻里聚合归纳模型。我们通过显示PGE如何实现更好的嵌入结果的详细分析,并验证PGE的性能,而不是最新的嵌入方法嵌入方法在基准应用程序上的嵌入方法,例如节点分类和对现实世界中的链接预测数据集。
translated by 谷歌翻译
Link prediction is a key problem for network-structured data. Link prediction heuristics use some score functions, such as common neighbors and Katz index, to measure the likelihood of links. They have obtained wide practical uses due to their simplicity, interpretability, and for some of them, scalability. However, every heuristic has a strong assumption on when two nodes are likely to link, which limits their effectiveness on networks where these assumptions fail. In this regard, a more reasonable way should be learning a suitable heuristic from a given network instead of using predefined ones. By extracting a local subgraph around each target link, we aim to learn a function mapping the subgraph patterns to link existence, thus automatically learning a "heuristic" that suits the current network. In this paper, we study this heuristic learning paradigm for link prediction. First, we develop a novel γ-decaying heuristic theory. The theory unifies a wide range of heuristics in a single framework, and proves that all these heuristics can be well approximated from local subgraphs. Our results show that local subgraphs reserve rich information related to link existence. Second, based on the γ-decaying theory, we propose a new method to learn heuristics from local subgraphs using a graph neural network (GNN). Its experimental results show unprecedented performance, working consistently well on a wide range of problems.
translated by 谷歌翻译
图表学习方法为解决图形所代表的复杂的现实世界问题打开了新的可能性。但是,这些应用程序中使用的许多图包括数百万节点和数十亿个边缘,并且超出了当前方法和软件实现的功能。我们提供葡萄,这是一种用于图形处理和表示学习的软件资源,能够通过使用专业和智能数据结构,算法和快速并行实现来通过大图扩展。与最先进的软件资源相比,葡萄显示出经验空间和时间复杂性的数量级的改善,以及边缘预测和节点标签预测性能的实质和统计学上的显着改善。此外,葡萄提供了来自文献和其他来源的80,000多种图,标准化界面允许直接整合第三方库,61个节点嵌入方法,25个推理模型和3个模块化管道,以允许公平且可重复的方法比较以及用于图形处理和嵌入的库。
translated by 谷歌翻译
Graph Convolutional Networks (GCNs) are powerful models for learning representations of attributed graphs. To scale GCNs to large graphs, state-of-the-art methods use various layer sampling techniques to alleviate the "neighbor explosion" problem during minibatch training. We propose GraphSAINT, a graph sampling based inductive learning method that improves training efficiency and accuracy in a fundamentally different way. By changing perspective, GraphSAINT constructs minibatches by sampling the training graph, rather than the nodes or edges across GCN layers. Each iteration, a complete GCN is built from the properly sampled subgraph. Thus, we ensure fixed number of well-connected nodes in all layers. We further propose normalization technique to eliminate bias, and sampling algorithms for variance reduction. Importantly, we can decouple the sampling from the forward and backward propagation, and extend GraphSAINT with many architecture variants (e.g., graph attention, jumping connection). GraphSAINT demonstrates superior performance in both accuracy and training time on five large graphs, and achieves new state-of-the-art F1 scores for PPI (0.995) and Reddit (0.970).
translated by 谷歌翻译
长期以来,通过在模拟的随机步行中将点的互信息(PMI)最大程度地减少了点的相互信息(PMI),从而实现了高质量的神经图嵌入。这种设计选择主要是通过直接应用嵌入算法Word2VEC的直接应用来预测社交,共同引文和生物网络中新链接的形成的。但是,这种图形嵌入方法的Skeuomormormormormormormormormormormormormormormormormormormormormormormormormorphic cop缩小了来自PMI低的节点对的信息。为了解决这个问题,我们提出了一种改进的方法来学习低级分解嵌入,这些方法结合了来自这种不太可能的节点的信息,并表明它可以改善基线方法的链接预测性能从1.2%提高到24.2%。根据我们的结果和观察,我们概述了进一步的步骤,这些步骤可以改善基于矩阵分解的下一个图形嵌入算法的设计。
translated by 谷歌翻译
学习在动态环境中网络的低维拓扑表示由于许多真实网络的时间不断发展而引起了很多关注。动态网络嵌入(DNE)的主要和共同目标是有效更新节点嵌入品,同时在每次步骤保留网络拓扑时。大多数现有DNE方法的想法是捕获受影响的节点(而不是所有节点)的拓扑变化,并因此更新节点嵌入。遗憾的是,这种近似虽然可以提高效率,但是在每次步骤中不能有效地保留动态网络的全局拓扑,因为没有考虑通过高阶接近传播的累积拓扑变化的非活动子网。为了解决这一挑战,我们提出了一种新颖的节点选择策略,以在网络上多移地选择代表节点,这与基于Skip-gram的嵌入方法的新增量学习范例协调。广泛的实验显示Glodyne,较小的节点部分被选中,可以实现优越或相当的性能W.R.T.在三个典型的下游任务中最先进的DNE方法。特别是,Glodyne显着优于图形重建任务中的其他方法,这表明了其全球拓扑保存能力。源代码可在https://github.com/houchengbin/glodyne获得
translated by 谷歌翻译
We present DeepWalk, a novel approach for learning latent representations of vertices in a network. These latent representations encode social relations in a continuous vector space, which is easily exploited by statistical models. Deep-Walk generalizes recent advancements in language modeling and unsupervised feature learning (or deep learning) from sequences of words to graphs.DeepWalk uses local information obtained from truncated random walks to learn latent representations by treating walks as the equivalent of sentences. We demonstrate DeepWalk's latent representations on several multi-label network classification tasks for social networks such as Blog-Catalog, Flickr, and YouTube. Our results show that Deep-Walk outperforms challenging baselines which are allowed a global view of the network, especially in the presence of missing information. DeepWalk's representations can provide F1 scores up to 10% higher than competing methods when labeled data is sparse. In some experiments, Deep-Walk's representations are able to outperform all baseline methods while using 60% less training data.DeepWalk is also scalable. It is an online learning algorithm which builds useful incremental results, and is trivially parallelizable. These qualities make it suitable for a broad class of real world applications such as network classification, and anomaly detection.
translated by 谷歌翻译
数据处理的最新进展刺激了对非常大尺度的学习图的需求。众所周知,图形神经网络(GNN)是解决图形学习任务的一种新兴和有力的方法,很难扩大规模。大多数可扩展模型应用基于节点的技术来简化GNN的昂贵图形消息传播过程。但是,我们发现当应用于百万甚至数十亿尺度的图表时,这种加速度不足。在这项工作中,我们提出了Scara,这是一种可扩展的GNN,具有针对图形计算的特征优化。 Scara有效地计算出从节点功能中嵌入的图形,并进一步选择和重用功能计算结果以减少开销。理论分析表明,我们的模型在传播过程以及GNN培训和推理中具有确保精度,实现了子线性时间的复杂性。我们在各种数据集上进行了广泛的实验,以评估圣aca的功效和效率。与基线的性能比较表明,与快速收敛和可比精度相比,与当前的最新方法相比,圣aca最高可达到100倍的图形传播加速度。最值得注意的是,在100秒内处理最大的十亿个GNN数据集纸100m(1.11亿节点,1.6B边缘)上的预先计算是有效的。
translated by 谷歌翻译
动态图是指结构随时间变化的图形。尽管学习顶点表示(即嵌入)对动态图的好处,但现有作品仅将动态图视为顶点连接中的一系列变化,忽略了这种动态的至关重要的异步性,在其中每个局部结构的演变都在每个局部结构开始在每个局部结构的演变开始,不同的时间和持续时间在各个持续时间内。为了在图中维持异步结构演变,我们将动态图作为与角度(TOV)和边缘(toe)的时间板相关的时间边缘序列进行创新。然后,提出了一个时间感知的变压器将顶点的动态连接和脚趾嵌入到学习的顶点表示中。同时,我们将每个边缘序列视为一个整体,并嵌入第一个顶点的TOV,以进一步编码时间敏感的信息。在几个数据集上进行了广泛的评估表明,我们的方法在广泛的图形挖掘任务中优于最先进的方法。同时,它非常有效且可扩展,可用于嵌入大规模的动态图。
translated by 谷歌翻译
通过提取和利用来自异构信息网络(HIN)的高阶信息的提取和利用模拟异质性,近年来一直在吸引巨大的研究关注。这种异构网络嵌入(HNE)方法有效地利用小规模旋流的异质性。然而,在现实世界中,随着新节点和不同类型的链路的连续引入,何种素数量呈指数级增长,使其成为十亿尺度的网络。在这种关链接上的学习节点嵌入式为现有的HNE方法进行了性能瓶颈,这些方法通常是集中的,即完成数据,并且模型都在单机上。为了满足强大的效率和有效性保障的大型HNE任务,我们呈现\纺织{分散嵌入框架的异构信息网络}(Dehin)。在Dehin中,我们生成一个分布式并行管道,它利用超图来注入到HNE任务中的并行化。 Dehin呈现了一种上下文保留的分区机制,可创新地将大HIN作为超图制定,其超高频连接语义相似的节点。我们的框架然后采用分散的策略来通过采用类似的树形管道来有效地分隔帖。然后,每个结果的子网被分配给分布式工作人员,该工作者采用深度信息最大化定理,从其接收的分区本地学习节点嵌入。我们进一步设计了一种新颖的嵌入对准方案,将独立学习的节点嵌入从所有子网嵌入到公共向量空间上的新颖嵌入对准方案,从而允许下游任务等链路预测和节点分类。
translated by 谷歌翻译
异质图卷积网络在解决异质网络数据的各种网络分析任务方面已广受欢迎,从链接预测到节点分类。但是,大多数现有作品都忽略了多型节点之间的多重网络的关系异质性,而在元路径中,元素嵌入中关系的重要性不同,这几乎无法捕获不同关系跨不同关系的异质结构信号。为了应对这一挑战,这项工作提出了用于异质网络嵌入的多重异质图卷积网络(MHGCN)。我们的MHGCN可以通过多层卷积聚合自动学习多重异质网络中不同长度的有用的异质元路径相互作用。此外,我们有效地将多相关结构信号和属性语义集成到学习的节点嵌入中,并具有无监督和精选的学习范式。在具有各种网络分析任务的五个现实世界数据集上进行的广泛实验表明,根据所有评估指标,MHGCN与最先进的嵌入基线的优势。
translated by 谷歌翻译