小型子图(Graphlets)是描述大型网络基本单元的重要特征。子图频率分布的计算在包括生物学和工程在内的多个领域中具有广泛的应用。不幸的是,由于该任务的固有复杂性,大多数现有方法在计算密集型且效率低下。在这项工作中,我们提出了GNNS,这是一个新颖的表示学习框架,该框架利用图神经网络有效地对子图进行了估算的频率分布。我们的框架包括一个推理模型和一个生成模型,该模型学习节点,子图和图形类型的层次结构嵌入。使用学习的模型和嵌入,以高度可扩展和并行的方式对子图进行采样,然后根据这些采样的子图执行频率分布估计。最终,与现有方法相比,我们的方法达到了可比的精度和显着的速度。
translated by 谷歌翻译
作为图理论中最基本的任务之一,子图匹配是许多领域的关键任务,范围从信息检索,计算机视觉,生物学,化学和自然语言处理。然而,子图匹配问题仍然是NP完整问题。这项研究提出了一种基于端到端学习的近似近似方法,用于匹配任务,称为子图匹配网络(子GMN)。所提出的子-GMN首先使用图表表示学习将节点映射到节点级嵌入。然后,它结合了度量学习和注意机制,以模拟数据图和查询图中匹配节点之间的关系。为了测试所提出方法的性能,我们将方法应用于两个数据库。我们使用了两种现有方法,即GNN和FGNN作为基线进行比较。我们的实验表明,在数据集1上,平均而言,亚GMN的准确性分别比GNN和FGNN高12.21 \%和3.2 \%。平均运行时间次-GMN的运行速度比FGNN快20-40倍。此外,所有数据集2的实验中sub-gmn的平均F1得分达到0.95,这表明sub-gmn输出更正确的节点到节点匹配。与以前的基于GNNS的子图匹配任务相比,我们提出的子GMN允许在测试/应用程序阶段进行改变的查询和数据图,而大多数以前基于GNN的方法只能在数据图中在数据图中找到匹配的子图片,在训练阶段使用的相同查询图的测试/应用。我们提出的子-GMN的另一个优点是,它可以输出节点到节点匹配的列表,而大多数现有的基于端GNN的方法无法提供匹配的节点对。
translated by 谷歌翻译
图神经网络(GNN)是一类流行的机器学习模型。受到学习解释(L2X)范式的启发,我们提出了L2XGNN,这是一个可解释的GNN的框架,该框架通过设计提供了忠实的解释。L2XGNN学习了一种选择解释性子图(主题)的机制,该机制仅在GNNS消息通话操作中使用。L2XGNN能够为每个输入图选择具有特定属性的子图,例如稀疏和连接。对主题施加这种限制通常会导致更容易解释和有效的解释。几个数据集的实验表明,L2XGNN使用整个输入图实现了与基线方法相同的分类精度,同时确保仅使用提供的解释来进行预测。此外,我们表明L2XGNN能够识别负责预测图形属性的主题。
translated by 谷歌翻译
基于图形神经网络(GNN)的子图表学习在科学进步中表现出广泛的应用,例如对分子结构 - 特质关系和集体细胞功能的预测。特别是,图表增强技术在改善基于图和基于节点的分类任务方面显示出令人鼓舞的结果。尽管如此,在现有的基于GNN的子图表示学习研究中很少探索它们。在这项研究中,我们开发了一种新型的多视图增强机制,以改善子图表示学习模型,从而改善下游预测任务的准确性。我们的增强技术创建了多种子图的变体,并将这些变体嵌入原始图中,以实现高度改善的训练效率,可伸缩性和准确性。几个现实世界和生理数据集的基准实验证明了我们提出的多视图增强技术在子图表学习中的优越性。
translated by 谷歌翻译
图表神经网络(GNN)和消息通过神经网络(MPNNS)被证明是在许多应用中的子图结构中表达的。异构图中的一些应用需要明确的边缘建模,例如子图同样计数和匹配。但是,现有的消息传递机制在理论上并不良好设计。在本文中,我们从特定的边缘到顶点变换开始,利用边缘到顶点双图中的同义性属性。我们证明,搜索原始图中的同构相当于在其双图上搜索。基于该观察,我们提出了通过神经网络(DMPNNS)的双信息以异步方式增强子图同样计数和匹配以及无监督的节点分类。广泛的实验通过在合成和真实异构图中结合节点和边缘表示学习来证明DMPNN的稳健性能。代码可在https://github.com/hkust-knowcomp/dualmessagepass上获得。
translated by 谷歌翻译
在现代社交媒体和网络时代,现实世界现象的图表表示已成为我的洞察力的令人难以置信的源泉。通常,我们有兴趣了解图形中的实体如何互连。图形神经网络(GNN)已被证明是在各种图形学习任务中的一个非常有用的工具,包括节点分类,链路预测和边缘分类。但是,在大多数任务中,我们使用的图形数据可能是嘈杂的,并且可能包含虚假边缘。也就是说,与底层图形结构有很多不确定性。最近建模不确定性的方法一直使用贝叶斯框架,并将图表视为随机变量,与模型参数相关的概率。已经显示出介绍基于图形的模型,专门用于半监督节点分类,从而显示出更高的分类精度。然而,在最近的工作中提出的图表推理的方法没有考虑图表的结构。在本文中,我们提出了一种新颖的算法,使用邻域随机步行采样(BGCN-NRW)提出了一种名为贝叶斯图卷积网络的新颖算法,它使用了利用图形结构的Markov链蒙特卡罗(MCMC)的图形采样算法,通过使用变分或推理来减少过度拟合与半监督节点分类中的最先进的技术相比,层,并始终竞争的分类结果。
translated by 谷歌翻译
图形神经网络(GNN)在学习强大的节点表示中显示了令人信服的性能,这些表现在保留节点属性和图形结构信息的强大节点表示中。然而,许多GNNS在设计有更深的网络结构或手柄大小的图形时遇到有效性和效率的问题。已经提出了几种采样算法来改善和加速GNN的培训,但他们忽略了解GNN性能增益的来源。图表数据中的信息的测量可以帮助采样算法来保持高价值信息,同时消除冗余信息甚至噪声。在本文中,我们提出了一种用于GNN的公制引导(MEGUIDE)子图学习框架。 MEGUIDE采用两种新颖的度量:功能平滑和连接失效距离,以指导子图采样和迷你批次的培训。功能平滑度专为分析节点的特征而才能保留最有价值的信息,而连接失败距离可以测量结构信息以控制子图的大小。我们展示了MEGUIDE在多个数据集上培训各种GNN的有效性和效率。
translated by 谷歌翻译
图表神经网络(GNNS)最近提出了用于处理图形结构数据的神经网络结构。由于他们所采用的邻国聚合策略,现有的GNNS专注于捕获节点级信息并忽略高级信息。因此,现有的GNN受到本地置换不变性(LPI)问题引起的代表性限制。为了克服这些限制并丰富GNN捕获的特征,我们提出了一种新的GNN框架,称为两级GNN(TL-GNN)。这与节点级信息合并子图级信息。此外,我们提供了对LPI问题的数学分析,这表明子图级信息有利于克服与LPI相关的问题。还提出了一种基于动态编程算法的子图计数方法,并且该具有时间复杂度是O(n ^ 3),n是图的节点的数量。实验表明,TL-GNN优于现有的GNN,实现了最先进的性能。
translated by 谷歌翻译
Graph neural networks (GNNs) have received remarkable success in link prediction (GNNLP) tasks. Existing efforts first predefine the subgraph for the whole dataset and then apply GNNs to encode edge representations by leveraging the neighborhood structure induced by the fixed subgraph. The prominence of GNNLP methods significantly relies on the adhoc subgraph. Since node connectivity in real-world graphs is complex, one shared subgraph is limited for all edges. Thus, the choices of subgraphs should be personalized to different edges. However, performing personalized subgraph selection is nontrivial since the potential selection space grows exponentially to the scale of edges. Besides, the inference edges are not available during training in link prediction scenarios, so the selection process needs to be inductive. To bridge the gap, we introduce a Personalized Subgraph Selector (PS2) as a plug-and-play framework to automatically, personally, and inductively identify optimal subgraphs for different edges when performing GNNLP. PS2 is instantiated as a bi-level optimization problem that can be efficiently solved differently. Coupling GNNLP models with PS2, we suggest a brand-new angle towards GNNLP training: by first identifying the optimal subgraphs for edges; and then focusing on training the inference model by using the sampled subgraphs. Comprehensive experiments endorse the effectiveness of our proposed method across various GNNLP backbones (GCN, GraphSage, NGCF, LightGCN, and SEAL) and diverse benchmarks (Planetoid, OGB, and Recommendation datasets). Our code is publicly available at \url{https://github.com/qiaoyu-tan/PS2}
translated by 谷歌翻译
图形内核是历史上最广泛使用的图形分类任务的技术。然而,由于图的手工制作的组合特征,这些方法具有有限的性能。近年来,由于其性能卓越,图形神经网络(GNNS)已成为与下游图形相关任务的最先进的方法。大多数GNN基于消息传递神经网络(MPNN)框架。然而,最近的研究表明,MPNN不能超过Weisfeiler-Lehman(WL)算法在图形同构术中的力量。为了解决现有图形内核和GNN方法的限制,在本文中,我们提出了一种新的GNN框架,称为\ Texit {内核图形神经网络}(Kernnns),该框架将图形内核集成到GNN的消息传递过程中。通过卷积神经网络(CNNS)中的卷积滤波器的启发,KERGNNS采用可训练的隐藏图作为绘图过滤器,该绘图过滤器与子图组合以使用图形内核更新节点嵌入式。此外,我们表明MPNN可以被视为Kergnns的特殊情况。我们将Kergnns应用于多个与图形相关的任务,并使用交叉验证来与基准进行公平比较。我们表明,与现有的现有方法相比,我们的方法达到了竞争性能,证明了增加GNN的表现能力的可能性。我们还表明,KERGNNS中的训练有素的图形过滤器可以揭示数据集的本地图形结构,与传统GNN模型相比,显着提高了模型解释性。
translated by 谷歌翻译
链接预测是图形结构数据(例如,社交网络,药物副作用网络等)的基本问题。图形神经网络为此问题提供了强大的解决方案,特别是通过学习封闭目标链接的子图的表示(即节点对)。但是,这些解决方案不能很好地扩展到大图,因为封闭子图的提取和操作在计算上是昂贵的,尤其是对于大图。本文提出了一个可扩展的链接预测解决方案,我们称之为缩放,该解决方案利用稀疏的封闭子图来做出预测。为了提取稀疏的封闭子图,缩放缩放从目标对节点进行多次随机步行,然后在所有访问的节点引起的采样封闭子图上操作。通过利用较小的采样封闭子图,缩放的缩放可以缩放到较大的图形,而在保持高精度的同时,缩小开销要少得多。缩放进一步提供了控制计算开销与准确性之间的权衡的灵活性。通过全面的实验,我们已经证明,缩放可以产生与现有子图表示学习框架报告的同时所报道的,同时计算要求较少的准确性。
translated by 谷歌翻译
Graph Convolutional Networks (GCNs) are powerful models for learning representations of attributed graphs. To scale GCNs to large graphs, state-of-the-art methods use various layer sampling techniques to alleviate the "neighbor explosion" problem during minibatch training. We propose GraphSAINT, a graph sampling based inductive learning method that improves training efficiency and accuracy in a fundamentally different way. By changing perspective, GraphSAINT constructs minibatches by sampling the training graph, rather than the nodes or edges across GCN layers. Each iteration, a complete GCN is built from the properly sampled subgraph. Thus, we ensure fixed number of well-connected nodes in all layers. We further propose normalization technique to eliminate bias, and sampling algorithms for variance reduction. Importantly, we can decouple the sampling from the forward and backward propagation, and extend GraphSAINT with many architecture variants (e.g., graph attention, jumping connection). GraphSAINT demonstrates superior performance in both accuracy and training time on five large graphs, and achieves new state-of-the-art F1 scores for PPI (0.995) and Reddit (0.970).
translated by 谷歌翻译
Graph Neural Networks (GNNs) have attracted increasing attention in recent years and have achieved excellent performance in semi-supervised node classification tasks. The success of most GNNs relies on one fundamental assumption, i.e., the original graph structure data is available. However, recent studies have shown that GNNs are vulnerable to the complex underlying structure of the graph, making it necessary to learn comprehensive and robust graph structures for downstream tasks, rather than relying only on the raw graph structure. In light of this, we seek to learn optimal graph structures for downstream tasks and propose a novel framework for semi-supervised classification. Specifically, based on the structural context information of graph and node representations, we encode the complex interactions in semantics and generate semantic graphs to preserve the global structure. Moreover, we develop a novel multi-measure attention layer to optimize the similarity rather than prescribing it a priori, so that the similarity can be adaptively evaluated by integrating measures. These graphs are fused and optimized together with GNN towards semi-supervised classification objective. Extensive experiments and ablation studies on six real-world datasets clearly demonstrate the effectiveness of our proposed model and the contribution of each component.
translated by 谷歌翻译
Inferring missing links or detecting spurious ones based on observed graphs, known as link prediction, is a long-standing challenge in graph data analysis. With the recent advances in deep learning, graph neural networks have been used for link prediction and have achieved state-of-the-art performance. Nevertheless, existing methods developed for this purpose are typically discriminative, computing features of local subgraphs around two neighboring nodes and predicting potential links between them from the perspective of subgraph classification. In this formalism, the selection of enclosing subgraphs and heuristic structural features for subgraph classification significantly affects the performance of the methods. To overcome this limitation, this paper proposes a novel and radically different link prediction algorithm based on the network reconstruction theory, called GraphLP. Instead of sampling positive and negative links and heuristically computing the features of their enclosing subgraphs, GraphLP utilizes the feature learning ability of deep-learning models to automatically extract the structural patterns of graphs for link prediction under the assumption that real-world graphs are not locally isolated. Moreover, GraphLP explores high-order connectivity patterns to utilize the hierarchical organizational structures of graphs for link prediction. Our experimental results on all common benchmark datasets from different applications demonstrate that the proposed method consistently outperforms other state-of-the-art methods. Unlike the discriminative neural network models used for link prediction, GraphLP is generative, which provides a new paradigm for neural-network-based link prediction.
translated by 谷歌翻译
在过去十年中,图形内核引起了很多关注,并在结构化数据上发展成为一种快速发展的学习分支。在过去的20年中,该领域发生的相当大的研究活动导致开发数十个图形内核,每个图形内核都对焦于图形的特定结构性质。图形内核已成功地成功地在广泛的域中,从社交网络到生物信息学。本调查的目标是提供图形内核的文献的统一视图。特别是,我们概述了各种图形内核。此外,我们对公共数据集的几个内核进行了实验评估,并提供了比较研究。最后,我们讨论图形内核的关键应用,并概述了一些仍有待解决的挑战。
translated by 谷歌翻译
频繁且与结构相关的子图(也称为网络基序)是许多图形数据集的宝贵特征。但是,在任意数据集中识别主题集的高计算复杂性(主题挖掘)限制了它们在许多现实世界数据集中的使用。通过自动利用数据集的统计属性,机器学习方法在具有组合复杂性的几个任务中显示出了希望,因此是网络基序挖掘的有前途的候选人。在这项工作中,我们试图促进针对图案采矿的机器学习方法的开发。我们建议将基序挖掘问题作为节点标记任务进行公式。此外,我们构建了基准数据集和评估指标,这些指标测试了模型捕获主题发现不同方面的能力,例如主题数,大小,拓扑和稀缺性。接下来,我们提出了Motifiesta,这是第一次以完全可区分的方式解决此问题的尝试,并在具有挑战性的基准方面有希望的结果。最后,我们通过Motifiesta证明,该学习设置可以同时应用于通用数据挖掘和用于图形分类任务的可解释功能提取。
translated by 谷歌翻译
对比学习在图表学习领域表现出了巨大的希望。通过手动构建正/负样本,大多数图对比度学习方法依赖于基于矢量内部产品的相似性度量标准来区分图形表示样品。但是,手工制作的样品构建(例如,图表的节点或边缘的扰动)可能无法有效捕获图形的固有局部结构。同样,基于矢量内部产品的相似性度量标准无法完全利用图形的局部结构来表征图差。为此,在本文中,我们提出了一种基于自适应子图生成的新型对比度学习框架,以实现有效且强大的自我监督图表示学习,并且最佳传输距离被用作子绘图之间的相似性度量。它的目的是通过捕获图的固有结构来生成对比样品,并根据子图的特征和结构同时区分样品。具体而言,对于每个中心节点,通过自适应学习关系权重与相应邻域的节点,我们首先开发一个网络来生成插值子图。然后,我们分别构建来自相同和不同节点的子图的正和负对。最后,我们采用两种类型的最佳运输距离(即Wasserstein距离和Gromov-Wasserstein距离)来构建结构化的对比损失。基准数据集上的广泛节点分类实验验证了我们的图形对比学习方法的有效性。
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
Link prediction is a key problem for network-structured data. Link prediction heuristics use some score functions, such as common neighbors and Katz index, to measure the likelihood of links. They have obtained wide practical uses due to their simplicity, interpretability, and for some of them, scalability. However, every heuristic has a strong assumption on when two nodes are likely to link, which limits their effectiveness on networks where these assumptions fail. In this regard, a more reasonable way should be learning a suitable heuristic from a given network instead of using predefined ones. By extracting a local subgraph around each target link, we aim to learn a function mapping the subgraph patterns to link existence, thus automatically learning a "heuristic" that suits the current network. In this paper, we study this heuristic learning paradigm for link prediction. First, we develop a novel γ-decaying heuristic theory. The theory unifies a wide range of heuristics in a single framework, and proves that all these heuristics can be well approximated from local subgraphs. Our results show that local subgraphs reserve rich information related to link existence. Second, based on the γ-decaying theory, we propose a new method to learn heuristics from local subgraphs using a graph neural network (GNN). Its experimental results show unprecedented performance, working consistently well on a wide range of problems.
translated by 谷歌翻译
消息传递神经网络(MPNNS)是由于其简单性和可扩展性而大部分地进行图形结构数据的深度学习的领先架构。不幸的是,有人认为这些架构的表现力有限。本文提出了一种名为Comifariant Subgraph聚合网络(ESAN)的新颖框架来解决这个问题。我们的主要观察是,虽然两个图可能无法通过MPNN可区分,但它们通常包含可区分的子图。因此,我们建议将每个图形作为由某些预定义策略导出的一组子图,并使用合适的等分性架构来处理它。我们为图同构同构同构造的1立维Weisfeiler-Leman(1-WL)测试的新型变体,并在这些新的WL变体方面证明了ESAN的表达性下限。我们进一步证明,我们的方法增加了MPNNS和更具表现力的架构的表现力。此外,我们提供了理论结果,描述了设计选择诸如子图选择政策和等效性神经结构的设计方式如何影响我们的架构的表现力。要处理增加的计算成本,我们提出了一种子图采样方案,可以将其视为我们框架的随机版本。关于真实和合成数据集的一套全面的实验表明,我们的框架提高了流行的GNN架构的表现力和整体性能。
translated by 谷歌翻译