在过去的几年中,图形神经网络(GNN)在众多机器学习任务中的出色表现中获得了吸引力。图形卷积神经网络(GCN)是GNN的常见变体,已知在半监督节点分类(SSNC)中具有高性能,并且在同质性的假设下正常工作。最近的文献强调,在某些“特殊条件”下,GCN可以在异性图上实现强大的性能。这些论点激发了我们了解为什么GCN学会执行SSNC的原因。我们发现,类中节点的潜在节点嵌入的相似性与GCN的性能之间存在正相关。我们对数据集基础图结构的研究发现,GCN的SSNC性能受到了类中节点邻域结构的一致性和独特性的显着影响。
translated by 谷歌翻译
Graph Neural Networks (GNNs) achieve state-of-the-art performance on graph-structured data across numerous domains. Their underlying ability to represent nodes as summaries of their vicinities has proven effective for homophilous graphs in particular, in which same-type nodes tend to connect. On heterophilous graphs, in which different-type nodes are likely connected, GNNs perform less consistently, as neighborhood information might be less representative or even misleading. On the other hand, GNN performance is not inferior on all heterophilous graphs, and there is a lack of understanding of what other graph properties affect GNN performance. In this work, we highlight the limitations of the widely used homophily ratio and the recent Cross-Class Neighborhood Similarity (CCNS) metric in estimating GNN performance. To overcome these limitations, we introduce 2-hop Neighbor Class Similarity (2NCS), a new quantitative graph structural property that correlates with GNN performance more strongly and consistently than alternative metrics. 2NCS considers two-hop neighborhoods as a theoretically derived consequence of the two-step label propagation process governing GCN's training-inference process. Experiments on one synthetic and eight real-world graph datasets confirm consistent improvements over existing metrics in estimating the accuracy of GCN- and GAT-based architectures on the node classification task.
translated by 谷歌翻译
图形神经网络(GNNS)显着改善了图形结构数据的表示功率。尽管最近GNN的成功,大多数GNN的图表卷积都有两个限制。由于图形卷积在输入图上的小本地邻域中执行,因此固有地无法捕获距离节点之间的远程依赖性。另外,当节点具有属于不同类别的邻居时,即,异常,来自它们的聚合消息通常会影响表示学习。为了解决图表卷积的两个常见问题,在本文中,我们提出了可变形的图形卷积网络(可变形GCNS),可在多个潜在空间中自适应地执行卷积并捕获节点之间的短/远程依赖性。与节点表示(特征)分开,我们的框架同时学习节点位置嵌入式嵌入式(坐标)以确定节点之间以端到端的方式之间的关系。根据节点位置,卷积内核通过变形向量变形并将不同的变换应用于其邻居节点。我们广泛的实验表明,可变形的GCNS灵活地处理异常的处理,并在六个异化图数据集中实现节点分类任务中的最佳性能。
translated by 谷歌翻译
图形神经网络(GNN)是用于建模图数据的流行机器学习方法。许多GNN在同质图上表现良好,同时在异质图上表现不佳。最近,一些研究人员将注意力转移到设计GNN,以通过调整消息传递机制或扩大消息传递的接收场来设计GNN。与从模型设计的角度来减轻异性疾病问题的现有作品不同,我们建议通过重新布线结构来从正交角度研究异质图,以减少异质性并使传统GNN的表现更好。通过全面的经验研究和分析,我们验证了重新布线方法的潜力。为了充分利用其潜力,我们提出了一种名为Deep Hertophilly Graph Rewiring(DHGR)的方法,以通过添加同粒子边缘和修剪异质边缘来重新线图。通过比较节点邻居的标签/特征 - 分布的相似性来确定重新布线的详细方法。此外,我们为DHGR设计了可扩展的实现,以确保高效率。 DHRG可以轻松地用作任何GNN的插件模块,即图形预处理步骤,包括同型和异性的GNN,以提高其在节点分类任务上的性能。据我们所知,这是研究图形的第一部重新绘图图形的作品。在11个公共图数据集上进行的广泛实验证明了我们提出的方法的优势。
translated by 谷歌翻译
图形神经网络(GNNS)在各种基于图形的应用中显示了优势。大多数现有的GNNS假设图形结构的强大奇妙并应用邻居的置换不变本地聚合以学习每个节点的表示。然而,它们未能概括到异质图,其中大多数相邻节点具有不同的标签或特征,并且相关节点远处。最近的几项研究通过组合中央节点的隐藏表示(即,基于多跳的方法)的多个跳数来解决这个问题,或者基于注意力分数对相邻节点进行排序(即,基于排名的方法)来解决这个问题。结果,这些方法具有一些明显的限制。一方面,基于多跳的方法没有明确区分相关节点的大量多跳社区,导致严重的过平滑问题。另一方面,基于排名的模型不与结束任务进行联合优化节点排名,并导致次优溶液。在这项工作中,我们呈现图表指针神经网络(GPNN)来解决上述挑战。我们利用指针网络从大量的多跳邻域选择最相关的节点,这根据与中央节点的关系来构造有序序列。然后应用1D卷积以从节点序列中提取高级功能。 GPNN中的基于指针网络的Ranker是以端到端的方式与其他部件进行联合优化的。在具有异质图的六个公共节点分类数据集上进行了广泛的实验。结果表明,GPNN显着提高了最先进方法的分类性能。此外,分析还揭示了拟议的GPNN在过滤出无关邻居并减少过平滑的特权。
translated by 谷歌翻译
基于图形卷积的方法已成功应用于同质图上的表示学习,其中具有相同标签或相似属性的节点往往相互连接。由于这些方法使用的图形卷积网络(GCN)的同义假设,它们不适合异质图,其中具有不同标记或不同属性的节点往往相邻。几种方法试图解决这个异质问题,但是它们没有改变GCN的基本聚合机制,因为它们依靠求和操作员来汇总邻近节点的信息,这隐含地遵守同质假设。在这里,我们介绍了一种新颖的聚合机制,并开发了基于随机步行聚集的图形神经网络(称为RAW-GNN)方法。提出的方法将随机步行策略与图神经网络集成在一起。新方法利用广度优先的随机步行搜索来捕获同质信息和深度优先搜索以收集异性信息。它用基于路径的社区取代了传统社区,并基于经常性神经网络引入了新的基于路径的聚合器。这些设计使RAW-GNN适用于同质图和异质图。广泛的实验结果表明,新方法在各种同质图和异质图上实现了最先进的性能。
translated by 谷歌翻译
Network embedding (NE) approaches have emerged as a predominant technique to represent complex networks and have benefited numerous tasks. However, most NE approaches rely on a homophily assumption to learn embeddings with the guidance of supervisory signals, leaving the unsupervised heterophilous scenario relatively unexplored. This problem becomes especially relevant in fields where a scarcity of labels exists. Here, we formulate the unsupervised NE task as an r-ego network discrimination problem and develop the SELENE framework for learning on networks with homophily and heterophily. Specifically, we design a dual-channel feature embedding pipeline to discriminate r-ego networks using node attributes and structural information separately. We employ heterophily adapted self-supervised learning objective functions to optimise the framework to learn intrinsic node embeddings. We show that SELENE's components improve the quality of node embeddings, facilitating the discrimination of connected heterophilous nodes. Comprehensive empirical evaluations on both synthetic and real-world datasets with varying homophily ratios validate the effectiveness of SELENE in homophilous and heterophilous settings showing an up to 12.52% clustering accuracy gain.
translated by 谷歌翻译
近年来,图表表示学习越来越多地引起了越来越长的关注,特别是为了在节点和图表水平上学习对分类和建议任务的低维嵌入。为了能够在现实世界中的大规模图形数据上学习表示,许多研究专注于开发不同的抽样策略,以方便培训过程。这里,我们提出了一种自适应图策略驱动的采样模型(GPS),其中通过自适应相关计算实现了本地邻域中每个节点的影响。具体地,邻居的选择是由自适应策略算法指导的,直接贡献到消息聚合,节点嵌入更新和图级读出步骤。然后,我们从各种角度对图表分类任务进行全面的实验。我们所提出的模型在几个重要的基准测试中优于现有的3%-8%,实现了现实世界数据集的最先进的性能。
translated by 谷歌翻译
虽然图形神经网络(GNNS)最近成为用于建模关系数据的事实标准,但它们对图形节点或边缘特征的可用性产生了强烈的假设。然而,在许多现实世界应用中,功能仅部分可用;例如,在社交网络中,年龄和性别仅适用于一小部分用户。我们介绍了一种用于处理基于Dirichlet能量最小化的图形机学习应用中缺失特征的一般方法,并导致图表上的扩散型微分方程。该等方程的离散化产生了一种简单,快速且可伸缩的算法,我们调用特征传播。我们通过实验表明,所提出的方法在七个常见节点分类基准测试中优于先前的方法,并且可以承受令人惊讶的缺失特点率:平均而言,当缺少99%的功能时,我们只观察到约4%的相对精度下降。此外,在单个GPU上运行$ \ SIM $ 2.5M节点和$ \ SIM $ 123M边缘,只需10秒即可在单个GPU上运行。
translated by 谷歌翻译
数据增强已广泛用于图像数据和语言数据,但仍然探索图形神经网络(GNN)。现有方法专注于从全局视角增强图表数据,并大大属于两个类型:具有特征噪声注入的结构操纵和对抗训练。但是,最近的图表数据增强方法忽略了GNNS“消息传递机制的本地信息的重要性。在这项工作中,我们介绍了本地增强,这通过其子图结构增强了节点表示的局部。具体而言,我们将数据增强模拟为特征生成过程。鉴于节点的功能,我们的本地增强方法了解其邻居功能的条件分布,并生成更多邻居功能,以提高下游任务的性能。基于本地增强,我们进一步设计了一个新颖的框架:La-GNN,可以以即插即用的方式应用于任何GNN模型。广泛的实验和分析表明,局部增强一致地对各种基准的各种GNN架构始终如一地产生性能改进。
translated by 谷歌翻译
Learning node embeddings that capture a node's position within the broader graph structure is crucial for many prediction tasks on graphs. However, existing Graph Neural Network (GNN) architectures have limited power in capturing the position/location of a given node with respect to all other nodes of the graph. Here we propose Position-aware Graph Neural Networks (P-GNNs), a new class of GNNs for computing position-aware node embeddings. P-GNN first samples sets of anchor nodes, computes the distance of a given target node to each anchor-set, and then learns a non-linear distance-weighted aggregation scheme over the anchor-sets. This way P-GNNs can capture positions/locations of nodes with respect to the anchor nodes. P-GNNs have several advantages: they are inductive, scalable, and can incorporate node feature information. We apply P-GNNs to multiple prediction tasks including link prediction and community detection. We show that P-GNNs consistently outperform state of the art GNNs, with up to 66% improvement in terms of the ROC AUC score.Node embedding methods can be categorized into Graph Neural Networks (GNNs) approaches (Scarselli et al., 2009),
translated by 谷歌翻译
We investigate the representation power of graph neural networks in the semisupervised node classification task under heterophily or low homophily, i.e., in networks where connected nodes may have different class labels and dissimilar features. Many popular GNNs fail to generalize to this setting, and are even outperformed by models that ignore the graph structure (e.g., multilayer perceptrons). Motivated by this limitation, we identify a set of key designs-ego-and neighbor-embedding separation, higher-order neighborhoods, and combination of intermediate representations-that boost learning from the graph structure under heterophily. We combine them into a graph neural network, H 2 GCN, which we use as the base method to empirically evaluate the effectiveness of the identified designs. Going beyond the traditional benchmarks with strong homophily, our empirical analysis shows that the identified designs increase the accuracy of GNNs by up to 40% and 27% over models without them on synthetic and real networks with heterophily, respectively, and yield competitive performance under homophily.
translated by 谷歌翻译
嵌入现实世界网络提出挑战,因为它不清楚如何识别其潜在的几何形状。嵌入了诸如无尺度网络的辅音网络,以欧几里德空间显示出造成的扭曲。将无缝的网络嵌入到双曲线空间提供令人兴奋的替代方案,但在将各种网络与潜在几何图中嵌入不同的几何形状时,扭曲的障碍。我们提出了一种归纳模型,可以利用GCNS和琐碎束的表现力来学习有或没有节点特征的网络的归纳节点表示。琐碎的束是一种简单的纤维束的情况,这是全球的空间,其基础空间和光纤的产品空间。基础空间和纤维的坐标可用于表达产生边缘的分类和抵消因子。因此,该模型能够学习可以表达这些因素的嵌入物。在实践中,与Euclidean和双曲线GCN相比,它会减少链路预测和节点分类的错误。
translated by 谷歌翻译
表示标签分布作为一个热量矢量是培训节点分类模型中的常见做法。然而,单热表示可能无法充分反映不同类别中节点的语义特征,因为某些节点可以在其他类中的邻居语义上靠近其邻居。由于鼓励在对每个节点进行分类时,鼓励模型分配完全概率,因此会导致过度自信。虽然具有标签平滑的培训模型可以在某种程度上缓解此问题,但它仍然无法捕获图形结构隐含的节点的语义特征。在这项工作中,我们提出了一种新颖的SAL(\ Textit {Security-Aware标签平滑})方法作为流行节点分类模型的增强组件。 SAL利用图形结构来捕获连接节点之间的语义相关性并生成结构感知标签分配以替换原始的单热标签向量,从而改善节点分类性能而不推广成本。七节点分类基准数据集的广泛实验揭示了我们对改进转膜和归纳节点分类的含量的有效性。经验结果表明,SALS优于标签平滑方法,增强节点分类模型以优于基线方法。
translated by 谷歌翻译
图表学习目的旨在将节点内容与图形结构集成以学习节点/图表示。然而,发现许多现有的图形学习方法在具有高异性级别的数据上不能很好地工作,这是不同类标签之间很大比例的边缘。解决这个问题的最新努力集中在改善消息传递机制上。但是,尚不清楚异质性是否确实会损害图神经网络(GNNS)的性能。关键是要展现一个节点与其直接邻居之间的关系,例如它们是异性还是同质性?从这个角度来看,我们在这里研究了杂质表示在披露连接节点之间的关系之前/之后的杂音表示的作用。特别是,我们提出了一个端到端框架,该框架既学习边缘的类型(即异性/同质性),并利用边缘类型的信息来提高图形神经网络的表现力。我们以两种不同的方式实施此框架。具体而言,为了避免通过异质边缘传递的消息,我们可以通过删除边缘分类器鉴定的异性边缘来优化图形结构。另外,可以利用有关异性邻居的存在的信息进行特征学习,因此,设计了一种混合消息传递方法来汇总同质性邻居,并根据边缘分类使异性邻居多样化。广泛的实验表明,在整个同质级别的多个数据集上,通过在多个数据集上提出的框架对GNN的绩效提高了显着提高。
translated by 谷歌翻译
Graph Neural Networks (GNNs) have been predominant for graph learning tasks; however, recent studies showed that a well-known graph algorithm, Label Propagation (LP), combined with a shallow neural network can achieve comparable performance to GNNs in semi-supervised node classification on graphs with high homophily. In this paper, we show that this approach falls short on graphs with low homophily, where nodes often connect to the nodes of the opposite classes. To overcome this, we carefully design a combination of a base predictor with LP algorithm that enjoys a closed-form solution as well as convergence guarantees. Our algorithm first learns the class compatibility matrix and then aggregates label predictions using LP algorithm weighted by class compatibilities. On a wide variety of benchmarks, we show that our approach achieves the leading performance on graphs with various levels of homophily. Meanwhile, it has orders of magnitude fewer parameters and requires less execution time. Empirical evaluations demonstrate that simple adaptations of LP can be competitive in semi-supervised node classification in both homophily and heterophily regimes.
translated by 谷歌翻译
增强图在正规化图形神经网络(GNNS)方面起着至关重要的作用,该图形以信息传递的形式利用沿图的边缘进行信息交换。由于其有效性,简单的边缘和节点操作(例如,添加和删除)已被广泛用于图表增强中。然而,这种常见的增强技术可以显着改变原始图的语义,从而导致过度侵略性增强,从而在GNN学习中拟合不足。为了解决掉落或添加图形边缘和节点引起的此问题,我们提出了SoftEdge,将随机权重分配给给定图的一部分以进行增强。 SoftEdge生成的合成图保持与原始图相同的节点及其连接性,从而减轻原始图的语义变化。我们从经验上表明,这种简单的方法获得了与流行节点和边缘操纵方法的卓越精度,并且具有明显的弹性,可抵御GNN深度的准确性降解。
translated by 谷歌翻译
Existing popular methods for semi-supervised learning with Graph Neural Networks (such as the Graph Convolutional Network) provably cannot learn a general class of neighborhood mixing relationships. To address this weakness, we propose a new model, MixHop, that can learn these relationships, including difference operators, by repeatedly mixing feature representations of neighbors at various distances. MixHop requires no additional memory or computational complexity, and outperforms on challenging baselines. In addition, we propose sparsity regularization that allows us to visualize how the network prioritizes neighborhood information across different graph datasets. Our analysis of the learned architectures reveals that neighborhood mixing varies per datasets. 1 We use "like", as graph edges are not axis-aligned.
translated by 谷歌翻译
自我监督的学习提供了一个有希望的途径,消除了在图形上的代表学习中的昂贵标签信息的需求。然而,为了实现最先进的性能,方法通常需要大量的负例,并依赖于复杂的增强。这可能是昂贵的,特别是对于大图。为了解决这些挑战,我们介绍了引导的图形潜伏(BGRL) - 通过预测输入的替代增强来学习图表表示学习方法。 BGRL仅使用简单的增强,并减轻了对否定例子对比的需求,因此通过设计可扩展。 BGRL胜过或匹配现有的几种建立的基准,同时降低了内存成本的2-10倍。此外,我们表明,BGR1可以缩放到半监督方案中的数亿个节点的极大的图表 - 实现最先进的性能并改善监督基线,其中表示仅通过标签信息而塑造。特别是,我们的解决方案以BGRL为中心,将kdd杯2021的开放图基准的大规模挑战组成了一个获奖条目,在比所有先前可用的基准更大的级别的图形订单上,从而展示了我们方法的可扩展性和有效性。
translated by 谷歌翻译
鉴于在现实世界应用中大规模图的流行率,训练神经模型的存储和时间引起了人们的关注。为了减轻关注点,我们提出和研究图形神经网络(GNNS)的图形凝结问题。具体而言,我们旨在将大型原始图凝结成一个小的,合成的和高度信息的图,以便在小图和大图上训练的GNN具有可比性的性能。我们通过优化梯度匹配损失并设计一种凝结节点期货和结构信息的策略来模仿原始图上的GNN训练轨迹,以解决凝结问题。广泛的实验证明了所提出的框架在将不同的图形数据集凝结成信息较小的较小图中的有效性。特别是,我们能够在REDDIT上近似于95.3%的原始测试准确性,Flickr的99.8%和CiteSeer的99.0%,同时将其图形尺寸降低了99.9%以上,并且可以使用冷凝图来训练各种GNN架构Code在https://github.com/chandlerbang/gcond上发布。
translated by 谷歌翻译