Graph serves as a powerful tool for modeling data that has an underlying structure in non-Euclidean space, by encoding relations as edges and entities as nodes. Despite developments in learning from graph-structured data over the years, one obstacle persists: graph imbalance. Although several attempts have been made to target this problem, they are limited to considering only class-level imbalance. In this work, we argue that for graphs, the imbalance is likely to exist at the sub-class topology group level. Due to the flexibility of topology structures, graphs could be highly diverse, and learning a generalizable classification boundary would be difficult. Therefore, several majority topology groups may dominate the learning process, rendering others under-represented. To address this problem, we propose a new framework {\method} and design (1 a topology extractor, which automatically identifies the topology group for each instance with explicit memory cells, (2 a training modulator, which modulates the learning process of the target GNN model to prevent the case of topology-group-wise under-representation. {\method} can be used as a key component in GNN models to improve their performances under the data imbalance setting. Analyses on both topology-level imbalance and the proposed {\method} are provided theoretically, and we empirically verify its effectiveness with both node-level and graph-level classification as the target tasks.
translated by 谷歌翻译
近年来,图形神经网络(GNNS)已实现了节点分类的最新性能。但是,大多数现有的GNN会遭受图形不平衡问题。在许多实际情况下,节点类都是不平衡的,其中一些多数类构成了图的大部分部分。 GNN中的消息传播机制将进一步扩大这些多数类的主导地位,从而导致次级分类性能。在这项工作中,我们试图通过生成少数族裔类实例来平衡培训数据,从而扩展了以前的基于过度采样的技术来解决这个问题。此任务是不平凡的,因为这些技术的设计是实例是独立的。忽视关系信息会使此过采样过程变得复杂。此外,节点分类任务通常仅使用少数标记的节点进行半监督设置,从而为少数族裔实例的产生提供了不足的监督。生成的低质量新节点会损害训练有素的分类器。在这项工作中,我们通过在构造的嵌入空间中综合新节点来解决这些困难,该节点编码节点属性和拓扑信息。此外,对边缘生成器进行同时训练,以建模图结构并为新样品提供关系。为了进一步提高数据效率,我们还探索合成的混合``中间''节点在此过度采样过程中利用多数类的节点。对现实世界数据集的实验验证了我们提出的框架的有效性。
translated by 谷歌翻译
图形神经网络(GNNS)在学习图表表示中取得了前所未有的成功,以识别图形的分类标签。然而,GNN的大多数现有图形分类问题遵循平衡数据拆分协议,这与许多真实情景中的许多实际方案都有比其他类别更少的标签。在这种不平衡情况下直接培训GNN可能导致少数群体类别中的图形的无色表达,并损害下游分类的整体性能,这意味着开发有效GNN处理不平衡图分类的重要性。现有方法是针对非图形结构数据量身定制的,或专为不平衡节点分类而设计,而少数关注不平衡图分类。为此,我们介绍了一个新颖的框架,图形图形 - 图形神经网络(G $ ^ 2 $ GNN),通过从邻近图和本地从图形本身来源地通过全局导出额外的监督来减轻图形不平衡问题。在全球范围内,我们基于内核相似性构建图表(GOG)的图表,并执行GOG传播以聚合相邻图形表示,其最初通过通过GNN编码器汇集的节点级传播而获得。在本地,我们通过掩模节点或丢弃边缘采用拓扑增强,以改善辨别说明书测试图的拓扑结构中的模型概括性。在七个基准数据集中进行的广泛图形分类实验证明了我们提出的G $ ^ $ ^ 2 $ GNN优于F1-Macro和F1-Micro Scores的大约5 \%的大量基线。 G $ ^ 2 $ GNN的实现可用于\ href {https://github.com/yuwvandy/g2gnn} {https://github.com/yuwvandy/g2gnn}。
translated by 谷歌翻译
Uncovering rationales behind predictions of graph neural networks (GNNs) has received increasing attention over recent years. Instance-level GNN explanation aims to discover critical input elements, like nodes or edges, that the target GNN relies upon for making predictions. Though various algorithms are proposed, most of them formalize this task by searching the minimal subgraph which can preserve original predictions. However, an inductive bias is deep-rooted in this framework: several subgraphs can result in the same or similar outputs as the original graphs. Consequently, they have the danger of providing spurious explanations and fail to provide consistent explanations. Applying them to explain weakly-performed GNNs would further amplify these issues. To address this problem, we theoretically examine the predictions of GNNs from the causality perspective. Two typical reasons of spurious explanations are identified: confounding effect of latent variables like distribution shift, and causal factors distinct from the original input. Observing that both confounding effects and diverse causal rationales are encoded in internal representations, we propose a simple yet effective countermeasure by aligning embeddings. Concretely, concerning potential shifts in the high-dimensional space, we design a distribution-aware alignment algorithm based on anchors. This new objective is easy to compute and can be incorporated into existing techniques with no or little effort. Theoretical analysis shows that it is in effect optimizing a more faithful explanation objective in design, which further justifies the proposed approach.
translated by 谷歌翻译
众所周知,图形神经网络(GNN)的成功高度依赖于丰富的人类通知数据,这在实践中努力获得,并且并非总是可用的。当只有少数标记的节点可用时,如何开发高效的GNN仍在研究。尽管已证明自我训练对于半监督学习具有强大的功能,但其在图形结构数据上的应用可能会失败,因为(1)不利用较大的接收场来捕获远程节点相互作用,这加剧了传播功能的难度 - 标记节点到未标记节点的标签模式; (2)有限的标记数据使得在不同节点类别中学习良好的分离决策边界而不明确捕获基本的语义结构,这是一项挑战。为了解决捕获信息丰富的结构和语义知识的挑战,我们提出了一个新的图数据增强框架,AGST(增强图自训练),该框架由两个新的(即结构和语义)增强模块构建。 GST骨干。在这项工作中,我们研究了这个新颖的框架是否可以学习具有极有限标记节点的有效图预测模型。在有限标记节点数据的不同情况下,我们对半监督节点分类进行全面评估。实验结果证明了新的数据增强框架对节点分类的独特贡献,几乎没有标记的数据。
translated by 谷歌翻译
疾病预测是医学应用中的知名分类问题。 GCNS提供了一个强大的工具,用于分析患者相对于彼此的特征。这可以通过将问题建模作为图形节点分类任务来实现,其中每个节点是患者。由于这种医学数据集的性质,类别不平衡是疾病预测领域的普遍存在问题,其中类的分布是歪曲的。当数据中存在类别不平衡时,现有的基于图形的分类器倾向于偏向于主要类别并忽略小类中的样本。另一方面,所有患者中罕见阳性病例的正确诊断在医疗保健系统中至关重要。在传统方法中,通过将适当的权重分配给丢失函数中的类别来解决这种不平衡,这仍然依赖于对异常值敏感的权重的相对值,并且在某些情况下偏向于小类(ES)。在本文中,我们提出了一种重加权的对抗性图形卷积网络(RA-GCN),以防止基于图形的分类器强调任何特定类的样本。这是通过将基于图形的神经网络与每个类相关联来完成的,这负责加权类样本并改变分类器的每个样本的重要性。因此,分类器自身调节并确定类之间的边界,更加关注重要样本。分类器和加权网络的参数受到侵犯方法训练。我们在合成和三个公共医疗数据集上显示实验。与最近的方法相比,ra-gcn展示了与最近的方法在所有三个数据集上识别患者状态的方法相比。详细分析作为合成数据集的定量和定性实验提供。
translated by 谷歌翻译
现有的图形神经网络(GNNS)通常会在平衡的情况下平衡,节点分布平衡。但是,在现实情况下,我们经常遇到一些案例,使几个类(即头等阶层)主导其他类(即尾巴类)以及节点学位的观点,因此天真地应用现有GNN最终最终落在概括尾巴案例。尽管最近的研究提出了处理图表上长尾情况的方法,但它们仅着眼于班级长尾或长尾巴。在本文中,我们为培训GNN的新框架提出了一个新的框架,称为图形长尾专家(LTE4G),该框架共同考虑了长尾级别的长尾和节点分类的长尾。核心思想是将专家GNN模型分配给以平衡方式分配的节点的每个子集,考虑到班级和程度的长尾。在为每个平衡子集培训了专家之后,我们采用知识蒸馏来获得两名班级学生,即校学生和尾巴班级学生,每个学生分别负责在校课和尾部课程中分别对节点进行分类。我们证明,LTE4G的表现优于在手动和自然不平衡图上评估的节点分类中的各种最新方法。可以在https://github.com/sukwonyun/lte4g上找到LTE4G的源代码。
translated by 谷歌翻译
图神经网络(GNN)在节点分类任务上取得了巨大成功。尽管对开发和评估GNN具有广泛的兴趣,但它们已经通过有限的基准数据集进行了评估。结果,现有的GNN评估缺乏来自图的各种特征的细粒分析。在此激励的情况下,我们对合成图生成器进行了广泛的实验,该实验可以生成具有控制特征以进行细粒分析的图形。我们的实证研究阐明了带有节点类标签的真实图形标签的四个主要特征的GNN的优势和劣势,即1)类规模分布(平衡与失衡),2)等级之间的边缘连接比例(均质VS之间)异性词),3)属性值(偏见与随机),4)图形大小(小与大)。此外,为了促进对GNN的未来研究,我们公开发布了我们的代码库,该代码库允许用户用各种图表评估各种GNN。我们希望这项工作为未来的研究提供有趣的见解。
translated by 谷歌翻译
节点分类是图神经网络中的重要任务,但是大多数现有研究都认为来自不同类别的样本是平衡的。但是,类不平衡问题是普遍的,可能会严重影响模型的性能。减少数据集对模型培训的不利影响对于改善模型的性能至关重要。因此,基于传统算法级别的方法来重建新的损失函数FD损失。首先,我们提出样品不种种量的距离,以根据分布过滤边缘样品和简单样品。然后,根据不抗测量距离定义了权重系数,并在损耗函数加权项中使用,以便损耗函数仅集中在有价值的样本上。与节点分类任务中的现有方法相比,几个基准的实验表明,我们的损耗函数可以有效地解决样品节点不平衡问题并将分类精度提高4%。
translated by 谷歌翻译
链接预测是一项重要的任务,在各个域中具有广泛的应用程序。但是,大多数现有的链接预测方法都假定给定的图遵循同质的假设,并设计基于相似性的启发式方法或表示学习方法来预测链接。但是,许多现实世界图是异性图,同义假设不存在,这挑战了现有的链接预测方法。通常,在异性图中,有许多引起链接形成的潜在因素,并且两个链接的节点在一个或两个因素中往往相似,但在其他因素中可能是不同的,导致总体相似性较低。因此,一种方法是学习每个节点的分离表示形式,每个矢量捕获一个因子上的节点的潜在表示,这铺平了一种方法来模拟异性图中的链接形成,从而导致更好的节点表示学习和链接预测性能。但是,对此的工作非常有限。因此,在本文中,我们研究了一个新的问题,该问题是在异性图上进行链接预测的分离表示学习。我们提出了一种新颖的框架分解,可以通过建模链接形成并执行感知因素的消息来学习以促进链接预测来学习解开的表示形式。在13个现实世界数据集上进行的广泛实验证明了Disenlink对异性恋和血友病图的链接预测的有效性。我们的代码可从https://github.com/sjz5202/disenlink获得
translated by 谷歌翻译
Graph machine learning has been extensively studied in both academia and industry. Although booming with a vast number of emerging methods and techniques, most of the literature is built on the in-distribution hypothesis, i.e., testing and training graph data are identically distributed. However, this in-distribution hypothesis can hardly be satisfied in many real-world graph scenarios where the model performance substantially degrades when there exist distribution shifts between testing and training graph data. To solve this critical problem, out-of-distribution (OOD) generalization on graphs, which goes beyond the in-distribution hypothesis, has made great progress and attracted ever-increasing attention from the research community. In this paper, we comprehensively survey OOD generalization on graphs and present a detailed review of recent advances in this area. First, we provide a formal problem definition of OOD generalization on graphs. Second, we categorize existing methods into three classes from conceptually different perspectives, i.e., data, model, and learning strategy, based on their positions in the graph machine learning pipeline, followed by detailed discussions for each category. We also review the theories related to OOD generalization on graphs and introduce the commonly used graph datasets for thorough evaluations. Finally, we share our insights on future research directions. This paper is the first systematic and comprehensive review of OOD generalization on graphs, to the best of our knowledge.
translated by 谷歌翻译
Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
translated by 谷歌翻译
表示标签分布作为一个热量矢量是培训节点分类模型中的常见做法。然而,单热表示可能无法充分反映不同类别中节点的语义特征,因为某些节点可以在其他类中的邻居语义上靠近其邻居。由于鼓励在对每个节点进行分类时,鼓励模型分配完全概率,因此会导致过度自信。虽然具有标签平滑的培训模型可以在某种程度上缓解此问题,但它仍然无法捕获图形结构隐含的节点的语义特征。在这项工作中,我们提出了一种新颖的SAL(\ Textit {Security-Aware标签平滑})方法作为流行节点分类模型的增强组件。 SAL利用图形结构来捕获连接节点之间的语义相关性并生成结构感知标签分配以替换原始的单热标签向量,从而改善节点分类性能而不推广成本。七节点分类基准数据集的广泛实验揭示了我们对改进转膜和归纳节点分类的含量的有效性。经验结果表明,SALS优于标签平滑方法,增强节点分类模型以优于基线方法。
translated by 谷歌翻译
图形神经网络是一种强大的深度学习工具,用于建模图形结构化数据,在众多图形学习任务上表现出了出色的性能。为了解决深图学习中的数据噪声和数据稀缺性问题,最近有关图形数据的研究已加剧。但是,常规数据增强方法几乎无法处理具有多模式性的非欧几里得空间中定义的图形结构化数据。在这项调查中,我们正式提出了图数据扩展的问题,并进一步审查了代表性技术及其在不同深度学习问题中的应用。具体而言,我们首先提出了图形数据扩展技术的分类法,然后通过根据增强信息方式对相关工作进行分类,从而提供结构化的审查。此外,我们总结了以数据为中心的深图学习中两个代表性问题中图数据扩展的应用:(1)可靠的图形学习,重点是增强输入图的实用性以及通过图数据增强的模型容量; (2)低资源图学习,其针对通过图数据扩大标记的训练数据量表的目标。对于每个问题,我们还提供层次结构问题分类法,并审查与图数据增强相关的现有文献。最后,我们指出了有希望的研究方向和未来研究的挑战。
translated by 谷歌翻译
由于相邻的节点之间的相互作用,在类不平衡的图形数据下学习无偏的节点表示具有挑战性。现有研究的共同点是,它们根据其总数(忽略图中的节点连接)来补偿次要类节点“作为组”,这不可避免地增加了主要节点的假阳性病例。我们假设这些假阳性病例的增加受到每个节点周围的标签分布的高度影响,并通过实验确认。此外,为了解决这个问题,我们提出了拓扑意识的利润率(TAM),以反映学习目标的本地拓扑。我们的方法将每个节点的连通性模式与类平均反向零件进行比较,并根据此相应地适应边缘。我们的方法始终在具有代表性GNN体系结构的各种节点分类基准数据集上表现出优于基线的优势。
translated by 谷歌翻译
节点分类在各种图形挖掘任务中至关重要。在实践中,实际图通常遵循长尾分布,其中大量类仅由有限的标记节点组成。尽管图神经网络(GNN)在节点分类方面取得了显着改善,但在这种情况下,它们的性能大大降低。主要原因可以归因于由于元任务中不同节点/类分布引起的任务差异(即节点级别和类级别的方差)引起的任务差异,因此元素训练和元检验之间存在巨大的概括差距。因此,为了有效地减轻任务差异的影响,我们在少数弹出的学习设置下提出了一个任务自适应的节点分类框架。具体而言,我们首先在具有丰富标记节点的类中积累了元知识。然后,我们通过提出的任务自适应模块将这些知识转移到具有有限标记的节点的类别中。特别是,为了适应元任务之间的不同节点/类分布,我们建议三个基本模块以执行\ emph {node-level},\ emph {class-level}和\ emph {task-emph {task-level}适应元任务分别。这样,我们的框架可以对不同的元任务进行适应,从而提高元测试任务上的模型概括性能。在四个普遍的节点分类数据集上进行了广泛的实验,证明了我们的框架优于最先进的基线。我们的代码可在https://github.com/songw-sw/tent上提供。
translated by 谷歌翻译
图表可以模拟实体之间的复杂交互,它在许多重要的应用程序中自然出现。这些应用程序通常可以投入到标准图形学习任务中,其中关键步骤是学习低维图表示。图形神经网络(GNN)目前是嵌入方法中最受欢迎的模型。然而,邻域聚合范例中的标准GNN患有区分\ EMPH {高阶}图形结构的有限辨别力,而不是\ EMPH {低位}结构。为了捕获高阶结构,研究人员求助于主题和开发的基于主题的GNN。然而,现有的基于主基的GNN仍然仍然遭受较少的辨别力的高阶结构。为了克服上述局限性,我们提出了一个新颖的框架,以更好地捕获高阶结构的新框架,铰接于我们所提出的主题冗余最小化操作员和注射主题组合的新颖框架。首先,MGNN生成一组节点表示W.R.T.每个主题。下一阶段是我们在图案中提出的冗余最小化,该主题在彼此相互比较并蒸馏出每个主题的特征。最后,MGNN通过组合来自不同图案的多个表示来执行节点表示的更新。特别地,为了增强鉴别的功率,MGNN利用重新注射功能来组合表示的函数w.r.t.不同的主题。我们进一步表明,我们的拟议体系结构增加了GNN的表现力,具有理论分析。我们展示了MGNN在节点分类和图形分类任务上的七个公共基准上表现出最先进的方法。
translated by 谷歌翻译
图表学习目的旨在将节点内容与图形结构集成以学习节点/图表示。然而,发现许多现有的图形学习方法在具有高异性级别的数据上不能很好地工作,这是不同类标签之间很大比例的边缘。解决这个问题的最新努力集中在改善消息传递机制上。但是,尚不清楚异质性是否确实会损害图神经网络(GNNS)的性能。关键是要展现一个节点与其直接邻居之间的关系,例如它们是异性还是同质性?从这个角度来看,我们在这里研究了杂质表示在披露连接节点之间的关系之前/之后的杂音表示的作用。特别是,我们提出了一个端到端框架,该框架既学习边缘的类型(即异性/同质性),并利用边缘类型的信息来提高图形神经网络的表现力。我们以两种不同的方式实施此框架。具体而言,为了避免通过异质边缘传递的消息,我们可以通过删除边缘分类器鉴定的异性边缘来优化图形结构。另外,可以利用有关异性邻居的存在的信息进行特征学习,因此,设计了一种混合消息传递方法来汇总同质性邻居,并根据边缘分类使异性邻居多样化。广泛的实验表明,在整个同质级别的多个数据集上,通过在多个数据集上提出的框架对GNN的绩效提高了显着提高。
translated by 谷歌翻译
异质图卷积网络在解决异质网络数据的各种网络分析任务方面已广受欢迎,从链接预测到节点分类。但是,大多数现有作品都忽略了多型节点之间的多重网络的关系异质性,而在元路径中,元素嵌入中关系的重要性不同,这几乎无法捕获不同关系跨不同关系的异质结构信号。为了应对这一挑战,这项工作提出了用于异质网络嵌入的多重异质图卷积网络(MHGCN)。我们的MHGCN可以通过多层卷积聚合自动学习多重异质网络中不同长度的有用的异质元路径相互作用。此外,我们有效地将多相关结构信号和属性语义集成到学习的节点嵌入中,并具有无监督和精选的学习范式。在具有各种网络分析任务的五个现实世界数据集上进行的广泛实验表明,根据所有评估指标,MHGCN与最先进的嵌入基线的优势。
translated by 谷歌翻译
Recent years have witnessed great success in handling graph-related tasks with Graph Neural Networks (GNNs). Despite their great academic success, Multi-Layer Perceptrons (MLPs) remain the primary workhorse for practical industrial applications. One reason for this academic-industrial gap is the neighborhood-fetching latency incurred by data dependency in GNNs, which make it hard to deploy for latency-sensitive applications that require fast inference. Conversely, without involving any feature aggregation, MLPs have no data dependency and infer much faster than GNNs, but their performance is less competitive. Motivated by these complementary strengths and weaknesses, we propose a Graph Self-Distillation on Neighborhood (GSDN) framework to reduce the gap between GNNs and MLPs. Specifically, the GSDN framework is based purely on MLPs, where structural information is only implicitly used as prior to guide knowledge self-distillation between the neighborhood and the target, substituting the explicit neighborhood information propagation as in GNNs. As a result, GSDN enjoys the benefits of graph topology-awareness in training but has no data dependency in inference. Extensive experiments have shown that the performance of vanilla MLPs can be greatly improved with self-distillation, e.g., GSDN improves over stand-alone MLPs by 15.54\% on average and outperforms the state-of-the-art GNNs on six datasets. Regarding inference speed, GSDN infers 75X-89X faster than existing GNNs and 16X-25X faster than other inference acceleration methods.
translated by 谷歌翻译