当前的图表学习技术使用图形神经网络(GNN)从数据集嵌入中提取功能。在这项工作中,我们检查了这些嵌入的质量,并评估改变它们如何影响GNN的准确性。我们探索图像和文本的不同嵌入提取技术。我们发现,嵌入的选择会偏见不同GNN体系结构的性能,因此嵌入的选择会影响GNN的选择,而与基础数据集无关。此外,与从划痕训练或在基础数据上进行微调的模型的准确性相比,我们只能看到一些GNN模型的准确性提高,而无需使用图形连接。作为替代方案,我们提出了与图形连接的网络(GRANET)层,该网络使用GNN消息传递在大型模型中以允许邻居聚集。如果可能的话,这为模型提供了从大型预训练模型继承权重的机会,我们证明与先前方法相比,这种方法提高了准确性:在FlickR_V2上,Granet击败GAT2和GraphSage和图形分别提高了7.7%和1.7%。
translated by 谷歌翻译
利用基于文本的节点属性的节点分类具有许多真实的应用程序,从学术引用图中的纸张主题到社交媒体网络中用户特征的分类范围。最新的节点分类框架(例如Giant)使用两阶段管道:首先嵌入图节点的文本属性,然后将所得嵌入的嵌入到节点分类模型中。在本文中,我们消除了这两个阶段,而是开发了建立在巨人基于端到端巨型(E2EG)的端到端节点分类模型。在我们的方法中,主体和辅助分类目标的串联利用导致了更强大的模型,从而使BERT主链可以切换为蒸馏编码器,其参数数量减少了25%-40%。此外,模型的端到端性质提高了易用性,因为它避免了链接多个模型进行节点分类的需求。与OGBN-ARXIV和OGBN产品数据集的巨型+MLP基线相比,我们的模型能够在换电环境(+0.5%)中获得稍好的精度,同时将模型培训时间最多减少40%。我们的模型也适用于电感设置,优于巨型 +MLP高达 +2.23%。
translated by 谷歌翻译
近年来,异构图形神经网络(HGNNS)一直在开花,但每个工作所使用的独特数据处理和评估设置会让他们的进步完全了解。在这项工作中,我们通过使用其官方代码,数据集,设置和超参数来展示12个最近的HGNN的系统再现,揭示了关于HGNN的进展的令人惊讶的结果。我们发现,由于设置不当,简单的均匀GNN,例如GCN和GAT在很大程度上低估了。具有适当输入的GAT通常可以匹配或优于各种场景的所有现有HGNN。为了促进稳健和可重复的HGNN研究,我们构建异构图形基准(HGB),由具有三个任务的11个不同数据集组成。 HGB标准化异构图数据分割,特征处理和性能评估的过程。最后,我们介绍了一个简单但非常强大的基线简单 - HGN - 这显着优于HGB上以前的所有模型 - 以加速未来HGNN的进步。
translated by 谷歌翻译
图形数据库(GDB)启用对非结构化,复杂,丰富且通常庞大的图形数据集的处理和分析。尽管GDB在学术界和行业中都具有很大的意义,但几乎没有努力将它们与图形神经网络(GNNS)的预测能力融为一体。在这项工作中,我们展示了如何无缝将几乎所有GNN模型与GDB的计算功能相结合。为此,我们观察到这些系统大多数是基于或支持的,称为标记的属性图(LPG)的图形数据模型,在该模型中,顶点和边缘可以任意复杂的标签和属性集。然后,我们开发LPG2VEC,这是一种编码器,将任意LPG数据集转换为可以与广泛的GNN类直接使用的表示形式,包括卷积,注意力,消息通话,甚至高阶或频谱模型。在我们的评估中,我们表明,LPG2VEC可以正确保留代表LPG标签和属性的丰富信息,并且与与图形相比,与与图形相比,它提高了预测的准确性,而不管有针对性的学习任务或使用过的GNN模型,多达34%没有LPG标签/属性。通常,LPG2VEC可以将最强大的GNN的预测能力与LPG模型中编码的全部信息范围相结合,为神经图数据库铺平了道路,这是一类系统,其中维护的数据的绝大复杂性将从现代和未来中受益图机学习方法。
translated by 谷歌翻译
图形神经网络已成为从图形结构数据学习的不可缺少的工具之一,并且它们的实用性已在各种各样的任务中显示。近年来,建筑设计的巨大改进,导致各种预测任务的性能更好。通常,这些神经架构在同一层中使用可知的权重矩阵组合节点特征聚合和特征转换。这使得分析从各种跳过的节点特征和神经网络层的富有效力来挑战。由于不同的图形数据集显示在特征和类标签分布中的不同级别和异常级别,因此必须了解哪些特征对于没有任何先前信息的预测任务是重要的。在这项工作中,我们将节点特征聚合步骤和深度与图形神经网络分离,并经验分析了不同的聚合特征在预测性能中发挥作用。我们表明,并非通过聚合步骤生成的所有功能都很有用,并且通常使用这些较少的信息特征可能对GNN模型的性能有害。通过我们的实验,我们表明学习这些功能的某些子集可能会导致各种数据集的性能更好。我们建议使用Softmax作为常规器,并从不同跳距的邻居聚合的功能的“软选择器”;和L2 - GNN层的标准化。结合这些技术,我们呈现了一个简单浅的模型,特征选择图神经网络(FSGNN),并经验展示所提出的模型比九个基准数据集中的最先进的GNN模型实现了可比或甚至更高的准确性节点分类任务,具有显着的改进,可达51.1%。
translated by 谷歌翻译
We present the OPEN GRAPH BENCHMARK (OGB), a diverse set of challenging and realistic benchmark datasets to facilitate scalable, robust, and reproducible graph machine learning (ML) research. OGB datasets are large-scale, encompass multiple important graph ML tasks, and cover a diverse range of domains, ranging from social and information networks to biological networks, molecular graphs, source code ASTs, and knowledge graphs. For each dataset, we provide a unified evaluation protocol using meaningful application-specific data splits and evaluation metrics. In addition to building the datasets, we also perform extensive benchmark experiments for each dataset. Our experiments suggest that OGB datasets present significant challenges of scalability to large-scale graphs and out-of-distribution generalization under realistic data splits, indicating fruitful opportunities for future research. Finally, OGB provides an automated end-to-end graph ML pipeline that simplifies and standardizes the process of graph data loading, experimental setup, and model evaluation. OGB will be regularly updated and welcomes inputs from the community. OGB datasets as well as data loaders, evaluation scripts, baseline code, and leaderboards are publicly available at https://ogb.stanford.edu.
translated by 谷歌翻译
文本分类任务的关键是语言表示和重要信息提取,并且有许多相关研究。近年来,文本分类中的图形神经网络(GNN)的研究逐渐出现并显示出其优势,但现有模型主要集中于直接将单词作为图形节点直接输入GNN模型,而忽略了不同级别的语义结构信息。样品。为了解决该问题,我们提出了一个新的层次图神经网络(HIEGNN),该图分别从Word级,句子级别和文档级别提取相应的信息。与几种基线方法相比,几个基准数据集的实验结果取得更好或相似的结果,这表明我们的模型能够从样品中获得更多有用的信息。
translated by 谷歌翻译
自我监督的学习提供了一个有希望的途径,消除了在图形上的代表学习中的昂贵标签信息的需求。然而,为了实现最先进的性能,方法通常需要大量的负例,并依赖于复杂的增强。这可能是昂贵的,特别是对于大图。为了解决这些挑战,我们介绍了引导的图形潜伏(BGRL) - 通过预测输入的替代增强来学习图表表示学习方法。 BGRL仅使用简单的增强,并减轻了对否定例子对比的需求,因此通过设计可扩展。 BGRL胜过或匹配现有的几种建立的基准,同时降低了内存成本的2-10倍。此外,我们表明,BGR1可以缩放到半监督方案中的数亿个节点的极大的图表 - 实现最先进的性能并改善监督基线,其中表示仅通过标签信息而塑造。特别是,我们的解决方案以BGRL为中心,将kdd杯2021的开放图基准的大规模挑战组成了一个获奖条目,在比所有先前可用的基准更大的级别的图形订单上,从而展示了我们方法的可扩展性和有效性。
translated by 谷歌翻译
Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
translated by 谷歌翻译
图形神经网络(GNNS)在学习的图形结构化数据中显示了包含节点/边缘特征信息的图表,应用于社交网络,推荐,欺诈检测和知识图形推理。在这方面,过去已经提出了各种策略,以改善GNN的富有效率。例如,一个简单的选项是通过扩展HID-DIN维度或增加GNN层的数量来简单地增加参数大小。然而,更宽的隐藏层可以容易地导致过度拟合,逐步添加更多GNN层可能导致过度的过度。在本文中,我们提出了一种模型 - 不可知方法,即图形神经网络(NGNN)中的网络,允许任意GNN模型通过使模型更深的模型来提高模型容量。然而,除了添加或加宽GNN层,NGNN通过在每个GNN层内插入非线性前馈神经网络层来加深GNN模型。在OGBN - 产品数据上应用于Graphsage基础GNN的NGNN分析表明它可以将模型保持对节点特征或图形结构扰动的稳定性。此外,对节点分类和链路预测任务的广泛评估结果表明,NGNN在不同的GNN架构上可靠地工作。对于实例,它可以提高OGBN-Products上的GraphSage的测试精度,并提高了@ 100分数ogbl-ppa上的密封率为7.08%,并且Propsage + Edge-Attr在ogbl-ppi上的Hits @ 20分数达到6.22%。在此提交时,它实现了OGB链路预测排行榜上的两个第一个位置。
translated by 谷歌翻译
Graph Neural Networks (GNNs) achieve state-of-the-art performance on graph-structured data across numerous domains. Their underlying ability to represent nodes as summaries of their vicinities has proven effective for homophilous graphs in particular, in which same-type nodes tend to connect. On heterophilous graphs, in which different-type nodes are likely connected, GNNs perform less consistently, as neighborhood information might be less representative or even misleading. On the other hand, GNN performance is not inferior on all heterophilous graphs, and there is a lack of understanding of what other graph properties affect GNN performance. In this work, we highlight the limitations of the widely used homophily ratio and the recent Cross-Class Neighborhood Similarity (CCNS) metric in estimating GNN performance. To overcome these limitations, we introduce 2-hop Neighbor Class Similarity (2NCS), a new quantitative graph structural property that correlates with GNN performance more strongly and consistently than alternative metrics. 2NCS considers two-hop neighborhoods as a theoretically derived consequence of the two-step label propagation process governing GCN's training-inference process. Experiments on one synthetic and eight real-world graph datasets confirm consistent improvements over existing metrics in estimating the accuracy of GCN- and GAT-based architectures on the node classification task.
translated by 谷歌翻译
具有数值节点特征和图形结构的图形神经网络(GNNS)作为输入显示出具有图形数据的各种监督学习任务的卓越性能。但是,GNN使用的数值节点特征通常是从大多数真实世界应用中的文本或表格(数字/分类)类型的原始数据中提取的。在大多数标准监督的学习设置中,使用IID(NON-GRAPH)数据的最佳模型不是简单的神经网络层,因此不容易被纳入GNN。在这里,我们提出了一个强大的堆叠框架,该框架将图形感知的传播与用于IID数据的任意模型融合在一起,这些模型是在多层中结合并堆叠的。我们的层面框架利用行李和堆叠策略来享受强有力的概括,从而有效地减轻了标签泄漏和过度拟合的方式。在各种具有表格/文本节点特征的图形数据集中,我们的方法相对于表格/文本和图形神经网络模型以及将两者结合的现有最新混合策略而获得了可比性或卓越的性能。
translated by 谷歌翻译
Short text classification is a crucial and challenging aspect of Natural Language Processing. For this reason, there are numerous highly specialized short text classifiers. However, in recent short text research, State of the Art (SOTA) methods for traditional text classification, particularly the pure use of Transformers, have been unexploited. In this work, we examine the performance of a variety of short text classifiers as well as the top performing traditional text classifier. We further investigate the effects on two new real-world short text datasets in an effort to address the issue of becoming overly dependent on benchmark datasets with a limited number of characteristics. Our experiments unambiguously demonstrate that Transformers achieve SOTA accuracy on short text classification tasks, raising the question of whether specialized short text techniques are necessary.
translated by 谷歌翻译
基于图形神经网络(GNN)方法最近已成为处理图数据的流行工具,因为它们能够合并结构信息。GNNS性能的唯一障碍是缺乏标记数据。图像和文本数据的数据增强技术无法用于图形数据,因为图形数据的复杂和非欧几里得结构。这一差距迫使研究人员将注意力转向开发图形数据的数据增强技术。大多数提出的图形数据增强(GDA)技术都是特定于任务的。在本文中,我们根据不同的图形任务调查了现有的GDA技术。这项调查不仅提供了GDA研究界的参考,而且还向其他领域的研究人员提供了必要的信息。
translated by 谷歌翻译
通过递归将整个社区的节点特征汇总,空间图卷积运算符已被宣布为图形神经网络(GNNS)成功的关键。然而,尽管GNN方法跨任务和应用程序进行了繁殖,但此聚合操作对其性能的影响尚未得到广泛的分析。实际上,尽管努力主要集中于优化神经网络的体系结构,但更少的工作试图表征(a)不同类别的空间卷积操作员,(b)特定类别的选择如何与数据的属性相关,以及(c)它对嵌入空间的几何形状的影响。在本文中,我们建议通过将现有操作员分为两个主要类(对称性与行规范的空间卷积)来回答所有三个问题,并展示它们如何转化为数据性质的不同隐性偏见。最后,我们表明,这种聚合操作员实际上是可调的,并且明确的制度在其中某些操作员(因此,嵌入几何形状)的某些选择可能更合适。
translated by 谷歌翻译
数据增强已广泛用于图像数据和语言数据,但仍然探索图形神经网络(GNN)。现有方法专注于从全局视角增强图表数据,并大大属于两个类型:具有特征噪声注入的结构操纵和对抗训练。但是,最近的图表数据增强方法忽略了GNNS“消息传递机制的本地信息的重要性。在这项工作中,我们介绍了本地增强,这通过其子图结构增强了节点表示的局部。具体而言,我们将数据增强模拟为特征生成过程。鉴于节点的功能,我们的本地增强方法了解其邻居功能的条件分布,并生成更多邻居功能,以提高下游任务的性能。基于本地增强,我们进一步设计了一个新颖的框架:La-GNN,可以以即插即用的方式应用于任何GNN模型。广泛的实验和分析表明,局部增强一致地对各种基准的各种GNN架构始终如一地产生性能改进。
translated by 谷歌翻译
图形神经网络(GNNS)在各种现实世界应用中取得了有希望的性能。建立一个强大的GNN模型不是一个琐碎的任务,因为它需要大量的培训数据,强大的计算资源和微调模型的人类专业知识。更重要的是,随着对抗性攻击的发展,例如,模型窃取攻击,GNNS提出了模型认证的挑战。为避免对GNN的版权侵犯,有必要验证GNN模型的所有权。在本文中,我们为图形和节点分类任务提供了一种用于GNN的水印框架。我们1)设计两种策略来为图形分类生成水印数据,一个用于节点分类任务,2)通过培训将水印嵌入到主机模型中,以获得水印的GNN模型,3)验证可疑模型的所有权在黑盒设置中。实验表明,我们的框架可以验证GNN模型的所有权,具有非常高的概率(约100亿美元)的任务。此外,我们实验表明,即使在考虑到从不同架构获得的可疑模型比所有者的可疑模型,我们的水印方法也仍然有效。
translated by 谷歌翻译
图形神经网络(GNNS)显着改善了图形结构数据的表示功率。尽管最近GNN的成功,大多数GNN的图表卷积都有两个限制。由于图形卷积在输入图上的小本地邻域中执行,因此固有地无法捕获距离节点之间的远程依赖性。另外,当节点具有属于不同类别的邻居时,即,异常,来自它们的聚合消息通常会影响表示学习。为了解决图表卷积的两个常见问题,在本文中,我们提出了可变形的图形卷积网络(可变形GCNS),可在多个潜在空间中自适应地执行卷积并捕获节点之间的短/远程依赖性。与节点表示(特征)分开,我们的框架同时学习节点位置嵌入式嵌入式(坐标)以确定节点之间以端到端的方式之间的关系。根据节点位置,卷积内核通过变形向量变形并将不同的变换应用于其邻居节点。我们广泛的实验表明,可变形的GCNS灵活地处理异常的处理,并在六个异化图数据集中实现节点分类任务中的最佳性能。
translated by 谷歌翻译
Graph Neural Networks (GNNs) have achieved promising performance on a wide range of graph-based tasks. Despite their success, one severe limitation of GNNs is the over-smoothing issue (indistinguishable representations of nodes in different classes). In this work, we present a systematic and quantitative study on the over-smoothing issue of GNNs. First, we introduce two quantitative metrics, MAD and MADGap, to measure the smoothness and oversmoothness of the graph nodes representations, respectively. Then, we verify that smoothing is the nature of GNNs and the critical factor leading to over-smoothness is the low information-to-noise ratio of the message received by the nodes, which is partially determined by the graph topology. Finally, we propose two methods to alleviate the oversmoothing issue from the topological view: (1) MADReg which adds a MADGap-based regularizer to the training objective; (2) AdaEdge which optimizes the graph topology based on the model predictions. Extensive experiments on 7 widely-used graph datasets with 10 typical GNN models show that the two proposed methods are effective for relieving the over-smoothing issue, thus improving the performance of various GNN models.
translated by 谷歌翻译
异质图具有多个节点和边缘类型,并且在语义上比同质图更丰富。为了学习这种复杂的语义,许多用于异质图的图形神经网络方法使用Metapaths捕获节点之间的多跳相互作用。通常,非目标节点的功能未纳入学习过程。但是,可以存在涉及多个节点或边缘的非线性高阶相互作用。在本文中,我们提出了Simplicial Graph注意网络(SGAT),这是一种简单的复杂方法,可以通过将非目标节点的特征放在简单上来表示这种高阶相互作用。然后,我们使用注意机制和上邻接来生成表示。我们凭经验证明了方法在异质图数据集上使用节点分类任务的方法的功效,并进一步显示了SGAT通过采用随机节点特征来提取结构信息的能力。数值实验表明,SGAT的性能优于其他当前最新的异质图学习方法。
translated by 谷歌翻译