生成的自我监督学习(SSL),尤其是蒙面自动编码器,已成为最令人兴奋的学习范式之一,并且在处理图形数据方面表现出了巨大的潜力。但是,现实世界图总是异质的,它提出了现有方法忽略的三个关键挑战:1)如何捕获复杂的图形结构? 2)如何合并各种节点属性? 3)如何编码不同的节点位置?鉴于此,我们研究了异质图上生成SSL的问题,并提出了HGMAE,这是一种新型的异质图掩盖自动编码器模型,以应对这些挑战。 HGMAE通过两种创新的掩蔽技术和三种独特的培训策略捕获了全面的图形信息。特别是,我们首先使用动态掩模速率开发Metapath掩盖和自适应属性掩蔽,以实现在异质图上有效和稳定的学习。然后,我们设计了几种培训策略,包括基于Metapath的边缘重建,以采用复杂的结构信息,目标属性恢复以结合各种节点属性,以及位置特征预测以编码节点位置信息。广泛的实验表明,HGMAE在多个数据集上的几个任务上均优于对比度和生成的最新基准。
translated by 谷歌翻译
近年来,自我监督学习(SSL)已广泛探索。特别是,生成的SSL在自然语言处理和其他AI领域(例如BERT和GPT的广泛采用)中获得了新的成功。尽管如此,对比度学习 - 严重依赖结构数据的增强和复杂的培训策略,这是图SSL的主要方法,而迄今为止,生成SSL在图形上的进度(尤其是GAES)尚未达到潜在的潜力。正如其他领域所承诺的。在本文中,我们确定并检查对GAE的发展产生负面影响的问题,包括其重建目标,训练鲁棒性和错误指标。我们提出了一个蒙版的图形自动编码器Graphmae,该图可以减轻这些问题,以预处理生成性自我监督图。我们建议没有重建图形结构,而是提议通过掩盖策略和缩放余弦误差将重点放在特征重建上,从而使GraphMae的强大训练受益。我们在21个公共数据集上进行了大量实验,以实现三个不同的图形学习任务。结果表明,Graphmae-A简单的图形自动编码器具有仔细的设计-CAN始终在对比度和生成性最新基准相比,始终产生优于性的表现。这项研究提供了对图自动编码器的理解,并证明了在图上的生成自我监督预训练的潜力。
translated by 谷歌翻译
在异质图上的自我监督学习(尤其是对比度学习)方法可以有效地摆脱对监督数据的依赖。同时,大多数现有的表示学习方法将异质图嵌入到欧几里得或双曲线的单个几何空间中。这种单个几何视图通常不足以观察由于其丰富的语义和复杂结构而观察到异质图的完整图片。在这些观察结果下,本文提出了一种新型的自我监督学习方法,称为几何对比度学习(GCL),以更好地表示监督数据是不可用时的异质图。 GCL同时观察了从欧几里得和双曲线观点的异质图,旨在强烈合并建模丰富的语义和复杂结构的能力,这有望为下游任务带来更多好处。 GCL通过在局部局部和局部全球语义水平上对比表示两种几何视图之间的相互信息。在四个基准数据集上进行的广泛实验表明,在三个任务上,所提出的方法在包括节点分类,节点群集和相似性搜索在内的三个任务上都超过了强基础,包括无监督的方法和监督方法。
translated by 谷歌翻译
由于在建模相互依存系统中,由于其高效用,多层图已经在许多领域获得了大量的研究。然而,多层图的聚类,其旨在将图形节点划分为类别或社区,仍处于新生阶段。现有方法通常限于利用MultiView属性或多个网络,并忽略更复杂和更丰富的网络框架。为此,我们向多层图形聚类提出了一种名为Multidayer agal对比聚类网络(MGCCN)的多层图形聚类的通用和有效的AutoEncoder框架。 MGCCN由三个模块组成:(1)应用机制以更好地捕获节点与邻居之间的相关性以获得更好的节点嵌入。 (2)更好地探索不同网络中的一致信息,引入了对比融合策略。 (3)MGCCN采用自我监督的组件,可迭代地增强节点嵌入和聚类。对不同类型的真实图数据数据的广泛实验表明我们所提出的方法优于最先进的技术。
translated by 谷歌翻译
关于图表的深度学习最近吸引了重要的兴趣。然而,大多数作品都侧重于(半)监督学习,导致缺点包括重标签依赖,普遍性差和弱势稳健性。为了解决这些问题,通过良好设计的借口任务在不依赖于手动标签的情况下提取信息知识的自我监督学习(SSL)已成为图形数据的有希望和趋势的学习范例。与计算机视觉和自然语言处理等其他域的SSL不同,图表上的SSL具有独家背景,设计理念和分类。在图表的伞下自我监督学习,我们对采用图表数据采用SSL技术的现有方法及时及全面的审查。我们构建一个统一的框架,数学上正式地规范图表SSL的范例。根据借口任务的目标,我们将这些方法分为四类:基于生成的,基于辅助性的,基于对比的和混合方法。我们进一步描述了曲线图SSL在各种研究领域的应用,并总结了绘图SSL的常用数据集,评估基准,性能比较和开源代码。最后,我们讨论了该研究领域的剩余挑战和潜在的未来方向。
translated by 谷歌翻译
尽管图表学习(GRL)取得了重大进展,但要以足够的方式提取和嵌入丰富的拓扑结构和特征信息仍然是一个挑战。大多数现有方法都集中在本地结构上,并且无法完全融合全球拓扑结构。为此,我们提出了一种新颖的结构保留图表学习(SPGRL)方法,以完全捕获图的结构信息。具体而言,为了减少原始图的不确定性和错误信息,我们通过k-nearest邻居方法构建了特征图作为互补视图。该特征图可用于对比节点级别以捕获本地关系。此外,我们通过最大化整个图形和特征嵌入的相互信息(MI)来保留全局拓扑结构信息,从理论上讲,该信息可以简化为交换功能的特征嵌入和原始图以重建本身。广泛的实验表明,我们的方法在半监督节点分类任务上具有相当出色的性能,并且在图形结构或节点特征上噪声扰动下的鲁棒性出色。
translated by 谷歌翻译
异质图卷积网络在解决异质网络数据的各种网络分析任务方面已广受欢迎,从链接预测到节点分类。但是,大多数现有作品都忽略了多型节点之间的多重网络的关系异质性,而在元路径中,元素嵌入中关系的重要性不同,这几乎无法捕获不同关系跨不同关系的异质结构信号。为了应对这一挑战,这项工作提出了用于异质网络嵌入的多重异质图卷积网络(MHGCN)。我们的MHGCN可以通过多层卷积聚合自动学习多重异质网络中不同长度的有用的异质元路径相互作用。此外,我们有效地将多相关结构信号和属性语义集成到学习的节点嵌入中,并具有无监督和精选的学习范式。在具有各种网络分析任务的五个现实世界数据集上进行的广泛实验表明,根据所有评估指标,MHGCN与最先进的嵌入基线的优势。
translated by 谷歌翻译
尽管有关超图的机器学习吸引了很大的关注,但大多数作品都集中在(半)监督的学习上,这可能会导致繁重的标签成本和不良的概括。最近,对比学习已成为一种成功的无监督表示学习方法。尽管其他领域中对比度学习的发展繁荣,但对超图的对比学习仍然很少探索。在本文中,我们提出了Tricon(三个方向对比度学习),这是对超图的对比度学习的一般框架。它的主要思想是三个方向对比度,具体来说,它旨在在两个增强视图中最大化同一节点之间的协议(a),(b)在同一节点之间以及(c)之间,每个组之间的成员及其成员之间的协议(b) 。加上简单但令人惊讶的有效数据增强和负抽样方案,这三种形式的对比使Tricon能够在节点嵌入中捕获显微镜和介观结构信息。我们使用13种基线方法,5个数据集和两个任务进行了广泛的实验,这证明了Tricon的有效性,最明显的是,Tricon始终优于无监督的竞争对手,而且(半)受监督的竞争对手,大多数是由大量的节点分类的大量差额。
translated by 谷歌翻译
用于异质图嵌入的图形神经网络是通过探索异质图的异质性和语义来将节点投射到低维空间中。但是,一方面,大多数现有的异质图嵌入方法要么不足以对特定语义下的局部结构进行建模,要么在汇总信息时忽略异质性。另一方面,来自多种语义的表示形式未全面整合以获得多功能节点嵌入。为了解决该问题,我们通过引入多视图表示学习的概念,提出了一个具有多视图表示学习(名为MV-HETGNN)的异质图神经网络(称为MV-HETGNN)。所提出的模型由节点特征转换,特定于视图的自我图编码和自动多视图融合,以彻底学习复杂的结构和语义信息,以生成全面的节点表示。在三个现实世界的异质图数据集上进行的广泛实验表明,所提出的MV-HETGNN模型始终优于各种下游任务中所有最新的GNN基准,例如节点分类,节点群集和链接预测。
translated by 谷歌翻译
我们介绍了一种新颖的屏蔽图AutoEncoder(MGAE)框架,以在图形结构数据上执行有效的学习。从自我监督学习中欣识见,我们随机掩盖了大部分边缘,并在训练期间尝试重建这些缺失的边缘。 Mgae有两个核心设计。首先,我们发现掩蔽了输入图结构的高比率,例如70 \%$,产生一个非凡和有意义的自我监督任务,使下游应用程序受益。其次,我们使用图形神经网络(GNN)作为编码器,以在部分掩蔽的图表上执行消息传播。为了重建大量掩模边缘,提出了一种定制的互相关解码器。它可以捕获多粒度的锚边的头部和尾部节点之间的互相关。耦合这两种设计使MGAE能够有效且有效地培训。在多个开放数据集(Planetoid和OGB基准测试)上进行了广泛的实验,证明MGAE通常比链接预测和节点分类更好地表现优于最先进的无监督竞争对手。
translated by 谷歌翻译
In recent years, semi-supervised graph learning with data augmentation (DA) is currently the most commonly used and best-performing method to enhance model robustness in sparse scenarios with few labeled samples. Differing from homogeneous graph, DA in heterogeneous graph has greater challenges: heterogeneity of information requires DA strategies to effectively handle heterogeneous relations, which considers the information contribution of different types of neighbors and edges to the target nodes. Furthermore, over-squashing of information is caused by the negative curvature that formed by the non-uniformity distribution and strong clustering in complex graph. To address these challenges, this paper presents a novel method named Semi-Supervised Heterogeneous Graph Learning with Multi-level Data Augmentation (HG-MDA). For the problem of heterogeneity of information in DA, node and topology augmentation strategies are proposed for the characteristics of heterogeneous graph. And meta-relation-based attention is applied as one of the indexes for selecting augmented nodes and edges. For the problem of over-squashing of information, triangle based edge adding and removing are designed to alleviate the negative curvature and bring the gain of topology. Finally, the loss function consists of the cross-entropy loss for labeled data and the consistency regularization for unlabeled data. In order to effectively fuse the prediction results of various DA strategies, the sharpening is used. Existing experiments on public datasets, i.e., ACM, DBLP, OGB, and industry dataset MB show that HG-MDA outperforms current SOTA models. Additionly, HG-MDA is applied to user identification in internet finance scenarios, helping the business to add 30% key users, and increase loans and balances by 3.6%, 11.1%, and 9.8%.
translated by 谷歌翻译
Graph neural network, as a powerful graph representation technique based on deep learning, has shown superior performance and attracted considerable research interest. However, it has not been fully considered in graph neural network for heterogeneous graph which contains different types of nodes and links. The heterogeneity and rich semantic information bring great challenges for designing a graph neural network for heterogeneous graph. Recently, one of the most exciting advancements in deep learning is the attention mechanism, whose great potential has been well demonstrated in various areas. In this paper, we first propose a novel heterogeneous graph neural network based on the hierarchical attention, including node-level and semantic-level attentions. Specifically, the node-level attention aims to learn the importance between a node and its metapath based neighbors, while the semantic-level attention is able to learn the importance of different meta-paths. With the learned importance from both node-level and semantic-level attention, the importance of node and meta-path can be fully considered. Then the proposed model can generate node embedding by aggregating features from meta-path based neighbors in a hierarchical manner. Extensive experimental results on three real-world heterogeneous graphs not only show the superior performance of our proposed model over the state-of-the-arts, but also demonstrate its potentially good interpretability for graph analysis.
translated by 谷歌翻译
图是对物体之间关系的强大表示,吸引了很多关注。图形学习的一个基本挑战是如何在没有标签的情况下训练有效的图形神经网络(GNN)编码器,这些标签既昂贵又耗时。对比学习(CL)是应对这一挑战的最受欢迎的范式之一,该挑战通过区分正和负节点对来训练GNN。尽管最近的CL方法取得了成功,但仍然存在两个爆炸案。首先,如何减少基于随机拓扑的数据增强引入的语义错误。传统CL通过节点级拓扑接近定义正和负节点对,该节点拓扑接近度仅基于图形拓扑,而不论节点属性的语义信息如何,因此某些语义上相似的节点可能被错误地视为负对。其次,如何有效地对现实图形的多重性进行建模,其中节点通过各种关系连接,并且每个关系都可以形成均匀的图层。为了解决这些问题,我们提出了一种新型的多重异质图原型对比度倾斜(X-GAL)框架来提取节点嵌入。 X-GOAL由两个组成部分组成:目标框架,该目标框架学习每个均匀图层的节点嵌入,以及一个对齐正则化,通过对齐层特定的节点嵌入来共同对不同的层进行模拟不同的层。具体而言,目标框架通过简洁的图形转换技术捕获节点级信息,并通过将节点拉到嵌入空间中的同一语义簇中,从而捕获群集级信息。对齐正则化在节点和群集级别的层上对齐嵌入。我们在各种现实世界数据集和下游任务上评估X-GAL,以证明其有效性。
translated by 谷歌翻译
图形表示学习(GRL)属性缺失的图表,这是一个常见的难以具有挑战性的问题,最近引起了相当大的关注。我们观察到现有文献:1)隔离属性和结构嵌入的学习因此未能采取两种类型的信息的充分优势; 2)对潜伏空间变量的分布假设施加过于严格的分布假设,从而导致差异较少的特征表示。在本文中,基于在两个信息源之间引入亲密信息交互的想法,我们提出了我们的暹罗属性丢失的图形自动编码器(SAGA)。具体而言,已经进行了三种策略。首先,我们通过引入暹罗网络结构来共享两个进程学习的参数来纠缠嵌入属性嵌入和结构嵌入,这允许网络培训从更丰富和不同的信息中受益。其次,我们介绍了一个K到最近的邻居(knn)和结构约束,增强了学习机制,通过过滤不可靠的连接来提高缺失属性的潜在特征的质量。第三,我们手动掩盖多个相邻矩阵上的连接,并强力嵌入子网恢复真正的相邻矩阵,从而强制实现所得到的网络能够选择性地利用更高级别的判别特征来进行数据完成。六个基准数据集上的广泛实验表明了我们传奇的优越性,反对最先进的方法。
translated by 谷歌翻译
注意机制使图形神经网络(GNN)能够学习目标节点与其单跳邻居之间的注意力权重,从而进一步提高性能。但是,大多数现有的GNN都针对均匀图,其中每一层只能汇总单跳邻居的信息。堆叠多层网络引入了相当大的噪音,并且很容易导致过度平滑。我们在这里提出了一种多跃波异质邻域信息融合图表示方法(MHNF)。具体而言,我们提出了一个混合元自动提取模型,以有效提取多ihop混合邻居。然后,我们制定了一个跳级的异质信息聚合模型,该模型在同一混合Metapath中选择性地汇总了不同的跳跃邻域信息。最后,构建了分层语义注意融合模型(HSAF),该模型可以有效地整合不同的互动和不同的路径邻域信息。以这种方式,本文解决了汇总MultiHop邻里信息和学习目标任务的混合元数据的问题。这减轻了手动指定Metapaths的限制。此外,HSAF可以提取Metapaths的内部节点信息,并更好地整合存在不同级别的语义信息。真实数据集的实验结果表明,MHNF在最先进的基准中取得了最佳或竞争性能,仅1/10〜1/100参数和计算预算。我们的代码可在https://github.com/phd-lanyu/mhnf上公开获取。
translated by 谷歌翻译
Network embedding (NE) approaches have emerged as a predominant technique to represent complex networks and have benefited numerous tasks. However, most NE approaches rely on a homophily assumption to learn embeddings with the guidance of supervisory signals, leaving the unsupervised heterophilous scenario relatively unexplored. This problem becomes especially relevant in fields where a scarcity of labels exists. Here, we formulate the unsupervised NE task as an r-ego network discrimination problem and develop the SELENE framework for learning on networks with homophily and heterophily. Specifically, we design a dual-channel feature embedding pipeline to discriminate r-ego networks using node attributes and structural information separately. We employ heterophily adapted self-supervised learning objective functions to optimise the framework to learn intrinsic node embeddings. We show that SELENE's components improve the quality of node embeddings, facilitating the discrimination of connected heterophilous nodes. Comprehensive empirical evaluations on both synthetic and real-world datasets with varying homophily ratios validate the effectiveness of SELENE in homophilous and heterophilous settings showing an up to 12.52% clustering accuracy gain.
translated by 谷歌翻译
图形对比学习(GCL)已成为学习图形无监督表示的有效工具。关键思想是通过数据扩展最大化每个图的两个增强视图之间的一致性。现有的GCL模型主要集中在给定情况下的所有图表上应用\ textit {相同的增强策略}。但是,实际图通常不是单态,而是各种本质的抽象。即使在相同的情况下(例如,大分子和在线社区),不同的图形可能需要各种增强来执行有效的GCL。因此,盲目地增强所有图表而不考虑其个人特征可能会破坏GCL艺术的表现。 {a} u Mentigation(GPA),通过允许每个图选择自己的合适的增强操作来推进常规GCL。本质上,GPA根据其拓扑属性和节点属性通过可学习的增强选择器为每个图定制了量身定制的增强策略,该策略是插件模块,可以通过端到端的下游GCL型号有效地训练。来自不同类型和域的11个基准图的广泛实验证明了GPA与最先进的竞争对手的优势。此外,通过可视化不同类型的数据集中学习的增强分布,我们表明GPA可以有效地识别最合适的数据集每个图的增强基于其特征。
translated by 谷歌翻译
由于其在许多有影响力的领域中的广泛应用,归因网络上的图形异常检测已成为普遍的研究主题。在现实情况下,属性网络中的节点和边缘通常显示出不同的异质性,即不同类型的节点的属性显示出大量的多样性,不同类型的关系表示多种含义。在这些网络中,异常在异质性的各个角度上的表现通常与大多数不同。但是,现有的图异常检测方法不能利用归因网络中的异质性,这与异常检测高度相关。鉴于这个问题,我们提出了前方的提议:基于编码器解码器框架的异质性无监督图异常检测方法。具体而言,对于编码器,我们设计了三个关注级别,即属性级别,节点类型级别和边缘级别的关注,以捕获网络结构的异质性,节点属性和单个节点的信息。在解码器中,我们利用结构,属性和节点类型重建项来获得每个节点的异常得分。广泛的实验表明,与无监督环境中的艺术品相比,在几个现实世界中的异质信息网络上,前方的优势。进一步的实验验证了我们三重注意力,模型骨干和解码器的有效性和鲁棒性。
translated by 谷歌翻译
已经提出了图形神经网络(GNN)预训练方法来增强GNN的能力。具体而言,首先在大规模的未标记图上预先训练GNN,然后在单独的小标记图上进行微调,以用于下游应用程序,例如节点分类。一种流行的预训练方法是掩盖一部分边缘,并接受了GNN的培训以恢复它们。但是,这种生成方法遭受了图不匹配。也就是说,输入到GNN偏离原始图的蒙版图。为了减轻此问题,我们提出了DIP-GNN(图神经网络的歧视性预训练)。具体来说,我们训练一个发电机以恢复蒙版边缘的身份,同时,我们训练一个判别器,以区分生成的边缘与原始图的边缘。在我们的框架中,鉴别器看到的图形更好地匹配原始图,因为生成器可以恢复蒙版边缘的一部分。大规模同质和异质图的广泛实验证明了该框架的有效性。
translated by 谷歌翻译
Graph Neural Networks (GNNs) have attracted increasing attention in recent years and have achieved excellent performance in semi-supervised node classification tasks. The success of most GNNs relies on one fundamental assumption, i.e., the original graph structure data is available. However, recent studies have shown that GNNs are vulnerable to the complex underlying structure of the graph, making it necessary to learn comprehensive and robust graph structures for downstream tasks, rather than relying only on the raw graph structure. In light of this, we seek to learn optimal graph structures for downstream tasks and propose a novel framework for semi-supervised classification. Specifically, based on the structural context information of graph and node representations, we encode the complex interactions in semantics and generate semantic graphs to preserve the global structure. Moreover, we develop a novel multi-measure attention layer to optimize the similarity rather than prescribing it a priori, so that the similarity can be adaptively evaluated by integrating measures. These graphs are fused and optimized together with GNN towards semi-supervised classification objective. Extensive experiments and ablation studies on six real-world datasets clearly demonstrate the effectiveness of our proposed model and the contribution of each component.
translated by 谷歌翻译