由于现实世界图形/网络数据中的广泛标签稀缺问题,因此,自我监督的图形神经网络(GNN)非常需要。曲线图对比度学习(GCL),通过训练GNN以其不同的增强形式最大化相同图表之间的表示之间的对应关系,即使在不使用标签的情况下也可以产生稳健和可转移的GNN。然而,GNN由传统的GCL培训经常冒险捕获冗余图形特征,因此可能是脆弱的,并在下游任务中提供子对比。在这里,我们提出了一种新的原理,称为普通的普通GCL(AD-GCL),其使GNN能够通过优化GCL中使用的对抗性图形增强策略来避免在训练期间捕获冗余信息。我们将AD-GCL与理论解释和设计基于可训练的边缘滴加图的实际实例化。我们通过与最先进的GCL方法进行了实验验证了AD-GCL,并在无监督,6 \%$ 14 \%$ 6 \%$ 14 \%$ 6 \%$ 6 \%$ 3 \%$ 3 \%$达到半监督总体学习设置,具有18个不同的基准数据集,用于分子属性回归和分类和社交网络分类。
translated by 谷歌翻译
Generalizable, transferrable, and robust representation learning on graph-structured data remains a challenge for current graph neural networks (GNNs). Unlike what has been developed for convolutional neural networks (CNNs) for image data, self-supervised learning and pre-training are less explored for GNNs. In this paper, we propose a graph contrastive learning (GraphCL) framework for learning unsupervised representations of graph data. We first design four types of graph augmentations to incorporate various priors. We then systematically study the impact of various combinations of graph augmentations on multiple datasets, in four different settings: semi-supervised, unsupervised, and transfer learning as well as adversarial attacks. The results show that, even without tuning augmentation extents nor using sophisticated GNN architectures, our GraphCL framework can produce graph representations of similar or better generalizability, transferrability, and robustness compared to state-of-the-art methods. We also investigate the impact of parameterized graph augmentation extents and patterns, and observe further performance gains in preliminary experiments. Our codes are available at: https://github.com/Shen-Lab/GraphCL.
translated by 谷歌翻译
图形对比学习(GCL)已成为学习图形无监督表示的有效工具。关键思想是通过数据扩展最大化每个图的两个增强视图之间的一致性。现有的GCL模型主要集中在给定情况下的所有图表上应用\ textit {相同的增强策略}。但是,实际图通常不是单态,而是各种本质的抽象。即使在相同的情况下(例如,大分子和在线社区),不同的图形可能需要各种增强来执行有效的GCL。因此,盲目地增强所有图表而不考虑其个人特征可能会破坏GCL艺术的表现。 {a} u Mentigation(GPA),通过允许每个图选择自己的合适的增强操作来推进常规GCL。本质上,GPA根据其拓扑属性和节点属性通过可学习的增强选择器为每个图定制了量身定制的增强策略,该策略是插件模块,可以通过端到端的下游GCL型号有效地训练。来自不同类型和域的11个基准图的广泛实验证明了GPA与最先进的竞争对手的优势。此外,通过可视化不同类型的数据集中学习的增强分布,我们表明GPA可以有效地识别最合适的数据集每个图的增强基于其特征。
translated by 谷歌翻译
最近,测试时间适应(TTA)由于其处理现实世界中的分销转移问题而引起了越来越多的关注。与用于图像数据的卷积神经网络(CNN)开发的内容不同,图形神经网络(GNN)的探索较少。仍然缺乏针对具有不规则结构的图的有效算法。在本文中,我们提出了一种新颖的测试时间适应策略,称为图形伪群体对比度(GAPGC),用于图神经网络TTA,以更好地适应非分布(OOD)测试数据。具体而言,GAPGC在TTA期间采用了对比度学习变体作为一项自制任务,配备了对抗性可学习的增强器和组伪阳性样本,以增强自我监督任务与主要任务之间的相关性,从而提高主要任务。此外,我们提供了理论上的证据,表明GAPGC可以从信息理论的角度提取主要任务的最小信息。关于分子支架OOD数据集的广泛实验表明,所提出的方法在GNN上实现了最先进的性能。
translated by 谷歌翻译
图形对比度学习(GCL)很普遍,可以解决图形学习任务中的监督短缺问题。已经提出了许多最近使用手动设计的增强技术的GCL方法,旨在在原始图上实施具有挑战性的增强,以产生强大的表示。尽管他们中的许多人都取得了显着的表现,但现有的GCL方法仍然难以提高模型鲁棒性而不会冒失去与任务相关的信息的风险,因为它们忽略了增强引起的潜在因素的事实可能与原始图相吻合,因此更难更难将与任务相关的信息与无关信息区分开。因此,学到的代表性要么是脆弱的,要么不耗尽。鉴于此,我们介绍了对抗性的跨视图图形对比度学习(ACDGCL),该学习遵循信息瓶颈原理以从图形数据中学习最小而充分的表示形式。具体而言,我们提出的模型分别引起增强不变和增强依赖性因素。除了传统的对比损失外,还保证了不同对比度观点的表示的一致性和充分性外,我们还引入了跨视图重建机制来追求代表性删除。此外,对抗视图被添加为对比度损失的第三种观点,以增强模型鲁棒性。我们从经验上证明,我们提出的模型在多个基准数据集上优于图形分类任务上的最先进。
translated by 谷歌翻译
由于图形神经网络(GNN)在各个域中的出色性能,因此对GNN解释问题越来越感兴趣“ \ emph {输入图的哪一部分是决定模型决定的最关键?}“现有的解释?方法集中在监督的设置,例如节点分类和图形分类上,而无监督的图形表示学习的解释仍未探索。当部署高级决策情况时,图表表示的不透明可能会导致意外风险。在本文中,我们推进了信息瓶颈原理(IB),以解决无监督的图表表示所提出的解释问题,这导致了一个新颖的原理,\ textit {无监督的子图表信息瓶颈}(USIB)。我们还理论上分析了标签空间上图表和解释子图之间的联系,这表明表示的表现力和鲁棒性有益于解释性子图的保真度。合成和现实世界数据集的实验结果证明了我们发达的解释器的优越性以及我们的理论分析的有效性。
translated by 谷歌翻译
Molecular representation learning is crucial for the problem of molecular property prediction, where graph neural networks (GNNs) serve as an effective solution due to their structure modeling capabilities. Since labeled data is often scarce and expensive to obtain, it is a great challenge for GNNs to generalize in the extensive molecular space. Recently, the training paradigm of "pre-train, fine-tune" has been leveraged to improve the generalization capabilities of GNNs. It uses self-supervised information to pre-train the GNN, and then performs fine-tuning to optimize the downstream task with just a few labels. However, pre-training does not always yield statistically significant improvement, especially for self-supervised learning with random structural masking. In fact, the molecular structure is characterized by motif subgraphs, which are frequently occurring and influence molecular properties. To leverage the task-related motifs, we propose a novel paradigm of "pre-train, prompt, fine-tune" for molecular representation learning, named molecule continuous prompt tuning (MolCPT). MolCPT defines a motif prompting function that uses the pre-trained model to project the standalone input into an expressive prompt. The prompt effectively augments the molecular graph with meaningful motifs in the continuous representation space; this provides more structural patterns to aid the downstream classifier in identifying molecular properties. Extensive experiments on several benchmark datasets show that MolCPT efficiently generalizes pre-trained GNNs for molecular property prediction, with or without a few fine-tuning steps.
translated by 谷歌翻译
Many applications of machine learning require a model to make accurate predictions on test examples that are distributionally different from training ones, while task-specific labels are scarce during training. An effective approach to this challenge is to pre-train a model on related tasks where data is abundant, and then fine-tune it on a downstream task of interest. While pre-training has been effective in many language and vision domains, it remains an open question how to effectively use pre-training on graph datasets. In this paper, we develop a new strategy and self-supervised methods for pre-training Graph Neural Networks (GNNs). The key to the success of our strategy is to pre-train an expressive GNN at the level of individual nodes as well as entire graphs so that the GNN can learn useful local and global representations simultaneously. We systematically study pre-training on multiple graph classification datasets. We find that naïve strategies, which pre-train GNNs at the level of either entire graphs or individual nodes, give limited improvement and can even lead to negative transfer on many downstream tasks. In contrast, our strategy avoids negative transfer and improves generalization significantly across downstream tasks, leading up to 9.4% absolute improvements in ROC-AUC over non-pre-trained models and achieving state-of-the-art performance for molecular property prediction and protein function prediction.However, pre-training on graph datasets remains a hard challenge. Several key studies (
translated by 谷歌翻译
在本文中,我们研究了在非全粒图上进行节点表示学习的自我监督学习的问题。现有的自我监督学习方法通​​常假定该图是同质的,其中链接的节点通常属于同一类或具有相似的特征。但是,这种同质性的假设在现实图表中并不总是正确的。我们通过为图神经网络开发脱钩的自我监督学习(DSSL)框架来解决这个问题。 DSSL模仿了节点的生成过程和语义结构的潜在变量建模的链接,该过程将不同邻域之间的不同基础语义解散到自我监督的节点学习过程中。我们的DSSL框架对编码器不可知,不需要预制的增强,因此对不同的图表灵活。为了通过潜在变量有效地优化框架,我们得出了自我监督目标的较低范围的证据,并开发了具有变异推理的可扩展培训算法。我们提供理论分析,以证明DSSL享有更好的下游性能。与竞争性的自我监督学习基线相比,对各种类图基准的广泛实验表明,我们提出的框架可以显着取得更好的性能。
translated by 谷歌翻译
无监督的图形表示学习是图形数据的非琐碎主题。在结构化数据的无监督代表学习中对比学习和自我监督学习的成功激发了图表上的类似尝试。使用对比损耗的当前无监督的图形表示学习和预培训主要基于手工增强图数据之间的对比度。但是,由于不可预测的不变性,图数据增强仍然没有很好地探索。在本文中,我们提出了一种新颖的协作图形神经网络对比学习框架(CGCL),它使用多个图形编码器来观察图形。不同视图观察的特征充当了图形编码器之间对比学习的图表增强,避免了任何扰动以保证不变性。 CGCL能够处理图形级和节点级表示学习。广泛的实验表明CGCL在无监督的图表表示学习中的优势以及图形表示学习的手工数据增强组合的非必要性。
translated by 谷歌翻译
图对比度学习已被证明是图形神经网络(GNN)预训练的有效任务。但是,一个关键问题可能会严重阻碍现有作品中的代表权:当前方法创建的积极实例通常会错过图表的关键信息,甚至会错过非法实例(例如分子生成中的非化学意识图)。为了解决此问题,我们建议直接从训练集中的现有图中选择正图实例,该实例最终保持与目标图的合法性和相似性。我们的选择基于某些特定于域的成对相似性测量以及从层次图编码图中的相似性关系的采样。此外,我们开发了一种自适应节点级预训练方法,以动态掩盖节点在图中均匀分布。我们对来自各个域的$ 13 $图形分类和节点分类基准数据集进行了广泛的实验。结果表明,通过我们的策略预先培训的GNN模型可以胜过那些训练有素的从划痕模型以及通过现有方法获得的变体。
translated by 谷歌翻译
需要解释的图表学习是需要的,因为许多科学应用都取决于学习模型来从图形结构数据中收集见解。先前的工作主要集中在使用事后方法来解释预训练的模型(尤其是图形神经网络模型)。他们反对固有的可解释模型,因为对这些模型的良好解释通常是以其预测准确性为代价。而且,广泛使用的固有解释的注意力机制通常无法在图形学习任务中提供忠实的解释。在这项工作中,我们通过提出图形随机关注(GSAT)来解决这两个问题,这是一种来自信息瓶颈原理的注意机制。 GSAT利用随机关注来阻止从任务 - 核定图组件中的信息,同时学习降低随机性的注意力以选择与任务相关的子图以进行解释。 GSAT也可以通过随机注意机制应用于微调和解释预训练的模型。八个数据集的广泛实验表明,GSAT在解释AUC中的最高最高为20%$ \ uparrow $,而预测准确性则高于最高的最高$ \ uparrow $。
translated by 谷歌翻译
Graph representation learning has emerged as a powerful technique for addressing real-world problems. Various downstream graph learning tasks have benefited from its recent developments, such as node classification, similarity search, and graph classification. However, prior arts on graph representation learning focus on domain specific problems and train a dedicated model for each graph dataset, which is usually non-transferable to out-of-domain data. Inspired by the recent advances in pre-training from natural language processing and computer vision, we design Graph Contrastive Coding (GCC) 1 -a self-supervised graph neural network pre-training framework-to capture the universal network topological properties across multiple networks. We design GCC's pre-training task as subgraph instance discrimination in and across networks and leverage contrastive learning to empower graph neural networks to learn the intrinsic and transferable structural representations. We conduct extensive experiments on three graph learning tasks and ten graph datasets. The results show that GCC pre-trained on a collection of diverse datasets can achieve competitive or better performance to its task-specific and trained-from-scratch counterparts. This suggests that the pre-training and fine-tuning paradigm presents great potential for graph representation learning.
translated by 谷歌翻译
图表分类具有生物信息学,社会科学,自动假新闻检测,Web文档分类等中的应用程序。在许多实践方案中,包括网络级应用程序,其中标签稀缺或难以获得,无人监督的学习是一种自然范式,但它交易表现。最近,对比学习(CL)使得无监督的计算机视觉模型能够竞争对抗监督。分析Visual CL框架的理论和实证工作发现,利用大型数据集和域名感知增强对于框架成功至关重要。有趣的是,图表CL框架通常会在使用较小数据的顺序的同时报告高性能,并且使用可能损坏图形的底层属性的域名增强(例如,节点或边缘丢弃,功能捕获)。通过这些差异的激励,我们寻求确定:(i)为什么现有的图形Cl框架尽管增加了增强和有限的数据; (ii)是否遵守Visual CL原理可以提高图形分类任务的性能。通过广泛的分析,我们识别图形数据增强和评估协议的缺陷实践,这些协议通常用于图形CL文献中,并提出了未来的研究和应用的改进的实践和理智检查。我们表明,在小型基准数据集上,图形神经网络的归纳偏差可以显着补偿现有框架的局限性。在采用相对较大的图形分类任务的研究中,我们发现常用的域名忽视增强的表现不佳,同时遵守Visual Cl中的原则可以显着提高性能。例如,在基于图形的文档分类中,可以用于更好的Web搜索,我们显示任务相关的增强提高了20%的准确性。
translated by 谷歌翻译
对比度学习是图表学习中的有效无监督方法,对比度学习的关键组成部分在于构建正和负样本。以前的方法通常利用图中节点的接近度作为原理。最近,基于数据增强的对比度学习方法已进步以显示视觉域中的强大力量,一些作品将此方法从图像扩展到图形。但是,与图像上的数据扩展不同,图上的数据扩展远不那么直观,而且很难提供高质量的对比样品,这为改进留出了很大的空间。在这项工作中,通过引入一个对抗性图视图以进行数据增强,我们提出了一种简单但有效的方法,对抗图对比度学习(ARIEL),以在合理的约束中提取信息性的对比样本。我们开发了一种称为稳定训练的信息正则化的新技术,并使用子图抽样以进行可伸缩。我们通过将每个图形实例视为超级节点,从节点级对比度学习到图级。 Ariel始终优于在现实世界数据集上的节点级别和图形级分类任务的当前图对比度学习方法。我们进一步证明,面对对抗性攻击,Ariel更加强大。
translated by 谷歌翻译
对比学习已被广​​泛应用于图形表示学习,其中观测发生器在产生有效的对比样本方面发挥着重要作用。大多数现有的对比学习方法采用预定义的视图生成方法,例如节点滴或边缘扰动,这通常不能适应输入数据或保持原始语义结构。为了解决这个问题,我们提出了一份名为自动化图形对比学习(AutoGCL)的小说框架。具体而言,AutoGCL采用一组由自动增强策略协调的一组学习图形视图生成器,其中每个图形视图生成器都会学习输入调节的图形的概率分布。虽然AutoGCL中的图形视图发生器在生成每个对比样本中保留原始图的最代表性结构,但自动增强学会在整个对比学习程序中介绍适当的增强差异的政策。此外,AutoGCL采用联合培训策略,以培训学习的视图发生器,图形编码器和分类器以端到端的方式,导致拓扑异质性,在产生对比样本时的语义相似性。关于半监督学习,无监督学习和转移学习的广泛实验展示了我们在图形对比学习中的最先进的自动支持者框架的优越性。此外,可视化结果进一步证实,与现有的视图生成方法相比,可学习的视图发生器可以提供更紧凑和语义有意义的对比样本。
translated by 谷歌翻译
图级表示在各种现实世界中至关重要,例如预测分子的特性。但是实际上,精确的图表注释通常非常昂贵且耗时。为了解决这个问题,图形对比学习构造实例歧视任务,将正面对(同一图的增强对)汇总在一起,并将负面对(不同图的增强对)推开,以进行无监督的表示。但是,由于为了查询,其负面因素是从所有图中均匀抽样的,因此现有方法遭受关键采样偏置问题的损失,即,否定物可能与查询具有相同的语义结构,从而导致性能降解。为了减轻这种采样偏见问题,在本文中,我们提出了一种典型的图形对比度学习(PGCL)方法。具体而言,PGCL通过将语义相似的图形群群归为同一组的群集数据的基础语义结构,并同时鼓励聚类的一致性,以实现同一图的不同增强。然后给出查询,它通过从与查询群集不同的群集中绘制图形进行负采样,从而确保查询及其阴性样本之间的语义差异。此外,对于查询,PGCL根据其原型(集群质心)和查询原型之间的距离进一步重新重新重新重新重新享受其负样本,从而使那些具有中等原型距离的负面因素具有相对较大的重量。事实证明,这种重新加权策略比统一抽样更有效。各种图基准的实验结果证明了我们的PGCL比最新方法的优势。代码可在https://github.com/ha-lins/pgcl上公开获取。
translated by 谷歌翻译
使用图神经网络(GNN)提取分子的信息表示,对于AI驱动的药物发现至关重要。最近,图形研究界一直在试图复制自然语言处理预处理的成功,并获得了一些成功。但是,我们发现在许多情况下,自我监督预审计对分子数据的益处可以忽略不计。我们对GNN预处理的关键组成部分进行了彻底的消融研究,包括预处理目标,数据拆分方法,输入特征,预处理数据集量表和GNN体系结构,以决定下游任务的准确性。我们的第一个重要发现是,在许多情况下,自我监督的图表预处理没有统计学上的显着优势。其次,尽管可以通过额外的监督预处理可以观察到改进,但通过更丰富或更平衡的数据拆分,改进可能会减少。第三,实验性超参数对下游任务的准确性具有更大的影响,而不是训练训练的任务。我们假设对分子进行预训练的复杂性不足,从而导致下游任务的可转移知识较低。
translated by 谷歌翻译
分子特性预测是与关键现实影响的深度学习的增长最快的应用之一。包括3D分子结构作为学习模型的输入可以提高它们对许多分子任务的性能。但是,此信息是不可行的,可以以几个现实世界应用程序所需的规模计算。我们建议预先训练模型,以推理仅给予其仅为2D分子图的分子的几何形状。使用来自自我监督学习的方法,我们最大化3D汇总向量和图形神经网络(GNN)的表示之间的相互信息,使得它们包含潜在的3D信息。在具有未知几何形状的分子上进行微调期间,GNN仍然产生隐式3D信息,并可以使用它来改善下游任务。我们表明3D预训练为广泛的性质提供了显着的改进,例如八个量子力学性能的22%的平均MAE。此外,可以在不同分子空间中的数据集之间有效地传送所学习的表示。
translated by 谷歌翻译
关于图表的深度学习最近吸引了重要的兴趣。然而,大多数作品都侧重于(半)监督学习,导致缺点包括重标签依赖,普遍性差和弱势稳健性。为了解决这些问题,通过良好设计的借口任务在不依赖于手动标签的情况下提取信息知识的自我监督学习(SSL)已成为图形数据的有希望和趋势的学习范例。与计算机视觉和自然语言处理等其他域的SSL不同,图表上的SSL具有独家背景,设计理念和分类。在图表的伞下自我监督学习,我们对采用图表数据采用SSL技术的现有方法及时及全面的审查。我们构建一个统一的框架,数学上正式地规范图表SSL的范例。根据借口任务的目标,我们将这些方法分为四类:基于生成的,基于辅助性的,基于对比的和混合方法。我们进一步描述了曲线图SSL在各种研究领域的应用,并总结了绘图SSL的常用数据集,评估基准,性能比较和开源代码。最后,我们讨论了该研究领域的剩余挑战和潜在的未来方向。
translated by 谷歌翻译