图上的节点分类是许多实际域中的重要任务。它通常需要培训标签,在实践中获得很难或昂贵。鉴于标签的预算,主动学习旨在通过仔细选择要标记的节点来提高性能。先前的图形活动方法使用标记的节点学习表示表示,并选择一些未标记的节点进行标签采集。但是,它们并未完全利用未标记节点中存在的表示能力。我们认为,未标记节点中的表示能力对于积极学习和进一步改善了积极学习的节点分类的性能很有用。在本文中,我们提出了一个基于潜在空间聚类的活性学习框架(LSCALE),在该框架中,我们在标签和未标记的节点中充分利用了表示功能。具体而言,为了选择用于标签的节点,我们的框架使用了基于无监督功能和监督功能的动态组合,在潜在空间上使用K-Medoids聚类算法。此外,我们设计了一个增量聚类模块,以避免在不同步骤中选择的节点之间的冗余。在五个数据集上进行的广泛实验表明,我们提出的框架LSCALE始终如一,并显着超过了较大的边距。
translated by 谷歌翻译
图表神经网络(GNNS)对于节点分类或边缘预测等预测任务,在最近的机器中从图形结构数据中获得了越来越长的注意。然而,难以获得大量标记的图表,这显着限制了GNN的真正成功。虽然积极学习已被广​​泛研究用于解决文本,图像等等其他数据类型的标签稀疏问题,但如何使其有效地对图表进行有效,是一个开放的研究问题。在本文中,我们对节点分类任务的GNN进行了主动学习的调查。具体地,我们提出了一种新方法,它使用节点特征传播,然后是节点的K-METOIDS聚类,例如在活动学习中选择。通过理论束缚分析,我们证明了我们的方法的设计选择。在我们在四个基准数据集的实验中,所提出的方法始终如一地优于其他代表性基线方法。
translated by 谷歌翻译
Training labels for graph embedding algorithms could be costly to obtain in many practical scenarios. Active learning (AL) algorithms are very helpful to obtain the most useful labels for training while keeping the total number of label queries under a certain budget. The existing Active Graph Embedding framework proposes to use centrality score, density score, and entropy score to evaluate the value of unlabeled nodes, and it has been shown to be capable of bringing some improvement to the node classification tasks of Graph Convolutional Networks. However, when evaluating the importance of unlabeled nodes, it fails to consider the influence of existing labeled nodes on the value of unlabeled nodes. In other words, given the same unlabeled node, the computed informative score is always the same and is agnostic to the labeled node set. With the aim to address this limitation, in this work, we introduce 3 dissimilarity-based information scores for active learning: feature dissimilarity score (FDS), structure dissimilarity score (SDS), and embedding dissimilarity score (EDS). We find out that those three scores are able to take the influence of the labeled set on the value of unlabeled candidates into consideration, boosting our AL performance. According to experiments, our newly proposed scores boost the classification accuracy by 2.1% on average and are capable of generalizing to different Graph Neural Network architectures.
translated by 谷歌翻译
哪些目标标签对于图形神经网络(GNN)培训最有效?在某些应用GNNS Excel样药物设计或欺诈检测的应用中,标记新实例很昂贵。我们开发一个具有数据效率的主动采样框架,即ScatterSample,以在主动学习设置下训练GNN。 ScatterSample采用称为不同确定性的抽样模块,从样品空间的不同区域收集具有较大不确定性的实例以进行标记。为了确保所选节点的多样化,不同的确定性簇群簇较高的不确定性节点,​​并从每个群集中选择代表性节点。严格的理论分析表明,与标准的主动采样方法相比,我们的ScatterSample算法进一步支持了其优势,该方法旨在简单地简单地提高不确定性,而不是使样品多样化。特别是,我们表明ScatterSample能够在整个样品空间上有效地减少模型不确定性。我们在五个数据集上的实验表明,散点样本明显优于其他GNN主动学习基线,特别是它将采样成本降低了50%,同时达到了相同的测试准确性。
translated by 谷歌翻译
Graph neural networks have achieved significant success in representation learning. However, the performance gains come at a cost; acquiring comprehensive labeled data for training can be prohibitively expensive. Active learning mitigates this issue by searching the unexplored data space and prioritizing the selection of data to maximize model's performance gain. In this paper, we propose a novel method SMARTQUERY, a framework to learn a graph neural network with very few labeled nodes using a hybrid uncertainty reduction function. This is achieved using two key steps: (a) design a multi-stage active graph learning framework by exploiting diverse explicit graph information and (b) introduce label propagation to efficiently exploit known labels to assess the implicit embedding information. Using a comprehensive set of experiments on three network datasets, we demonstrate the competitive performance of our method against state-of-the-arts on very few labeled data (up to 5 labeled nodes per class).
translated by 谷歌翻译
异质图卷积网络在解决异质网络数据的各种网络分析任务方面已广受欢迎,从链接预测到节点分类。但是,大多数现有作品都忽略了多型节点之间的多重网络的关系异质性,而在元路径中,元素嵌入中关系的重要性不同,这几乎无法捕获不同关系跨不同关系的异质结构信号。为了应对这一挑战,这项工作提出了用于异质网络嵌入的多重异质图卷积网络(MHGCN)。我们的MHGCN可以通过多层卷积聚合自动学习多重异质网络中不同长度的有用的异质元路径相互作用。此外,我们有效地将多相关结构信号和属性语义集成到学习的节点嵌入中,并具有无监督和精选的学习范式。在具有各种网络分析任务的五个现实世界数据集上进行的广泛实验表明,根据所有评估指标,MHGCN与最先进的嵌入基线的优势。
translated by 谷歌翻译
本文解决了几秒钟学习问题,旨在从几个例子中学习新的视觉概念。在几次拍摄分类中的常见问题设置假设在获取数据标签中的随机采样策略,其在实际应用中效率低下。在这项工作中,我们介绍了一个新的预算感知几秒钟学习问题,不仅旨在学习新的对象类别,还需要选择信息实例来注释以实现数据效率。我们为我们的预算感知几秒钟学习任务开发了一个元学习策略,该任务共同了解基于图形卷积网络(GCN)和基于示例的少量拍摄分类器的新型数据选择策略。我们的选择策略通过图形消息传递计算每个未标记数据的上下文敏感表示,然后用于预测顺序选择的信息性分数。我们在迷你想象网,分层 - 想象项目和omniglot数据集上进行广泛的实验验证我们的方法。结果表明,我们的几次学习策略优于一个相当大的边缘,这表明了我们的方法的功效。
translated by 谷歌翻译
图形存在于许多现实世界中的应用中,例如财务欺诈检测,商业建议和社交网络分析。但是,鉴于图形注释或标记的高成本,我们面临严重的图形标签 - 刻度问题,即,图可能具有一些标记的节点。这样一个问题的一个例子是所谓的\ textit {少数弹性节点分类}。该问题的主要方法均依靠\ textit {情节元学习}。在这项工作中,我们通过提出一个基本问题来挑战现状,元学习是否是对几个弹性节点分类任务的必要条件。我们在标准的几杆节点分类设置下提出了一个新的简单框架,作为学习有效图形编码器的元学习的替代方法。该框架由有监督的图形对比学习以及新颖的数据增强,子图编码和图形上的多尺度对比度组成。在三个基准数据集(Corafull,Reddit,OGBN)上进行的广泛实验表明,新框架显着胜过基于最先进的元学习方法。
translated by 谷歌翻译
图形神经网络(GNNS)在学习归属图中显示了很大的力量。但是,GNNS从源节点利用遥控器的信息仍然是一个挑战。此外,常规GNN要求将图形属性作为输入,因此它们无法应用于纯图。在论文中,我们提出了名为G-GNNS(GNN的全局信息)的新模型来解决上述限制。首先,通过无监督的预训练获得每个节点的全局结构和属性特征,其保留与节点相关联的全局信息。然后,使用全局功能和原始网络属性,我们提出了一个并行GNN的并行框架来了解这些功能的不同方面。所提出的学习方法可以应用于普通图和归属图。广泛的实验表明,G-GNNS可以在三个标准评估图上优于其他最先进的模型。特别是,我们的方法在学习归属图表时建立了Cora(84.31 \%)和PubMed(80.95 \%)的新基准记录。
translated by 谷歌翻译
Graph Neural Networks (GNNs) have been widely applied in the semi-supervised node classification task, where a key point lies in how to sufficiently leverage the limited but valuable label information. Most of the classical GNNs solely use the known labels for computing the classification loss at the output. In recent years, several methods have been designed to additionally utilize the labels at the input. One part of the methods augment the node features via concatenating or adding them with the one-hot encodings of labels, while other methods optimize the graph structure by assuming neighboring nodes tend to have the same label. To bring into full play the rich information of labels, in this paper, we present a label-enhanced learning framework for GNNs, which first models each label as a virtual center for intra-class nodes and then jointly learns the representations of both nodes and labels. Our approach could not only smooth the representations of nodes belonging to the same class, but also explicitly encode the label semantics into the learning process of GNNs. Moreover, a training node selection technique is provided to eliminate the potential label leakage issue and guarantee the model generalization ability. Finally, an adaptive self-training strategy is proposed to iteratively enlarge the training set with more reliable pseudo labels and distinguish the importance of each pseudo-labeled node during the model training process. Experimental results on both real-world and synthetic datasets demonstrate our approach can not only consistently outperform the state-of-the-arts, but also effectively smooth the representations of intra-class nodes.
translated by 谷歌翻译
许多真实世界图(网络)是具有不同类型的节点和边缘的异构。异构图嵌入,旨在学习异构图的低维节点表示,对于各种下游应用至关重要。已经提出了许多基于元路径的嵌入方法来学习近年来异构图的语义信息。然而,在学习异构图形嵌入时,大多数现有技术都在图形结构信息中忽略了图形结构信息。本文提出了一种新颖的结构意识异构图形神经网络(SHGNN),以解决上述限制。详细地,我们首先利用特征传播模块来捕获元路径中中间节点的本地结构信息。接下来,我们使用树关注聚合器将图形结构信息结合到元路径上的聚合模块中。最后,我们利用了元路径聚合器熔断来自不同元路径的聚合的信息。我们对节点分类和聚类任务进行了实验,并在基准数据集中实现了最先进的结果,该数据集显示了我们所提出的方法的有效性。
translated by 谷歌翻译
Few-shot node classification is tasked to provide accurate predictions for nodes from novel classes with only few representative labeled nodes. This problem has drawn tremendous attention for its projection to prevailing real-world applications, such as product categorization for newly added commodity categories on an E-commerce platform with scarce records or diagnoses for rare diseases on a patient similarity graph. To tackle such challenging label scarcity issues in the non-Euclidean graph domain, meta-learning has become a successful and predominant paradigm. More recently, inspired by the development of graph self-supervised learning, transferring pretrained node embeddings for few-shot node classification could be a promising alternative to meta-learning but remains unexposed. In this work, we empirically demonstrate the potential of an alternative framework, \textit{Transductive Linear Probing}, that transfers pretrained node embeddings, which are learned from graph contrastive learning methods. We further extend the setting of few-shot node classification from standard fully supervised to a more realistic self-supervised setting, where meta-learning methods cannot be easily deployed due to the shortage of supervision from training classes. Surprisingly, even without any ground-truth labels, transductive linear probing with self-supervised graph contrastive pretraining can outperform the state-of-the-art fully supervised meta-learning based methods under the same protocol. We hope this work can shed new light on few-shot node classification problems and foster future research on learning from scarcely labeled instances on graphs.
translated by 谷歌翻译
The generalisation performance of a convolutional neural networks (CNN) is majorly predisposed by the quantity, quality, and diversity of the training images. All the training data needs to be annotated in-hand before, in many real-world applications data is easy to acquire but expensive and time-consuming to label. The goal of the Active learning for the task is to draw most informative samples from the unlabeled pool which can used for training after annotation. With total different objective, self-supervised learning which have been gaining meteoric popularity by closing the gap in performance with supervised methods on large computer vision benchmarks. self-supervised learning (SSL) these days have shown to produce low-level representations that are invariant to distortions of the input sample and can encode invariance to artificially created distortions, e.g. rotation, solarization, cropping etc. self-supervised learning (SSL) approaches rely on simpler and more scalable frameworks for learning. In this paper, we unify these two families of approaches from the angle of active learning using self-supervised learning mainfold and propose Deep Active Learning using BarlowTwins(DALBT), an active learning method for all the datasets using combination of classifier trained along with self-supervised loss framework of Barlow Twins to a setting where the model can encode the invariance of artificially created distortions, e.g. rotation, solarization, cropping etc.
translated by 谷歌翻译
在异质图上的自我监督学习(尤其是对比度学习)方法可以有效地摆脱对监督数据的依赖。同时,大多数现有的表示学习方法将异质图嵌入到欧几里得或双曲线的单个几何空间中。这种单个几何视图通常不足以观察由于其丰富的语义和复杂结构而观察到异质图的完整图片。在这些观察结果下,本文提出了一种新型的自我监督学习方法,称为几何对比度学习(GCL),以更好地表示监督数据是不可用时的异质图。 GCL同时观察了从欧几里得和双曲线观点的异质图,旨在强烈合并建模丰富的语义和复杂结构的能力,这有望为下游任务带来更多好处。 GCL通过在局部局部和局部全球语义水平上对比表示两种几何视图之间的相互信息。在四个基准数据集上进行的广泛实验表明,在三个任务上,所提出的方法在包括节点分类,节点群集和相似性搜索在内的三个任务上都超过了强基础,包括无监督的方法和监督方法。
translated by 谷歌翻译
疾病预测是医学应用中的知名分类问题。 GCNS提供了一个强大的工具,用于分析患者相对于彼此的特征。这可以通过将问题建模作为图形节点分类任务来实现,其中每个节点是患者。由于这种医学数据集的性质,类别不平衡是疾病预测领域的普遍存在问题,其中类的分布是歪曲的。当数据中存在类别不平衡时,现有的基于图形的分类器倾向于偏向于主要类别并忽略小类中的样本。另一方面,所有患者中罕见阳性病例的正确诊断在医疗保健系统中至关重要。在传统方法中,通过将适当的权重分配给丢失函数中的类别来解决这种不平衡,这仍然依赖于对异常值敏感的权重的相对值,并且在某些情况下偏向于小类(ES)。在本文中,我们提出了一种重加权的对抗性图形卷积网络(RA-GCN),以防止基于图形的分类器强调任何特定类的样本。这是通过将基于图形的神经网络与每个类相关联来完成的,这负责加权类样本并改变分类器的每个样本的重要性。因此,分类器自身调节并确定类之间的边界,更加关注重要样本。分类器和加权网络的参数受到侵犯方法训练。我们在合成和三个公共医疗数据集上显示实验。与最近的方法相比,ra-gcn展示了与最近的方法在所有三个数据集上识别患者状态的方法相比。详细分析作为合成数据集的定量和定性实验提供。
translated by 谷歌翻译
本文研究了跨网络节点分类的问题,以克服单个网络中标记的数据的不足。它旨在利用部分标记的源网络中的标签信息来帮助完全未标记或部分标记的目标网络中的节点分类。由于跨网络的域转移,现有的单网络学习方法无法解决此问题。一些多网络学习方法在很大程度上依赖于跨网络连接的存在,因此对于此问题是不适用的。为了解决这个问题,我们提出了一种小说\ textColor {black} {graph}通过利用对抗域的适应和图形卷积的技术来传递学习框架。它由两个组成部分组成:半监督的学习组件和一个对抗域的适应性组件。前者的目标是通过源网络和目标网络的给定标签信息学习类别的歧视节点表示,而后者则有助于减轻源和目标域之间的分布差异以促进知识传递。对现实世界数据集的广泛经验评估表明,ADAGCN可以在源网络上以低标签速率成功传输类信息,并且源和目标域之间的差异很大。复制实验结果的源代码可在https://github.com/daiquanyu/adagcn上获得。
translated by 谷歌翻译
由于大型数据集中的深度学习模型需要大量时间和资源,因此希望构建一个小型合成数据集,我们可以通过该数据集充分训练深度学习模型。最近有一些作品通过复杂的BI级优化探索了有关凝结图像数据集的解决方案。例如,数据集冷凝(DC)匹配网络梯度W.R.T.大型数据和小合成数据,在每个外迭代处,网络权重优化了多个步骤。但是,现有方法具有其固有的局限性:(1)它们不直接适用于数据离散的图表; (2)由于所涉及的嵌套优化,冷凝过程在计算上昂贵。为了弥合差距,我们研究了针对图形数据集量身定制的有效数据集冷凝,在该数据集中我们将离散图结构模拟为概率模型。我们进一步提出了一个单步梯度匹配方案,该方案仅执行一个步骤,而无需训练网络权重。我们的理论分析表明,该策略可以生成合成图,从而导致实际图上的分类损失降低。各种图数据集的广泛实验证明了该方法的有效性和效率。特别是,我们能够将数据集大小降低90%,同时大约98%的原始性能,并且我们的方法明显快于多步梯度匹配(例如,CIFAR10中的15倍用于合成500个图)。
translated by 谷歌翻译
图形神经网络(GNN)是用于建模图数据的流行机器学习方法。许多GNN在同质图上表现良好,同时在异质图上表现不佳。最近,一些研究人员将注意力转移到设计GNN,以通过调整消息传递机制或扩大消息传递的接收场来设计GNN。与从模型设计的角度来减轻异性疾病问题的现有作品不同,我们建议通过重新布线结构来从正交角度研究异质图,以减少异质性并使传统GNN的表现更好。通过全面的经验研究和分析,我们验证了重新布线方法的潜力。为了充分利用其潜力,我们提出了一种名为Deep Hertophilly Graph Rewiring(DHGR)的方法,以通过添加同粒子边缘和修剪异质边缘来重新线图。通过比较节点邻居的标签/特征 - 分布的相似性来确定重新布线的详细方法。此外,我们为DHGR设计了可扩展的实现,以确保高效率。 DHRG可以轻松地用作任何GNN的插件模块,即图形预处理步骤,包括同型和异性的GNN,以提高其在节点分类任务上的性能。据我们所知,这是研究图形的第一部重新绘图图形的作品。在11个公共图数据集上进行的广泛实验证明了我们提出的方法的优势。
translated by 谷歌翻译
图表表示学习是一种快速增长的领域,其中一个主要目标是在低维空间中产生有意义的图形表示。已经成功地应用了学习的嵌入式来执行各种预测任务,例如链路预测,节点分类,群集和可视化。图表社区的集体努力提供了数百种方法,但在所有评估指标下没有单一方法擅长,例如预测准确性,运行时间,可扩展性等。该调查旨在通过考虑算法来评估嵌入方法的所有主要类别的图表变体,参数选择,可伸缩性,硬件和软件平台,下游ML任务和多样化数据集。我们使用包含手动特征工程,矩阵分解,浅神经网络和深图卷积网络的分类法组织了图形嵌入技术。我们使用广泛使用的基准图表评估了节点分类,链路预测,群集和可视化任务的这些类别算法。我们在Pytorch几何和DGL库上设计了我们的实验,并在不同的多核CPU和GPU平台上运行实验。我们严格地审查了各种性能指标下嵌入方法的性能,并总结了结果。因此,本文可以作为比较指南,以帮助用户选择最适合其任务的方法。
translated by 谷歌翻译
最近深入学习已成功应用于无监督的主动学习。然而,当前方法试图通过自动编码器来忽略样本关系的同时学习非线性转换,留下巨大的空间来设计用于无监督的主动学习的更有效的表示学习机制。在本文中,我们通过可学习的图表提出了一种新颖的无监督的主动学习模型,命名为Allg。 allg从学习最佳图形结构中获益,以获取更好的样本表示,然后选择代表样本。为了使学习的图形结构更加稳定和有效,我们考虑了$ k $ -nealest邻居图作为先验,并学习关系传播图形结构。我们还将快捷方式连接到不同的层中,可以在一定程度上缓解众所周知的过平滑问题。据我们所知,这是第一次利用图形结构学习的第一次尝试,以便无监督的主动学习。在六个数据集上进行的广泛实验证明了我们的方法的功效。
translated by 谷歌翻译