图异常检测(GAD)是至关重要的任务,因为即使有一些异常也可能对良性用户构成巨大威胁。最近可以有效利用可用标签作为先验知识的半监督GAD方法比无监督的方法实现了卓越的性能。实际上,人们通常需要在新(子)图上识别异常以确保其业务,但他们可能缺乏培训有效检测模型的标签。一个自然的想法是将经过训练的GAD模型直接在新的(子)图中进行测试。但是,我们发现现有的半监督GAD方法遇到了不良的概括问题,即训练有素的模型无法在同一图的看不见的区域(即无法在培训中无法访问)上表现良好。这可能会造成极大的麻烦。在本文中,我们以这种现象为基础,并提出了广义图异常检测的一般研究问题,旨在有效地识别训练域图和看不见的测试图,以消除潜在的危险。然而,这是一项具有挑战性的任务,因为只有有限的标签可用,并且正常背景在培训和测试数据之间可能有所不同。因此,我们提出了一个名为\ textit {augan}(\ uline {augan}的数据增强方法,用于\ uline {a} nomaly和\ uline {n} ormal分布),以丰富培训数据并促进GAD模型的普遍性。实验验证了我们方法在改善模型推广性方面的有效性。
translated by 谷歌翻译
基于图的异常检测已被广泛用于检测现实世界应用中的恶意活动。迄今为止,现有的解决此问题的尝试集中在二进制分类制度中的结构特征工程或学习上。在这项工作中,我们建议利用图形对比编码,并提出监督的GCCAD模型,以将异常节点与正常节点的距离与全球环境(例如所有节点的平均值)相比。为了使用稀缺标签处理场景,我们通过设计用于生成合成节点标签的图形损坏策略,进一步使GCCAD成为一个自制的框架。为了实现对比目标,我们设计了一个图形神经网络编码器,该编码器可以在消息传递过程中推断并进一步删除可疑链接,并了解输入图的全局上下文。我们在四个公共数据集上进行了广泛的实验,表明1)GCCAD显着且始终如一地超过各种高级基线,2)其自我监督版本没有微调可以通过其完全监督的版本来实现可比性的性能。
translated by 谷歌翻译
Recently, graph anomaly detection has attracted increasing attention in data mining and machine learning communities. Apart from existing attribute anomalies, graph anomaly detection also captures suspicious topological-abnormal nodes that differ from the major counterparts. Although massive graph-based detection approaches have been proposed, most of them focus on node-level comparison while pay insufficient attention on the surrounding topology structures. Nodes with more dissimilar neighborhood substructures have more suspicious to be abnormal. To enhance the local substructure detection ability, we propose a novel Graph Anomaly Detection framework via Multi-scale Substructure Learning (GADMSL for abbreviation). Unlike previous algorithms, we manage to capture anomalous substructures where the inner similarities are relatively low in dense-connected regions. Specifically, we adopt a region proposal module to find high-density substructures in the network as suspicious regions. Their inner-node embedding similarities indicate the anomaly degree of the detected substructures. Generally, a lower degree of embedding similarities means a higher probability that the substructure contains topology anomalies. To distill better embeddings of node attributes, we further introduce a graph contrastive learning scheme, which observes attribute anomalies in the meantime. In this way, GADMSL can detect both topology and attribute anomalies. Ultimately, extensive experiments on benchmark datasets show that GADMSL greatly improves detection performance (up to 7.30% AUC and 17.46% AUPRC gains) compared to state-of-the-art attributed networks anomaly detection algorithms.
translated by 谷歌翻译
图形广泛用于建模数据的关系结构,并且图形机器学习(ML)的研究具有广泛的应用,从分子图中的药物设计到社交网络中的友谊建议。图形ML的流行方法通常需要大量的标记实例来实现令人满意的结果,这在现实世界中通常是不可行的,因为在图形上标记了新出现的概念的数据(例如,在图形上的新分类)是有限的。尽管已将元学习应用于不同的几个图形学习问题,但大多数现有的努力主要假设所有所见类别的数据都是金标记的,而当这些方法弱标记时,这些方法可能会失去疗效严重的标签噪声。因此,我们旨在研究一个新的问题,即弱监督图元学习,以改善知识转移的模型鲁棒性。为了实现这一目标,我们提出了一个新的图形学习框架 - 本文中的图形幻觉网络(Meta-GHN)。基于一种新的鲁棒性增强的情节训练,元研究将从弱标记的数据中幻觉清洁节点表示,并提取高度可转移的元知识,这使该模型能够快速适应不见了的任务,几乎没有标记的实例。广泛的实验表明,元基因与现有图形学习研究的优越性有关弱监督的少数弹性分类的任务。
translated by 谷歌翻译
Anomaly detection is defined as discovering patterns that do not conform to the expected behavior. Previously, anomaly detection was mostly conducted using traditional shallow learning techniques, but with little improvement. As the emergence of graph neural networks (GNN), graph anomaly detection has been greatly developed. However, recent studies have shown that GNN-based methods encounter challenge, in that no graph anomaly detection algorithm can perform generalization on most datasets. To bridge the tap, we propose a multi-view fusion approach for graph anomaly detection (Mul-GAD). The view-level fusion captures the extent of significance between different views, while the feature-level fusion makes full use of complementary information. We theoretically and experimentally elaborate the effectiveness of the fusion strategies. For a more comprehensive conclusion, we further investigate the effect of the objective function and the number of fused views on detection performance. Exploiting these findings, our Mul-GAD is proposed equipped with fusion strategies and the well-performed objective function. Compared with other state-of-the-art detection methods, we achieve a better detection performance and generalization in most scenarios via a series of experiments conducted on Pubmed, Amazon Computer, Amazon Photo, Weibo and Books. Our code is available at https://github.com/liuyishoua/Mul-Graph-Fusion.
translated by 谷歌翻译
图形存在于许多现实世界中的应用中,例如财务欺诈检测,商业建议和社交网络分析。但是,鉴于图形注释或标记的高成本,我们面临严重的图形标签 - 刻度问题,即,图可能具有一些标记的节点。这样一个问题的一个例子是所谓的\ textit {少数弹性节点分类}。该问题的主要方法均依靠\ textit {情节元学习}。在这项工作中,我们通过提出一个基本问题来挑战现状,元学习是否是对几个弹性节点分类任务的必要条件。我们在标准的几杆节点分类设置下提出了一个新的简单框架,作为学习有效图形编码器的元学习的替代方法。该框架由有监督的图形对比学习以及新颖的数据增强,子图编码和图形上的多尺度对比度组成。在三个基准数据集(Corafull,Reddit,OGBN)上进行的广泛实验表明,新框架显着胜过基于最先进的元学习方法。
translated by 谷歌翻译
日志分析是工程师用来解决大规模软件系统故障的主要技术之一。在过去的几十年中,已经提出了许多日志分析方法来检测日志反映的系统异常。他们通常将日志事件计数或顺序日志事件作为输入,并利用机器学习算法,包括深度学习模型来检测系统异常。这些异常通常被确定为对数序列中对数事件的定量关系模式或顺序模式的违反。但是,现有方法无法利用日志事件之间的空间结构关系,从而导致潜在的错误警报和不稳定的性能。在这项研究中,我们提出了一种新型的基于图的对数异常检测方法loggd,以通过将日志序列转换为图来有效解决问题。我们利用了图形变压器神经网络的强大功能,该网络结合了图结构和基于日志异常检测的节点语义。我们在四个广泛使用的公共日志数据集上评估了建议的方法。实验结果表明,Loggd可以胜过最先进的基于定量和基于序列的方法,并在不同的窗口大小设置下实现稳定的性能。结果证实LOGGD在基于对数的异常检测中有效。
translated by 谷歌翻译
Semi-supervised anomaly detection is a common problem, as often the datasets containing anomalies are partially labeled. We propose a canonical framework: Semi-supervised Pseudo-labeler Anomaly Detection with Ensembling (SPADE) that isn't limited by the assumption that labeled and unlabeled data come from the same distribution. Indeed, the assumption is often violated in many applications - for example, the labeled data may contain only anomalies unlike unlabeled data, or unlabeled data may contain different types of anomalies, or labeled data may contain only 'easy-to-label' samples. SPADE utilizes an ensemble of one class classifiers as the pseudo-labeler to improve the robustness of pseudo-labeling with distribution mismatch. Partial matching is proposed to automatically select the critical hyper-parameters for pseudo-labeling without validation data, which is crucial with limited labeled data. SPADE shows state-of-the-art semi-supervised anomaly detection performance across a wide range of scenarios with distribution mismatch in both tabular and image domains. In some common real-world settings such as model facing new types of unlabeled anomalies, SPADE outperforms the state-of-the-art alternatives by 5% AUC in average.
translated by 谷歌翻译
近年来,图形神经网络(GNNS)已实现了节点分类的最新性能。但是,大多数现有的GNN会遭受图形不平衡问题。在许多实际情况下,节点类都是不平衡的,其中一些多数类构成了图的大部分部分。 GNN中的消息传播机制将进一步扩大这些多数类的主导地位,从而导致次级分类性能。在这项工作中,我们试图通过生成少数族裔类实例来平衡培训数据,从而扩展了以前的基于过度采样的技术来解决这个问题。此任务是不平凡的,因为这些技术的设计是实例是独立的。忽视关系信息会使此过采样过程变得复杂。此外,节点分类任务通常仅使用少数标记的节点进行半监督设置,从而为少数族裔实例的产生提供了不足的监督。生成的低质量新节点会损害训练有素的分类器。在这项工作中,我们通过在构造的嵌入空间中综合新节点来解决这些困难,该节点编码节点属性和拓扑信息。此外,对边缘生成器进行同时训练,以建模图结构并为新样品提供关系。为了进一步提高数据效率,我们还探索合成的混合``中间''节点在此过度采样过程中利用多数类的节点。对现实世界数据集的实验验证了我们提出的框架的有效性。
translated by 谷歌翻译
对于由硬件和软件组件组成的复杂分布式系统而言,异常检测是一个重要的问题。对此类系统的异常检测的要求和挑战的透彻理解对于系统的安全性至关重要,尤其是对于现实世界的部署。尽管有许多解决问题的研究领域和应用领域,但很少有人试图对这种系统进行深入研究。大多数异常检测技术是针对某些应用域的专门开发的,而其他检测技术则更为通用。在这项调查中,我们探讨了基于图的算法在复杂分布式异质系统中识别和减轻不同类型异常的重要潜力。我们的主要重点是在分布在复杂分布式系统上的异质计算设备上应用时,可深入了解图。这项研究分析,比较和对比该领域的最新研究文章。首先,我们描述了现实世界分布式系统的特征及其在复杂网络中的异常检测的特定挑战,例如数据和评估,异常的性质以及现实世界的要求。稍后,我们讨论了为什么可以在此类系统中利用图形以及使用图的好处。然后,我们将恰当地深入研究最先进的方法,并突出它们的优势和劣势。最后,我们评估和比较这些方法,并指出可能改进的领域。
translated by 谷歌翻译
Most existing deep learning models are trained based on the closed-world assumption, where the test data is assumed to be drawn i.i.d. from the same distribution as the training data, known as in-distribution (ID). However, when models are deployed in an open-world scenario, test samples can be out-of-distribution (OOD) and therefore should be handled with caution. To detect such OOD samples drawn from unknown distribution, OOD detection has received increasing attention lately. However, current endeavors mostly focus on grid-structured data and its application for graph-structured data remains under-explored. Considering the fact that data labeling on graphs is commonly time-expensive and labor-intensive, in this work we study the problem of unsupervised graph OOD detection, aiming at detecting OOD graphs solely based on unlabeled ID data. To achieve this goal, we develop a new graph contrastive learning framework GOOD-D for detecting OOD graphs without using any ground-truth labels. By performing hierarchical contrastive learning on the augmented graphs generated by our perturbation-free graph data augmentation method, GOOD-D is able to capture the latent ID patterns and accurately detect OOD graphs based on the semantic inconsistency in different granularities (i.e., node-level, graph-level, and group-level). As a pioneering work in unsupervised graph-level OOD detection, we build a comprehensive benchmark to compare our proposed approach with different state-of-the-art methods. The experiment results demonstrate the superiority of our approach over different methods on various datasets.
translated by 谷歌翻译
开放式视频异常检测(OpenVAD)旨在从视频数据中识别出异常事件,在测试中都存在已知的异常和新颖的事件。无监督的模型仅从普通视频中学到的模型适用于任何测试异常,但遭受高误报率的损失。相比之下,弱监督的方法可有效检测已知的异常情况,但在开放世界中可能会失败。我们通过将证据深度学习(EDL)和将流量(NFS)归一化为多个实例学习(MIL)框架来开发出一种新颖的OpenVAD问题的弱监督方法。具体而言,我们建议使用图形神经网络和三重态损失来学习训练EDL分类器的区分特征,在该特征中,EDL能够通过量化不确定性来识别未知异常。此外,我们制定了一种不确定性感知的选择策略,以获取清洁异常实例和NFS模块以生成伪异常。我们的方法通过继承无监督的NF和弱监督的MIL框架的优势来优于现有方法。多个现实世界视频数据集的实验结果显示了我们方法的有效性。
translated by 谷歌翻译
图形离群值检测是一项具有许多应用程序的新兴但至关重要的机器学习任务。尽管近年来算法扩散,但缺乏标准和统一的绩效评估设置限制了它们在现实世界应用中的进步和使用。为了利用差距,我们(据我们所知)(据我们所知)第一个全面的无监督节点离群值检测基准为unod,并带有以下亮点:(1)评估骨架从经典矩阵分解到最新图形神经的骨架的14个方法网络; (2)在现实世界数据集上使用不同类型的注射异常值和自然异常值对方法性能进行基准测试; (3)通过在不同尺度的合成图上使用运行时和GPU存储器使用算法的效率和可扩展性。基于广泛的实验结果的分析,我们讨论了当前渠道方法的利弊,并指出了多个关键和有希望的未来研究方向。
translated by 谷歌翻译
Few-shot node classification is tasked to provide accurate predictions for nodes from novel classes with only few representative labeled nodes. This problem has drawn tremendous attention for its projection to prevailing real-world applications, such as product categorization for newly added commodity categories on an E-commerce platform with scarce records or diagnoses for rare diseases on a patient similarity graph. To tackle such challenging label scarcity issues in the non-Euclidean graph domain, meta-learning has become a successful and predominant paradigm. More recently, inspired by the development of graph self-supervised learning, transferring pretrained node embeddings for few-shot node classification could be a promising alternative to meta-learning but remains unexposed. In this work, we empirically demonstrate the potential of an alternative framework, \textit{Transductive Linear Probing}, that transfers pretrained node embeddings, which are learned from graph contrastive learning methods. We further extend the setting of few-shot node classification from standard fully supervised to a more realistic self-supervised setting, where meta-learning methods cannot be easily deployed due to the shortage of supervision from training classes. Surprisingly, even without any ground-truth labels, transductive linear probing with self-supervised graph contrastive pretraining can outperform the state-of-the-art fully supervised meta-learning based methods under the same protocol. We hope this work can shed new light on few-shot node classification problems and foster future research on learning from scarcely labeled instances on graphs.
translated by 谷歌翻译
与其他图表相比,图形级异常检测(GAD)描述了检测其结构和/或其节点特征的图表的问题。GAD中的一个挑战是制定图表表示,该图表示能够检测本地和全局 - 异常图,即它们的细粒度(节点级)或整体(图级)属性异常的图形,分别。为了解决这一挑战,我们介绍了一种新的深度异常检测方法,用于通过图表和节点表示的联合随机蒸馏学习丰富的全球和局部正常模式信息。通过训练一个GNN来实现随机初始化网络权重的另一GNN来实现随机蒸馏。来自各种域的16个真实图形数据集的广泛实验表明,我们的模型显着优于七种最先进的模型。代码和数据集可以在https://git.io/llocalkd中获得。
translated by 谷歌翻译
众所周知,图形神经网络(GNN)的成功高度依赖于丰富的人类通知数据,这在实践中努力获得,并且并非总是可用的。当只有少数标记的节点可用时,如何开发高效的GNN仍在研究。尽管已证明自我训练对于半监督学习具有强大的功能,但其在图形结构数据上的应用可能会失败,因为(1)不利用较大的接收场来捕获远程节点相互作用,这加剧了传播功能的难度 - 标记节点到未标记节点的标签模式; (2)有限的标记数据使得在不同节点类别中学习良好的分离决策边界而不明确捕获基本的语义结构,这是一项挑战。为了解决捕获信息丰富的结构和语义知识的挑战,我们提出了一个新的图数据增强框架,AGST(增强图自训练),该框架由两个新的(即结构和语义)增强模块构建。 GST骨干。在这项工作中,我们研究了这个新颖的框架是否可以学习具有极有限标记节点的有效图预测模型。在有限标记节点数据的不同情况下,我们对半监督节点分类进行全面评估。实验结果证明了新的数据增强框架对节点分类的独特贡献,几乎没有标记的数据。
translated by 谷歌翻译
考虑到过去几十年中开发的一长串异常检测算法,它们如何在(i)(i)不同级别的监督,(ii)不同类型的异常以及(iii)嘈杂和损坏的数据方面执行?在这项工作中,我们通过(据我们所知)在55个名为Adbench的55个基准数据集中使用30个算法来回答这些关键问题。我们的广泛实验(总共93,654)确定了对监督和异常类型的作用的有意义的见解,并解锁了研究人员在算法选择和设计中的未来方向。借助Adbench,研究人员可以轻松地对数据集(包括我们从自然语言和计算机视觉域的贡献)对现有基线的新提出的方法进行全面和公平的评估。为了促进可访问性和可重复性,我们完全开源的Adbench和相应的结果。
translated by 谷歌翻译
近年来,由于其在研究和实践中的重要性,对归属网络的异常检测问题有望的兴趣。虽然已经提出了各种方法来解决这个问题,但存在两种主要限制:(1)由于缺乏监控信号,未经监督的方法通常会效率低得多,(2)现有的异常检测方法仅使用本地语境信息来检测异常信息以检测异常信息节点,例如,单跳或两跳信息,但忽略全局上下文信息。由于异常节点与结构和属性中的正常节点不同,因此如果我们删除连接异常和正常节点的边缘,异常节点和其邻居之间的距离应该大于正常节点和其邻居之间的距离直观。因此,基于全局和本地上下文信息的跳数可以作为异常的指标。通过这种直觉激励,我们提出了一种基于跳数的模型(HCM)来通过建模本地和全局上下文信息来检测异常。为了更好地利用异常识别的跳跃计数,我们建议使用跳数预测作为自我监督任务。我们根据HOP计数通过HCM模型设计了两个异常的分数来识别异常。此外,我们雇用贝叶斯学习培训HCM模型,以捕获学习参数的不确定性,避免过度装备。关于现实世界归属网络的广泛实验表明,我们所提出的模型在异常检测中是有效的。
translated by 谷歌翻译
无监督的时间序列异常检测对各种域中目标系统的潜在故障有助于。当前的最新时间序列异常检测器主要集中于设计高级神经网络结构和新的重建/预测学习目标,以尽可能准确地学习数据正常(正常模式和行为)。但是,这些单级学习方法可以被训练数据中未知异常(即异常污染)所欺骗。此外,他们的正常学习也缺乏对感兴趣异常的知识。因此,他们经常学习一个有偏见的,不准确的正态边界。本文提出了一种新型的单级学习方法,称为校准的一级分类,以解决此问题。我们的单级分类器以两种方式进行校准:(1)通过适应性地惩罚不确定的预测,这有助于消除异常污染的影响,同时强调单级模型对一级模型有信心的预测,并通过区分正常情况来确定(2)来自本机异常示例的样本,这些样本是根据原始数据基于原始数据模拟真实时间序列异常行为的。这两个校准导致耐污染的,异常的单级学习,从而产生了显着改善的正态性建模。对六个现实世界数据集进行的广泛实验表明,我们的模型大大优于12个最先进的竞争对手,并获得了6%-31%的F1分数提高。源代码可在\ url {https://github.com/xuhongzuo/couta}中获得。
translated by 谷歌翻译
异常检测旨在识别正常数据分布的偏差样本。对比学习提供了一种成功的样本表示方式,可以有效地歧视异常。但是,当在半监督环境下设置的训练中被未标记的异常样本污染时,当前基于对比的方法通常1)忽略训练数据之间的全面关系,导致次优的性能,2)需要微调,导致低效率的低效率。为了解决上述两个问题,在本文中,我们提出了一种新型的分层半监督对比学习(HSCL)框架,以抗污染异常检测。具体而言,HSCL分层调节了三个互补关系:样本到样本,样本到原型型和正常关系,通过对受污染数据的全面探索,扩大了正常样本和异常样本之间的歧视。此外,HSCL是一种端到端的学习方法,可以在不进行微调的情况下有效地学习判别性表示。 HSCL在多种方案中实现了最先进的性能,例如单级分类和跨数据库检测。广泛的消融研究进一步验证了每个考虑的关系的有效性。该代码可在https://github.com/gaoangw/hscl上找到。
translated by 谷歌翻译