大量越来越复杂的网络威胁是吸引了对网络安全的关注,许多挑战仍未得到解决。即,对于入侵检测,需要更强大,有效,能够使用更多信息的新算法。此外,入侵检测任务面临着与正常和恶意流量之间的极端类别不平衡相关的严重挑战。最近,图形 - 神经网络(GNN)实现了最先进的性能,以在网络安全任务中模拟网络拓扑。但是,使用GNN只有少数作品来解决入侵检测问题。此外,还探索了其他有前途的途径,例如应用注意机制。本文介绍了两种基于图形的入侵检测解决方案,改进的电子图形和电子ResgAtthorithms分别依赖于已建立的Graphsage和Cablent Network网络(GAT)。关键的想法是将剩余学习集成到利用可用图信息的GNN中。剩余连接作为处理高级不平衡的策略,旨在保留原始信息并提高少数群体课程的表现。最近四个入侵检测数据集的广泛实验评估显示了我们方法的优异性能,特别是在预测少数阶级时。
translated by 谷歌翻译
本文介绍了基于图形神经网络(GNN)的新的网络入侵检测系统(NID)。 GNN是深度神经网络的一个相对较新的子领域,可以利用基于图形数据的固有结构。 NIDS的培训和评估数据通常表示为流记录,其可以自然地以图形格式表示。这建立了探索网络入侵检测GNN的潜在和动力,这是本文的重点。基于机器的基于机器的NIDS的目前的研究只考虑网络流动,而不是考虑其互连的模式。这是检测复杂的物联网网络攻击的关键限制,例如IOT设备推出的DDOS和分布式端口扫描攻击。在本文中,我们提出了一种克服了这种限制的GNN方法,并允许捕获图形的边缘特征以及IOT网络中网络异常检测的拓扑信息。据我们所知,我们的方法是第一次成功,实用,广泛地评估应用图形神经网络对使用流基于流的数据的网络入侵检测问题的方法。我们在最近的四个NIDS基准数据集上进行了广泛的实验评估,表明我们的方法在关键分类指标方面占据了最先进的,这证明了网络入侵检测中GNN的潜力,并提供了进一步研究的动机。
translated by 谷歌翻译
本文研究了图形神经网络(GNNS)应用程序,以进行自我监督的网络入侵和异常检测。 GNN是一种基于图的数据的深度学习方法,它将图形结构纳入学习以概括图表和输出嵌入。由于网络流量自然基于图,因此GNN非常适合分析和学习网络行为。基于GNN的网络入侵检测系统(NIDSS)的最新实现很大程度上依赖于标记的网络流量,这不仅可以限制输入流量的数量和结构,还可以限制NIDSS的潜力来适应看不见的攻击。为了克服这些限制,我们提出了异常-E,这是GNN的入侵和异常检测方法,该方法在自我监督过程中利用边缘特征和图形拓扑结构。据我们所知,这种方法是第一种成功且实用的方法来进行网络入侵检测,该方法利用网络流动在自我监督,边缘利用GNN中。两个现代基准NIDS数据集的实验结果不仅清楚地显示了使用Anomal-E嵌入而不是原始功能的改进,而且还显示了对野生网络流量检测的潜在异常-E具有的潜在异常功能。
translated by 谷歌翻译
Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
translated by 谷歌翻译
在本文中,我们提出了XG-Bot,这是一种可解释的深层图神经网络模型,用于僵尸网络淋巴结检测。所提出的模型主要由僵尸网络检测器和自动取证的解释器组成。XG机器人检测器可以有效检测大型网络下的恶意僵尸网络节点。具体而言,它利用与图同构网络的分组可逆残差连接从僵尸网络通信图中学习表达性节点表示。XG机器人中的解释器可以通过突出可疑网络流和相关的僵尸网络节点来执行自动网络取证。我们评估了现实世界中的大规模僵尸网络网络图。总体而言,就评估指标而言,XG机器人能够超越最先进的方法。此外,我们表明XG机器人解释器可以基于自动网络取证的Gnnexplainer生成有用的解释。
translated by 谷歌翻译
We present graph attention networks (GATs), novel neural network architectures that operate on graph-structured data, leveraging masked self-attentional layers to address the shortcomings of prior methods based on graph convolutions or their approximations. By stacking layers in which nodes are able to attend over their neighborhoods' features, we enable (implicitly) specifying different weights to different nodes in a neighborhood, without requiring any kind of costly matrix operation (such as inversion) or depending on knowing the graph structure upfront. In this way, we address several key challenges of spectral-based graph neural networks simultaneously, and make our model readily applicable to inductive as well as transductive problems. Our GAT models have achieved or matched state-of-theart results across four established transductive and inductive graph benchmarks: the Cora, Citeseer and Pubmed citation network datasets, as well as a proteinprotein interaction dataset (wherein test graphs remain unseen during training).
translated by 谷歌翻译
日志分析是工程师用来解决大规模软件系统故障的主要技术之一。在过去的几十年中,已经提出了许多日志分析方法来检测日志反映的系统异常。他们通常将日志事件计数或顺序日志事件作为输入,并利用机器学习算法,包括深度学习模型来检测系统异常。这些异常通常被确定为对数序列中对数事件的定量关系模式或顺序模式的违反。但是,现有方法无法利用日志事件之间的空间结构关系,从而导致潜在的错误警报和不稳定的性能。在这项研究中,我们提出了一种新型的基于图的对数异常检测方法loggd,以通过将日志序列转换为图来有效解决问题。我们利用了图形变压器神经网络的强大功能,该网络结合了图结构和基于日志异常检测的节点语义。我们在四个广泛使用的公共日志数据集上评估了建议的方法。实验结果表明,Loggd可以胜过最先进的基于定量和基于序列的方法,并在不同的窗口大小设置下实现稳定的性能。结果证实LOGGD在基于对数的异常检测中有效。
translated by 谷歌翻译
近年来,异构图形神经网络(HGNNS)一直在开花,但每个工作所使用的独特数据处理和评估设置会让他们的进步完全了解。在这项工作中,我们通过使用其官方代码,数据集,设置和超参数来展示12个最近的HGNN的系统再现,揭示了关于HGNN的进展的令人惊讶的结果。我们发现,由于设置不当,简单的均匀GNN,例如GCN和GAT在很大程度上低估了。具有适当输入的GAT通常可以匹配或优于各种场景的所有现有HGNN。为了促进稳健和可重复的HGNN研究,我们构建异构图形基准(HGB),由具有三个任务的11个不同数据集组成。 HGB标准化异构图数据分割,特征处理和性能评估的过程。最后,我们介绍了一个简单但非常强大的基线简单 - HGN - 这显着优于HGB上以前的所有模型 - 以加速未来HGNN的进步。
translated by 谷歌翻译
本文提出了一种基于图形神经网络(GNN)的新的Android恶意软件检测方法,并具有跳跃知识(JK)。Android函数呼叫图(FCGS)由一组程序功能及其术间调用组成。因此,本文提出了一种基于GNN的方法,用于通过捕获有意义的心理内呼叫路径模式来检测Android恶意软件的检测方法。此外,采用跳跃知识技术来最大程度地减少过度平滑问题的效果,这在GNN中很常见。该方法已使用两个基准数据集对所提出的方法进行了广泛的评估。结果表明,与关键分类指标相比,与最先进的方法相比,我们的方法的优越性,这证明了GNN在Android恶意软件检测和分类中的潜力。
translated by 谷歌翻译
图表表示学习是一种快速增长的领域,其中一个主要目标是在低维空间中产生有意义的图形表示。已经成功地应用了学习的嵌入式来执行各种预测任务,例如链路预测,节点分类,群集和可视化。图表社区的集体努力提供了数百种方法,但在所有评估指标下没有单一方法擅长,例如预测准确性,运行时间,可扩展性等。该调查旨在通过考虑算法来评估嵌入方法的所有主要类别的图表变体,参数选择,可伸缩性,硬件和软件平台,下游ML任务和多样化数据集。我们使用包含手动特征工程,矩阵分解,浅神经网络和深图卷积网络的分类法组织了图形嵌入技术。我们使用广泛使用的基准图表评估了节点分类,链路预测,群集和可视化任务的这些类别算法。我们在Pytorch几何和DGL库上设计了我们的实验,并在不同的多核CPU和GPU平台上运行实验。我们严格地审查了各种性能指标下嵌入方法的性能,并总结了结果。因此,本文可以作为比较指南,以帮助用户选择最适合其任务的方法。
translated by 谷歌翻译
图神经网络(GNN)在节点分类任务上取得了巨大成功。尽管对开发和评估GNN具有广泛的兴趣,但它们已经通过有限的基准数据集进行了评估。结果,现有的GNN评估缺乏来自图的各种特征的细粒分析。在此激励的情况下,我们对合成图生成器进行了广泛的实验,该实验可以生成具有控制特征以进行细粒分析的图形。我们的实证研究阐明了带有节点类标签的真实图形标签的四个主要特征的GNN的优势和劣势,即1)类规模分布(平衡与失衡),2)等级之间的边缘连接比例(均质VS之间)异性词),3)属性值(偏见与随机),4)图形大小(小与大)。此外,为了促进对GNN的未来研究,我们公开发布了我们的代码库,该代码库允许用户用各种图表评估各种GNN。我们希望这项工作为未来的研究提供有趣的见解。
translated by 谷歌翻译
异质图卷积网络在解决异质网络数据的各种网络分析任务方面已广受欢迎,从链接预测到节点分类。但是,大多数现有作品都忽略了多型节点之间的多重网络的关系异质性,而在元路径中,元素嵌入中关系的重要性不同,这几乎无法捕获不同关系跨不同关系的异质结构信号。为了应对这一挑战,这项工作提出了用于异质网络嵌入的多重异质图卷积网络(MHGCN)。我们的MHGCN可以通过多层卷积聚合自动学习多重异质网络中不同长度的有用的异质元路径相互作用。此外,我们有效地将多相关结构信号和属性语义集成到学习的节点嵌入中,并具有无监督和精选的学习范式。在具有各种网络分析任务的五个现实世界数据集上进行的广泛实验表明,根据所有评估指标,MHGCN与最先进的嵌入基线的优势。
translated by 谷歌翻译
许多真实数据以图形的形式出现。图表神经网络(GNNS)是一个新的机器学习(ML)模型,已建议完全利用图表数据来构建强大的应用程序。特别地,可以概括到看不见的数据的电感GNN成为主流。机器学习模型在各种任务中表现出很大的潜力,并已在许多真实情景中部署。要培训良好的模型,需要大量的数据以及计算资源,从而导致有价值的知识产权。以前的研究表明,ML模型容易窃取攻击模型,旨在窃取目标模型的功能。然而,大多数人都专注于用图像和文本接受培训的模型。另一方面,对于用图表数据,即GNNS接受培训的模型,已经支付了很少的注意。在本文中,我们通过提出针对电感GNN的第一个模型窃取攻击来填补差距。我们系统地定义了威胁模型,并根据对手的背景知识和目标模型的响应提出六次攻击。我们对六个基准数据集的评估显示,拟议的模型窃取针对GNN的攻击实现了有希望的性能。
translated by 谷歌翻译
在过去几年中,人们对代表性学习的图形神经网络(GNN)的兴趣不大。GNN提供了一个一般有效的框架,可以从图形结构化数据中学习。但是,GNN通常仅使用一个非常有限的邻域的信息来避免过度光滑。希望为模型提供更多信息。在这项工作中,我们将个性化Pagerank(PPR)的极限分布纳入图形注意力网络(GATS)中,以反映较大的邻居信息,而无需引入过度光滑。从直觉上讲,基于个性化Pagerank的消息聚合对应于无限的许多邻里聚合层。我们表明,对于四个广泛使用的基准数据集,我们的模型优于各种基线模型。我们的实施已在线公开。
translated by 谷歌翻译
尽管与以太坊这样的加密货币交易变得越来越普遍,但欺诈和其他犯罪交易并不少见。图分析算法和机器学习技术检测到导致大型交易网络网络钓鱼的可疑交易。已经提出了许多图形神经网络(GNN)模型将深度学习技术应用于图形结构。尽管在以太坊交易网络中使用GNN模型进行了网络钓鱼检测的研究,但尚未研究针对顶点和边缘数量的规模以及标签不平衡的模型。在本文中,我们比较了GNN模型在实际以太坊交易网络数据集和网络钓鱼报告的标签数据上的模型性能,以详尽地比较和验证哪些GNN模型和超参数产生最佳精度。具体而言,我们评估了代表性同质GNN模型的模型性能,该模型考虑了单型节点和边缘以及支持不同类型的节点和边缘的异质GNN模型。我们表明,异质模型比同质模型具有更好的模型性能。特别是,RGCN模型在整体指标中取得了最佳性能。
translated by 谷歌翻译
Graph Neural Networks (GNNs) achieve state-of-the-art performance on graph-structured data across numerous domains. Their underlying ability to represent nodes as summaries of their vicinities has proven effective for homophilous graphs in particular, in which same-type nodes tend to connect. On heterophilous graphs, in which different-type nodes are likely connected, GNNs perform less consistently, as neighborhood information might be less representative or even misleading. On the other hand, GNN performance is not inferior on all heterophilous graphs, and there is a lack of understanding of what other graph properties affect GNN performance. In this work, we highlight the limitations of the widely used homophily ratio and the recent Cross-Class Neighborhood Similarity (CCNS) metric in estimating GNN performance. To overcome these limitations, we introduce 2-hop Neighbor Class Similarity (2NCS), a new quantitative graph structural property that correlates with GNN performance more strongly and consistently than alternative metrics. 2NCS considers two-hop neighborhoods as a theoretically derived consequence of the two-step label propagation process governing GCN's training-inference process. Experiments on one synthetic and eight real-world graph datasets confirm consistent improvements over existing metrics in estimating the accuracy of GCN- and GAT-based architectures on the node classification task.
translated by 谷歌翻译
疾病预测是医学应用中的知名分类问题。 GCNS提供了一个强大的工具,用于分析患者相对于彼此的特征。这可以通过将问题建模作为图形节点分类任务来实现,其中每个节点是患者。由于这种医学数据集的性质,类别不平衡是疾病预测领域的普遍存在问题,其中类的分布是歪曲的。当数据中存在类别不平衡时,现有的基于图形的分类器倾向于偏向于主要类别并忽略小类中的样本。另一方面,所有患者中罕见阳性病例的正确诊断在医疗保健系统中至关重要。在传统方法中,通过将适当的权重分配给丢失函数中的类别来解决这种不平衡,这仍然依赖于对异常值敏感的权重的相对值,并且在某些情况下偏向于小类(ES)。在本文中,我们提出了一种重加权的对抗性图形卷积网络(RA-GCN),以防止基于图形的分类器强调任何特定类的样本。这是通过将基于图形的神经网络与每个类相关联来完成的,这负责加权类样本并改变分类器的每个样本的重要性。因此,分类器自身调节并确定类之间的边界,更加关注重要样本。分类器和加权网络的参数受到侵犯方法训练。我们在合成和三个公共医疗数据集上显示实验。与最近的方法相比,ra-gcn展示了与最近的方法在所有三个数据集上识别患者状态的方法相比。详细分析作为合成数据集的定量和定性实验提供。
translated by 谷歌翻译
时间图代表实体之间的动态关系,并发生在许多现实生活中的应用中,例如社交网络,电子商务,通信,道路网络,生物系统等。他们需要根据其生成建模和表示学习的研究超出与静态图有关的研究。在这项调查中,我们全面回顾了近期针对处理时间图提出的神经时间依赖图表的学习和生成建模方法。最后,我们确定了现有方法的弱点,并讨论了我们最近发表的论文提格的研究建议[24]。
translated by 谷歌翻译
Machine Unerning是在收到删除请求时从机器学习(ML)模型中删除某些培训数据的影响的过程。虽然直接而合法,但从划痕中重新训练ML模型会导致高计算开销。为了解决这个问题,在图像和文本数据的域中提出了许多近似算法,其中SISA是最新的解决方案。它将训练集随机分配到多个碎片中,并为每个碎片训练一个组成模型。但是,将SISA直接应用于图形数据可能会严重损害图形结构信息,从而导致的ML模型实用程序。在本文中,我们提出了Grapheraser,这是一种针对图形数据量身定制的新型机器学习框架。它的贡献包括两种新型的图形分区算法和一种基于学习的聚合方法。我们在五个现实世界图数据集上进行了广泛的实验,以说明Grapheraser的学习效率和模型实用程序。它可以实现2.06 $ \ times $(小数据集)至35.94 $ \ times $(大数据集)未学习时间的改进。另一方面,Grapheraser的实现最高62.5美元\%$更高的F1分数,我们提出的基于学习的聚合方法可达到高达$ 112 \%$ $ F1分数。 github.com/minchen00/graph-unlearning}。}。}
translated by 谷歌翻译
图形神经网络(GNNS)在学习图表表示中取得了前所未有的成功,以识别图形的分类标签。然而,GNN的大多数现有图形分类问题遵循平衡数据拆分协议,这与许多真实情景中的许多实际方案都有比其他类别更少的标签。在这种不平衡情况下直接培训GNN可能导致少数群体类别中的图形的无色表达,并损害下游分类的整体性能,这意味着开发有效GNN处理不平衡图分类的重要性。现有方法是针对非图形结构数据量身定制的,或专为不平衡节点分类而设计,而少数关注不平衡图分类。为此,我们介绍了一个新颖的框架,图形图形 - 图形神经网络(G $ ^ 2 $ GNN),通过从邻近图和本地从图形本身来源地通过全局导出额外的监督来减轻图形不平衡问题。在全球范围内,我们基于内核相似性构建图表(GOG)的图表,并执行GOG传播以聚合相邻图形表示,其最初通过通过GNN编码器汇集的节点级传播而获得。在本地,我们通过掩模节点或丢弃边缘采用拓扑增强,以改善辨别说明书测试图的拓扑结构中的模型概括性。在七个基准数据集中进行的广泛图形分类实验证明了我们提出的G $ ^ $ ^ 2 $ GNN优于F1-Macro和F1-Micro Scores的大约5 \%的大量基线。 G $ ^ 2 $ GNN的实现可用于\ href {https://github.com/yuwvandy/g2gnn} {https://github.com/yuwvandy/g2gnn}。
translated by 谷歌翻译