恶意软件(恶意软件)对我们的设备和生活造成了很大的伤害。我们渴望了解恶意软件的行为及其构成的威胁。恶意软件的大多数记录文件都是可变长度和基于文本的文件,并带有时间戳,例如事件日志数据和动态分析配置文件。使用时间戳,我们可以将此类数据分类为基于序列的数据以进行以下分析。但是,很难处理具有可变长度的基于文本的序列。此外,与自然语言文本数据不同,信息安全性中的大多数顺序数据具有特定的属性和结构,例如循环,重复调用,噪声等,以深入分析API调用序列及其结构,我们使用图表表示序列,可以进一步研究信息和结构,例如马尔可夫模型。因此,我们设计并实施了注意力集中的图形神经网络(AWGCN)来分析API调用序列。通过AWGCN,我们可以获取序列嵌入以分析恶意软件的行为。此外,分类实验结果表明,AWGCN在类似呼叫的数据集中的其他分类器优于其他分类器,并且嵌入可以进一步改善经典模型的性能。
translated by 谷歌翻译
本文提出了一种基于图形神经网络(GNN)的新的Android恶意软件检测方法,并具有跳跃知识(JK)。Android函数呼叫图(FCGS)由一组程序功能及其术间调用组成。因此,本文提出了一种基于GNN的方法,用于通过捕获有意义的心理内呼叫路径模式来检测Android恶意软件的检测方法。此外,采用跳跃知识技术来最大程度地减少过度平滑问题的效果,这在GNN中很常见。该方法已使用两个基准数据集对所提出的方法进行了广泛的评估。结果表明,与关键分类指标相比,与最先进的方法相比,我们的方法的优越性,这证明了GNN在Android恶意软件检测和分类中的潜力。
translated by 谷歌翻译
如今,恶意软件和恶意软件事件日常增加,即使具有各种防病毒系统和恶意软件检测或分类方法。已经提出了许多静态,动态和混合技术来检测恶意软件并将其分类为恶意软件系列。动态和混合恶意软件分类方法通过高效的静态恶意软件分类方法具有优势。由于难以在执行恶意软件行为的同时执行恶意软件行为,而不是在静态恶意软件分类中的基础代码,因此机器学习技术是安全专家检测恶意软件并动态确定其家庭的主要焦点。恶意软件的快速增长还带来了最近和更新的恶意软件数据集的必要性。我们在这项工作中介绍了两个新的更新数据集:一个有9,795个样本,从virussamples和virusshare的样品中编制了一个。本文还通过使用基于直方图的渐变升压,随机林,支持向量机和XGBoost模型与基于API呼叫的动态恶意软件分类进行分析了这两个数据集的平衡和不平衡版本的多级恶意软件分类性能。结果表明,支持向量机,在不平衡的virysample数据集中实现了94%的最高分,而相同的型号在平衡的virussample数据集中具有91%的精度。虽然xgboost是基于渐变的渐变促进的型号之一,但最高得分为90%和80%。在Virusshare数据集的两个版本中。本文还通过使用动态恶意软件分类文献中的四种最广泛的机器学习技术介绍了VirusShare和VirusSample Datasets的基线结果。我们认为这两个数据集和基线结果使得该领域的研究人员能够测试和验证其方法和方法。
translated by 谷歌翻译
恶意软件系列的分类对于全面了解他们如何感染设备,计算机或系统的全面了解至关重要。因此,恶意软件识别使安全研究人员和事件响应者能够采取防止恶意软件的预防措施并加速缓解。由于这些序列代表恶意软件的行为,恶意软件由恶意软件制作的API呼叫序列是广泛利用的机器和深度学习模型的特征。但是,传统的机器和深度学习模型仍然无法捕获API呼叫之间的序列关系。另一方面,基于变压器的模型作为整体过程序列,并且由于多针注意机制和位置嵌入而学习API调用之间的关系。我们的实验表明,具有一个变压器块层的变压器模型超越了广泛使用的基础架构,LSTM。此外,伯特或犬,预先训练的变压器模型,在根据评估指标,F1分数和AUC分数分类高度不平衡恶意软件系列方面表现优于分类高度不平衡的恶意软件系列。此外,拟议的基于袋的随机变压器森林(RTF),伯特或犬的集合,已经达到了四个数据集中的三个,特别是最先进的F1 - 在一个常用的基准数据集中得分为0.6149。
translated by 谷歌翻译
保持个人特征和复杂的关系,广泛利用和研究了图表数据。通过更新和聚合节点的表示,能够捕获结构信息,图形神经网络(GNN)模型正在获得普及。在财务背景下,该图是基于实际数据构建的,这导致复杂的图形结构,因此需要复杂的方法。在这项工作中,我们在最近的财务环境中对GNN模型进行了全面的审查。我们首先将普通使用的财务图分类并总结每个节点的功能处理步骤。然后,我们总结了每个地图类型的GNN方法,每个区域的应用,并提出一些潜在的研究领域。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
恶意应用程序(尤其是针对Android平台的应用程序)对开发人员和最终用户构成了严重威胁。许多研究工作都致力于开发有效的方法来防御Android恶意软件。但是,鉴于Android恶意软件的爆炸性增长以及恶意逃避技术(如混淆和反思)的持续发展,基于手动规则或传统机器学习的Android恶意软件防御方法可能无效。近年来,具有强大功能抽象能力的主要研究领域称为“深度学习”(DL),在各个领域表现出了令人信服和有希望的表现,例如自然语言处理和计算机视觉。为此,采用深度学习技术来阻止Android恶意软件攻击,最近引起了广泛的研究关注。然而,没有系统的文献综述着重于针对Android恶意软件防御的深度学习方法。在本文中,我们进行了系统的文献综述,以搜索和分析在Android环境中恶意软件防御的背景下采用了如何应用的。结果,确定了涵盖2014 - 2021年期间的132项研究。我们的调查表明,尽管大多数这些来源主要考虑基于Android恶意软件检测的基于DL,但基于其他方案的53项主要研究(40.1%)设计防御方法。这篇综述还讨论了基于DL的Android恶意软件防御措施中的研究趋势,研究重点,挑战和未来的研究方向。
translated by 谷歌翻译
图表表示学习是一种快速增长的领域,其中一个主要目标是在低维空间中产生有意义的图形表示。已经成功地应用了学习的嵌入式来执行各种预测任务,例如链路预测,节点分类,群集和可视化。图表社区的集体努力提供了数百种方法,但在所有评估指标下没有单一方法擅长,例如预测准确性,运行时间,可扩展性等。该调查旨在通过考虑算法来评估嵌入方法的所有主要类别的图表变体,参数选择,可伸缩性,硬件和软件平台,下游ML任务和多样化数据集。我们使用包含手动特征工程,矩阵分解,浅神经网络和深图卷积网络的分类法组织了图形嵌入技术。我们使用广泛使用的基准图表评估了节点分类,链路预测,群集和可视化任务的这些类别算法。我们在Pytorch几何和DGL库上设计了我们的实验,并在不同的多核CPU和GPU平台上运行实验。我们严格地审查了各种性能指标下嵌入方法的性能,并总结了结果。因此,本文可以作为比较指南,以帮助用户选择最适合其任务的方法。
translated by 谷歌翻译
Deep learning has revolutionized many machine learning tasks in recent years, ranging from image classification and video processing to speech recognition and natural language understanding. The data in these tasks are typically represented in the Euclidean space. However, there is an increasing number of applications where data are generated from non-Euclidean domains and are represented as graphs with complex relationships and interdependency between objects. The complexity of graph data has imposed significant challenges on existing machine learning algorithms. Recently, many studies on extending deep learning approaches for graph data have emerged. In this survey, we provide a comprehensive overview of graph neural networks (GNNs) in data mining and machine learning fields. We propose a new taxonomy to divide the state-of-the-art graph neural networks into four categories, namely recurrent graph neural networks, convolutional graph neural networks, graph autoencoders, and spatial-temporal graph neural networks. We further discuss the applications of graph neural networks across various domains and summarize the open source codes, benchmark data sets, and model evaluation of graph neural networks. Finally, we propose potential research directions in this rapidly growing field.
translated by 谷歌翻译
假新闻,虚假或误导性信息作为新闻,对社会的许多方面产生了重大影响,例如在政治或医疗域名。由于假新闻的欺骗性,仅将自然语言处理(NLP)技术应用于新闻内容不足。多级社会上下文信息(新闻出版商和社交媒体的参与者)和用户参与的时间信息是假新闻检测中的重要信息。然而,正确使用此信息,介绍了三个慢性困难:1)多级社会上下文信息很难在没有信息丢失的情况下使用,2)难以使用时间信息以及多级社会上下文信息,3 )具有多级社会背景和时间信息的新闻表示难以以端到端的方式学习。为了克服所有三个困难,我们提出了一种新颖的假新闻检测框架,杂扫描。我们使用元路径在不损失的情况下提取有意义的多级社会上下文信息。 COMA-PATO,建议连接两个节点类型的复合关系,以捕获异构图中的语义。然后,我们提出了元路径实例编码和聚合方法,以捕获用户参与的时间信息,并生成新闻代表端到端。根据我们的实验,杂扫不断的性能改善了最先进的假新闻检测方法。
translated by 谷歌翻译
最近,基于图形神经网络(GNN)的文本分类模型引起了越来越多的关注。大多数这些模型采用类似的网络范例,即使用预训练节点嵌入初始化和两层图卷积。在这项工作中,我们提出了Textrgnn,一种改进的GNN结构,它引入了剩余连接以加深卷积网络深度。我们的结构可以获得更广泛的节点接收领域,有效地抑制节点特征的过平滑。此外,我们将概率语言模型集成到图形节点嵌入的初始化中,从而可以更好地提取非图形语义信息。实验结果表明,我们的模型是一般和高效的。无论是语料库级别还是文本级别,它都可以显着提高分类准确性,并在各种文本分类数据集中实现SOTA性能。
translated by 谷歌翻译
时间图代表实体之间的动态关系,并发生在许多现实生活中的应用中,例如社交网络,电子商务,通信,道路网络,生物系统等。他们需要根据其生成建模和表示学习的研究超出与静态图有关的研究。在这项调查中,我们全面回顾了近期针对处理时间图提出的神经时间依赖图表的学习和生成建模方法。最后,我们确定了现有方法的弱点,并讨论了我们最近发表的论文提格的研究建议[24]。
translated by 谷歌翻译
预期观众对某些文本的反应是社会的几个方面不可或缺的,包括政治,研究和商业行业。情感分析(SA)是一种有用的自然语言处理(NLP)技术,它利用词汇/统计和深度学习方法来确定不同尺寸的文本是否表现出正面,负面或中立的情绪。但是,目前缺乏工具来分析独立文本的组并从整体中提取主要情感。因此,当前的论文提出了一种新型算法,称为多层推文分析仪(MLTA),该算法使用多层网络(MLN)以图形方式对社交媒体文本进行了图形方式,以便更好地编码跨越独立的推文集的关系。与其他表示方法相比,图结构能够捕获复杂生态系统中有意义的关系。最先进的图形神经网络(GNN)用于从Tweet-MLN中提取信息,并根据提取的图形特征进行预测。结果表明,与标准的正面,负或中性相比,MLTA不仅可以从更大的可能情绪中预测,从而提供了更准确的情感,还允许对Twitter数据进行准确的组级预测。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
translated by 谷歌翻译
Graph Neural Networks (GNNs) have attracted increasing attention in recent years and have achieved excellent performance in semi-supervised node classification tasks. The success of most GNNs relies on one fundamental assumption, i.e., the original graph structure data is available. However, recent studies have shown that GNNs are vulnerable to the complex underlying structure of the graph, making it necessary to learn comprehensive and robust graph structures for downstream tasks, rather than relying only on the raw graph structure. In light of this, we seek to learn optimal graph structures for downstream tasks and propose a novel framework for semi-supervised classification. Specifically, based on the structural context information of graph and node representations, we encode the complex interactions in semantics and generate semantic graphs to preserve the global structure. Moreover, we develop a novel multi-measure attention layer to optimize the similarity rather than prescribing it a priori, so that the similarity can be adaptively evaluated by integrating measures. These graphs are fused and optimized together with GNN towards semi-supervised classification objective. Extensive experiments and ablation studies on six real-world datasets clearly demonstrate the effectiveness of our proposed model and the contribution of each component.
translated by 谷歌翻译
日志分析是工程师用来解决大规模软件系统故障的主要技术之一。在过去的几十年中,已经提出了许多日志分析方法来检测日志反映的系统异常。他们通常将日志事件计数或顺序日志事件作为输入,并利用机器学习算法,包括深度学习模型来检测系统异常。这些异常通常被确定为对数序列中对数事件的定量关系模式或顺序模式的违反。但是,现有方法无法利用日志事件之间的空间结构关系,从而导致潜在的错误警报和不稳定的性能。在这项研究中,我们提出了一种新型的基于图的对数异常检测方法loggd,以通过将日志序列转换为图来有效解决问题。我们利用了图形变压器神经网络的强大功能,该网络结合了图结构和基于日志异常检测的节点语义。我们在四个广泛使用的公共日志数据集上评估了建议的方法。实验结果表明,Loggd可以胜过最先进的基于定量和基于序列的方法,并在不同的窗口大小设置下实现稳定的性能。结果证实LOGGD在基于对数的异常检测中有效。
translated by 谷歌翻译
恶意软件检测在网络安全中起着至关重要的作用,随着恶意软件增长的增加和网络攻击的进步。以前看不见的恶意软件不是由安全供应商确定的,这些恶意软件通常在这些攻击中使用,并且不可避免地要找到可以从未标记的样本数据中自学习的解决方案。本文介绍了Sherlock,这是一种基于自学的深度学习模型,可根据视觉变压器(VIT)体系结构检测恶意软件。 Sherlock是一种新颖的恶意软件检测方法,它可以通过使用基于图像的二进制表示形式来学习独特的功能,以区分恶意软件和良性程序。在47种类型和696个家庭的层次结构中使用120万个Android应用的实验结果表明,自我监督的学习可以达到97%的恶意软件分类,而恶意软件的二进制分类比现有的最新技术更高。我们提出的模型还能够胜过针对多级恶意软件类型和家庭的最先进技术,分别为.497和.491。
translated by 谷歌翻译
人口级社会事件,如民事骚乱和犯罪,往往对我们的日常生活产生重大影响。预测此类事件对于决策和资源分配非常重要。由于缺乏关于事件发生的真实原因和潜在机制的知识,事件预测传统上具有挑战性。近年来,由于两个主要原因,研究事件预测研究取得了重大进展:(1)机器学习和深度学习算法的开发和(2)社交媒体,新闻来源,博客,经济等公共数据的可访问性指标和其他元数据源。软件/硬件技术中的数据的爆炸性增长导致了社会事件研究中的深度学习技巧的应用。本文致力于提供社会事件预测的深层学习技术的系统和全面概述。我们专注于两个社会事件的域名:\ Texit {Civil unrest}和\ texit {犯罪}。我们首先介绍事件预测问题如何作为机器学习预测任务制定。然后,我们总结了这些问题的数据资源,传统方法和最近的深度学习模型的发展。最后,我们讨论了社会事件预测中的挑战,并提出了一些有希望的未来研究方向。
translated by 谷歌翻译
图表神经网络(GNNS)最近在人工智能(AI)领域的普及,这是由于它们作为输入数据相对非结构化数据类型的独特能力。尽管GNN架构的一些元素在概念上类似于传统神经网络(以及神经网络变体)的操作中,但是其他元件代表了传统深度学习技术的偏离。本教程通过整理和呈现有关GNN最常见和性能变种的动机,概念,数学和应用的细节,将GNN的权力和新颖性暴露给AI从业者。重要的是,我们简明扼要地向实际示例提出了本教程,从而为GNN的主题提供了实用和可访问的教程。
translated by 谷歌翻译