智能论文笔记

Automatic Mapping of Unstructured Cyber Threat Intelligence: An Experimental Study

Vittorio Orbinato , Mariarosaria Barbaraci , Roberto Natella , Domenico Cotroneo

分类：自然语言处理 | 机器学习

2022-08-25

积极的安全方法，例如对手仿真，利用有关威胁行为者及其技术的信息（网络威胁智能，CTI）。但是，大多数CTI仍然以非结构化的形式（即自然语言），例如事件报告和泄漏的文件。为了支持主动的安全工作，我们介绍了一项有关使用机器学习（ML）自动将非结构化CTI自动分类为攻击技术的实验研究。我们为CTI分析的两个新数据集做出了贡献，并评估了几种ML模型，包括传统和深度学习模型。我们介绍了几个课程，了解了ML在此任务中的执行方式，哪些分类器在哪些条件下（这是分类错误的主要原因）以及CTI分析的未来挑战。

translated by 谷歌翻译

Towards Automated Classification of Attackers' TTPs by combining NLP with ML Techniques

Clemens Sauerwein , Alexander Pfohl

分类：自然语言处理

2022-07-18

越来越复杂的威胁参与者以及网络攻击不断发展的巨大速度，及时确定对组织的安全必须识别攻击。因此，负责安全的人采用了有关新兴攻击，攻击者的行动或妥协指标的各种信息来源。但是，大量所需的安全信息以非结构化的文本形式获得，这使攻击者策略，技术和程序（TTPS）的自动化和及时提取变得复杂。为了解决这个问题，我们系统地评估和比较了用于安全信息提取的不同自然语言处理（NLP）和机器学习技术。根据我们的调查，我们提出了一条数据处理管道，该管道会根据攻击者的策略和技术自动对非结构化文本进行分类，这些策略和技术从对手策略，技术和程序的知识库中得出。

translated by 谷歌翻译

Attack Techniques and Threat Identification for Vulnerabilities

Constantin Adam , Muhammed Fatih Bulut , Daby Sow , Steven Ocepek , Chris Bedell , Lilian Ngweta

分类：人工智能

2022-06-22

现代组织为其网络和应用程序漏洞扫描仪发现和报告的漏洞数量奋斗。因此，优先级和专注力变得至关重要，将有限的时间花在最高风险漏洞上。为此，对于这些组织而言，重要的是要了解漏洞的技术描述，而且要了解攻击者的观点。在这项工作中，我们使用机器学习和自然语言处理技术，以及几个公开可用的数据集，以提供攻击技术和威胁参与者的漏洞的可解释映射。这项工作通过预测最有可能使用哪种攻击技术来利用给定的漏洞以及哪些威胁行为者最有可能进行剥削来提供新的安全情报。缺乏标记的数据和不同的词汇使映射漏洞以规模攻击技术一个具有挑战性的问题，使用监督或无监督的（相似性搜索）学习技术无法轻松解决。为了解决这个问题，我们首先将漏洞映射到一组标准的共同弱点，然后将攻击技术的共同弱点映射到一组弱点。该方法得出的平均相互等级（MRR）为0.95，这是一种准确性，与最新系统报告的准确性相当。我们的解决方案已部署到IBM Security X-Force Red漏洞管理服务，并在生产中进行。该解决方案帮助安全从业人员帮助客户管理和优先考虑其漏洞，从演员

translated by 谷歌翻译

Threat Assessment in Machine Learning based Systems

Lionel Nganyewou Tidjon , Foutse Khomh

分类：人工智能 | 机器学习

2022-06-30

机器学习是一个人工智能（AI）的领域，对于几个关键系统来说变得至关重要，使其成为威胁参与者的良好目标。威胁参与者利用不同的策略，技术和程序（TTP），以防止机器学习（ML）系统的机密性，完整性和可用性。在ML周期期间，他们将对抗性TTP利用为毒数据和基于ML ML的系统。近年来，已经为传统系统提出了多种安全惯例，但它们不足以应对基于ML的系统的性质。在本文中，我们对针对基于ML的系统的威胁进行了实证研究，旨在了解和表征ML威胁的性质并确定常见的缓解策略。该研究基于MITER的ATLAS数据库，AI事件数据库和文献的89个现实世界ML攻击方案。从GitHub搜索和Python包装咨询数据库中的854毫升存储库，根据其声誉选择。 AI事件数据库和文献的攻击用于识别Atlas中未记录的漏洞和新类型的威胁。结果表明，卷积神经网络是攻击情景中最有针对性的模型之一。最大漏洞突出的ML存储库包括TensorFlow，OpenCV和笔记本。在本文中，我们还报告了研究的ML存储库中最常见的漏洞，最有针对性的ML阶段和模型，是ML阶段和攻击方案中最常用的TTP。对于红色/蓝色团队，该信息尤其重要，以更好地进行攻击/防御，从业人员在ML开发过程中防止威胁以及研究人员开发有效的防御机制。

translated by 谷歌翻译

Machine Learning in Access Control: A Taxonomy and Survey

Mohammad Nur Nobi , Maanak Gupta , Lopamudra Praharaj , Mahmoud Abdelsalam , Ram Krishnan , Ravi Sandhu

分类：机器学习

2022-07-04

越来越多的工作已经认识到利用机器学习（ML）进步的重要性，以满足提取访问控制属性，策略挖掘，策略验证，访问决策等有效自动化的需求。在这项工作中，我们调查和总结了各种ML解决不同访问控制问题的方法。我们提出了ML模型在访问控制域中应用的新分类学。我们重点介绍当前的局限性和公开挑战，例如缺乏公共现实世界数据集，基于ML的访问控制系统的管理，了解黑盒ML模型的决策等，并列举未来的研究方向。

translated by 谷歌翻译

Machine Learning Based Cyber Attacks Targeting on Controlled Information: A Survey

Yuantian Miao , Chao Chen , Lei Pan , Qing-Long Han , Jun Zhang , Yang Xiang

分类：机器学习

2021-02-16

窃取对受控信息的攻击，以及越来越多的信息泄漏事件，已成为近年来新兴网络安全威胁。由于蓬勃发展和部署先进的分析解决方案，新颖的窃取攻击利用机器学习（ML）算法来实现高成功率并导致大量损坏。检测和捍卫这种攻击是挑战性和紧迫的，因此政府，组织和个人应该非常重视基于ML的窃取攻击。本调查显示了这种新型攻击和相应对策的最新进展。以三类目标受控信息的视角审查了基于ML的窃取攻击，包括受控用户活动，受控ML模型相关信息和受控认证信息。最近的出版物总结了概括了总体攻击方法，并导出了基于ML的窃取攻击的限制和未来方向。此外，提出了从三个方面制定有效保护的对策 - 检测，破坏和隔离。

translated by 谷歌翻译

Inferring Cyber Threat Intelligence -- A Knowledge Graph-based Approach

Nidhi Rastogi , Sharmishtha Dutta , Ryan Christian , Jared Gridley , Mohammad Zaki , Alex Gittens , Charu Aggarwal

分类：人工智能 | 机器学习

2021-02-10

安全分析师在调查攻击，新兴的网络威胁或最近发现的漏洞后准备威胁分析。关于恶意软件攻击和广告系列的威胁情报在博客文章，报告，分析和推文上分享，并具有不同的技术细节。其他安全分析师使用这种情报来告知他们新兴威胁，妥协指标，攻击方法和预防措施。它统称为威胁智能，通常是一种非结构化格式，因此，无缝集成到现有的IDPS系统中，具有挑战性。在本文中，我们提出了一个汇总并结合CTI的框架 - 公开可用的网络威胁智能信息。使用知识图以结构化的格式提取并存储该信息，以便可以与其他安全分析师进行大规模保留威胁智能的语义。我们建议第一个半监督的开源知识图（KG）框架Tinker捕获网络威胁信息及其上下文。在修补匠之后，我们生成一个网络智能知识图（CTI-KG）。我们使用不同的用例及其应用于安全分析师的应用来证明CTI-KG的功效。

translated by 谷歌翻译

The Role of Machine Learning in Cybersecurity

Giovanni Apruzzese , Pavel Laskov , Edgardo Montes de Oca , Wissam Mallouli , Luis Burdalo Rapa , Athanasios Vasileios Grammatopoulos , Fabio Di Franco

分类：机器学习

2022-06-20

机器学习（ML）代表了当前和未来信息系统的关键技术，许多域已经利用了ML的功能。但是，网络安全中ML的部署仍处于早期阶段，揭示了研究和实践之间的显着差异。这种差异在当前的最新目的中具有其根本原因，该原因不允许识别ML在网络安全中的作用。除非广泛的受众理解其利弊，否则ML的全部潜力将永远不会释放。本文是对ML在整个网络安全领域中的作用的首次尝试 - 对任何对此主题感兴趣的潜在读者。我们强调了ML在人类驱动的检测方法方面的优势，以及ML在网络安全方面可以解决的其他任务。此外，我们阐明了影响网络安全部署实际ML部署的各种固有问题。最后，我们介绍了各种利益相关者如何为网络安全中ML的未来发展做出贡献，这对于该领域的进一步进步至关重要。我们的贡献补充了两项实际案例研究，这些案例研究描述了ML作为对网络威胁的辩护的工业应用。

translated by 谷歌翻译

Early Detection of Security-Relevant Bug Reports using Machine Learning: How Far Are We?

Arthur D. Sawadogo , Quentin Guimard , Tegawendé F. Bissyandé , Abdoul Kader Kaboré , Jacques Klein , Naouel Moha

分类：自然语言处理 | 机器学习

2021-12-19

错误报告是软件开发中的常见文物。它们作为用户与开发人员通信有关使用发布版本的软件程序时遇到的问题的主频道。然而，在对问题的描述中，用户可以故意或不揭示漏洞。在典型的维护方案中，在准备纠正补丁时，开发团队优先考虑此类安全相关错误报告。然而，当安全相关性没有立即表达（例如，通过标签）或通过TRIAJIG团队迅速识别时，开放的安全相关错误报告可能成为攻击者可以利用以执行零日攻击的敏感信息的关键泄漏。为了支持Trizing Bug报告中的从业者，研究社区提出了检测安全相关错误报告的许多方法。近年来，报告了基于机器学习的这方面的方法，具有很有希望的表现。我们的工作侧重于这些方法，并重新审视其积木，为目前的成就提供全面的观点。为此，我们建立了一个大型实验数据集，并在特征集和学习算法中进行了广泛的实验。最终，我们的研究突出了不同的方法配置，从而产生最好的执行分类器。

translated by 谷歌翻译

Automated Identification of Toxic Code Reviews Using ToxiCR

Jaydeb Sarker , Asif Kamal Turzo , Ming Dong , Amiangshu Bosu

分类：自然语言处理 | 机器学习

2022-02-26

软件开发互动期间的有毒对话可能会对免费开源软件（FOSS）开发项目产生严重影响。例如，有毒对话的受害者可能会害怕表达自己，因此会丧失自己的动力，并最终可能离开该项目。自动过滤有毒的对话可能有助于福斯社区保持其成员之间的健康互动。但是，现成的毒性探测器在软件工程（SE）数据集上的表现较差，例如从代码审查评论中策划的一个。为了遇到这一挑战，我们提出了毒性，这是一种基于学习的基于学习的毒性识别工具，用于代码审查互动。有毒物质包括选择一种监督学习算法之一，选择文本矢量化技术，八个预处理步骤以及一个大规模标记的数据集，其中包括19,571个代码评论评论。在这八个预处理步骤中，有两个是特定于SE域。通过对预处理步骤和矢量化技术的各种组合的模型进行严格的评估，我们已经确定了数据集的最佳组合，可提高95.8％的精度和88.9％的F1得分。毒性明显优于我们数据集中的现有毒性探测器。我们已发布了数据集，预处理的模型，评估结果和源代码，网址为：https：//github.com/wsu-seal/toxicr

translated by 谷歌翻译

Learning Mutual Fund Categorization using Natural Language Processing

Dimitrios Vamvourellis , Mate Attila Toth , Dhruv Desai , Dhagash Mehta , Stefano Pasquali

分类： (统计)机器学习

2022-07-11

长期以来，共同基金或交易所交易基金（ETF）的分类已为财务分析师提供服务，以进行同行分析，以从竞争对手分析开始到量化投资组合多元化。分类方法通常依赖于从n-1a表格中提取的结构化格式的基金组成数据。在这里，我们启动一项研究，直接从使用自然语言处理（NLP）的表格中描绘的非结构化数据中学习分类系统。将输入数据仅作为表格中报告的投资策略描述，而目标变量是Lipper全球类别，并且使用各种NLP模型，我们表明，分类系统确实可以通过高准确率。我们讨论了我们发现的含义和应用，以及现有的预培训架构的局限性在应用它们以学习基金分类时。

translated by 谷歌翻译

Mitigating Adversarial Gray-Box Attacks Against Phishing Detectors

Giovanni Apruzzese , V. S. Subrahmanian

分类：机器学习

2022-12-11

Although machine learning based algorithms have been extensively used for detecting phishing websites, there has been relatively little work on how adversaries may attack such "phishing detectors" (PDs for short). In this paper, we propose a set of Gray-Box attacks on PDs that an adversary may use which vary depending on the knowledge that he has about the PD. We show that these attacks severely degrade the effectiveness of several existing PDs. We then propose the concept of operation chains that iteratively map an original set of features to a new set of features and develop the "Protective Operation Chain" (POC for short) algorithm. POC leverages the combination of random feature selection and feature mappings in order to increase the attacker's uncertainty about the target PD. Using 3 existing publicly available datasets plus a fourth that we have created and will release upon the publication of this paper, we show that POC is more robust to these attacks than past competing work, while preserving predictive performance when no adversarial attacks are present. Moreover, POC is robust to attacks on 13 different classifiers, not just one. These results are shown to be statistically significant at the p < 0.001 level.

translated by 谷歌翻译

XFL: Naming Functions in Binaries with Extreme Multi-label Learning

James Patrick-Evans , Moritz Dannehl , Johannes Kinder

分类：机器学习

2021-07-28

反向工程师受益于二进制中的标识符（例如函数名称）的存在，但通常将其删除以释放。训练机器学习模型自动预测功能名称是有希望的，但从根本上讲很难：与自然语言中的单词不同，大多数函数名称仅出现一次。在本文中，我们通过引入极端功能标签（XFL）来解决此问题，这是一种极端的多标签学习方法，可为二进制功能选择适当的标签。 XFL将函数名称分为代币，将每个功能视为具有自然语言标记文本的问题的信息标签。我们将二进制代码的语义与通过dexter进行标签，这是一种新颖的函数，将基于静态分析的特征与来自呼叫图的本地上下文和整个二进制的全局上下文相结合。我们证明，XFL/Dexter在Debian Project的10,047个二进制数据集上的功能标签上优于最新技术，获得了83.5％的精度。我们还研究了XFL与文献中的替代二进制嵌入的组合，并表明Dexter始终为这项任务做得最好。结果，我们证明了二进制函数标记可以通过多标签学习有效地措辞，并且二进制函数嵌入得益于包括明确的语义特征。

translated by 谷歌翻译

CVSS-BERT: Explainable Natural Language Processing to Determine the Severity of a Computer Security Vulnerability from its Description

Mustafizur Shahid , Hervé Debar

分类：自然语言处理 | 人工智能 | 机器学习

2021-11-16

当新的计算机安全漏洞被公开披露时，只有一个文本描述。网络安全专家后来提供了使用常见漏洞评分系统（CVSS）的脆弱性严重性分析。具体地，漏洞的不同特征总结成矢量（由一组度量组成），从中计算严重性得分。但是，由于每天披露的漏洞数量大，此过程需要大量的人力，并且在分析漏洞之前，几天可能会通过。我们建议利用自然语言处理领域的最近进步（NLP）来确定CVSS向量和以可说明的方式从其文本描述中的漏洞的相关性严重性得分。为此目的，我们培训了多个BERT分类器，一个用于组成CVSS向量的每个度量。实验结果表明，我们的训练有素的分类器能够以高精度确定CVSS矢量的度量值。从预测的CVSS向量计算的严重性分数也非常接近人类专家归属的真实严重性分数。为了说明目的，基于梯度的输入显着性方法用于确定我们的分类器制作的给定预测的最相关的输入单词。通常，最重要的词语包括与人类社会安全专家的理由同意的术语，使最终用户的解释能够理解。

translated by 谷歌翻译

Improving the Reliability of Network Intrusion Detection Systems through Dataset Integration

Roberto Magán-Carrión , Daniel Urda , Ignacio Díaz-Cano , Bernabé Dorronsoro

分类：机器学习

2021-12-02

这项工作提供了可靠的nids（R-nids），一种新的机器学习方法（ML）的网络入侵检测系统（NIDS），允许ML模型在集成数据集上工作，从不同数据集中具有不同信息的学习过程。因此，R-NIDS针对更强大的模型的设计，比传统方法更好地概括。我们还提出了一个名为UNK21的新数据集。它是由三个最着名的网络数据集（UGR'16，USNW-NB15和NLS-KDD）构建，每个网络环境收集，使用不同的特征和类，通过使用数据聚合方法R-nids。在r-nids之后，在这项工作中，我们建议基于文献中的三个最常见的数据集的信息来构建两个着名的ML模型（一个线性和非线性的一个），用于NIDS评估中的三个，集成在UNK21中的那些。所提出的方法优惠展示了作为NIDS解决方案训练的两种ML模型的结果可以从这种方法中受益，在新提议的UNK21数据集上培训时能够更好地概括。此外，这些结果用统计工具仔细分析了对我们的结论提供了高度信心的统计工具。

translated by 谷歌翻译

An Ensemble of Pre-trained Transformer Models For Imbalanced Multiclass Malware Classification

Ferhat Demirkıran , Aykut Çayır , Uğur Ünal , Hasan Dağ

分类：人工智能 | 机器学习 | (统计)机器学习

2021-12-25

恶意软件系列的分类对于全面了解他们如何感染设备，计算机或系统的全面了解至关重要。因此，恶意软件识别使安全研究人员和事件响应者能够采取防止恶意软件的预防措施并加速缓解。由于这些序列代表恶意软件的行为，恶意软件由恶意软件制作的API呼叫序列是广泛利用的机器和深度学习模型的特征。但是，传统的机器和深度学习模型仍然无法捕获API呼叫之间的序列关系。另一方面，基于变压器的模型作为整体过程序列，并且由于多针注意机制和位置嵌入而学习API调用之间的关系。我们的实验表明，具有一个变压器块层的变压器模型超越了广泛使用的基础架构，LSTM。此外，伯特或犬，预先训练的变压器模型，在根据评估指标，F1分数和AUC分数分类高度不平衡恶意软件系列方面表现优于分类高度不平衡的恶意软件系列。此外，拟议的基于袋的随机变压器森林（RTF），伯特或犬的集合，已经达到了四个数据集中的三个，特别是最先进的F1 - 在一个常用的基准数据集中得分为0.6149。

translated by 谷歌翻译

MOTIF: A Large Malware Reference Dataset with Ground Truth Family Labels

Robert J. Joyce , Dev Amlani , Charles Nicholas , Edward Raff

分类：机器学习

2021-11-29

恶意软件家庭分类是具有公共安全的重要问题，并通过专家标签的高成本受到阻碍的重要问题。绝大多数公司使用嘈杂的标签方法，阻碍了结果的定量量化和更深的相互作用。为了提供进一步前进所需的数据，我们创建了恶意软件开源威胁情报族（图案）数据集。 MOTIF包含来自454个家庭的3,095个恶意软件样本，使其成为最大，最多样化的公共恶意软件数据集，迄今为止，比以前的Windows恶意软件语料库大于任何先前的专家标记的语料库，近3倍。 MOTIF还附带了从恶意软件样本到威胁报告的映射，以信誉良好的行业来源发布，这两者都验证了标签，并打开了将不透明的恶意软件样本连接到人类可读描述的新的研究机会。这使得重要的评估通常是不可行的，由于行业的非标准化报告。例如，我们提供用于描述相同恶意软件系列的不同名称的别名，允许我们在从不同源获得名称时，为您的第一次准确性进行基准测试。使用MOTIF数据集获得的评估结果表明现有任务具有重要的改进空间，抗病毒多数投票的准确性仅以62.10％和众所周知的高度精度测量。我们的调查结果表明，由于在所考虑的样品中可能无法清楚的类别，因此，恶意软件家庭分类与大多数ML文献中的研究不同的标记噪声遭受任何类型的标记噪声。

translated by 谷歌翻译

Deep Learning for Android Malware Defenses: a Systematic Literature Review

Yue Liu , Chakkrit Tantithamthavorn , Li Li , Yepang Liu

分类：机器学习

2021-03-09

恶意应用程序（尤其是针对Android平台的应用程序）对开发人员和最终用户构成了严重威胁。许多研究工作都致力于开发有效的方法来防御Android恶意软件。但是，鉴于Android恶意软件的爆炸性增长以及恶意逃避技术（如混淆和反思）的持续发展，基于手动规则或传统机器学习的Android恶意软件防御方法可能无效。近年来，具有强大功能抽象能力的主要研究领域称为“深度学习”（DL），在各个领域表现出了令人信服和有希望的表现，例如自然语言处理和计算机视觉。为此，采用深度学习技术来阻止Android恶意软件攻击，最近引起了广泛的研究关注。然而，没有系统的文献综述着重于针对Android恶意软件防御的深度学习方法。在本文中，我们进行了系统的文献综述，以搜索和分析在Android环境中恶意软件防御的背景下采用了如何应用的。结果，确定了涵盖2014 - 2021年期间的132项研究。我们的调查表明，尽管大多数这些来源主要考虑基于Android恶意软件检测的基于DL，但基于其他方案的53项主要研究（40.1％）设计防御方法。这篇综述还讨论了基于DL的Android恶意软件防御措施中的研究趋势，研究重点，挑战和未来的研究方向。

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

Deep Learning for Anomaly Detection in Log Data: A Survey

Max Landauer , Sebastian Onder , Florian Skopik , Markus Wurzenberger

分类：机器学习

2022-07-08

自动日志文件分析可以尽早发现相关事件，例如系统故障。特别是，自我学习的异常检测技术在日志数据中捕获模式，随后向系统操作员报告意外的日志事件事件，而无需提前提供或手动对异常情况进行建模。最近，已经提出了越来越多的方法来利用深度学习神经网络为此目的。与传统的机器学习技术相比，这些方法证明了出色的检测性能，并同时解决了不稳定数据格式的问题。但是，有许多不同的深度学习体系结构，并且编码由神经网络分析的原始和非结构化日志数据是不平凡的。因此，我们进行了系统的文献综述，概述了部署的模型，数据预处理机制，异常检测技术和评估。该调查没有定量比较现有方法，而是旨在帮助读者了解不同模型体系结构的相关方面，并强调未来工作的开放问题。

translated by 谷歌翻译