智能论文笔记

A framework for comprehensible multi-modal detection of cyber threats

Jan Kohout , Čeněk Škarda , Kyrylo Shcherbin , Martin Kopp , Jan Brabec

分类：人工智能 | 机器学习

2021-11-10

在企业环境中检测恶意活动是一项非常复杂的任务，并且已经投入了很多努力研究其自动化的研究。然而，绝大多数现有方法仅在一个狭窄的范围内运行，这限制了它们仅捕获恶意软件存在证据的碎片。因此，这种方法不与如何通过域专家研究和描述如何研究网络威胁和描述的方式。在这项工作中，我们讨论了这些限制和设计了一种检测框架，该检测框架将观察到的事件与不同的数据源相结合。由于这一点，它提供了完全洞察攻击生命周期，并能够检测需要这种耦合的威胁，这些威胁来自不同遥控电梯的观察，以识别事件的全部范围。我们展示了该框架在企业网络中观察到的真正恶意软件感染的案例研究中的适用性。

translated by 谷歌翻译

Artificial Intelligence for Cybersecurity: Threats, Attacks and Mitigation

Abhilash Chakraborty , Anupam Biswas , Ajoy Kumar Khan

分类：人工智能 | 神经与进化计算

2022-09-27

随着数字时代的出现，由于技术进步，每天的任务都是自动化的。但是，技术尚未为人们提供足够的工具和保障措施。随着互联网连接全球越来越多的设备，确保连接设备的问题以均匀的螺旋速率增长。数据盗窃，身份盗窃，欺诈交易，密码妥协和系统漏洞正在成为常规的日常新闻。最近的人工智能进步引起了网络攻击的激烈威胁。 AI几乎应用于不同科学和工程的每个领域。 AI的干预不仅可以使特定任务自动化，而且可以提高效率。因此，很明显，如此美味的传播对网络犯罪分子来说是非常开胃的。因此，传统的网络威胁和攻击现在是``智能威胁''。本文讨论了网络安全和网络威胁，以及传统和智能的防御方式，以防止网络攻击。最终，结束讨论，以潜在的潜在前景结束讨论AI网络安全。

translated by 谷歌翻译

The Role of Machine Learning in Cybersecurity

Giovanni Apruzzese , Pavel Laskov , Edgardo Montes de Oca , Wissam Mallouli , Luis Burdalo Rapa , Athanasios Vasileios Grammatopoulos , Fabio Di Franco

分类：机器学习

2022-06-20

机器学习（ML）代表了当前和未来信息系统的关键技术，许多域已经利用了ML的功能。但是，网络安全中ML的部署仍处于早期阶段，揭示了研究和实践之间的显着差异。这种差异在当前的最新目的中具有其根本原因，该原因不允许识别ML在网络安全中的作用。除非广泛的受众理解其利弊，否则ML的全部潜力将永远不会释放。本文是对ML在整个网络安全领域中的作用的首次尝试 - 对任何对此主题感兴趣的潜在读者。我们强调了ML在人类驱动的检测方法方面的优势，以及ML在网络安全方面可以解决的其他任务。此外，我们阐明了影响网络安全部署实际ML部署的各种固有问题。最后，我们介绍了各种利益相关者如何为网络安全中ML的未来发展做出贡献，这对于该领域的进一步进步至关重要。我们的贡献补充了两项实际案例研究，这些案例研究描述了ML作为对网络威胁的辩护的工业应用。

translated by 谷歌翻译

Mapping the Internet: Modelling Entity Interactions in Complex Heterogeneous Networks

Simon Mandlik , Tomas Pevny

分类：机器学习

2021-04-19

即使机器学习算法已经在数据科学中发挥了重要作用，但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式，或数据集中的异质，分层或完全缺少的数据片段，因此很难应用此类方法。作为解决方案，我们提出了一个用于样本表示，模型定义和培训的多功能，统一的框架，称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲，为HMILL的关键组件的设计合理，我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论，该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性，它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外，我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张，我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中，我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中，基于建议的框架的解决方案可实现与专业方法相当的性能。

translated by 谷歌翻译

Malware Detection and Prevention using Artificial Intelligence Techniques

Md Jobair Hossain Faruk , Hossain Shahriar , Maria Valero , Farhat Lamia Barsha , Shahriar Sobhan , Md Abdullah Khan , Michael Whitman , Alfredo Cuzzocreak , Dan Lo , Akond Rahman

分类：人工智能 | 机器学习

2022-06-26

随着技术的快速进步，由于恶意软件活动的增加，安全性已成为一个主要问题，这对计算机系统和利益相关者的安全性和安全性构成了严重威胁。为了维持利益相关者，特别是最终用户的安全，保护数据免受欺诈性努力是最紧迫的问题之一。旨在破坏预期的计算机系统和程序或移动和Web应用程序的一组恶意编程代码，脚本，活动内容或侵入性软件称为恶意软件。根据一项研究，幼稚的用户无法区分恶意和良性应用程序。因此，应设计计算机系统和移动应用程序，以检测恶意活动以保护利益相关者。通过利用包括人工智能，机器学习和深度学习在内的新颖概念，可以使用许多算法来检测恶意软件活动。在这项研究中，我们强调了基于人工智能（AI）的技术来检测和防止恶意软件活动。我们详细介绍了当前的恶意软件检测技术，其缺点以及提高效率的方法。我们的研究表明，采用未来派的方法来开发恶意软件检测应用程序应具有很大的优势。对该综合的理解应帮助研究人员使用AI进行进一步研究恶意软件检测和预防。

translated by 谷歌翻译

Inferring Cyber Threat Intelligence -- A Knowledge Graph-based Approach

Nidhi Rastogi , Sharmishtha Dutta , Ryan Christian , Jared Gridley , Mohammad Zaki , Alex Gittens , Charu Aggarwal

分类：人工智能 | 机器学习

2021-02-10

安全分析师在调查攻击，新兴的网络威胁或最近发现的漏洞后准备威胁分析。关于恶意软件攻击和广告系列的威胁情报在博客文章，报告，分析和推文上分享，并具有不同的技术细节。其他安全分析师使用这种情报来告知他们新兴威胁，妥协指标，攻击方法和预防措施。它统称为威胁智能，通常是一种非结构化格式，因此，无缝集成到现有的IDPS系统中，具有挑战性。在本文中，我们提出了一个汇总并结合CTI的框架 - 公开可用的网络威胁智能信息。使用知识图以结构化的格式提取并存储该信息，以便可以与其他安全分析师进行大规模保留威胁智能的语义。我们建议第一个半监督的开源知识图（KG）框架Tinker捕获网络威胁信息及其上下文。在修补匠之后，我们生成一个网络智能知识图（CTI-KG）。我们使用不同的用例及其应用于安全分析师的应用来证明CTI-KG的功效。

translated by 谷歌翻译

Survey of Machine Learning Based Intrusion Detection Methods for Internet of Medical Things

Ayoub Si-Ahmed , Mohammed Ali Al-Garadi , Narhimene Boustia

分类：机器学习

2022-02-19

医学事物互联网（IOMT）允许使用传感器收集生理数据，然后将其传输到远程服务器，这使医生和卫生专业人员可以连续，永久地分析这些数据，并在早期阶段检测疾病。但是，使用无线通信传输数据将其暴露于网络攻击中，并且该数据的敏感和私人性质可能代表了攻击者的主要兴趣。在存储和计算能力有限的设备上使用传统的安全方法无效。另一方面，使用机器学习进行入侵检测可以对IOMT系统的要求提供适应性的安全响应。在这种情况下，对基于机器学习（ML）的入侵检测系统如何解决IOMT系统中的安全性和隐私问题的全面调查。为此，提供了IOMT的通用三层体系结构以及IOMT系统的安全要求。然后，出现了可能影响IOMT安全性的各种威胁，并确定基于ML的每个解决方案中使用的优势，缺点，方法和数据集。最后，讨论了在IOMT的每一层中应用ML的一些挑战和局限性，这些挑战和局限性可以用作未来的研究方向。

translated by 谷歌翻译

Beyond the Hype: A Real-World Evaluation of the Impact and Cost of Machine Learning-Based Malware Detection

Robert A. Bridges , Sean Oesch , Miki E. Verma , Michael D. Iannacone , Kelly M. T. Huffer , Brian Jewell , Jeff A. Nichols , Brian Weber , Justin M. Beaver , Jared M. Smith

分类：机器学习

2020-12-16

在本文中，我们介绍了四种突出的恶意软件检测工具的科学评估，以帮助组织提出两个主要问题：基于ML的工具在多大程度上对以前和从未见过的文件进行了准确的分类？是否值得购买网络级恶意软件检测器？为了识别弱点，我们针对各种文件类型的总计3,536个文件（2,554或72 \％恶意，982或28 \％良性）测试了每个工具，包括数百个恶意零日，polyglots和apt-style-style style文件，在多个协议上交付。我们介绍了有关检测时间和准确性的统计结果，请考虑互补分析（一起使用多个工具），并提供了近期成本效益评估程序的两种新颖应用。尽管基于ML的工具在检测零日文件和可执行文件方面更有效，但基于签名的工具仍然是总体上更好的选择。两种基于网络的工具都与任何一种主机工具配对时都可以进行大量（模拟）节省，但两者在HTTP或SMTP以外的协议上都显示出较差的检测率。我们的结果表明，所有四个工具都具有几乎完美的精度但令人震惊的召回率，尤其是在可执行文件和Office文件以外的文件类型上 - 未检测到37％的恶意软件，包括所有Polyglot文件。给出了研究人员的优先事项，并给出了最终用户的外卖。

translated by 谷歌翻译

Edge Security: Challenges and Issues

Xin Jin , Charalampos Katsis , Fan Sang , Jiahao Sun , Ashish Kundu , Ramana Kompella

分类：人工智能

2022-06-14

边缘计算是一个将数据处理服务转移到生成数据的网络边缘的范式。尽管这样的架构提供了更快的处理和响应，但除其他好处外，它还提出了必须解决的关键安全问题和挑战。本文讨论了从硬件层到系统层的边缘网络体系结构出现的安全威胁和漏洞。我们进一步讨论了此类网络中的隐私和法规合规性挑战。最后，我们认为需要一种整体方法来分析边缘网络安全姿势，该姿势必须考虑每一层的知识。

translated by 谷歌翻译

Recognizing and Extracting Cybersecurtity-relevant Entities from Text

Casey Hanks , Michael Maiden , Priyanka Ranade , Tim Finin , Anupam Joshi

分类：自然语言处理 | 人工智能

2022-08-02

网络威胁智能（CTI）是描述威胁媒介，漏洞和攻击的信息，通常用作基于AI的网络防御系统（例如网络安全知识图（CKG））的培训数据。非常需要开发可访问社区的数据集来培训现有的基于AI的网络安全管道，以有效，准确地从CTI中提取有意义的见解。我们已经从各种开放源中创建了一个初始的非结构化CTI语料库，我们使用SPACY框架并探索自学习方法来自动识别网络安全实体，用于训练和测试网络安全实体模型。我们还描述了应用网络安全域实体与Wikidata现有世界知识联系起来的方法。我们未来的工作将调查和测试Spacy NLP工具，并创建方法，以连续整合从文本中提取的新信息。

translated by 谷歌翻译

Measuring and Clustering Network Attackers using Medium-Interaction Honeypots

Zain Shamsi , Daniel Zhang , Daehyun Kyoung , Alex Liu

分类：机器学习

2022-06-27

信息安全团队通常会使用网络蜜饯来测量威胁格局以确保其网络。随着Honeypot开发的发展，当今的中型相互作用的蜜罐为安全团队和研究人员提供了一种部署这些主动防御工具的方式，这些工具几乎不需要维护各种协议。在这项工作中，我们在公共Internet上的五个不同协议上部署了此类蜜罐，并研究了我们观察到的攻击的意图和复杂性。然后，我们使用获得的信息来开发一种聚类方法，该方法可以识别攻击者行为中的相关性，以发现很可能由单个操作员控制的IP，这说明了将这些蜜罐用于数据收集的优势。

translated by 谷歌翻译

MOTIF: A Large Malware Reference Dataset with Ground Truth Family Labels

Robert J. Joyce , Dev Amlani , Charles Nicholas , Edward Raff

分类：机器学习

2021-11-29

恶意软件家庭分类是具有公共安全的重要问题，并通过专家标签的高成本受到阻碍的重要问题。绝大多数公司使用嘈杂的标签方法，阻碍了结果的定量量化和更深的相互作用。为了提供进一步前进所需的数据，我们创建了恶意软件开源威胁情报族（图案）数据集。 MOTIF包含来自454个家庭的3,095个恶意软件样本，使其成为最大，最多样化的公共恶意软件数据集，迄今为止，比以前的Windows恶意软件语料库大于任何先前的专家标记的语料库，近3倍。 MOTIF还附带了从恶意软件样本到威胁报告的映射，以信誉良好的行业来源发布，这两者都验证了标签，并打开了将不透明的恶意软件样本连接到人类可读描述的新的研究机会。这使得重要的评估通常是不可行的，由于行业的非标准化报告。例如，我们提供用于描述相同恶意软件系列的不同名称的别名，允许我们在从不同源获得名称时，为您的第一次准确性进行基准测试。使用MOTIF数据集获得的评估结果表明现有任务具有重要的改进空间，抗病毒多数投票的准确性仅以62.10％和众所周知的高度精度测量。我们的调查结果表明，由于在所考虑的样品中可能无法清楚的类别，因此，恶意软件家庭分类与大多数ML文献中的研究不同的标记噪声遭受任何类型的标记噪声。

translated by 谷歌翻译

What are Attackers after on IoT Devices? An approach based on a multi-phased multi-faceted IoT honeypot ecosystem and data clustering

Armin Ziaie Tabari , Xinming Ou , Anoop Singhal

分类：机器学习

2021-12-21

越来越多的东西数量（物联网）设备使得必须了解他们在网络安全方面所面临的真实威胁。虽然蜜罐已经历史上用作诱饵设备，以帮助研究人员/组织更好地了解网络的威胁动态及其影响，因此由于各种设备及其物理连接，IOT设备为此目的构成了独特的挑战。在这项工作中，通过在低互动蜜罐生态系统中观察真实世界攻击者的行为，我们（1）我们（1）介绍了创建多阶段多方面蜜罐生态系统的新方法，逐渐增加了蜜罐的互动的复杂性有了对手，（2）为相机设计和开发了一个低交互蜜罐，允许研究人员对攻击者的目标进行更深入的了解，并且（3）设计了一种创新的数据分析方法来识别对手的目标。我们的蜜罐已经活跃三年了。我们能够在每个阶段收集越来越复杂的攻击数据。此外，我们的数据分析指向蜜罐中捕获的绝大多数攻击活动共享显着的相似性，并且可以集聚集和分组，以更好地了解野外物联网攻击的目标，模式和趋势。

translated by 谷歌翻译

FNDaaS: Content-agnostic Detection of Fake News sites

Panagiotis Papadopoulos , Dimitris Spithouris , Evangelos P. Markatos , Nicolas Kourtellis

分类：机器学习

2022-12-13

Automatic fake news detection is a challenging problem in misinformation spreading, and it has tremendous real-world political and social impacts. Past studies have proposed machine learning-based methods for detecting such fake news, focusing on different properties of the published news articles, such as linguistic characteristics of the actual content, which however have limitations due to the apparent language barriers. Departing from such efforts, we propose FNDaaS, the first automatic, content-agnostic fake news detection method, that considers new and unstudied features such as network and structural characteristics per news website. This method can be enforced as-a-Service, either at the ISP-side for easier scalability and maintenance, or user-side for better end-user privacy. We demonstrate the efficacy of our method using data crawled from existing lists of 637 fake and 1183 real news websites, and by building and testing a proof of concept system that materializes our proposal. Our analysis of data collected from these websites shows that the vast majority of fake news domains are very young and appear to have lower time periods of an IP associated with their domain than real news ones. By conducting various experiments with machine learning classifiers, we demonstrate that FNDaaS can achieve an AUC score of up to 0.967 on past sites, and up to 77-92% accuracy on newly-flagged ones.

translated by 谷歌翻译

Federated Learning for Malware Detection in IoT Devices

Valerian Rey , Pedro Miguel Sánchez Sánchez , Alberto Huertas Celdrán , Gérôme Bovet , Martin Jaggi

分类：机器学习

2021-04-15

这项工作调查了联合学习的可能性，了解IOT恶意软件检测，并研究该新学习范式固有的安全问题。在此上下文中，呈现了一种使用联合学习来检测影响物联网设备的恶意软件的框架。 n-baiot，一个数据集在由恶意软件影响的几个实际物联网设备的网络流量，已被用于评估所提出的框架。经过培训和评估监督和无监督和无监督的联邦模型（多层Perceptron和AutoEncoder）能够检测到MATEN和UNEEN的IOT设备的恶意软件，并进行了培训和评估。此外，它们的性能与两种传统方法进行了比较。第一个允许每个参与者在本地使用自己的数据局面训练模型，而第二个包括使参与者与负责培训全局模型的中央实体共享他们的数据。这种比较表明，在联合和集中方法中完成的使用更多样化和大数据，对模型性能具有相当大的积极影响。此外，联邦模型，同时保留了参与者的隐私，将类似的结果与集中式相似。作为额外的贡献，并衡量联邦方法的稳健性，已经考虑了具有若干恶意参与者中毒联邦模型的对抗性设置。即使使用单个对手，大多数联邦学习算法中使用的基线模型聚合平均步骤也很容易受到不同攻击的影响。因此，在相同的攻击方案下评估了作为对策的其他模型聚合函数的性能。这些职能对恶意参与者提供了重大改善，但仍然需要更多的努力来使联邦方法强劲。

translated by 谷歌翻译

Orchestrating Collaborative Cybersecurity: A Secure Framework for Distributed Privacy-Preserving Threat Intelligence Sharing

Juan R. Trocoso-Pastoriza , Alain Mermoud , Romain Bouyé , Francesco Marino , Jean-Philippe Bossuat , Vincent Lenders , Jean-Pierre Hubaux

分类：人工智能

2022-09-06

网络威胁情报（CTI）共享是减少攻击者和捍卫者之间信息不对称的重要活动。但是，由于数据共享和机密性之间的紧张关系，这项活动带来了挑战，这导致信息保留通常会导致自由骑士问题。因此，共享的信息仅代表冰山一角。当前的文献假设访问包含所有信息的集中数据库，但是由于上述张力，这并不总是可行的。这会导致不平衡或不完整的数据集，需要使用技术扩展它们。我们展示了这些技术如何导致结果和误导性能期望。我们提出了一个新颖的框架，用于从分布式数据中提取有关事件，漏洞和妥协指标的分布式数据，并与恶意软件信息共享平台（MISP）一起证明其在几种实际情况下的使用。提出和讨论了CTI共享的政策影响。拟议的系统依赖于隐私增强技术和联合处理的有效组合。这使组织能够控制其CTI，并最大程度地减少暴露或泄漏的风险，同时为共享的好处，更准确和代表性的结果以及更有效的预测性和预防性防御能力。

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

Firenze: Model Evaluation Using Weak Signals

Bhavna Soman , Ali Torkamani , Michael J. Morais , Jeffrey Bickford , Baris Coskun

分类：人工智能 | 机器学习

2022-07-02

安全字段中的数据标签通常是嘈杂，有限或偏向于人口子集的。结果，诸如准确性，精度和召回指标之类的普遍评估方法，或从标记数据集中计算的性能曲线的分析对机器学习（ML）模型的现实性能没有足够的信心。这减慢了该领域的机器学习的采用。在当今的行业中，我们依靠域专业知识和冗长的手动评估来建立此信心，然后再运送新的安全应用程序模型。在本文中，我们介绍了Firenze，这是一种使用域专业知识对ML模型的性能进行比较评估的新型框架，并编码为称为标记的可扩展功能。我们表明，在称为感兴趣的区域的样本中计算和组合的标记可以提供对其现实世界表演的强大估计。至关重要的是，我们使用统计假设检验来确保观察到的差异，因此从我们的框架中得出的结论 - 比仅噪声可观察到的更为突出。使用模拟和两个现实世界数据集用于恶意软件和域名声誉检测，我们说明了方法的有效性，局限性和见解。综上所述，我们建议Firenze作为研究人员，领域专家和企业主混合团队的快速，可解释和协作模型开发和评估的资源。

translated by 谷歌翻译

Automatic Mapping of Unstructured Cyber Threat Intelligence: An Experimental Study

Vittorio Orbinato , Mariarosaria Barbaraci , Roberto Natella , Domenico Cotroneo

分类：自然语言处理 | 机器学习

2022-08-25

积极的安全方法，例如对手仿真，利用有关威胁行为者及其技术的信息（网络威胁智能，CTI）。但是，大多数CTI仍然以非结构化的形式（即自然语言），例如事件报告和泄漏的文件。为了支持主动的安全工作，我们介绍了一项有关使用机器学习（ML）自动将非结构化CTI自动分类为攻击技术的实验研究。我们为CTI分析的两个新数据集做出了贡献，并评估了几种ML模型，包括传统和深度学习模型。我们介绍了几个课程，了解了ML在此任务中的执行方式，哪些分类器在哪些条件下（这是分类错误的主要原因）以及CTI分析的未来挑战。

translated by 谷歌翻译

Open-Source Framework for Encrypted Internet and Malicious Traffic Classification

Ofek Bader , Adi Lichy , Amit Dvir , Ran Dubin , Chen Hajaj

分类：机器学习

2022-06-21

互联网流量分类在网络可见性，服务质量（QoS），入侵检测，经验质量（QOE）和交通趋势分析中起关键作用。为了提高隐私，完整性，机密性和协议混淆，当前的流量基于加密协议，例如SSL/TLS。随着文献中机器学习（ML）和深度学习（DL）模型的使用增加，由于缺乏标准化的框架，不同模型和方法之间的比较变得繁琐且困难。在本文中，我们提出了一个名为OSF-EIMTC的开源框架，该框架可以提供学习过程的完整管道。从著名的数据集到提取新的和知名的功能，它提供了著名的ML和DL模型（来自交通分类文献）的实现以及评估。这样的框架可以促进交通分类域的研究，从而使其更可重复，可重复，更易于执行，并可以更准确地比较知名和新颖的功能和新颖的功能和模型。作为框架评估的一部分，我们演示了可以使用多个数据集，模型和功能集的各种情况。我们展示了公开可用数据集的分析，并邀请社区使用OSF-EIMTC参与我们的公开挑战。

translated by 谷歌翻译