智能论文笔记

PhishClone: Measuring the Efficacy of Cloning Evasion Attacks

Arthur Wong , Alsharif Abuadbba , Mahathir Almashor , Salil Kanhere

分类：机器学习

2022-09-04

基于Web的网络钓鱼占数据泄露的90％以上，大多数Web浏览器和安全供应商都依靠机器学习（ML）模型作为缓解。尽管如此，还显示出在抗钓鱼聚合物（例如网络和Virustotal）上定期发布的链接可轻松绕过现有的探测器。先前的艺术表明，随着光突变的自动网站克隆正在吸引攻击者。这在当前文献中的暴露量有限，并导致基于ML的优势对策。这里的工作进行了第一项经验研究，该研究在广泛的循环中汇编和评估了各种最先进的克隆技术。我们收集了13,394个样品，发现了8,566个确认的网络钓鱼页面，使用7种不同的克隆机制针对4个流行网站。这些样品在受控平台中以防止意外访问的预防措施进行了删除的恶意代码复制。然后，我们将站点报告给Virustotal和其他平台，并定期对结果进行7天的调查，以确定每种克隆技术的功效。结果表明，没有安全供应商检测到我们的克隆，证明了对更有效的检测器的迫切需求。最后，我们提出了4项建议，以帮助网络开发人员和基于ML的防御能力减轻克隆攻击的风险。

translated by 谷歌翻译

PhishMatch: A Layered Approach for Effective Detection of Phishing URLs

Harshal Tupsamudre , Sparsh Jain , Sachin Lodha

分类：机器学习

2021-12-04

网络钓鱼袭击在互联网上继续成为一个重大威胁。先前的研究表明，可以确定网站是否是网络钓鱼，也可以更仔细地分析其URL。基于URL的方法的一个主要优点是它即使在浏览器中呈现网页之前，它也可以识别网络钓鱼网站，从而避免了其他潜在问题，例如加密和驾驶下载。但是，传统的基于URL的方法有它们的局限性。基于黑名单的方法容易出现零小时网络钓鱼攻击，基于先进的机器学习方法消耗高资源，而其他方法将URL发送到远程服务器，损害用户的隐私。在本文中，我们提出了一个分层的防护防御，PhishMatch，这是强大，准确，廉价和客户端的。我们设计一种节省空间高效的AHO-Corasick算法，用于精确串联匹配和基于N-GRAM的索引技术，用于匹配的近似字符串，以检测网络钓鱼URL中的各种弧度标准技术。为了减少误报，我们使用全球白名单和个性化用户白名单。我们还确定访问URL的上下文并使用该信息更准确地对输入URL进行分类。 PhishMatch的最后一个组成部分涉及机器学习模型和受控搜索引擎查询以对URL进行分类。发现针对Chrome浏览器开发的PhishMatch的原型插件，是快速轻便的。我们的评价表明，PhishMatch既有效又有效。

translated by 谷歌翻译

Measuring and Clustering Network Attackers using Medium-Interaction Honeypots

Zain Shamsi , Daniel Zhang , Daehyun Kyoung , Alex Liu

分类：机器学习

2022-06-27

信息安全团队通常会使用网络蜜饯来测量威胁格局以确保其网络。随着Honeypot开发的发展，当今的中型相互作用的蜜罐为安全团队和研究人员提供了一种部署这些主动防御工具的方式，这些工具几乎不需要维护各种协议。在这项工作中，我们在公共Internet上的五个不同协议上部署了此类蜜罐，并研究了我们观察到的攻击的意图和复杂性。然后，我们使用获得的信息来开发一种聚类方法，该方法可以识别攻击者行为中的相关性，以发现很可能由单个操作员控制的IP，这说明了将这些蜜罐用于数据收集的优势。

translated by 谷歌翻译

Profiler: Profile-Based Model to Detect Phishing Emails

Mariya Shmalko , Alsharif Abuadbba , Raj Gaire , Tingmin Wu , Hye-Young Paik , Surya Nepal

分类：机器学习

2022-08-18

电子邮件网络钓鱼变得越来越普遍，随着时间的流逝，网络钓鱼变得更加复杂。为了打击这一上升，已经开发了许多用于检测网络钓鱼电子邮件的机器学习（ML）算法。但是，由于这些算法训练的电子邮件数据集有限，因此它们不擅长识别各种攻击，因此遭受了概念漂移的困扰。攻击者可以在其电子邮件或网站的统计特征上引入小小的变化，以成功绕过检测。随着时间的流逝，文献所报告的准确性与算法在现实世界中的实际有效性之间存在差距。这以频繁的假阳性和假阴性分类意识到自己。为此，我们建议对电子邮件进行多维风险评估，以减少攻击者调整电子邮件并避免检测的可行性。这种横向发送网络钓鱼检测配置文件的水平方法在其主要功能上发出了传入的电子邮件。我们开发了一个风险评估框架，其中包括三个模型，分析了电子邮件（1）威胁级别，（2）认知操纵和（3）电子邮件类型，我们合并了这些电子邮件类型以返回最终的风险评估评分。剖面人员不需要大量的数据集进行训练以有效，其对电子邮件功能的分析会减少概念漂移的影响。我们的参考器可以与ML方法结合使用，以减少其错误分类或作为培训阶段中大型电子邮件数据集的标签。我们在9000个合法的数据集中，使用最先进的ML算法评估了剖面人员对机器学习合奏的功效，并从一个大型澳大利亚大型研究组织的900个网络钓鱼电子邮件中进行了效力。我们的结果表明，探查者的概念漂移的影响减少了30％的假阳性，对ML合奏方法的虚假负面电子邮件分类少25％。

translated by 谷歌翻译

Artificial Intelligence for Cybersecurity: Threats, Attacks and Mitigation

Abhilash Chakraborty , Anupam Biswas , Ajoy Kumar Khan

分类：人工智能 | 神经与进化计算

2022-09-27

随着数字时代的出现，由于技术进步，每天的任务都是自动化的。但是，技术尚未为人们提供足够的工具和保障措施。随着互联网连接全球越来越多的设备，确保连接设备的问题以均匀的螺旋速率增长。数据盗窃，身份盗窃，欺诈交易，密码妥协和系统漏洞正在成为常规的日常新闻。最近的人工智能进步引起了网络攻击的激烈威胁。 AI几乎应用于不同科学和工程的每个领域。 AI的干预不仅可以使特定任务自动化，而且可以提高效率。因此，很明显，如此美味的传播对网络犯罪分子来说是非常开胃的。因此，传统的网络威胁和攻击现在是``智能威胁''。本文讨论了网络安全和网络威胁，以及传统和智能的防御方式，以防止网络攻击。最终，结束讨论，以潜在的潜在前景结束讨论AI网络安全。

translated by 谷歌翻译

SkillFence: A Systems Approach to Practically Mitigating Voice-Based Confusion Attacks

Ashish Hooda , Matthew Wallace , Kushal Jhunjhunwalla , Earlence Fernandes , Kassem Fawaz

分类：机器学习

2022-12-16

Voice assistants are deployed widely and provide useful functionality. However, recent work has shown that commercial systems like Amazon Alexa and Google Home are vulnerable to voice-based confusion attacks that exploit design issues. We propose a systems-oriented defense against this class of attacks and demonstrate its functionality for Amazon Alexa. We ensure that only the skills a user intends execute in response to voice commands. Our key insight is that we can interpret a user's intentions by analyzing their activity on counterpart systems of the web and smartphones. For example, the Lyft ride-sharing Alexa skill has an Android app and a website. Our work shows how information from counterpart apps can help reduce dis-ambiguities in the skill invocation process. We build SkilIFence, a browser extension that existing voice assistant users can install to ensure that only legitimate skills run in response to their commands. Using real user data from MTurk (N = 116) and experimental trials involving synthetic and organic speech, we show that SkillFence provides a balance between usability and security by securing 90.83% of skills that a user will need with a False acceptance rate of 19.83%.

translated by 谷歌翻译

FNDaaS: Content-agnostic Detection of Fake News sites

Panagiotis Papadopoulos , Dimitris Spithouris , Evangelos P. Markatos , Nicolas Kourtellis

分类：机器学习

2022-12-13

Automatic fake news detection is a challenging problem in misinformation spreading, and it has tremendous real-world political and social impacts. Past studies have proposed machine learning-based methods for detecting such fake news, focusing on different properties of the published news articles, such as linguistic characteristics of the actual content, which however have limitations due to the apparent language barriers. Departing from such efforts, we propose FNDaaS, the first automatic, content-agnostic fake news detection method, that considers new and unstudied features such as network and structural characteristics per news website. This method can be enforced as-a-Service, either at the ISP-side for easier scalability and maintenance, or user-side for better end-user privacy. We demonstrate the efficacy of our method using data crawled from existing lists of 637 fake and 1183 real news websites, and by building and testing a proof of concept system that materializes our proposal. Our analysis of data collected from these websites shows that the vast majority of fake news domains are very young and appear to have lower time periods of an IP associated with their domain than real news ones. By conducting various experiments with machine learning classifiers, we demonstrate that FNDaaS can achieve an AUC score of up to 0.967 on past sites, and up to 77-92% accuracy on newly-flagged ones.

translated by 谷歌翻译

Threat Assessment in Machine Learning based Systems

Lionel Nganyewou Tidjon , Foutse Khomh

分类：人工智能 | 机器学习

2022-06-30

机器学习是一个人工智能（AI）的领域，对于几个关键系统来说变得至关重要，使其成为威胁参与者的良好目标。威胁参与者利用不同的策略，技术和程序（TTP），以防止机器学习（ML）系统的机密性，完整性和可用性。在ML周期期间，他们将对抗性TTP利用为毒数据和基于ML ML的系统。近年来，已经为传统系统提出了多种安全惯例，但它们不足以应对基于ML的系统的性质。在本文中，我们对针对基于ML的系统的威胁进行了实证研究，旨在了解和表征ML威胁的性质并确定常见的缓解策略。该研究基于MITER的ATLAS数据库，AI事件数据库和文献的89个现实世界ML攻击方案。从GitHub搜索和Python包装咨询数据库中的854毫升存储库，根据其声誉选择。 AI事件数据库和文献的攻击用于识别Atlas中未记录的漏洞和新类型的威胁。结果表明，卷积神经网络是攻击情景中最有针对性的模型之一。最大漏洞突出的ML存储库包括TensorFlow，OpenCV和笔记本。在本文中，我们还报告了研究的ML存储库中最常见的漏洞，最有针对性的ML阶段和模型，是ML阶段和攻击方案中最常用的TTP。对于红色/蓝色团队，该信息尤其重要，以更好地进行攻击/防御，从业人员在ML开发过程中防止威胁以及研究人员开发有效的防御机制。

translated by 谷歌翻译

"Real Attackers Don't Compute Gradients": Bridging the Gap Between Adversarial ML Research and Practice

Giovanni Apruzzese , Hyrum S. Anderson , Savino Dambra , David Freeman , Fabio Pierazzi , Kevin A. Roundy

分类：机器学习

2022-12-29

Recent years have seen a proliferation of research on adversarial machine learning. Numerous papers demonstrate powerful algorithmic attacks against a wide variety of machine learning (ML) models, and numerous other papers propose defenses that can withstand most attacks. However, abundant real-world evidence suggests that actual attackers use simple tactics to subvert ML-driven systems, and as a result security practitioners have not prioritized adversarial ML defenses. Motivated by the apparent gap between researchers and practitioners, this position paper aims to bridge the two domains. We first present three real-world case studies from which we can glean practical insights unknown or neglected in research. Next we analyze all adversarial ML papers recently published in top security conferences, highlighting positive trends and blind spots. Finally, we state positions on precise and cost-driven threat modeling, collaboration between industry and academia, and reproducible research. We believe that our positions, if adopted, will increase the real-world impact of future endeavours in adversarial ML, bringing both researchers and practitioners closer to their shared goal of improving the security of ML systems.

translated by 谷歌翻译

The Role of Machine Learning in Cybersecurity

Giovanni Apruzzese , Pavel Laskov , Edgardo Montes de Oca , Wissam Mallouli , Luis Burdalo Rapa , Athanasios Vasileios Grammatopoulos , Fabio Di Franco

分类：机器学习

2022-06-20

机器学习（ML）代表了当前和未来信息系统的关键技术，许多域已经利用了ML的功能。但是，网络安全中ML的部署仍处于早期阶段，揭示了研究和实践之间的显着差异。这种差异在当前的最新目的中具有其根本原因，该原因不允许识别ML在网络安全中的作用。除非广泛的受众理解其利弊，否则ML的全部潜力将永远不会释放。本文是对ML在整个网络安全领域中的作用的首次尝试 - 对任何对此主题感兴趣的潜在读者。我们强调了ML在人类驱动的检测方法方面的优势，以及ML在网络安全方面可以解决的其他任务。此外，我们阐明了影响网络安全部署实际ML部署的各种固有问题。最后，我们介绍了各种利益相关者如何为网络安全中ML的未来发展做出贡献，这对于该领域的进一步进步至关重要。我们的贡献补充了两项实际案例研究，这些案例研究描述了ML作为对网络威胁的辩护的工业应用。

translated by 谷歌翻译

Towards Text-based Phishing Detection

Gilchan Park , Julia M. Taylor

分类：自然语言处理

2021-11-02

本文在使用易于使用的资源和使用语义的情况下，有关基于文本的网络钓鱼检测的实验报告。开发算法是先前发布的工作的修改版本，它适用于同一工具。在识别网络钓鱼电子邮件中获得的结果比以前报告的工作更好;但由于虚假被识别为网络钓鱼的文本率略差。预计添加语义组件将减少假阳性率，同时保留检测精度。

translated by 谷歌翻译

Feature Importance Guided Attack: A Model Agnostic Adversarial Attack

Gilad Gressel , Niranjan Hegde , Archana Sreekumar , Rishikumar Radhakrishnan , Kalyani Harikumar , Anjali S. , Michael Darling

分类：机器学习 | 人工智能

2021-06-28

对抗性学习的研究主要集中在均匀的非结构化数据集上，这些数据集通常自然地映射到问题空间中。将功能空间攻击在异质数据集中倒入问题空间更具挑战性，尤其是找到要执行的扰动的任务。这项工作提出了一种正式的搜索策略：“特征重要的指导攻击”（FIGA），它在异质表格数据集的特征空间中发现扰动以产生逃避攻击。我们首先在特征空间中以及在问题空间中演示FIGA。 FIGA不对捍卫模型的学习算法没有任何先验知识，也不需要任何梯度信息。 FIGA假定对特征表示形式的知识和辩护模型数据集的平均特征值。通过在目标类方向上扰动输入的最重要特征，FIGA利用具有重要的排名。虽然FIGA在概念上与使用特征选择过程（例如模仿攻击）的其他作品相似，但我们将具有三个可调参数的攻击算法形式化，并在表格数据集上研究FIGA的强度。我们通过在四个不同的表网络钓鱼数据集中训练的网络钓鱼检测模型和一个平均成功率为94％的金融数据集来证明FIGA的有效性。我们通过限制可能在网络钓鱼域中有效且可行的扰动，将FIGA扩展到网络钓鱼问题空间。我们生成有效的对抗网站，这些网站在视觉上与其不受干扰的对应物相同，并使用它们来攻击六个表格的ML模型，达到13.05％的平均成功率。

translated by 谷歌翻译

Machine Learning Based Cyber Attacks Targeting on Controlled Information: A Survey

Yuantian Miao , Chao Chen , Lei Pan , Qing-Long Han , Jun Zhang , Yang Xiang

分类：机器学习

2021-02-16

窃取对受控信息的攻击，以及越来越多的信息泄漏事件，已成为近年来新兴网络安全威胁。由于蓬勃发展和部署先进的分析解决方案，新颖的窃取攻击利用机器学习（ML）算法来实现高成功率并导致大量损坏。检测和捍卫这种攻击是挑战性和紧迫的，因此政府，组织和个人应该非常重视基于ML的窃取攻击。本调查显示了这种新型攻击和相应对策的最新进展。以三类目标受控信息的视角审查了基于ML的窃取攻击，包括受控用户活动，受控ML模型相关信息和受控认证信息。最近的出版物总结了概括了总体攻击方法，并导出了基于ML的窃取攻击的限制和未来方向。此外，提出了从三个方面制定有效保护的对策 - 检测，破坏和隔离。

translated by 谷歌翻译

Edge Security: Challenges and Issues

Xin Jin , Charalampos Katsis , Fan Sang , Jiahao Sun , Ashish Kundu , Ramana Kompella

分类：人工智能

2022-06-14

边缘计算是一个将数据处理服务转移到生成数据的网络边缘的范式。尽管这样的架构提供了更快的处理和响应，但除其他好处外，它还提出了必须解决的关键安全问题和挑战。本文讨论了从硬件层到系统层的边缘网络体系结构出现的安全威胁和漏洞。我们进一步讨论了此类网络中的隐私和法规合规性挑战。最后，我们认为需要一种整体方法来分析边缘网络安全姿势，该姿势必须考虑每一层的知识。

translated by 谷歌翻译

Beyond the Hype: A Real-World Evaluation of the Impact and Cost of Machine Learning-Based Malware Detection

Robert A. Bridges , Sean Oesch , Miki E. Verma , Michael D. Iannacone , Kelly M. T. Huffer , Brian Jewell , Jeff A. Nichols , Brian Weber , Justin M. Beaver , Jared M. Smith

分类：机器学习

2020-12-16

在本文中，我们介绍了四种突出的恶意软件检测工具的科学评估，以帮助组织提出两个主要问题：基于ML的工具在多大程度上对以前和从未见过的文件进行了准确的分类？是否值得购买网络级恶意软件检测器？为了识别弱点，我们针对各种文件类型的总计3,536个文件（2,554或72 \％恶意，982或28 \％良性）测试了每个工具，包括数百个恶意零日，polyglots和apt-style-style style文件，在多个协议上交付。我们介绍了有关检测时间和准确性的统计结果，请考虑互补分析（一起使用多个工具），并提供了近期成本效益评估程序的两种新颖应用。尽管基于ML的工具在检测零日文件和可执行文件方面更有效，但基于签名的工具仍然是总体上更好的选择。两种基于网络的工具都与任何一种主机工具配对时都可以进行大量（模拟）节省，但两者在HTTP或SMTP以外的协议上都显示出较差的检测率。我们的结果表明，所有四个工具都具有几乎完美的精度但令人震惊的召回率，尤其是在可执行文件和Office文件以外的文件类型上 - 未检测到37％的恶意软件，包括所有Polyglot文件。给出了研究人员的优先事项，并给出了最终用户的外卖。

translated by 谷歌翻译

Machine Learning with DBOS

Robert Redmond , Nathan W. Weckwerth , Brian S. Xia , Qian Li , Peter Kraft , Deeptaanshu Kumar , Çağatay Demiralp , Michael Stonebraker

分类：机器学习

2022-08-10

我们最近提出了一个以DBM为中心的新群集操作系统堆栈DBO。DBO通过将ML代码封装在存储过程中，集中辅助ML数据，为基础DBMS内置的安全性，共同关注ML代码和数据以及跟踪数据和工作流源来源，从而为ML应用程序提供了独特的支持。在这里，我们在两个ML应用程序附近演示了这些好处的子集。我们首先表明，使用GPU的图像分类和对象检测模型可以用作DBOS存储程序，具有与现有系统竞争性能的DBOS存储程序。然后，我们提出了一项1D CNN，训练有素，可以在DBOS支持的Web服务上检测HTTP请求中的异常情况，从而实现SOTA结果。我们使用此模型来开发交互式异常检测系统，并通过定性用户反馈对其进行评估，并证明了其有用性作为未来工作的概念证明，以在DBO上开发实时的实时安全服务。

translated by 谷歌翻译

Deep Learning for Android Malware Defenses: a Systematic Literature Review

Yue Liu , Chakkrit Tantithamthavorn , Li Li , Yepang Liu

分类：机器学习

2021-03-09

恶意应用程序（尤其是针对Android平台的应用程序）对开发人员和最终用户构成了严重威胁。许多研究工作都致力于开发有效的方法来防御Android恶意软件。但是，鉴于Android恶意软件的爆炸性增长以及恶意逃避技术（如混淆和反思）的持续发展，基于手动规则或传统机器学习的Android恶意软件防御方法可能无效。近年来，具有强大功能抽象能力的主要研究领域称为“深度学习”（DL），在各个领域表现出了令人信服和有希望的表现，例如自然语言处理和计算机视觉。为此，采用深度学习技术来阻止Android恶意软件攻击，最近引起了广泛的研究关注。然而，没有系统的文献综述着重于针对Android恶意软件防御的深度学习方法。在本文中，我们进行了系统的文献综述，以搜索和分析在Android环境中恶意软件防御的背景下采用了如何应用的。结果，确定了涵盖2014 - 2021年期间的132项研究。我们的调查表明，尽管大多数这些来源主要考虑基于Android恶意软件检测的基于DL，但基于其他方案的53项主要研究（40.1％）设计防御方法。这篇综述还讨论了基于DL的Android恶意软件防御措施中的研究趋势，研究重点，挑战和未来的研究方向。

translated by 谷歌翻译

A Survey of Plagiarism Detection Systems: Case of Use with English, French and Arabic Languages

Mehdi Abdelhamid , Faical Azouaou , Sofiane Batata

分类：自然语言处理

2022-01-10

在学术界，抄袭肯定不是一个新兴的关注，但它随着互联网的普及和对全球内容来源的易于访问而变得更大的程度，使人类干预不足。尽管如此，由于计算机辅助抄袭检测，抄袭远远远非是一个未被解除的问题，目前是一个有效的研究领域，该研究落在信息检索（IR）和自然语言处理（NLP）领域。许多软件解决方案有助于满足这项任务，本文概述了用于阿拉伯语，法国和英语学术和教育环境的抄袭检测系统。比较在八个系统之间持有，并在检测不同来源的三个混淆水平的特征，可用性，技术方面以及它们的性能之间进行：逐字，释义和跨语言抄袭。在本研究的背景下也进行了对技术形式的抄袭技术形式的关注检查。此外，还提供了对不同作者提出的抄袭类型和分类的调查。

translated by 谷歌翻译

Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions

Hammond Pearce , Baleegh Ahmad , Benjamin Tan , Brendan Dolan-Gavitt , Ramesh Karri

分类：人工智能

2021-08-20

在设计基于AI的系统中，有蓬勃发展的兴趣，以帮助人类设计计算系统，包括自动生成计算机代码的工具。这些最值得注意的是，以第一个自我描述的“Ai对程序员”，GitHub Copilot，一种在开源GitHub代码上培训的语言模型。但是，代码通常包含错误 - 因此，鉴于Copilot处理的大量未曝避代码，肯定是语言模型将从可利用的错误代码中学到。这提出了对Copilot代码捐助的安全的担忧。在这项工作中，我们系统地调查了可能导致Github CopIlot推荐不安全代码的普遍存在和条件。为了执行此分析，我们提示CopIlot在与高风险CWE相关的方案中生成代码（例如，从吉利的“前25名”列表中的方案）。我们探索了三个不同代码生成轴上的Copilot的表现 - 检查它如何表现为特定的弱点多样性，提示的多样性以及域的多样性。总共生产89个不同的Copilot方案，以完成，生产1,689个计划。其中，我们发现大约40％的脆弱。

translated by 谷歌翻译

NL2GDPR: Automatically Develop GDPR Compliant Android Application Features from Natural Language

Faysal Hossain Shezan , Yingjie Lao , Minlong Peng , Xin Wang , Mingming Sun , Ping Li

分类：自然语言处理

2022-08-29

最近的隐私泄漏事件和更严格的政策法规要求公司和移动应用程序的合规标准更高。但是，此类义务还在应用程序开发人员遵守包含各种观点，活动和角色的这些法规方面面临重大挑战，尤其是对于在此问题或资源有限的小型公司和开发人员中。为了解决这些障碍，我们开发了一个自动工具NL2GDPR，该工具可以从开发人员的自然语言描述中制定策略，同时还可以确保该应用程序的功能符合通用数据保护法规（GDPR）。 NL2GDPR是通过利用由百度认知计算实验室开发的信息提取工具OIA（开放信息注释）开发的。核心，NL2GDPR是一个以隐私为中心的信息提取模型，附有GDPR策略查找器和策略生成器。我们进行一项全面的研究，以掌握提取以隐私为中心的信息和制定隐私政策的挑战，同时利用针对此特定任务的优化。借助NL2GDPR，我们可以在正确识别与个人数据存储，过程和共享类型相关的GDPR策略方面获得92.9％，95.2％和98.4％的精度。据我们所知，NL2GDPR是第一个允许开发人员自动生成GDPR策略的工具，只需要输入自然语言来描述应用程序功能。请注意，其他非GDPR相关功能可能与生成的功能集成在一起，以构建复杂的应用程序。

translated by 谷歌翻译