智能论文笔记

EvilModel 2.0: Bringing Neural Network Models into Malware Attacks

Zhi Wang , Chaoge Liu , Xiang Cui , Jie Yin , Xutong Wang

分类：人工智能

2021-09-09

近年来，神经网络在各个领域中表现出强大的力量，它也带来了越来越多的安全威胁。基于神经网络模型的STEGOMALWARE是代表性的。以前的研究初步证明通过突出神经网络模型中的恶意软件来启动恶意攻击的可行性。然而，现有的作品没有表明，由于恶意软件嵌入率低，模型性能降低以及额外的努力，这种新兴威胁在现实世界攻击中是实际的攻击。因此，我们预测一个称为evilmodel的改进的斯佩塔科。在分析神经网络模型的结构的基础上，我们将二进制形成恶意软件作为其参数嵌入神经网络模型，并提出了三种新的恶意软件嵌入技术，即MSB保留，快速替换和半替换。通过结婚19个恶意软件样本和10个流行的神经网络模型，我们构建了550个恶意软件嵌入式模型，并在想象中数据集中分析了这些模型的性能。实验结果表明，半取代几乎完美地表现出，恶意软件嵌入率为48.52％，没有模型性能下降或额外的努力。考虑到一系列因素，我们提出了一种定量算法来评估不同的嵌入方法。评估结果表明，邪恶的模型与经典的斯托图尼特有多高。此外，我们开展案例研究，以触发真实世界的情景中的邪恶模型。要深入了解所提出的恶意软件嵌入技术，我们还研究了神经网络结构，层和参数大小对恶意软件嵌入容量和嵌入式模型精度的影响。我们还提供了一些可能的对策来捍卫邪恶的模型。我们希望这项工作能够全面了解这种新的AI动力威胁，并建议提前辩护。

translated by 谷歌翻译

DeepC2: AI-powered Covert Command and Control on OSNs

Zhi Wang , Chaoge Liu , Xiang Cui , Jie Yin , Jiaxi Liu , Di Wu , Qixu Liu

分类：人工智能

2020-09-16

命令和控制（C＆C）在攻击中很重要。它将命令从攻击者传输到受损的主机中的恶意软件。目前，一些攻击者在C＆C任务中使用在线社交网络（OSN）。 OSN的C＆C中有两个主要问题。首先，恶意软件找到攻击者的过程是可逆的。如果防御者分析了恶意软件样本，则在发布命令之前将暴露攻击者。其次，以普通或加密形式的命令被OSN视为异常内容，这会引起异常并触发攻击者的限制。防御者暴露后可以限制攻击者。在这项工作中，我们建议在OSN上使用AI驱动的C＆C DEEPC2来解决这些问题。对于可逆的硬编码，恶意软件使用神经网络模型找到了攻击者。攻击者的头像被转换为一批特征向量，并且防御者无法使用模型和特征向量提前恢复头像。为了求解OSN上的异常内容，哈希碰撞和文本数据扩展用于将命令嵌入正常内容中。 Twitter上的实验表明，可以有效地生成命令包裹的推文。恶意软件可以在OSN上秘密地找到攻击者。安全分析表明，很难提前恢复攻击者的标识符。

translated by 谷歌翻译

Attacking Deep Learning AI Hardware with Universal Adversarial Perturbation

Mehdi Sadi , B. M. S. Bahar Talukder , Kaniz Mishty , Md Tauhidur Rahman

分类：机器学习

2021-11-18

普遍的对策扰动是图像不可思议的和模型 - 无关的噪声，当添加到任何图像时可以误导训练的深卷积神经网络进入错误的预测。由于这些普遍的对抗性扰动可以严重危害实践深度学习应用的安全性和完整性，因此现有技术使用额外的神经网络来检测输入图像源的这些噪声的存在。在本文中，我们展示了一种攻击策略，即通过流氓手段激活（例如，恶意软件，木马）可以通过增强AI硬件加速器级的对抗噪声来绕过这些现有对策。我们使用Conv2D功能软件内核的共同仿真和FuseSoC环境下的硬件的Verilog RTL模型的共同仿真，展示了关于几个深度学习模型的加速度普遍对抗噪声。

translated by 谷歌翻译

An Overview of Backdoor Attacks Against Deep Neural Networks and Possible Defences

Wei Guo , Benedetta Tondi , Mauro Barni

分类：计算机视觉

2021-11-16

与令人印象深刻的进步触动了我们社会的各个方面，基于深度神经网络（DNN）的AI技术正在带来越来越多的安全问题。虽然在考试时间运行的攻击垄断了研究人员的初始关注，但是通过干扰培训过程来利用破坏DNN模型的可能性，代表了破坏训练过程的可能性，这是破坏AI技术的可靠性的进一步严重威胁。在后门攻击中，攻击者损坏了培训数据，以便在测试时间诱导错误的行为。然而，测试时间误差仅在存在与正确制作的输入样本对应的触发事件的情况下被激活。通过这种方式，损坏的网络继续正常输入的预期工作，并且只有当攻击者决定激活网络内隐藏的后门时，才会发生恶意行为。在过去几年中，后门攻击一直是强烈的研究活动的主题，重点是新的攻击阶段的发展，以及可能对策的提议。此概述文件的目标是审查发表的作品，直到现在，分类到目前为止提出的不同类型的攻击和防御。指导分析的分类基于攻击者对培训过程的控制量，以及防御者验证用于培训的数据的完整性，并监控DNN在培训和测试中的操作时间。因此，拟议的分析特别适合于参考他们在运营的应用方案的攻击和防御的强度和弱点。

translated by 谷歌翻译

CatchBackdoor: Backdoor Testing by Critical Trojan Neural Path Identification via Differential Fuzzing

Haibo Jin , Ruoxi Chen , Jinyin Chen , Yao Cheng , Chong Fu , Ting Wang , Yue Yu , Zhaoyan Ming

分类：人工智能 | 计算机视觉

2021-12-24

在现实世界应用中的深度神经网络（DNN）的成功受益于丰富的预训练模型。然而，回溯预训练模型可以对下游DNN的部署构成显着的特洛伊木马威胁。现有的DNN测试方法主要旨在在对抗性设置中找到错误的角壳行为，但未能发现由强大的木马攻击所制作的后门。观察特洛伊木马网络行为表明，它们不仅由先前的工作所提出的单一受损神经元反射，而且归因于在多个神经元的激活强度和频率中的关键神经路径。这项工作制定了DNN后门测试，并提出了录音机框架。通过少量良性示例的关键神经元的差异模糊，我们识别特洛伊木马路径，特别是临界人，并通过模拟所识别的路径中的关键神经元来产生后门测试示例。广泛的实验表明了追索者的优越性，比现有方法更高的检测性能。通过隐秘的混合和自适应攻击来检测到后门的录音机更好，现有方法无法检测到。此外，我们的实验表明，录音所可能会揭示模型动物园中的模型的潜在潜在的背面。

translated by 谷歌翻译

Adversarial examples: Attacks and defenses for deep learning

分类：

With rapid progress and significant successes in a wide spectrum of applications, deep learning is being applied in many safety-critical environments. However, deep neural networks have been recently found vulnerable to well-designed input samples, called adversarial examples. Adversarial perturbations are imperceptible to human but can easily fool deep neural networks in the testing/deploying stage. The vulnerability to adversarial examples becomes one of the major risks for applying deep neural networks in safety-critical environments. Therefore, attacks and defenses on adversarial examples draw great attention. In this paper, we review recent findings on adversarial examples for deep neural networks, summarize the methods for generating adversarial examples, and propose a taxonomy of these methods. Under the taxonomy, applications for adversarial examples are investigated. We further elaborate on countermeasures for adversarial examples. In addition, three major challenges in adversarial examples and the potential solutions are discussed.

translated by 谷歌翻译

Adversarial Attacks against Windows PE Malware Detection: A Survey of the State-of-the-Art

Xiang Ling , Lingfei Wu , Jiangyu Zhang , Zhenqing Qu , Wei Deng , Xiang Chen , Chunming Wu , Shouling Ji , Tianyue Luo , Jingzheng Wu

分类：人工智能

2021-12-23

恶意软件是跨越多个操作系统和各种文件格式的计算机的最损害威胁之一。为了防止不断增长的恶意软件的威胁，已经提出了巨大的努力来提出各种恶意软件检测方法，试图有效和有效地检测恶意软件。最近的研究表明，一方面，现有的ML和DL能够卓越地检测新出现和以前看不见的恶意软件。然而，另一方面，ML和DL模型本质上易于侵犯对抗性示例形式的对抗性攻击，这通过略微仔细地扰乱了合法输入来混淆目标模型来恶意地产生。基本上，在计算机视觉领域最初广泛地研究了对抗性攻击，并且一些快速扩展到其他域，包括NLP，语音识别甚至恶意软件检测。在本文中，我们专注于Windows操作系统系列中的便携式可执行文件（PE）文件格式的恶意软件，即Windows PE恶意软件，作为在这种对抗设置中研究对抗性攻击方法的代表性案例。具体而言，我们首先首先概述基于ML / DL的Windows PE恶意软件检测的一般学习框架，随后突出了在PE恶意软件的上下文中执行对抗性攻击的三个独特挑战。然后，我们进行全面和系统的审查，以对PE恶意软件检测以及增加PE恶意软件检测的稳健性的相应防御，对近最新的对手攻击进行分类。我们首先向Windows PE恶意软件检测的其他相关攻击结束除了对抗对抗攻击之外，然后对未来的研究方向和机遇脱落。

translated by 谷歌翻译

Dispersed Pixel Perturbation-based Imperceptible Backdoor Trigger for Image Classifier Models

Yulong Wang , Minghui Zhao , Shenghong Li , Xin Yuan , Wei Ni

分类：计算机视觉 | 人工智能

2022-08-19

典型的深神经网络（DNN）后门攻击基于输入中嵌入的触发因素。现有的不可察觉的触发因素在计算上昂贵或攻击成功率低。在本文中，我们提出了一个新的后门触发器，该扳机易于生成，不可察觉和高效。新的触发器是一个均匀生成的三维（3D）二进制图案，可以水平和/或垂直重复和镜像，并将其超级贴在三通道图像上，以训练后式DNN模型。新型触发器分散在整个图像中，对单个像素产生微弱的扰动，但共同拥有强大的识别模式来训练和激活DNN的后门。我们还通过分析表明，随着图像的分辨率提高，触发因素越来越有效。实验是使用MNIST，CIFAR-10和BTSR数据集上的RESNET-18和MLP模型进行的。在无遗象的方面，新触发的表现优于现有的触发器，例如Badnet，Trojaned NN和隐藏的后门。新的触发因素达到了几乎100％的攻击成功率，仅将分类准确性降低了不到0.7％-2.4％，并使最新的防御技术无效。

translated by 谷歌翻译

A Systematic Review on Model Watermarking for Neural Networks

Franziska Boenisch

分类：机器学习

2020-09-25

机器学习（ML）模型应用于越来越多的域。大量数据和计算资源的可用性鼓励开发更复杂和有价值的模型。这些模型被认为是培训他们的合法缔约方的知识产权，这使得他们防止窃取，非法再分配和未经授权的应用迫切需要。数字水印为标记模型所有权提供了强大的机制，从而提供了对这些威胁的保护。这项工作介绍了ML模型的不同类别水印方案的分类识别和分析。它介绍了一个统一的威胁模型，以允许在不同场景中进行水印方法的有效性的结构化推理和比较。此外，它系统化了期望的安全要求和攻击ML模型水印。根据该框架，调查了该领域的代表文学以说明分类法。最后，讨论了现有方法的缺点和普遍局限性，给出了未来研究方向的前景。

translated by 谷歌翻译

Adversarial Machine Learning In Network Intrusion Detection Domain: A Systematic Review

Huda Ali Alatwi , Charles Morisset

分类：机器学习 | 神经与进化计算

2021-12-06

由于它们在各个域中的大量成功，深入的学习技术越来越多地用于设计网络入侵检测解决方案，该解决方案检测和减轻具有高精度检测速率和最小特征工程的未知和已知的攻击。但是，已经发现，深度学习模型容易受到可以误导模型的数据实例，以使所谓的分类决策不正确（对抗示例）。此类漏洞允许攻击者通过向恶意流量添加小的狡猾扰动来逃避检测并扰乱系统的关键功能。在计算机视觉域中广泛研究了深度对抗学习的问题;但是，它仍然是网络安全应用中的开放研究领域。因此，本调查探讨了在网络入侵检测领域采用对抗机器学习的不同方面的研究，以便为潜在解决方案提供方向。首先，调查研究基于它们对产生对抗性实例的贡献来分类，评估ML的NID对逆势示例的鲁棒性，并捍卫这些模型的这种攻击。其次，我们突出了调查研究中确定的特征。此外，我们讨论了现有的通用对抗攻击对NIDS领域的适用性，启动拟议攻击在现实世界方案中的可行性以及现有缓解解决方案的局限性。

translated by 谷歌翻译

Towards Practical Deployment-Stage Backdoor Attack on Deep Neural Networks

Xiangyu Qi , Tinghao Xie , Ruizhe Pan , Jifeng Zhu , Yong Yang , Kai Bu

分类：计算机视觉

2021-11-25

AI安全社区的一个主要目标是为现实世界应用安全可靠地生产和部署深入学习模型。为此，近年来，在生产阶段（或培训阶段）和相应的防御中，基于数据中毒基于深度神经网络（DNN）的后门攻击以及相应的防御。具有讽刺意味的是，部署阶段的后门攻击，这些攻击通常可以在不专业用户的设备中发生，因此可以说是在现实世界的情景中威胁要威胁，得以更少的关注社区。我们将这种警惕的不平衡归因于现有部署阶段后门攻击算法的弱实用性以及现实世界攻击示范的不足。为了填补空白，在这项工作中，我们研究了对DNN的部署阶段后门攻击的现实威胁。我们基于普通使用的部署阶段攻击范式 - 对抗对抗权重攻击的研究，主体选择性地修改模型权重，以将后台嵌入到部署的DNN中。为了实现现实的实用性，我们提出了第一款灰度盒和物理可实现的重量攻击算法，即替换注射，即子网替换攻击（SRA），只需要受害者模型的架构信息，并且可以支持现实世界中的物理触发器。进行了广泛的实验模拟和系统级真实的世界攻击示范。我们的结果不仅提出了所提出的攻击算法的有效性和实用性，还揭示了一种新型计算机病毒的实际风险，这些计算机病毒可能会广泛传播和悄悄地将后门注入用户设备中的DNN模型。通过我们的研究，我们要求更多地关注DNN在部署阶段的脆弱性。

translated by 谷歌翻译

Artificial Intelligence for Cybersecurity: Threats, Attacks and Mitigation

Abhilash Chakraborty , Anupam Biswas , Ajoy Kumar Khan

分类：人工智能 | 神经与进化计算

2022-09-27

随着数字时代的出现，由于技术进步，每天的任务都是自动化的。但是，技术尚未为人们提供足够的工具和保障措施。随着互联网连接全球越来越多的设备，确保连接设备的问题以均匀的螺旋速率增长。数据盗窃，身份盗窃，欺诈交易，密码妥协和系统漏洞正在成为常规的日常新闻。最近的人工智能进步引起了网络攻击的激烈威胁。 AI几乎应用于不同科学和工程的每个领域。 AI的干预不仅可以使特定任务自动化，而且可以提高效率。因此，很明显，如此美味的传播对网络犯罪分子来说是非常开胃的。因此，传统的网络威胁和攻击现在是``智能威胁''。本文讨论了网络安全和网络威胁，以及传统和智能的防御方式，以防止网络攻击。最终，结束讨论，以潜在的潜在前景结束讨论AI网络安全。

translated by 谷歌翻译

The "Beatrix'' Resurrections: Robust Backdoor Detection via Gram Matrices

Wanlun Ma , Derui Wang , Ruoxi Sun , Minhui Xue , Sheng Wen , Yang Xiang

分类：人工智能

2022-09-23

深度神经网络（DNNS）在训练过程中容易受到后门攻击的影响。该模型以这种方式损坏正常起作用，但是当输入中的某些模式触发时，会产生预定义的目标标签。现有防御通常依赖于通用后门设置的假设，其中有毒样品共享相同的均匀扳机。但是，最近的高级后门攻击表明，这种假设在动态后门中不再有效，在动态后门中，触发者因输入而异，从而击败了现有的防御。在这项工作中，我们提出了一种新颖的技术BEATRIX（通过革兰氏矩阵检测）。 BEATRIX利用革兰氏矩阵不仅捕获特征相关性，还可以捕获表示形式的适当高阶信息。通过从正常样本的激活模式中学习类条件统计，BEATRIX可以通过捕获激活模式中的异常来识别中毒样品。为了进一步提高识别目标标签的性能，BEATRIX利用基于内核的测试，而无需对表示分布进行任何先前的假设。我们通过与最先进的防御技术进行了广泛的评估和比较来证明我们的方法的有效性。实验结果表明，我们的方法在检测动态后门时达到了91.1％的F1得分，而最新技术只能达到36.9％。

translated by 谷歌翻译

I Know What You Trained Last Summer: A Survey on Stealing Machine Learning Models and Defences

Daryna Oliynyk , Rudolf Mayer , Andreas Rauber

分类：机器学习 | 人工智能

2022-06-16

机器学习与服务（MLAAS）已成为广泛的范式，即使是通过例如，也是客户可用的最复杂的机器学习模型。一个按要求的原则。这使用户避免了数据收集，超参数调整和模型培训的耗时过程。但是，通过让客户访问（预测）模型，MLAAS提供商危害其知识产权，例如敏感培训数据，优化的超参数或学到的模型参数。对手可以仅使用预测标签创建模型的副本，并以（几乎）相同的行为。尽管已经描述了这种攻击的许多变体，但仅提出了零星的防御策略，以解决孤立的威胁。这增加了对模型窃取领域进行彻底系统化的必要性，以全面了解这些攻击是成功的原因，以及如何全面地捍卫它们。我们通过对模型窃取攻击，评估其性能以及探索不同设置中相应的防御技术来解决这一问题。我们为攻击和防御方法提出了分类法，并提供有关如何根据目标和可用资源选择正确的攻击或防御策略的准则。最后，我们分析了当前攻击策略使哪些防御能力降低。

translated by 谷歌翻译

STRIP: A Defence Against Trojan Attacks on Deep Neural Networks

Yansong Gao , Chang Xu , Derui Wang , Shiping Chen , Damith C. Ranasinghe , Surya Nepal

分类：

2019-02-18

A recent trojan attack on deep neural network (DNN) models is one insidious variant of data poisoning attacks. Trojan attacks exploit an effective backdoor created in a DNN model by leveraging the difficulty in interpretability of the learned model to misclassify any inputs signed with the attacker's chosen trojan trigger. Since the trojan trigger is a secret guarded and exploited by the attacker, detecting such trojan inputs is a challenge, especially at run-time when models are in active operation. This work builds STRong Intentional Perturbation (STRIP) based run-time trojan attack detection system and focuses on vision system. We intentionally perturb the incoming input, for instance by superimposing various image patterns, and observe the randomness of predicted classes for perturbed inputs from a given deployed model-malicious or benign. A low entropy in predicted classes violates the input-dependence property of a benign model and implies the presence of a malicious input-a characteristic of a trojaned input. The high efficacy of our method is validated through case studies on three popular and contrasting datasets: MNIST, CIFAR10 and GTSRB. We achieve an overall false acceptance rate (FAR) of less than 1%, given a preset false rejection rate (FRR) of 1%, for different types of triggers. Using CIFAR10 and GTSRB, we have empirically achieved result of 0% for both FRR and FAR. We have also evaluated STRIP robustness against a number of trojan attack variants and adaptive attacks.

translated by 谷歌翻译

Deep Learning for Android Malware Defenses: a Systematic Literature Review

Yue Liu , Chakkrit Tantithamthavorn , Li Li , Yepang Liu

分类：机器学习

2021-03-09

恶意应用程序（尤其是针对Android平台的应用程序）对开发人员和最终用户构成了严重威胁。许多研究工作都致力于开发有效的方法来防御Android恶意软件。但是，鉴于Android恶意软件的爆炸性增长以及恶意逃避技术（如混淆和反思）的持续发展，基于手动规则或传统机器学习的Android恶意软件防御方法可能无效。近年来，具有强大功能抽象能力的主要研究领域称为“深度学习”（DL），在各个领域表现出了令人信服和有希望的表现，例如自然语言处理和计算机视觉。为此，采用深度学习技术来阻止Android恶意软件攻击，最近引起了广泛的研究关注。然而，没有系统的文献综述着重于针对Android恶意软件防御的深度学习方法。在本文中，我们进行了系统的文献综述，以搜索和分析在Android环境中恶意软件防御的背景下采用了如何应用的。结果，确定了涵盖2014 - 2021年期间的132项研究。我们的调查表明，尽管大多数这些来源主要考虑基于Android恶意软件检测的基于DL，但基于其他方案的53项主要研究（40.1％）设计防御方法。这篇综述还讨论了基于DL的Android恶意软件防御措施中的研究趋势，研究重点，挑战和未来的研究方向。

translated by 谷歌翻译

An Efficient Multi-Step Framework for Malware Packing Identification

Jong-Wouk Kim , Yang-Sae Moon , Mi-Jung Choi

分类：人工智能

2022-08-17

恶意软件开发人员使用诸如压缩，加密和混淆等技术的组合来绕过反病毒软件。使用抗分析技术的恶意软件可以绕过基于AI的防病毒软件和恶意软件分析工具。因此，对包装文件进行分类是最大的挑战之一。如果恶意软件分类器学习包装工的功能，而不是恶意软件的功能，就会出现问题。用意外错误的数据训练模型变成中毒攻击，对抗攻击和逃避攻击。因此，研究人员应考虑包装以构建适当的恶意软件分类器模型。在本文中，我们提出了一个多步框架，用于分类和识别包装样本，其中包括伪最佳的功能选择，基于机器学习的分类器和Packer识别步骤。在第一步中，我们使用购物车算法和置换重要性来预选重要的20个功能。在第二步中，每个模型都会学习20个预选功能，以分类具有最高性能的包装文件。结果，XGBoost以置换重要性了解了XGBoost预先选择的功能，其精度为99.67％，F1得分为99.46％，并且在曲线下的F1分数表现出最高的性能（f1）。 AUC）为99.98％。在第三步中，我们提出了一种新方法，该方法只能识别包装工，仅针对被分类为众所周知的包装的样品。

translated by 谷歌翻译

NTD: Non-Transferability Enabled Backdoor Detection

Yinshan Li , Hua Ma , Zhi Zhang , Yansong Gao , Alsharif Abuadbba , Anmin Fu , Yifeng Zheng , Said F. Al-Sarawi , Derek Abbott

分类：人工智能 | 机器学习

2021-11-22

后门深度学习（DL）模型的行为通常在清洁输入上，但在触发器输入时不端行为，因为后门攻击者希望为DL模型部署构成严重后果。最先进的防御是限于特定的后门攻击（源无关攻击）或在该机器学习（ML）专业知识或昂贵的计算资源中不适用于源友好的攻击。这项工作观察到所有现有的后门攻击都具有不可避免的内在弱点，不可转换性，即触发器输入劫持劫持模型，但不能对另一个尚未植入同一后门的模型有效。通过此密钥观察，我们提出了不可转换性的反向检测（NTD）来识别运行时在运行时的模型欠测试（MUT）的触发输入。特定，NTD允许潜在的回溯静电预测输入的类别。同时，NTD利用特征提取器（FE）来提取输入的特征向量，并且从其预测类随机拾取的一组样本，然后比较FE潜在空间中的输入和样本之间的相似性。如果相似性低，则输入是对逆势触发输入;否则，良性。 FE是一个免费的预训练模型，私下从开放平台保留。随着FE和MUT来自不同来源，攻击者非常不可能将相同的后门插入其中两者。由于不可转换性，不能将突变处工作的触发效果转移到FE，使NTD对不同类型的后门攻击有效。我们在三个流行的定制任务中评估NTD，如面部识别，交通标志识别和一般动物分类，结果确认NDT具有高效率（低假验收率）和具有低检测延迟的可用性（低误报率）。

translated by 谷歌翻译

Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks

Weilin Xu , David Evans , Yanjun Qi

分类：

2017-04-04

Although deep neural networks (DNNs) have achieved great success in many tasks, they can often be fooled by adversarial examples that are generated by adding small but purposeful distortions to natural examples. Previous studies to defend against adversarial examples mostly focused on refining the DNN models, but have either shown limited success or required expensive computation. We propose a new strategy, feature squeezing, that can be used to harden DNN models by detecting adversarial examples. Feature squeezing reduces the search space available to an adversary by coalescing samples that correspond to many different feature vectors in the original space into a single sample. By comparing a DNN model's prediction on the original input with that on squeezed inputs, feature squeezing detects adversarial examples with high accuracy and few false positives.This paper explores two feature squeezing methods: reducing the color bit depth of each pixel and spatial smoothing. These simple strategies are inexpensive and complementary to other defenses, and can be combined in a joint detection framework to achieve high detection rates against state-of-the-art attacks.

translated by 谷歌翻译

Architectural Backdoors in Neural Networks

Mikel Bober-Irizar , Ilia Shumailov , Yiren Zhao , Robert Mullins , Nicolas Papernot

分类：机器学习

2022-06-15

机器学习容易受到对抗操作的影响。先前的文献表明，在训练阶段，攻击者可以操纵数据和数据采样程序以控制模型行为。一个共同的攻击目标是种植后门，即迫使受害者模型学会识别只有对手知道的触发因素。在本文中，我们引入了一类新的后门攻击类，这些攻击隐藏在模型体系结构内，即在用于训练的功能的电感偏置中。这些后门很容易实现，例如，通过为其他人将在不知不觉中重复使用的后式模型体系结构发布开源代码。我们证明，模型架构后门代表了一个真正的威胁，与其他方法不同，可以从头开始进行完整的重新训练。我们将建筑后门背后的主要构建原理（例如输入和输出之间的链接）形式化，并描述对它们的一些可能的保护。我们评估了对不同尺度的计算机视觉基准测试的攻击，并证明在各种培训环境中，潜在的脆弱性无处不在。

translated by 谷歌翻译