我们提出了HashTAG,这是一种在检测性能上具有可证实范围的深度神经网络(DNN)对故障注射攻击的高精度检测的第一个框架。故障注射攻击中最近的文献显示了尺寸翻转引起的严重DNN精度劣化。在这种情况下,攻击者通过篡改程序的DRAM存储器来在DNN执行期间改变几个权重位。要检测运行时位翻转,HashTag在部署之前从良性DNN中提取唯一签名。签名后来用于验证DNN的完整性,并验证推动输出在速度。我们提出了一种新颖的敏感性分析方案,可准确地将最脆弱的DNN层识别到故障注射攻击。然后通过使用低碰撞散列函数对易受攻击层中的基础重量进行编码来构建DNN签名。部署DNN时,在推理期间从目标层提取新的哈希,并与地面真相签名进行比较。 HASHTAG采用了一种轻量级方法,可确保嵌入式平台上的低开销和实时故障检测。对各种DNN的最先进的位翻转攻击的广泛评估在攻击检测和执行开销方面,展示了HashTAG的竞争优势。
translated by 谷歌翻译
深度神经网络(DNN)的最新进步已经看到多个安全敏感域中的广泛部署。需要资源密集型培训和使用有价值的域特定培训数据,使这些模型成为模型所有者的顶级知识产权(IP)。 DNN隐私的主要威胁之一是模型提取攻击,前提是在DNN模型中试图窃取敏感信息。最近的研究表明,基于硬件的侧信道攻击可以揭示关于DNN模型的内部知识(例如,模型架构)但到目前为止,现有攻击不能提取详细的模型参数(例如,权重/偏置)。在这项工作中,我们首次提出了一种先进的模型提取攻击框架,借助记忆侧通道攻击有效地窃取了DNN权重。我们建议的深度包括两个关键阶段。首先,我们通过采用基于Rowhammer的硬件故障技术作为信息泄漏向量,开发一种名为HammerLeak的新重量位信息提取方法。 Hammerleak利用了用于DNN应用的几种新的系统级技术,以实现快速高效的重量窃取。其次,我们提出了一种具有平均聚类重量惩罚的新型替代模型训练算法,其利用部分泄漏的位信息有效地利用了目标受害者模型的替代原型。我们在三个流行的图像数据集(例如,CiFar-10/100 / GTSRB)和四个DNN架构上评估该替代模型提取方法(例如,Reset-18/34 / Wide-Reset / Vgg-11)。提取的替代模型在CiFar-10数据集的深度剩余网络上成功实现了超过90%的测试精度。此外,我们提取的替代模型也可能产生有效的对抗性输入样本来欺骗受害者模型。
translated by 谷歌翻译
普遍的对策扰动是图像不可思议的和模型 - 无关的噪声,当添加到任何图像时可以误导训练的深卷积神经网络进入错误的预测。由于这些普遍的对抗性扰动可以严重危害实践深度学习应用的安全性和完整性,因此现有技术使用额外的神经网络来检测输入图像源的这些噪声的存在。在本文中,我们展示了一种攻击策略,即通过流氓手段激活(例如,恶意软件,木马)可以通过增强AI硬件加速器级的对抗噪声来绕过这些现有对策。我们使用Conv2D功能软件内核的共同仿真和FuseSoC环境下的硬件的Verilog RTL模型的共同仿真,展示了关于几个深度学习模型的加速度普遍对抗噪声。
translated by 谷歌翻译
已知DNN容易受到所谓的对抗攻击的攻击,这些攻击操纵输入以引起不正确的结果,这可能对攻击者有益或对受害者造成损害。最近的作品提出了近似计算,作为针对机器学习攻击的防御机制。我们表明,这些方法虽然成功地用于一系列投入,但不足以解决更强大,高信任的对抗性攻击。为了解决这个问题,我们提出了DNNShield,这是一种硬件加速防御,可使响应的强度适应对抗性输入的信心。我们的方法依赖于DNN模型的动态和随机稀疏来有效地实现推理近似值,并通过对近似误差进行细粒度控制。与检测对抗输入相比,DNNShield使用稀疏推理的输出分布特征。当应用于RESNET50时,我们显示出86%的对抗检测率为86%,这超过了最先进的接近状态的检测率,开销较低。我们演示了软件/硬件加速的FPGA原型,该原型降低了DNNShield相对于仅软件CPU和GPU实现的性能影响。
translated by 谷歌翻译
已知深度学习系统容易受到对抗例子的影响。特别是,基于查询的黑框攻击不需要深入学习模型的知识,而可以通过提交查询和检查收益来计算网络上的对抗示例。最近的工作在很大程度上提高了这些攻击的效率,证明了它们在当今的ML-AS-A-Service平台上的实用性。我们提出了Blacklight,这是针对基于查询的黑盒对抗攻击的新防御。推动我们设计的基本见解是,为了计算对抗性示例,这些攻击在网络上进行了迭代优化,从而在输入空间中产生了非常相似的图像查询。 Blacklight使用在概率内容指纹上运行的有效相似性引擎来检测高度相似的查询来检测基于查询的黑盒攻击。我们根据各种模型和图像分类任务对八次最先进的攻击进行评估。 Blacklight通常只有几次查询后,都可以识别所有这些。通过拒绝所有检测到的查询,即使攻击者在帐户禁令或查询拒绝之后持续提交查询,Blacklight也可以防止任何攻击完成。 Blacklight在几个强大的对策中也很强大,包括最佳的黑盒攻击,该攻击近似于效率的白色框攻击。最后,我们说明了黑光如何推广到其他域,例如文本分类。
translated by 谷歌翻译
在部署之前,保护DNN模型的知识产权是至关重要的。到目前为止,提出的方法要么需要更改内部模型参数或机器学习管道,要么无法满足安全性和鲁棒性要求。本文提出了一种轻巧,健壮且安全的黑盒DNN水印协议,该协议利用了加密单向功能以及在训练过程中注入任务钥匙标签 - 标签对。这些对后来用于在测试过程中证明DNN模型所有权。主要功能是证明及其安全性的价值是可衡量的。广泛的实验为各种数据集的图像分类模型以及将它们暴露于各种攻击中,表明它提供了保护的同时,同时保持了足够的安全性和鲁棒性。
translated by 谷歌翻译
神经网络权重的对抗性比特翻转攻击(BFA)可以通过翻转非常少量的比特来导致灾难性的精度下降。先前比特翻转攻击技术的主要缺点是他们对测试数据的依赖。包含敏感或专有数据的应用程序通常是不可能的。在本文中,我们提出了盲目数据侵犯比特 - 翻转攻击(BDFA),一种新颖的技术,使BFA能够无任何访问训练或测试数据。这是通过优化合成数据集来实现的,该数据集被设计为匹配跨网络的不同层和目标标签的批量标准化的统计数据。实验结果表明,BDFA可以显着降低75.96 \%至13.94 \%的resnet50的准确性,只有4位翻转。
translated by 谷歌翻译
深神经网络(DNNS)的研究重点是提高现实部署的性能和准确性,导致新模型,例如尖峰神经网络(SNNS)以及优化技术,例如压缩网络的量化和修剪。但是,这些创新模型和优化技术的部署引入了可能的可靠性问题,这是DNNS在安全至关重要应用中广泛使用的支柱,例如自主驾驶。此外,缩放技术节点具有同时发生多个故障的相关风险,在最新的弹性分析中未解决。为了对DNN的更好可靠性分析,我们提出了Enpheeph,这是用于尖峰和压缩DNN的断层注入框架。 Enpheeph框架可以在专用硬件设备(例如GPU)上进行优化的执行,同时提供完整的自定义性来研究不同的故障模型,从而模拟各种可靠性约束和用例。因此,这些故障可以在SNN上执行,以及对基础代码进行最小化修改的压缩网络,这一壮举是其他最先进的工具无法实现的。为了评估我们的Enpheeph框架,我们通过不同的压缩技术分析了不同DNN和SNN模型的弹性。通过注射随机和增加的故障,我们表明DNN可以显示出每个参数的断层率低至7 x 10 ^(-7)故障的准确性降低,精度下降高于40%。当执行ENPHEEPH时,运行时间开销不到基线执行时间的20%,同时执行100 000个故障,至少比最新的框架低10倍,从而使Enpheeph Future-Proffure-Future-Profforn用于复杂的故障注入方案。我们在https://github.com/alexei95/enpheeph上发布Enpheeph。
translated by 谷歌翻译
在本文中,我们通过合成自己的攻击数据集来提出基于零数据的重复比特翻转攻击(ZEBRA),精确地破坏了深度神经网络(DNN)。许多先前的对抗性重量攻击的作品不仅需要重量参数,而且需要在搜索易受攻击的比特中进行攻击的训练或测试数据集。我们建议通过利用受害者DNN模型中的批量归一化层统计来综合名为Dizeted目标数据的攻击数据集。配备蒸馏的目标数据,我们的Zebra算法可以在模型中搜索易受攻击的位,而无需访问培训或测试数据集。因此,我们的方法使对抗性重量攻击更致命的DNN的安全性。我们的实验结果表明,与先前的攻击方法相比,平均需要2.0倍(CiFar-10)和1.6倍(想象成)的比特翻转数量少。我们的代码可在https:// github上获得。COM / PDH930105 / ZEBRA。
translated by 谷歌翻译
A recent trojan attack on deep neural network (DNN) models is one insidious variant of data poisoning attacks. Trojan attacks exploit an effective backdoor created in a DNN model by leveraging the difficulty in interpretability of the learned model to misclassify any inputs signed with the attacker's chosen trojan trigger. Since the trojan trigger is a secret guarded and exploited by the attacker, detecting such trojan inputs is a challenge, especially at run-time when models are in active operation. This work builds STRong Intentional Perturbation (STRIP) based run-time trojan attack detection system and focuses on vision system. We intentionally perturb the incoming input, for instance by superimposing various image patterns, and observe the randomness of predicted classes for perturbed inputs from a given deployed model-malicious or benign. A low entropy in predicted classes violates the input-dependence property of a benign model and implies the presence of a malicious input-a characteristic of a trojaned input. The high efficacy of our method is validated through case studies on three popular and contrasting datasets: MNIST, CIFAR10 and GTSRB. We achieve an overall false acceptance rate (FAR) of less than 1%, given a preset false rejection rate (FRR) of 1%, for different types of triggers. Using CIFAR10 and GTSRB, we have empirically achieved result of 0% for both FRR and FAR. We have also evaluated STRIP robustness against a number of trojan attack variants and adaptive attacks.
translated by 谷歌翻译
深度神经网络(DNN)的安全性因其在各种应用中的广泛使用而引起了人们的关注。最近,已被部署的DNN被证明容易受到特洛伊木马攻击的影响,该攻击操纵模型参数,以钻头翻转以注入隐藏的行为并通过特定的触发模式激活它。但是,所有现有的特洛伊木马攻击都采用了明显的基于补丁的触发器(例如,正方形模式),使其对人类可感知,并且很容易被机器发现。在本文中,我们提出了一种新颖的攻击,即几乎不可感知的特洛伊木马攻击(HPT)。 HPT通过利用添加噪声和每个像素流场来分别调整原始图像的像素值和位置,几乎无法察觉到可感知的特洛伊木马图像。为了实现卓越的攻击性能,我们建议共同优化位挡板,加性噪声和流场。由于DNN的重量位是二进制的,因此很难解决此问题。我们通过等效替换处理二进制约束,并提供有效的优化算法。关于CIFAR-10,SVHN和Imagenet数据集的广泛实验表明,所提出的HPT可以生成几乎不可感知的特洛伊木马图像,同时与先进的方法相比实现了可比或更好的攻击性能。该代码可在以下网址获得:https://github.com/jiawangbai/hpt。
translated by 谷歌翻译
Video compression plays a crucial role in video streaming and classification systems by maximizing the end-user quality of experience (QoE) at a given bandwidth budget. In this paper, we conduct the first systematic study for adversarial attacks on deep learning-based video compression and downstream classification systems. Our attack framework, dubbed RoVISQ, manipulates the Rate-Distortion ($\textit{R}$-$\textit{D}$) relationship of a video compression model to achieve one or both of the following goals: (1) increasing the network bandwidth, (2) degrading the video quality for end-users. We further devise new objectives for targeted and untargeted attacks to a downstream video classification service. Finally, we design an input-invariant perturbation that universally disrupts video compression and classification systems in real time. Unlike previously proposed attacks on video classification, our adversarial perturbations are the first to withstand compression. We empirically show the resilience of RoVISQ attacks against various defenses, i.e., adversarial training, video denoising, and JPEG compression. Our extensive experimental results on various video datasets show RoVISQ attacks deteriorate peak signal-to-noise ratio by up to 5.6dB and the bit-rate by up to $\sim$ 2.4$\times$ while achieving over 90$\%$ attack success rate on a downstream classifier. Our user study further demonstrates the effect of RoVISQ attacks on users' QoE.
translated by 谷歌翻译
在对抗机器学习中,防止对深度学习系统的攻击的新防御能力在释放更强大的攻击后不久就会破坏。在这种情况下,法医工具可以通过追溯成功的根本原因来为现有防御措施提供宝贵的补充,并为缓解措施提供前进的途径,以防止将来采取类似的攻击。在本文中,我们描述了我们为开发用于深度神经网络毒物攻击的法医追溯工具的努力。我们提出了一种新型的迭代聚类和修剪解决方案,该解决方案修剪了“无辜”训练样本,直到所有剩余的是一组造成攻击的中毒数据。我们的方法群群训练样本基于它们对模型参数的影响,然后使用有效的数据解读方法来修剪无辜簇。我们从经验上证明了系统对三种类型的肮脏标签(后门)毒物攻击和三种类型的清洁标签毒药攻击的功效,这些毒物跨越了计算机视觉和恶意软件分类。我们的系统在所有攻击中都达到了98.4%的精度和96.8%的召回。我们还表明,我们的系统与专门攻击它的四种抗纤维法措施相对强大。
translated by 谷歌翻译
量化是一种流行的技术,即$将神经网络的参数表示从浮点数转换为低精度($ e.g. $,8位整数)。它会降低记忆占用和计算成本,推断,促进了资源饥饿的模型的部署。但是,在量化之前和之后,该转换引起的参数扰动导致模型之间的$行为$ $差异$。例如,量化模型可以错误分类正确分类的测试时间样本。尚不清楚这些差异是否导致新的安全漏洞。我们假设对手可以控制这种差异以引入在量化时激活的具体行为。为研究这一假设,我们武装量化感知培训并提出了一种新的培训框架来实施对抗性量化结果。在此框架之后,我们展示了三次攻击我们通过量化进行:(i)对显着的精度损失的不分青红皂白攻击; (ii)针对特定样本的目标攻击; (iii)使用输入触发来控制模型的后门攻击。我们进一步表明,单个受损模型击败多种量化方案,包括鲁棒量化技术。此外,在联合学习情景中,我们证明了一系列伴侣可以注入我们量化激活的后门的恶意参与者。最后,我们讨论了潜在的反措施,并表明只有重新训练始终如一地删除攻击伪影。我们的代码可以在https://github.com/secure-ai-systems-group/qu-antigization获得
translated by 谷歌翻译
深度神经网络模型大量部署在各种硬件平台上。这导致出现新的攻击向量,这些攻击向量大大扩展了标准攻击表面,这是由对抗机器学习社区广泛研究的。旨在通过瞄准存储在内存中的参数(权重)的第一个旨在极大地降低模型性能的攻击之一是位翼攻击(BFA)。在这项工作中,我们指出了与BFA相关的一些评估挑战。首先,标准威胁模型中缺乏对手的预算是有问题的,尤其是在处理身体攻击时。此外,由于BFA提出了关键的可变性,因此我们讨论了某些培训参数的影响以及模型体系结构的重要性。这项工作是第一个介绍BFA对与卷积神经网络相比呈现不同行为的完全连接体系结构的影响的作品。这些结果突出了定义鲁棒和合理评估方法的重要性,以正确评估基于参数的攻击的危险,并衡量国防提供的实际鲁棒性水平。
translated by 谷歌翻译
机器学习算法和深度神经网络在几种感知和控制任务中的卓越性能正在推动该行业在安全关键应用中采用这种技术,作为自治机器人和自动驾驶车辆。然而,目前,需要解决几个问题,以使深入学习方法更可靠,可预测,安全,防止对抗性攻击。虽然已经提出了几种方法来提高深度神经网络的可信度,但大多数都是针对特定类的对抗示例量身定制的,因此未能检测到其他角落案件或不安全的输入,这些输入大量偏离训练样本。本文介绍了基于覆盖范式的轻量级监控架构,以增强针对不同不安全输入的模型鲁棒性。特别是,在用于评估多种检测逻辑的架构中提出并测试了四种覆盖分析方法。实验结果表明,该方法有效地检测强大的对抗性示例和分销外输入,引入有限的执行时间和内存要求。
translated by 谷歌翻译
近年来,神经网络在各个领域中表现出强大的力量,它也带来了越来越多的安全威胁。基于神经网络模型的STEGOMALWARE是代表性的。以前的研究初步证明通过突出神经网络模型中的恶意软件来启动恶意攻击的可行性。然而,现有的作品没有表明,由于恶意软件嵌入率低,模型性能降低以及额外的努力,这种新兴威胁在现实世界攻击中是实际的攻击。因此,我们预测一个称为evilmodel的改进的斯佩塔科。在分析神经网络模型的结构的基础上,我们将二进制形成恶意软件作为其参数嵌入神经网络模型,并提出了三种新的恶意软件嵌入技术,即MSB保留,快速替换和半替换。通过结婚19个恶意软件样本和10个流行的神经网络模型,我们构建了550个恶意软件嵌入式模型,并在想象中数据集中分析了这些模型的性能。实验结果表明,半取代几乎完美地表现出,恶意软件嵌入率为48.52%,没有模型性能下降或额外的努力。考虑到一系列因素,我们提出了一种定量算法来评估不同的嵌入方法。评估结果表明,邪恶的模型与经典的斯托图尼特有多高。此外,我们开展案例研究,以触发真实世界的情景中的邪恶模型。要深入了解所提出的恶意软件嵌入技术,我们还研究了神经网络结构,层和参数大小对恶意软件嵌入容量和嵌入式模型精度的影响。我们还提供了一些可能的对策来捍卫邪恶的模型。我们希望这项工作能够全面了解这种新的AI动力威胁,并建议提前辩护。
translated by 谷歌翻译
AI安全社区的一个主要目标是为现实世界应用安全可靠地生产和部署深入学习模型。为此,近年来,在生产阶段(或培训阶段)和相应的防御中,基于数据中毒基于深度神经网络(DNN)的后门攻击以及相应的防御。具有讽刺意味的是,部署阶段的后门攻击,这些攻击通常可以在不专业用户的设备中发生,因此可以说是在现实世界的情景中威胁要威胁,得以更少的关注社区。我们将这种警惕的不平衡归因于现有部署阶段后门攻击算法的弱实用性以及现实世界攻击示范的不足。为了填补空白,在这项工作中,我们研究了对DNN的部署阶段后门攻击的现实威胁。我们基于普通使用的部署阶段攻击范式 - 对抗对抗权重攻击的研究,主体选择性地修改模型权重,以将后台嵌入到部署的DNN中。为了实现现实的实用性,我们提出了第一款灰度盒和物理可实现的重量攻击算法,即替换注射,即子网替换攻击(SRA),只需要受害者模型的架构信息,并且可以支持现实世界中的物理触发器。进行了广泛的实验模拟和系统级真实的世界攻击示范。我们的结果不仅提出了所提出的攻击算法的有效性和实用性,还揭示了一种新型计算机病毒的实际风险,这些计算机病毒可能会广泛传播和悄悄地将后门注入用户设备中的DNN模型。通过我们的研究,我们要求更多地关注DNN在部署阶段的脆弱性。
translated by 谷歌翻译
Although deep neural networks (DNNs) have achieved great success in many tasks, they can often be fooled by adversarial examples that are generated by adding small but purposeful distortions to natural examples. Previous studies to defend against adversarial examples mostly focused on refining the DNN models, but have either shown limited success or required expensive computation. We propose a new strategy, feature squeezing, that can be used to harden DNN models by detecting adversarial examples. Feature squeezing reduces the search space available to an adversary by coalescing samples that correspond to many different feature vectors in the original space into a single sample. By comparing a DNN model's prediction on the original input with that on squeezed inputs, feature squeezing detects adversarial examples with high accuracy and few false positives.This paper explores two feature squeezing methods: reducing the color bit depth of each pixel and spatial smoothing. These simple strategies are inexpensive and complementary to other defenses, and can be combined in a joint detection framework to achieve high detection rates against state-of-the-art attacks.
translated by 谷歌翻译
与令人印象深刻的进步触动了我们社会的各个方面,基于深度神经网络(DNN)的AI技术正在带来越来越多的安全问题。虽然在考试时间运行的攻击垄断了研究人员的初始关注,但是通过干扰培训过程来利用破坏DNN模型的可能性,代表了破坏训练过程的可能性,这是破坏AI技术的可靠性的进一步严重威胁。在后门攻击中,攻击者损坏了培训数据,以便在测试时间诱导错误的行为。然而,测试时间误差仅在存在与正确制作的输入样本对应的触发事件的情况下被激活。通过这种方式,损坏的网络继续正常输入的预期工作,并且只有当攻击者决定激活网络内隐藏的后门时,才会发生恶意行为。在过去几年中,后门攻击一直是强烈的研究活动的主题,重点是新的攻击阶段的发展,以及可能对策的提议。此概述文件的目标是审查发表的作品,直到现在,分类到目前为止提出的不同类型的攻击和防御。指导分析的分类基于攻击者对培训过程的控制量,以及防御者验证用于培训的数据的完整性,并监控DNN在培训和测试中的操作时间。因此,拟议的分析特别适合于参考他们在运营的应用方案的攻击和防御的强度和弱点。
translated by 谷歌翻译