视觉变压器(VIT)已证明了各种与视觉相关的任务的最新性能。 VIT的成功激发了对手对VIT进行后门攻击。尽管传统CNN对后门攻击的脆弱性是众所周知的,但很少研究对VIT的后门攻击。与CNN相比,通过卷积捕获像素的本地特征,通过补丁和关注来提取全球上下文信息。 na \'ively Aftile CNN特异性的后门攻击对VIT只能产生低清洁的数据准确性和低攻击的成功率。在本文中,我们提出了隐形和实用的VIT特定于VIT特定的后门攻击$ TROJVIT $。而不是区域 - 而不是一个区域 - CNN特异性后门攻击使用的明智触发器,Trojvit生成了一个贴片触发器,旨在构建一个由一些脆弱的位置组成的特洛伊木马,该特洛伊特在vit的参数上通过贴片记忆中存储在DRAM内存中的参数,通过贴片显着排名和注意力靶标的损失。最小调整的参数更新以减少特洛伊木马的位数量。一旦攻击者通过翻转脆弱的位将特洛伊木马插入VIT模型中,VIT模型仍会用良性输入产生正常的推理精度。但是,当攻击者将触发触发嵌入到一个输入,VIT模型被迫将输入分类为预定义的目标类。我们表明,使用众所周知的Rowhammer在VIT模型上识别出较少的弱势位可以将模型转换为一个背面的模型。我们在各种VIT模型上对多个数据集进行了广泛的实验。 Trojvit可以通过在ImageNet上翻转$ 345 $的$ 345 $位来将$ 99.64 \%的测试图像分类为目标类。
translated by 谷歌翻译
视觉变压器(VITS)具有与卷积神经网络相比,具有较小的感应偏置的根本不同的结构。随着绩效的提高,VIT的安全性和鲁棒性也非常重要。与许多最近利用VIT反对对抗性例子的鲁棒性的作品相反,本文调查了代表性的病因攻击,即后门。我们首先检查了VIT对各种后门攻击的脆弱性,发现VIT也很容易受到现有攻击的影响。但是,我们观察到,VIT的清洁数据准确性和后门攻击成功率在位置编码之前对补丁转换做出了明显的反应。然后,根据这一发现,我们为VIT提出了一种通过补丁处理来捍卫基于补丁的触发后门攻击的有效方法。在包括CIFAR10,GTSRB和Tinyimagenet在内的几个基准数据集上评估了这些表演,这些数据表明,该拟议的新颖防御在减轻VIT的后门攻击方面非常成功。据我们所知,本文提出了第一个防御性策略,该策略利用了反对后门攻击的VIT的独特特征。
translated by 谷歌翻译
最近,变压器架构已经证明了其在自然语言处理(NLP)和计算机视觉(CV)任务中的重要性。虽然已知其他网络模型容易受到后门攻击的影响,但是在模型中嵌入触发器并在呈现触发器时控制模型行为,众所周知,这种攻击是否仍然在变压器模型上仍然有效,如果是的话,是否有效它可以以更具成本效益的方式完成。在本文中,我们提出DBIA,一种对CV导向的变压器网络的一种新型无数据响应攻击,利用变压器的固有注意机制来产生触发器并使用中毒代理数据集注入后门。我们在两个主流图像分类任务中基于三个基准变压器,即Vit,Deit和Swin变压器进行了广泛的实验..,Cifar10和ImageNet。评估结果表明,消耗较少的资源,我们的方法可以嵌入高层的成功率和对受害者变压器性能的低影响。我们的代码可在https://anonmous.4open.science/r/dbia-825d获得。
translated by 谷歌翻译
视觉变压器(VIT)最近在各种视觉任务上表现出了典范的性能,并被用作CNN的替代方案。它们的设计基于一种自我发挥的机制,该机制将图像作为一系列斑块进行处理,与CNN相比,这是完全不同的。因此,研究VIT是否容易受到后门攻击的影响很有趣。当攻击者出于恶意目的,攻击者毒害培训数据的一小部分时,就会发生后门攻击。模型性能在干净的测试图像上很好,但是攻击者可以通过在测试时间显示触发器来操纵模型的决策。据我们所知,我们是第一个证明VIT容易受到后门攻击的人。我们还发现VIT和CNNS之间存在着有趣的差异 - 解释算法有效地突出了VIT的测试图像的触发因素,但没有针对CNN。基于此观察结果,我们提出了一个测试时间图像阻止VIT的防御,这将攻击成功率降低了很大。代码可在此处找到:https://github.com/ucdvision/backdoor_transformer.git
translated by 谷歌翻译
深度神经网络(DNN)的安全性因其在各种应用中的广泛使用而引起了人们的关注。最近,已被部署的DNN被证明容易受到特洛伊木马攻击的影响,该攻击操纵模型参数,以钻头翻转以注入隐藏的行为并通过特定的触发模式激活它。但是,所有现有的特洛伊木马攻击都采用了明显的基于补丁的触发器(例如,正方形模式),使其对人类可感知,并且很容易被机器发现。在本文中,我们提出了一种新颖的攻击,即几乎不可感知的特洛伊木马攻击(HPT)。 HPT通过利用添加噪声和每个像素流场来分别调整原始图像的像素值和位置,几乎无法察觉到可感知的特洛伊木马图像。为了实现卓越的攻击性能,我们建议共同优化位挡板,加性噪声和流场。由于DNN的重量位是二进制的,因此很难解决此问题。我们通过等效替换处理二进制约束,并提供有效的优化算法。关于CIFAR-10,SVHN和Imagenet数据集的广泛实验表明,所提出的HPT可以生成几乎不可感知的特洛伊木马图像,同时与先进的方法相比实现了可比或更好的攻击性能。该代码可在以下网址获得:https://github.com/jiawangbai/hpt。
translated by 谷歌翻译
后门攻击威胁着深度神经网络(DNNS)。对于隐身性,研究人员提出了清洁标签的后门攻击,这要求对手不要更改中毒训练数据集的标签。由于正确的图像标签对,清洁标签的设置使攻击更加隐秘,但仍然存在一些问题:首先,传统的中毒训练数据方法无效;其次,传统的触发器并不是仍然可感知的隐形。为了解决这些问题,我们提出了一种两相和特定图像的触发器生成方法,以增强清洁标签的后门攻击。我们的方法是(1)功能强大:我们的触发器都可以同时促进后门攻击中的两个阶段(即后门植入和激活阶段)。 (2)隐身:我们的触发器是从每个图像中生成的。它们是特定于图像的而不是固定触发器。广泛的实验表明,我们的方法可以达到奇妙的攻击成功率〜(98.98%),中毒率低(5%),在许多评估指标下高隐身,并且对后门防御方法有抵抗力。
translated by 谷歌翻译
最近的研究表明,深层神经网络容易受到不同类型的攻击,例如对抗性攻击,数据中毒攻击和后门攻击。其中,后门攻击是最狡猾的攻击,几乎可以在深度学习管道的每个阶段发生。因此,后门攻击吸引了学术界和行业的许多兴趣。但是,大多数现有的后门攻击方法对于某些轻松的预处理(例如常见数据转换)都是可见的或脆弱的。为了解决这些限制,我们提出了一种强大而无形的后门攻击,称为“毒药”。具体而言,我们首先利用图像结构作为目标中毒区域,并用毒药(信息)填充它们以生成触发图案。由于图像结构可以在数据转换期间保持其语义含义,因此这种触发模式对数据转换本质上是强大的。然后,我们利用深度注射网络将这种触发模式嵌入封面图像中,以达到隐身性。与现有流行的后门攻击方法相比,毒药的墨水在隐形和健壮性方面都优于表现。通过广泛的实验,我们证明了毒药不仅是不同数据集和网络体系结构的一般性,而且对于不同的攻击场景也很灵活。此外,它对许多最先进的防御技术也具有非常强烈的抵抗力。
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译
后门攻击已被证明是对深度学习模型的严重安全威胁,并且检测给定模型是否已成为后门成为至关重要的任务。现有的防御措施主要建立在观察到后门触发器通常尺寸很小或仅影响几个神经元激活的观察结果。但是,在许多情况下,尤其是对于高级后门攻击,违反了上述观察结果,阻碍了现有防御的性能和适用性。在本文中,我们提出了基于新观察的后门防御范围。也就是说,有效的后门攻击通常需要对中毒训练样本的高预测置信度,以确保训练有素的模型具有很高的可能性。基于此观察结果,Dtinspector首先学习一个可以改变最高信心数据的预测的补丁,然后通过检查在低信心数据上应用学习补丁后检查预测变化的比率来决定后门的存在。对五次后门攻击,四个数据集和三种高级攻击类型的广泛评估证明了拟议防御的有效性。
translated by 谷歌翻译
Open software supply chain attacks, once successful, can exact heavy costs in mission-critical applications. As open-source ecosystems for deep learning flourish and become increasingly universal, they present attackers previously unexplored avenues to code-inject malicious backdoors in deep neural network models. This paper proposes Flareon, a small, stealthy, seemingly harmless code modification that specifically targets the data augmentation pipeline with motion-based triggers. Flareon neither alters ground-truth labels, nor modifies the training loss objective, nor does it assume prior knowledge of the victim model architecture, training data, and training hyperparameters. Yet, it has a surprisingly large ramification on training -- models trained under Flareon learn powerful target-conditional (or "any2any") backdoors. The resulting models can exhibit high attack success rates for any target choices and better clean accuracies than backdoor attacks that not only seize greater control, but also assume more restrictive attack capabilities. We also demonstrate the effectiveness of Flareon against recent defenses. Flareon is fully open-source and available online to the deep learning community: https://github.com/lafeat/flareon.
translated by 谷歌翻译
后门攻击是对深度神经网络(DNN)的一种紧急培训时间威胁。它们可以操纵DNN的输出并具有高度思虑。在自然语言处理领域,已经提出了一些攻击方法,并在多个流行型号上实现了非常高的攻击成功率。尽管如此,很少有关于捍卫文本后门攻击的研究。在本文中,我们提出了一个简单且有效的文本后门防御,名为洋葱,这是基于异常字检测,并据我们所知,是可以处理所有文本后门攻击情况的第一种方法。实验证明了我们模型在捍卫Bilstm和BERT的措施与五种不同的后门攻击的有效性。本文的所有代码和数据都可以在https://github.com/thunlp/onion获得。
translated by 谷歌翻译
随着机器学习数据的策展变得越来越自动化,数据集篡改是一种安装威胁。后门攻击者通过培训数据篡改,以嵌入在该数据上培训的模型中的漏洞。然后通过将“触发”放入模型的输入中的推理时间以推理时间激活此漏洞。典型的后门攻击将触发器直接插入训练数据,尽管在检查时可能会看到这种攻击。相比之下,隐藏的触发后托攻击攻击达到中毒,而无需将触发器放入训练数据即可。然而,这种隐藏的触发攻击在从头开始培训的中毒神经网络时无效。我们开发了一个新的隐藏触发攻击,睡眠代理,在制备过程中使用梯度匹配,数据选择和目标模型重新培训。睡眠者代理是第一个隐藏的触发后门攻击,以对从头开始培训的神经网络有效。我们展示了Imagenet和黑盒设置的有效性。我们的实现代码可以在https://github.com/hsouri/sleeper-agent找到。
translated by 谷歌翻译
量化是一种流行的技术,即$将神经网络的参数表示从浮点数转换为低精度($ e.g. $,8位整数)。它会降低记忆占用和计算成本,推断,促进了资源饥饿的模型的部署。但是,在量化之前和之后,该转换引起的参数扰动导致模型之间的$行为$ $差异$。例如,量化模型可以错误分类正确分类的测试时间样本。尚不清楚这些差异是否导致新的安全漏洞。我们假设对手可以控制这种差异以引入在量化时激活的具体行为。为研究这一假设,我们武装量化感知培训并提出了一种新的培训框架来实施对抗性量化结果。在此框架之后,我们展示了三次攻击我们通过量化进行:(i)对显着的精度损失的不分青红皂白攻击; (ii)针对特定样本的目标攻击; (iii)使用输入触发来控制模型的后门攻击。我们进一步表明,单个受损模型击败多种量化方案,包括鲁棒量化技术。此外,在联合学习情景中,我们证明了一系列伴侣可以注入我们量化激活的后门的恶意参与者。最后,我们讨论了潜在的反措施,并表明只有重新训练始终如一地删除攻击伪影。我们的代码可以在https://github.com/secure-ai-systems-group/qu-antigization获得
translated by 谷歌翻译
Transforming off-the-shelf deep neural network (DNN) models into dynamic multi-exit architectures can achieve inference and transmission efficiency by fragmenting and distributing a large DNN model in edge computing scenarios (e.g., edge devices and cloud servers). In this paper, we propose a novel backdoor attack specifically on the dynamic multi-exit DNN models. Particularly, we inject a backdoor by poisoning one DNN model's shallow hidden layers targeting not this vanilla DNN model but only its dynamically deployed multi-exit architectures. Our backdoored vanilla model behaves normally on performance and cannot be activated even with the correct trigger. However, the backdoor will be activated when the victims acquire this model and transform it into a dynamic multi-exit architecture at their deployment. We conduct extensive experiments to prove the effectiveness of our attack on three structures (ResNet-56, VGG-16, and MobileNet) with four datasets (CIFAR-10, SVHN, GTSRB, and Tiny-ImageNet) and our backdoor is stealthy to evade multiple state-of-the-art backdoor detection or removal methods.
translated by 谷歌翻译
With the success of deep learning algorithms in various domains, studying adversarial attacks to secure deep models in real world applications has become an important research topic. Backdoor attacks are a form of adversarial attacks on deep networks where the attacker provides poisoned data to the victim to train the model with, and then activates the attack by showing a specific small trigger pattern at the test time. Most state-of-the-art backdoor attacks either provide mislabeled poisoning data that is possible to identify by visual inspection, reveal the trigger in the poisoned data, or use noise to hide the trigger. We propose a novel form of backdoor attack where poisoned data look natural with correct labels and also more importantly, the attacker hides the trigger in the poisoned data and keeps the trigger secret until the test time.We perform an extensive study on various image classification settings and show that our attack can fool the model by pasting the trigger at random locations on unseen images although the model performs well on clean data. We also show that our proposed attack cannot be easily defended using a state-of-the-art defense algorithm for backdoor attacks.
translated by 谷歌翻译
最近的研究表明,深度神经网络(DNN)容易受到后门攻击的影响,后门攻击会导致DNN的恶意行为,当时特定的触发器附在输入图像上时。进一步证明,感染的DNN具有一系列通道,与正常通道相比,该通道对后门触发器更敏感。然后,将这些通道修剪可有效缓解后门行为。要定位这些通道,自然要考虑其Lipschitzness,这可以衡量他们对输入上最严重的扰动的敏感性。在这项工作中,我们介绍了一个名为Channel Lipschitz常数(CLC)的新颖概念,该概念定义为从输入图像到每个通道输出的映射的Lipschitz常数。然后,我们提供经验证据,以显示CLC(UCLC)上限与通道激活的触发激活变化之间的强相关性。由于可以从重量矩阵直接计算UCLC,因此我们可以以无数据的方式检测潜在的后门通道,并在感染的DNN上进行简单修剪以修复模型。提出的基于lipschitzness的通道修剪(CLP)方法非常快速,简单,无数据且可靠,可以选择修剪阈值。进行了广泛的实验来评估CLP的效率和有效性,CLP的效率和有效性也可以在主流防御方法中获得最新的结果。源代码可在https://github.com/rkteddy/channel-lipschitzness基于普通范围内获得。
translated by 谷歌翻译
最近,后门攻击已成为对深神经网络(DNN)模型安全性的新兴威胁。迄今为止,大多数现有研究都集中于对未压缩模型的后门攻击。尽管在实际应用中广泛使用的压缩DNN的脆弱性尚未得到利用。在本文中,我们建议研究和发展针对紧凑型DNN模型(RIBAC)的强大和不可感知的后门攻击。通过对重要设计旋钮进行系统分析和探索,我们提出了一个框架,该框架可以有效地学习适当的触发模式,模型参数和修剪口罩。从而同时达到高触发隐形性,高攻击成功率和高模型效率。跨不同数据集的广泛评估,包括针对最先进的防御机制的测试,证明了RIBAC的高鲁棒性,隐身性和模型效率。代码可从https://github.com/huyvnphan/eccv2022-ribac获得
translated by 谷歌翻译
典型的深神经网络(DNN)后门攻击基于输入中嵌入的触发因素。现有的不可察觉的触发因素在计算上昂贵或攻击成功率低。在本文中,我们提出了一个新的后门触发器,该扳机易于生成,不可察觉和高效。新的触发器是一个均匀生成的三维(3D)二进制图案,可以水平和/或垂直重复和镜像,并将其超级贴在三通道图像上,以训练后式DNN模型。新型触发器分散在整个图像中,对单个像素产生微弱的扰动,但共同拥有强大的识别模式来训练和激活DNN的后门。我们还通过分析表明,随着图像的分辨率提高,触发因素越来越有效。实验是使用MNIST,CIFAR-10和BTSR数据集上的RESNET-18和MLP模型进行的。在无遗象的方面,新触发的表现优于现有的触发器,例如Badnet,Trojaned NN和隐藏的后门。新的触发因素达到了几乎100%的攻击成功率,仅将分类准确性降低了不到0.7%-2.4%,并使最新的防御技术无效。
translated by 谷歌翻译
神经网络的不透明度导致其脆弱性发生后门攻击,其中触发了感染神经元的隐藏注意力,以覆盖对攻击者选择的神经元的正常预测。在本文中,我们提出了一种新型的后门防御方法,以标记和净化后门神经网络中受感染的神经元。具体来说,我们首先定义了一个名为良性显着性的新指标。通过将一阶梯度组合以保持神经元之间的连接,良性显着性可以鉴定出比后门防御中常用度量的高精度的感染神经元。然后,提出了一种新的自适应正则化(AR)机制,以通过微调来帮助净化这些被鉴定的感染神经元。由于能够适应不同参数幅度的能力,与神经元纯化中的共同正则化机制相比,AR可以提供更快,更稳定的收敛性。广泛的实验结果表明,我们的方法可以消除具有可忽略的性能降解的神经网络中的后门。
translated by 谷歌翻译
图形神经网络(GNNS)在许多图形挖掘任务中取得了巨大的成功,这些任务从消息传递策略中受益,该策略融合了局部结构和节点特征,从而为更好的图表表示学习。尽管GNN成功,并且与其他类型的深神经网络相似,但发现GNN容易受到图形结构和节点特征的不明显扰动。已经提出了许多对抗性攻击,以披露在不同的扰动策略下创建对抗性例子的GNN的脆弱性。但是,GNNS对成功后门攻击的脆弱性直到最近才显示。在本文中,我们披露了陷阱攻击,这是可转移的图形后门攻击。核心攻击原则是用基于扰动的触发器毒化训练数据集,这可以导致有效且可转移的后门攻击。图形的扰动触发是通过通过替代模型的基于梯度的得分矩阵在图形结构上执行扰动动作来生成的。与先前的作品相比,陷阱攻击在几种方面有所不同:i)利用替代图卷积网络(GCN)模型来生成基于黑盒的后门攻击的扰动触发器; ii)它产生了没有固定模式的样品特异性扰动触发器; iii)在使用锻造中毒训练数据集训练时,在GNN的背景下,攻击转移到了不同​​的GNN模型中。通过对四个现实世界数据集进行广泛的评估,我们证明了陷阱攻击使用四个现实世界数据集在四个不同流行的GNN中构建可转移的后门的有效性
translated by 谷歌翻译