黑盒攻击通常面临两个问题:可转移性差和无法逃避对抗性防御。为了克服这些缺点,我们通过平滑良性图像中纹理的线性结构(称为advsmo)来创建一种原始方法来生成对抗示例。我们在不依赖目标模型的任何内部信息的情况下构建对抗性示例,并设计不可感知的高攻击成功率约束,以指导Gabor滤波器选择适当的角度和鳞片以使输入图像的线性纹理平滑以生成对抗性示例。从上面的设计概念中受益,Advsmo将产生具有强大可转移性和稳固性的对抗性例子。最后,与八种目标模型相比,与四种高级黑盒对抗攻击方法相比,结果表明,ADVSMO在CIFAR-10上将平均攻击成功率提高了9%,而小型Imimagenet数据集则将平均攻击成功率提高了16%。这些攻击方法中最好的。
translated by 谷歌翻译
对象检测器的大多数黑盒对抗攻击方案主要面临两个缺点:需要访问目标模型并生成效率低下的对抗示例(未能使对象大量消失)。为了克服这些缺点,我们提出了基于语义分割和模型反转(SSMI)的黑框对抗攻击方案。我们首先使用语义分割技术定位目标对象的位置。接下来,我们设计一个邻居背景像素更换,以用背景像素替换目标区域像素,以确保不容易通过人类视力检测到像素修饰。最后,我们重建一个可识别的示例,并使用蒙版矩阵在重建的示例中选择像素以修改良性图像以生成对抗性示例。详细的实验结果表明,SSMI可以产生有效的对抗例子,以逃避人眼的感知并使感兴趣的对象消失。更重要的是,SSMI的表现优于同样的攻击。新标签和消失的标签的最大增加为16%,对象检测的MAP指标的最大减少为36%。
translated by 谷歌翻译
当系统的全面了解时然而,这种技术在灰盒设置中行动不成功,攻击者面部模板未知。在这项工作中,我们提出了一种具有新开发的目标函数的相似性的灰度逆势攻击(SGADV)技术。 SGAdv利用不同的评分来产生优化的对抗性实例,即基于相似性的对抗性攻击。这种技术适用于白盒和灰度箱攻击,针对使用不同分数确定真实或调用用户的身份验证系统。为了验证SGAdv的有效性,我们对LFW,Celeba和Celeba-HQ的面部数据集进行了广泛的实验,反对白盒和灰度箱设置的面部和洞察面的深脸识别模型。结果表明,所提出的方法显着优于灰色盒设置中的现有的对抗性攻击技术。因此,我们总结了开发对抗性示例的相似性基础方法可以令人满意地迎合去认证的灰度箱攻击场景。
translated by 谷歌翻译
虽然深入学习模型取得了前所未有的成功,但他们对逆势袭击的脆弱性引起了越来越关注,特别是在部署安全关键域名时。为了解决挑战,已经提出了鲁棒性改善的许多辩护策略,包括反应性和积极主动。从图像特征空间的角度来看,由于特征的偏移,其中一些人无法达到满足结果。此外,模型学习的功能与分类结果无直接相关。与他们不同,我们考虑基本上从模型内部进行防御方法,并在攻击前后调查神经元行为。我们观察到,通过大大改变为正确标签的神经元大大改变神经元来误导模型。受其激励,我们介绍了神经元影响的概念,进一步将神经元分为前,中间和尾部。基于它,我们提出神经元水平逆扰动(NIP),第一神经元水平反应防御方法对抗对抗攻击。通过强化前神经元并削弱尾部中的弱化,辊隙可以消除几乎所有的对抗扰动,同时仍然保持高良好的精度。此外,它可以通过适应性,尤其是更大的扰动来应对不同的扰动。在三个数据集和六种模型上进行的综合实验表明,NIP优于最先进的基线对抗11个对抗性攻击。我们进一步通过神经元激活和可视化提供可解释的证据,以便更好地理解。
translated by 谷歌翻译
与此同时,黑匣子对抗攻击已经吸引了令人印象深刻的注意,在深度学习安全领域的实际应用,同时,由于无法访问目标模型的网络架构或内部权重,非常具有挑战性。基于假设:如果一个例子对多种型号保持过逆势,那么它更有可能将攻击能力转移到其他模型,基于集合的对抗攻击方法是高效的,用于黑匣子攻击。然而,集合攻击的方式相当不那么调查,并且现有的集合攻击只是均匀地融合所有型号的输出。在这项工作中,我们将迭代集合攻击视为随机梯度下降优化过程,其中不同模型上梯度的变化可能导致众多局部Optima差。为此,我们提出了一种新的攻击方法,称为随机方差减少了整体(SVRE)攻击,这可以降低集合模型的梯度方差,并充分利用集合攻击。标准想象数据集的经验结果表明,所提出的方法可以提高对抗性可转移性,并且优于现有的集合攻击显着。
translated by 谷歌翻译
深入学习在许多任务中获得了越来越优秀的表现,例如自主驾驶和面部识别,并且也受到不同类型的攻击挑战。在图像中添加人类视力不可察觉的扰动可以误导神经网络模型以高信任获得错误的结果。对手示例是已经添加的图像,其具有特定的噪声来误导深神经网络模型,但是向图像添加噪声会破坏原始数据,使得在数字取证和其他字段中无用。为了防止非法或未授权访问图像数据,例如人面,并确保不对法律使用的情感可逆的逆势攻击技术是升高的。原始图像可以从其可逆的对抗性示例中恢复。然而,现有的可逆对抗例子生成策略均为传统的难以察觉的对抗性扰动设计。如何获得局部可见的对抗性扰动的可逆性?在本文中,我们提出了一种基于局部视觉逆势扰动产生可逆的对抗性实例的新方法。通过可逆数据隐藏技术将图像恢复所需的信息嵌入到超出对抗贴片之外的区域。为了降低图像失真并提高视觉质量,采用无损压缩和嵌入原理。 Imagenet DataSet上的实验表明,我们的方法可以在确保攻击性能的同时恢复无错误的原始图像。
translated by 谷歌翻译
Deep learning methods have gained increased attention in various applications due to their outstanding performance. For exploring how this high performance relates to the proper use of data artifacts and the accurate problem formulation of a given task, interpretation models have become a crucial component in developing deep learning-based systems. Interpretation models enable the understanding of the inner workings of deep learning models and offer a sense of security in detecting the misuse of artifacts in the input data. Similar to prediction models, interpretation models are also susceptible to adversarial inputs. This work introduces two attacks, AdvEdge and AdvEdge$^{+}$, that deceive both the target deep learning model and the coupled interpretation model. We assess the effectiveness of proposed attacks against two deep learning model architectures coupled with four interpretation models that represent different categories of interpretation models. Our experiments include the attack implementation using various attack frameworks. We also explore the potential countermeasures against such attacks. Our analysis shows the effectiveness of our attacks in terms of deceiving the deep learning models and their interpreters, and highlights insights to improve and circumvent the attacks.
translated by 谷歌翻译
对抗性示例是故意生成用于欺骗深层神经网络的输入。最近的研究提出了不受规范限制的不受限制的对抗攻击。但是,以前的不受限制攻击方法仍然存在限制在黑框设置中欺骗现实世界应用程序的局限性。在本文中,我们提出了一种新的方法,用于使用GAN生成不受限制的对抗示例,其中攻击者只能访问分类模型的前1个最终决定。我们的潜在方法有效地利用了潜在空间中基于决策的攻击的优势,并成功地操纵了潜在的向量来欺骗分类模型。通过广泛的实验,我们证明我们提出的方法有效地评估了在黑框设置中查询有限的分类模型的鲁棒性。首先,我们证明我们的目标攻击方法是有效的,可以为包含307个身份的面部身份识别模型产生不受限制的对抗示例。然后,我们证明所提出的方法还可以成功攻击现实世界的名人识别服务。
translated by 谷歌翻译
Current neural network-based classifiers are susceptible to adversarial examples even in the black-box setting, where the attacker only has query access to the model. In practice, the threat model for real-world systems is often more restrictive than the typical black-box model where the adversary can observe the full output of the network on arbitrarily many chosen inputs. We define three realistic threat models that more accurately characterize many real-world classifiers: the query-limited setting, the partialinformation setting, and the label-only setting. We develop new attacks that fool classifiers under these more restrictive threat models, where previous methods would be impractical or ineffective. We demonstrate that our methods are effective against an ImageNet classifier under our proposed threat models. We also demonstrate a targeted black-box attack against a commercial classifier, overcoming the challenges of limited query access, partial information, and other practical issues to break the Google Cloud Vision API.
translated by 谷歌翻译
最近的研究表明,在一个白盒模型上手工制作的对抗性示例可用于攻击其他黑箱型号。这种跨模型可转换性使得执行黑匣子攻击可行,这对现实世界的DNN应用程序提出了安全性问题。尽管如此,现有的作品主要专注于调查跨不同深层模型的对抗性可转移,该模型共享相同的输入数据模型。从未探索过对抗扰动的跨莫代尔转移性。本文研究了不同方式的对抗性扰动的可转移性,即利用在白盒图像模型上产生的对抗扰动,以攻击黑盒视频模型。具体而言,通过观察到图像和视频帧之间的低级特征空间是相似的,我们提出了一种简单但有效的跨模型攻击方法,名称为图像到视频(I2V)攻击。通过最小化来自对手和良性示例的预先接受的图像模型的特征之间的特征之间的余弦相似性来生成对抗性帧,然后组合生成的对抗性帧以对视频识别模型进行黑盒攻击。广泛的实验表明,I2V可以在不同的黑匣子视频识别模型上实现高攻击成功率。在动力学-400和UCF-101上,I2V分别实现了77.88%和65.68%的平均攻击成功率,阐明了跨越模态对抗攻击的可行性。
translated by 谷歌翻译
Deep neural networks are vulnerable to adversarial examples, which poses security concerns on these algorithms due to the potentially severe consequences. Adversarial attacks serve as an important surrogate to evaluate the robustness of deep learning models before they are deployed. However, most of existing adversarial attacks can only fool a black-box model with a low success rate. To address this issue, we propose a broad class of momentum-based iterative algorithms to boost adversarial attacks. By integrating the momentum term into the iterative process for attacks, our methods can stabilize update directions and escape from poor local maxima during the iterations, resulting in more transferable adversarial examples. To further improve the success rates for black-box attacks, we apply momentum iterative algorithms to an ensemble of models, and show that the adversarially trained models with a strong defense ability are also vulnerable to our black-box attacks. We hope that the proposed methods will serve as a benchmark for evaluating the robustness of various deep models and defense methods. With this method, we won the first places in NIPS 2017 Non-targeted Adversarial Attack and Targeted Adversarial Attack competitions.
translated by 谷歌翻译
虽然深度神经网络在各种任务中表现出前所未有的性能,但对对抗性示例的脆弱性阻碍了他们在安全关键系统中的部署。许多研究表明,即使在黑盒设置中也可能攻击,其中攻击者无法访问目标模型的内部信息。大多数黑匣子攻击基于查询,每个都可以获得目标模型的输入输出,并且许多研究侧重于减少所需查询的数量。在本文中,我们注意了目标模型的输出完全对应于查询输入的隐含假设。如果将某些随机性引入模型中,它可以打破假设,因此,基于查询的攻击可能在梯度估计和本地搜索中具有巨大的困难,这是其攻击过程的核心。从这种动机来看,我们甚至观察到一个小的添加剂输入噪声可以中和大多数基于查询的攻击和名称这个简单但有效的方法小噪声防御(SND)。我们分析了SND如何防御基于查询的黑匣子攻击,并展示其与CIFAR-10和ImageNet数据集的八种最先进的攻击有效性。即使具有强大的防御能力,SND几乎保持了原始的分类准确性和计算速度。通过在推断下仅添加一行代码,SND很容易适用于预先训练的模型。
translated by 谷歌翻译
无线系统应用中深度学习(DL)的成功出现引起了人们对与安全有关的新挑战的担忧。一个这样的安全挑战是对抗性攻击。尽管已经有很多工作证明了基于DL的分类任务对对抗性攻击的敏感性,但是从攻击的角度来看,尚未对无线系统的基于回归的问题进行基于回归的问题。本文的目的是双重的:(i)我们在无线设置中考虑回归问题,并表明对抗性攻击可以打破基于DL的方法,并且(ii)我们将对抗性训练作为对抗性环境中的防御技术的有效性分析并表明基于DL的无线系统对攻击的鲁棒性有了显着改善。具体而言,本文考虑的无线应用程序是基于DL的功率分配,以多细胞大量多输入 - 销售输出系统的下行链路分配,攻击的目的是通过DL模型产生不可行的解决方案。我们扩展了基于梯度的对抗性攻击:快速梯度标志方法(FGSM),动量迭代FGSM和预计的梯度下降方法,以分析具有和没有对抗性训练的考虑的无线应用的敏感性。我们对这些攻击进行了分析深度神经网络(DNN)模型的性能,在这些攻击中,使用白色框和黑盒攻击制作了对抗性扰动。
translated by 谷歌翻译
近年来,随着神经网络的快速发展,深入学习模式的安全性越来越突出,这易于对抗性示例。几乎所有现有的基于梯度的攻击方法使用生成中的符号功能来满足$ l_ \ idty $ norm的扰动预算要求。然而,我们发现,由于它修改了精确梯度方向,因此可以对生成对抗示例的符号功能可能是不正确的。我们建议去除符号功能,并直接利用精确的梯度方向,具有缩放因子,以产生对抗扰动,即使扰动较少的扰动例子也提高了对抗性示例的攻击成功率。此外,考虑到最佳缩放因子在不同的图像上变化,我们提出了一种自适应缩放因子发生器,为每个图像寻求适当的缩放因子,这避免了手动搜索缩放因子的计算成本。我们的方法可以与几乎所有现有的基于梯度的攻击方法集成,以进一步提高攻击成功率。在CIFAR10和Imagenet数据集上的广泛实验表明,我们的方法表现出更高的可转移性和优于最先进的方法。
translated by 谷歌翻译
基于深度神经网络(DNN)的智能信息(IOT)系统已被广泛部署在现实世界中。然而,发现DNNS易受对抗性示例的影响,这提高了人们对智能物联网系统的可靠性和安全性的担忧。测试和评估IOT系统的稳健性成为必要和必要。最近已经提出了各种攻击和策略,但效率问题仍未纠正。现有方法是计算地广泛或耗时,这在实践中不适用。在本文中,我们提出了一种称为攻击启发GaN(AI-GaN)的新框架,在有条件地产生对抗性实例。曾经接受过培训,可以有效地给予对抗扰动的输入图像和目标类。我们在白盒设置的不同数据集中应用AI-GaN,黑匣子设置和由最先进的防御保护的目标模型。通过广泛的实验,AI-GaN实现了高攻击成功率,优于现有方法,并显着降低了生成时间。此外,首次,AI-GaN成功地缩放到复杂的数据集。 Cifar-100和Imagenet,所有课程中的成功率约为90美元。
translated by 谷歌翻译
Deep neural networks are vulnerable to adversarial examples, which can mislead classifiers by adding imperceptible perturbations. An intriguing property of adversarial examples is their good transferability, making black-box attacks feasible in real-world applications. Due to the threat of adversarial attacks, many methods have been proposed to improve the robustness. Several state-of-the-art defenses are shown to be robust against transferable adversarial examples. In this paper, we propose a translation-invariant attack method to generate more transferable adversarial examples against the defense models. By optimizing a perturbation over an ensemble of translated images, the generated adversarial example is less sensitive to the white-box model being attacked and has better transferability. To improve the efficiency of attacks, we further show that our method can be implemented by convolving the gradient at the untranslated image with a pre-defined kernel. Our method is generally applicable to any gradient-based attack method. Extensive experiments on the ImageNet dataset validate the effectiveness of the proposed method. Our best attack fools eight state-of-the-art defenses at an 82% success rate on average based only on the transferability, demonstrating the insecurity of the current defense techniques.
translated by 谷歌翻译
基于决策攻击对现实世界应用程序构成严重威胁,因为它将目标模型视为黑盒子,并且仅访问硬预测标签。最近已经努力减少查询的数量;然而,现有的基于决策攻击仍需要数千个疑问以产生良好的质量的对抗性示例。在这项工作中,我们发现一个良性样本,当前和下一个逆势示例可以自然地构建子空间中的三角形以获得任何迭代攻击。基于诸如SINES的规律,我们提出了一种新颖的三角形攻击(TA)来通过利用较长侧总是与任何三角形的较大角度相对的几何信息来优化扰动。然而,直接在输入图像上施加这样的信息是无效的,因为它不能彻底探索高维空间中输入样本的邻域。为了解决这个问题,TA优化低频空间中的扰动,以获得由于此类几何特性的一般性而有效减少。对ImageNet DataSet的广泛评估表明,TA在1,000个查询中实现了更高的攻击成功率,并且需要更少的查询,以在各种扰动预算下实现相同的攻击成功率,而不是现有的基于决策攻击。具有如此高的效率,我们进一步展示了TA在真实世界API上的适用性,即腾讯云API。
translated by 谷歌翻译
Video classification systems are vulnerable to adversarial attacks, which can create severe security problems in video verification. Current black-box attacks need a large number of queries to succeed, resulting in high computational overhead in the process of attack. On the other hand, attacks with restricted perturbations are ineffective against defenses such as denoising or adversarial training. In this paper, we focus on unrestricted perturbations and propose StyleFool, a black-box video adversarial attack via style transfer to fool the video classification system. StyleFool first utilizes color theme proximity to select the best style image, which helps avoid unnatural details in the stylized videos. Meanwhile, the target class confidence is additionally considered in targeted attacks to influence the output distribution of the classifier by moving the stylized video closer to or even across the decision boundary. A gradient-free method is then employed to further optimize the adversarial perturbations. We carry out extensive experiments to evaluate StyleFool on two standard datasets, UCF-101 and HMDB-51. The experimental results demonstrate that StyleFool outperforms the state-of-the-art adversarial attacks in terms of both the number of queries and the robustness against existing defenses. Moreover, 50% of the stylized videos in untargeted attacks do not need any query since they can already fool the video classification model. Furthermore, we evaluate the indistinguishability through a user study to show that the adversarial samples of StyleFool look imperceptible to human eyes, despite unrestricted perturbations.
translated by 谷歌翻译
基于转移的对手示例是最重要的黑匣子攻击类别之一。然而,在对抗性扰动的可转移性和难以察觉之间存在权衡。在此方向上的事先工作经常需要固定但大量的$ \ ell_p $ -norm扰动预算,达到良好的转移成功率,导致可察觉的对抗扰动。另一方面,目前的大多数旨在产生语义保留扰动的难以限制的对抗攻击患有对目标模型的可转移性较弱。在这项工作中,我们提出了一个几何形象感知框架,以产生具有最小变化的可转移的对抗性示例。类似于在统计机器学习中的模型选择,我们利用验证模型为$ \ ell _ {\ infty} $ - norm和不受限制的威胁模型中选择每个图像的最佳扰动预算。广泛的实验验证了我们对平衡令人难以置信的难以察觉和可转移性的框架的有效性。方法论是我们进入CVPR'21安全性AI挑战者的基础:对想象成的不受限制的对抗攻击,其中我们将第1位排名第1,559支队伍,并在决赛方面超过了亚军提交的提交4.59%和23.91%分别和平均图像质量水平。代码可在https://github.com/equationliu/ga-attack获得。
translated by 谷歌翻译
深度神经网络(DNN)众所周知,很容易受到对抗例子的影响(AES)。此外,AE具有对抗性转移性,即为源模型傻瓜(目标)模型生成的AE。在本文中,我们首次研究了为对抗性强大防御的模型的可传递性。为了客观地验证可转让性的属性,使用称为AutoAttack的基准攻击方法评估模型的鲁棒性。在图像分类实验中,使用加密模型的使用不仅是对AE的鲁棒性,而且还可以减少AES在模型的可传递性方面的影响。
translated by 谷歌翻译