深度神经网络(DNN)众所周知,很容易受到对抗例子的影响(AES)。此外,AE具有对抗性转移性,即为源模型傻瓜(目标)模型生成的AE。在本文中,我们首次研究了为对抗性强大防御的模型的可传递性。为了客观地验证可转让性的属性,使用称为AutoAttack的基准攻击方法评估模型的鲁棒性。在图像分类实验中,使用加密模型的使用不仅是对AE的鲁棒性,而且还可以减少AES在模型的可传递性方面的影响。
translated by 谷歌翻译
深度神经网络(DNN)众所周知,很容易受到对抗例子的影响(AES)。此外,AE具有对抗性可传递性,这意味着为源模型生成的AE可以以非平凡的概率欺骗另一个黑框模型(目标模型)。在本文中,我们首次研究了包括Convmixer在内的模型之间的对抗性转移性的属性。为了客观地验证可转让性的属性,使用称为AutoAttack的基准攻击方法评估模型的鲁棒性。在图像分类实验中,Convmixer被确认对对抗性转移性较弱。
translated by 谷歌翻译
通过对数据集的样本应用小而有意的最差情况扰动可以产生对抗性输入,这导致甚至最先进的深神经网络,以高信任输出不正确的答案。因此,开发了一些对抗防御技术来提高模型的安全性和稳健性,并避免它们被攻击。逐渐,攻击者和捍卫者之间的游戏类似的竞争,其中两个玩家都会试图在最大化自己的收益的同时互相反对发挥最佳策略。为了解决游戏,每个玩家都基于对对手的战略选择的预测来选择反对对手的最佳策略。在这项工作中,我们正处于防守方面,以申请防止攻击的游戏理论方法。我们使用两个随机化方法,随机初始化和随机激活修剪,以创造网络的多样性。此外,我们使用一种去噪技术,超级分辨率,通过在攻击前预处理图像来改善模型的鲁棒性。我们的实验结果表明,这三种方法可以有效提高深度学习神经网络的鲁棒性。
translated by 谷歌翻译
当系统的全面了解时然而,这种技术在灰盒设置中行动不成功,攻击者面部模板未知。在这项工作中,我们提出了一种具有新开发的目标函数的相似性的灰度逆势攻击(SGADV)技术。 SGAdv利用不同的评分来产生优化的对抗性实例,即基于相似性的对抗性攻击。这种技术适用于白盒和灰度箱攻击,针对使用不同分数确定真实或调用用户的身份验证系统。为了验证SGAdv的有效性,我们对LFW,Celeba和Celeba-HQ的面部数据集进行了广泛的实验,反对白盒和灰度箱设置的面部和洞察面的深脸识别模型。结果表明,所提出的方法显着优于灰色盒设置中的现有的对抗性攻击技术。因此,我们总结了开发对抗性示例的相似性基础方法可以令人满意地迎合去认证的灰度箱攻击场景。
translated by 谷歌翻译
基于深度神经网络(DNN)的智能信息(IOT)系统已被广泛部署在现实世界中。然而,发现DNNS易受对抗性示例的影响,这提高了人们对智能物联网系统的可靠性和安全性的担忧。测试和评估IOT系统的稳健性成为必要和必要。最近已经提出了各种攻击和策略,但效率问题仍未纠正。现有方法是计算地广泛或耗时,这在实践中不适用。在本文中,我们提出了一种称为攻击启发GaN(AI-GaN)的新框架,在有条件地产生对抗性实例。曾经接受过培训,可以有效地给予对抗扰动的输入图像和目标类。我们在白盒设置的不同数据集中应用AI-GaN,黑匣子设置和由最先进的防御保护的目标模型。通过广泛的实验,AI-GaN实现了高攻击成功率,优于现有方法,并显着降低了生成时间。此外,首次,AI-GaN成功地缩放到复杂的数据集。 Cifar-100和Imagenet,所有课程中的成功率约为90美元。
translated by 谷歌翻译
黑盒攻击通常面临两个问题:可转移性差和无法逃避对抗性防御。为了克服这些缺点,我们通过平滑良性图像中纹理的线性结构(称为advsmo)来创建一种原始方法来生成对抗示例。我们在不依赖目标模型的任何内部信息的情况下构建对抗性示例,并设计不可感知的高攻击成功率约束,以指导Gabor滤波器选择适当的角度和鳞片以使输入图像的线性纹理平滑以生成对抗性示例。从上面的设计概念中受益,Advsmo将产生具有强大可转移性和稳固性的对抗性例子。最后,与八种目标模型相比,与四种高级黑盒对抗攻击方法相比,结果表明,ADVSMO在CIFAR-10上将平均攻击成功率提高了9%,而小型Imimagenet数据集则将平均攻击成功率提高了16%。这些攻击方法中最好的。
translated by 谷歌翻译
在计算机视觉应用中广泛采用深度神经网络引起了对对抗性鲁棒性的重大兴趣。现有的研究表明,专门针对给定模型量身定制的恶意扰动输入(即,对抗性示例)可以成功地转移到另一个受过独立训练的模型中,以引起预测错误。此外,这种对抗性示例的属性归因于数据分布中的预测模式得出的特征。因此,我们有动力调查以下问题:对抗性防御,例如对抗性例子,可以成功地转移到其他受过独立训练的模型中?为此,我们提出了一种基于深度学习的预处理机制,我们将其称为可鲁棒的可转移功能提取器(RTFE)。在研究了理论动机和含义后,我们在实验上表明,我们的方法可以为多个独立训练的分类器提供对抗性的鲁棒性,这些分类器原本是对自适应白盒对手的无效性。此外,我们表明RTFE甚至可以为在不同数据集中独立训练的模型提供单发对手的鲁棒性。
translated by 谷歌翻译
深度神经网络(DNNS)在各种方案中对对抗数据敏感,包括黑框方案,在该方案中,攻击者只允许查询训练有素的模型并接收输出。现有的黑框方法用于创建对抗性实例的方法是昂贵的,通常使用梯度估计或培训替换网络。本文介绍了\ textit {Attackar},这是一种基于分数的进化,黑框攻击。 Attackar是基于一个新的目标函数,可用于无梯度优化问题。攻击仅需要访问分类器的输出徽标,因此不受梯度掩蔽的影响。不需要其他信息,使我们的方法更适合现实生活中的情况。我们使用三个基准数据集(MNIST,CIFAR10和Imagenet)使用三种不同的最先进模型(Inception-V3,Resnet-50和VGG-16-BN)测试其性能。此外,我们评估了Attackar在非分辨率转换防御和最先进的强大模型上的性能。我们的结果表明,在准确性得分和查询效率方面,攻击性的表现出色。
translated by 谷歌翻译
作为反对攻击的最有效的防御方法之一,对抗性训练倾向于学习包容性的决策边界,以提高深度学习模型的鲁棒性。但是,由于沿对抗方向的边缘的大幅度和不必要的增加,对抗性训练会在自然实例和对抗性示例之间引起严重的交叉,这不利于平衡稳健性和自然准确性之间的权衡。在本文中,我们提出了一种新颖的对抗训练计划,以在稳健性和自然准确性之间进行更好的权衡。它旨在学习一个中度包容的决策边界,这意味着决策边界下的自然示例的边缘是中等的。我们称此方案为中等边缘的对抗训练(MMAT),该方案生成更细粒度的对抗示例以减轻交叉问题。我们还利用了经过良好培训的教师模型的逻辑来指导我们的模型学习。最后,MMAT在Black-Box和White-Box攻击下都可以实现高自然的精度和鲁棒性。例如,在SVHN上,实现了最新的鲁棒性和自然精度。
translated by 谷歌翻译
Deep neural networks are vulnerable to adversarial examples, which poses security concerns on these algorithms due to the potentially severe consequences. Adversarial attacks serve as an important surrogate to evaluate the robustness of deep learning models before they are deployed. However, most of existing adversarial attacks can only fool a black-box model with a low success rate. To address this issue, we propose a broad class of momentum-based iterative algorithms to boost adversarial attacks. By integrating the momentum term into the iterative process for attacks, our methods can stabilize update directions and escape from poor local maxima during the iterations, resulting in more transferable adversarial examples. To further improve the success rates for black-box attacks, we apply momentum iterative algorithms to an ensemble of models, and show that the adversarially trained models with a strong defense ability are also vulnerable to our black-box attacks. We hope that the proposed methods will serve as a benchmark for evaluating the robustness of various deep models and defense methods. With this method, we won the first places in NIPS 2017 Non-targeted Adversarial Attack and Targeted Adversarial Attack competitions.
translated by 谷歌翻译
随着对深神经网络(DNN)模型的越来越关注,对于此类模型,攻击也即将发生。例如,攻击者可以以特定方式仔细构建图像(也称为对抗性示例),以误导DNN模型以输出不正确的分类结果。同样,提出了许多努力来检测和减轻对抗性例子,通常是针对某些专门的攻击。在本文中,我们提出了一种基于数字水印的新型方法,以生成图像对抗性示例以愚弄DNN模型。具体而言,Watermark图像的部分主要特征几乎被视而不见地嵌入到主机图像中,旨在篡改和损坏DNN模型的识别能力。我们设计了一种有效的机制来选择主机图像和水印图像,并利用改进的离散小波变换(DWT)的拼布水印算法,并使用一组有效的超参数将数字水印从水印图像数据集嵌入到原始图像中,以生成图像对抗性示例。实验结果表明,对COFAR-10数据集的攻击成功率平均达到95.47%,最高为98.71%。此外,我们的方案能够有效地生成大量的对抗示例,具体地,平均完成了1.17秒,以完成CIFAR-10数据集上每个图像的攻击。此外,我们设计了一个基线实验,它使用高斯噪声作为水印图像数据集生成的水印图像,该数据集也显示了我们方案的有效性。同样,我们还提出了基于修改的离散余弦变换(DCT)的拼布水印算法。为了确保可重复性和可重复性,可以在GitHub上获得源代码。
translated by 谷歌翻译
大多数对抗攻击防御方法依赖于混淆渐变。这些方法在捍卫基于梯度的攻击方面是成功的;然而,它们容易被攻击绕过,该攻击不使用梯度或近似近似和使用校正梯度的攻击。不存在不存在诸如对抗培训等梯度的防御,但这些方法通常对诸如其幅度的攻击进行假设。我们提出了一种分类模型,该模型不会混淆梯度,并且通过施工而强大而不承担任何关于攻击的知识。我们的方法将分类作为优化问题,我们“反转”在不受干扰的自然图像上培训的条件发电机,以找到生成最接近查询图像的类。我们假设潜在的脆性抗逆性攻击源是前馈分类器的高度低维性质,其允许对手发现输入空间中的小扰动,从而导致输出空间的大变化。另一方面,生成模型通常是低到高维的映射。虽然该方法与防御GaN相关,但在我们的模型中使用条件生成模型和反演而不是前馈分类是临界差异。与Defense-GaN不同,它被证明生成了容易规避的混淆渐变,我们表明我们的方法不会混淆梯度。我们展示了我们的模型对黑箱攻击的极其强劲,并与自然训练的前馈分类器相比,对白盒攻击的鲁棒性提高。
translated by 谷歌翻译
Neural networks are known to be vulnerable to adversarial examples: inputs that are close to natural inputs but classified incorrectly. In order to better understand the space of adversarial examples, we survey ten recent proposals that are designed for detection and compare their efficacy. We show that all can be defeated by constructing new loss functions. We conclude that adversarial examples are significantly harder to detect than previously appreciated, and the properties believed to be intrinsic to adversarial examples are in fact not. Finally, we propose several simple guidelines for evaluating future proposed defenses.
translated by 谷歌翻译
与此同时,黑匣子对抗攻击已经吸引了令人印象深刻的注意,在深度学习安全领域的实际应用,同时,由于无法访问目标模型的网络架构或内部权重,非常具有挑战性。基于假设:如果一个例子对多种型号保持过逆势,那么它更有可能将攻击能力转移到其他模型,基于集合的对抗攻击方法是高效的,用于黑匣子攻击。然而,集合攻击的方式相当不那么调查,并且现有的集合攻击只是均匀地融合所有型号的输出。在这项工作中,我们将迭代集合攻击视为随机梯度下降优化过程,其中不同模型上梯度的变化可能导致众多局部Optima差。为此,我们提出了一种新的攻击方法,称为随机方差减少了整体(SVRE)攻击,这可以降低集合模型的梯度方差,并充分利用集合攻击。标准想象数据集的经验结果表明,所提出的方法可以提高对抗性可转移性,并且优于现有的集合攻击显着。
translated by 谷歌翻译
对抗性攻击提供了研究深层学习模式的稳健性的好方法。基于转移的黑盒攻击中的一种方法利用了几种图像变换操作来提高对逆势示例的可转换性,这是有效的,但不能考虑输入图像的特定特征。在这项工作中,我们提出了一种新颖的架构,称为自适应图像转换学习者(AIT1),其将不同的图像变换操作结合到统一的框架中,以进一步提高对抗性示例的可转移性。与现有工作中使用的固定组合变换不同,我们精心设计的转换学习者自适应地选择特定于输入图像的图像变换最有效的组合。关于Imagenet的广泛实验表明,我们的方法在各种设置下显着提高了正常培训的模型和防御模型的攻击成功率。
translated by 谷歌翻译
虽然深度神经网络在各种任务中表现出前所未有的性能,但对对抗性示例的脆弱性阻碍了他们在安全关键系统中的部署。许多研究表明,即使在黑盒设置中也可能攻击,其中攻击者无法访问目标模型的内部信息。大多数黑匣子攻击基于查询,每个都可以获得目标模型的输入输出,并且许多研究侧重于减少所需查询的数量。在本文中,我们注意了目标模型的输出完全对应于查询输入的隐含假设。如果将某些随机性引入模型中,它可以打破假设,因此,基于查询的攻击可能在梯度估计和本地搜索中具有巨大的困难,这是其攻击过程的核心。从这种动机来看,我们甚至观察到一个小的添加剂输入噪声可以中和大多数基于查询的攻击和名称这个简单但有效的方法小噪声防御(SND)。我们分析了SND如何防御基于查询的黑匣子攻击,并展示其与CIFAR-10和ImageNet数据集的八种最先进的攻击有效性。即使具有强大的防御能力,SND几乎保持了原始的分类准确性和计算速度。通过在推断下仅添加一行代码,SND很容易适用于预先训练的模型。
translated by 谷歌翻译
Deep neural networks are vulnerable to adversarial examples, which can mislead classifiers by adding imperceptible perturbations. An intriguing property of adversarial examples is their good transferability, making black-box attacks feasible in real-world applications. Due to the threat of adversarial attacks, many methods have been proposed to improve the robustness. Several state-of-the-art defenses are shown to be robust against transferable adversarial examples. In this paper, we propose a translation-invariant attack method to generate more transferable adversarial examples against the defense models. By optimizing a perturbation over an ensemble of translated images, the generated adversarial example is less sensitive to the white-box model being attacked and has better transferability. To improve the efficiency of attacks, we further show that our method can be implemented by convolving the gradient at the untranslated image with a pre-defined kernel. Our method is generally applicable to any gradient-based attack method. Extensive experiments on the ImageNet dataset validate the effectiveness of the proposed method. Our best attack fools eight state-of-the-art defenses at an 82% success rate on average based only on the transferability, demonstrating the insecurity of the current defense techniques.
translated by 谷歌翻译
The problem of adversarial defenses for image classification, where the goal is to robustify a classifier against adversarial examples, is considered. Inspired by the hypothesis that these examples lie beyond the natural image manifold, a novel aDversarIal defenSe with local impliCit functiOns (DISCO) is proposed to remove adversarial perturbations by localized manifold projections. DISCO consumes an adversarial image and a query pixel location and outputs a clean RGB value at the location. It is implemented with an encoder and a local implicit module, where the former produces per-pixel deep features and the latter uses the features in the neighborhood of query pixel for predicting the clean RGB value. Extensive experiments demonstrate that both DISCO and its cascade version outperform prior defenses, regardless of whether the defense is known to the attacker. DISCO is also shown to be data and parameter efficient and to mount defenses that transfers across datasets, classifiers and attacks.
translated by 谷歌翻译
这项工作是对对使用Dino训练的自我监督视觉变压器的对抗性攻击的鲁棒性进行的首次分析。首先,我们评估通过自学学历的特征是否比受到监督学习中出现的人更强大。然后,我们介绍在潜在空间中攻击的属性。最后,我们评估了三种著名的防御策略是否可以通过微调分类头来提高下游任务中的对抗性鲁棒性,即使考虑到有限的计算资源,也可以提供鲁棒性。这些防御策略是:对抗性训练,合奏对抗训练和专业网络的合奏。
translated by 谷歌翻译
深度学习模型在众多图像识别,分类和重建任务中表现出令人难以置信的性能。虽然由于其预测能力而非常吸引人和有价值,但一个共同的威胁仍然挑战。一个专门训练的攻击者可以引入恶意输入扰动来欺骗网络,从而导致可能有害的错误预测。此外,当对手完全访问目标模型(白盒)时,这些攻击可以成功,即使这种访问受限(黑盒设置)。模型的集合可以防止这种攻击,但在其成员(攻击转移性)中的共享漏洞下可能是脆弱的。为此,这项工作提出了一种新的多样性促进深度集成的学习方法。该想法是促进巩固地图多样性(SMD)在集合成员上,以防止攻击者通过在我们的学习目标中引入额外的术语来实现所有集合成员。在培训期间,这有助于我们最大限度地减少模型炼塞之间的对齐,以减少共享成员漏洞,从而增加对对手的合并稳健性。我们经验展示了与中型和高强度白盒攻击相比,集合成员与改进性能之间的可转换性降低。此外,我们证明我们的方法与现有方法相结合,优于白色盒子和黑匣子攻击下的防御最先进的集合算法。
translated by 谷歌翻译