近年来,深度神经网络在许多机器学习任务中表现出优异的性能。然而,研究人员发现,这些最先进的模型容易受到逆向样本的影响:合理的例子是人眼无法察觉的小扰动。对抗训练在训练过程中用对抗性的例子来增强训练数据,这是一种众所周知的防御,可以提高模型抵抗对抗性攻击的稳健性。但是,这种稳健性只对使用对抗训练的相同攻击方法有效。 Madry等人(2017)认为,有条不紊的多步对抗性攻击,特别是预测梯度下降(PGD)的有效性可能被认为是普遍的一级对手,并且应用PGD的对抗性训练意味着抵抗许多其他的一阶攻击。然而,使用PGD和其他多步骤对抗性示例的对抗训练的计算成本远高于使用其他更简单的攻击技术的对抗训练。在本文中,我们展示了如何以与快速梯度符号方法(FGSM)的两次运行相似的成本生成强大的对抗性示例,允许防御对抗攻击具有与多步对抗的对抗性训练相当的鲁棒性攻击的防御性攻击例子。 Weempirically证明了针对不同攻击方法提出的两步防御方法的有效性及其对现有防御策略的改进。
translated by 谷歌翻译
深度神经网络(DNN)容易受到反对者制造的恶意输入以产生错误输出。确保神经网络对抗对抗性实例的工作在诸如MNIST之类的简单数据集上实现了高经验稳健性。然而,这些技术在诸如CIFAR-10和SVHN之类的复杂数据集上进行了不充分的测试。此外,现有技术被设计为针对特定攻击并且不能跨攻击进行概括。我们建议将对抗模型级联(AMC)用于解决上述不足之处。我们的方法按顺序训练一系列模型,其中每个模型都经过优化,以便对多种攻击的混合进行稳健。最终,它产生了一个可以抵御各种攻击的单一模型;即FGSM,Elastic,Virtual AdversarialPerturbations和Madry。平均而言,AMC同时增加了模型对各种攻击的经验鲁棒性(MNIST为6.225%,SVHN为5.075%,CIFAR10为2.65%)。与此同时,模型在非对抗性输入上的表现与最先进的模型相当。
translated by 谷歌翻译
深度学习领域的最新发展揭示了深度神经网络(DNN)对抗敌对示例的潜在漏洞。 Inimage分类,一个对抗性的例子是一个精心修改的图像,在原始图像的视觉上不可察觉,但可以导致DNN模型对其进行分类。用高斯噪声训练网络是执行模型正则化的有效技术,从而提高了对输入变化的模型鲁棒性。在这种经典方法的启发下,我们探索了利用噪声注入的正则化特性来提高DNN对抗对抗性攻击的鲁棒性。在这项工作中,我们提出参数噪声注入(PNI),其通过解决嵌入对抗训练的最小 - 最大优化问题,在激活或权重的每一层上涉及可训练的高斯噪声注入。这些参数被明确训练以实现改进的稳健性。据我们所知,这是第一项使用可训练噪声注入来改善网络对抗攻击性的工作,而不是通过交叉验证手动配置注入的噪声级别。大量结果表明,我们提出的PNI技术有效地提高了对各种强大的白盒和黑盒攻击的鲁棒性,如PGD,C&W,FGSM,可转移攻击和ZOO攻击。最后但并非最不重要的是,PNI方法提高了清洁和扰动数据的准确性,与最先进的防御方法相比,使用Resnet分别在干净的测试数据和扰动的测试数据上优于当前未破坏的PGD防御1.1%和6.8%。 -20架构。
translated by 谷歌翻译
标准对抗性攻击通过向其像素添加特别定制的小扰动来改变图像的预测类标签。相比之下,通用扰动是可以添加到大类图像中的任何图像的更新,同时仍然改变预测的类标签。我们研究了通用对抗性扰动的有效生成,以及加强网络对这些攻击的有效方法。我们提出了一种基于简单优化的通用攻击,它将ImageNet上各种网络架构的前1个精度降低到不到20%,同时学习通用扰动比标准方法快13倍。为了抵御这些扰动,我们提出了通用对抗训练,它将强大的分类器生成问题建模为双人最小 - 最大游戏。与具有强大对手(PGD)的传统对抗训练相比,这种方法更快,更具可扩展性,并且产生了对普遍攻击极其耐受的模型,并且对标准(每实例)黑盒攻击具有相当的抵抗力。我们还发现了通用对抗训练相当有吸引力的一面效果:为普遍强大的模型建立的攻击比使用常规对抗训练建立的攻击更好地转移到其他(黑匣子)模型。
translated by 谷歌翻译
It is well known that it is possible to construct "adversarial examples" for neu-ral networks: inputs which are misclassified by the network yet indistinguishable from true data. We propose a simple modification to standard neural network ar-chitectures, thermometer encoding, which significantly increases the robustness of the network to adversarial examples. We demonstrate this robustness with experiments on the MNIST, CIFAR-10, CIFAR-100, and SVHN datasets, and show that models with thermometer-encoded inputs consistently have higher accuracy on adversarial examples, without decreasing generalization. State-of-the-art accuracy under the strongest known white-box attack was increased from 93.20% to 94.30% on MNIST and 50.00% to 79.16% on CIFAR-10. We explore the properties of these networks, providing evidence that thermometer encodings help neural networks to find more-non-linear decision boundaries.
translated by 谷歌翻译
神经网络量化正成为在硬件平台上有效部署深度学习模型的行业标准,例如CPU,GPU,TPU和FPGA。然而,我们观察到传统的量化方法对于对抗性攻击是易受攻击的。本文旨在提高人们对量化模型安全性的认识,并设计了一种新的量化方法,共同优化深度学习模型的效率和鲁棒性。我们首先进行一项实证研究,以证明香草量化更多地受到对抗性攻击。我们观察到较差的鲁棒性来自误差放大效应,其中量化操作进一步扩大了放大噪声引起的距离。然后,我们通过在量化期间控制网络的Lipschitz常数来提出一种新的防御量化(DQ)方法,使得在推理期间,对抗性噪声仍然是非扩张性的。 CIFAR-10和SVHN数据集的广泛实验表明,我们的新量化方法可以抵御对抗性示例的神经网络,甚至比完全精确的对应物具有更高的鲁棒性,同时保持与vanilla量化方法相同的硬件效率。作为副产品,DQ还可以在没有对抗性攻击的情况下提高量化模型的准确性。
translated by 谷歌翻译
对计算机视觉任务中的对抗性示例的研究表明,对图像的小的,经常难以察觉的变化可能导致错误分类,这对于各种图像处理系统具有安全隐患。考虑到$ L_2 $范数扭曲,Carlini和Wagner攻击目前是最多的文献中有效的白盒攻击。然而,这种方法因为它对一个优化术语执行线搜索而失败,并且需要数千次迭代。在本文中,通过解耦添加到图像中的对抗性扰动的方向和范数,提出了一种有效的方法来生成基于梯度的攻击,该攻击通过降低$ L_2 $ norm的误分类引起错误分类。在MNIST,CIFAR-10和ImageNet数据集上进行的实验表明,我们的攻击实现了与最先进的(以$ L_2 $范数计)相当的结果,具有相当少的迭代(少至100次迭代),这打开了将这些攻击用于对抗训练的可能性。使用我们的攻击训练的模型对MNIST和CIFAR-10数据集的基于白盒梯度的L_2 $攻击具有最先进的稳健性,在攻击被限制为最大规范时优于Madry防御。
translated by 谷歌翻译
对抗性示例是旨在欺骗机器学习模型的恶意输入。它们经常从一个模型转移到另一个模型,允许攻击者在不知道目标模型参数的情况下进行黑盒攻击。对抗训练是明确训练模型对抗实例的过程,以使其更强大的攻击或减少测试错误关于清洁投入。到目前为止,对抗性训练主要应用于小问题。在这项研究中,我们将对抗训练应用于ImageNet。我们的贡献包括:(1)关于如何成功地对大型模型和数据集进行对抗性训练的建议,(2)对抗性训练赋予单步攻击方法稳健性的观察,(3)多步攻击方法稍微少一些的发现可转移的单步攻击方法,因此单步攻击最适合安装黑盒攻击,以及(4)解决“标签泄漏”效应,导致对侧训练模型在对抗性示例上表现优于onclean示例,因为对抗性示例构造过程使用thetrue标签,模型可以学习利用构造过程中的规律性。
translated by 谷歌翻译
对抗性样本是扰乱机器学习系统的扰动输入。一种称为对抗性训练的训练机制,其中介绍了对抗性样本以及干净的样本,已经引入了强大的模型。为了扩展大型数据集的对抗性训练,这些扰动只能使用快速简单的方法(例如,梯度上升)来制作。然而,它表明,对抗训练收敛到最小的最小值,其中模型看起来通过产生弱对象而变得强大。因此,这些模型很容易受到简单的黑盒攻击。在本文中,我们(i)展示了存在评估政策的缺点,(ii)引入了白盒和黑盒攻击的新变种,称为灰盒对抗攻击“基于此我们提出了评估其稳健性的评估方法。学习模型,以及(iii)提出一种新的对抗训练变体,命名为Graybox AdversarialTraining,它使用模型的中间版本来为对手播种。实验评估表明,与不设防和经过逆向训练的模型相比,使用我们的方法训练的模型表现出更好的鲁棒性
translated by 谷歌翻译
Following the recent adoption of deep neural networks (DNN) accross a widerange of applications, adversarial attacks against these models have proven tobe an indisputable threat. Adversarial samples are crafted with a deliberateintention of undermining a system. In the case of DNNs, the lack of betterunderstanding of their working has prevented the development of efficientdefenses. In this paper, we propose a new defense method based on practicalobservations which is easy to integrate into models and performs better thanstate-of-the-art defenses. Our proposed solution is meant to reinforce thestructure of a DNN, making its prediction more stable and less likely to befooled by adversarial samples. We conduct an extensive experimental studyproving the efficiency of our method against multiple attacks, comparing it tonumerous defenses, both in white-box and black-box setups. Additionally, theimplementation of our method brings almost no overhead to the trainingprocedure, while maintaining the prediction performance of the original modelon clean samples.
translated by 谷歌翻译
对抗训练,其中网络训练对抗的例子,是抵御强烈攻击的对抗性攻击的少数防御之一。遗憾的是,产生强大对抗性示例的高成本使标准对抗性训练对像ImageNet这样的大规模问题不切实际。我们提出了一种算法,通过循环更新模型参数时计算的梯度信息,消除了生成对抗性示例的开销成本。与自然训练相比,我们的“免费”对抗训练算法在CIFAR-10和CIFAR-100数据集上具有最先进的稳健性,并且比其他强大的对抗训练方法快7到30倍。使用具有4个P100 GPU的单工作站和2天的运行时间,我们可以为大规模ImageNet分类任务训练一个强大的模型,该任务对PGD攻击保持40%的准确性。
translated by 谷歌翻译
我们提出了一种强大的二阶攻击方法,该方法在降低基于对抗训练的最先进防御模型的准确性方面优于现有的攻击方法。我们的攻击方法的有效性激发了对防御模型的可证明鲁棒性的研究。为此,我们引入了一个框架,允许人们获得针对对抗性示例的预测准确性的可证明的下限。我们进行实验以了解我们的攻击方法的有效性。同时,与我们提出的攻击下的先前作品相比,我们的防御模型获得更高的准确度。
translated by 谷歌翻译
我们提出了一种新的算法来训练一个强大的神经网络来抵抗对抗攻击。我们的算法受以下两个思想的推动。首先,虽然最近的工作已经证明融合随机性可以提高神经网络的鲁棒性(Liu 2017),但我们注意到,对所有层添加噪声并不是结合随机性的最佳方法。我们在贝叶斯神经网络(BNN)框架下对随机性进行建模,以可扩展的方式正式学习模型的后验分布。其次,我们在BNN中制定了mini-max问题,以学习对抗性攻击下的最佳模式分布,从而导致对抗训练的贝叶斯神经网络。实验结果表明,所提出的算法在强攻击下具有最先进的性能。在CIFAR-10 withVGG网络上,我们的模型与PGDattack下的对抗训练(Madry 2017)和随机自我组合(Liu 2017)相比,在$ 0.035 $失真的情况下,准确度提高了14%,并且在ImageNet的一个子集上差距变得更大。
translated by 谷歌翻译
对抗性示例是旨在欺骗机器学习模型的扰动输入。对抗训练将这些例子注入训练数据以增强稳健性。为了将此技术扩展到大型数据集,使用快速单步方法制作扰动,最大化模型损失的线性近似。我们证明这种形式的对抗训练收敛于退化的全局最小值,其中数据点附近的小曲率伪像模糊了损失的线性近似。因此,该模型学会产生微弱的扰动,而不是抵抗强烈的扰动。因此,我们发现对抗性训练仍然容易受到黑盒攻击的影响,我们在那里转移在不设防模型上计算的扰动,以及通过一个小的随机步骤逃离输入数据的非平滑附近的强大新颖的单步攻击。我们进一步介绍了EnsembleAdversarial Training,这是一种通过从其他模型传输的扰动来增强训练数据的技术。在ImageNet上,Ensemble AdversarialTraining产生的模型对黑盒攻击具有很强的鲁棒性。特别是,我们最强大的模型赢得了第三轮NIPS 2017防御对抗性攻击的竞争。
translated by 谷歌翻译
最近的研究揭示了深度神经网络的脆弱性:人类无法察觉的小型对抗性扰动很容易使得经过深度训练的深度神经网络错误分类。这使得在安全关键应用程序中应用神经网络变得不安全。在本文中,我们通过结合两个重要概念:{\ bf randomness}和{\ bf ensemble},提出了一种称为随机自整体(RSE)的新防御算法。为了保护目标模型,RSE将随机噪声层添加到神经网络以防止基于强梯度的攻击,并集成对随机噪声的预测,以稳定性能。我们证明了我们的算法相当于没有任何额外内存开销的无限数量的噪声模型$ f_ \ epsilon $,并且基于噪声随机梯度下降的所提出的训练过程可以确保集合模型具有良好的预测能力。我们的算法在实际数据集中明显优于以前的防御技术。例如,在具有VGG网络的CIFAR-10(没有任何攻击时具有92%的准确率)下,在一定的抗误差范围内的强C \和W攻击下,未受保护的模型的准确率下降到低于10%,这是以前最好的防御技术具有$ 48 \%$精度,而我们的方法在相同攻击级别下具有$ 86 \%$预测准确度。最后,我们的方法简单易用,可以集成到任何神经网络中。
translated by 谷歌翻译
Despite the efficacy on a variety of computer vision tasks, deep neural networks (DNNs) are vulnerable to adversarial attacks, limiting their applications in security-critical systems. Recent works have shown the possibility of generating imperceptibly perturbed image inputs (a.k.a., adversarial examples) to fool well-trained DNN classifiers into making arbitrary predictions. To address this problem, we propose a training recipe named "deep defense". Our core idea is to integrate an adversarial perturbation-based regularizer into the classification objective, such that the obtained models learn to resist potential attacks , directly and precisely. The whole optimization problem is solved just like training a recursive network. Experimental results demonstrate that our method outperforms training with adversarial/Parseval regularizations by large margins on various datasets (including MNIST, CIFAR-10 and ImageNet) and different DNN architectures. Code and models for reproducing our results are available at https://github.com/ZiangYan/deepdefense.pytorch.
translated by 谷歌翻译
众所周知,神经网络容易受到对抗性的影响。仔细选择对真实图像的扰动,同时对人类不敏感,诱导分类并威胁到深度学习系统的可靠性。为了防范对抗性的例子,我们从游戏理论中汲取灵感,并将问题视为对手和模型之间的极小极小零和游戏。一般来说,对于这样的游戏,双方玩家的最佳策略需要随机策略,也称为混合策略。在这一点上,我们提出了随机激活修剪(SAP),一种混合​​策略的对抗性防御。 SAP修剪一个随机的激活子集(优先修复那些较小幅度的激活)并扩大幸存者的补偿。我们可以将SAP应用于预训练网络,包括非对称训练模型,无需微调,从而提供针对adversarialexamples的稳健性。实验证明,SAP可以提供抵御攻击的强大功能,提高准确性并保留校准。
translated by 谷歌翻译
最近的研究表明,深度神经网络(DNN)容易受到对抗性攻击。为此,已经提出了许多试图改善DNN鲁棒性的防御方法。在一个单独且未相关的领域,最近的研究工作已经探索将神经网络权重和激活函数量化为低位宽以压缩模型大小并降低计算复杂性。在这项工作中,我们发现这两个不同的轨道,即追求网络紧凑性和鲁棒性,可以合并为一体,并产生两种优势的网络。据我们所知,这是第一个使用激活函数量化来抵御对抗性例子的工作。我们还建议通过使用自适应量化技术来激活功能来训练健壮的神经网络。我们提出的动态量化激活(DQA)通过广泛的实验验证,MNIST和CIFAR-10数据集采用不同的白盒攻击方法,包括FGSM,PGD和C&W攻击。此外,在这项工作中也考虑了Zeroth OrderOptimization和基于替代模型的黑盒攻击。实验结果清楚地表明,使用提出的DQA可以大大提高DNN的鲁棒性。
translated by 谷歌翻译
正常图像的对抗性扰动通常是人类无法察觉的,但它们会严重混淆最先进的机器学习模型。是什么让它们在图像分类器眼中如此特别?在本文中,我们通过经验证明,对抗性的例子主要在于训练分布的低概率区域,无论攻击类型和目标模型如何。使用统计假设检验,我们发现现代神经密度模型在检测不可察觉的图像扰动时非常出色。基于这一发现,我们设计了PixelDefend,这是一种新方法,通过将其移回训练数据中看到的分布来净化恶意扰动的图像。然后通过未修改的分类器运行纯化的图像,使得我们的方法对分类器和攻击方法都是不可知的。因此,PixelDefend可用于保护已部署的模型,并与其他特定于模型的防御相结合。实验表明,我们的方法大大提高了各种最先进的攻击方法的弹性,使最强攻击的准确率从时尚MNIST的63%提高到84%,CIFAR-10从32%提高到70%。
translated by 谷歌翻译
在本文中,我们研究了对抗性强大模型的快速训练。通过对最新防御方法的分析,即多步对抗训练〜\ cite {madry2017towards},我们假设梯度幅度与模型鲁棒性相关联。受此启发,我们建议在训练期间对图像和标签进行打印,我们将其称为双边对抗训练(BAT)。为了生成对抗性标签,我们推导出一种封闭式启发式解决方案。为了生成对抗性图像,我们使用一步有针对性的攻击,目标标签是最混乱的类。在实验中,我们首先表明随机启动和最混乱的目标攻击有效地防止了标签泄漏和梯度掩盖问题。然后结合对抗性标签部分,我们的模型显着改善了最先进的结果。例如,对于具有交叉熵损失的PGD100攻击,在CIFAR10上,我们达到63.7%而不是47.2%;在SVHN上,weachieve 59.1 \%对比42.1 \%;在CIFAR100上,我们达到25.3 \%对比23.4%。注意这些结果是通过快速的一步对抗训练获得的。
translated by 谷歌翻译