近年来,深度神经网络方法已被广泛采用,包括分类在内的组织学习任务。然而,它们被证明易受对抗性扰动的影响:精心设计的小型扰动会导致合法图像的错误分类。我们提出Deffense-GAN,这是一个利用生成模型的表达能力来保护深度神经网络免受此类攻击的新框架。 Defense-GAN用于模拟未受干扰图像的分布。在推理时,它会将一个接近的输出结果发送给不包含对抗性变化的给定图像。然后将该输出馈送到分类器。我们提出的方法可以用于任何分类模型,并且不修改分类器结构或训练过程。它还可以用作抵御任何攻击的防御,因为它不会假设生成adversarialexamples的过程的知识。我们凭经验表明,Defense-GAN始终对不同的攻击方法有效,并改进了现有的防御策略。我们的代码已经公开发布:http://github.com/kabkabm/defensegan
translated by 谷歌翻译
我们识别出模糊的渐变,一种渐变掩蔽,作为一种现象,导致对抗逆向样本的防御中的错误安全感。虽然导致混淆渐变的防御似乎是基于失败优化的攻击,但我们发现依赖于此效果的防御可以被规避。我们描述了防御效应的特征行为,并且对于我们发现的三种类型的混淆梯度中的每一种,我们开发了攻击技术来克服它。在一个案例研究中,在ICLR 2018上检查未经认证的白盒安全防御,我们发现混淆的梯度是常见的,9个防御中的7个依赖于混淆的梯度。在每篇论文所考虑的原始威胁模型中,我们的新攻击成功完全绕过了6个,并且部分地绕过了1个。
translated by 谷歌翻译
对抗性机器学习是一个快速发展的研究领域,它考虑了机器学习系统可能面临潜在的异常攻击者的情况,他们故意综合输入数据以使训练有素的模型犯错误。它总是涉及防守方,通常是分类器,以及旨在导致错误输出的攻击方。最早的对抗性学习研究始于信息安全领域,它考虑了各种可能的攻击。但最近深度学习社区所关注的研究重点强调了正常输入的“不可思议”扰动如何通过深度学习与所谓的超人类准确性引起严重错误。本文旨在全面介绍对抗性深层学习主题的各个方面,包括其基础,典型攻击和防御策略,以及一些扩展研究。我们也分享了我们对其存在的根本原因以及该研究领域可能的未来方向的观点。
translated by 谷歌翻译
卷积神经网络在多个计算机视觉任务中取得了显着成功。然而,它们容易受到精心制作的,人类难以察觉的对抗性噪声模式的影响,这些模式限制了它们在关键的安全敏感系统中的部署。本文提出了一种计算有效的图像增强方法,该方法提供了一种强有力的防御机制,可以有效地减轻这种对抗性扰动的影响。我们展示了深度图像恢复网络学习的映射函数可以将\ textit {off-the-manifold}对抗性样本带到自然图像流形上,从而将分类器信念恢复到正确的类。我们的方法的一个显着特点是,除了提供抵御攻击的鲁棒性之外,它还可以同时提高图像质量并保持模型在干净图像上的性能。此外,所提出的方法不修改分类器或需要单独的机制来检测对抗图像。该计划的有效性已经通过广泛的实验证明,它已被证明在白盒和黑盒攻击设置中都有很强的防御能力。该方案简单,具有以下优点:(1)不需要任何模型训练或参数优化,(2)它补充了其他现有的防御机制,(3)它对攻击模型和攻击类型不可知,(4)它提供在所有流行的攻击算法中表现出色。我们的代码可以通过以下网址公开获取://github.com/aamir-mustafa/super-resolution-adversarial-defense。
translated by 谷歌翻译
最近对深度神经网络的分析揭示了它们的脆弱性,这是一种对抗性的例子。许多有效的算法都存在于这些对抗性的例子中,但是高性能的防御似乎很遥远。在这项工作中,我们探索了边缘感知双边滤波作为回归到自然图像空间的用途。我们证明双边过滤是多种攻击环境中的有效防御,其中对手的力量逐渐增加。对于不了解防御的对手,双边过滤可以从各种不同的攻击中移除90%以上的对抗性示例。为了评估对抗完全了解我们防御的对手,我们将双边滤波器调整为神经网络中的可训练层,并表明添加该层可使ImageNet图像对攻击更加稳健。在对抗训练的框架下进行训练,我们表明,即使是最好的攻击方法,最终的模型也很难愚弄。
translated by 谷歌翻译
理想情况下,混淆神经网络应该让人感到困惑。然而,最近的实验表明,小的,不易察觉的扰动可以改变网络预测。为了解决这种感知差距,我们提出了一种学习鲁棒分类器的新方法。我们的主要想法是:强健分类器的adversarialexamples应该与对抗性目标的常规数据无法区分。我们在生成对抗网络(GAN)的框架中提出了学习鲁棒分类器的问题,其中对分类器的对抗性攻击充当发生器,并且批评者网络学习区分常规和对抗性图像。分类器成本增加的目的是其对抗性的例子应该与对手评论家混淆。为了提高对抗性的稳定性,我们引入了对抗性循环一致性约束,以确保对抗性实例的对抗性映射接近原始性。在实验中,我们展示了我们防御的有效性。我们的方法在用对抗训练训练的鲁棒性网络方面超越了。此外,我们在实验中使用MTurk上的人类注释器验证,对抗性的例子确实在视觉上令人困惑。该项目的代码可在https://github.com/aam-at/adversary_critic获得。
translated by 谷歌翻译
对抗性示例是旨在欺骗机器学习模型的扰动输入。最近关于图像分类的对抗性示例的工作集中于直接修改具有微小扰动的像素。所有这些工作中的一个共同要求是,恶意扰动应该足够小(用$ L_p $规范来衡量一些$ p $),这样它们就不会被人类所感知。然而,小的扰动可能是不必要的限制性的,并且限制了所产生的对抗性示例的多样性。此外,基于$ L_p $规范的距离度量忽略了隐藏在对人类感知重要的图像中的重要结构模式。因此,即使是近期作品中引入的微小扰动,也常常使对抗性无人问津。更重要的是,它们通常不能很好地转移,因此在攻击特别是受到防御机制保护的黑匣子模型时效率较低。在本文中,我们提出了结构保持变换(SPT),用于生成具有极高可转移性的自然和多样的对偶实例。 ourapproach的关键思想是允许对抗性实例中的可感知偏差,同时保持对人类分类器至关重要的结构模式。 MNIST和时尚MNIST数据集的经验结果表明,我们的方法生成的adversarialexamples可以轻松绕过强大的对抗训练。此外,它们很好地转移到其他目标模型,没有损失或成功攻击率的损失。
translated by 谷歌翻译
本文研究了最近提出的防御对抗性实例和评估对抗性稳健性的方法。我们将“对抗性风险”作为实现对最坏情况输入具有鲁棒性的模型的目标。然后,我们将常用的攻击和评估指标框定为真正的对抗风险的可控制的替代目标。这表明模型可以优化这种代理而不是真正的对抗风险。我们将这一概念形式化为“对对手的默默无闻”,并开发用于识别模糊模型和设计透明模型的工具和启发式。我们通过将无梯度优化技术重新用于对抗性攻击来证明这在实践中是一个重大问题,我们使用这种技术将最近提出的几种防御措施的准确性降低到接近零。我们希望我们的配方和结果能够帮助研究人员开发出更强大的防御能力。
translated by 谷歌翻译
深度学习模型在各种分类任务(包括图像分类)中始终优于传统的机器学习模型。因此,它们在许多现实世界的应用中变得越来越普遍,包括那些安全性非常令人担忧的应用。然而,这种普遍性可能会吸引攻击者利用已部署的深度学习模型的漏洞并针对安全敏感应用发起攻击。在本文中,我们关注一种特定类型的数据中毒攻击,我们将其称为{\ em后门注入攻击}。执行此类攻击的对手的主要目标是生成并注入后门到深度学习模型,该模型可以被触发以识别具有攻击者选择的目标标签的某些嵌入式模式。另外,后门注射攻击应该以隐秘的方式发生,而不会破坏受害者模型的功效。具体来说,我们提出了两种生成后门的方法,这种后门在中毒模型中几乎不易察觉但有效。我们考虑两种攻击设置,在模型训练之前或模型更新期间进行后门注入。我们在对手模型的各种假设下进行了广泛的实验评估,并证明这样的攻击可以有效并且以较低的模型准确度损失(低于1美元\%$)成本实现高攻击成功率(高于$ 90 \%$)小注射率(约$ 1 \%$),即使在最弱的假设下,对手也不知道原始训练数据或分类器模型。
translated by 谷歌翻译
对抗性的例子是故意制作的数据,其目的是将神经网络接入错误分类。当我们谈论策略创建这样的例子时,我们通常会提到基于扰动的方法,通过在normaldata上应用隐形扰动来制作对抗性的例子。由此产生的数据为人类观察者保留了他们的视觉外观,但DNN模型可能完全无法识别,这反过来导致完全误导性的预测。然而,在本文中,我们考虑从现有数据中创建对偶实例作为对示例多样性的限制。我们提出了一种基于非扰动的框架,该类框架从类条件生成对抗网络生成本地adversarialexamples。因此,生成的数据将不会像任何数据现有数据,从而扩大了实例大学,提高了对抗性防御的难度。然后,我们将此框架扩展到预先训练的条件GAN,我们将现有的生成器转换为“对抗 - 示例生成器”。我们对MNIST和CIFAR10数据集的方法进行了实验,结果令人满意,表明这种方法可以替代以前的攻击战略。
translated by 谷歌翻译
我们提出了一种对抗防御方法,该方法在攻击不可知的对抗防御方法中实现最先进的性能,同时还保持对输入分辨率,对抗扰动的规模和数据集大小的规模的鲁棒性。基于卷积稀疏编码,我们构造了一个分层的低维准自然图像空间,它忠实地接近自然图像空间,同时也消除了对抗性的扰动。我们在输入图像和神经网络的第一层之间引入了一种新颖的稀疏变换层(STL),以便将图像有效地投影到我们的准自然图像空间中。我们的实验表明,我们的方法在各种对抗性环境中与其他不可抗拒的对抗性防御方法相比,具有最先进的性能。
translated by 谷歌翻译
最近,Generative Adversarial Networks(GANs)已成为模拟复杂高维分布的常用替代品。大多数现有工作隐含地假设来自目标分布的清洁样本很容易获得。但是,在许多应用程序中,违反了此假设。在本文中,我们考虑观察设置,来自目标分布的样本由两个结构组件的叠加给出,并利用GAN来学习组件的结构。我们提出了两个新的框架:去噪-GAN和demixing-GAN。去噪-GAN假定从第二个组件访问干净的样本并学习其他分布,而分离-GAN同时学习组件的分布。通过广泛的数值实验,我们证明了所提出的框架可以从未知分布生成干净的样本,并在任务中提供竞争性能,例如去噪,分层和压缩感知。
translated by 谷歌翻译
深度学习已经成为一个强大而有效的框架,可以应用于过去使用传统机器学习技术难以解决的广泛复杂学习问题。在最短的几年里,深度学习已经从根本上取得了进步,它可以在许多任务中超越人类的表现。因此,在最近的大多数日常应用中都广泛使用了深度学习。然而,深度学习系统的安全性是易受攻击的对抗性示例,这可能是人眼难以察觉的,但可能导致模型对输出进行错误分类。最近,基于威胁模型的不同类型的攻击者利用这些漏洞来破坏攻击者具有高度激励的深度学习系统。因此,为这些攻击者提供深度学习算法的鲁棒性非常重要。但是,只有少数强有力的措施可以用于所有类型的攻击场景来设计一个强大的深度学习系统。在本文中,我们试图用各种威胁模型详细讨论不同类型的对抗性攻击,并详细阐述最近对策的效率和挑战。
translated by 谷歌翻译
已经证明深度神经网络(DNN)容易受到对抗性的影响。具体而言,为清洁图像添加难以察觉的扰动可能会欺骗训练有素的深度神经网络。在本文中,我们提出了一个端到端的图像压缩模型来保护对抗性的例子:\ textbf {ComDefend}。所提出的模型包括压缩卷积神经网络(ComCNN)和重建卷积神经网络(ResCNN)。 ComCNN用于维护原始图像的结构信息并净化对抗性扰动。 ResCNN用于重构高质量的原始图像。换句话说,ComDefend会将对抗性图像转换为干净的版本,然后将其提供给训练分类器。我们的方法是预处理模块,并不在整个过程中修改分类器的结构。因此,它可以与其他模型特定的防御模型结合起来,共同提高分类器的鲁棒性。在MNIST,CIFAR10和ImageNet上进行的一系列实验表明,所提出的方法优于现有技术的防御方法,并且始终有效地保护分类器免受对抗攻击。
translated by 谷歌翻译
Following the recent adoption of deep neural networks (DNN) accross a widerange of applications, adversarial attacks against these models have proven tobe an indisputable threat. Adversarial samples are crafted with a deliberateintention of undermining a system. In the case of DNNs, the lack of betterunderstanding of their working has prevented the development of efficientdefenses. In this paper, we propose a new defense method based on practicalobservations which is easy to integrate into models and performs better thanstate-of-the-art defenses. Our proposed solution is meant to reinforce thestructure of a DNN, making its prediction more stable and less likely to befooled by adversarial samples. We conduct an extensive experimental studyproving the efficiency of our method against multiple attacks, comparing it tonumerous defenses, both in white-box and black-box setups. Additionally, theimplementation of our method brings almost no overhead to the trainingprocedure, while maintaining the prediction performance of the original modelon clean samples.
translated by 谷歌翻译
计算机断层扫描(CT)重建是从安全性到医疗保健等各种应用的基本组成部分。经典技术需要从对象的完整180 $ ^ \ circ $视图中测量投影,称为正弦图。当视角小于180°时,这在有限的角度范围内是不切实际的,这可能由于不同因素而发生,包括扫描时间的限制,扫描仪旋转的有限灵活性等。因此得到的正弦图导致现有技术产生高度神器重建的重建。在本文中,我们建议通过隐式正弦图完成来解决这个问题,这个问题包含一个包含普通签入式扫描扫描的具有挑战性的现实世界数据集。我们提出了一个由一维和二维卷积神经网络组成的系统,该系统在有限角度的正弦图上运行,直接产生重建的最佳估计。接下来,我们在这个重构上使用x射线变换来获得一个“完整的”正弦图,好像它来自一个完整的180 $ ^ \ circ $测量。我们将其提供给标准分析和迭代重构技术以获得最终重建。我们展示了经过深思熟虑的实验,这种组合策略优于许多竞争基线。我们还提出了对建筑的信任度,使从业者能够衡量我们网络的预测可靠性。我们表明,这一指标是PSNR衡量的一个强有力的质量指标,同时在测试时不需要基本事实。最后,通过分割实验,我们证明了我们的重建有效地保留了对象的三维结构。
translated by 谷歌翻译
最近,研究人员发现,最先进的物体分类器很容易被人眼无法察觉的输入中的微小扰动所欺骗。众所周知,如果攻击者知道分类器参数,则可以生成强大的对抗性示例。相反,如果她能够访问对抗性示例,则防御者可以通过重新训练来强制分类器。我们解释并制定这种对抗性示例问题是一个双人连续零和游戏,并证明将防御或攻击评估为静态问题的谬误。为了找到针对白盒攻击的最佳防御案例,我们提出了一种连续的最小优化算法。我们用两种类型的攻击类来演示极小极大防御 - 基于梯度和基于神经网络的攻击。使用MNIST和CIFAR-10数据集进行的实验表明,通过数值极小极大优化发现的防御确实比非极小极大防御更强大。我们讨论了改进结果的方向,以实现对多种攻击类别的鲁棒性。
translated by 谷歌翻译
CNNs are poised to become integral parts of many critical systems. Despite their robustness to natural variations, image pixel values can be manipulated, via small, carefully crafted, imperceptible perturbations, to cause a model to misclassify images. We present an algorithm to process an image so that classification accuracy is significantly preserved in the presence of such adversarial manipulations. Image classifiers tend to be robust to natural noise, and adversarial attacks tend to be agnostic to object location. These observations motivate our strategy, which leverages model robustness to defend against adversarial perturbations by forcing the image to match natural image statistics. Our algorithm locally corrupts the image by redistributing pixel values via a process we term pixel deflection. A subsequent wavelet-based denoising operation softens this corruption , as well as some of the adversarial changes. We demonstrate experimentally that the combination of these techniques enables the effective recovery of the true class, against a variety of robust attacks. Our results compare favorably with current state-of-the-art defenses, without requiring retraining or modifying the CNN.
translated by 谷歌翻译
Multiple different approaches of generating ad-versarial examples have been proposed to attack deep neural networks. These approaches involve either directly computing gradients with respect to the image pixels, or directly solving an optimization on the image pixels. In this work, we present a fundamentally new method for generating adversarial examples that is fast to execute and provides exceptional diversity of output. We efficiently train feed-forward neural networks in a self-supervised manner to generate adversarial examples against a target network or set of networks. We call such a network an Ad-versarial Transformation Network (ATN). ATNs are trained to generate adversarial examples that minimally modify the classifier's outputs given the original input, while constraining the new classification to match an adversarial target class. We present methods to train ATNs and analyze their effectiveness targeting a variety of MNIST classifiers as well as the latest state-of-the-art Im-ageNet classifier Inception ResNet v2.
translated by 谷歌翻译
Despite the efficacy on a variety of computer vision tasks, deep neural networks (DNNs) are vulnerable to adversarial attacks, limiting their applications in security-critical systems. Recent works have shown the possibility of generating imperceptibly perturbed image inputs (a.k.a., adversarial examples) to fool well-trained DNN classifiers into making arbitrary predictions. To address this problem, we propose a training recipe named "deep defense". Our core idea is to integrate an adversarial perturbation-based regularizer into the classification objective, such that the obtained models learn to resist potential attacks , directly and precisely. The whole optimization problem is solved just like training a recursive network. Experimental results demonstrate that our method outperforms training with adversarial/Parseval regularizations by large margins on various datasets (including MNIST, CIFAR-10 and ImageNet) and different DNN architectures. Code and models for reproducing our results are available at https://github.com/ZiangYan/deepdefense.pytorch.
translated by 谷歌翻译