近年来,深度神经网络方法已被广泛采用,包括分类在内的组织学习任务。然而,它们被证明易受对抗性扰动的影响:精心设计的小型扰动会导致合法图像的错误分类。我们提出Deffense-GAN,这是一个利用生成模型的表达能力来保护深度神经网络免受此类攻击的新框架。 Defense-GAN用于模拟未受干扰图像的分布。在推理时,它会将一个接近的输出结果发送给不包含对抗性变化的给定图像。然后将该输出馈送到分类器。我们提出的方法可以用于任何分类模型,并且不修改分类器结构或训练过程。它还可以用作抵御任何攻击的防御,因为它不会假设生成adversarialexamples的过程的知识。我们凭经验表明,Defense-GAN始终对不同的攻击方法有效,并改进了现有的防御策略。我们的代码已经公开发布:http://github.com/kabkabm/defensegan
translated by 谷歌翻译
神经网络分类器已成功用于广泛的应用。然而,他们对无攻击环境的基本假设却被对抗性的例子所抵制。研究人员试图开发防御措施;但是,现有的方法仍远未能为这一不断发展的问题提供有效的解决方案。在本文中,我们设计了一种基于生成对抗网(GAN)的零知识对抗训练防御,称为ZK-GanDef,在训练期间不会消耗对抗性的例子。因此,ZK-GanDef不仅在训练方面有效,而且适用于新的对抗性例子。与完全知识方法相比,这种优势以小的降解准确度为代价。我们的实验表明,与零知识方法相比,ZK-GanDef将对抗性实例的测试准确度提高了49.17%。更重要的是,它的测试精度接近于最先进的全知识方法(最大降级8.46%),同时减少了培训时间。
translated by 谷歌翻译
卷积神经网络在多个计算机视觉任务中取得了显着成功。然而,它们容易受到精心制作的,人类难以察觉的对抗性噪声模式的影响,这些模式限制了它们在关键的安全敏感系统中的部署。本文提出了一种计算有效的图像增强方法,该方法提供了一种强有力的防御机制,可以有效地减轻这种对抗性扰动的影响。我们展示了深度图像恢复网络学习的映射函数可以将\ textit {off-the-manifold}对抗性样本带到自然图像流形上,从而将分类器信念恢复到正确的类。我们的方法的一个显着特点是,除了提供抵御攻击的鲁棒性之外,它还可以同时提高图像质量并保持模型在干净图像上的性能。此外,所提出的方法不修改分类器或需要单独的机制来检测对抗图像。该计划的有效性已经通过广泛的实验证明,它已被证明在白盒和黑盒攻击设置中都有很强的防御能力。该方案简单,具有以下优点:(1)不需要任何模型训练或参数优化,(2)它补充了其他现有的防御机制,(3)它对攻击模型和攻击类型不可知,(4)它提供在所有流行的攻击算法中表现出色。我们的代码可以通过以下网址公开获取://github.com/aamir-mustafa/super-resolution-adversarial-defense。
translated by 谷歌翻译
对抗性机器学习是一个快速发展的研究领域,它考虑了机器学习系统可能面临潜在的异常攻击者的情况,他们故意综合输入数据以使训练有素的模型犯错误。它总是涉及防守方,通常是分类器,以及旨在导致错误输出的攻击方。最早的对抗性学习研究始于信息安全领域,它考虑了各种可能的攻击。但最近深度学习社区所关注的研究重点强调了正常输入的“不可思议”扰动如何通过深度学习与所谓的超人类准确性引起严重错误。本文旨在全面介绍对抗性深层学习主题的各个方面,包括其基础,典型攻击和防御策略,以及一些扩展研究。我们也分享了我们对其存在的根本原因以及该研究领域可能的未来方向的观点。
translated by 谷歌翻译
我们识别出模糊的渐变,一种渐变掩蔽,作为一种现象,导致对抗逆向样本的防御中的错误安全感。虽然导致混淆渐变的防御似乎是基于失败优化的攻击,但我们发现依赖于此效果的防御可以被规避。我们描述了防御效应的特征行为,并且对于我们发现的三种类型的混淆梯度中的每一种,我们开发了攻击技术来克服它。在一个案例研究中,在ICLR 2018上检查未经认证的白盒安全防御,我们发现混淆的梯度是常见的,9个防御中的7个依赖于混淆的梯度。在每篇论文所考虑的原始威胁模型中,我们的新攻击成功完全绕过了6个,并且部分地绕过了1个。
translated by 谷歌翻译
理想情况下,混淆神经网络应该让人感到困惑。然而,最近的实验表明,小的,不易察觉的扰动可以改变网络预测。为了解决这种感知差距,我们提出了一种学习鲁棒分类器的新方法。我们的主要想法是:强健分类器的adversarialexamples应该与对抗性目标的常规数据无法区分。我们在生成对抗网络(GAN)的框架中提出了学习鲁棒分类器的问题,其中对分类器的对抗性攻击充当发生器,并且批评者网络学习区分常规和对抗性图像。分类器成本增加的目的是其对抗性的例子应该与对手评论家混淆。为了提高对抗性的稳定性,我们引入了对抗性循环一致性约束,以确保对抗性实例的对抗性映射接近原始性。在实验中,我们展示了我们防御的有效性。我们的方法在用对抗训练训练的鲁棒性网络方面超越了。此外,我们在实验中使用MTurk上的人类注释器验证,对抗性的例子确实在视觉上令人困惑。该项目的代码可在https://github.com/aam-at/adversary_critic获得。
translated by 谷歌翻译
我们提出了一种对抗防御方法,该方法在攻击不可知的对抗防御方法中实现最先进的性能,同时还保持对输入分辨率,对抗扰动的规模和数据集大小的规模的鲁棒性。基于卷积稀疏编码,我们构造了一个分层的低维准自然图像空间,它忠实地接近自然图像空间,同时也消除了对抗性的扰动。我们在输入图像和神经网络的第一层之间引入了一种新颖的稀疏变换层(STL),以便将图像有效地投影到我们的准自然图像空间中。我们的实验表明,我们的方法在各种对抗性环境中与其他不可抗拒的对抗性防御方法相比,具有最先进的性能。
translated by 谷歌翻译
深度神经网络已经被证明对于具有不可察觉的扰动而被破坏的对抗性输入图像表现出有趣的脆弱性。然而,大多数对抗性攻击假设对图像像素空间进行全局的细粒度控制。在本文中,我们考虑一个不同的设置:如果对手只能改变输入图像的特定属性会发生什么?这些会产生可能明显不同的输入,但仍然看起来很自然,足以欺骗分类器。我们提出了一种新方法,通过优化参数条件生成模型的范围空间上的特定对抗性损失来生成这种“语义”对抗性实例。我们演示了对面部图像训练的二元分类器的攻击的实现,并且表明存在这种自然的语义对抗性示例。我们评估了ourattack对合成和真实数据的有效性,并提出了详细的比较方法。我们用理论边界来补充我们的实证结果,这些理论边界证明了这种参数对抗性实例的存在。
translated by 谷歌翻译
Modern applications of artificial neural networks have yielded remarkable performance gains in a wide range of tasks. However, recent studies have discovered that such modelling strategy is vulnerable to Adversarial Examples, i.e. examples with subtle perturbations often too small and imperceptible to humans, but that can easily fool neural networks. Defense techniques against adversarial examples have been proposed, but ensuring robust performance against varying or novel types of attacks remains an open problem. In this work, we focus on the detection setting, in which case attackers become identifiable while models remain vulnerable. Particularly, we employ the decision layer of independently trained models as features for posterior detection. The proposed framework does not require any prior knowledge of adversarial examples generation techniques, and can be directly employed along with unmodified off-the-shelf models. Experiments on the standard MNIST and CIFAR10 datasets deliver empirical evidence that such detection approach generalizes well across not only different adversarial examples generation methods but also quality degradation attacks. Non-linear binary classifiers trained on top of our proposed features can achieve a high detection rate (> 90%) in a set of white-box attacks and maintain such performance when tested against unseen attacks.
translated by 谷歌翻译
最近,研究人员发现,最先进的物体分类器很容易被人眼无法察觉的输入中的微小扰动所欺骗。众所周知,如果攻击者知道分类器参数,则可以生成强大的对抗性示例。相反,如果她能够访问对抗性示例,则防御者可以通过重新训练来强制分类器。我们解释并制定这种对抗性示例问题是一个双人连续零和游戏,并证明将防御或攻击评估为静态问题的谬误。为了找到针对白盒攻击的最佳防御案例,我们提出了一种连续的最小优化算法。我们用两种类型的攻击类来演示极小极大防御 - 基于梯度和基于神经网络的攻击。使用MNIST和CIFAR-10数据集进行的实验表明,通过数值极小极大优化发现的防御确实比非极小极大防御更强大。我们讨论了改进结果的方向,以实现对多种攻击类别的鲁棒性。
translated by 谷歌翻译
本文研究了最近提出的防御对抗性实例和评估对抗性稳健性的方法。我们将“对抗性风险”作为实现对最坏情况输入具有鲁棒性的模型的目标。然后,我们将常用的攻击和评估指标框定为真正的对抗风险的可控制的替代目标。这表明模型可以优化这种代理而不是真正的对抗风险。我们将这一概念形式化为“对对手的默默无闻”,并开发用于识别模糊模型和设计透明模型的工具和启发式。我们通过将无梯度优化技术重新用于对抗性攻击来证明这在实践中是一个重大问题,我们使用这种技术将最近提出的几种防御措施的准确性降低到接近零。我们希望我们的配方和结果能够帮助研究人员开发出更强大的防御能力。
translated by 谷歌翻译
对抗性示例是旨在欺骗机器学习模型的扰动输入。最近关于图像分类的对抗性示例的工作集中于直接修改具有微小扰动的像素。所有这些工作中的一个共同要求是,恶意扰动应该足够小(用$ L_p $规范来衡量一些$ p $),这样它们就不会被人类所感知。然而,小的扰动可能是不必要的限制性的,并且限制了所产生的对抗性示例的多样性。此外,基于$ L_p $规范的距离度量忽略了隐藏在对人类感知重要的图像中的重要结构模式。因此,即使是近期作品中引入的微小扰动,也常常使对抗性无人问津。更重要的是,它们通常不能很好地转移,因此在攻击特别是受到防御机制保护的黑匣子模型时效率较低。在本文中,我们提出了结构保持变换(SPT),用于生成具有极高可转移性的自然和多样的对偶实例。 ourapproach的关键思想是允许对抗性实例中的可感知偏差,同时保持对人类分类器至关重要的结构模式。 MNIST和时尚MNIST数据集的经验结果表明,我们的方法生成的adversarialexamples可以轻松绕过强大的对抗训练。此外,它们很好地转移到其他目标模型,没有损失或成功攻击率的损失。
translated by 谷歌翻译
Following the recent adoption of deep neural networks (DNN) accross a widerange of applications, adversarial attacks against these models have proven tobe an indisputable threat. Adversarial samples are crafted with a deliberateintention of undermining a system. In the case of DNNs, the lack of betterunderstanding of their working has prevented the development of efficientdefenses. In this paper, we propose a new defense method based on practicalobservations which is easy to integrate into models and performs better thanstate-of-the-art defenses. Our proposed solution is meant to reinforce thestructure of a DNN, making its prediction more stable and less likely to befooled by adversarial samples. We conduct an extensive experimental studyproving the efficiency of our method against multiple attacks, comparing it tonumerous defenses, both in white-box and black-box setups. Additionally, theimplementation of our method brings almost no overhead to the trainingprocedure, while maintaining the prediction performance of the original modelon clean samples.
translated by 谷歌翻译
对抗性的例子是故意制作的数据,其目的是将神经网络接入错误分类。当我们谈论策略创建这样的例子时,我们通常会提到基于扰动的方法,通过在normaldata上应用隐形扰动来制作对抗性的例子。由此产生的数据为人类观察者保留了他们的视觉外观,但DNN模型可能完全无法识别,这反过来导致完全误导性的预测。然而,在本文中,我们考虑从现有数据中创建对偶实例作为对示例多样性的限制。我们提出了一种基于非扰动的框架,该类框架从类条件生成对抗网络生成本地adversarialexamples。因此,生成的数据将不会像任何数据现有数据,从而扩大了实例大学,提高了对抗性防御的难度。然后,我们将此框架扩展到预先训练的条件GAN,我们将现有的生成器转换为“对抗 - 示例生成器”。我们对MNIST和CIFAR10数据集的方法进行了实验,结果令人满意,表明这种方法可以替代以前的攻击战略。
translated by 谷歌翻译
近年来,深度神经网络在许多机器学习任务中表现出优异的性能。然而,研究人员发现,这些最先进的模型容易受到逆向样本的影响:合理的例子是人眼无法察觉的小扰动。对抗训练在训练过程中用对抗性的例子来增强训练数据,这是一种众所周知的防御,可以提高模型抵抗对抗性攻击的稳健性。但是,这种稳健性只对使用对抗训练的相同攻击方法有效。 Madry等人(2017)认为,有条不紊的多步对抗性攻击,特别是预测梯度下降(PGD)的有效性可能被认为是普遍的一级对手,并且应用PGD的对抗性训练意味着抵抗许多其他的一阶攻击。然而,使用PGD和其他多步骤对抗性示例的对抗训练的计算成本远高于使用其他更简单的攻击技术的对抗训练。在本文中,我们展示了如何以与快速梯度符号方法(FGSM)的两次运行相似的成本生成强大的对抗性示例,允许防御对抗攻击具有与多步对抗的对抗性训练相当的鲁棒性攻击的防御性攻击例子。 Weempirically证明了针对不同攻击方法提出的两步防御方法的有效性及其对现有防御策略的改进。
translated by 谷歌翻译
计算机断层扫描(CT)重建是从安全性到医疗保健等各种应用的基本组成部分。经典技术需要从对象的完整180 $ ^ \ circ $视图中测量投影,称为正弦图。当视角小于180°时,这在有限的角度范围内是不切实际的,这可能由于不同因素而发生,包括扫描时间的限制,扫描仪旋转的有限灵活性等。因此得到的正弦图导致现有技术产生高度神器重建的重建。在本文中,我们建议通过隐式正弦图完成来解决这个问题,这个问题包含一个包含普通签入式扫描扫描的具有挑战性的现实世界数据集。我们提出了一个由一维和二维卷积神经网络组成的系统,该系统在有限角度的正弦图上运行,直接产生重建的最佳估计。接下来,我们在这个重构上使用x射线变换来获得一个“完整的”正弦图,好像它来自一个完整的180 $ ^ \ circ $测量。我们将其提供给标准分析和迭代重构技术以获得最终重建。我们展示了经过深思熟虑的实验,这种组合策略优于许多竞争基线。我们还提出了对建筑的信任度,使从业者能够衡量我们网络的预测可靠性。我们表明,这一指标是PSNR衡量的一个强有力的质量指标,同时在测试时不需要基本事实。最后,通过分割实验,我们证明了我们的重建有效地保留了对象的三维结构。
translated by 谷歌翻译
最近对深度神经网络的分析揭示了它们的脆弱性,这是一种对抗性的例子。许多有效的算法都存在于这些对抗性的例子中,但是高性能的防御似乎很遥远。在这项工作中,我们探索了边缘感知双边滤波作为回归到自然图像空间的用途。我们证明双边过滤是多种攻击环境中的有效防御,其中对手的力量逐渐增加。对于不了解防御的对手,双边过滤可以从各种不同的攻击中移除90%以上的对抗性示例。为了评估对抗完全了解我们防御的对手,我们将双边滤波器调整为神经网络中的可训练层,并表明添加该层可使ImageNet图像对攻击更加稳健。在对抗训练的框架下进行训练,我们表明,即使是最好的攻击方法,最终的模型也很难愚弄。
translated by 谷歌翻译
CNNs are poised to become integral parts of many critical systems. Despite their robustness to natural variations, image pixel values can be manipulated, via small, carefully crafted, imperceptible perturbations, to cause a model to misclassify images. We present an algorithm to process an image so that classification accuracy is significantly preserved in the presence of such adversarial manipulations. Image classifiers tend to be robust to natural noise, and adversarial attacks tend to be agnostic to object location. These observations motivate our strategy, which leverages model robustness to defend against adversarial perturbations by forcing the image to match natural image statistics. Our algorithm locally corrupts the image by redistributing pixel values via a process we term pixel deflection. A subsequent wavelet-based denoising operation softens this corruption , as well as some of the adversarial changes. We demonstrate experimentally that the combination of these techniques enables the effective recovery of the true class, against a variety of robust attacks. Our results compare favorably with current state-of-the-art defenses, without requiring retraining or modifying the CNN.
translated by 谷歌翻译
正常图像的对抗性扰动通常是人类无法察觉的,但它们会严重混淆最先进的机器学习模型。是什么让它们在图像分类器眼中如此特别?在本文中,我们通过经验证明,对抗性的例子主要在于训练分布的低概率区域,无论攻击类型和目标模型如何。使用统计假设检验,我们发现现代神经密度模型在检测不可察觉的图像扰动时非常出色。基于这一发现,我们设计了PixelDefend,这是一种新方法,通过将其移回训练数据中看到的分布来净化恶意扰动的图像。然后通过未修改的分类器运行纯化的图像,使得我们的方法对分类器和攻击方法都是不可知的。因此,PixelDefend可用于保护已部署的模型,并与其他特定于模型的防御相结合。实验表明,我们的方法大大提高了各种最先进的攻击方法的弹性,使最强攻击的准确率从时尚MNIST的63%提高到84%,CIFAR-10从32%提高到70%。
translated by 谷歌翻译
已经证明深度神经网络(DNN)容易受到对抗性的影响。具体而言,为清洁图像添加难以察觉的扰动可能会欺骗训练有素的深度神经网络。在本文中,我们提出了一个端到端的图像压缩模型来保护对抗性的例子:\ textbf {ComDefend}。所提出的模型包括压缩卷积神经网络(ComCNN)和重建卷积神经网络(ResCNN)。 ComCNN用于维护原始图像的结构信息并净化对抗性扰动。 ResCNN用于重构高质量的原始图像。换句话说,ComDefend会将对抗性图像转换为干净的版本,然后将其提供给训练分类器。我们的方法是预处理模块,并不在整个过程中修改分类器的结构。因此,它可以与其他模型特定的防御模型结合起来,共同提高分类器的鲁棒性。在MNIST,CIFAR10和ImageNet上进行的一系列实验表明,所提出的方法优于现有技术的防御方法,并且始终有效地保护分类器免受对抗攻击。
translated by 谷歌翻译