作为一种常见的安全工具,已广泛应用可见的水印来保护数字图像的版权。但是,最近的作品表明,可见的水印可以通过DNN删除而不会损坏其宿主图像。这样的水印驱动技术对图像的所有权构成了巨大威胁。受到DNN在对抗扰动方面的脆弱性的启发,我们提出了一种新颖的防御机制,可以永久地通过对抗机器学习。从对手的角度来看,可以将盲水水印网络作为我们的目标模型提出。然后,我们实际上优化了对宿主图像上不可察觉的对抗扰动,以主动攻击水印网络,称为水印疫苗。具体而言,提出了两种类型的疫苗。破坏水印疫苗(DWV)在通过水印拆除网络后,诱导了与水印一起破坏宿主图像。相比之下,不可行的水印疫苗(IWV)以另一种方式试图保持水印不清除且仍然明显。广泛的实验证明了我们的DWV/IWV在防止水印去除方面的有效性,尤其是在各种水印去除网络上。
translated by 谷歌翻译
发现深度学习模型很容易受到对抗性示例的影响,因为在深度学习模型的输入中,对扰动的扰动可能引起错误的预测。对抗图像生成的大多数现有作品都试图为大多数模型实现攻击,而其中很少有人努力确保对抗性示例的感知质量。高质量的对手示例对许多应用很重要,尤其是保留隐私。在这项工作中,我们基于最小明显差异(MND)概念开发了一个框架,以生成对对抗性隐私的保留图像,这些图像与干净的图像具有最小的感知差异,但能够攻击深度学习模型。为了实现这一目标,首先提出了对抗性损失,以使深度学习模型成功地被对抗性图像攻击。然后,通过考虑摄动和扰动引起的结构和梯度变化的大小来开发感知质量的损失,该损失旨在为对抗性图像生成保持高知觉质量。据我们所知,这是基于MND概念以保存隐私的概念来探索质量保护的对抗图像生成的第一项工作。为了评估其在感知质量方面的性能,在这项工作中,通过建议的方法和几种锚方法测试了有关图像分类和面部识别的深层模型。广泛的实验结果表明,所提出的MND框架能够生成具有明显改善的性能指标(例如PSNR,SSIM和MOS)的对抗图像,而不是用锚定方法生成的对抗性图像。
translated by 谷歌翻译
深入学习在许多任务中获得了越来越优秀的表现,例如自主驾驶和面部识别,并且也受到不同类型的攻击挑战。在图像中添加人类视力不可察觉的扰动可以误导神经网络模型以高信任获得错误的结果。对手示例是已经添加的图像,其具有特定的噪声来误导深神经网络模型,但是向图像添加噪声会破坏原始数据,使得在数字取证和其他字段中无用。为了防止非法或未授权访问图像数据,例如人面,并确保不对法律使用的情感可逆的逆势攻击技术是升高的。原始图像可以从其可逆的对抗性示例中恢复。然而,现有的可逆对抗例子生成策略均为传统的难以察觉的对抗性扰动设计。如何获得局部可见的对抗性扰动的可逆性?在本文中,我们提出了一种基于局部视觉逆势扰动产生可逆的对抗性实例的新方法。通过可逆数据隐藏技术将图像恢复所需的信息嵌入到超出对抗贴片之外的区域。为了降低图像失真并提高视觉质量,采用无损压缩和嵌入原理。 Imagenet DataSet上的实验表明,我们的方法可以在确保攻击性能的同时恢复无错误的原始图像。
translated by 谷歌翻译
Adversarial machine learning has been both a major concern and a hot topic recently, especially with the ubiquitous use of deep neural networks in the current landscape. Adversarial attacks and defenses are usually likened to a cat-and-mouse game in which defenders and attackers evolve over the time. On one hand, the goal is to develop strong and robust deep networks that are resistant to malicious actors. On the other hand, in order to achieve that, we need to devise even stronger adversarial attacks to challenge these defense models. Most of existing attacks employs a single $\ell_p$ distance (commonly, $p\in\{1,2,\infty\}$) to define the concept of closeness and performs steepest gradient ascent w.r.t. this $p$-norm to update all pixels in an adversarial example in the same way. These $\ell_p$ attacks each has its own pros and cons; and there is no single attack that can successfully break through defense models that are robust against multiple $\ell_p$ norms simultaneously. Motivated by these observations, we come up with a natural approach: combining various $\ell_p$ gradient projections on a pixel level to achieve a joint adversarial perturbation. Specifically, we learn how to perturb each pixel to maximize the attack performance, while maintaining the overall visual imperceptibility of adversarial examples. Finally, through various experiments with standardized benchmarks, we show that our method outperforms most current strong attacks across state-of-the-art defense mechanisms, while retaining its ability to remain clean visually.
translated by 谷歌翻译
Deepfakes的恶意应用(即,从面部图像产生目标面部属性或整个面部的技术)对个人的声誉和安全构成了巨大的威胁。为了减轻这些威胁,最近的研究已经提出了对抗DeepFake模型的对抗水印,导致它们产生扭曲的输出。尽管结果令人印象深刻,但这些对抗水印具有低的图像水平和模型级可转移性,这意味着它们可以仅保护一个特定的DeepFake模型的一个面部图像。为了解决这些问题,我们提出了一种新的解决方案,可以产生跨模型通用对抗水印(CMUA-Watermark),保护来自多个DeepFake模型的大量面部图像。具体而言,我们首先提出跨模型通用攻击管道,迭代地攻击多个DeepFake模型。然后,我们设计了一种双层扰动融合策略,以减轻不同面部图像和模型产生的对抗水印之间的冲突。此外,我们通过启发式方法解决了跨模型优化的关键问题,以自动找到不同型号的合适的攻击步骤尺寸,进一步削弱了模型级冲突。最后,我们介绍了一种更合理和全面的评估方法来完全测试所提出的方法并将其与现有的方法进行比较。广泛的实验结果表明,所提出的CMUA-Watermark可以有效地扭曲由多个DeepFake模型产生的假面部图像,同时实现比现有方法更好的性能。
translated by 谷歌翻译
脸部图像操纵方法,尽管计算机图形中具有许多有益的应用,但也可以通过影响个人的隐私或传播令人讨厌来提高担忧。在这项工作中,我们提出了一个主动的防御,以防止脸部操纵在第一处发生。为此,我们介绍了一种新的数据驱动方法,它产生嵌入在原始图像中的图像特定的扰动。关键的想法是,这些受保护的图像通过使操纵模型产生预定义的操纵目标(在我们的情况下均匀彩色的输出图像)而不是实际操作来防止面部操纵。与传统的逆势攻击相比,为单独优化每个图像的噪声模式,我们的广义模型只需要一个前向通过,从而运行幅度的序列更快并允许在图像处理堆栈中轻松集成,即使在智能手机等资源受限的设备上也可以轻松集成。此外,我们建议利用可分解的压缩近似,因此使产生的扰动鲁棒到常见的图像压缩。我们进一步表明,产生的扰动可以同时防止多种操纵方法。
translated by 谷歌翻译
The authors thank Nicholas Carlini (UC Berkeley) and Dimitris Tsipras (MIT) for feedback to improve the survey quality. We also acknowledge X. Huang (Uni. Liverpool), K. R. Reddy (IISC), E. Valle (UNICAMP), Y. Yoo (CLAIR) and others for providing pointers to make the survey more comprehensive.
translated by 谷歌翻译
在本文中,我们提出了一种防御策略,以通过合并隐藏的层表示来改善对抗性鲁棒性。这种防御策略的关键旨在压缩或过滤输入信息,包括对抗扰动。而且这种防御策略可以被视为一种激活函数,可以应用于任何类型的神经网络。从理论上讲,我们在某些条件下也证明了这种防御策略的有效性。此外,合并隐藏层表示,我们提出了三种类型的对抗攻击,分别生成三种类型的对抗示例。实验表明,我们的防御方法可以显着改善深神经网络的对抗性鲁棒性,即使我们不采用对抗性训练,也可以实现最新的表现。
translated by 谷歌翻译
最近的研究表明,深度神经网络(DNNS)极易受到精心设计的对抗例子的影响。对那些对抗性例子的对抗性学习已被证明是防御这种攻击的最有效方法之一。目前,大多数现有的对抗示例生成方法基于一阶梯度,这几乎无法进一步改善模型的鲁棒性,尤其是在面对二阶对抗攻击时。与一阶梯度相比,二阶梯度提供了相对于自然示例的损失格局的更准确近似。受此启发的启发,我们的工作制作了二阶的对抗示例,并使用它们来训练DNNS。然而,二阶优化涉及Hessian Inverse的耗时计算。我们通过将问题转换为Krylov子空间中的优化,提出了一种近似方法,该方法显着降低了计算复杂性以加快训练过程。在矿工和CIFAR-10数据集上进行的广泛实验表明,我们使用二阶对抗示例的对抗性学习优于其他FISRT-阶方法,这可以改善针对广泛攻击的模型稳健性。
translated by 谷歌翻译
我们已经调查了对抗性示例的新应用,即对地标识别系统的位置隐私保护。我们介绍了掩模引导的多模式投影梯度下降(MM-PGD),其中对抗示例在不同的深层模型上进行了培训。图像内容受到分析区域的特性,以识别最适合在对抗示例中混合的区域的性质。我们研究了两种区域识别策略:基于类激活图的MM-PGD,其中训练有素的深层模型的内部行为是针对的;和基于人视觉的MM-PGD,其中吸引人类注意力较少的地区的目标是针对的。Ploce365数据集的实验表明,这些策略在不需要大量图像操作的情况下可能有效地防御Black-Box Landmark识别系统。
translated by 谷歌翻译
最近,已经研究了深层图像分类模型对对抗攻击的脆弱性。但是,对于拍摄输入图像并生成输出图像的图像到图像的任务,尚未对此类问题进行彻底研究(例如,着色,denoing,Deblurring等)本文对深层图像的脆弱性进行了全面研究 - 对抗攻击的图像模型。对于五个流行的图像到图像任务,从各种角度分析了16个深层模型,例如由于攻击,跨不同任务的对抗性示例的转移性以及扰动的特征而引起的输出质量退化。我们表明,与图像分类任务不同,图像到图像任务上的性能下降在很大程度上取决于各种因素,例如攻击方法和任务目标。此外,我们分析了用于分类模型改善图像到图像模型的鲁棒性的常规防御方法的有效性。
translated by 谷歌翻译
有必要提高某些特殊班级的表现,或者特别保护它们免受对抗学习的攻击。本文提出了一个将成本敏感分类和对抗性学习结合在一起的框架,以训练可以区分受保护和未受保护的类的模型,以使受保护的类别不太容易受到对抗性示例的影响。在此框架中,我们发现在训练深神经网络(称为Min-Max属性)期间,一个有趣的现象,即卷积层中大多数参数的绝对值。基于这种最小的最大属性,该属性是在随机分布的角度制定和分析的,我们进一步建立了一个针对对抗性示例的新防御模型,以改善对抗性鲁棒性。构建模型的一个优点是,它的性能比标准模型更好,并且可以与对抗性训练相结合,以提高性能。在实验上证实,对于所有类别的平均准确性,我们的模型在没有发生攻击时几乎与现有模型一样,并且在发生攻击时比现有模型更好。具体而言,关于受保护类的准确性,提议的模型比发生攻击时的现有模型要好得多。
translated by 谷歌翻译
随着在各种算法和框架中更广泛地应用深度神经网络(DNN),安全威胁已成为其中之一。对抗性攻击干扰基于DNN的图像分类器,其中攻击者可以在其中故意添加不可察觉的对抗性扰动,以欺骗分类器。在本文中,我们提出了一种新颖的纯化方法,称为纯化的引导扩散模型(GDMP),以帮助保护分类器免受对抗性攻击。我们方法的核心是将纯化嵌入到deno的扩散概率模型(DDPM)的扩散denoisis过程中,以便其扩散过程可以逐渐添加的高斯噪声淹没对抗性的扰动,并且可以同时删除这两种声音。指导的deNoising过程。在我们在各个数据集中进行的全面实验中,提出的GDMP被证明可将对抗攻击造成的扰动降低到浅范围,从而显着提高了分类的正确性。 GDMP将鲁棒精度提高了5%,在CIFAR10数据集对PGD攻击下获得了90.1%。此外,GDMP在具有挑战性的Imagenet数据集上达到了70.94%的鲁棒性。
translated by 谷歌翻译
最近,深度神经网络(DNNS)在现实世界图像超分辨率(SR)方面取得了重大成功。但是,具有准侵蚀噪声的对抗图像样本可能威胁到深度学习的SR模型。在本文中,我们为现实世界SR提出了一个强大的深度学习框架,该框架随机消除了输入图像或功能的频域中潜在的对抗噪声。理由是,在SR任务上,清洁图像或功能与频域中受攻击的图案不同。观察到现有的对抗攻击通常会为输入图像增加高频噪声,我们引入了一个新型的随机频率掩码模块,该模块可以以随机方式阻止可能包含有害扰动的高频组件。由于频率掩蔽不仅可能会破坏对抗性扰动,而且还会影响干净的图像中的尖锐细节,我们进一步基于图像的频域开发了对抗性样品分类器,以确定是否应用了提出的掩码模块。基于上述想法,我们设计了一个新颖的现实世界图像SR框架,该框架结合了建议的频率掩盖模块和所提出的对抗分类器与现有的超分辨率骨干网络。实验表明,我们所提出的方法对对抗性攻击更加不敏感,并且比现有模型和防御能力更稳定。
translated by 谷歌翻译
这项工作系统地调查了深度图像去噪者(DIDS)的对抗性稳健性,即,可以从嘈杂的观察中恢复地面真理的噪音,因对抗性扰动而变化。首先,为了评估DIDS的稳健性,我们提出了一种新的逆势攻击,即观察到的零平均攻击({\ SC obsatk}),对给定嘈杂的图像来制作对抗零均匀扰动。我们发现现有的确实容易受到{\ SC Obsatk}产生的对抗噪声。其次,为了强化犯罪,我们提出了一种对抗性培训策略,混合对抗训练({\ SC帽}),共同列车与对抗性和非对抗性嘈杂的数据做出,以确保重建质量很高,并且围绕非对抗性数据是局部光滑的。所得到的确实可以有效去除各种类型的合成和对抗性噪声。我们还发现,DIDS的稳健性使其在看不见的真实噪音上的概括能力。实际上,{\ SC帽子} -Tromed DID可以从真实世界的噪音中恢复高质量的清洁图像,即使没有真正的嘈杂数据训练。基准数据集的广泛实验,包括SET68,PolyU和SIDD,证实了{\ SC Obsatk}和{\ SC帽}的有效性。
translated by 谷歌翻译
人群计数已被广泛用于估计安全至关重要的场景中的人数,被证明很容易受到物理世界中对抗性例子的影响(例如,对抗性斑块)。尽管有害,但对抗性例子也很有价值,对于评估和更好地理解模型的鲁棒性也很有价值。但是,现有的对抗人群计算的对抗性示例生成方法在不同的黑盒模型之间缺乏强大的可传递性,这限制了它们对现实世界系统的实用性。本文提出了与模型不变特征正相关的事实,本文提出了感知的对抗贴片(PAP)生成框架,以使用模型共享的感知功能来定制对对抗性的扰动。具体来说,我们将一种自适应人群密度加权方法手工制作,以捕获各种模型中不变的量表感知特征,并利用密度引导的注意力来捕获模型共享的位置感知。证明它们都可以提高我们对抗斑块的攻击性转移性。广泛的实验表明,我们的PAP可以在数字世界和物理世界中实现最先进的进攻性能,并且以大幅度的优于以前的提案(最多+685.7 MAE和+699.5 MSE)。此外,我们从经验上证明,对我们的PAP进行的对抗训练可以使香草模型的性能受益,以减轻人群计数的几个实际挑战,包括跨数据集的概括(高达-376.0 MAE和-376.0 MAE和-354.9 MSE)和对复杂背景的鲁棒性(上升)至-10.3 MAE和-16.4 MSE)。
translated by 谷歌翻译
基于深度神经网络(DNN)的智能信息(IOT)系统已被广泛部署在现实世界中。然而,发现DNNS易受对抗性示例的影响,这提高了人们对智能物联网系统的可靠性和安全性的担忧。测试和评估IOT系统的稳健性成为必要和必要。最近已经提出了各种攻击和策略,但效率问题仍未纠正。现有方法是计算地广泛或耗时,这在实践中不适用。在本文中,我们提出了一种称为攻击启发GaN(AI-GaN)的新框架,在有条件地产生对抗性实例。曾经接受过培训,可以有效地给予对抗扰动的输入图像和目标类。我们在白盒设置的不同数据集中应用AI-GaN,黑匣子设置和由最先进的防御保护的目标模型。通过广泛的实验,AI-GaN实现了高攻击成功率,优于现有方法,并显着降低了生成时间。此外,首次,AI-GaN成功地缩放到复杂的数据集。 Cifar-100和Imagenet,所有课程中的成功率约为90美元。
translated by 谷歌翻译
Video classification systems are vulnerable to adversarial attacks, which can create severe security problems in video verification. Current black-box attacks need a large number of queries to succeed, resulting in high computational overhead in the process of attack. On the other hand, attacks with restricted perturbations are ineffective against defenses such as denoising or adversarial training. In this paper, we focus on unrestricted perturbations and propose StyleFool, a black-box video adversarial attack via style transfer to fool the video classification system. StyleFool first utilizes color theme proximity to select the best style image, which helps avoid unnatural details in the stylized videos. Meanwhile, the target class confidence is additionally considered in targeted attacks to influence the output distribution of the classifier by moving the stylized video closer to or even across the decision boundary. A gradient-free method is then employed to further optimize the adversarial perturbations. We carry out extensive experiments to evaluate StyleFool on two standard datasets, UCF-101 and HMDB-51. The experimental results demonstrate that StyleFool outperforms the state-of-the-art adversarial attacks in terms of both the number of queries and the robustness against existing defenses. Moreover, 50% of the stylized videos in untargeted attacks do not need any query since they can already fool the video classification model. Furthermore, we evaluate the indistinguishability through a user study to show that the adversarial samples of StyleFool look imperceptible to human eyes, despite unrestricted perturbations.
translated by 谷歌翻译
Deep learning methods have gained increased attention in various applications due to their outstanding performance. For exploring how this high performance relates to the proper use of data artifacts and the accurate problem formulation of a given task, interpretation models have become a crucial component in developing deep learning-based systems. Interpretation models enable the understanding of the inner workings of deep learning models and offer a sense of security in detecting the misuse of artifacts in the input data. Similar to prediction models, interpretation models are also susceptible to adversarial inputs. This work introduces two attacks, AdvEdge and AdvEdge$^{+}$, that deceive both the target deep learning model and the coupled interpretation model. We assess the effectiveness of proposed attacks against two deep learning model architectures coupled with four interpretation models that represent different categories of interpretation models. Our experiments include the attack implementation using various attack frameworks. We also explore the potential countermeasures against such attacks. Our analysis shows the effectiveness of our attacks in terms of deceiving the deep learning models and their interpreters, and highlights insights to improve and circumvent the attacks.
translated by 谷歌翻译
虽然深度神经网络在各种任务中表现出前所未有的性能,但对对抗性示例的脆弱性阻碍了他们在安全关键系统中的部署。许多研究表明,即使在黑盒设置中也可能攻击,其中攻击者无法访问目标模型的内部信息。大多数黑匣子攻击基于查询,每个都可以获得目标模型的输入输出,并且许多研究侧重于减少所需查询的数量。在本文中,我们注意了目标模型的输出完全对应于查询输入的隐含假设。如果将某些随机性引入模型中,它可以打破假设,因此,基于查询的攻击可能在梯度估计和本地搜索中具有巨大的困难,这是其攻击过程的核心。从这种动机来看,我们甚至观察到一个小的添加剂输入噪声可以中和大多数基于查询的攻击和名称这个简单但有效的方法小噪声防御(SND)。我们分析了SND如何防御基于查询的黑匣子攻击,并展示其与CIFAR-10和ImageNet数据集的八种最先进的攻击有效性。即使具有强大的防御能力,SND几乎保持了原始的分类准确性和计算速度。通过在推断下仅添加一行代码,SND很容易适用于预先训练的模型。
translated by 谷歌翻译