对手补丁攻击旨在通过在输入图像的限制区域内任意修改像素来欺骗机器学习模型。这种攻击是对部署在物理世界中的模型的主要威胁,因为通过在相机视图中呈现自定义对象,可以容易地实现它们。由于补丁的任意性,防止这种攻击措施是挑战,并且现有的可提供防御遭受较差的认证准确性。本文提出了根据视觉变压器(VIV)模型的对抗对抗斑块的零点认证防御。而不是训练强大的模型来抵抗可能不可避免地牺牲精度的对抗斑块,而是在没有任何额外训练的情况下重用预纯的VIT模型,这可以通过简单地操纵Vit的注意力地图来达到清洁输入的高精度。具体地,通过用不同的关注掩模投票来测试每个输入,其中至少有一个推断被保证排除对抗修补程序。如果所有掩蔽的推迟达到共识,则预测是可疑的,这确保了不会用假阴性检测到任何对抗性贴剂。广泛的实验表明,PACKVETO能够实现高认证的准确性(例如,在Imagenet中为2%-pixel对抗性贴片的67.1%),显着优于最先进的方法。清洁精度与Vanilla Vit模型相同(想象成81.8%),因​​为模型参数直接重复使用。同时,通过简单地改变掩蔽策略,我们的方法可以灵活地处理不同的对抗斑块尺寸。
translated by 谷歌翻译
在输入图像的限制区域中工艺像素的对抗贴片攻击在物理环境中表明了它们在物理环境中的强大攻击效果。现有的认证防御对逆势补丁攻击的攻击良好,如MNIST和CIFAR-10数据集,但在图像上的更高分辨率图像上达到非常差的认证准确性。迫切需要在行业级更大的图像中针对这种实际和有害的攻击设计强大和有效的防御。在这项工作中,我们提出了认证的国防方法,以实现高分辨率图像的高可规范稳健性,并且在很大程度上提高了真正采用认证国防的实用性。我们的工作的基本洞察力是对抗性补丁打算利用局部表面的重要神经元(SIN)来操纵预测结果。因此,我们利用基于SIN的DNN压缩技术来通过减少搜索开销和过滤预测噪声的对抗区域来显着提高认证准确性。我们的实验结果表明,认证准确性从想象成数据集中的36.3%(最先进的认证检测)增加到60.4%,在很大程度上推动了实际使用的认证防御。
translated by 谷歌翻译
对抗性补丁攻击是现实世界深度学习应用程序的新兴安全威胁。我们提出了戴定的平滑,这是第一种(符合我们的知识),以证明语义分割模型与此威胁模型的鲁棒性。以前关于防御补丁攻击的辩护的工作主要集中在图像分类任务上,并且经常需要更改模型体系结构和其他培训,而这些培训是不受欢迎且计算上昂贵的。在被删除的平滑度中,可以在没有特定培训,微调或限制体系结构的情况下应用任何分割模型。使用不同的掩盖策略,可以将拔掉的平滑措施应用于认证检测和认证恢复。在广泛的实验中,我们表明,在检测任务中,平均可以证明1%补丁的像素预测的64%,而在ADE20K数据集中恢复任务的0.5%贴片为48%。
translated by 谷歌翻译
由于缺乏对AI模型的安全性和鲁棒性的信任,近年来,深度学习模型(尤其是针对安全至关重要的系统)中的对抗性攻击正在越来越受到关注。然而,更原始的对抗性攻击可能是身体上不可行的,或者需要一些难以访问的资源,例如训练数据,这激发了斑块攻击的出现。在这项调查中,我们提供了全面的概述,以涵盖现有的对抗贴片攻击技术,旨在帮助感兴趣的研究人员迅速赶上该领域的进展。我们还讨论了针对对抗贴片的检测和防御措施的现有技术,旨在帮助社区更好地了解该领域及其在现实世界中的应用。
translated by 谷歌翻译
对图像分类的侵扰贴片攻击攻击图像的深度神经网络(DNN),其在图像的有界区域内注射任意扭曲,可以产生鲁棒(IE在物理世界中的侵犯)和普遍(即,在任何情况下保持对抗的侵犯扰动输入)。这种攻击可能导致现实世界的DNN系统中的严重后果。这项工作提出了jujutsu,一种检测和减轻稳健和普遍的对抗性补丁攻击的技术。对于检测,jujutsu利用攻击“通用属性 - jujutsu首先定位潜在的对抗性补丁区域,然后策略性地将其传送到新图像中的专用区域,以确定它是否真正恶意。对于攻击缓解,jujutsu通过图像修正来利用攻击本地化性质,以在攻击损坏的像素中综合语义内容,并重建“清洁”图像。我们在四个不同的数据集中评估jujutsu(想象成,想象力,celeba和place365),并表明Jujutsu实现了卓越的性能,并且显着优于现有技术。我们发现jujutsu可以进一步防御基本攻击的不同变体,包括1)物理攻击; 2)目标不同课程的攻击; 3)攻击构造不同形状和4)适应攻击的修补程序。
translated by 谷歌翻译
对抗斑块攻击通过在指定的局部区域中注入对抗像素来误导神经网络。补丁攻击可以在各种任务中非常有效,并且可以通过附件(例如贴纸)在现实世界对象上实现。尽管攻击模式的多样性,但对抗斑块往往具有高质感,并且外观与自然图像不同。我们利用此属性,并在patchzero上进行patchzero,这是一种针对白色框对面补丁的任务不合时宜的防御。具体而言,我们的防御通过用平均像素值重新粉刷来检测对抗性像素和“零”斑块区域。我们将补丁检测问题作为语义分割任务提出,以便我们的模型可以推广到任何大小和形状的贴片。我们进一步设计了一个两阶段的对抗训练计划,以防止更强烈的适应性攻击。我们在图像分类(ImageNet,resisc45),对象检测(Pascal VOC)和视频分类(UCF101)数据集上彻底评估PatchZero。我们的方法可实现SOTA的稳健精度,而不会在良性表现中降解。
translated by 谷歌翻译
深度神经网络容易受到来自对抗性投入的攻击,并且最近,特洛伊木马误解或劫持模型的决定。我们通过探索有界抗逆性示例空间和生成的对抗网络内的自然输入空间来揭示有界面的对抗性实例 - 通用自然主义侵害贴片的兴趣类 - 我们呼叫TNT。现在,一个对手可以用一个自然主义的补丁来手臂自己,不太恶意,身体上可实现,高效 - 实现高攻击成功率和普遍性。 TNT是普遍的,因为在场景中的TNT中捕获的任何输入图像都将:i)误导网络(未确定的攻击);或ii)迫使网络进行恶意决定(有针对性的攻击)。现在,有趣的是,一个对抗性补丁攻击者有可能发挥更大的控制水平 - 选择一个独立,自然的贴片的能力,与被限制为嘈杂的扰动的触发器 - 到目前为止只有可能与特洛伊木马攻击方法有可能干扰模型建设过程,以嵌入风险发现的后门;但是,仍然意识到在物理世界中部署的补丁。通过对大型视觉分类任务的广泛实验,想象成在其整个验证集50,000张图像中进行评估,我们展示了TNT的现实威胁和攻击的稳健性。我们展示了攻击的概括,以创建比现有最先进的方法实现更高攻击成功率的补丁。我们的结果表明,攻击对不同的视觉分类任务(CIFAR-10,GTSRB,PUBFIG)和多个最先进的深神经网络,如WieredEnet50,Inception-V3和VGG-16。
translated by 谷歌翻译
Object detectors, which are widely deployed in security-critical systems such as autonomous vehicles, have been found vulnerable to patch hiding attacks. An attacker can use a single physically-realizable adversarial patch to make the object detector miss the detection of victim objects and undermine the functionality of object detection applications. In this paper, we propose ObjectSeeker for certifiably robust object detection against patch hiding attacks. The key insight in ObjectSeeker is patch-agnostic masking: we aim to mask out the entire adversarial patch without knowing the shape, size, and location of the patch. This masking operation neutralizes the adversarial effect and allows any vanilla object detector to safely detect objects on the masked images. Remarkably, we can evaluate ObjectSeeker's robustness in a certifiable manner: we develop a certification procedure to formally determine if ObjectSeeker can detect certain objects against any white-box adaptive attack within the threat model, achieving certifiable robustness. Our experiments demonstrate a significant (~10%-40% absolute and ~2-6x relative) improvement in certifiable robustness over the prior work, as well as high clean performance (~1% drop compared with undefended models).
translated by 谷歌翻译
视觉变压器(VITS)具有与卷积神经网络相比,具有较小的感应偏置的根本不同的结构。随着绩效的提高,VIT的安全性和鲁棒性也非常重要。与许多最近利用VIT反对对抗性例子的鲁棒性的作品相反,本文调查了代表性的病因攻击,即后门。我们首先检查了VIT对各种后门攻击的脆弱性,发现VIT也很容易受到现有攻击的影响。但是,我们观察到,VIT的清洁数据准确性和后门攻击成功率在位置编码之前对补丁转换做出了明显的反应。然后,根据这一发现,我们为VIT提出了一种通过补丁处理来捍卫基于补丁的触发后门攻击的有效方法。在包括CIFAR10,GTSRB和Tinyimagenet在内的几个基准数据集上评估了这些表演,这些数据表明,该拟议的新颖防御在减轻VIT的后门攻击方面非常成功。据我们所知,本文提出了第一个防御性策略,该策略利用了反对后门攻击的VIT的独特特征。
translated by 谷歌翻译
对象检测在许多安全关键系统中播放关键作用。对抗性补丁攻击,在物理世界中易于实施,对最先进的对象探测器构成严重威胁。开发针对补丁攻击的对象探测器的可靠防御是至关重要的,但严重解读。在本文中,我们提出了段和完整的防御(SAC),是通过检测和消除对抗性补丁来保护对象探测器的一般框架。我们首先培训一个补丁分段器,输出补丁掩码,提供对抗性补丁的像素级定位。然后,我们提出了一种自我逆势训练算法来强制补丁分段器。此外,我们设计了一种坚固的形状完成算法,保证了给定贴片分段器的输出在地面真理贴片掩模的某个汉明距离的图像中从图像中移除整个修补程序。我们对Coco和Xview Datasets的实验表明,即使在具有清洁图像上没有性能下降的强大自适应攻击下,SAC也可以实现优越的稳健性,并且概括到未遵守的补丁形状,攻击预算和看不见的攻击方法。此外,我们介绍了股份模型数据集,该数据集增强了具有对抗修补程序的像素级注释的杏子数据集。我们展示SAC可以显着降低物理补丁攻击的目标攻击成功率。
translated by 谷歌翻译
The problem of adversarial defenses for image classification, where the goal is to robustify a classifier against adversarial examples, is considered. Inspired by the hypothesis that these examples lie beyond the natural image manifold, a novel aDversarIal defenSe with local impliCit functiOns (DISCO) is proposed to remove adversarial perturbations by localized manifold projections. DISCO consumes an adversarial image and a query pixel location and outputs a clean RGB value at the location. It is implemented with an encoder and a local implicit module, where the former produces per-pixel deep features and the latter uses the features in the neighborhood of query pixel for predicting the clean RGB value. Extensive experiments demonstrate that both DISCO and its cascade version outperform prior defenses, regardless of whether the defense is known to the attacker. DISCO is also shown to be data and parameter efficient and to mount defenses that transfers across datasets, classifiers and attacks.
translated by 谷歌翻译
视觉变压器(VIT)最近在各种视觉任务上表现出了典范的性能,并被用作CNN的替代方案。它们的设计基于一种自我发挥的机制,该机制将图像作为一系列斑块进行处理,与CNN相比,这是完全不同的。因此,研究VIT是否容易受到后门攻击的影响很有趣。当攻击者出于恶意目的,攻击者毒害培训数据的一小部分时,就会发生后门攻击。模型性能在干净的测试图像上很好,但是攻击者可以通过在测试时间显示触发器来操纵模型的决策。据我们所知,我们是第一个证明VIT容易受到后门攻击的人。我们还发现VIT和CNNS之间存在着有趣的差异 - 解释算法有效地突出了VIT的测试图像的触发因素,但没有针对CNN。基于此观察结果,我们提出了一个测试时间图像阻止VIT的防御,这将攻击成功率降低了很大。代码可在此处找到:https://github.com/ucdvision/backdoor_transformer.git
translated by 谷歌翻译
现实世界的对抗例(通常以补丁形式)对安全关键计算机视觉任务中的深度学习模型(如在自动驾驶中的视觉感知)中使用深度学习模型构成严重威胁。本文涉及用不同类型的对抗性斑块攻击时,对语义分割模型的稳健性进行了广泛的评价,包括数字,模拟和物理。提出了一种新的损失功能,提高攻击者在诱导像素错误分类方面的能力。此外,提出了一种新的攻击策略,提高了在场景中放置补丁的转换方法的期望。最后,首先扩展用于检测对抗性补丁的最先进的方法以应对语义分割模型,然后改进以获得实时性能,并最终在现实世界场景中进行评估。实验结果表明,尽管具有数字和真实攻击的对抗效果,其影响通常在空间上限制在补丁周围的图像区域。这将打开关于实时语义分段模型的空间稳健性的进一步疑问。
translated by 谷歌翻译
深度神经网络(DNN)通常批评易于对抗性攻击。大多数成功的防御策略采用对抗性培训或随机输入转换,通常需要重新调整或微调模型以实现合理的性能。在这项工作中,我们对预先训练的DNN的中间代表的调查导致了一个有趣的发现,指向对抗性攻击的内在鲁棒性。我们发现,我们可以通过统计表征中间层的神经响应来清洁训练样本来学习生成分类器。当聚合时,多种这样的中间层的分类器的预测显示出对抗对抗攻击的意外鲁棒性。具体而言,我们设计了这些生成分类器的集合,该分类器通过BORDA计数的共识来汇集其预测。我们所提出的方法使用清洁培训数据和预先训练的模型的子集,但对网络架构或对抗攻击生成方法不可知。我们显示广泛的实验,以确定我们的防务战略在想象网验证集中实现最先进的性能。
translated by 谷歌翻译
Although deep neural networks (DNNs) have achieved great success in many tasks, they can often be fooled by adversarial examples that are generated by adding small but purposeful distortions to natural examples. Previous studies to defend against adversarial examples mostly focused on refining the DNN models, but have either shown limited success or required expensive computation. We propose a new strategy, feature squeezing, that can be used to harden DNN models by detecting adversarial examples. Feature squeezing reduces the search space available to an adversary by coalescing samples that correspond to many different feature vectors in the original space into a single sample. By comparing a DNN model's prediction on the original input with that on squeezed inputs, feature squeezing detects adversarial examples with high accuracy and few false positives.This paper explores two feature squeezing methods: reducing the color bit depth of each pixel and spatial smoothing. These simple strategies are inexpensive and complementary to other defenses, and can be combined in a joint detection framework to achieve high detection rates against state-of-the-art attacks.
translated by 谷歌翻译
视觉变形金刚(VITS)处理将图像输入图像作为通过自我关注的斑块;比卷积神经网络(CNNS)彻底不同的结构。这使得研究Vit模型的对抗特征空间及其可转移性有趣。特别是,我们观察到通过常规逆势攻击发现的对抗性模式,即使对于大型Vit模型,也表现出非常低的黑箱可转移性。但是,我们表明这种现象仅是由于不利用VITS的真实表示潜力的次优攻击程序。深紫色由多个块组成,具有一致的架构,包括自我关注和前馈层,其中每个块能够独立地产生类令牌。仅使用最后一类令牌(传统方法)制定攻击并不直接利用存储在早期令牌中的辨别信息,从而导致VITS的逆势转移性差。使用Vit模型的组成性质,我们通过引入特定于Vit模型结构的两种新策略来增强现有攻击的可转移性。 (i)自我合奏:我们提出了一种通过将单vit模型解剖到网络的集合来找到多种判别途径的方法。这允许在每个VIT块处明确地利用特定于类信息。 (ii)令牌改进:我们建议改进令牌,以进一步增强每种Vit障碍的歧视能力。我们的令牌细化系统地将类令牌系统组合在补丁令牌中保留的结构信息。在一个视觉变压器中发现的分类器的集合中应用于此类精炼令牌时,对抗攻击具有明显更高的可转移性。
translated by 谷歌翻译
这项工作是对对使用Dino训练的自我监督视觉变压器的对抗性攻击的鲁棒性进行的首次分析。首先,我们评估通过自学学历的特征是否比受到监督学习中出现的人更强大。然后,我们介绍在潜在空间中攻击的属性。最后,我们评估了三种著名的防御策略是否可以通过微调分类头来提高下游任务中的对抗性鲁棒性,即使考虑到有限的计算资源,也可以提供鲁棒性。这些防御策略是:对抗性训练,合奏对抗训练和专业网络的合奏。
translated by 谷歌翻译
在本文中,我们询问视觉变形金刚(VIT)是否可以作为改善机器学习模型对抗逃避攻击的对抗性鲁棒性的基础结构。尽管较早的作品集中在改善卷积神经网络上,但我们表明VIT也非常适合对抗训练以实现竞争性能。我们使用自定义的对抗训练配方实现了这一目标,该配方是在Imagenet数据集的一部分上使用严格的消融研究发现的。与卷积相比,VIT的规范培训配方建议强大的数据增强,部分是为了补偿注意力模块的视力归纳偏置。我们表明,该食谱在用于对抗训练时可实现次优性能。相比之下,我们发现省略所有重型数据增强,并添加一些额外的零件($ \ varepsilon $ -Warmup和更大的重量衰减),从而大大提高了健壮的Vits的性能。我们表明,我们的配方在完整的Imagenet-1k上概括了不同类别的VIT体系结构和大规模模型。此外,调查了模型鲁棒性的原因,我们表明,在使用我们的食谱时,在训练过程中产生强烈的攻击更加容易,这会在测试时提高鲁棒性。最后,我们通过提出一种量化对抗性扰动的语义性质并强调其与模型的鲁棒性的相关性来进一步研究对抗训练的结果。总体而言,我们建议社区应避免将VIT的规范培训食谱转换为在对抗培训的背景下进行强大的培训和重新思考常见的培训选择。
translated by 谷歌翻译
最近的视觉变压器(VIT)的进步已经证明了其在图像分类中的令人印象深刻的性能,这使其成为卷积神经网络(CNN)的有希望的替代品。与CNN不同,VIT表示作为图像斑块序列的输入图像。 PATCH-WISE输入图像表示提出了以下问题:与CNN相比,当各个输入图像贴片扰乱自然损坏或对抗性扰动时,如何进行VIT vit表现在这项工作中,我们研究了视觉变形金刚的稳健性,以修补扰动。令人惊讶的是,我们发现视觉变压器对自然腐蚀的斑块比CNN更腐蚀,而它们更容易受到对抗性补丁的影响。此外,我们进行广泛的定性和定量实验,以了解修补扰动的鲁棒性。我们透露,Vit对天然腐蚀斑块的更强烈的稳健性以及对抗对抗性斑块的更高脆弱性都是由注意机制引起的。具体而言,注意模型可以通过有效地忽略自然腐蚀斑块来帮助改善视觉变压器的稳健性。然而,当视力变压器被对手攻击时,注意机制可以很容易地愚弄更多地关注对抗扰动的斑块并导致错误。
translated by 谷歌翻译
Adversarial examples that fool machine learning models, particularly deep neural networks, have been a topic of intense research interest, with attacks and defenses being developed in a tight back-and-forth. Most past defenses are best effort and have been shown to be vulnerable to sophisticated attacks. Recently a set of certified defenses have been introduced, which provide guarantees of robustness to normbounded attacks. However these defenses either do not scale to large datasets or are limited in the types of models they can support. This paper presents the first certified defense that both scales to large networks and datasets (such as Google's Inception network for ImageNet) and applies broadly to arbitrary model types. Our defense, called PixelDP, is based on a novel connection between robustness against adversarial examples and differential privacy, a cryptographically-inspired privacy formalism, that provides a rigorous, generic, and flexible foundation for defense.
translated by 谷歌翻译