研究深度学习的鲁棒性的一个主要挑战是定义了给定神经网络(NN)不变的``毫无意义''扰动集。关于鲁棒性的大多数工作隐含地将人作为参考模型来定义这种扰动。我们的工作通过使用另一个参考NN来定义给定的NN应该不变,从而使对任何NN的依赖概述对任何NN的依赖。这使得衡量鲁棒性等同于衡量两个NN共享不稳定的程度,我们提出了一种称为搅拌的措施。搅拌重新调整现有的表示相似性措施,使其适合衡量共享的不稳定。使用我们的度量,我们能够深入了解共享的不断增长,随着重量初始化,体系结构,损失功能和培训数据集的变化如何变化。我们的实现可在:\ url {https://github.com/nvedant07/stir}中获得。
translated by 谷歌翻译
我们争辩说,当模型学习\ texit {good}表示时,我们应该有一个有价值的视角是,应该由人类类似地观察到模型的类似表示的输入。我们使用\ textit {表示反转}来生成映射到相同模型表示的多个输入,然后通过人类调查量化这些输入的感知相似性。我们的方法产生了模型与人类感知对齐的程度的衡量标准。使用这种对准度量,我们评估了用各种学习范例(例如〜监督和自我监督学习)和不同培训损失(标准和强大培训)培训的模型。我们的研究结果表明,具有人类感知的表现的对齐提供了对模型的品质的有用的额外见解。例如,我们发现与人类感知的对齐可以用作模型对不同模型对输出冲突的输入的模型预测的信任的量度。我们还发现模型的各种属性,如其架构,培训范式,培训损失和数据增强在与人类感知一致的学习陈述中起着重要作用。
translated by 谷歌翻译
代表学习,即对下游应用有用的表示形式的产生,是一项基本重要性的任务,它是深层神经网络(DNNS)成功的基础。最近,对对抗性例子的鲁棒性已成为DNNS的理想特性,促进了解释对抗性例子的强大训练方法的发展。在本文中,我们旨在了解通过鲁棒培训所学的表示的特性与从标准的,非运动培训获得的培训的特性不同。这对于诊断稳健网络中的众多显着陷阱至关重要,例如,良性输入的性能降解,鲁棒性的概括不良以及过度拟合的增加。我们利用一组强大的工具在三个视觉数据集中被称为表示相似性指标,以获得具有不同体系结构,培训程序和对抗性约束的稳健和非稳健DNN之间的层次比较。我们的实验突出显示了迄今为止稳健表示的属性,我们认为,这是强大网络的行为差异的基础。我们发现在强大的网络的表示中缺乏专业化以及“块结构”的消失。我们还发现在强大的训练中过度拟合会在很大程度上影响更深的层。这些以及其他发现还为更好的健壮网络的设计和培训提出了前进的方向。
translated by 谷歌翻译
Explainability has been widely stated as a cornerstone of the responsible and trustworthy use of machine learning models. With the ubiquitous use of Deep Neural Network (DNN) models expanding to risk-sensitive and safety-critical domains, many methods have been proposed to explain the decisions of these models. Recent years have also seen concerted efforts that have shown how such explanations can be distorted (attacked) by minor input perturbations. While there have been many surveys that review explainability methods themselves, there has been no effort hitherto to assimilate the different methods and metrics proposed to study the robustness of explanations of DNN models. In this work, we present a comprehensive survey of methods that study, understand, attack, and defend explanations of DNN models. We also present a detailed review of different metrics used to evaluate explanation methods, as well as describe attributional attack and defense methods. We conclude with lessons and take-aways for the community towards ensuring robust explanations of DNN model predictions.
translated by 谷歌翻译
了解深度神经网络(DNN)中的黑匣子表示是深度学习的重要问题。在这项工作中,我们提出了基于图形的相似性(GBS)来测量层特征的相似性。与之前的作品相反,在特征映射上直接计算相似度,GBS根据具有隐藏图层输出构造的图形来测量相关性。通过将每个输入样本视为节点和对应的层输出相似度作为边缘,我们构造了每层的DNN表示图。图层之间的相似性识别在不同数据集和初始化中培训的模型的表示之间的对应关系。我们展示并证明了GB的不变性属性,包括与各向同性缩放的正交转换和不变性的不变性,并与CKA进行比较GBS。 GBS显示了最先进的性能,反映了相似性,并提供了关于解释隐藏层空间上的对抗性样本行为的见解。
translated by 谷歌翻译
We show that there may exist an inherent tension between the goal of adversarial robustness and that of standard generalization. Specifically, training robust models may not only be more resource-consuming, but also lead to a reduction of standard accuracy. We demonstrate that this trade-off between the standard accuracy of a model and its robustness to adversarial perturbations provably exists in a fairly simple and natural setting. These findings also corroborate a similar phenomenon observed empirically in more complex settings. Further, we argue that this phenomenon is a consequence of robust classifiers learning fundamentally different feature representations than standard classifiers. These differences, in particular, seem to result in unexpected benefits: the representations learned by robust models tend to align better with salient data characteristics and human perception.
translated by 谷歌翻译
我们识别普遍对抗扰动(UAP)的性质,将它们与标准的对抗性扰动区分开来。具体而言,我们表明,由投影梯度下降产生的靶向UAPS表现出两种人对齐的特性:语义局部性和空间不变性,标准的靶向对抗扰动缺乏。我们还证明,除标准对抗扰动之外,UAPS含有明显较低的泛化信号 - 即,UAPS在比标准的对抗的扰动的较小程度上利用非鲁棒特征。
translated by 谷歌翻译
(非)神经网络到小,对抗像素明智的扰动的鲁棒性,并且最近示出了甚至是随机空间转换(例如,翻译,旋转)恳求理论和经验理解。通过等级模型(例如,STDCNNS,GCNN)和训练增强,通常实现了随机翻译和旋转的空间鲁棒性,而普遍鲁棒性通常通过对抗性训练来实现。在本文中,我们在简单的统计环境中证明了空间和对抗性鲁棒性之间的定量折衷。我们通过展示:(a)随着等效模型的空间稳健性通过逐步培训更大的转化来改善,它们的对抗鲁棒性逐渐恶化,并且(b)随着最先进的强大模型是对抗的具有较大的像素明智的扰动训练,它们的空间鲁棒性逐渐下降。在此权衡中实现帕累托 - 最优性,我们提出了一种基于课程学习的方法,该方法逐步列举更加困难的扰动(空间和对抗性),以同时改善空间和对抗鲁棒性。
translated by 谷歌翻译
Recent work has demonstrated that deep neural networks are vulnerable to adversarial examples-inputs that are almost indistinguishable from natural data and yet classified incorrectly by the network. In fact, some of the latest findings suggest that the existence of adversarial attacks may be an inherent weakness of deep learning models. To address this problem, we study the adversarial robustness of neural networks through the lens of robust optimization. This approach provides us with a broad and unifying view on much of the prior work on this topic. Its principled nature also enables us to identify methods for both training and attacking neural networks that are reliable and, in a certain sense, universal. In particular, they specify a concrete security guarantee that would protect against any adversary. These methods let us train networks with significantly improved resistance to a wide range of adversarial attacks. They also suggest the notion of security against a first-order adversary as a natural and broad security guarantee. We believe that robustness against such well-defined classes of adversaries is an important stepping stone towards fully resistant deep learning models. 1
translated by 谷歌翻译
对对抗性攻击的鲁棒性通常以对抗精度评估。但是,该指标太粗糙,无法正确捕获机器学习模型的所有鲁棒性。当对强烈的攻击进行评估时,许多防御能力并不能提供准确的改进,同时仍会部分贡献对抗性鲁棒性。流行的认证方法遇到了同一问题,因为它们提供了准确性的下限。为了捕获更精细的鲁棒性属性,我们提出了一个针对L2鲁棒性,对抗角稀疏性的新指标,该指标部分回答了“输入周围有多少个对抗性示例”的问题。我们通过评估“强”和“弱”的防御能力来证明其有用性。我们表明,一些最先进的防御能力具有非常相似的精度,在它们不强大的输入上可能具有截然不同的稀疏性。我们还表明,一些弱防御能力实际上会降低鲁棒性,而另一些防御能力则以无法捕获的准确性来加强它。这些差异可以预测这种防御与对抗性训练相结合时的实用性。
translated by 谷歌翻译
尽管在构建强大的神经网络方面具有明显的计算优势,但使用单步方法的对抗训练(AT)是不稳定的,因为它遭受了灾难性的过度拟合(CO):网络在对抗性训练的第一阶段获得了非平凡的鲁棒性,但突然达到了一个阶段在几次迭代中,他们很快失去了所有鲁棒性。尽管有些作品成功地预防了CO,但导致这种显着失败模式的不同机制仍然很少理解。但是,在这项工作中,我们发现数据结构与AT动力学之间的相互作用在CO中起着基本作用。特别是,通过对自然图像的典型数据集进行主动干预,我们建立了一个因果关系。在方法上单步中的数据和CO的发作。这种新的观点提供了对导致CO的机制的重要见解,并为更好地理解强大模型构建的一般动态铺平了道路。可以在https://github.com/gortizji/co_features上找到复制本文实验的代码。
translated by 谷歌翻译
作为研究界,我们仍然缺乏对对抗性稳健性的进展的系统理解,这通常使得难以识别训练强大模型中最有前途的想法。基准稳健性的关键挑战是,其评估往往是出错的导致鲁棒性高估。我们的目标是建立对抗性稳健性的标准化基准,尽可能准确地反映出考虑在合理的计算预算范围内所考虑的模型的稳健性。为此,我们首先考虑图像分类任务并在允许的型号上引入限制(可能在将来宽松)。我们评估了与AutoAtrack的对抗鲁棒性,白和黑箱攻击的集合,最近在大规模研究中显示,与原始出版物相比,改善了几乎所有稳健性评估。为防止对自动攻击进行新防御的过度适应,我们欢迎基于自适应攻击的外部评估,特别是在自动攻击稳健性潜在高估的地方。我们的排行榜,托管在https://robustbench.github.io/,包含120多个模型的评估,并旨在反映在$ \ ell_ \ infty $的一套明确的任务上的图像分类中的当前状态 - 和$ \ ell_2 $ -Threat模型和共同腐败,未来可能的扩展。此外,我们开源源是图书馆https://github.com/robustbench/robustbench,可以提供对80多个强大模型的统一访问,以方便他们的下游应用程序。最后,根据收集的模型,我们分析了稳健性对分布换档,校准,分配检测,公平性,隐私泄漏,平滑度和可转移性的影响。
translated by 谷歌翻译
对共同腐败的稳健性的文献表明对逆势培训是否可以提高这种环境的性能,没有达成共识。 First, we show that, when used with an appropriately selected perturbation radius, $\ell_p$ adversarial training can serve as a strong baseline against common corruptions improving both accuracy and calibration.然后,我们解释了为什么对抗性训练比具有简单高斯噪声的数据增强更好地表现,这被观察到是对共同腐败的有意义的基线。与此相关,我们确定了高斯增强过度适用于用于培训的特定标准偏差的$ \ sigma $ -oviting现象,这对培训具有显着不利影响的普通腐败精度。我们讨论如何缓解这一问题,然后如何通过学习的感知图像贴片相似度引入对抗性训练的有效放松来进一步增强$ \ ell_p $普发的培训。通过对CiFar-10和Imagenet-100的实验,我们表明我们的方法不仅改善了$ \ ell_p $普发的培训基线,而且还有累积的收益与Augmix,Deepaulment,Ant和Sin等数据增强方法,导致普通腐败的最先进的表现。我们的实验代码在HTTPS://github.com/tml-epfl/adv-training - 窗子上公开使用。
translated by 谷歌翻译
用于计算机视觉任务的深度神经网络在越来越安全 - 严重和社会影响的应用中部署,激励需要在各种,天然存在的成像条件下关闭模型性能的差距。在包括对抗机器学习的多种上下文中尤为色难地使用的鲁棒性,然后指在自然诱导的图像损坏或改变下保持模型性能。我们进行系统审查,以识别,分析和总结当前定义以及对计算机愿景深度学习中的非对抗鲁棒性的进展。我们发现,该研究领域已经收到了相对于对抗机器学习的不成比例地注意力,但存在显着的稳健性差距,这些差距通常表现在性能下降中与对抗条件相似。为了在上下文中提供更透明的稳健性定义,我们引入了数据生成过程的结构因果模型,并将非对抗性鲁棒性解释为模型在损坏的图像上的行为,其对应于来自未纳入数据分布的低概率样本。然后,我们确定提高神经网络鲁棒性的关键架构,数据增强和优化策略。这种稳健性的这种因果观察表明,目前文献中的常见做法,关于鲁棒性策略和评估,对应于因果概念,例如软干预导致成像条件的决定性分布。通过我们的调查结果和分析,我们提供了对未来研究如何可能介意这种明显和显着的非对抗的鲁棒性差距的观点。
translated by 谷歌翻译
在过去的十年中,基于深度学习的网络在包括图像分类在内的许多任务中取得了前所未有的成功。尽管取得了非凡的成就,但最近的研究表明,这种网络很容易被小小的恶意扰动(也称为对抗性例子)所愚弄。这种安全弱点导致广泛的研究旨在获得强大的模型。除了此类模型的明显鲁棒性优势之外,还观察到,它们相对于人类感知的梯度。几项作品已将感知一致的梯度(PAG)确定为强大训练的副产品,但没有人认为它是独立现象,也没有研究其自身的含义。在这项工作中,我们专注于这种特征,并测试感知一致性梯度是否暗示着稳健性。为此,我们开发了一个新颖的目标,可以直接在训练分类器中促进PAG,并检查具有此类梯度的模型是否对对抗性攻击更强大。关于CIFAR-10和STL的广泛实验验证了此类模型可以提高稳健性能,从而揭示了PAG和稳健性之间令人惊讶的双向连接。
translated by 谷歌翻译
与标准的训练时间相比,训练时间非常长,尤其是针对稳健模型的主要缺点,尤其是对于大型数据集而言。此外,模型不仅应适用于一个$ l_p $ - 威胁模型,而且对所有模型来说都是理想的。在本文中,我们提出了基于$ l_p $ -Balls的几何特性的多元素鲁棒性的极端规范对抗训练(E-AT)。 E-AT的成本比其他对抗性训练方法低三倍,以进行多种锻炼。使用e-at,我们证明,对于ImageNet,单个时期和CIFAR-10,三个时期足以将任何$ L_P $ - 抛光模型变成一个多符号鲁棒模型。通过这种方式,我们获得了ImageNet的第一个多元素鲁棒模型,并在CIFAR-10上提高了多个Norm鲁棒性的最新型号,以超过$ 51 \%$。最后,我们通过对不同单独的$ l_p $ threat模型之间的对抗鲁棒性进行微调研究一般的转移,并改善了Cifar-10和Imagenet上的先前的SOTA $ L_1 $ - 固定。广泛的实验表明,我们的计划在包括视觉变压器在内的数据集和架构上起作用。
translated by 谷歌翻译
现有针对对抗性示例(例如对抗训练)的防御能力通常假设对手将符合特定或已知的威胁模型,例如固定预算内的$ \ ell_p $扰动。在本文中,我们关注的是在训练过程中辩方假设的威胁模型中存在不匹配的情况,以及在测试时对手的实际功能。我们问一个问题:学习者是否会针对特定的“源”威胁模型进行训练,我们什么时候可以期望鲁棒性在测试时间期间概括为更强大的未知“目标”威胁模型?我们的主要贡献是通过不可预见的对手正式定义学习和概括的问题,这有助于我们从常规的对手的传统角度来理解对抗风险的增加。应用我们的框架,我们得出了将源和目标威胁模型之间的概括差距与特征提取器变化相关联的概括,该限制衡量了在给定威胁模型中提取的特征之间的预期最大差异。基于我们的概括结合,我们提出了具有变化正则化(AT-VR)的对抗训练,该训练在训练过程中降低了特征提取器在源威胁模型中的变化。我们从经验上证明,与标准的对抗训练相比,AT-VR可以改善测试时间内的概括,从而无法预见。此外,我们将变异正则化与感知对抗训练相结合[Laidlaw等。 2021]以实现不可预见的攻击的最新鲁棒性。我们的代码可在https://github.com/inspire-group/variation-regularization上公开获取。
translated by 谷歌翻译
Adversarial examples have attracted significant attention in machine learning, but the reasons for their existence and pervasiveness remain unclear. We demonstrate that adversarial examples can be directly attributed to the presence of non-robust features: features (derived from patterns in the data distribution) that are highly predictive, yet brittle and (thus) incomprehensible to humans. After capturing these features within a theoretical framework, we establish their widespread existence in standard datasets. Finally, we present a simple setting where we can rigorously tie the phenomena we observe in practice to a misalignment between the (human-specified) notion of robustness and the inherent geometry of the data.
translated by 谷歌翻译
对抗性训练及其变体已成为使用神经网络实现对抗性稳健分类的普遍方法。但是,它的计算成本增加,以及标准性能和稳健性能之间的显着差距阻碍了进步,并提出了我们是否可以做得更好的问题。在这项工作中,我们退后一步,问:模型可以通过适当优化的集合通过标准培训来实现鲁棒性吗?为此,我们设计了一种用于鲁棒分类的元学习方法,该方法以原则性的方式在部署之前优化了数据集,并旨在有效地删除数据的非稳定部分。我们将优化方法作为内核回归的多步PGD程序进行了,其中一类核描述了无限宽的神经网(神经切线核-NTKS)。 MNIST和CIFAR-10的实验表明,当在内核回归分类器和神经网络中部署时,我们生成的数据集对PGD攻击都非常鲁棒性。但是,这种鲁棒性有些谬误,因为替代性攻击设法欺骗了模型,我们发现文献中以前的类似作品也是如此。我们讨论了这一点的潜在原因,并概述了进一步的研究途径。
translated by 谷歌翻译
Deep learning algorithms have been shown to perform extremely well on many classical machine learning problems. However, recent studies have shown that deep learning, like other machine learning techniques, is vulnerable to adversarial samples: inputs crafted to force a deep neural network (DNN) to provide adversary-selected outputs. Such attacks can seriously undermine the security of the system supported by the DNN, sometimes with devastating consequences. For example, autonomous vehicles can be crashed, illicit or illegal content can bypass content filters, or biometric authentication systems can be manipulated to allow improper access. In this work, we introduce a defensive mechanism called defensive distillation to reduce the effectiveness of adversarial samples on DNNs. We analytically investigate the generalizability and robustness properties granted by the use of defensive distillation when training DNNs. We also empirically study the effectiveness of our defense mechanisms on two DNNs placed in adversarial settings. The study shows that defensive distillation can reduce effectiveness of sample creation from 95% to less than 0.5% on a studied DNN. Such dramatic gains can be explained by the fact that distillation leads gradients used in adversarial sample creation to be reduced by a factor of 10 30 . We also find that distillation increases the average minimum number of features that need to be modified to create adversarial samples by about 800% on one of the DNNs we tested.
translated by 谷歌翻译