本文提供了统一的观点来解释不同的对抗攻击和防御方法,\ emph {i.e.} DNN的输入变量之间的多阶交互的视图。根据多阶互动,我们发现对抗性攻击主要影响愚弄DNN的高阶相互作用。此外,我们发现前列培训的DNN的鲁棒性来自特定于类别的低阶交互。我们的研究结果提供了统一对抗的扰动和鲁棒性的潜在方法,可以以原则方式解释现有的防御方法。此外,我们的调查结果还修订了先前的不准确了解对抗普遍学习特征的偏差。
translated by 谷歌翻译
本文提供了一个统一的观点来解释不同的逆势攻击和防御方法,即DNN的输入变量之间的多阶交互的视图。根据多阶互动,我们发现对抗性攻击主要影响愚弄DNN的高阶相互作用。此外,我们发现前列培训的DNN的鲁棒性来自特定于类别的低阶交互。我们的研究结果提供了统一对抗的扰动和鲁棒性的潜在方法,可以以原则方式解释现有的防御方法。此外,我们的调查结果还修订了先前的不准确了解对抗普遍学习特征的偏差。
translated by 谷歌翻译
本文探讨了深度神经网络(DNN)的特征表示的瓶颈,从DNN中编码的输入变量之间的相互作用的复杂性的角度来看。为此,我们专注于输入变量之间的多阶交互,其中顺序表示交互的复杂性。我们发现DNN更有可能编码过于简单的相互作用和过于复杂的相互作用,但通常无法学习中间复杂性的相互作用。这种现象被不同的DNN广泛共享,用于不同的任务。这种现象表明了DNN和人类之间的认知差距,我们称之为瓶颈。理论上,理论上证明了代表瓶颈的潜在原因。此外,我们提出了鼓励/惩罚特定复杂性的相互作用的损失,并分析不同复杂性相互作用的表示能力。
translated by 谷歌翻译
尽管已经提出了许多方法来增强对抗性扰动的可转移性,但这些方法是以启发式方式设计的,并且尚不清楚改善对抗性转移性的基本机制。本文总结了在统一视图中以十二个以前的可传递性提高方法共享的共同机制,即这些方法都减少了区域对抗性扰动之间的游戏理论相互作用。为此,我们专注于区域对抗扰动之间所有相互作用的攻击效用,我们首先发现并证明了对抗传递性与相互作用的攻击效用之间的负相关性。基于这一发现,我们从理论上证明并从经验上验证了十二种以前的可传递性提高方法均减少了区域对抗扰动之间的相互作用。更重要的是,我们将相互作用的减少视为增强对抗性转移性的基本原因。此外,我们设计了交互损失,以直接惩罚攻击过程中区域对抗扰动之间的相互作用。实验结果表明,相互作用损失显着提高了对抗扰动的转移性。
translated by 谷歌翻译
在本文中,我们评估了用于3D点云处理的深神经网络(DNN)中编码的知识表示的质量。我们提出了一种方法来解开整体模型脆弱性进入旋转,翻译,尺度和局部3D结构的敏感性。此外,我们还提出了指标来评估编码3D结构的空间平滑度,以及DNN的表示复杂性。基于此类分析,实验将揭示经典DNN的表现问题,并解释对抗性培训的效用。
translated by 谷歌翻译
本文提出了分层和符号和或图形(AOG),客观地解释由训练有素的深层模型进行推理的内部逻辑。我们首先定义博弈论中解释器模型的客观性,我们开发了深层模型编码的逻辑和逻辑的严格表示。AOG解释者的客观性和可信度在理论上和实验验证。此外,我们提出了几种技术来提升解释的简明。
translated by 谷歌翻译
本文提出了一种可视化DNN编码的中间层视觉模式的辨别力的方法。具体而言,我们可视化(1)DNN在训练过程中如何逐渐学习各个中间层中的区域视觉模式,(2)DNN使用低层中的非辨别模式的效果来构建中/高层中的剥离图案通过前向传播。基于我们的可视化方法,我们可以量化DNN学习的知识点(即,判别视觉模式的数量)来评估DNN的表示能力。此外,该方法还提供了新的洞察现有的深度学习技术的信号处理行为,例如对抗攻击和知识蒸馏。
translated by 谷歌翻译
本文的目的是理论上分析具有relu层的分段线性DNN中编码的特征转换的复杂性。我们建议指标根据信息理论衡量转换的三种复杂性。我们进一步发现并证明了转换的复杂性和分离之间的密切相关性。根据提议的指标,我们分析了训练过程中转换复杂性变化的两个典型现象,并探索DNN复杂性的上限。所提出的指标也可以用作学习具有最小复杂性的DNN的损失,这也控制DNN的过度拟合水平并影响对抗性的鲁棒性,对抗性转移性和知识一致性。全面的比较研究为了解DNN提供了新的观点。
translated by 谷歌翻译
本文介绍了一种解释在深神经网络(DNN)中向前传播期间每个输入变量的信息如何逐渐丢弃的方法,该信息提供了解释DNN的新观点。我们定义了两种类型的基于熵的指标,即(1)向前传播中使用的像素范围信息的丢弃,以及(2)输入重建的不确定性,以从两个角度测量特定层所包含的输入信息。与以前的归因指标不同,所提出的指标可确保不同DNN不同层之间比较的公平性。我们可以使用这些指标来分析DNN中信息处理的效率,后者与DNN的性能表现出牢固的联系。我们以像素方式分析信息丢弃的信息,这与信息瓶颈理论测量特征信息W.R.T.不同。样本分布。实验显示了我们指标在分析经典DNN和解释现有深度学习技术方面的有效性。
translated by 谷歌翻译
Explainability has been widely stated as a cornerstone of the responsible and trustworthy use of machine learning models. With the ubiquitous use of Deep Neural Network (DNN) models expanding to risk-sensitive and safety-critical domains, many methods have been proposed to explain the decisions of these models. Recent years have also seen concerted efforts that have shown how such explanations can be distorted (attacked) by minor input perturbations. While there have been many surveys that review explainability methods themselves, there has been no effort hitherto to assimilate the different methods and metrics proposed to study the robustness of explanations of DNN models. In this work, we present a comprehensive survey of methods that study, understand, attack, and defend explanations of DNN models. We also present a detailed review of different metrics used to evaluate explanation methods, as well as describe attributional attack and defense methods. We conclude with lessons and take-aways for the community towards ensuring robust explanations of DNN model predictions.
translated by 谷歌翻译
Deep learning methods have gained increased attention in various applications due to their outstanding performance. For exploring how this high performance relates to the proper use of data artifacts and the accurate problem formulation of a given task, interpretation models have become a crucial component in developing deep learning-based systems. Interpretation models enable the understanding of the inner workings of deep learning models and offer a sense of security in detecting the misuse of artifacts in the input data. Similar to prediction models, interpretation models are also susceptible to adversarial inputs. This work introduces two attacks, AdvEdge and AdvEdge$^{+}$, that deceive both the target deep learning model and the coupled interpretation model. We assess the effectiveness of proposed attacks against two deep learning model architectures coupled with four interpretation models that represent different categories of interpretation models. Our experiments include the attack implementation using various attack frameworks. We also explore the potential countermeasures against such attacks. Our analysis shows the effectiveness of our attacks in terms of deceiving the deep learning models and their interpreters, and highlights insights to improve and circumvent the attacks.
translated by 谷歌翻译
发现深神经网络(DNN)容易受到对抗噪声的影响。它们通常被对抗样本误导,以做出错误的预测。为了减轻本文,我们从信息理论的角度研究了目标模型的输出与输入对抗样本之间的依赖性,并提出了一种对抗性防御方法。具体而言,我们首先通过估计输入和自然模式之间的相互信息(MI)(称为天然MI)以及分别在输出和输入的对抗模式之间的依赖性(称为对抗MI)。我们发现,与W.R.T.相比,对抗样品通常具有更大的对抗性MI和较小的天然MI。天然样品。在这一观察结果的推动下,我们建议通过在训练过程中最大化自然MI并最大程度地减少对抗性MI来增强对抗性的鲁棒性。这样,目标模型应更加关注包含客观语义的自然模式。经验评估表明,我们的方法可以有效地提高针对多次攻击的对抗精度。
translated by 谷歌翻译
尽管机器学习系统的效率和可扩展性,但最近的研究表明,许多分类方法,尤其是深神经网络(DNN),易受对抗的例子;即,仔细制作欺骗训练有素的分类模型的例子,同时无法区分从自然数据到人类。这使得在安全关键区域中应用DNN或相关方法可能不安全。由于这个问题是由Biggio等人确定的。 (2013)和Szegedy等人。(2014年),在这一领域已经完成了很多工作,包括开发攻击方法,以产生对抗的例子和防御技术的构建防范这些例子。本文旨在向统计界介绍这一主题及其最新发展,主要关注对抗性示例的产生和保护。在数值实验中使用的计算代码(在Python和R)公开可用于读者探讨调查的方法。本文希望提交人们将鼓励更多统计学人员在这种重要的令人兴奋的领域的产生和捍卫对抗的例子。
translated by 谷歌翻译
有必要提高某些特殊班级的表现,或者特别保护它们免受对抗学习的攻击。本文提出了一个将成本敏感分类和对抗性学习结合在一起的框架,以训练可以区分受保护和未受保护的类的模型,以使受保护的类别不太容易受到对抗性示例的影响。在此框架中,我们发现在训练深神经网络(称为Min-Max属性)期间,一个有趣的现象,即卷积层中大多数参数的绝对值。基于这种最小的最大属性,该属性是在随机分布的角度制定和分析的,我们进一步建立了一个针对对抗性示例的新防御模型,以改善对抗性鲁棒性。构建模型的一个优点是,它的性能比标准模型更好,并且可以与对抗性训练相结合,以提高性能。在实验上证实,对于所有类别的平均准确性,我们的模型在没有发生攻击时几乎与现有模型一样,并且在发生攻击时比现有模型更好。具体而言,关于受保护类的准确性,提议的模型比发生攻击时的现有模型要好得多。
translated by 谷歌翻译
Deep hashing has been extensively utilized in massive image retrieval because of its efficiency and effectiveness. However, deep hashing models are vulnerable to adversarial examples, making it essential to develop adversarial defense methods for image retrieval. Existing solutions achieved limited defense performance because of using weak adversarial samples for training and lacking discriminative optimization objectives to learn robust features. In this paper, we present a min-max based Center-guided Adversarial Training, namely CgAT, to improve the robustness of deep hashing networks through worst adversarial examples. Specifically, we first formulate the center code as a semantically-discriminative representative of the input image content, which preserves the semantic similarity with positive samples and dissimilarity with negative examples. We prove that a mathematical formula can calculate the center code immediately. After obtaining the center codes in each optimization iteration of the deep hashing network, they are adopted to guide the adversarial training process. On the one hand, CgAT generates the worst adversarial examples as augmented data by maximizing the Hamming distance between the hash codes of the adversarial examples and the center codes. On the other hand, CgAT learns to mitigate the effects of adversarial samples by minimizing the Hamming distance to the center codes. Extensive experiments on the benchmark datasets demonstrate the effectiveness of our adversarial training algorithm in defending against adversarial attacks for deep hashing-based retrieval. Compared with the current state-of-the-art defense method, we significantly improve the defense performance by an average of 18.61%, 12.35%, and 11.56% on FLICKR-25K, NUS-WIDE, and MS-COCO, respectively.
translated by 谷歌翻译
模型归因在深度神经网络中很重要,因为它们可以帮助实践者理解模型,但是最近的研究表明,通过向输入中添加不可察觉的噪声可以轻松扰动归因。非差异性肯德尔的等级相关性是归因保护的关键绩效指数。在本文中,我们首先证明了预期的肯德尔的等级相关性与余弦相似性呈正相关,然后表明归因方向是归因鲁棒性的关键。基于这些发现,我们探索了归因的矢量空间,以使用$ \ ell_p $ norm来解释归因防御方法的缺点,并提出了集成的梯度正常化程序(IGR),从而最大程度地提高了自然和扰动属性之间的余弦相似性。我们的分析进一步公开了IGR鼓励具有相同激活状态的天然样品和相应扰动样品的神经元,这证明可以诱导基于梯度的归因方法的鲁棒性。我们在不同模型和数据集上的实验证实了我们对归因保护的分析,并证明了对抗性鲁棒性的不当改善。
translated by 谷歌翻译
与从头开始的传统学习相比,知识蒸馏有时会使DNN实现卓越的性能。本文提供了一种新的观点,可以根据信息理论来解释知识蒸馏的成功,即量化在DNN的中间层中编码的知识点。为此,我们将DNN中的信号处理视为丢弃层的信息。知识点称为输入单元,其信息比其他输入单元所丢弃的信息要少得多。因此,我们根据知识点的量化提出了三个用于知识蒸馏的假设。 1. DNN从知识蒸馏中学习比从头开始学习的DNN学习更多的知识点。 2.知识蒸馏使DNN更有可能同时学习不同的知识点。相比之下,从头开始的DNN学习倾向于顺序编码各种知识点。 3.与从头开始学习的DNN学习通常更稳定地优化了从知识蒸馏中学习的DNN学习。为了验证上述假设,我们设计了具有前景对象注释的三种类型的指标,以分析DNN的功能表示,\ textit {i.e。}知识点的数量和质量,不同知识点的学习速度,以及优化方向的稳定性。在实验中,我们诊断出各种DNN的不同分类任务,即图像分类,3D点云分类,二进制情感分类和问题回答,这些问题验证了上述假设。
translated by 谷歌翻译
深度神经网络(DNN)通常批评易于对抗性攻击。大多数成功的防御策略采用对抗性培训或随机输入转换,通常需要重新调整或微调模型以实现合理的性能。在这项工作中,我们对预先训练的DNN的中间代表的调查导致了一个有趣的发现,指向对抗性攻击的内在鲁棒性。我们发现,我们可以通过统计表征中间层的神经响应来清洁训练样本来学习生成分类器。当聚合时,多种这样的中间层的分类器的预测显示出对抗对抗攻击的意外鲁棒性。具体而言,我们设计了这些生成分类器的集合,该分类器通过BORDA计数的共识来汇集其预测。我们所提出的方法使用清洁培训数据和预先训练的模型的子集,但对网络架构或对抗攻击生成方法不可知。我们显示广泛的实验,以确定我们的防务战略在想象网验证集中实现最先进的性能。
translated by 谷歌翻译
越来越多的电子健康记录(EHR)数据和深度学习技术进步的越来越多的可用性(DL)已经引发了在开发基于DL的诊断,预后和治疗的DL临床决策支持系统中的研究兴趣激增。尽管承认医疗保健的深度学习的价值,但由于DL的黑匣子性质,实际医疗环境中进一步采用的障碍障碍仍然存在。因此,有一个可解释的DL的新兴需求,它允许最终用户评估模型决策,以便在采用行动之前知道是否接受或拒绝预测和建议。在这篇综述中,我们专注于DL模型在医疗保健中的可解释性。我们首先引入深入解释性的方法,并作为该领域的未来研究人员或临床从业者的方法参考。除了这些方法的细节之外,我们还包括对这些方法的优缺点以及它们中的每个场景都适合的讨论,因此感兴趣的读者可以知道如何比较和选择它们供使用。此外,我们讨论了这些方法,最初用于解决一般域问题,已经适应并应用于医疗保健问题以及如何帮助医生更好地理解这些数据驱动技术。总的来说,我们希望这项调查可以帮助研究人员和从业者在人工智能(AI)和临床领域了解我们为提高其DL模型的可解释性并相应地选择最佳方法。
translated by 谷歌翻译
We present a new algorithm to learn a deep neural network model robust against adversarial attacks. Previous algorithms demonstrate an adversarially trained Bayesian Neural Network (BNN) provides improved robustness. We recognize the adversarial learning approach for approximating the multi-modal posterior distribution of a Bayesian model can lead to mode collapse; consequently, the model's achievements in robustness and performance are sub-optimal. Instead, we first propose preventing mode collapse to better approximate the multi-modal posterior distribution. Second, based on the intuition that a robust model should ignore perturbations and only consider the informative content of the input, we conceptualize and formulate an information gain objective to measure and force the information learned from both benign and adversarial training instances to be similar. Importantly. we prove and demonstrate that minimizing the information gain objective allows the adversarial risk to approach the conventional empirical risk. We believe our efforts provide a step toward a basis for a principled method of adversarially training BNNs. Our model demonstrate significantly improved robustness--up to 20%--compared with adversarial training and Adv-BNN under PGD attacks with 0.035 distortion on both CIFAR-10 and STL-10 datasets.
translated by 谷歌翻译