本文探讨了深度神经网络(DNN)的特征表示的瓶颈,从DNN中编码的输入变量之间的相互作用的复杂性的角度来看。为此,我们专注于输入变量之间的多阶交互,其中顺序表示交互的复杂性。我们发现DNN更有可能编码过于简单的相互作用和过于复杂的相互作用,但通常无法学习中间复杂性的相互作用。这种现象被不同的DNN广泛共享,用于不同的任务。这种现象表明了DNN和人类之间的认知差距,我们称之为瓶颈。理论上,理论上证明了代表瓶颈的潜在原因。此外,我们提出了鼓励/惩罚特定复杂性的相互作用的损失,并分析不同复杂性相互作用的表示能力。
translated by 谷歌翻译
本文提供了一个统一的观点来解释不同的逆势攻击和防御方法,即DNN的输入变量之间的多阶交互的视图。根据多阶互动,我们发现对抗性攻击主要影响愚弄DNN的高阶相互作用。此外,我们发现前列培训的DNN的鲁棒性来自特定于类别的低阶交互。我们的研究结果提供了统一对抗的扰动和鲁棒性的潜在方法,可以以原则方式解释现有的防御方法。此外,我们的调查结果还修订了先前的不准确了解对抗普遍学习特征的偏差。
translated by 谷歌翻译
本文提供了统一的观点来解释不同的对抗攻击和防御方法,\ emph {i.e.} DNN的输入变量之间的多阶交互的视图。根据多阶互动,我们发现对抗性攻击主要影响愚弄DNN的高阶相互作用。此外,我们发现前列培训的DNN的鲁棒性来自特定于类别的低阶交互。我们的研究结果提供了统一对抗的扰动和鲁棒性的潜在方法,可以以原则方式解释现有的防御方法。此外,我们的调查结果还修订了先前的不准确了解对抗普遍学习特征的偏差。
translated by 谷歌翻译
本文提出了分层和符号和或图形(AOG),客观地解释由训练有素的深层模型进行推理的内部逻辑。我们首先定义博弈论中解释器模型的客观性,我们开发了深层模型编码的逻辑和逻辑的严格表示。AOG解释者的客观性和可信度在理论上和实验验证。此外,我们提出了几种技术来提升解释的简明。
translated by 谷歌翻译
本文的目的是理论上分析具有relu层的分段线性DNN中编码的特征转换的复杂性。我们建议指标根据信息理论衡量转换的三种复杂性。我们进一步发现并证明了转换的复杂性和分离之间的密切相关性。根据提议的指标,我们分析了训练过程中转换复杂性变化的两个典型现象,并探索DNN复杂性的上限。所提出的指标也可以用作学习具有最小复杂性的DNN的损失,这也控制DNN的过度拟合水平并影响对抗性的鲁棒性,对抗性转移性和知识一致性。全面的比较研究为了解DNN提供了新的观点。
translated by 谷歌翻译
在本文中,我们评估了用于3D点云处理的深神经网络(DNN)中编码的知识表示的质量。我们提出了一种方法来解开整体模型脆弱性进入旋转,翻译,尺度和局部3D结构的敏感性。此外,我们还提出了指标来评估编码3D结构的空间平滑度,以及DNN的表示复杂性。基于此类分析,实验将揭示经典DNN的表现问题,并解释对抗性培训的效用。
translated by 谷歌翻译
尽管已经提出了许多方法来增强对抗性扰动的可转移性,但这些方法是以启发式方式设计的,并且尚不清楚改善对抗性转移性的基本机制。本文总结了在统一视图中以十二个以前的可传递性提高方法共享的共同机制,即这些方法都减少了区域对抗性扰动之间的游戏理论相互作用。为此,我们专注于区域对抗扰动之间所有相互作用的攻击效用,我们首先发现并证明了对抗传递性与相互作用的攻击效用之间的负相关性。基于这一发现,我们从理论上证明并从经验上验证了十二种以前的可传递性提高方法均减少了区域对抗扰动之间的相互作用。更重要的是,我们将相互作用的减少视为增强对抗性转移性的基本原因。此外,我们设计了交互损失,以直接惩罚攻击过程中区域对抗扰动之间的相互作用。实验结果表明,相互作用损失显着提高了对抗扰动的转移性。
translated by 谷歌翻译
本文介绍了一种解释在深神经网络(DNN)中向前传播期间每个输入变量的信息如何逐渐丢弃的方法,该信息提供了解释DNN的新观点。我们定义了两种类型的基于熵的指标,即(1)向前传播中使用的像素范围信息的丢弃,以及(2)输入重建的不确定性,以从两个角度测量特定层所包含的输入信息。与以前的归因指标不同,所提出的指标可确保不同DNN不同层之间比较的公平性。我们可以使用这些指标来分析DNN中信息处理的效率,后者与DNN的性能表现出牢固的联系。我们以像素方式分析信息丢弃的信息,这与信息瓶颈理论测量特征信息W.R.T.不同。样本分布。实验显示了我们指标在分析经典DNN和解释现有深度学习技术方面的有效性。
translated by 谷歌翻译
本文提出了一种可视化DNN编码的中间层视觉模式的辨别力的方法。具体而言,我们可视化(1)DNN在训练过程中如何逐渐学习各个中间层中的区域视觉模式,(2)DNN使用低层中的非辨别模式的效果来构建中/高层中的剥离图案通过前向传播。基于我们的可视化方法,我们可以量化DNN学习的知识点(即,判别视觉模式的数量)来评估DNN的表示能力。此外,该方法还提供了新的洞察现有的深度学习技术的信号处理行为,例如对抗攻击和知识蒸馏。
translated by 谷歌翻译
与从头开始的传统学习相比,知识蒸馏有时会使DNN实现卓越的性能。本文提供了一种新的观点,可以根据信息理论来解释知识蒸馏的成功,即量化在DNN的中间层中编码的知识点。为此,我们将DNN中的信号处理视为丢弃层的信息。知识点称为输入单元,其信息比其他输入单元所丢弃的信息要少得多。因此,我们根据知识点的量化提出了三个用于知识蒸馏的假设。 1. DNN从知识蒸馏中学习比从头开始学习的DNN学习更多的知识点。 2.知识蒸馏使DNN更有可能同时学习不同的知识点。相比之下,从头开始的DNN学习倾向于顺序编码各种知识点。 3.与从头开始学习的DNN学习通常更稳定地优化了从知识蒸馏中学习的DNN学习。为了验证上述假设,我们设计了具有前景对象注释的三种类型的指标,以分析DNN的功能表示,\ textit {i.e。}知识点的数量和质量,不同知识点的学习速度,以及优化方向的稳定性。在实验中,我们诊断出各种DNN的不同分类任务,即图像分类,3D点云分类,二进制情感分类和问题回答,这些问题验证了上述假设。
translated by 谷歌翻译
As more and more artificial intelligence (AI) technologies move from the laboratory to real-world applications, the open-set and robustness challenges brought by data from the real world have received increasing attention. Data augmentation is a widely used method to improve model performance, and some recent works have also confirmed its positive effect on the robustness of AI models. However, most of the existing data augmentation methods are heuristic, lacking the exploration of their internal mechanisms. We apply the explainable artificial intelligence (XAI) method, explore the internal mechanisms of popular data augmentation methods, analyze the relationship between game interactions and some widely used robustness metrics, and propose a new proxy for model robustness in the open-set environment. Based on the analysis of the internal mechanisms, we develop a mask-based boosting method for data augmentation that comprehensively improves several robustness measures of AI models and beats state-of-the-art data augmentation approaches. Experiments show that our method can be widely applied to many popular data augmentation methods. Different from the adversarial training, our boosting method not only significantly improves the robustness of models, but also improves the accuracy of test sets. Our code is available at \url{https://github.com/Anonymous_for_submission}.
translated by 谷歌翻译
在本文中,我们在学习多层感知(MLPS)中发现了两相现象。即,在第一阶段,培训损失不会显着降低,但不同样本之间的特征的相似性不断增加,这伤害了特征多样性。我们在MLP的学习动态方面解释了这样的两阶段现象。此外,我们提出了两个归一化操作来消除两相现象,这避免了特征多样性的减少,并加快了培训过程。
translated by 谷歌翻译
Although deep neural networks (DNNs) have achieved great success in many tasks, they can often be fooled by adversarial examples that are generated by adding small but purposeful distortions to natural examples. Previous studies to defend against adversarial examples mostly focused on refining the DNN models, but have either shown limited success or required expensive computation. We propose a new strategy, feature squeezing, that can be used to harden DNN models by detecting adversarial examples. Feature squeezing reduces the search space available to an adversary by coalescing samples that correspond to many different feature vectors in the original space into a single sample. By comparing a DNN model's prediction on the original input with that on squeezed inputs, feature squeezing detects adversarial examples with high accuracy and few false positives.This paper explores two feature squeezing methods: reducing the color bit depth of each pixel and spatial smoothing. These simple strategies are inexpensive and complementary to other defenses, and can be combined in a joint detection framework to achieve high detection rates against state-of-the-art attacks.
translated by 谷歌翻译
在本文中,我们提出了一种防御策略,以通过合并隐藏的层表示来改善对抗性鲁棒性。这种防御策略的关键旨在压缩或过滤输入信息,包括对抗扰动。而且这种防御策略可以被视为一种激活函数,可以应用于任何类型的神经网络。从理论上讲,我们在某些条件下也证明了这种防御策略的有效性。此外,合并隐藏层表示,我们提出了三种类型的对抗攻击,分别生成三种类型的对抗示例。实验表明,我们的防御方法可以显着改善深神经网络的对抗性鲁棒性,即使我们不采用对抗性训练,也可以实现最新的表现。
translated by 谷歌翻译
Recent research has revealed that the output of Deep Neural Networks (DNN) can be easily altered by adding relatively small perturbations to the input vector. In this paper, we analyze an attack in an extremely limited scenario where only one pixel can be modified. For that we propose a novel method for generating one-pixel adversarial perturbations based on differential evolution (DE). It requires less adversarial information (a blackbox attack) and can fool more types of networks due to the inherent features of DE. The results show that 67.97% of the natural images in Kaggle CIFAR-10 test dataset and 16.04% of the ImageNet (ILSVRC 2012) test images can be perturbed to at least one target class by modifying just one pixel with 74.03% and 22.91% confidence on average. We also show the same vulnerability on the original CIFAR-10 dataset. Thus, the proposed attack explores a different take on adversarial machine learning in an extreme limited scenario, showing that current DNNs are also vulnerable to such low dimension attacks. Besides, we also illustrate an important application of DE (or broadly speaking, evolutionary computation) in the domain of adversarial machine learning: creating tools that can effectively generate lowcost adversarial attacks against neural networks for evaluating robustness.
translated by 谷歌翻译
减轻培训数据集中存在的杂散相关性的依赖性是深度学习的快速新兴和重要话题。最近的方法包括对深度神经网络(DNN)的特征归因的前瞻,进入培训过程,以减少对不需要特征的依赖性。然而,直到现在,需要履行满足所需的公理的高质量归属,以防止计算它们所需的时间。这又导致了长期训练时间或无效的归因前瞻。在这项工作中,我们通过考虑一类有效的公理归属DNN来打破这种权衡,只能使用单个向前/向后通过。我们正式证明非负面均匀的DNN,这里被称为$ \ Mathcal {x} $ - DNN,其有效地是公理的,并且通过简单地删除每层的偏置项,可以从广泛的常规DNN中毫不费力地构造它们。各种实验证明了$ \ mathcal {x} $ - dnns的优势,在常规dnn上击败最先进的通用归因方法,用于使用归因前视培训。
translated by 谷歌翻译
几个数据增强方法部署了未标记的分配(UID)数据,以弥合神经网络的培训和推理之间的差距。然而,这些方法在UID数据的可用性方面具有明确的限制和伪标签上的算法的依赖性。在此,我们提出了一种数据增强方法,通过使用缺乏上述问题的分发(OOD)数据来改善对抗和标准学习的泛化。我们展示了如何在理论上使用每个学习场景中的数据来改进泛化,并通过Cifar-10,CiFar-100和ImageNet的子集进行化学理论分析。结果表明,即使在似乎与人类角度几乎没有相关的图像数据中也是不希望的特征。我们还通过与其他数据增强方法进行比较,介绍了所提出的方法的优点,这些方法可以在没有UID数据的情况下使用。此外,我们证明该方法可以进一步改善现有的最先进的对抗培训。
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
The authors thank Nicholas Carlini (UC Berkeley) and Dimitris Tsipras (MIT) for feedback to improve the survey quality. We also acknowledge X. Huang (Uni. Liverpool), K. R. Reddy (IISC), E. Valle (UNICAMP), Y. Yoo (CLAIR) and others for providing pointers to make the survey more comprehensive.
translated by 谷歌翻译
Explainability has been widely stated as a cornerstone of the responsible and trustworthy use of machine learning models. With the ubiquitous use of Deep Neural Network (DNN) models expanding to risk-sensitive and safety-critical domains, many methods have been proposed to explain the decisions of these models. Recent years have also seen concerted efforts that have shown how such explanations can be distorted (attacked) by minor input perturbations. While there have been many surveys that review explainability methods themselves, there has been no effort hitherto to assimilate the different methods and metrics proposed to study the robustness of explanations of DNN models. In this work, we present a comprehensive survey of methods that study, understand, attack, and defend explanations of DNN models. We also present a detailed review of different metrics used to evaluate explanation methods, as well as describe attributional attack and defense methods. We conclude with lessons and take-aways for the community towards ensuring robust explanations of DNN model predictions.
translated by 谷歌翻译