了解深度神经网络(DNN)中的黑匣子表示是深度学习的重要问题。在这项工作中,我们提出了基于图形的相似性(GBS)来测量层特征的相似性。与之前的作品相反,在特征映射上直接计算相似度,GBS根据具有隐藏图层输出构造的图形来测量相关性。通过将每个输入样本视为节点和对应的层输出相似度作为边缘,我们构造了每层的DNN表示图。图层之间的相似性识别在不同数据集和初始化中培训的模型的表示之间的对应关系。我们展示并证明了GB的不变性属性,包括与各向同性缩放的正交转换和不变性的不变性,并与CKA进行比较GBS。 GBS显示了最先进的性能,反映了相似性,并提供了关于解释隐藏层空间上的对抗性样本行为的见解。
translated by 谷歌翻译
有很好的参数来支持声明,特征表示最终从一般到深度神经网络(DNN)的特定转换,但这种转变仍然相对缺乏缺陷。在这项工作中,我们向理解特征表示的转换来移动一个微小的步骤。我们首先通过分析中间层中的类分离,然后将类别分离过程作为动态图中的社区演变进行了描述。然后,我们介绍模块化,是图形理论中的常见度量,量化社区的演变。我们发现,随着层更深,而是下降或达到特定层的高原,模块化趋于上升。通过渐近分析,我们表明模块化可以提供对特征表示转换的定量分析。通过了解特征表示,我们表明模块化也可用于识别和定位DNN中的冗余层,这为图层修剪提供了理论指导。基于这种鼓舞人心的发现,我们提出了一种基于模块化的层面修剪方法。进一步的实验表明,我们的方法可以修剪冗余层,对性能的影响最小。该代码可在https://github.com/yaolu-zjut/dynamic-graphs-construction中获得。
translated by 谷歌翻译
代表学习,即对下游应用有用的表示形式的产生,是一项基本重要性的任务,它是深层神经网络(DNNS)成功的基础。最近,对对抗性例子的鲁棒性已成为DNNS的理想特性,促进了解释对抗性例子的强大训练方法的发展。在本文中,我们旨在了解通过鲁棒培训所学的表示的特性与从标准的,非运动培训获得的培训的特性不同。这对于诊断稳健网络中的众多显着陷阱至关重要,例如,良性输入的性能降解,鲁棒性的概括不良以及过度拟合的增加。我们利用一组强大的工具在三个视觉数据集中被称为表示相似性指标,以获得具有不同体系结构,培训程序和对抗性约束的稳健和非稳健DNN之间的层次比较。我们的实验突出显示了迄今为止稳健表示的属性,我们认为,这是强大网络的行为差异的基础。我们发现在强大的网络的表示中缺乏专业化以及“块结构”的消失。我们还发现在强大的训练中过度拟合会在很大程度上影响更深的层。这些以及其他发现还为更好的健壮网络的设计和培训提出了前进的方向。
translated by 谷歌翻译
在本文中,我们提出了一种防御策略,以通过合并隐藏的层表示来改善对抗性鲁棒性。这种防御策略的关键旨在压缩或过滤输入信息,包括对抗扰动。而且这种防御策略可以被视为一种激活函数,可以应用于任何类型的神经网络。从理论上讲,我们在某些条件下也证明了这种防御策略的有效性。此外,合并隐藏层表示,我们提出了三种类型的对抗攻击,分别生成三种类型的对抗示例。实验表明,我们的防御方法可以显着改善深神经网络的对抗性鲁棒性,即使我们不采用对抗性训练,也可以实现最新的表现。
translated by 谷歌翻译
有必要提高某些特殊班级的表现,或者特别保护它们免受对抗学习的攻击。本文提出了一个将成本敏感分类和对抗性学习结合在一起的框架,以训练可以区分受保护和未受保护的类的模型,以使受保护的类别不太容易受到对抗性示例的影响。在此框架中,我们发现在训练深神经网络(称为Min-Max属性)期间,一个有趣的现象,即卷积层中大多数参数的绝对值。基于这种最小的最大属性,该属性是在随机分布的角度制定和分析的,我们进一步建立了一个针对对抗性示例的新防御模型,以改善对抗性鲁棒性。构建模型的一个优点是,它的性能比标准模型更好,并且可以与对抗性训练相结合,以提高性能。在实验上证实,对于所有类别的平均准确性,我们的模型在没有发生攻击时几乎与现有模型一样,并且在发生攻击时比现有模型更好。具体而言,关于受保护类的准确性,提议的模型比发生攻击时的现有模型要好得多。
translated by 谷歌翻译
研究深度学习的鲁棒性的一个主要挑战是定义了给定神经网络(NN)不变的``毫无意义''扰动集。关于鲁棒性的大多数工作隐含地将人作为参考模型来定义这种扰动。我们的工作通过使用另一个参考NN来定义给定的NN应该不变,从而使对任何NN的依赖概述对任何NN的依赖。这使得衡量鲁棒性等同于衡量两个NN共享不稳定的程度,我们提出了一种称为搅拌的措施。搅拌重新调整现有的表示相似性措施,使其适合衡量共享的不稳定。使用我们的度量,我们能够深入了解共享的不断增长,随着重量初始化,体系结构,损失功能和培训数据集的变化如何变化。我们的实现可在:\ url {https://github.com/nvedant07/stir}中获得。
translated by 谷歌翻译
本文的目的是理论上分析具有relu层的分段线性DNN中编码的特征转换的复杂性。我们建议指标根据信息理论衡量转换的三种复杂性。我们进一步发现并证明了转换的复杂性和分离之间的密切相关性。根据提议的指标,我们分析了训练过程中转换复杂性变化的两个典型现象,并探索DNN复杂性的上限。所提出的指标也可以用作学习具有最小复杂性的DNN的损失,这也控制DNN的过度拟合水平并影响对抗性的鲁棒性,对抗性转移性和知识一致性。全面的比较研究为了解DNN提供了新的观点。
translated by 谷歌翻译
Previous work has shown that a neural network with the rectified linear unit (ReLU) activation function leads to a convex polyhedral decomposition of the input space. These decompositions can be represented by a dual graph with vertices corresponding to polyhedra and edges corresponding to polyhedra sharing a facet, which is a subgraph of a Hamming graph. This paper illustrates how one can utilize the dual graph to detect and analyze adversarial attacks in the context of digital images. When an image passes through a network containing ReLU nodes, the firing or non-firing at a node can be encoded as a bit ($1$ for ReLU activation, $0$ for ReLU non-activation). The sequence of all bit activations identifies the image with a bit vector, which identifies it with a polyhedron in the decomposition and, in turn, identifies it with a vertex in the dual graph. We identify ReLU bits that are discriminators between non-adversarial and adversarial images and examine how well collections of these discriminators can ensemble vote to build an adversarial image detector. Specifically, we examine the similarities and differences of ReLU bit vectors for adversarial images, and their non-adversarial counterparts, using a pre-trained ResNet-50 architecture. While this paper focuses on adversarial digital images, ResNet-50 architecture, and the ReLU activation function, our methods extend to other network architectures, activation functions, and types of datasets.
translated by 谷歌翻译
通常,深度神经网络(DNN)是通过在训练阶段排除的未见数据测量的概括性能评估的。随着DNN的发展,概括性能会收敛到最新的,并且很难仅基于该指标评估DNN。对抗攻击的鲁棒性已被用作通过测量其脆弱性来评估DNN的额外指标。但是,很少有研究通过DNN中的几何形状来分析对抗性鲁棒性。在这项工作中,我们进行了一项实证研究,以分析影响对抗性攻击下模型鲁棒性的DNN的内部特性。特别是,我们提出了人口稠密区域集(PRS)的新颖概念,其中训练样本更频繁地代表在实际环境中DNN的内部特性。从对拟议概念进行的系统实验,我们提供了经验证据,以证明低PRS比与DNNS的对抗鲁棒性具有牢固的关系。我们还设计了PRS正常器利用PRS的特征来改善对抗性鲁棒性,而无需对抗训练。
translated by 谷歌翻译
Deep learning methods have gained increased attention in various applications due to their outstanding performance. For exploring how this high performance relates to the proper use of data artifacts and the accurate problem formulation of a given task, interpretation models have become a crucial component in developing deep learning-based systems. Interpretation models enable the understanding of the inner workings of deep learning models and offer a sense of security in detecting the misuse of artifacts in the input data. Similar to prediction models, interpretation models are also susceptible to adversarial inputs. This work introduces two attacks, AdvEdge and AdvEdge$^{+}$, that deceive both the target deep learning model and the coupled interpretation model. We assess the effectiveness of proposed attacks against two deep learning model architectures coupled with four interpretation models that represent different categories of interpretation models. Our experiments include the attack implementation using various attack frameworks. We also explore the potential countermeasures against such attacks. Our analysis shows the effectiveness of our attacks in terms of deceiving the deep learning models and their interpreters, and highlights insights to improve and circumvent the attacks.
translated by 谷歌翻译
Explainability has been widely stated as a cornerstone of the responsible and trustworthy use of machine learning models. With the ubiquitous use of Deep Neural Network (DNN) models expanding to risk-sensitive and safety-critical domains, many methods have been proposed to explain the decisions of these models. Recent years have also seen concerted efforts that have shown how such explanations can be distorted (attacked) by minor input perturbations. While there have been many surveys that review explainability methods themselves, there has been no effort hitherto to assimilate the different methods and metrics proposed to study the robustness of explanations of DNN models. In this work, we present a comprehensive survey of methods that study, understand, attack, and defend explanations of DNN models. We also present a detailed review of different metrics used to evaluate explanation methods, as well as describe attributional attack and defense methods. We conclude with lessons and take-aways for the community towards ensuring robust explanations of DNN model predictions.
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
轻量级模型设计已成为应用深度学习技术的重要方向,修剪是实现模型参数和拖鞋的大量减少的有效均值。现有的神经网络修剪方法主要从参数的重要性开始,以及设计参数评估度量来迭代地执行参数修剪。这些方法不是从模型拓扑的角度研究的,可能是有效但不高效的,并且需要完全不同的不同数据集修剪。在本文中,我们研究了神经网络的图形结构,并提出了常规的基于图的修剪(RGP)来执行单次神经网络修剪。我们生成常规图,将图的节点度值设置为满足修剪比率,并通过将边缘交换以获得最佳边缘分布来降低曲线图的平均最短路径长度。最后,将获得的图形映射到神经网络结构中以实现修剪。实验表明,曲线图的平均最短路径长度与相应神经网络的分类精度负相关,所提出的RGP显示出强的精度保持能力,具有极高的参数减少(超过90%)和拖鞋(更多超过90%)。
translated by 谷歌翻译
最近的研究表明,深度神经网络(DNNS)极易受到精心设计的对抗例子的影响。对那些对抗性例子的对抗性学习已被证明是防御这种攻击的最有效方法之一。目前,大多数现有的对抗示例生成方法基于一阶梯度,这几乎无法进一步改善模型的鲁棒性,尤其是在面对二阶对抗攻击时。与一阶梯度相比,二阶梯度提供了相对于自然示例的损失格局的更准确近似。受此启发的启发,我们的工作制作了二阶的对抗示例,并使用它们来训练DNNS。然而,二阶优化涉及Hessian Inverse的耗时计算。我们通过将问题转换为Krylov子空间中的优化,提出了一种近似方法,该方法显着降低了计算复杂性以加快训练过程。在矿工和CIFAR-10数据集上进行的广泛实验表明,我们使用二阶对抗示例的对抗性学习优于其他FISRT-阶方法,这可以改善针对广泛攻击的模型稳健性。
translated by 谷歌翻译
深度神经网络很容易受到不可察觉的扰动的攻击。目前,对抗训练(AT)是增强模型对抗例子的鲁棒性的最有效方法。但是,由于对抗性训练解决了最小值的价值问题,因此与自然训练相比,稳健性和概括是矛盾的,即,模型的鲁棒性改善将减少模型的概括。为了解决这个问题,在本文中,引入了一个新概念,即置信度阈值(CT),并证明了置信阈值的降低(称为置信阈值降低(CTR))已被证明可以提高其概括和稳健性模型。具体而言,为了减少自然训练的CT(即用于CTR的自然训练),我们提出了一个面具引导的发散损失函数(MDL),该函数(MDL)由跨熵损失项和正交项组成。经验和理论分析表明,MDL损失同时提高了模型的自然训练的鲁棒性和概括性。但是,使用CTR的自然训练的模型鲁棒性改善与对抗训练相当。因此,对于对抗性训练,我们提出了一个标准偏差损失函数(STD),该函数可最大程度地减少错误类别的概率的差异,以通过整合到对抗性训练的损失函数中来减少CT。经验和理论分析表明,基于性病的损失函数可以通过保证自然准确性的不变或略微提高对抗训练模型的鲁棒性。
translated by 谷歌翻译
比较神经网络模型的功能行为,无论是在培训期间还是在培训期间或培训期间它是一个单个网络(或者是一个网络),这是理解他们正在学习的内容(以及他们不是什么)的重要步骤确定正规化或提高效率的策略。尽管最近的进展,例如,将视觉变压器与CNN进行比较,但功能的系统比较,尤其是在不同的网络中,仍然很困难,并且通常是按一层进行的。诸如规范相关分析(CCA)之类的方法原则上适用,但到目前为止已很少使用。在本文中,我们从统计数据(及其部分变体)中重新审视A(鲜为人知的),旨在评估不同维度的特征空间之间的相关性。我们描述了进行大规模模型进行部署所需的步骤 - 这为令人惊讶的应用程序打开了大门,从调理一个深层模型W.R.T.另一个,学习分解了表示形式,并优化了直接对对抗性攻击更强大的不同模型。我们的实验表明,具有许多优势的多功能正规化程序(或约束),避免了此类分析中人们面临的一些常见困难。代码在https://github.com/zhenxingjian/partial_distance_correlation。
translated by 谷歌翻译
尽管机器学习系统的效率和可扩展性,但最近的研究表明,许多分类方法,尤其是深神经网络(DNN),易受对抗的例子;即,仔细制作欺骗训练有素的分类模型的例子,同时无法区分从自然数据到人类。这使得在安全关键区域中应用DNN或相关方法可能不安全。由于这个问题是由Biggio等人确定的。 (2013)和Szegedy等人。(2014年),在这一领域已经完成了很多工作,包括开发攻击方法,以产生对抗的例子和防御技术的构建防范这些例子。本文旨在向统计界介绍这一主题及其最新发展,主要关注对抗性示例的产生和保护。在数值实验中使用的计算代码(在Python和R)公开可用于读者探讨调查的方法。本文希望提交人们将鼓励更多统计学人员在这种重要的令人兴奋的领域的产生和捍卫对抗的例子。
translated by 谷歌翻译
Recent work has sought to understand the behavior of neural networks by comparing representations between layers and between different trained models. We examine methods for comparing neural network representations based on canonical correlation analysis (CCA). We show that CCA belongs to a family of statistics for measuring multivariate similarity, but that neither CCA nor any other statistic that is invariant to invertible linear transformation can measure meaningful similarities between representations of higher dimension than the number of data points. We introduce a similarity index that measures the relationship between representational similarity matrices and does not suffer from this limitation. This similarity index is equivalent to centered kernel alignment (CKA) and is also closely connected to CCA. Unlike CCA, CKA can reliably identify correspondences between representations in networks trained from different initializations.
translated by 谷歌翻译
深度学习文献通过新的架构和培训技术不断更新。然而,尽管有一些关于随机权重的发现,但最近的研究却忽略了重量初始化。另一方面,最近的作品一直在接近网络科学,以了解训练后人工神经网络(ANN)的结构和动态。因此,在这项工作中,我们分析了随机初始化网络中神经元的中心性。我们表明,较高的神经元强度方差可能会降低性能,而较低的神经元强度方差通常会改善它。然后,提出了一种新方法,根据其强度根据优先附着(PA)规则重新连接神经元连接,从而大大降低了通过常见方法初始化的层的强度方差。从这个意义上讲,重新布线仅重新组织连接,同时保留权重的大小和分布。我们通过对图像分类进行的广泛统计分析表明,在使用简单和复杂的体系结构和学习时间表时,在大多数情况下,在培训和测试过程中,性能都会提高。我们的结果表明,除了规模外,权重的组织也与更好的初始化初始化有关。
translated by 谷歌翻译
In order for machine learning to be trusted in many applications, it is critical to be able to reliably explain why the machine learning algorithm makes certain predictions. For this reason, a variety of methods have been developed recently to interpret neural network predictions by providing, for example, feature importance maps. For both scientific robustness and security reasons, it is important to know to what extent can the interpretations be altered by small systematic perturbations to the input data, which might be generated by adversaries or by measurement biases. In this paper, we demonstrate how to generate adversarial perturbations that produce perceptively indistinguishable inputs that are assigned the same predicted label, yet have very different interpretations. We systematically characterize the robustness of interpretations generated by several widely-used feature importance interpretation methods (feature importance maps, integrated gradients, and DeepLIFT) on ImageNet and CIFAR-10. In all cases, our experiments show that systematic perturbations can lead to dramatically different interpretations without changing the label. We extend these results to show that interpretations based on exemplars (e.g. influence functions) are similarly susceptible to adversarial attack. Our analysis of the geometry of the Hessian matrix gives insight on why robustness is a general challenge to current interpretation approaches.
translated by 谷歌翻译