已经在生物大脑的皮层中观察到了侧向抑制连接,并且已经在其在认知功能中的作用进行了广泛的研究。但是,在深度学习中的香草版本反向传播中,所有梯度(可以理解为信号和噪声梯度)在重量更新过程中流过网络。这可能导致过度拟合。在这项工作中,受到生物横向抑制的启发,我们提出了梯度面膜,该面膜在反向传播过程中有效地滤除了噪声梯度。这使学习的功能信息可以更强烈地存储在网络中,同时滤除嘈杂或不重要的功能。此外,我们在分析上证明了人工神经网络中的横向抑制如何提高传播梯度的质量。提出了一个新的梯度质量标准,该标准可以用作训练各种卷积神经网络(CNN)的措施。最后,我们进行了几个不同的实验,以研究梯度掩模如何定量和定性地改善网络的性能。定量地,原始CNN体系结构的准确性,修剪后的准确性以及对抗攻击后的准确性已显示出改善。从定性上讲,使用梯度掩模训练的CNN开发了显着图,主要集中在感兴趣的对象上,这对于数据增强和网络解释性很有用。
translated by 谷歌翻译
深神经网络(DNN)的黑盒性质严重阻碍了其在特定场景中的性能改善和应用。近年来,基于类激活映射的方法已被广泛用于解释计算机视觉任务中模型的内部决策。但是,当此方法使用反向传播获得梯度时,它将在显着图中引起噪声,甚至找到与决策无关的特征。在本文中,我们提出了一个基于绝对价值类激活映射(ABS-CAM)方法,该方法优化了从反向传播中得出的梯度,并将所有这些梯度变成正梯度,以增强输出神经元激活的视觉特征,并改善。显着图的本地化能力。 ABS-CAM的框架分为两个阶段:生成初始显着性图并生成最终显着图。第一阶段通过优化梯度来提高显着性图的定位能力,第二阶段将初始显着性图与原始图像线性结合在一起,以增强显着性图的语义信息。我们对拟议方法进行定性和定量评估,包括删除,插入和指向游戏。实验结果表明,ABS-CAM显然可以消除显着性图中的噪声,并且可以更好地定位与决策相关的功能,并且优于以前的识别和定位任务中的方法。
translated by 谷歌翻译
解释深度卷积神经网络最近引起了人们的关注,因为它有助于了解网络的内部操作以及为什么它们做出某些决定。显着地图强调了与网络决策的主要连接的显着区域,是可视化和分析计算机视觉社区深层网络的最常见方法之一。但是,由于未经证实的激活图权重的建议,这些图像没有稳固的理论基础,并且未能考虑每个像素之间的关系,因此现有方法生成的显着图不能表示图像中的真实信息。在本文中,我们开发了一种基于类激活映射的新型事后视觉解释方法,称为Shap-Cam。与以前的基于梯度的方法不同,Shap-Cam通过通过Shapley值获得每个像素的重要性来摆脱对梯度的依赖。我们证明,Shap-Cam可以在解释决策过程中获得更好的视觉性能和公平性。我们的方法在识别和本地化任务方面的表现优于以前的方法。
translated by 谷歌翻译
Recently, increasing attention has been drawn to the internal mechanisms of convolutional neural networks, and the reason why the network makes specific decisions. In this paper, we develop a novel post-hoc visual explanation method called Score-CAM based on class activation mapping. Unlike previous class activation mapping based approaches, Score-CAM gets rid of the dependence on gradients by obtaining the weight of each activation map through its forward passing score on target class, the final result is obtained by a linear combination of weights and activation maps. We demonstrate that Score-CAM achieves better visual performance and fairness for interpreting the decision making process. Our approach outperforms previous methods on both recognition and localization tasks, it also passes the sanity check. We also indicate its application as debugging tools. The implementation is available 1 .
translated by 谷歌翻译
卷积神经网络(CNN)压缩对于在资源有限的边缘设备中部署这些模型至关重要。 CNN的现有通道修剪算法在复杂模型上取得了很大的成功。他们从各个角度解决了修剪问题,并使用不同的指标来指导修剪过程。但是,这些指标主要集中于模型的“输出”或“权重”,而忽略了其“解释”信息。为了填补这一空白,我们建议通过利用模型的解释来引导修剪过程,从而从新颖的角度解决通道修剪问题,从而利用来自模型的输入和输出的信息。但是,现有的解释方法不能被部署以实现我们的目标,因为它们的修剪效率低下,或者可能预测了非固定解释。我们通过引入选择器模型来解决这一挑战,该模型可以预测修剪模型的实时平滑显着性掩码。我们通过径向基函数(RBF)函数来参数化解释性掩码的分布,以在我们选择器模型的电感偏置中纳入自然图像的几何事物。因此,我们可以获得解释的紧凑表示,以降低修剪方法的计算成本。我们利用我们的选择器模型来引导网络修剪,以最大程度地提高修剪和原始模型的解释性表示的相似性。关于CIFAR-10和Imagenet基准数据集的广泛实验证明了我们提出的方法的功效。我们的实现可在\ url {https://github.com/alii-ganjj/interpretationssteerpruning}中获得
translated by 谷歌翻译
We propose a technique for producing 'visual explanations' for decisions from a large class of Convolutional Neural Network (CNN)-based models, making them more transparent and explainable.Our approach -Gradient-weighted Class Activation Mapping (Grad-CAM), uses the gradients of any target concept (say 'dog' in a classification network or a sequence of words in captioning network) flowing into the final convolutional layer to produce a coarse localization map highlighting the important regions in the image for predicting the concept.Unlike previous approaches, Grad-CAM is applicable to a wide variety of CNN model-families: (1) CNNs with fullyconnected layers (e.g. VGG), (2) CNNs used for structured outputs (e.g. captioning), (3) CNNs used in tasks with multimodal inputs (e.g. visual question answering) or reinforcement learning, all without architectural changes or re-training. We combine Grad-CAM with existing fine-grained visualizations to create a high-resolution class-discriminative vi-
translated by 谷歌翻译
Data augmentation is a widely used technique for enhancing the generalization ability of convolutional neural networks (CNNs) in image classification tasks. Occlusion is a critical factor that affects on the generalization ability of image classification models. In order to generate new samples, existing data augmentation methods based on information deletion simulate occluded samples by randomly removing some areas in the images. However, those methods cannot delete areas of the images according to their structural features of the images. To solve those problems, we propose a novel data augmentation method, AdvMask, for image classification tasks. Instead of randomly removing areas in the images, AdvMask obtains the key points that have the greatest influence on the classification results via an end-to-end sparse adversarial attack module. Therefore, we can find the most sensitive points of the classification results without considering the diversity of various image appearance and shapes of the object of interest. In addition, a data augmentation module is employed to generate structured masks based on the key points, thus forcing the CNN classification models to seek other relevant content when the most discriminative content is hidden. AdvMask can effectively improve the performance of classification models in the testing process. The experimental results on various datasets and CNN models verify that the proposed method outperforms other previous data augmentation methods in image classification tasks.
translated by 谷歌翻译
In this work we develop a fast saliency detection method that can be applied to any differentiable image classifier. We train a masking model to manipulate the scores of the classifier by masking salient parts of the input image. Our model generalises well to unseen images and requires a single forward pass to perform saliency detection, therefore suitable for use in real-time systems. We test our approach on CIFAR-10 and ImageNet datasets and show that the produced saliency maps are easily interpretable, sharp, and free of artifacts. We suggest a new metric for saliency and test our method on the ImageNet object localisation task. We achieve results outperforming other weakly supervised methods.
translated by 谷歌翻译
最近,卷积神经网络(CNN)在分类任务中取得了良好的性能。众所周知,CNN被认为是“黑匣子”,这很难理解预测机制并调试错误的预测。开发了一些模型调试和解释工作,用于解决上述缺点。然而,这些方法专注于解释和诊断模型预测的可能原因,基于研究人员手动处理以下模型优化的模型预测。在本文中,我们提出了第一个完全自动模型诊断和治疗工具,称为模型医生。基于两个发现,每个类别只与稀疏和特定的卷积核相关,而2)在特征空间中逐次地隔离2)对逆势样本,设计了一个简单的聚合梯度约束,以便有效地诊断和优化CNN分类器。聚合渐变策略是用于主流CNN分类器的多功能模块。广泛的实验表明,拟议的模型医生适用于所有现有的CNN分类器,并提高16美元主流CNN分类器的准确性1%-5%。
translated by 谷歌翻译
Saliency methods have emerged as a popular tool to highlight features in an input deemed relevant for the prediction of a learned model. Several saliency methods have been proposed, often guided by visual appeal on image data. In this work, we propose an actionable methodology to evaluate what kinds of explanations a given method can and cannot provide. We find that reliance, solely, on visual assessment can be misleading. Through extensive experiments we show that some existing saliency methods are independent both of the model and of the data generating process. Consequently, methods that fail the proposed tests are inadequate for tasks that are sensitive to either data or model, such as, finding outliers in the data, explaining the relationship between inputs and outputs that the model learned, and debugging the model. We interpret our findings through an analogy with edge detection in images, a technique that requires neither training data nor model. Theory in the case of a linear model and a single-layer convolutional neural network supports our experimental findings 2 . * Work done during the Google AI Residency Program. 2 All code to replicate our findings will be available here: https://goo.gl/hBmhDt 3 We refer here to the broad category of visualization and attribution methods aimed at interpreting trained models. These methods are often used for interpreting deep neural networks particularly on image data.
translated by 谷歌翻译
在几个机器学习应用领域,包括可解释的AI和弱监督的对象检测和细分,高质量的显着性图至关重要。已经开发了许多技术来使用神经网络提高显着性。但是,它们通常仅限于特定的显着性可视化方法或显着性问题。我们提出了一种新型的显着性增强方法,称为SESS(通过缩放和滑动增强显着性)。这是对现有显着性图生成方法的方法和模型不可或缺的扩展。借助SESS,现有的显着性方法变得稳健,可在尺度差异,目标对象的多次出现,分散器的存在以及产生较少的嘈杂和更具歧视性显着性图。 SESS通过从不同区域的不同尺度上从多个斑块中提取的显着图来提高显着性,并使用新型的融合方案结合了这些单独的地图,该方案结合了通道的重量和空间加权平均值。为了提高效率,我们引入了一个预过滤步骤,该步骤可以排除非信息显着图以提高效率,同时仍提高整体结果。我们在对象识别和检测基准上评估SESS可以取得重大改进。该守则公开发布以使研究人员能够验证绩效和进一步发展。代码可用:https://github.com/neouyghur/sess
translated by 谷歌翻译
Deep learning methods have gained increased attention in various applications due to their outstanding performance. For exploring how this high performance relates to the proper use of data artifacts and the accurate problem formulation of a given task, interpretation models have become a crucial component in developing deep learning-based systems. Interpretation models enable the understanding of the inner workings of deep learning models and offer a sense of security in detecting the misuse of artifacts in the input data. Similar to prediction models, interpretation models are also susceptible to adversarial inputs. This work introduces two attacks, AdvEdge and AdvEdge$^{+}$, that deceive both the target deep learning model and the coupled interpretation model. We assess the effectiveness of proposed attacks against two deep learning model architectures coupled with four interpretation models that represent different categories of interpretation models. Our experiments include the attack implementation using various attack frameworks. We also explore the potential countermeasures against such attacks. Our analysis shows the effectiveness of our attacks in terms of deceiving the deep learning models and their interpreters, and highlights insights to improve and circumvent the attacks.
translated by 谷歌翻译
事实证明,无监督的表示学习方法在学习目标数据集的视觉语义方面有效。这些方法背后的主要思想是,同一图像的不同视图代表相同的语义。在本文中,我们进一步引入了一个附加模块,以促进对样品之间空间跨相关性的知识注入。反过来,这导致了类内部信息的提炼,包括特征级别的位置和同类实例之间的相似性。建议的附加组件可以添加到现有方法中,例如SWAV。稍后,我们可以删除用于推理的附加模块,而无需修改学识的权重。通过一系列广泛的经验评估,我们验证我们的方法在检测类激活图,TOP-1分类准确性和下游任务(例如对象检测)的情况下会提高性能,并具有不同的配置设置。
translated by 谷歌翻译
卷积神经网络(CNN)成为计算机视觉最受欢迎和最突出的深度学习体系结构之一,但其黑匣子功能隐藏了内部预测过程。因此,AI从业者阐明了可解释的AI,以提供模型行为的解释性。特别是,基于类的激活图(CAM)和基于GRAD-CAM的方法已显示出希望结果,但它们具有架构限制或梯度计算负担。为了解决这些问题,已建议将得分摄像机作为一种无梯度方法,但是,与基于CAM或GRAD-CAM的方法相比,它需要更多的执行时间。因此,我们通过空间掩盖提取的特征图来利用激活图和网络输出之间的相关性,提出了一个轻巧的体系结构和无梯度的互惠凸轮(配克CAM)。通过提出的方法,与平均跌落 - 相干 - 复杂性(ADCC)度量相比,Resnet家族中的1:78-3:72%的收益不包括VGG-16(1:39%)(1:39%) )。此外,配置摄像头表现出与Grad-CAM相似的显着性图生成速率,并且比Score-CAM快于148倍。
translated by 谷歌翻译
使用深度学习模型从组织学数据中诊断癌症提出了一些挑战。这些图像中关注区域(ROI)的癌症分级和定位通常依赖于图像和像素级标签,后者需要昂贵的注释过程。深度弱监督的对象定位(WSOL)方法为深度学习模型的低成本培训提供了不同的策略。仅使用图像级注释,可以训练这些方法以对图像进行分类,并为ROI定位进行分类类激活图(CAM)。本文综述了WSOL的​​最先进的DL方法。我们提出了一种分类法,根据模型中的信息流,将这些方法分为自下而上和自上而下的方法。尽管后者的进展有限,但最近的自下而上方法目前通过深层WSOL方法推动了很多进展。早期作品的重点是设计不同的空间合并功能。但是,这些方法达到了有限的定位准确性,并揭示了一个主要限制 - 凸轮的不足激活导致了高假阴性定位。随后的工作旨在减轻此问题并恢复完整的对象。评估和比较了两个具有挑战性的组织学数据集的分类和本地化准确性,对我们的分类学方法进行了评估和比较。总体而言,结果表明定位性能差,特别是对于最初设计用于处理自然图像的通用方法。旨在解决组织学数据挑战的方法产生了良好的结果。但是,所有方法都遭受高假阳性/阴性定位的影响。在组织学中应用深WSOL方法的应用是四个关键的挑战 - 凸轮的激活下/过度激活,对阈值的敏感性和模型选择。
translated by 谷歌翻译
自我监督的视觉学习彻底改变了深度学习,成为域中的下一个重大挑战,并通过大型计算机视觉基准的监督方法迅速缩小了差距。随着当前的模型和培训数据成倍增长,解释和理解这些模型变得关键。我们研究了视力任务的自我监督学习领域中可解释的人工智能的问题,并提出了了解经过自学训练的网络及其内部工作的方法。鉴于自我监督的视觉借口任务的巨大多样性,我们缩小了对理解范式的关注,这些范式从同一图像的两种观点中学习,主要是旨在了解借口任务。我们的工作重点是解释相似性学习,并且很容易扩展到所有其他借口任务。我们研究了两个流行的自我监督视觉模型:Simclr和Barlow Twins。我们总共开发了六种可视化和理解这些模型的方法:基于扰动的方法(条件闭塞,上下文无形的条件闭塞和成对的闭塞),相互作用-CAM,特征可视化,模型差异可视化,平均变换和像素无形。最后,我们通过将涉及单个图像的监督图像分类系统量身定制的众所周知的评估指标来评估这些解释,并将其涉及两个图像的自我监督学习领域。代码为:https://github.com/fawazsammani/xai-ssl
translated by 谷歌翻译
类激活图(CAM)已被广泛研究,用于视觉解释卷积神经网络的内部工作机理。现有基于CAM的方法的关键是计算有效的权重以在目标卷积层中结合激活图。现有的基于梯度和得分的加权方案在确保CAM的可区分性或忠诚度方面表现出了优越性,但它们通常在这两种属性中都无法表现出色。在本文中,我们提出了一种名为FD-CAM的新型CAM加权方案,以提高基于CAM的CNN视觉解释的忠诚和可区分性。首先,我们通过执行分组的通道切换操作来提高基于分数的权重的忠诚和可区分性。具体而言,对于每个通道,我们计算其相似性组,并同时打开或关闭一组通道以计算类预测评分的变化为权重。然后,我们将改进的基于得分的权重与常规梯度的权重相结合,以便可以进一步提高最终CAM的可区分性。我们与最新的CAM算法进行了广泛的比较。定量和定性的结果表明,我们的FD-CAM可以对CNN产生更忠实,更具歧视性的视觉解释。我们还进行实验,以验证提出的分组通道切换和重量组合方案在改善结果方面的有效性。我们的代码可在https://github.com/crishhhhh1998/fd-cam上找到。
translated by 谷歌翻译
由于稀疏神经网络通常包含许多零权重,因此可以在不降低网络性能的情况下潜在地消除这些不必要的网络连接。因此,设计良好的稀疏神经网络具有显着降低拖鞋和计算资源的潜力。在这项工作中,我们提出了一种新的自动修剪方法 - 稀疏连接学习(SCL)。具体地,重量被重新参数化为可培训权重变量和二进制掩模的元素方向乘法。因此,由二进制掩模完全描述网络连接,其由单位步进函数调制。理论上,从理论上证明了使用直通估计器(STE)进行网络修剪的基本原理。这一原则是STE的代理梯度应该是积极的,确保掩模变量在其最小值处收敛。在找到泄漏的Relu后,SoftPlus和Identity Stes可以满足这个原理,我们建议采用SCL的身份STE以进行离散面膜松弛。我们发现不同特征的面具梯度非常不平衡,因此,我们建议将每个特征的掩模梯度标准化以优化掩码变量训练。为了自动训练稀疏掩码,我们将网络连接总数作为我们的客观函数中的正则化术语。由于SCL不需要由网络层设计人员定义的修剪标准或超级参数,因此在更大的假设空间中探讨了网络,以实现最佳性能的优化稀疏连接。 SCL克服了现有自动修剪方法的局限性。实验结果表明,SCL可以自动学习并选择各种基线网络结构的重要网络连接。 SCL培训的深度学习模型以稀疏性,精度和减少脚波特的SOTA人类设计和自动修剪方法训练。
translated by 谷歌翻译
解释方法有助于开发学习有意义的概念的模型,并避免利用杂散相关性。我们说明了对流行神经网络的先前未被识别的限制解释方法GRAC-CAM:作为梯度平均步骤的副作用,Grad-Cam有时突出显示模型实际使用的位置。为了解决这个问题,我们提出了一种新颖的类特定的解释方法,保证只能突出显示用于制作每个预测的模型的位置。我们证明了亨克斯姆是凸轮的泛化,探索赫什罕与基于梯度的解释方法之间的关系。 Pascal VOC 2012的实验,包括人群源评级,阐述了虽然亨克斯姆的解释忠实地反映了该模型,但Grad-Cam往往会扩大注意力创造更大和更平滑的可视化。总体而言,这项工作进展了卷积神经网络的解释方法,可以帮助开发敏感应用的可靠性模型。
translated by 谷歌翻译
The success of CNNs in various applications is accompanied by a significant increase in the computation and parameter storage costs. Recent efforts toward reducing these overheads involve pruning and compressing the weights of various layers without hurting original accuracy. However, magnitude-based pruning of weights reduces a significant number of parameters from the fully connected layers and may not adequately reduce the computation costs in the convolutional layers due to irregular sparsity in the pruned networks. We present an acceleration method for CNNs, where we prune filters from CNNs that are identified as having a small effect on the output accuracy. By removing whole filters in the network together with their connecting feature maps, the computation costs are reduced significantly. In contrast to pruning weights, this approach does not result in sparse connectivity patterns. Hence, it does not need the support of sparse convolution libraries and can work with existing efficient BLAS libraries for dense matrix multiplications. We show that even simple filter pruning techniques can reduce inference costs for VGG-16 by up to 34% and ResNet-110 by up to 38% on CIFAR10 while regaining close to the original accuracy by retraining the networks.
translated by 谷歌翻译