类激活图(CAM)已被广泛研究,用于视觉解释卷积神经网络的内部工作机理。现有基于CAM的方法的关键是计算有效的权重以在目标卷积层中结合激活图。现有的基于梯度和得分的加权方案在确保CAM的可区分性或忠诚度方面表现出了优越性,但它们通常在这两种属性中都无法表现出色。在本文中,我们提出了一种名为FD-CAM的新型CAM加权方案,以提高基于CAM的CNN视觉解释的忠诚和可区分性。首先,我们通过执行分组的通道切换操作来提高基于分数的权重的忠诚和可区分性。具体而言,对于每个通道,我们计算其相似性组,并同时打开或关闭一组通道以计算类预测评分的变化为权重。然后,我们将改进的基于得分的权重与常规梯度的权重相结合,以便可以进一步提高最终CAM的可区分性。我们与最新的CAM算法进行了广泛的比较。定量和定性的结果表明,我们的FD-CAM可以对CNN产生更忠实,更具歧视性的视觉解释。我们还进行实验,以验证提出的分组通道切换和重量组合方案在改善结果方面的有效性。我们的代码可在https://github.com/crishhhhh1998/fd-cam上找到。
translated by 谷歌翻译
Recently, increasing attention has been drawn to the internal mechanisms of convolutional neural networks, and the reason why the network makes specific decisions. In this paper, we develop a novel post-hoc visual explanation method called Score-CAM based on class activation mapping. Unlike previous class activation mapping based approaches, Score-CAM gets rid of the dependence on gradients by obtaining the weight of each activation map through its forward passing score on target class, the final result is obtained by a linear combination of weights and activation maps. We demonstrate that Score-CAM achieves better visual performance and fairness for interpreting the decision making process. Our approach outperforms previous methods on both recognition and localization tasks, it also passes the sanity check. We also indicate its application as debugging tools. The implementation is available 1 .
translated by 谷歌翻译
深神经网络(DNN)的黑盒性质严重阻碍了其在特定场景中的性能改善和应用。近年来,基于类激活映射的方法已被广泛用于解释计算机视觉任务中模型的内部决策。但是,当此方法使用反向传播获得梯度时,它将在显着图中引起噪声,甚至找到与决策无关的特征。在本文中,我们提出了一个基于绝对价值类激活映射(ABS-CAM)方法,该方法优化了从反向传播中得出的梯度,并将所有这些梯度变成正梯度,以增强输出神经元激活的视觉特征,并改善。显着图的本地化能力。 ABS-CAM的框架分为两个阶段:生成初始显着性图并生成最终显着图。第一阶段通过优化梯度来提高显着性图的定位能力,第二阶段将初始显着性图与原始图像线性结合在一起,以增强显着性图的语义信息。我们对拟议方法进行定性和定量评估,包括删除,插入和指向游戏。实验结果表明,ABS-CAM显然可以消除显着性图中的噪声,并且可以更好地定位与决策相关的功能,并且优于以前的识别和定位任务中的方法。
translated by 谷歌翻译
在几个机器学习应用领域,包括可解释的AI和弱监督的对象检测和细分,高质量的显着性图至关重要。已经开发了许多技术来使用神经网络提高显着性。但是,它们通常仅限于特定的显着性可视化方法或显着性问题。我们提出了一种新型的显着性增强方法,称为SESS(通过缩放和滑动增强显着性)。这是对现有显着性图生成方法的方法和模型不可或缺的扩展。借助SESS,现有的显着性方法变得稳健,可在尺度差异,目标对象的多次出现,分散器的存在以及产生较少的嘈杂和更具歧视性显着性图。 SESS通过从不同区域的不同尺度上从多个斑块中提取的显着图来提高显着性,并使用新型的融合方案结合了这些单独的地图,该方案结合了通道的重量和空间加权平均值。为了提高效率,我们引入了一个预过滤步骤,该步骤可以排除非信息显着图以提高效率,同时仍提高整体结果。我们在对象识别和检测基准上评估SESS可以取得重大改进。该守则公开发布以使研究人员能够验证绩效和进一步发展。代码可用:https://github.com/neouyghur/sess
translated by 谷歌翻译
解释深度卷积神经网络最近引起了人们的关注,因为它有助于了解网络的内部操作以及为什么它们做出某些决定。显着地图强调了与网络决策的主要连接的显着区域,是可视化和分析计算机视觉社区深层网络的最常见方法之一。但是,由于未经证实的激活图权重的建议,这些图像没有稳固的理论基础,并且未能考虑每个像素之间的关系,因此现有方法生成的显着图不能表示图像中的真实信息。在本文中,我们开发了一种基于类激活映射的新型事后视觉解释方法,称为Shap-Cam。与以前的基于梯度的方法不同,Shap-Cam通过通过Shapley值获得每个像素的重要性来摆脱对梯度的依赖。我们证明,Shap-Cam可以在解释决策过程中获得更好的视觉性能和公平性。我们的方法在识别和本地化任务方面的表现优于以前的方法。
translated by 谷歌翻译
We propose a technique for producing 'visual explanations' for decisions from a large class of Convolutional Neural Network (CNN)-based models, making them more transparent and explainable.Our approach -Gradient-weighted Class Activation Mapping (Grad-CAM), uses the gradients of any target concept (say 'dog' in a classification network or a sequence of words in captioning network) flowing into the final convolutional layer to produce a coarse localization map highlighting the important regions in the image for predicting the concept.Unlike previous approaches, Grad-CAM is applicable to a wide variety of CNN model-families: (1) CNNs with fullyconnected layers (e.g. VGG), (2) CNNs used for structured outputs (e.g. captioning), (3) CNNs used in tasks with multimodal inputs (e.g. visual question answering) or reinforcement learning, all without architectural changes or re-training. We combine Grad-CAM with existing fine-grained visualizations to create a high-resolution class-discriminative vi-
translated by 谷歌翻译
卷积神经网络(CNN)成为计算机视觉最受欢迎和最突出的深度学习体系结构之一,但其黑匣子功能隐藏了内部预测过程。因此,AI从业者阐明了可解释的AI,以提供模型行为的解释性。特别是,基于类的激活图(CAM)和基于GRAD-CAM的方法已显示出希望结果,但它们具有架构限制或梯度计算负担。为了解决这些问题,已建议将得分摄像机作为一种无梯度方法,但是,与基于CAM或GRAD-CAM的方法相比,它需要更多的执行时间。因此,我们通过空间掩盖提取的特征图来利用激活图和网络输出之间的相关性,提出了一个轻巧的体系结构和无梯度的互惠凸轮(配克CAM)。通过提出的方法,与平均跌落 - 相干 - 复杂性(ADCC)度量相比,Resnet家族中的1:78-3:72%的收益不包括VGG-16(1:39%)(1:39%) )。此外,配置摄像头表现出与Grad-CAM相似的显着性图生成速率,并且比Score-CAM快于148倍。
translated by 谷歌翻译
该属性方法通过识别和可视化占据网络输出的输入区域/像素来提供用于以可视化方式解释不透明神经网络的方向。关于视觉上解释视频理解网络的归因方法,由于视频输入中存在的独特的时空依赖性以及视频理解网络的特殊3D卷积或经常性结构,它具有具有挑战性。然而,大多数现有的归因方法专注于解释拍摄单个图像的网络作为输入,并且少量设计用于视频归属的作品来处理视频理解网络的多样化结构。在本文中,我们调查了与多样化视频理解网络兼容的基于通用扰动的归因方法。此外,我们提出了一种新的正则化术语来增强方法,通过限制其归属的平滑度导致空间和时间维度。为了评估不同视频归因方法的有效性而不依赖于手动判断,我们引入了通过新提出的可靠性测量检查的可靠的客观度量。我们通过主观和客观评估和与多种重要归因方法进行比较验证了我们的方法的有效性。
translated by 谷歌翻译
近年来,可解释的人工智能(XAI)已成为一个非常适合的框架,可以生成人类对“黑盒”模型的可理解解释。在本文中,一种新颖的XAI视觉解释算法称为相似性差异和唯一性(SIDU)方法,该方法可以有效地定位负责预测的整个对象区域。通过各种计算和人类主题实验分析了SIDU算法的鲁棒性和有效性。特别是,使用三种不同类型的评估(应用,人类和功能地面)评估SIDU算法以证明其出色的性能。在对“黑匣子”模型的对抗性攻击的情况下,进一步研究了Sidu的鲁棒性,以更好地了解其性能。我们的代码可在:https://github.com/satyamahesh84/sidu_xai_code上找到。
translated by 谷歌翻译
Deep neural networks are being used increasingly to automate data analysis and decision making, yet their decision-making process is largely unclear and is difficult to explain to the end users. In this paper, we address the problem of Explainable AI for deep neural networks that take images as input and output a class probability. We propose an approach called RISE that generates an importance map indicating how salient each pixel is for the model's prediction. In contrast to white-box approaches that estimate pixel importance using gradients or other internal network state, RISE works on blackbox models. It estimates importance empirically by probing the model with randomly masked versions of the input image and obtaining the corresponding outputs. We compare our approach to state-of-the-art importance extraction methods using both an automatic deletion/insertion metric and a pointing metric based on human-annotated object segments. Extensive experiments on several benchmark datasets show that our approach matches or exceeds the performance of other methods, including white-box approaches.
translated by 谷歌翻译
解释方法有助于开发学习有意义的概念的模型,并避免利用杂散相关性。我们说明了对流行神经网络的先前未被识别的限制解释方法GRAC-CAM:作为梯度平均步骤的副作用,Grad-Cam有时突出显示模型实际使用的位置。为了解决这个问题,我们提出了一种新颖的类特定的解释方法,保证只能突出显示用于制作每个预测的模型的位置。我们证明了亨克斯姆是凸轮的泛化,探索赫什罕与基于梯度的解释方法之间的关系。 Pascal VOC 2012的实验,包括人群源评级,阐述了虽然亨克斯姆的解释忠实地反映了该模型,但Grad-Cam往往会扩大注意力创造更大和更平滑的可视化。总体而言,这项工作进展了卷积神经网络的解释方法,可以帮助开发敏感应用的可靠性模型。
translated by 谷歌翻译
类激活图(CAM)有助于制定显着图,有助于解释深度神经网络的预测。基于梯度的方法通常比视力解释性的其他分支更快,并且独立于人类的指导。类似CAM的研究的性能取决于管理模型的层响应以及梯度的影响。典型的面向梯度的CAM研究依赖加权聚合来进行显着图估计,通过将梯度图投影到单权重值中,这可能导致过度的广义显着图。为了解决此问题,我们使用全球指导图来纠正显着性估计过程中加权聚合操作,在这种情况下,结果解释是相对干净的ER且特定于实例的。我们通过在特征图及其相应的梯度图之间执行元素乘法来获得全局引导图。为了验证我们的研究,我们将拟议的研究与八个不同的显着性可视化器进行了比较。此外,我们使用七个常用的评估指标进行定量比较。提出的方案比ImageNet,MS-Coco 14和Pascal VOC 2012数据集的测试图像取得了重大改进。
translated by 谷歌翻译
在本文中提出了两种基于学习的新基于学习的可解释的AI(XAI)方法,用于深卷积神经网络(DCNN)图像分类器,称为L-CAM-FM和L-CAM-IMG。两种方法都使用了一种注意机制,该机制插入了原始(冷冻)DCNN中,并经过训练以从最后一个卷积层的特征图中得出类激活图(CAM)。在训练过程中,将CAM应用于特征图(L-CAM-FM)或输入图像(L-CAM-IMG),迫使注意机制学习了解释DCNN结果的图像区域。对成像网的实验评估表明,所提出的方法获得竞争结果,同时需要在推理阶段进行一次前进。此外,根据派生的解释,进行了全面的定性分析,为了解分类错误背后的原因,包括影响训练有素的分类器的可能数据集偏见。
translated by 谷歌翻译
Despite the popularity of Vision Transformers (ViTs) and eXplainable AI (XAI), only a few explanation methods have been proposed for ViTs thus far. They use attention weights of the classification token on patch embeddings and often produce unsatisfactory saliency maps. In this paper, we propose a novel method for explaining ViTs called ViT-CX. It is based on patch embeddings, rather than attentions paid to them, and their causal impacts on the model output. ViT-CX can be used to explain different ViT models. Empirical results show that, in comparison with previous methods, ViT-CX produces more meaningful saliency maps and does a better job at revealing all the important evidence for prediction. It is also significantly more faithful to the model as measured by deletion AUC and insertion AUC.
translated by 谷歌翻译
本文提出了一种通过视觉解释3D卷积神经网络(CNN)的决策过程的方法,并具有闭塞灵敏度分析的时间扩展。这里的关键思想是在输入3D时间空间数据空间中通过3D掩码遮住特定的数据,然后测量输出评分中的变更程度。产生较大变化程度的遮挡体积数据被认为是分类的更关键元素。但是,虽然通常使用遮挡敏感性分析来分析单个图像分类,但将此想法应用于视频分类并不是那么简单,因为简单的固定核心无法处理动作。为此,我们将3D遮挡掩模的形状调整为目标对象的复杂运动。通过考虑从输入视频数据中提取的光流的时间连续性和空间共存在,我们的灵活面膜适应性进行了。我们进一步建议通过使用分数的一阶部分导数相对于输入图像来降低其计算成本,以近似我们的方法。我们通过与删除/插入度量的常规方法和UCF-101上的指向度量来证明我们方法的有效性。该代码可在以下网址获得:https://github.com/uchiyama33/aosa。
translated by 谷歌翻译
由于其灵活性和适应性,深度学习已成为技术和业务领域的一定大小的解决方案。它是使用不透明模型实施的,不幸的是,这破坏了结果的可信度。为了更好地了解系统的行为,尤其是由时间序列驱动的系统的行为,在深度学习模型中,所谓的可解释的人工智能(XAI)方法是重要的。时间序列数据有两种主要类型的XAI类型,即模型不可屈服和特定于模型。在这项工作中考虑了模型特定的方法。尽管其他方法采用了类激活映射(CAM)或注意机制,但我们将两种策略合并为单个系统,简称为时间加权的时空可解释的多元时间序列(TSEM)。 TSEM结合了RNN和CNN模型的功能,使RNN隐藏单元被用作CNN具有暂时轴的注意力权重。结果表明TSEM优于XCM。就准确性而言,它与Stam相似,同时还满足了许多解释性标准,包括因果关系,忠诚度和时空性。
translated by 谷歌翻译
图形卷积神经网络(GCN)吸引了越来越多的注意力,并在各种计算机视觉任务中取得了良好的表现,但是,对GCN的内部机制缺乏明确的解释。对于标准的卷积神经网络(CNN),通常使用类激活映射(CAM)方法通过生成热图来可视化CNN的决策和图像区域之间的连接。尽管如此,当这些凸轮直接应用于GCN时,这种热图通常会显示出语义 - chaos。在本文中,我们提出了一种新颖的可视化方法,特别适用于GCN,顶点语义类激活映射(VS-CAM)。 VS-CAM包括两个独立的管道,分别制作一组语义探针图和一个语义基映射。语义探针图用于检测语义信息从语义碱图图中的语义信息,以汇总语义感知的热图。定性结果表明,VS-CAM可以获得与基于CNN的CAM更精确地匹配对象的热图。定量评估进一步证明了VS-CAM的优势。
translated by 谷歌翻译
自我监督的视觉学习彻底改变了深度学习,成为域中的下一个重大挑战,并通过大型计算机视觉基准的监督方法迅速缩小了差距。随着当前的模型和培训数据成倍增长,解释和理解这些模型变得关键。我们研究了视力任务的自我监督学习领域中可解释的人工智能的问题,并提出了了解经过自学训练的网络及其内部工作的方法。鉴于自我监督的视觉借口任务的巨大多样性,我们缩小了对理解范式的关注,这些范式从同一图像的两种观点中学习,主要是旨在了解借口任务。我们的工作重点是解释相似性学习,并且很容易扩展到所有其他借口任务。我们研究了两个流行的自我监督视觉模型:Simclr和Barlow Twins。我们总共开发了六种可视化和理解这些模型的方法:基于扰动的方法(条件闭塞,上下文无形的条件闭塞和成对的闭塞),相互作用-CAM,特征可视化,模型差异可视化,平均变换和像素无形。最后,我们通过将涉及单个图像的监督图像分类系统量身定制的众所周知的评估指标来评估这些解释,并将其涉及两个图像的自我监督学习领域。代码为:https://github.com/fawazsammani/xai-ssl
translated by 谷歌翻译
本文提出了一种基于Hilbert-Schmidt独立标准(HSIC)的新有效的黑盒归因方法,这是一种基于再现核Hilbert Spaces(RKHS)的依赖度量。 HSIC测量了基于分布的内核的输入图像区域之间的依赖性和模型的输出。因此,它提供了由RKHS表示功能丰富的解释。可以非常有效地估计HSIC,与其他黑盒归因方法相比,大大降低了计算成本。我们的实验表明,HSIC的速度比以前的最佳黑盒归因方法快8倍,同时忠实。确实,我们改进或匹配了黑盒和白框归因方法的最新方法,用于具有各种最近的模型体系结构的Imagenet上的几个保真度指标。重要的是,我们表明这些进步可以被转化为有效而忠实地解释诸如Yolov4之类的对象检测模型。最后,我们通过提出一种新的内核来扩展传统的归因方法,从而实现基于HSIC的重要性分数的正交分解,从而使我们不仅可以评估每个图像贴片的重要性,还可以评估其成对相互作用的重要性。
translated by 谷歌翻译
深层神经网络以其对各种机器学习和人工智能任务的精湛处理而闻名。但是,由于其过度参数化的黑盒性质,通常很难理解深层模型的预测结果。近年来,已经提出了许多解释工具来解释或揭示模型如何做出决策。在本文中,我们回顾了这一研究,并尝试进行全面的调查。具体来说,我们首先介绍并阐明了人们通常会感到困惑的两个基本概念 - 解释和解释性。为了解决解释中的研究工作,我们通过提出新的分类法来阐述许多解释算法的设计。然后,为了了解解释结果,我们还调查了评估解释算法的性能指标。此外,我们总结了使用“可信赖”解释算法评估模型的解释性的当前工作。最后,我们审查并讨论了深层模型的解释与其他因素之间的联系,例如对抗性鲁棒性和从解释中学习,并介绍了一些开源库,以解释算法和评估方法。
translated by 谷歌翻译