卷积神经网络(CNN)成为计算机视觉最受欢迎和最突出的深度学习体系结构之一,但其黑匣子功能隐藏了内部预测过程。因此,AI从业者阐明了可解释的AI,以提供模型行为的解释性。特别是,基于类的激活图(CAM)和基于GRAD-CAM的方法已显示出希望结果,但它们具有架构限制或梯度计算负担。为了解决这些问题,已建议将得分摄像机作为一种无梯度方法,但是,与基于CAM或GRAD-CAM的方法相比,它需要更多的执行时间。因此,我们通过空间掩盖提取的特征图来利用激活图和网络输出之间的相关性,提出了一个轻巧的体系结构和无梯度的互惠凸轮(配克CAM)。通过提出的方法,与平均跌落 - 相干 - 复杂性(ADCC)度量相比,Resnet家族中的1:78-3:72%的收益不包括VGG-16(1:39%)(1:39%) )。此外,配置摄像头表现出与Grad-CAM相似的显着性图生成速率,并且比Score-CAM快于148倍。
translated by 谷歌翻译
Recently, increasing attention has been drawn to the internal mechanisms of convolutional neural networks, and the reason why the network makes specific decisions. In this paper, we develop a novel post-hoc visual explanation method called Score-CAM based on class activation mapping. Unlike previous class activation mapping based approaches, Score-CAM gets rid of the dependence on gradients by obtaining the weight of each activation map through its forward passing score on target class, the final result is obtained by a linear combination of weights and activation maps. We demonstrate that Score-CAM achieves better visual performance and fairness for interpreting the decision making process. Our approach outperforms previous methods on both recognition and localization tasks, it also passes the sanity check. We also indicate its application as debugging tools. The implementation is available 1 .
translated by 谷歌翻译
在几个机器学习应用领域,包括可解释的AI和弱监督的对象检测和细分,高质量的显着性图至关重要。已经开发了许多技术来使用神经网络提高显着性。但是,它们通常仅限于特定的显着性可视化方法或显着性问题。我们提出了一种新型的显着性增强方法,称为SESS(通过缩放和滑动增强显着性)。这是对现有显着性图生成方法的方法和模型不可或缺的扩展。借助SESS,现有的显着性方法变得稳健,可在尺度差异,目标对象的多次出现,分散器的存在以及产生较少的嘈杂和更具歧视性显着性图。 SESS通过从不同区域的不同尺度上从多个斑块中提取的显着图来提高显着性,并使用新型的融合方案结合了这些单独的地图,该方案结合了通道的重量和空间加权平均值。为了提高效率,我们引入了一个预过滤步骤,该步骤可以排除非信息显着图以提高效率,同时仍提高整体结果。我们在对象识别和检测基准上评估SESS可以取得重大改进。该守则公开发布以使研究人员能够验证绩效和进一步发展。代码可用:https://github.com/neouyghur/sess
translated by 谷歌翻译
深神经网络(DNN)的黑盒性质严重阻碍了其在特定场景中的性能改善和应用。近年来,基于类激活映射的方法已被广泛用于解释计算机视觉任务中模型的内部决策。但是,当此方法使用反向传播获得梯度时,它将在显着图中引起噪声,甚至找到与决策无关的特征。在本文中,我们提出了一个基于绝对价值类激活映射(ABS-CAM)方法,该方法优化了从反向传播中得出的梯度,并将所有这些梯度变成正梯度,以增强输出神经元激活的视觉特征,并改善。显着图的本地化能力。 ABS-CAM的框架分为两个阶段:生成初始显着性图并生成最终显着图。第一阶段通过优化梯度来提高显着性图的定位能力,第二阶段将初始显着性图与原始图像线性结合在一起,以增强显着性图的语义信息。我们对拟议方法进行定性和定量评估,包括删除,插入和指向游戏。实验结果表明,ABS-CAM显然可以消除显着性图中的噪声,并且可以更好地定位与决策相关的功能,并且优于以前的识别和定位任务中的方法。
translated by 谷歌翻译
近年来,可解释的人工智能(XAI)已成为一个非常适合的框架,可以生成人类对“黑盒”模型的可理解解释。在本文中,一种新颖的XAI视觉解释算法称为相似性差异和唯一性(SIDU)方法,该方法可以有效地定位负责预测的整个对象区域。通过各种计算和人类主题实验分析了SIDU算法的鲁棒性和有效性。特别是,使用三种不同类型的评估(应用,人类和功能地面)评估SIDU算法以证明其出色的性能。在对“黑匣子”模型的对抗性攻击的情况下,进一步研究了Sidu的鲁棒性,以更好地了解其性能。我们的代码可在:https://github.com/satyamahesh84/sidu_xai_code上找到。
translated by 谷歌翻译
类激活图(CAM)已被广泛研究,用于视觉解释卷积神经网络的内部工作机理。现有基于CAM的方法的关键是计算有效的权重以在目标卷积层中结合激活图。现有的基于梯度和得分的加权方案在确保CAM的可区分性或忠诚度方面表现出了优越性,但它们通常在这两种属性中都无法表现出色。在本文中,我们提出了一种名为FD-CAM的新型CAM加权方案,以提高基于CAM的CNN视觉解释的忠诚和可区分性。首先,我们通过执行分组的通道切换操作来提高基于分数的权重的忠诚和可区分性。具体而言,对于每个通道,我们计算其相似性组,并同时打开或关闭一组通道以计算类预测评分的变化为权重。然后,我们将改进的基于得分的权重与常规梯度的权重相结合,以便可以进一步提高最终CAM的可区分性。我们与最新的CAM算法进行了广泛的比较。定量和定性的结果表明,我们的FD-CAM可以对CNN产生更忠实,更具歧视性的视觉解释。我们还进行实验,以验证提出的分组通道切换和重量组合方案在改善结果方面的有效性。我们的代码可在https://github.com/crishhhhh1998/fd-cam上找到。
translated by 谷歌翻译
Deep neural networks are being used increasingly to automate data analysis and decision making, yet their decision-making process is largely unclear and is difficult to explain to the end users. In this paper, we address the problem of Explainable AI for deep neural networks that take images as input and output a class probability. We propose an approach called RISE that generates an importance map indicating how salient each pixel is for the model's prediction. In contrast to white-box approaches that estimate pixel importance using gradients or other internal network state, RISE works on blackbox models. It estimates importance empirically by probing the model with randomly masked versions of the input image and obtaining the corresponding outputs. We compare our approach to state-of-the-art importance extraction methods using both an automatic deletion/insertion metric and a pointing metric based on human-annotated object segments. Extensive experiments on several benchmark datasets show that our approach matches or exceeds the performance of other methods, including white-box approaches.
translated by 谷歌翻译
在本文中提出了两种基于学习的新基于学习的可解释的AI(XAI)方法,用于深卷积神经网络(DCNN)图像分类器,称为L-CAM-FM和L-CAM-IMG。两种方法都使用了一种注意机制,该机制插入了原始(冷冻)DCNN中,并经过训练以从最后一个卷积层的特征图中得出类激活图(CAM)。在训练过程中,将CAM应用于特征图(L-CAM-FM)或输入图像(L-CAM-IMG),迫使注意机制学习了解释DCNN结果的图像区域。对成像网的实验评估表明,所提出的方法获得竞争结果,同时需要在推理阶段进行一次前进。此外,根据派生的解释,进行了全面的定性分析,为了解分类错误背后的原因,包括影响训练有素的分类器的可能数据集偏见。
translated by 谷歌翻译
解释深度卷积神经网络最近引起了人们的关注,因为它有助于了解网络的内部操作以及为什么它们做出某些决定。显着地图强调了与网络决策的主要连接的显着区域,是可视化和分析计算机视觉社区深层网络的最常见方法之一。但是,由于未经证实的激活图权重的建议,这些图像没有稳固的理论基础,并且未能考虑每个像素之间的关系,因此现有方法生成的显着图不能表示图像中的真实信息。在本文中,我们开发了一种基于类激活映射的新型事后视觉解释方法,称为Shap-Cam。与以前的基于梯度的方法不同,Shap-Cam通过通过Shapley值获得每个像素的重要性来摆脱对梯度的依赖。我们证明,Shap-Cam可以在解释决策过程中获得更好的视觉性能和公平性。我们的方法在识别和本地化任务方面的表现优于以前的方法。
translated by 谷歌翻译
类激活图(CAM)有助于制定显着图,有助于解释深度神经网络的预测。基于梯度的方法通常比视力解释性的其他分支更快,并且独立于人类的指导。类似CAM的研究的性能取决于管理模型的层响应以及梯度的影响。典型的面向梯度的CAM研究依赖加权聚合来进行显着图估计,通过将梯度图投影到单权重值中,这可能导致过度的广义显着图。为了解决此问题,我们使用全球指导图来纠正显着性估计过程中加权聚合操作,在这种情况下,结果解释是相对干净的ER且特定于实例的。我们通过在特征图及其相应的梯度图之间执行元素乘法来获得全局引导图。为了验证我们的研究,我们将拟议的研究与八个不同的显着性可视化器进行了比较。此外,我们使用七个常用的评估指标进行定量比较。提出的方案比ImageNet,MS-Coco 14和Pascal VOC 2012数据集的测试图像取得了重大改进。
translated by 谷歌翻译
交通事故预期是自动化驾驶系统(广告)提供安全保证的驾驶体验的重要功能。事故预期模型旨在在发生之前及时准确地预测事故。现有的人工智能(AI)意外预期模型缺乏对其决策的人类可意识形态的解释。虽然这些模型表现良好,但它们仍然是广告用户的黑匣子,因此难以获得他们的信任。为此,本文介绍了一个门控复发单位(GRU)网络,用于了解从Dashcam视频数据的交通事故的早期期间的时空关系特征。名为Grad-CAM的后HOC关注机制被集成到网络中,以产生显着图作为事故预期决策的视觉解释。眼跟踪器捕获人眼固定点以产生人类注意图。与人类注意图相比,评估网络生成的显着性图的解释性。在公共崩溃数据集上的定性和定量结果证实,建议的可解释网络可以平均预期事故,然后在发生之前的4.57秒,平均精度为94.02%。此外,评估各种基于HOC的基于后关注的XAI方法。它证实了本研究选择的渐变凸轮可以产生高质量的人类可解释的显着性图(具有1.23标准化的扫描路径显着性),以解释碰撞预期决定。重要的是,结果证实,拟议的AI模型,具有人类灵感设计,可以在事故期内超越人类。
translated by 谷歌翻译
The most popular methods and algorithms for AI are, for the vast majority, black boxes. Black boxes can be an acceptable solution to unimportant problems (in the sense of the degree of impact) but have a fatal flaw for the rest. Therefore the explanation tools for them have been quickly developed. The evaluation of their quality remains an open research question. In this technical report, we remind recently proposed post-hoc explainers FEM and MLFEM which have been designed for explanations of CNNs in image and video classification tasks. We also propose their evaluation with reference-based and no-reference metrics. The reference-based metrics are Pearson Correlation coefficient and Similarity computed between the explanation maps and the ground truth, which is represented by Gaze Fixation Density Maps obtained due to a psycho-visual experiment. As a no-reference metric we use "stability" metric, proposed by Alvarez-Melis and Jaakkola. We study its behaviour, consensus with reference-based metrics and show that in case of several kind of degradations on input images, this metric is in agreement with reference-based ones. Therefore it can be used for evaluation of the quality of explainers when the ground truth is not available.
translated by 谷歌翻译
图形卷积神经网络(GCN)吸引了越来越多的注意力,并在各种计算机视觉任务中取得了良好的表现,但是,对GCN的内部机制缺乏明确的解释。对于标准的卷积神经网络(CNN),通常使用类激活映射(CAM)方法通过生成热图来可视化CNN的决策和图像区域之间的连接。尽管如此,当这些凸轮直接应用于GCN时,这种热图通常会显示出语义 - chaos。在本文中,我们提出了一种新颖的可视化方法,特别适用于GCN,顶点语义类激活映射(VS-CAM)。 VS-CAM包括两个独立的管道,分别制作一组语义探针图和一个语义基映射。语义探针图用于检测语义信息从语义碱图图中的语义信息,以汇总语义感知的热图。定性结果表明,VS-CAM可以获得与基于CNN的CAM更精确地匹配对象的热图。定量评估进一步证明了VS-CAM的优势。
translated by 谷歌翻译
自我监督的视觉学习彻底改变了深度学习,成为域中的下一个重大挑战,并通过大型计算机视觉基准的监督方法迅速缩小了差距。随着当前的模型和培训数据成倍增长,解释和理解这些模型变得关键。我们研究了视力任务的自我监督学习领域中可解释的人工智能的问题,并提出了了解经过自学训练的网络及其内部工作的方法。鉴于自我监督的视觉借口任务的巨大多样性,我们缩小了对理解范式的关注,这些范式从同一图像的两种观点中学习,主要是旨在了解借口任务。我们的工作重点是解释相似性学习,并且很容易扩展到所有其他借口任务。我们研究了两个流行的自我监督视觉模型:Simclr和Barlow Twins。我们总共开发了六种可视化和理解这些模型的方法:基于扰动的方法(条件闭塞,上下文无形的条件闭塞和成对的闭塞),相互作用-CAM,特征可视化,模型差异可视化,平均变换和像素无形。最后,我们通过将涉及单个图像的监督图像分类系统量身定制的众所周知的评估指标来评估这些解释,并将其涉及两个图像的自我监督学习领域。代码为:https://github.com/fawazsammani/xai-ssl
translated by 谷歌翻译
卷积神经网络(CNN)以其出色的功能提取能力而闻名,可以从数据中学习模型,但被用作黑匣子。对卷积滤液和相关特征的解释可以帮助建立对CNN的理解,以区分各种类别。在这项工作中,我们关注的是CNN模型的解释性,称为CNNexplain,该模型用于COVID-19和非CoVID-19分类,重点是卷积过滤器的特征解释性,以及这些功能如何有助于分类。具体而言,我们使用了各种可解释的人工智能(XAI)方法,例如可视化,SmoothGrad,Grad-Cam和Lime来提供卷积滤液的解释及相关特征及其在分类中的作用。我们已经分析了使用干咳嗽光谱图的这些方法的解释。从石灰,光滑果实和GRAD-CAM获得的解释结果突出了不同频谱图的重要特征及其与分类的相关性。
translated by 谷歌翻译
Black-Box AI模型的广泛使用增加了对解释这些模型做出决定的算法和方法的需求。近年来,AI研究界对模型的解释性越来越感兴趣,因为Black-Box模型接管了越来越复杂和具有挑战性的任务。考虑到深度学习技术在广泛应用中的主导地位,包括但不限于计算机视觉,解释性变得至关重要。在理解深度学习模型的推理过程的指导下,已经开发了许多为人工智能模型决策提供人类可理解证据的方法,因为绝大多数人都依靠他们的操作来访问这些模型的内部体系结构和参数(例如,神经网络的权重)。我们提出了一种模型 - 不足的方法,用于生成仅访问模型输出的显着性图,并且不需要其他信息,例如梯度。我们使用差分进化(DE)来确定哪些图像像素在模型的决策过程中最有影响力,并产生类激活图(CAM),其质量与使用模型特异性算法创建的CAM质量相当。 DE-CAM可以实现良好的性能,而无需以更高的计算复杂性来访问模型体系结构的内部细节。
translated by 谷歌翻译
We propose a technique for producing 'visual explanations' for decisions from a large class of Convolutional Neural Network (CNN)-based models, making them more transparent and explainable.Our approach -Gradient-weighted Class Activation Mapping (Grad-CAM), uses the gradients of any target concept (say 'dog' in a classification network or a sequence of words in captioning network) flowing into the final convolutional layer to produce a coarse localization map highlighting the important regions in the image for predicting the concept.Unlike previous approaches, Grad-CAM is applicable to a wide variety of CNN model-families: (1) CNNs with fullyconnected layers (e.g. VGG), (2) CNNs used for structured outputs (e.g. captioning), (3) CNNs used in tasks with multimodal inputs (e.g. visual question answering) or reinforcement learning, all without architectural changes or re-training. We combine Grad-CAM with existing fine-grained visualizations to create a high-resolution class-discriminative vi-
translated by 谷歌翻译
本文的目的是评估图像分类任务的解释热图的质量。为了评估解释性方法的质量,我们通过准确性和稳定性的角度来处理任务。在这项工作中,我们做出以下贡献。首先,我们介绍了加权游戏,该游戏衡量了正确的类“分割掩码中包含的类别引导的解释”。其次,我们使用缩放/平移变换引入了用于解释稳定性的度量,以测量具有相似内容的显着性图之间的差异。使用这些新指标生产定量实验,以评估常用CAM方法提供的解释质量。解释的质量在不同的模型体系结构之间也形成了鲜明对比,发现突出了选择在选择解释性方法时考虑模型体系结构的必要性。
translated by 谷歌翻译
神经网络的活跃区域查找告诉我们,在做出决定时,神经网络的重点是哪个区域,这为我们提供了可解释性的基础,当神经网络做出分类决策时。我们提出了一种算法多动态掩码(MDM),这是一种具有解释性的通用显着图查询方法。它的建议基于一个假设:当图像输入到已经训练的神经网络时,与分类有关的激活特征将影响神经网络的分类结果,并且与分类无关的特征几乎不会影响分类结果网络。 MDM:一种基于学习的端到端算法,用于查找神经网络分类感兴趣的区域。它具有以下优点:1。它具有推理过程的解释性。 2.它是通用的,可以用于任何神经网络,并且不取决于神经网络的内部结构。 3.搜索性能更好。由于该算法基于学习生成面具并具有适应不同数据和网络的能力,因此性能比上一篇论文中提出的方法更好。对于MDM显着图搜索算法,我们在实验上比较了各种显着性图搜索方法的性能指标和MDM的Resnet和Densenet作为训练有素的神经网络。 MDM的搜索效果性能达到了最新的状态。我们将MDM应用于可解释的神经网络Protopnet和Xprotonet,从而改善了模型的解释性和原型搜索性能。我们可视化卷积神经体系结构和变压器体系结构在显着图搜索中的性能。
translated by 谷歌翻译
这项工作在拆分计算领域迈出了重大步骤,即如何拆分深神经网络以将其早期部分托管在嵌入式设备上,而其余则在服务器上。到目前为止,已经确定了潜在的分裂位置,以利用独特的建筑方面,即基于层尺寸。在此范式下,只有在执行分裂并重新训练整个管道后,才能评估分裂的疗效,从而对所有合理的分裂点在时间方面进行详尽的评估。在这里,我们表明,不仅层的结构确实很重要,而且其中包含的神经元的重要性也很重要。如果神经元相对于正确的班级决策,神经元很重要。因此,应在具有高密度的重要神经元的层后立即施加拆分,以保留流动的信息。根据这个想法,我们提出了可解释的拆分(i-split):通过提供有关该分型在分类准确性方面的表现,事先对其有效实现的可靠性,以确定最合适的分裂点的过程。作为I-Split的另一个重大贡献,我们表明,多类分类问题的分裂点的最佳选择还取决于网络必须处理的特定类别。详尽的实验已在两个网络(VGG16和Resnet-50)以及三个数据集(Tiny-Imagenet-200,Notmnist和胸部X射线肺炎)上进行。源代码可在https://github.com/vips4/i-split上获得。
translated by 谷歌翻译