ProtoPNet and its follow-up variants (ProtoPNets) have attracted broad research interest for their intrinsic interpretability from prototypes and comparable accuracy to non-interpretable counterparts. However, it has been recently found that the interpretability of prototypes can be corrupted due to the semantic gap between similarity in latent space and that in input space. In this work, we make the first attempt to quantitatively evaluate the interpretability of prototype-based explanations, rather than solely qualitative evaluations by some visualization examples, which can be easily misled by cherry picks. To this end, we propose two evaluation metrics, termed consistency score and stability score, to evaluate the explanation consistency cross images and the explanation robustness against perturbations, both of which are essential for explanations taken into practice. Furthermore, we propose a shallow-deep feature alignment (SDFA) module and a score aggregation (SA) module to improve the interpretability of prototypes. We conduct systematical evaluation experiments and substantial discussions to uncover the interpretability of existing ProtoPNets. Experiments demonstrate that our method achieves significantly superior performance to the state-of-the-arts, under both the conventional qualitative evaluations and the proposed quantitative evaluations, in both accuracy and interpretability. Codes are available at https://github.com/hqhQAQ/EvalProtoPNet.
translated by 谷歌翻译
原型零件网络(Protopnet)引起了广泛的关注,并增加了许多随访研究,因为它的自我解释特性可解释人工智能(XAI)。但是,当直接在视觉变压器(VIT)骨架上应用原始网络时,学到的原型存在“分心”问题:它们具有相对较高的可能性,即被背景激活,并且对前景的关注较少。建模长期依赖性的强大能力使得基于变压器的Protopnet难以专注于原型部分,从而严重损害了其固有的解释性。本文提出了原型零件变压器(ProtoPformer),以适当有效地应用基于原型的方法,并使用VIT进行可解释的图像识别。提出的方法介绍了根据VIT的建筑特征捕获和突出目标的代表性整体和部分特征的全局和局部原型。采用了全球原型,以提供对象的全球视图,以指导本地原型集中在前景上,同时消除背景的影响。之后,明确监督局部原型,以专注于它们各自的原型视觉部分,从而提高整体可解释性。广泛的实验表明,我们提出的全球和本地原型可以相互纠正并共同做出最终决策,这些决策分别忠实,透明地从整体和地方的角度缔合过程。此外,ProtoPformer始终取得优于基于原型的原型基线(SOTA)的卓越性能和可视化结果。我们的代码已在https://github.com/zju-vipa/protopformer上发布。
translated by 谷歌翻译
机器学习已广泛采用在许多领域,包括高赌注应用,如医疗保健,金融和刑事司法。为了满足公平,问责制和透明度的担忧,这些关键域中的机器学习模型的预测必须是可解释的。通过整合深度神经网络的力量以及基于案例的推理来产生准确尚不可解释的图像分类模型来实现这一挑战的一系列挑战。这些模型通常通过将其与培训期间学习的原型进行比较来分类输入图像,以“这看起来这样的形式产生解释”。然而,来自这一工作行的方法使用空间刚性原型,这不能明确地解释姿势变化。在本文中,我们通过提出基于案例的可解释的神经网络来解决这种缺点,该神经网络提供空间柔性原型,称为可变形的原型部件网络(可变形Protopnet)。在可变形的Protopnet中,每个原型由若干原型部分组成,其根据输入图像自适应地改变其相对空间位置。这使得每个原型能够检测具有更高的空间变换容差的对象特征,因为允许原型内的部件移动。因此,可变形的Protopnet可以明确地捕获姿势变化,提高模型精度和所提供的解释的丰富性。与使用原型的其他基于案例的可解释模型相比,我们的方法实现了竞争精度,提供了更大的上下文的解释,并且更容易训练,从而使得更广泛地利用可解释模型来进行计算机视觉的可解释模型。
translated by 谷歌翻译
When we are faced with challenging image classification tasks, we often explain our reasoning by dissecting the image, and pointing out prototypical aspects of one class or another. The mounting evidence for each of the classes helps us make our final decision. In this work, we introduce a deep network architectureprototypical part network (ProtoPNet), that reasons in a similar way: the network dissects the image by finding prototypical parts, and combines evidence from the prototypes to make a final classification. The model thus reasons in a way that is qualitatively similar to the way ornithologists, physicians, and others would explain to people on how to solve challenging image classification tasks. The network uses only image-level labels for training without any annotations for parts of images. We demonstrate our method on the CUB-200-2011 dataset and the Stanford Cars dataset. Our experiments show that ProtoPNet can achieve comparable accuracy with its analogous non-interpretable counterpart, and when several ProtoPNets are combined into a larger network, it can achieve an accuracy that is on par with some of the best-performing deep models. Moreover, ProtoPNet provides a level of interpretability that is absent in other interpretable deep models. * Contributed equally † DISTRIBUTION STATEMENT A. Approved for public release. Distribution is unlimited.
translated by 谷歌翻译
我们介绍Protopool,一个可解释的图像分类模型,其中包含类的原型池。培训比现有方法更直接,因为它不需要修剪阶段。通过向特定类别引入完全可分辨分配的原型来获得它。此外,我们介绍了一种新的焦点相似度,将模型集中在罕见的前景特征上。我们表明Protopool在Cub-200-2011和斯坦福汽车数据集上获得最先进的准确性,大大减少了原型的数量。我们提供了对方法和用户学习的理论分析,以表明我们的原型比具有竞争方法所获得的原型更具独特。
translated by 谷歌翻译
由于其弱监督性,多个实例学习(MIL)在许多现实生活中的机器学习应用中都获得了受欢迎程度。但是,解释MIL滞后的相应努力,通常仅限于提出对特定预测至关重要的袋子的实例。在本文中,我们通过引入Protomil,这是一种新型的自我解释的MIL方法,该方法受到基于案例的推理过程的启发,该方法是基于案例的推理过程,该方法在视觉原型上运行。由于将原型特征纳入对象描述中,Protomil空前加入了模型的准确性和细粒度的可解释性,我们在五个公认的MIL数据集上进行了实验。
translated by 谷歌翻译
广义零射击学习(GZSL)旨在识别具有辅助语义信息的新类别,例如,类别属性。在本文中,我们通过逐步提高视觉表现的跨域可转换性和类别辨认性,处理域移位问题的临界问题,即观看和看不见的类别之间的困惑。我们命名为双渐进式原型网络(DPPN)的方法构造了两种类型的原型,分别为属性和类别记录原型视觉模式。使用属性原型,DPPN交替地搜索与属性相关的本地区域并更新相应的属性原型以逐步探索准确的属性区域对应。这使DPPN能够产生具有精确属性定位能力的可视表示,这有利于语义 - 视觉对齐和表示转换性。此外,除了渐进属性本地化之外,DPPN还将项目类别原型进一步投影到多个空间中,以逐步排斥来自不同类别的视觉表示,这提高了类别辨别性。属性和类别原型都在统一的框架中进行了协作学习,这使得DPPN可转移和独特的视觉表示。四个基准测试的实验证明,DPPN有效地减轻了GZSL中的域移位问题。
translated by 谷歌翻译
在本文中,我们提出了Primatul,这是一种用于从细粒识别中使用的数据集的零件检测器无监督学习的新型算法。它利用了训练集中所有图像的宏观相似性,以便在预先训练的卷积神经网络的特征空间中进行重复的模式。我们提出了实施检测部件的局部性和统一性的新目标功能。此外,我们根据相关评分将检测器嵌入置信度度量,从而允许系统估计每个部分的可见性。我们将我们的方法应用于两个公共细粒数据集(Caltech-UCSD Bird 200和Stanford Cars),并表明我们的探测器可以一致地突出物体的一部分,同时很好地衡量了对其预测的信心。我们还证明,这些探测器可直接用于构建基于零件的细粒分类器,这些分类器在基于原型的方法的透明度与非解剖方法的性能之间提供了良好的折衷。
translated by 谷歌翻译
识别诸如眼睛和喙之类的判别细节对于区分细粒度的班级非常重要,因为它们的总体外观相似。在这方面,我们介绍了任务差异最大化(TDM),这是一个简单的模块,用于细颗粒的几个射击分类。我们的目标是通过强调编码课堂不同信息的渠道来定位班级判别区域。具体而言,TDM基于两个新颖的组件学习特定于任务的通道权重:支持注意模块(SAM)和查询注意模块(QAM)。 SAM产生支持权重,以表示每个类别的频道判别能力。尽管如此,由于SAM基本上仅基于标记的支持集,因此它可能容易受到此类支持集的偏见。因此,我们提出了QAM,通过产生查询权重来补充SAM,该查询权重使给定查询图像的对象相关的通道更加重量。通过组合这两个权重,定义了特定于类的任务通道权重。然后将权重应用以产生任务自适应特征地图,更多地关注判别细节。我们的实验证实了TDM的有效性及其互补益处,并在细粒度的几乎没有分类中使用了先前的方法。
translated by 谷歌翻译
无法解释的黑框模型创建场景,使异常引起有害响应,从而造成不可接受的风险。这些风险促使可解释的人工智能(XAI)领域通过评估黑盒神经网络中的局部解释性来改善信任。不幸的是,基本真理对于模型的决定不可用,因此评估仅限于定性评估。此外,可解释性可能导致有关模型或错误信任感的不准确结论。我们建议通过探索Black-Box模型的潜在特征空间来从用户信任的有利位置提高XAI。我们提出了一种使用典型的几弹网络的Protoshotxai方法,该方法探索了不同类别的非线性特征之间的对比歧管。用户通过扰动查询示例的输入功能并记录任何类的示例子集的响应来探索多种多样。我们的方法是第一个可以将其扩展到很少的网络的本地解释的XAI模型。我们将ProtoShotxai与MNIST,Omniglot和Imagenet的最新XAI方法进行了比较,以进行定量和定性,Protoshotxai为模型探索提供了更大的灵活性。最后,Protoshotxai还展示了对抗样品的新颖解释和检测。
translated by 谷歌翻译
基于度量学习的最近方法取得了很大镜头学习的巨大进步。然而,大多数人都仅限于图像级表示方式,这不能正确地处理课外变化和空间知识,从而产生不希望的性能。在本文中,我们提出了一个深度偏置纠正网络(DBRN)来充分利用特征表示结构中存在的空间信息。我们首先采用偏置整流模块来缓解由类内变化引起的不利影响。偏置纠正模块能够专注于通过给定不同权重的对分类更具判别的特征。为了充分利用培训数据,我们设计了一种模拟增强机制,可以使从支架组产生的原型更具代表性。为了验证我们方法的有效性,我们对各种流行的几次分类基准进行了广泛的实验,我们的方法可以优于最先进的方法。
translated by 谷歌翻译
深层神经网络以其对各种机器学习和人工智能任务的精湛处理而闻名。但是,由于其过度参数化的黑盒性质,通常很难理解深层模型的预测结果。近年来,已经提出了许多解释工具来解释或揭示模型如何做出决策。在本文中,我们回顾了这一研究,并尝试进行全面的调查。具体来说,我们首先介绍并阐明了人们通常会感到困惑的两个基本概念 - 解释和解释性。为了解决解释中的研究工作,我们通过提出新的分类法来阐述许多解释算法的设计。然后,为了了解解释结果,我们还调查了评估解释算法的性能指标。此外,我们总结了使用“可信赖”解释算法评估模型的解释性的当前工作。最后,我们审查并讨论了深层模型的解释与其他因素之间的联系,例如对抗性鲁棒性和从解释中学习,并介绍了一些开源库,以解释算法和评估方法。
translated by 谷歌翻译
神经网络的活跃区域查找告诉我们,在做出决定时,神经网络的重点是哪个区域,这为我们提供了可解释性的基础,当神经网络做出分类决策时。我们提出了一种算法多动态掩码(MDM),这是一种具有解释性的通用显着图查询方法。它的建议基于一个假设:当图像输入到已经训练的神经网络时,与分类有关的激活特征将影响神经网络的分类结果,并且与分类无关的特征几乎不会影响分类结果网络。 MDM:一种基于学习的端到端算法,用于查找神经网络分类感兴趣的区域。它具有以下优点:1。它具有推理过程的解释性。 2.它是通用的,可以用于任何神经网络,并且不取决于神经网络的内部结构。 3.搜索性能更好。由于该算法基于学习生成面具并具有适应不同数据和网络的能力,因此性能比上一篇论文中提出的方法更好。对于MDM显着图搜索算法,我们在实验上比较了各种显着性图搜索方法的性能指标和MDM的Resnet和Densenet作为训练有素的神经网络。 MDM的搜索效果性能达到了最新的状态。我们将MDM应用于可解释的神经网络Protopnet和Xprotonet,从而改善了模型的解释性和原型搜索性能。我们可视化卷积神经体系结构和变压器体系结构在显着图搜索中的性能。
translated by 谷歌翻译
Deep convolutional neural networks (CNNs) have been widely used for medical image segmentation. In most studies, only the output layer is exploited to compute the final segmentation results and the hidden representations of the deep learned features have not been well understood. In this paper, we propose a prototype segmentation (ProtoSeg) method to compute a binary segmentation map based on deep features. We measure the segmentation abilities of the features by computing the Dice between the feature segmentation map and ground-truth, named as the segmentation ability score (SA score for short). The corresponding SA score can quantify the segmentation abilities of deep features in different layers and units to understand the deep neural networks for segmentation. In addition, our method can provide a mean SA score which can give a performance estimation of the output on the test images without ground-truth. Finally, we use the proposed ProtoSeg method to compute the segmentation map directly on input images to further understand the segmentation ability of each input image. Results are presented on segmenting tumors in brain MRI, lesions in skin images, COVID-related abnormality in CT images, prostate segmentation in abdominal MRI, and pancreatic mass segmentation in CT images. Our method can provide new insights for interpreting and explainable AI systems for medical image segmentation. Our code is available on: \url{https://github.com/shengfly/ProtoSeg}.
translated by 谷歌翻译
由于机器学习越来越多地应用于高冲击,高风险域,因此有许多新方法旨在使AI模型更具人类解释。尽管最近的可解释性工作增长,但缺乏对所提出的技术的系统评价。在这项工作中,我们提出了一种新的人类评估框架蜂巢(可视化解释的人类可解释性),用于计算机愿景中的不同解释性方法;据我们所知,这是它的第一个工作。我们认为,人类研究应该是正确评估方法对人类用户的可解释方式的金标。虽然由于与成本,研究设计和跨方法比较相关的挑战,我们常常避免人类研究,但我们描述了我们的框架如何减轻这些问题并进行IRB批准的四种方法,这些方法是代表解释性的多样性:GradCam,Bagnet ,protopnet和prodotree。我们的结果表明,解释(无论它们是否实际正确)发芽人类信任,但用户对用户不够明确,以区分正确和不正确的预测。最后,我们还开展框架以实现未来的研究,并鼓励更多以人以人为本的解释方法。
translated by 谷歌翻译
在许多高风险应用中,人工智能(AI)的预测越来越重要,甚至是必要的,而人类是最终的决策者。在这项工作中,我们提出了两种自我解剖图像分类器的新型架构,这些架构首先解释,然后通过利用查询图像和示例之间的视觉对应关系来预测(与事后解释)。我们的模型始终在分布(OOD)数据集上始终改进(提高1-4分),同时在分布测试中略差(比Resnet-50)和$ k $ near的邻居分类器更差(1至2分)。 (KNN)。通过大规模的人类对成像网和幼崽的研究,我们基于对应的解释对用户的解释比KNN解释更有用。我们的解释可帮助用户更准确地拒绝AI的错误决策,而不是所有其他测试方法。有趣的是,我们首次表明,在ImageNet和Cub图像分类任务中,有可能实现互补的人类团队的准确性(即比Ai-Olone或单词更高)。
translated by 谷歌翻译
我们提出了一个用于图像分类的端到端可训练的功能增强模块,该模块提取和利用多视图本地功能来增强模型性能。不同于使用全球平均池(GAP)仅从全局视图中提取矢量化特征,我们建议我们采样和集成多样的多视图本地特征,以提高模型鲁棒性。为了示例班级代表性的本地功能,我们合并了一个简单的辅助分类器头(仅包含1 $ \ times $ 1卷积层),通过我们建议的Adacam(适应性的Adacam)(适应性的Adacam)(适应性的ADACAM)有效地适应了特征图的类别歧视局部区域()。广泛的实验表明,我们的多视图功能增强模块获得了一致且明显的性能提高。
translated by 谷歌翻译
尽管近期图形神经网络(GNN)进展,但解释了GNN的预测仍然具有挑战性。现有的解释方法主要专注于后性后解释,其中采用另一种解释模型提供培训的GNN的解释。后HOC方法未能揭示GNN的原始推理过程的事实引发了建立GNN与内置解释性的需求。在这项工作中,我们提出了原型图形神经网络(Protgnn),其将原型学习与GNNS相结合,并提供了对GNN的解释的新视角。在Protgnn中,解释自然地从基于案例的推理过程衍生,并且实际在分类期间使用。通过将输入与潜伏空间中的一些学习原型的输入进行比较来获得ProtGnn的预测。此外,为了更好地解释性和更高的效率,结合了一种新颖的条件子图采样模块,以指示输入图的哪个部分与ProtGnn +中的每个原型最相似。最后,我们在各种数据集中评估我们的方法并进行具体的案例研究。广泛的结果表明,Protgnn和Protgnn +可以提供固有的解释性,同时实现与非可解释对方的准确性有关的准确性。
translated by 谷歌翻译
与此同时,在可解释的人工智能(XAI)的研究领域中,已经开发了各种术语,动机,方法和评估标准。随着XAI方法的数量大大增长,研究人员以及从业者以及从业者需要一种方法:掌握主题的广度,比较方法,并根据特定用例所需的特征选择正确的XAI方法语境。在文献中,可以找到许多不同细节水平和深度水平的XAI方法分类。虽然他们经常具有不同的焦点,但它们也表现出许多重叠点。本文统一了这些努力,并提供了XAI方法的分类,这是关于目前研究中存在的概念的概念。在结构化文献分析和元研究中,我们识别并审查了XAI方法,指标和方法特征的50多个最引用和最新的调查。总结在调查调查中,我们将文章的术语和概念合并为统一的结构化分类。其中的单一概念总计超过50个不同的选择示例方法,我们相应地分类。分类学可以为初学者,研究人员和从业者提供服务作为XAI方法特征和方面的参考和广泛概述。因此,它提供了针对有针对性的,用例导向的基础和上下文敏感的未来研究。
translated by 谷歌翻译
传统的细颗粒图像分类通常依赖于带注释的地面真相的大规模训练样本。但是,某些子类别在实际应用中可能几乎没有可用的样本。在本文中,我们建议使用多频邻域(MFN)和双交叉调制(DCM)提出一个新颖的几弹性细颗粒图像分类网络(FICNET)。采用模块MFN来捕获空间域和频域中的信息。然后,提取自相似性和多频成分以产生多频结构表示。 DCM使用分别考虑全球环境信息和类别之间的微妙关系来调节嵌入过程。针对两个少量任务的三个细粒基准数据集进行的综合实验验证了FICNET与最先进的方法相比具有出色的性能。特别是,在两个数据集“ Caltech-UCSD鸟”和“ Stanford Cars”上进行的实验分别可以获得分类精度93.17 \%和95.36 \%。它们甚至高于一般的细粒图像分类方法可以实现的。
translated by 谷歌翻译