最先进的(SOTA)深度学习乳房X线照片分类器接受了弱标记的图像训练,通常依赖于产生有限解释性预测的全球模型,这是他们成功地转化为临床实践的关键障碍。另一方面,基于原型的模型通过将预测与训练图像原型相关联,改善了可解释性,但是它们的准确性不如全球模型,其原型往往具有差的多样性。我们通过BraixProtopnet ++的建议解决了这两个问题,该问题通过将基于原型的模型结合起来,为全局模型增添了解释性。 BraixProtopnet ++在训练基于原型的模型以提高合奏的分类精度时,会提炼全局模型的知识。此外,我们提出了一种方法来通过保证所有原型都与不同的训练图像相关联,以增加原型多样性。对弱标记的私人和公共数据集进行的实验表明,BraixProtopnet ++的分类精度比基于SOTA Global和基于原型的模型具有更高的分类精度。使用病变定位来评估模型可解释性,我们显示BraixProtopnet ++比其他基于原型的模型和全球模型的事后解释更有效。最后,我们表明,BraixProtopnet ++学到的原型的多样性优于基于SOTA原型的方法。
translated by 谷歌翻译
在分析筛查乳房X线照片时,放射科医生可以自然处理每个乳房的两个同侧视图,即颅底审计(CC)和中外侧 - 粘合剂(MLO)视图。这些多个相关图像提供了互补的诊断信息,并可以提高放射科医生的分类准确性。不幸的是,大多数现有的深度学习系统,受过全球标记的图像培训,缺乏从这些多种观点中共同分析和整合全球和本地信息的能力。通过忽略筛选发作的多个图像中存在的潜在有价值的信息,人们限制了这些系统的潜在准确性。在这里,我们提出了一种新的多视图全球分析方法,该方法基于全球一致性学习和对乳房X线照片中同侧观点的局部同时学习,模仿放射科医生的阅读程序。广泛的实验表明,在大规模的私人数据集和两个公开可用的数据集上,我们的模型在分类准确性和概括方面优于竞争方法,在该数据集和两个公开可用的数据集上,模型仅受到全球标签的培训和测试。
translated by 谷歌翻译
卷积神经网络(CNN)在一系列医学成像任务中表现出了出色的性能。但是,常规的CNN无法解释其推理过程,因此限制了它们在临床实践中的采用。在这项工作中,我们建议使用基于相似性的比较(Indightr-net)回归的固有解释的CNN,并演示了我们关于糖尿病性视网膜病变的任务的方法。结合到体系结构中的原型层可以可视化图像中与学到的原型最相似的区域。然后将最终预测直观地建模为原型标签的平均值,并由相似性加权。与重新网基的基线相比,我们在无效的网络中实现了竞争性预测性能,这表明没有必要损害性能以实现可解释性。此外,我们使用稀疏性和多样性量化了解释的质量,这两个概念对良好的解释很重要,并证明了几个参数对潜在空间嵌入的影响。
translated by 谷歌翻译
深度学习的显着成功引起了人们对医学成像诊断的应用的兴趣。尽管最新的深度学习模型在分类不同类型的医学数据方面已经达到了人类水平的准确性,但这些模型在临床工作流程中几乎不采用,这主要是由于缺乏解释性。深度学习模型的黑盒子性提出了制定策略来解释这些模型的决策过程的必要性,从而导致了可解释的人工智能(XAI)主题的创建。在这种情况下,我们对应用于医学成像诊断的XAI进行了详尽的调查,包括视觉,基于示例和基于概念的解释方法。此外,这项工作回顾了现有的医学成像数据集和现有的指标,以评估解释的质量。此外,我们还包括一组基于报告生成的方法的性能比较。最后,还讨论了将XAI应用于医学成像以及有关该主题的未来研究指示的主要挑战。
translated by 谷歌翻译
机器学习和深度学习方法对医学的计算机辅助预测成为必需的,在乳房X光检查领域也具有越来越多的应用。通常,这些算法训练,针对特定任务,例如,病变的分类或乳房X乳线图的病理学状态的预测。为了获得患者的综合视图,随后整合或组合所有针对同一任务培训的模型。在这项工作中,我们提出了一种管道方法,我们首先培训一组个人,任务特定的模型,随后调查其融合,与标准模型合并策略相反。我们使用混合患者模型的深度学习模型融合模型预测和高级功能,以在患者水平上构建更强的预测因子。为此,我们提出了一种多分支深度学习模型,其跨不同任务和乳房X光检查有效地融合了功能,以获得全面的患者级预测。我们在公共乳房X线摄影数据,即DDSM及其策划版本CBIS-DDSM上培训并评估我们的全部管道,并报告AUC评分为0.962,以预测任何病变和0.791的存在,以预测患者水平对恶性病变的存在。总体而言,与标准模型合并相比,我们的融合方法将显着提高AUC得分高达0.04。此外,通过提供与放射功能相关的特定于任务的模型结果,提供了与放射性特征相关的任务特定模型结果,我们的管道旨在密切支持放射科学家的阅读工作流程。
translated by 谷歌翻译
基于深度学习的视网膜病变分割方法通常需要大量精确的像素注释数据。但是,概述病变区域的圆形或椭圆等粗糙注释的效率可能是像素级注释的六倍。因此,本文提出了一个注释细化网络,以将粗注释转换为像素级分割掩码。我们的主要新颖性是原型学习范式的应用来增强不同数据集或类型病变的概括能力。我们还引入了一个原型称量模块,以处理过度较小的病变的具有挑战性的病例。提出的方法对公开可用的IDRID数据集进行了培训,然后概括为公共DDR和我们的现实世界私人数据集。实验表明,我们的方法显着改善了初始的粗蒙版,并以较大的边缘优于非概率基线。此外,我们证明了原型称量模块在跨数据库和跨阶级设置中的实用性。
translated by 谷歌翻译
由于其弱监督性,多个实例学习(MIL)在许多现实生活中的机器学习应用中都获得了受欢迎程度。但是,解释MIL滞后的相应努力,通常仅限于提出对特定预测至关重要的袋子的实例。在本文中,我们通过引入Protomil,这是一种新型的自我解释的MIL方法,该方法受到基于案例的推理过程的启发,该方法是基于案例的推理过程,该方法在视觉原型上运行。由于将原型特征纳入对象描述中,Protomil空前加入了模型的准确性和细粒度的可解释性,我们在五个公认的MIL数据集上进行了实验。
translated by 谷歌翻译
When we are faced with challenging image classification tasks, we often explain our reasoning by dissecting the image, and pointing out prototypical aspects of one class or another. The mounting evidence for each of the classes helps us make our final decision. In this work, we introduce a deep network architectureprototypical part network (ProtoPNet), that reasons in a similar way: the network dissects the image by finding prototypical parts, and combines evidence from the prototypes to make a final classification. The model thus reasons in a way that is qualitatively similar to the way ornithologists, physicians, and others would explain to people on how to solve challenging image classification tasks. The network uses only image-level labels for training without any annotations for parts of images. We demonstrate our method on the CUB-200-2011 dataset and the Stanford Cars dataset. Our experiments show that ProtoPNet can achieve comparable accuracy with its analogous non-interpretable counterpart, and when several ProtoPNets are combined into a larger network, it can achieve an accuracy that is on par with some of the best-performing deep models. Moreover, ProtoPNet provides a level of interpretability that is absent in other interpretable deep models. * Contributed equally † DISTRIBUTION STATEMENT A. Approved for public release. Distribution is unlimited.
translated by 谷歌翻译
人工智能被出现为众多临床应用诊断和治疗决策的有用援助。由于可用数据和计算能力的快速增加,深度神经网络的性能与许多任务中的临床医生相同或更好。为了符合信任AI的原则,AI系统至关重要的是透明,强大,公平和确保责任。由于对决策过程的具体细节缺乏了解,目前的深神经系统被称为黑匣子。因此,需要确保在常规临床工作流中纳入常规神经网络之前的深度神经网络的可解释性。在这一叙述审查中,我们利用系统的关键字搜索和域专业知识来确定已经基于所产生的解释和技术相似性的类型的医学图像分析应用的深度学习模型来确定九种不同类型的可解释方法。此外,我们报告了评估各种可解释方法产生的解释的进展。最后,我们讨论了局限性,提供了利用可解释性方法和未来方向的指导,了解医学成像分析深度神经网络的解释性。
translated by 谷歌翻译
原型零件网络(Protopnet)引起了广泛的关注,并增加了许多随访研究,因为它的自我解释特性可解释人工智能(XAI)。但是,当直接在视觉变压器(VIT)骨架上应用原始网络时,学到的原型存在“分心”问题:它们具有相对较高的可能性,即被背景激活,并且对前景的关注较少。建模长期依赖性的强大能力使得基于变压器的Protopnet难以专注于原型部分,从而严重损害了其固有的解释性。本文提出了原型零件变压器(ProtoPformer),以适当有效地应用基于原型的方法,并使用VIT进行可解释的图像识别。提出的方法介绍了根据VIT的建筑特征捕获和突出目标的代表性整体和部分特征的全局和局部原型。采用了全球原型,以提供对象的全球视图,以指导本地原型集中在前景上,同时消除背景的影响。之后,明确监督局部原型,以专注于它们各自的原型视觉部分,从而提高整体可解释性。广泛的实验表明,我们提出的全球和本地原型可以相互纠正并共同做出最终决策,这些决策分别忠实,透明地从整体和地方的角度缔合过程。此外,ProtoPformer始终取得优于基于原型的原型基线(SOTA)的卓越性能和可视化结果。我们的代码已在https://github.com/zju-vipa/protopformer上发布。
translated by 谷歌翻译
神经网络的活跃区域查找告诉我们,在做出决定时,神经网络的重点是哪个区域,这为我们提供了可解释性的基础,当神经网络做出分类决策时。我们提出了一种算法多动态掩码(MDM),这是一种具有解释性的通用显着图查询方法。它的建议基于一个假设:当图像输入到已经训练的神经网络时,与分类有关的激活特征将影响神经网络的分类结果,并且与分类无关的特征几乎不会影响分类结果网络。 MDM:一种基于学习的端到端算法,用于查找神经网络分类感兴趣的区域。它具有以下优点:1。它具有推理过程的解释性。 2.它是通用的,可以用于任何神经网络,并且不取决于神经网络的内部结构。 3.搜索性能更好。由于该算法基于学习生成面具并具有适应不同数据和网络的能力,因此性能比上一篇论文中提出的方法更好。对于MDM显着图搜索算法,我们在实验上比较了各种显着性图搜索方法的性能指标和MDM的Resnet和Densenet作为训练有素的神经网络。 MDM的搜索效果性能达到了最新的状态。我们将MDM应用于可解释的神经网络Protopnet和Xprotonet,从而改善了模型的解释性和原型搜索性能。我们可视化卷积神经体系结构和变压器体系结构在显着图搜索中的性能。
translated by 谷歌翻译
ProtoPNet and its follow-up variants (ProtoPNets) have attracted broad research interest for their intrinsic interpretability from prototypes and comparable accuracy to non-interpretable counterparts. However, it has been recently found that the interpretability of prototypes can be corrupted due to the semantic gap between similarity in latent space and that in input space. In this work, we make the first attempt to quantitatively evaluate the interpretability of prototype-based explanations, rather than solely qualitative evaluations by some visualization examples, which can be easily misled by cherry picks. To this end, we propose two evaluation metrics, termed consistency score and stability score, to evaluate the explanation consistency cross images and the explanation robustness against perturbations, both of which are essential for explanations taken into practice. Furthermore, we propose a shallow-deep feature alignment (SDFA) module and a score aggregation (SA) module to improve the interpretability of prototypes. We conduct systematical evaluation experiments and substantial discussions to uncover the interpretability of existing ProtoPNets. Experiments demonstrate that our method achieves significantly superior performance to the state-of-the-arts, under both the conventional qualitative evaluations and the proposed quantitative evaluations, in both accuracy and interpretability. Codes are available at https://github.com/hqhQAQ/EvalProtoPNet.
translated by 谷歌翻译
Age-related macular degeneration (AMD) is a degenerative disorder affecting the macula, a key area of the retina for visual acuity. Nowadays, it is the most frequent cause of blindness in developed countries. Although some promising treatments have been developed, their effectiveness is low in advanced stages. This emphasizes the importance of large-scale screening programs. Nevertheless, implementing such programs for AMD is usually unfeasible, since the population at risk is large and the diagnosis is challenging. All this motivates the development of automatic methods. In this sense, several works have achieved positive results for AMD diagnosis using convolutional neural networks (CNNs). However, none incorporates explainability mechanisms, which limits their use in clinical practice. In that regard, we propose an explainable deep learning approach for the diagnosis of AMD via the joint identification of its associated retinal lesions. In our proposal, a CNN is trained end-to-end for the joint task using image-level labels. The provided lesion information is of clinical interest, as it allows to assess the developmental stage of AMD. Additionally, the approach allows to explain the diagnosis from the identified lesions. This is possible thanks to the use of a CNN with a custom setting that links the lesions and the diagnosis. Furthermore, the proposed setting also allows to obtain coarse lesion segmentation maps in a weakly-supervised way, further improving the explainability. The training data for the approach can be obtained without much extra work by clinicians. The experiments conducted demonstrate that our approach can identify AMD and its associated lesions satisfactorily, while providing adequate coarse segmentation maps for most common lesions.
translated by 谷歌翻译
Recently, webly supervised learning (WSL) has been studied to leverage numerous and accessible data from the Internet. Most existing methods focus on learning noise-robust models from web images while neglecting the performance drop caused by the differences between web domain and real-world domain. However, only by tackling the performance gap above can we fully exploit the practical value of web datasets. To this end, we propose a Few-shot guided Prototypical (FoPro) representation learning method, which only needs a few labeled examples from reality and can significantly improve the performance in the real-world domain. Specifically, we initialize each class center with few-shot real-world data as the ``realistic" prototype. Then, the intra-class distance between web instances and ``realistic" prototypes is narrowed by contrastive learning. Finally, we measure image-prototype distance with a learnable metric. Prototypes are polished by adjacent high-quality web images and involved in removing distant out-of-distribution samples. In experiments, FoPro is trained on web datasets with a few real-world examples guided and evaluated on real-world datasets. Our method achieves the state-of-the-art performance on three fine-grained datasets and two large-scale datasets. Compared with existing WSL methods under the same few-shot settings, FoPro still excels in real-world generalization. Code is available at https://github.com/yuleiqin/fopro.
translated by 谷歌翻译
仅使用诸如图像类标签的全局注释,弱监督学习方法允许CNN分类器共同分类图像,并产生与预测类相关的感兴趣区域。然而,在像素水平的任何引导下,这种方法可以产生不准确的区域。已知该问题与组织学图像更具挑战,而不是与天然自然的图像,因为物体不太突出,结构具有更多变化,并且前景和背景区域具有更强的相似之处。因此,用于CNNS的视觉解释的计算机视觉文献中的方法可能无法直接适用。在这项工作中,我们提出了一种基于复合损耗功能的简单而有效的方法,可利用完全消极样本的信息。我们的新损失函数包含两个补充项:第一次利用CNN分类器收集的积极证据,而第二个利用来自CNN分类器的积极证据,而第二个互联网将利用来自训练数据集的完全消极样本。特别是,我们用解码器装备预先训练的分类器,该解码器允许精制感兴趣的区域。利用相同的分类器来收集像素电平的正面和负证据,以培训解码器。这使得能够利用自然地发生在数据中的完全消极样本,而没有任何额外的监督信号,并且仅使用图像类作为监督。与几种相关方法相比,在冒号癌的公共基准GLAS和使用三种不同的骨架的CONELYON16基于乳腺癌的CAMELYON16基准测试,我们展示了我们方法引入的大量改进。我们的结果表明了使用负数和积极证据的好处,即,从分类器获得的效益以及在数据集中自然可用的那个。我们对这两种术语进行了消融研究。我们的代码公开提供。
translated by 谷歌翻译
我们考虑临床应用异常定位问题。虽然深入学习推动了最近的医学成像进展,但许多临床挑战都没有完全解决,限制了其更广泛的使用。虽然最近的方法报告了高的诊断准确性,但医生因普遍缺乏算法决策和解释性而涉及诊断决策的这些算法,这是关注这些算法。解决这个问题的一种潜在方法是进一步培训这些模型,以便除了分类它们之外,除了分类。然而,准确地进行这一临床专家需要大量的疾病定位注释,这是对大多数应用程序来实现昂贵的任务。在这项工作中,我们通过一种新的注意力弱监督算法来解决这些问题,该弱势监督算法包括分层关注挖掘框架,可以以整体方式统一激活和基于梯度的视觉关注。我们的关键算法创新包括明确序号注意约束的设计,实现了以弱监督的方式实现了原则的模型培训,同时还通过本地化线索促进了产生视觉关注驱动的模型解释。在两个大型胸部X射线数据集(NIH Chescx-Ray14和Chexpert)上,我们展示了对现有技术的显着本地化性能,同时也实现了竞争的分类性能。我们的代码可在https://github.com/oyxhust/ham上找到。
translated by 谷歌翻译
深度学习方法通常需要大量的培训数据和缺乏可解释性。在本文中,我们提出了一种用于医学图像分类的新颖知识蒸馏和模型解释框架,共同解决了上述两个问题。具体而言,为了解决数据饥饿的问题,通过从繁琐的预训练教师模型中蒸馏知识来学习一个小学生模型。为了解释教师模型并协助学生的学习,引入了解释器模块,以突出显示对教师模型的预测很重要的输入。此外,联合框架通过来自信息理论的角度来源的原理方式训练。与眼底数据集上的最先进方法相比,我们的框架优于知识蒸馏和模型解释任务。
translated by 谷歌翻译
Recently, large-scale pre-trained models have shown their advantages in many tasks. However, due to the huge computational complexity and storage requirements, it is challenging to apply the large-scale model to real scenes. A common solution is knowledge distillation which regards the large-scale model as a teacher model and helps to train a small student model to obtain a competitive performance. Cross-task Knowledge distillation expands the application scenarios of the large-scale pre-trained model. Existing knowledge distillation works focus on directly mimicking the final prediction or the intermediate layers of the teacher model, which represent the global-level characteristics and are task-specific. To alleviate the constraint of different label spaces, capturing invariant intrinsic local object characteristics (such as the shape characteristics of the leg and tail of the cattle and horse) plays a key role. Considering the complexity and variability of real scene tasks, we propose a Prototype-guided Cross-task Knowledge Distillation (ProC-KD) approach to transfer the intrinsic local-level object knowledge of a large-scale teacher network to various task scenarios. First, to better transfer the generalized knowledge in the teacher model in cross-task scenarios, we propose a prototype learning module to learn from the essential feature representation of objects in the teacher model. Secondly, for diverse downstream tasks, we propose a task-adaptive feature augmentation module to enhance the features of the student model with the learned generalization prototype features and guide the training of the student model to improve its generalization ability. The experimental results on various visual tasks demonstrate the effectiveness of our approach for large-scale model cross-task knowledge distillation scenes.
translated by 谷歌翻译
最近集成了多源胸X射线数据集以改进自动诊断的趋势提出了模型学会利用源特定的相关性以通过识别图像的源域而不是医学病理来提高性能。我们假设这种效果由源区,即对应于源的疾病的患病率来强制执行并利用标记 - 不平衡。因此,在这项工作中,我们彻底研究了Lable-angalance对多源训练的影响,以便在广泛使用的Chestx-ray14和Chexpert数据集上进行肺炎检测任务。结果强调并强调了使用更忠实和透明的自解释模型进行自动诊断的重要性,从而实现了对杂志学习的固有检测。他们进一步说明了在确保标签平衡的源域数据集时可以显着降低学习虚假相关的这种不希望的效果。
translated by 谷歌翻译
我们提出了一个用于图像分类的端到端可训练的功能增强模块,该模块提取和利用多视图本地功能来增强模型性能。不同于使用全球平均池(GAP)仅从全局视图中提取矢量化特征,我们建议我们采样和集成多样的多视图本地特征,以提高模型鲁棒性。为了示例班级代表性的本地功能,我们合并了一个简单的辅助分类器头(仅包含1 $ \ times $ 1卷积层),通过我们建议的Adacam(适应性的Adacam)(适应性的Adacam)(适应性的ADACAM)有效地适应了特征图的类别歧视局部区域()。广泛的实验表明,我们的多视图功能增强模块获得了一致且明显的性能提高。
translated by 谷歌翻译