With the growing global deployment of carbon capture and sequestration technology to combat climate change, monitoring and detection of potential CO2 leakage through existing or storage induced faults are critical to the safe and long-term viability of the technology. Recent work on time-lapse seismic monitoring of CO2 storage has shown promising results in its ability to monitor the growth of the CO2 plume from surface recorded seismic data. However, due to the low sensitivity of seismic imaging to CO2 concentration, additional developments are required to efficiently interpret the seismic images for leakage. In this work, we introduce a binary classification of time-lapse seismic images to delineate CO2 plumes (leakage) using state-of-the-art deep learning models. Additionally, we localize the leakage region of CO2 plumes by leveraging Class Activation Mapping methods.
translated by 谷歌翻译
根据诊断各种疾病的胸部X射线图像的可观增长,以及收集广泛的数据集,使用深神经网络进行了自动诊断程序,已经占据了专家的思想。计算机视觉中的大多数可用方法都使用CNN主链来获得分类问题的高精度。然而,最近的研究表明,在NLP中成为事实上方法的变压器也可以优于许多基于CNN的模型。本文提出了一个基于SWIN变压器的多标签分类深模型,作为实现最新诊断分类的骨干。它利用了头部体系结构来利用多层感知器(也称为MLP)。我们评估了我们的模型,该模型称为“ Chest X-Ray14”,最广泛,最大的X射线数据集之一,该数据集由30,000多名14例著名胸部疾病的患者组成100,000多个额叶/背景图像。我们的模型已经用几个数量的MLP层用于头部设置,每个模型都在所有类别上都达到了竞争性的AUC分数。胸部X射线14的全面实验表明,与以前的SOTA平均AUC为0.799相比,三层头的平均AUC得分为0.810,其平均AUC得分为0.810。我们建议对现有方法进行公平基准测试的实验设置,该设置可以用作未来研究的基础。最后,我们通过确认所提出的方法参与胸部的病理相关区域,从而跟进了结果。
translated by 谷歌翻译
建立具有可信赖性的AI模型非常重要,尤其是在医疗保健等受监管的地区。在解决Covid-19时,以前的工作将卷积神经网络用作骨干建筑,该骨干建筑物易于过度宣告和过度自信做出决策,使它们不那么值得信赖 - 在医学成像背景下的关键缺陷。在这项研究中,我们提出了一种使用视觉变压器的功能学习方法,该方法使用基于注意力的机制,并检查变形金刚作为医学成像的新骨干结构的表示能力。通过对COVID-19胸部X光片进行分类的任务,我们研究了概括能力是否仅从视觉变形金刚的建筑进步中受益。通过使用“信任评分”计算和视觉解释性技术,对模型的可信度进行了定量和定性评估。我们得出的结论是,基于注意力的特征学习方法在建立可信赖的医疗保健深度学习模型方面有希望。
translated by 谷歌翻译
植物疾病是全球作物损失的主要原因,对世界经济产生了影响。为了解决这些问题,智能农业解决方案正在发展,将物联网和机器学习结合起来,以进行早期疾病检测和控制。许多这样的系统使用基于视觉的机器学习方法进行实时疾病检测和诊断。随着深度学习技术的发展,已经出现了新方法,这些方法采用卷积神经网络进行植物性疾病检测和鉴定。基于视觉的深度学习的另一个趋势是使用视觉变压器,事实证明,这些变压器是分类和其他问题的强大模型。但是,很少研究视力变压器以进行植物病理应用。在这项研究中,为植物性疾病鉴定提出了一个启用视觉变压器的卷积神经网络模型。提出的模型将传统卷积神经网络的能力与视觉变压器有效地识别出多种农作物的大量植物疾病。拟议的模型具有轻巧的结构,只有80万个可训练的参数,这使其适合基于物联网的智能农业服务。 PlantXvit的性能在五个公开可用的数据集上进行了评估。拟议的PlantXvit网络在所有五个数据集上的性能要比五种最先进的方法更好。即使在挑战性的背景条件下,识别植物性疾病的平均准确性分别超过了苹果,玉米和稻米数据集的93.55%,92.59%和98.33%。使用梯度加权的类激活图和局部可解释的模型不可思议的解释来评估所提出模型的解释性效率。
translated by 谷歌翻译
使用深度学习模型从组织学数据中诊断癌症提出了一些挑战。这些图像中关注区域(ROI)的癌症分级和定位通常依赖于图像和像素级标签,后者需要昂贵的注释过程。深度弱监督的对象定位(WSOL)方法为深度学习模型的低成本培训提供了不同的策略。仅使用图像级注释,可以训练这些方法以对图像进行分类,并为ROI定位进行分类类激活图(CAM)。本文综述了WSOL的​​最先进的DL方法。我们提出了一种分类法,根据模型中的信息流,将这些方法分为自下而上和自上而下的方法。尽管后者的进展有限,但最近的自下而上方法目前通过深层WSOL方法推动了很多进展。早期作品的重点是设计不同的空间合并功能。但是,这些方法达到了有限的定位准确性,并揭示了一个主要限制 - 凸轮的不足激活导致了高假阴性定位。随后的工作旨在减轻此问题并恢复完整的对象。评估和比较了两个具有挑战性的组织学数据集的分类和本地化准确性,对我们的分类学方法进行了评估和比较。总体而言,结果表明定位性能差,特别是对于最初设计用于处理自然图像的通用方法。旨在解决组织学数据挑战的方法产生了良好的结果。但是,所有方法都遭受高假阳性/阴性定位的影响。在组织学中应用深WSOL方法的应用是四个关键的挑战 - 凸轮的激活下/过度激活,对阈值的敏感性和模型选择。
translated by 谷歌翻译
用于头部和颈鳞状细胞癌(HNSCC)的诊断和治疗管理由常规诊断头和颈部计算断层扫描(CT)扫描引导,以识别肿瘤和淋巴结特征。折叠延伸(ECE)是患者的患者生存结果与HNSCC的强烈预测因子。在改变患者的暂存和管理时,必须检测ECE的发生至关重要。目前临床ECE检测依赖于放射科学医生进行的视觉鉴定和病理确认。基于机器学习(ML)的ECE诊断在近年来的潜力上表现出很高的潜力。然而,在大多数基于ML的ECE诊断研究中,手动注释是淋巴结区域的必要数据预处理步骤。此外,本手册注释过程是耗时,劳动密集型和容易出错。因此,在本文中,我们提出了一种梯度映射引导的可解释网络(GMGenet)框架,以自动执行ECE识别而不需要注释的淋巴结区域信息。提出了梯度加权类激活映射(GRAC-CAM)技术,以指导深度学习算法专注于与ECE高度相关的区域。提取信息丰富的兴趣(VoIS),无需标记淋巴结区域信息。在评估中,所提出的方法是使用交叉验证的训练和测试,可分别实现测试精度和90.2%和91.1%的AUC。已经分析了ECE的存在或不存在并与黄金标准组织病理学发现相关。
translated by 谷歌翻译
哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖(Lulc)映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中,我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集,包括卷积神经网络,多层感知,视觉变压器,高效导通和宽残余网络(WRN)架构。我们的目标是利用分类准确性,培训时间和推理率。我们提出了一种基于用于网络深度,宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架,以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构,增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数,实现所有19个LULC类的平均F分类准确度达到4.5%,并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号,以及我们在多个GPU节点上分布式培训的代码。
translated by 谷歌翻译
卷积神经网络(CNN)成为计算机视觉最受欢迎和最突出的深度学习体系结构之一,但其黑匣子功能隐藏了内部预测过程。因此,AI从业者阐明了可解释的AI,以提供模型行为的解释性。特别是,基于类的激活图(CAM)和基于GRAD-CAM的方法已显示出希望结果,但它们具有架构限制或梯度计算负担。为了解决这些问题,已建议将得分摄像机作为一种无梯度方法,但是,与基于CAM或GRAD-CAM的方法相比,它需要更多的执行时间。因此,我们通过空间掩盖提取的特征图来利用激活图和网络输出之间的相关性,提出了一个轻巧的体系结构和无梯度的互惠凸轮(配克CAM)。通过提出的方法,与平均跌落 - 相干 - 复杂性(ADCC)度量相比,Resnet家族中的1:78-3:72%的收益不包括VGG-16(1:39%)(1:39%) )。此外,配置摄像头表现出与Grad-CAM相似的显着性图生成速率,并且比Score-CAM快于148倍。
translated by 谷歌翻译
Recently, increasing attention has been drawn to the internal mechanisms of convolutional neural networks, and the reason why the network makes specific decisions. In this paper, we develop a novel post-hoc visual explanation method called Score-CAM based on class activation mapping. Unlike previous class activation mapping based approaches, Score-CAM gets rid of the dependence on gradients by obtaining the weight of each activation map through its forward passing score on target class, the final result is obtained by a linear combination of weights and activation maps. We demonstrate that Score-CAM achieves better visual performance and fairness for interpreting the decision making process. Our approach outperforms previous methods on both recognition and localization tasks, it also passes the sanity check. We also indicate its application as debugging tools. The implementation is available 1 .
translated by 谷歌翻译
我们提出了一种基于深度多实例学习的简单高效的图像分类架构,并将其应用于牙科射线照片中龋齿检测的具有挑战性的任务。从技术上讲,我们的方法有两种方式贡献:首先,尽管使用弱图像级标签培训,它尽管培训了本地补丁分类概率的热线图。其次,它可以从分段标签学习,从而指导培训。与现有方法相比,人类用户可以忠实地解释预测并与模型进行交互以决定参加哪些区域。实验是在$ \ SIM $ 38K Bitewings($ \ SIM $ 316K牙齿)的大型临床数据集上进行的,在那里我们与各种基线相比实现了竞争性能。当由外部龋齿分割模型引导时,观察到分类和定位性能的显着改善。
translated by 谷歌翻译
Diabetic Retinopathy (DR) is a leading cause of vision loss in the world, and early DR detection is necessary to prevent vision loss and support an appropriate treatment. In this work, we leverage interactive machine learning and introduce a joint learning framework, termed DRG-Net, to effectively learn both disease grading and multi-lesion segmentation. Our DRG-Net consists of two modules: (i) DRG-AI-System to classify DR Grading, localize lesion areas, and provide visual explanations; (ii) DRG-Expert-Interaction to receive feedback from user-expert and improve the DRG-AI-System. To deal with sparse data, we utilize transfer learning mechanisms to extract invariant feature representations by using Wasserstein distance and adversarial learning-based entropy minimization. Besides, we propose a novel attention strategy at both low- and high-level features to automatically select the most significant lesion information and provide explainable properties. In terms of human interaction, we further develop DRG-Net as a tool that enables expert users to correct the system's predictions, which may then be used to update the system as a whole. Moreover, thanks to the attention mechanism and loss functions constraint between lesion features and classification features, our approach can be robust given a certain level of noise in the feedback of users. We have benchmarked DRG-Net on the two largest DR datasets, i.e., IDRID and FGADR, and compared it to various state-of-the-art deep learning networks. In addition to outperforming other SOTA approaches, DRG-Net is effectively updated using user feedback, even in a weakly-supervised manner.
translated by 谷歌翻译
预计未来几十年的全球粮食不安全将加速气候变化率和人口迅速增加。在这种静脉中,重要的是在每种饮食生产水平上消除效率低下。最近深入学习的进步可以帮助降低这种效率低下,但他们的申请尚未成为整个行业的主流,以大规模的规模诱导经济成本。为此,已将现代技术(如CNNS(卷积神经网络)应用于RPQD(原始产生质量检测)任务。另一方面,变压器在其他方式中的视野中的成功首次亮相使我们能够在RPQD中预计这些基于变压器的模型更好的性能。在这项工作中,我们专门调查了最近的最先进的水流(移位的Windows)变压器,这些变压器可以在窗口和窗口间的方式中计算自我关注。我们将Swin变压器与CNN模型进行比较四个RPQD图像数据集,每个CNN模型都包含不同种类的生成:水果和蔬菜,鱼类,猪肉和牛肉。我们观察到Swin Transformer不仅实现了更好或更有竞争力的性能,而且还具有数据和计算效率,使其成为现实世界的实际部署的理想选择。据我们所知,这是第一个对RPQD任务的大规模实证研究,我们希望在未来的作品中更加关注。
translated by 谷歌翻译
快捷方式学习对深度学习模型很常见,但导致了退化的特征表示形式,因此危害了该模型的可推广性和解释性。但是,在广泛使用的视觉变压器框架中的快捷方式学习在很大程度上是未知的。同时,引入特定领域的知识是纠正捷径的主要方法,捷径为背景相关因素。例如,在医学成像领域中,放射科医生的眼睛凝视数据是一种有效的人类视觉先验知识,具有指导深度学习模型的巨大潜力,可以专注于有意义的前景区域。但是,获得眼睛凝视数据是时必的,劳动密集型的,有时甚至是不切实际的。在这项工作中,我们提出了一种新颖而有效的显着性视觉变压器(SGT)模型,以在没有眼神数据的情况下在VIT中纠正快捷方式学习。具体而言,采用计算视觉显着性模型来预测输入图像样本的显着性图。然后,显着图用于散布最有用的图像贴片。在拟议的中士中,图像贴片之间的自我注意力仅集中于蒸馏的信息。考虑到这种蒸馏操作可能会导致全局信息丢失,我们在最后一个编码器层中进一步介绍了一个残留的连接,该连接捕获了所有图像贴片中的自我注意力。四个独立公共数据集的实验结果表明,我们的SGT框架可以有效地学习和利用人类的先验知识,而无需眼睛凝视数据,并且比基线更好。同时,它成功地纠正了有害的快捷方式学习并显着提高了VIT模型的解释性,证明了传递人类先验知识在纠正快捷方式学习方面传递人类先验知识的承诺
translated by 谷歌翻译
由于深度学习在放射学领域被广泛使用,因此在使用模型进行诊断时,这种模型的解释性越来越成为获得临床医生的信任至关重要的。在这项研究中,使用U-NET架构进行了三个实验集,以改善分类性能,同时通过在训练过程中结合热图生成器来增强与模型相对应的热图。所有实验均使用包含胸部X光片的数据集,来自三个条件之一(“正常”,“充血性心力衰竭(CHF)”和“肺炎”)的相关标签,以及有关放射科医师眼神坐标的数值信息在图像上。引入该数据集的论文(A. Karargyris和Moradi,2021年)开发了一个U-NET模型,该模型被视为这项研究的基线模型,以显示如何将眼目光数据用于多模式培训中的眼睛凝视数据以进行多模式培训以进行多模式训练。解释性改进。为了比较分类性能,测量了接收器操作特征曲线(AUC)下面积的95%置信区间(CI)。最佳方法的AUC为0.913(CI:0.860-0.966)。最大的改进是“肺炎”和“ CHF”类别,基线模型最努力地进行分类,导致AUCS 0.859(CI:0.732-0.957)和0.962(CI:0.933-0.989)。所提出的方法的解码器还能够产生概率掩模,以突出模型分类中确定的图像部分,类似于放射科医生的眼睛凝视数据。因此,这项工作表明,将热图发生器和眼睛凝视信息纳入训练可以同时改善疾病分类,并提供可解释的视觉效果,与放射线医生在进行诊断时如何看待胸部X光片。
translated by 谷歌翻译
尽管有无数的同伴审查的论文,证明了新颖的人工智能(AI)基于大流行期间的Covid-19挑战的解决方案,但很少有临床影响。人工智能在Covid-19大流行期间的影响因缺乏模型透明度而受到极大的限制。这种系统审查考察了在大流行期间使用可解释的人工智能(Xai)以及如何使用它可以克服现实世界成功的障碍。我们发现,Xai的成功使用可以提高模型性能,灌输信任在最终用户,并提供影响用户决策所需的值。我们将读者介绍给常见的XAI技术,其实用程序以及其应用程序的具体例子。 XAI结果的评估还讨论了最大化AI的临床决策支持系统的价值的重要步骤。我们说明了Xai的古典,现代和潜在的未来趋势,以阐明新颖的XAI技术的演变。最后,我们在最近出版物支持的实验设计过程中提供了建议的清单。潜在解决方案的具体示例也解决了AI解决方案期间的共同挑战。我们希望本次审查可以作为提高未来基于AI的解决方案的临床影响的指导。
translated by 谷歌翻译
近年来,可解释的人工智能(XAI)已成为一个非常适合的框架,可以生成人类对“黑盒”模型的可理解解释。在本文中,一种新颖的XAI视觉解释算法称为相似性差异和唯一性(SIDU)方法,该方法可以有效地定位负责预测的整个对象区域。通过各种计算和人类主题实验分析了SIDU算法的鲁棒性和有效性。特别是,使用三种不同类型的评估(应用,人类和功能地面)评估SIDU算法以证明其出色的性能。在对“黑匣子”模型的对抗性攻击的情况下,进一步研究了Sidu的鲁棒性,以更好地了解其性能。我们的代码可在:https://github.com/satyamahesh84/sidu_xai_code上找到。
translated by 谷歌翻译
Heart failure remains a major public health challenge with growing costs. Ejection fraction (EF) is a key metric for the diagnosis and management of heart failure however estimation of EF using echocardiography remains expensive for the healthcare system and subject to intra/inter operator variability. While chest x-rays (CXR) are quick, inexpensive, and require less expertise, they do not provide sufficient information to the human eye to estimate EF. This work explores the efficacy of computer vision techniques to predict reduced EF solely from CXRs. We studied a dataset of 3488 CXRs from the MIMIC CXR-jpg (MCR) dataset. Our work establishes benchmarks using multiple state-of-the-art convolutional neural network architectures. The subsequent analysis shows increasing model sizes from 8M to 23M parameters improved classification performance without overfitting the dataset. We further show how data augmentation techniques such as CXR rotation and random cropping further improves model performance another ~5%. Finally, we conduct an error analysis using saliency maps and Grad-CAMs to better understand the failure modes of convolutional models on this task.
translated by 谷歌翻译
本文的目的是评估图像分类任务的解释热图的质量。为了评估解释性方法的质量,我们通过准确性和稳定性的角度来处理任务。在这项工作中,我们做出以下贡献。首先,我们介绍了加权游戏,该游戏衡量了正确的类“分割掩码中包含的类别引导的解释”。其次,我们使用缩放/平移变换引入了用于解释稳定性的度量,以测量具有相似内容的显着性图之间的差异。使用这些新指标生产定量实验,以评估常用CAM方法提供的解释质量。解释的质量在不同的模型体系结构之间也形成了鲜明对比,发现突出了选择在选择解释性方法时考虑模型体系结构的必要性。
translated by 谷歌翻译
胰腺癌是世界上最严重恶性的癌症之一,这种癌症迅速迅速,具有很高的死亡率。快速的现场评估(玫瑰)技术通过立即分析与现场病理学家的快速染色的细胞影析学形象来创新工作流程,这使得在这种紧压的过程中能够更快的诊断。然而,由于缺乏经验丰富的病理学家,玫瑰诊断的更广泛的扩张已经受到阻碍。为了克服这个问题,我们提出了一个混合高性能深度学习模型,以实现自动化工作流程,从而释放占据病理学家的宝贵时间。通过使用我们特定的多级混合设计将变压器块引入该字段,由卷积神经网络(CNN)产生的空间特征显着增强了变压器全球建模。转向多级空间特征作为全球关注指导,这种设计将鲁棒性与CNN的感应偏差与变压器的复杂全球建模功能相结合。收集4240朵Rose图像的数据集以评估此未开发领域的方法。所提出的多级混合变压器(MSHT)在分类精度下实现95.68%,其鲜明地高于最先进的模型。面对对可解释性的需求,MSHT以更准确的关注区域表达其对应物。结果表明,MSHT可以以前所未有的图像规模精确地区分癌症样本,奠定了部署自动决策系统的基础,并在临床实践中扩大玫瑰。代码和记录可在:https://github.com/sagizty/multi-stage-ybrid-transformer。
translated by 谷歌翻译
深度学习的显着成功引起了人们对医学成像诊断的应用的兴趣。尽管最新的深度学习模型在分类不同类型的医学数据方面已经达到了人类水平的准确性,但这些模型在临床工作流程中几乎不采用,这主要是由于缺乏解释性。深度学习模型的黑盒子性提出了制定策略来解释这些模型的决策过程的必要性,从而导致了可解释的人工智能(XAI)主题的创建。在这种情况下,我们对应用于医学成像诊断的XAI进行了详尽的调查,包括视觉,基于示例和基于概念的解释方法。此外,这项工作回顾了现有的医学成像数据集和现有的指标,以评估解释的质量。此外,我们还包括一组基于报告生成的方法的性能比较。最后,还讨论了将XAI应用于医学成像以及有关该主题的未来研究指示的主要挑战。
translated by 谷歌翻译