医生经常基于患者的图像扫描,例如磁共振成像(MRI),以及患者的电子健康记录(EHR),如年龄,性别,血压等。尽管在计算机视觉或自然语言研究领域的图像或文本分析中提出了大量的自动方法,但已经为医学图像的融合和医疗问题的EHR数据进行了更少的研究。在现有的早期或中间融合方法中,两种方式的特征串联仍然是一个主流。为了更好地利用图像和EHR数据,我们提出了一种多模态注意力模块,该模块使用EHR数据来帮助选择传统CNN的图像特征提取过程期间的重要区域。此外,我们建议将多头Machnib纳入门控多媒体单元(GMU),使其能够在不同子空间中平行熔断图像和EHR特征。在两个模块的帮助下,可以使用两个模态增强现有的CNN架构。预测脑内出血患者的Glasgow结果规模(GOS)和分类Alzheimer病的实验表明,该方法可以自动关注任务相关领域,并通过更好地利用图像和EHR功能来实现更好的结果。
translated by 谷歌翻译
总生存时间(OS)时间是神经胶质瘤情况最重要的评估指数之一。多模式磁共振成像(MRI)扫描在神经胶质瘤预后OS时间的研究中起重要作用。为多模式MRI问题的OS时间预测提出了几种基于学习的方法。但是,这些方法通常在深度学习网络开始或结束时融合多模式信息,并且缺乏来自不同尺度的特征。此外,网络末尾的融合始终适应全球(例如,在全球平均池输出串联后完全连接)或与局部(例如,双线性池)的融合,这会失去与全球局部的局部信息。在本文中,我们提出了一种用于对脑肿瘤患者的多模式OS时间预测的新方法,该方法包含在不同尺度上引入的改进的非局部特征融合模块。我们的方法比当前最新方法获得了相对8.76%的改善(0.6989 vs. 0.6426的精度)。广泛的测试表明,我们的方法可以适应缺失方式的情况。该代码可在https://github.com/tangwen920812/mmmna-net上找到。
translated by 谷歌翻译
Achieving accurate and automated tumor segmentation plays an important role in both clinical practice and radiomics research. Segmentation in medicine is now often performed manually by experts, which is a laborious, expensive and error-prone task. Manual annotation relies heavily on the experience and knowledge of these experts. In addition, there is much intra- and interobserver variation. Therefore, it is of great significance to develop a method that can automatically segment tumor target regions. In this paper, we propose a deep learning segmentation method based on multimodal positron emission tomography-computed tomography (PET-CT), which combines the high sensitivity of PET and the precise anatomical information of CT. We design an improved spatial attention network(ISA-Net) to increase the accuracy of PET or CT in detecting tumors, which uses multi-scale convolution operation to extract feature information and can highlight the tumor region location information and suppress the non-tumor region location information. In addition, our network uses dual-channel inputs in the coding stage and fuses them in the decoding stage, which can take advantage of the differences and complementarities between PET and CT. We validated the proposed ISA-Net method on two clinical datasets, a soft tissue sarcoma(STS) and a head and neck tumor(HECKTOR) dataset, and compared with other attention methods for tumor segmentation. The DSC score of 0.8378 on STS dataset and 0.8076 on HECKTOR dataset show that ISA-Net method achieves better segmentation performance and has better generalization. Conclusions: The method proposed in this paper is based on multi-modal medical image tumor segmentation, which can effectively utilize the difference and complementarity of different modes. The method can also be applied to other multi-modal data or single-modal data by proper adjustment.
translated by 谷歌翻译
阿尔茨海默氏病(AD)是痴呆症的最常见形式,由于痴呆症的多因素病因,通常难以诊断。关于基于神经成像的基于神经成像的深度神经网络(DNN)的著作表明,结构磁共振图像(SMRI)和氟脱氧葡萄糖正电子发射层析成像(FDG-PET)可提高健康对照和受试者的研究人群的精度。与广告。但是,这一结果与既定的临床知识冲突,即FDG-PET比SMRI更好地捕获AD特定的病理。因此,我们提出了一个框架,用于对基于FDG-PET和SMRI进行多模式DNN的系统评估,并重新评估单模式DNN和多模式DNN,用于二进制健康与AD,以及三向健康/轻度的健康/轻度认知障碍/广告分类。我们的实验表明,使用FDG-PET的单模式网络的性能优于MRI(准确性0.91 vs 0.87),并且在组合时不会显示出改进。这符合有关AD生物标志物的既定临床知识,但提出了有关多模式DNN的真正好处的问题。我们认为,未来关于多模式融合的工作应系统地评估我们提出的评估框架后的个人模式的贡献。最后,我们鼓励社区超越健康与AD分类,并专注于痴呆症的鉴别诊断,在这种诊断中,在这种诊断中,融合了多模式图像信息与临床需求相符。
translated by 谷歌翻译
Late-life depression (LLD) is a highly prevalent mood disorder occurring in older adults and is frequently accompanied by cognitive impairment (CI). Studies have shown that LLD may increase the risk of Alzheimer's disease (AD). However, the heterogeneity of presentation of geriatric depression suggests that multiple biological mechanisms may underlie it. Current biological research on LLD progression incorporates machine learning that combines neuroimaging data with clinical observations. There are few studies on incident cognitive diagnostic outcomes in LLD based on structural MRI (sMRI). In this paper, we describe the development of a hybrid representation learning (HRL) framework for predicting cognitive diagnosis over 5 years based on T1-weighted sMRI data. Specifically, we first extract prediction-oriented MRI features via a deep neural network, and then integrate them with handcrafted MRI features via a Transformer encoder for cognitive diagnosis prediction. Two tasks are investigated in this work, including (1) identifying cognitively normal subjects with LLD and never-depressed older healthy subjects, and (2) identifying LLD subjects who developed CI (or even AD) and those who stayed cognitively normal over five years. To the best of our knowledge, this is among the first attempts to study the complex heterogeneous progression of LLD based on task-oriented and handcrafted MRI features. We validate the proposed HRL on 294 subjects with T1-weighted MRIs from two clinically harmonized studies. Experimental results suggest that the HRL outperforms several classical machine learning and state-of-the-art deep learning methods in LLD identification and prediction tasks.
translated by 谷歌翻译
由于单峰生物识别系统的不稳定性和局限性,多模式系统吸引了研究人员的关注。但是,如何利用不同方式之间的独立和互补信息仍然是一个关键和具有挑战性的问题。在本文中,我们提出了一种基于指纹和手指静脉的多模式融合识别算法(指纹手指静脉 - 通道 - 通道空间注意融合模块,FPV-CSAFM)。具体而言,对于每对指纹和手指静脉图像,我们首先提出一个简单有效的卷积神经网络(CNN)来提取特征。然后,我们构建一个多模式融合模块(通道空间注意融合模块,CSAFM),以完全融合指纹和指纹之间的互补信息。与现有的融合策略不同,我们的融合方法可以根据渠道和空间维度不同模态的重要性动态调整融合权重,以便更好地将信息之间的信息更好地结合在一起,并提高整体识别性能。为了评估我们方法的性能,我们在多个公共数据集上进行了一系列实验。实验结果表明,所提出的FPV-CSAFM基于指纹和手指静脉在三个多模式数据集上实现了出色的识别性能。
translated by 谷歌翻译
Routine clinical visits of a patient produce not only image data, but also non-image data containing clinical information regarding the patient, i.e., medical data is multi-modal in nature. Such heterogeneous modalities offer different and complementary perspectives on the same patient, resulting in more accurate clinical decisions when they are properly combined. However, despite its significance, how to effectively fuse the multi-modal medical data into a unified framework has received relatively little attention. In this paper, we propose an effective graph-based framework called HetMed (Heterogeneous Graph Learning for Multi-modal Medical Data Analysis) for fusing the multi-modal medical data. Specifically, we construct a multiplex network that incorporates multiple types of non-image features of patients to capture the complex relationship between patients in a systematic way, which leads to more accurate clinical decisions. Extensive experiments on various real-world datasets demonstrate the superiority and practicality of HetMed. The source code for HetMed is available at https://github.com/Sein-Kim/Multimodal-Medical.
translated by 谷歌翻译
纵向和多模式数据中固有的纵向变化和互补信息在阿尔茨海默氏病(AD)预测中起重要作用,尤其是在确定即将患有AD的轻度认知障碍受试者方面。但是,纵向和多模式数据可能缺少数据,这阻碍了这些数据的有效应用。此外,以前的纵向研究需要现有的纵向数据才能实现预测,但是预计在临床实践中,将在患者的基线访问(BL)上进行AD预测。因此,我们提出了一个多视图插补和交叉注意网络(MCNET),以在统一的框架中整合数据归档和AD预测,并实现准确的AD预测。首先,提出了一种多视图插补方法与对抗性学习相结合,该方法可以处理各种缺失的数据情况并减少插补错误。其次,引入了两个跨注意区块,以利用纵向和多模式数据中的潜在关联。最后,为数据插补,纵向分类和AD预测任务而建立了多任务学习模型。当对模型进行适当训练时,可以通过BL数据利用从纵向数据中学到的疾病进展信息以改善AD预测。在BL处的两个独立的测试集和单模数据对所提出的方法进行了测试,以验证其对AD预测的有效性和灵活性。结果表明,MCNET的表现优于几种最新方法。此外,提出了MCNET的解释性。因此,我们的MCNET是一种在纵向和多模式数据分析的AD预测中具有巨大应用潜力的工具。代码可在https://github.com/meiyan88/mcnet上找到。
translated by 谷歌翻译
阿尔茨海默氏病(AD)是最常见的神经退行性疾病,具有最复杂的病原体之一,使有效且临床上可行的决策变得困难。这项研究的目的是开发一个新型的多模式深度学习框架,以帮助医疗专业人员进行AD诊断。我们提出了一个多模式的阿尔茨海默氏病诊断框架(MADDI),以准确检测成像,遗传和临床数据中的AD和轻度认知障碍(MCI)。 Maddi是新颖的,因为我们使用跨模式的注意力,它捕获了模态之间的相互作用 - 这种域中未探讨的方法。我们执行多级分类,这是一项艰巨的任务,考虑到MCI和AD之间的相似之处。我们与以前的最先进模型进行比较,评估注意力的重要性,并检查每种模式对模型性能的贡献。 Maddi在持有的测试集中对MCI,AD和控件进行了96.88%的精度分类。在检查不同注意力方案的贡献时,我们发现跨模式关注与自我注意力的组合表现出了最佳状态,并且模型中没有注意力层表现最差,而F1分数差异为7.9%。我们的实验强调了结构化临床数据的重要性,以帮助机器学习模型将其背景化和解释其余模式化。广泛的消融研究表明,未访问结构化临床信息的任何多模式混合物都遭受了明显的性能损失。这项研究证明了通过跨模式的注意组合多种输入方式的优点,以提供高度准确的AD诊断决策支持。
translated by 谷歌翻译
集成多模式数据以改善医学图像分析,最近受到了极大的关注。但是,由于模态差异,如何使用单个模型来处理来自多种模式的数据仍然是一个开放的问题。在本文中,我们提出了一种新的方案,以实现未配对多模式医学图像的更好的像素级分割。与以前采用模式特异性和模态共享模块的以前方法不同,以适应不同方式的外观差异,同时提取共同的语义信息,我们的方法基于具有精心设计的外部注意模块(EAM)的单个变压器来学习在训练阶段,结构化的语义一致性(即语义类表示及其相关性)。在实践中,可以通过分别在模态级别和图像级别实施一致性正则化来逐步实现上述结构化语义一致性。采用了提出的EAM来学习不同尺度表示的语义一致性,并且一旦模型进行了优化,就可以丢弃。因此,在测试阶段,我们只需要为所有模态预测维护一个变压器,这可以很好地平衡模型的易用性和简单性。为了证明所提出的方法的有效性,我们对两个医学图像分割方案进行了实验:(1)心脏结构分割,(2)腹部多器官分割。广泛的结果表明,所提出的方法的表现优于最新方法,甚至通过极有限的训练样本(例如1或3个注释的CT或MRI图像)以一种特定的方式来实现竞争性能。
translated by 谷歌翻译
This paper focuses on the task of survival time analysis for lung cancer. Although much progress has been made in this problem in recent years, the performance of existing methods is still far from satisfactory. Traditional and some deep learning-based survival time analyses for lung cancer are mostly based on textual clinical information such as staging, age, histology, etc. Unlike existing methods that predicting on the single modality, we observe that a human clinician usually takes multimodal data such as text clinical data and visual scans to estimate survival time. Motivated by this, in this work, we contribute a smart cross-modality network for survival analysis network named Lite-ProSENet that simulates a human's manner of decision making. Extensive experiments were conducted using data from 422 NSCLC patients from The Cancer Imaging Archive (TCIA). The results show that our Lite-ProSENet outperforms favorably again all comparison methods and achieves the new state of the art with the 89.3% on concordance. The code will be made publicly available.
translated by 谷歌翻译
Medical images play an important role in clinical applications. Multimodal medical images could provide rich information about patients for physicians to diagnose. The image fusion technique is able to synthesize complementary information from multimodal images into a single image. This technique will prevent radiologists switch back and forth between different images and save lots of time in the diagnostic process. In this paper, we introduce a novel Dilated Residual Attention Network for the medical image fusion task. Our network is capable to extract multi-scale deep semantic features. Furthermore, we propose a novel fixed fusion strategy termed Softmax-based weighted strategy based on the Softmax weights and matrix nuclear norm. Extensive experiments show our proposed network and fusion strategy exceed the state-of-the-art performance compared with reference image fusion methods on four commonly used fusion metrics.
translated by 谷歌翻译
在急诊室(ER)环境中,中风分类或筛查是一个普遍的挑战。由于MRI的慢速吞吐量和高成本,通常会进行快速CT而不是MRI。在此过程中通常提到临床测试,但误诊率仍然很高。我们提出了一个新型的多模式深度学习框架,深沉的中风,以通过识别较小的面部肌肉不协调的模式来实现计算机辅助中风的存在评估,并使怀疑急性环境中的中风的患者无能为力。我们提出的深雷克斯(Deepstroke)在中风分流器中容易获得一分钟的面部视频数据和音频数据,用于局部面部瘫痪检测和全球语音障碍分析。采用了转移学习来减少面部侵蚀偏见并提高普遍性。我们利用多模式的横向融合来结合低水平和高级特征,并为关节训练提供相互正则化。引入了新型的对抗训练以获得无身份和中风的特征。与实际急诊室患者进行的视频ADIO数据集进行的实验表明,与分类团队和ER医生相比,中风的表现要优于最先进的模型,并且取得更好的性能,比传统的敏感性高出10.94%,高7.37%的精度高出7.37%。当特异性对齐时,中风分类。同时,每个评估都可以在不到六分钟的时间内完成,这表明该框架的临床翻译潜力很大。
translated by 谷歌翻译
在多模式分割领域中,可以考虑不同方式之间的相关性以改善分段结果。考虑到不同MR模型之间的相关性,在本文中,我们提出了一种由新型三关注融合引导的多模态分段网络。我们的网络包括与N个图像源,三关注融合块,双关注融合块和解码路径的N个独立于模型编码路径。独立编码路径的模型可以从n个模式捕获模态特征。考虑到从编码器中提取的所有功能都非常有用,我们建议使用基于双重的融合来重量沿模态和空间路径的特征,可以抑制更少的信息特征,并强调每个模态的有用的功能在不同的位置。由于不同模式之间存在强烈的相关性,基于双重关注融合块,我们提出了一种相关注意模块来形成三关注融合块。在相关性注意模块中,首先使用相关描述块来学习模态之间的相关性,然后基于相关性的约束来指导网络以学习对分段更相关的潜在相关特征。最后,通过解码器投影所获得的融合特征表示以获得分段结果。我们对Brats 2018年脑肿瘤分割进行测试的实验结果证明了我们提出的方法的有效性。
translated by 谷歌翻译
阿尔茨海默氏病的准确诊断和预后对于开发新疗法和降低相关成本至关重要。最近,随着卷积神经网络的进步,已经提出了深度学习方法,以使用结构MRI自动化这两个任务。但是,这些方法通常缺乏解释性和泛化,预后表现有限。在本文中,我们提出了一个旨在克服这些局限性的新型深框架。我们的管道包括两个阶段。在第一阶段,使用125个3D U-NET来估计整个大脑的体voxelwise等级得分。然后将所得的3D地图融合,以构建一个可解释的3D分级图,以指示结构水平的疾病严重程度。结果,临床医生可以使用该地图来检测受疾病影响的大脑结构。在第二阶段,分级图和受试者的年龄用于使用图卷积神经网络进行分类。基于216名受试者的实验结果表明,与在不同数据集上进行AD诊断和预后的最新方法相比,我们的深框架的竞争性能。此外,我们发现,使用大量的U-NET处理不同的重叠大脑区域,可以提高所提出方法的概括能力。
translated by 谷歌翻译
人们以不同的感官感知世界,例如视觉,听觉,气味和触摸。从多种方式处理和融合信息使人工智能可以更轻松地了解我们周围的世界。但是,当缺少模式时,在不同情况下,可用方式的数量会不同,这导致了N至一对融合问题。为了解决这个问题,我们提出了一个称为Tfusion的基于变压器的融合块。与预设公式或基于卷积的方法不同,所提出的块自动学习以融合可用的模式,而无需合成或零填充丢失。具体而言,从上游处理模型中提取的特征表示形式被投影为令牌并馈入变压器层以生成潜在的多模式相关性。然后,为了减少对特定模式的依赖性,引入了一种模态注意机制来构建共享表示,该表示可以由下游决策模型应用。提出的TFUSH块可以轻松地集成到现有的多模式分析网络中。在这项工作中,我们将tfusion应用于不同的骨干网络,以进行多模式的人类活动识别和脑肿瘤分割任务。广泛的实验结果表明,与竞争融合策略相比,Tfusion块的性能更好。
translated by 谷歌翻译
变形金刚占据了自然语言处理领域,最近影响了计算机视觉区域。在医学图像分析领域中,变压器也已成功应用于全栈临床应用,包括图像合成/重建,注册,分割,检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言,我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次,我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构,并讨论其局限性。在这篇综述中,我们调查了围绕在不同学习范式中使用变压器,提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。
translated by 谷歌翻译
近年来,几项作品采用了卷积神经网络(CNN)来诊断基于X射线图像或磁共振成像(MRI)的股骨头(AVNFH)的无血管坏死。但是,由于组织重叠,X射线图像很难为早期诊断提供细粒度。另一方面,MRI的成像时间很长,更昂贵,使其在大规模筛查中不切实际。计算机断层扫描(CT)显示了层的组织,图像速度更快,并且比MRI成本较小。但是,据我们所知,对于基于CT的AVNFH诊断没有工作。在这项工作中,我们收集并标记为AVNFH排名的大型数据集。此外,现有的端到端CNN仅产生分类结果,并且很难为诊断医生提供更多信息。为了解决这个问题,我们提出了结构正规化的专注网络(Sranet),该网络能够根据贴剂注意力在分类过程中突出坏死区域。 Sranet提取物在图像块中的特征,通过注意机制获得重量以汇总特征,并通过具有先验知识的结构正常化程序来限制它们以改善概括。 Sranet在我们的AVNFH-CT数据集上进行了评估。实验结果表明,Sranet优于CNN,用于AVNFH分类,此外,它可以定位病变并提供更多信息以帮助医生进行诊断。我们的代码在https://github.com/tomas-lilingfeng/sranet上公开。
translated by 谷歌翻译
当肿瘤学家估计癌症患者的生存时,他们依靠多模式数据。尽管文献中已经提出了一些多模式的深度学习方法,但大多数人都依靠拥有两个或多个独立的网络,这些网络在整个模型的稍后阶段共享知识。另一方面,肿瘤学家在分析中没有这样做,而是通过多种来源(例如医学图像和患者病史)融合大脑中的信息。这项工作提出了一种深度学习方法,可以在量化癌症和估计患者生存时模仿肿瘤学家的分析行为。我们提出了TMSS,这是一种基于端到端变压器的多模式网络,用于分割和生存预测,该网络利用了变压器的优越性,这在于其能力处理不同模态的能力。该模型经过训练并验证了从头部和颈部肿瘤分割的训练数据集上的分割和预后任务以及PET/CT图像挑战(Hecktor)中的结果预测。我们表明,所提出的预后模型显着优于最先进的方法,其一致性指数为0.763 +/- 0.14,而与独立段模型相当的骰子得分为0.772 +/- 0.030。该代码公开可用。
translated by 谷歌翻译
多模态数据在遥感(RS)中变得容易获得,并且可以提供有关地球表面的互补信息。因此,多模态信息的有效融合对于卢比的各种应用是重要的,而且由于域差异,噪音和冗余,也是非常具有挑战性的。缺乏有效和可扩展的融合技术,用于遍布多种模式编码器和完全利用互补信息。为此,我们提出了一种基于新型金字塔注意融合(PAF)模块和门控融合单元(GFU)的多模态遥感数据的新型多模态网络(Multimodnet)。 PAF模块旨在有效地从每个模态中获得丰富的细粒度上下文表示,具有内置的交叉级别和巧克力关注融合机制,GFU模块利用了新颖的门控机制,用于早期合并特征,从而降低隐藏的冗余和噪音。这使得可以有效地提取补充方式来提取最迟到的特征融合的最有价值和互补的信息。两个代表性RS基准数据集的广泛实验证明了多模态土地覆盖分类的多模型的有效性,鲁棒性和优越性。
translated by 谷歌翻译