智能论文笔记

CKD-TransBTS: Clinical Knowledge-Driven Hybrid Transformer with Modality-Correlated Cross-Attention for Brain Tumor Segmentation

Jianwei Lin , Jiatai Lin , Cheng Lu , Hao Chen , Huan Lin , Bingchao Zhao , Zhenwei Shi , Bingjiang Qiu , Xipeng Pan , Zeyan Xu

分类：计算机视觉

2022-07-15

磁共振图像（MRI）中的脑肿瘤分割（BTS）对于脑肿瘤诊断，癌症管理和研究目的至关重要。随着十年小型挑战的巨大成功以及CNN和Transformer算法的进步，已经提出了许多出色的BTS模型来解决BTS在不同技术方面的困难。但是，现有研究几乎没有考虑如何以合理的方式融合多模式图像。在本文中，我们利用了放射科医生如何从多种MRI模态诊断脑肿瘤的临床知识，并提出了一种称为CKD-TRANSBTS的临床知识驱动的脑肿瘤分割模型。我们没有直接串联所有模式，而是通过根据MRI的成像原理将输入方式分为两组来重新组织输入方式。具有拟议模态相关的跨意义块（MCCA）的双支支混合式编码器旨在提取多模式图像特征。所提出的模型以局部特征表示能力的能力来继承来自变压器和CNN的强度，以提供精确的病变边界和3D体积图像的远程特征提取。为了弥合变压器和CNN功能之间的间隙，我们提出了解码器中的反式和CNN功能校准块（TCFC）。我们将提出的模型与五个基于CNN的模型和六个基于Transformer的模型在Brats 2021挑战数据集上进行了比较。广泛的实验表明，与所有竞争对手相比，所提出的模型可实现最先进的脑肿瘤分割性能。

translated by 谷歌翻译

NestedFormer: Nested Modality-Aware Transformer for Brain Tumor Segmentation

Zhaohu Xing , Lequan Yu , Liang Wan , Tong Han , Lei Zhu

分类：计算机视觉

2022-08-31

多模式MR成像通常用于临床实践中，以通过提供丰富的互补信息来诊断和研究脑肿瘤。以前的多模式MRI分割方法通常通过在网络的早期/中阶段连接多模式MRIS来执行模态融合，这几乎无法探索模态之间的非线性依赖性。在这项工作中，我们提出了一种新型的嵌套模态感知变压器（嵌套形式），以明确探索多模式MRIS在脑肿瘤分割中的模式内和模式间关系。我们建立在基于变压器的多模型和单一码头结构的基础上，我们对不同模式的高级表示进行嵌套的多模式融合，并在较低的尺度上应用对模态敏感的门控（MSG），以进行更有效的跳过连接。具体而言，多模式融合是在我们提出的嵌套模态感知特征聚合（NMAFA）模块中进行的，该模块通过三个方向的空间意见变压器增强了单个模态内的长期依赖性，并进一步补充了模态信息之间的关键情境信息。通过跨模式注意变压器。关于BRATS2020基准和私人脑膜瘤细分（Maniseg）数据集的广泛实验表明，嵌套形式显然比最先进的表现优于最先进的。该代码可从https://github.com/920232796/nestedformer获得。

translated by 谷歌翻译

HTML版本

Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images

Ali Hatamizadeh , Vishwesh Nath , Yucheng Tang , Dong Yang , Holger Roth , Daguang Xu

分类：计算机视觉 | 机器学习

2022-01-04

脑肿瘤的语义分割是一个基本的医学图像分析任务，涉及多个MRI成像方式，可以帮助临床医生诊断患者并先后研究恶性实体的进展。近年来，完全卷积神经网络（FCNNS）方法已成为3D医学图像分割的事实标准。受欢迎的“U形”网络架构在不同的2D和3D语义分割任务和各种成像方式上实现了最先进的性能基准。然而，由于FCNNS中的卷积层的核心大小有限，它们的建模远程信息的性能是次优的，这可能导致具有可变尺寸的肿瘤分割的缺陷。另一方面，变压器模型在捕获多个域中的这种远程信息，包括自然语言处理和计算机视觉中的卓越功能。灵感来自视觉变形金刚的成功及其变体，我们提出了一种新的分割模型，被称为往返博物馆变压器（Swin Unet）。具体地，3D脑肿瘤语义分割的任务被重新重整为序列预测问题的序列，其中多模态输入数据被投射到嵌入的1D序列并用作作为编码器的分层SWIN变压器的输入。 SWIN变压器编码器通过利用移位窗口来提取五个不同分辨率的特征，以通过跳过连接在每个分辨率下连接到每个分辨率的基于FCNN的解码器。我们参与了Brats 2021分割挑战，我们所提出的模型在验证阶段的最佳方法中排名。代码：https://monai.io/research/swin-unetr.

translated by 谷歌翻译

A Tri-attention Fusion Guided Multi-modal Segmentation Network

Tongxue Zhou , Su Ruan , Pierre Vera , Stéphane Canu

分类：计算机视觉

2021-11-02

在多模式分割领域中，可以考虑不同方式之间的相关性以改善分段结果。考虑到不同MR模型之间的相关性，在本文中，我们提出了一种由新型三关注融合引导的多模态分段网络。我们的网络包括与N个图像源，三关注融合块，双关注融合块和解码路径的N个独立于模型编码路径。独立编码路径的模型可以从n个模式捕获模态特征。考虑到从编码器中提取的所有功能都非常有用，我们建议使用基于双重的融合来重量沿模态和空间路径的特征，可以抑制更少的信息特征，并强调每个模态的有用的功能在不同的位置。由于不同模式之间存在强烈的相关性，基于双重关注融合块，我们提出了一种相关注意模块来形成三关注融合块。在相关性注意模块中，首先使用相关描述块来学习模态之间的相关性，然后基于相关性的约束来指导网络以学习对分段更相关的潜在相关特征。最后，通过解码器投影所获得的融合特征表示以获得分段结果。我们对Brats 2018年脑肿瘤分割进行测试的实验结果证明了我们提出的方法的有效性。

translated by 谷歌翻译

UNETR: Transformers for 3D Medical Image Segmentation

Ali Hatamizadeh , Yucheng Tang , Vishwesh Nath , Dong Yang , Andriy Myronenko , Bennett Landman , Holger Roth , Daguang Xu

分类：

2021-03-18

Fully Convolutional Neural Networks (FCNNs) with contracting and expanding paths have shown prominence for the majority of medical image segmentation applications since the past decade. In FCNNs, the encoder plays an integral role by learning both global and local features and contextual representations which can be utilized for semantic output prediction by the decoder. Despite their success, the locality of convolutional layers in FCNNs, limits the capability of learning long-range spatial dependencies. Inspired by the recent success of transformers for Natural Language Processing (NLP) in long-range sequence learning, we reformulate the task of volumetric (3D) medical image segmentation as a sequence-to-sequence prediction problem. We introduce a novel architecture, dubbed as UNEt TRansformers (UNETR), that utilizes a transformer as the encoder to learn sequence representations of the input volume and effectively capture the global multi-scale information, while also following the successful "U-shaped" network design for the encoder and decoder. The transformer encoder is directly connected to a decoder via skip connections at different resolutions to compute the final semantic segmentation output. We have validated the performance of our method on the Multi Atlas Labeling Beyond The Cranial Vault (BTCV) dataset for multiorgan segmentation and the Medical Segmentation Decathlon (MSD) dataset for brain tumor and spleen segmentation tasks. Our benchmarks demonstrate new state-of-the-art performance on the BTCV leaderboard. Code: https://monai.io/research/unetr

translated by 谷歌翻译

mmFormer: Multimodal Medical Transformer for Incomplete Multimodal Learning of Brain Tumor Segmentation

Yao Zhang , Nanjun He , Jiawei Yang , Yuexiang Li , Dong Wei , Yawen Huang , Yang Zhang , Zhiqiang He , Yefeng Zheng

分类：计算机视觉

2022-06-06

从磁共振成像（MRI）中进行精确的脑肿瘤分割，对于多模式图像的联合学习是可取的。但是，在临床实践中，并非总是有可能获得一组完整的MRI，而缺失模态的问题会导致现有的多模式分割方法中的严重性能降解。在这项工作中，我们提出了第一次尝试利用变压器进行多模式脑肿瘤分割的尝试，该脑肿瘤分割对任何可用模式的任何组合子集都是可靠的。具体而言，我们提出了一种新型的多模式医疗变压器（MMMFORMER），用于不完整的多模式学习，具有三个主要成分：混合模态特异性的编码器，该编码器在每种模式中桥接卷积编码器和一个局部和全局上下文模型的模式内变压器；一种模式间变压器，用于建立和对齐模态跨模态的远程相关性，以对应于肿瘤区域的全局语义。一个解码器，与模态不变特征进行渐进的上采样和融合，以生成可靠的分割。此外，在编码器和解码器中都引入了辅助正规化器，以进一步增强模型对不完整方式的鲁棒性。我们对公共批评的大量实验$ 2018 $ $数据集用于脑肿瘤细分。结果表明，所提出的MMFORMER优于几乎所有不完整模态的亚群的多模式脑肿瘤分割的最新方法，尤其是在肿瘤分割的平均骰子中平均提高了19.07％，只有一种可用的模式。该代码可在https://github.com/yaozhang93/mmmenforer上找到。

translated by 谷歌翻译

Feature-enhanced Generation and Multi-modality Fusion based Deep Neural Network for Brain Tumor Segmentation with Missing MR Modalities

Tongxue Zhou , Stéphane Canu , Pierre Vera , Su Ruan

分类：计算机视觉

2021-11-08

使用多模式磁共振成像（MRI）对于精确的脑肿瘤细分是必需的。主要问题是，并非所有类型的MRI都始终可以在临床考试中提供。基于同一患者的先生模式之间存在强烈相关性，在这项工作中，我们提出了一种缺少一个或多种方式的脑肿瘤分割网络。所提出的网络由三个子网组成：特征增强的生成器，相关约束块和分割网络。特征增强的生成器利用可用模态来生成表示缺少模态的3D特征增强图像。相关性约束块可以利用模态之间的多源相关性，并且还限制了发电机，以合成特征增强的模态，该特征增强的模态必须具有与可用模式具有相干相关性的特征增强的模态。分段网络是基于多编码器的U-Net，以实现最终的脑肿瘤分割。所提出的方法在Brats 2018数据集上进行评估。实验结果表明，拟议方法的有效性分别在全肿瘤，肿瘤核心和增强肿瘤上实现了82.9,74.9和59.1的平均骰子得分，并且优于3.5％，17％和18.2的最佳方法％。

translated by 谷歌翻译

HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

Moein Heidari , Amirhossein Kazerouni , Milad Soltany , Reza Azad , Ehsan Khodapanah Aghdam , Julien Cohen-Adad , Dorit Merhof

分类：计算机视觉 | 人工智能

2022-07-18

卷积神经网络（CNN）已成为医疗图像分割任务的共识。但是，由于卷积操作的性质，它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题，但它们未能捕获低级功能。相比之下，证明本地和全球特征对于密集的预测至关重要，例如在具有挑战性的环境中细分。在本文中，我们提出了一种新型方法，该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言，我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合，我们建议在编码器编码器结构的跳过连接中提出一个双层融合（DLF）模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的，基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取：https：//github.com/amirhossein-kz/hiformer

translated by 谷歌翻译

Transformers in Medical Image Analysis: A Review

Kelei He , Chen Gan , Zhuoyuan Li , Islem Rekik , Zihao Yin , Wen Ji , Yang Gao , Qian Wang , Junfeng Zhang , Dinggang Shen

分类：计算机视觉

2022-02-24

变形金刚占据了自然语言处理领域，最近影响了计算机视觉区域。在医学图像分析领域中，变压器也已成功应用于全栈临床应用，包括图像合成/重建，注册，分割，检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言，我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次，我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构，并讨论其局限性。在这篇综述中，我们调查了围绕在不同学习范式中使用变压器，提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。

translated by 谷歌翻译

UNesT: Local Spatial Representation Learning with Hierarchical Transformer for Efficient Medical Segmentation

Xin Yu , Qi Yang , Yinchi Zhou , Leon Y. Cai , Riqiang Gao , Ho Hin Lee , Thomas Li , Shunxing Bao , Zhoubing Xu , Thomas A. Lasko

分类：计算机视觉

2022-09-28

Transformer-based models, capable of learning better global dependencies, have recently demonstrated exceptional representation learning capabilities in computer vision and medical image analysis. Transformer reformats the image into separate patches and realize global communication via the self-attention mechanism. However, positional information between patches is hard to preserve in such 1D sequences, and loss of it can lead to sub-optimal performance when dealing with large amounts of heterogeneous tissues of various sizes in 3D medical image segmentation. Additionally, current methods are not robust and efficient for heavy-duty medical segmentation tasks such as predicting a large number of tissue classes or modeling globally inter-connected tissues structures. Inspired by the nested hierarchical structures in vision transformer, we proposed a novel 3D medical image segmentation method (UNesT), employing a simplified and faster-converging transformer encoder design that achieves local communication among spatially adjacent patch sequences by aggregating them hierarchically. We extensively validate our method on multiple challenging datasets, consisting anatomies of 133 structures in brain, 14 organs in abdomen, 4 hierarchical components in kidney, and inter-connected kidney tumors). We show that UNesT consistently achieves state-of-the-art performance and evaluate its generalizability and data efficiency. Particularly, the model achieves whole brain segmentation task complete ROI with 133 tissue classes in single network, outperforms prior state-of-the-art method SLANT27 ensembled with 27 network tiles, our model performance increases the mean DSC score of the publicly available Colin and CANDI dataset from 0.7264 to 0.7444 and from 0.6968 to 0.7025, respectively.

translated by 谷歌翻译

Toward Unpaired Multi-modal Medical Image Segmentation via Learning Structured Semantic Consistency

Jie Yang , Ruimao Zhang , Chaoqun Wang , Zhen Li , Xiang Wan , Lingyan Zhang

分类：计算机视觉

2022-06-21

集成多模式数据以改善医学图像分析，最近受到了极大的关注。但是，由于模态差异，如何使用单个模型来处理来自多种模式的数据仍然是一个开放的问题。在本文中，我们提出了一种新的方案，以实现未配对多模式医学图像的更好的像素级分割。与以前采用模式特异性和模态共享模块的以前方法不同，以适应不同方式的外观差异，同时提取共同的语义信息，我们的方法基于具有精心设计的外部注意模块（EAM）的单个变压器来学习在训练阶段，结构化的语义一致性（即语义类表示及其相关性）。在实践中，可以通过分别在模态级别和图像级别实施一致性正则化来逐步实现上述结构化语义一致性。采用了提出的EAM来学习不同尺度表示的语义一致性，并且一旦模型进行了优化，就可以丢弃。因此，在测试阶段，我们只需要为所有模态预测维护一个变压器，这可以很好地平衡模型的易用性和简单性。为了证明所提出的方法的有效性，我们对两个医学图像分割方案进行了实验：（1）心脏结构分割，（2）腹部多器官分割。广泛的结果表明，所提出的方法的表现优于最新方法，甚至通过极有限的训练样本（例如1或3个注释的CT或MRI图像）以一种特定的方式来实现竞争性能。

translated by 谷歌翻译

Factorizer: A Scalable Interpretable Approach to Context Modeling for Medical Image Segmentation

Pooya Ashtari , Diana M. Sima , Lieven De Lathauwer , Dominique Sappey-Marinier , Frederik Maes , Sabine Van Huffel

分类：计算机视觉 | 机器学习

2022-02-24

Convolutional Neural Networks (CNNs) with U-shaped architectures have dominated medical image segmentation, which is crucial for various clinical purposes. However, the inherent locality of convolution makes CNNs fail to fully exploit global context, essential for better recognition of some structures, e.g., brain lesions. Transformers have recently proven promising performance on vision tasks, including semantic segmentation, mainly due to their capability of modeling long-range dependencies. Nevertheless, the quadratic complexity of attention makes existing Transformer-based models use self-attention layers only after somehow reducing the image resolution, which limits the ability to capture global contexts present at higher resolutions. Therefore, this work introduces a family of models, dubbed Factorizer, which leverages the power of low-rank matrix factorization for constructing an end-to-end segmentation model. Specifically, we propose a linearly scalable approach to context modeling, formulating Nonnegative Matrix Factorization (NMF) as a differentiable layer integrated into a U-shaped architecture. The shifted window technique is also utilized in combination with NMF to effectively aggregate local information. Factorizers compete favorably with CNNs and Transformers in terms of accuracy, scalability, and interpretability, achieving state-of-the-art results on the BraTS dataset for brain tumor segmentation and ISLES'22 dataset for stroke lesion segmentation. Highly meaningful NMF components give an additional interpretability advantage to Factorizers over CNNs and Transformers. Moreover, our ablation studies reveal a distinctive feature of Factorizers that enables a significant speed-up in inference for a trained Factorizer without any extra steps and without sacrificing much accuracy. The code and models are publicly available at https://github.com/pashtari/factorizer.

translated by 谷歌翻译

HoVer-Trans: Anatomy-aware HoVer-Transformer for ROI-free Breast Cancer Diagnosis in Ultrasound Images

Yuhao Mo , Chu Han , Yu Liu , Min Liu , Zhenwei Shi , Jiatai Lin , Bingchao Zhao , Chunwang Huang , Bingjiang Qiu , Yanfen Cui

分类：计算机视觉

2022-05-17

超声检查是乳腺癌诊断的重要常规检查，这是由于其无创，无辐射和低成本的特性。但是，由于其固有的局限性，乳腺癌的诊断准确性仍然受到限制。如果我们可以通过乳房超声图像（BUS）精确诊断乳腺癌，那将是一个巨大的成功。已经提出了许多基于学习的计算机辅助诊断方法来实现乳腺癌诊断/病变分类。但是，其中大多数需要预定的ROI，然后对ROI内的病变进行分类。常规的分类骨架，例如VGG16和RESNET50，可以在没有ROI要求的情况下获得有希望的分类结果。但是这些模型缺乏解释性，因此限制了它们在临床实践中的使用。在这项研究中，我们提出了一种具有可解释特征表示的超声图像中乳腺癌诊断的新型无ROI模型。我们利用解剖学的先验知识，即恶性肿瘤和良性肿瘤在不同的组织层之间具有不同的空间关系，并提出了悬停转换器来提出这种先验知识。提出的悬停式跨界块水平和垂直地提取层间和层内空间信息。我们进行并释放一个开放的数据集GDPH＆SYSUCC，以用于公共汽车中的乳腺癌诊断。通过与四个基于CNN的模型和两个Vision Transformer模型进行比较，通过五倍的交叉验证来评估所提出的模型。它通过最佳模型可解释性实现最新的分类性能。同时，我们提出的模型在仅给出一张公交图像时，在乳腺癌诊断方面优于两名高级超声检查员。

translated by 谷歌翻译

A Volumetric Transformer for Accurate 3D Tumor Segmentation

Himashi Peiris , Munawar Hayat , Zhaolin Chen , Gary Egan , Mehrtash Harandi

分类：计算机视觉

2021-11-26

本文提出了一种用于体积医学图像分割的变压器架构。设计用于体积分割的计算高效的变压器架构是一个具有挑战性的任务。它需要在编码本地和全局空间线索中保持复杂的平衡，并沿着体积数据的所有轴保留信息。所提出的体积变压器具有U形编码器解码器设计，其整体处理输入体素。我们的编码器具有两个连续的自我注意层，同时编码本地和全球性提示，我们的解码器具有基于新颖的并联窗口的自我和跨关注块，以通过归类傅立叶位置编码来捕获边界改进的精细细节。我们所提出的设计选择导致计算上有效的架构，其表明脑肿瘤分割（BRATS）2021的有希望的结果，以及用于肿瘤细分的医学分割牌照（胰腺和肝脏）数据集。我们进一步表明，我们的模型在数据集中传输了更好的地传输的表示，并且对数据损坏具有稳健性。 \ href {https://github.com/himashi92/vt-unet} {我们的代码实现是公开可用的}。

translated by 谷歌翻译

Deep Learning Based Brain Tumor Segmentation: A Survey

Zhihua Liu , Lei Tong , Zheheng Jiang , Long Chen , Feixiang Zhou , Qianni Zhang , Xiangrong Zhang , Yaochu Jin , Huiyu Zhou

分类：计算机视觉

2020-07-18

脑肿瘤分割是医学图像分析中最具挑战性问题之一。脑肿瘤细分的目标是产生准确描绘脑肿瘤区域。近年来，深入学习方法在解决各种计算机视觉问题时表现出了有希望的性能，例如图像分类，对象检测和语义分割。基于深度学习的方法已经应用于脑肿瘤细分并取得了有希望的结果。考虑到最先进技术所制作的显着突破，我们使用本调查来提供最近开发的深层学习脑肿瘤分割技术的全面研究。在本次调查中选择并讨论了100多篇科学论文，广泛地涵盖了网络架构设计，在不平衡条件下的细分等技术方面，以及多种方式流程。我们还为未来的发展方向提供了富有洞察力的讨论。

translated by 谷歌翻译

Hybrid Window Attention Based Transformer Architecture for Brain Tumor Segmentation

Himashi Peiris , Munawar Hayat , Zhaolin Chen , Gary Egan , Mehrtash Harandi

分类：计算机视觉

2022-09-16

由于MRI体积的强度在各机构之间是不一致的，因此必须将多模式MRI的通用特征提取到精确分段脑肿瘤。在这个概念中，我们提出了一个体积视觉变压器，遵循两种窗口策略，以提取精美特征和局部分配平滑度（LDS）在受虚拟对手训练（VAT）启发的模型训练过程中提取精美的特征和局部分配平滑度（LDS），以使模型可靠。我们在FETS Challenge 2022数据集上培训和评估了网络体系结构。我们在在线验证数据集上的性能如下：骰子相似性得分为81.71％，91.38％和85.40％； Hausdorff距离（95％）的14.81毫米，3.93毫米，11.18毫米，分别用于增强肿瘤，整个肿瘤和肿瘤核。总体而言，实验结果通过在每个肿瘤子区域的分割准确性中得出更好的性能来验证我们的方法的有效性。我们的代码实施公开可用：https：//github.com/himashi92/vizviva_fets_2022

translated by 谷歌翻译

D-Former: A U-shaped Dilated Transformer for 3D Medical Image Segmentation

Yixuan Wu , Kuanlun Liao , Jintai Chen , Danny Z. Chen , Jinhong Wang , Honghao Gao , Jian Wu

分类：计算机视觉 | 人工智能

2022-01-03

计算机辅助医学图像分割已广泛应用于诊断和治疗，以获得靶器官和组织的形状和体积的临床有用信息。在过去的几年中，基于卷积神经网络（CNN）的方法（例如，U-Net）占主导地位，但仍遭受了不足的远程信息捕获。因此，最近的工作提出了用于医学图像分割任务的计算机视觉变压器变体，并获得了有希望的表现。这种变压器通过计算配对贴片关系来模拟远程依赖性。然而，它们促进了禁止的计算成本，尤其是在3D医学图像（例如，CT和MRI）上。在本文中，我们提出了一种称为扩张变压器的新方法，该方法在本地和全球范围内交替捕获的配对贴片关系进行自我关注。灵感来自扩张卷积核，我们以扩张的方式进行全球自我关注，扩大接收领域而不增加所涉及的斑块，从而降低计算成本。基于这种扩展变压器的设计，我们构造了一个用于3D医学图像分割的U形编码器解码器分层体系结构。 Synapse和ACDC数据集的实验表明，我们的D-Ager Model从头开始培训，以低计算成本从划痕训练，优于各种竞争力的CNN或基于变压器的分段模型，而不耗时的每训练过程。

translated by 谷歌翻译

TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical Image Segmentation

Reza Azad , Moein Heidari , Moein Shariatnia , Ehsan Khodapanah Aghdam , Sanaz Karimijafarbigloo , Ehsan Adeli , Dorit Merhof

分类：计算机视觉 | 机器学习

2022-08-01

多年来，卷积神经网络（CNN）已成为多种计算机视觉任务的事实上的标准。尤其是，基于开创性体系结构（例如具有跳过连接的U形模型）或具有金字塔池的Artous卷积的深度神经网络已针对广泛的医学图像分析任务量身定制。此类架构的主要优点是它们容易拘留多功能本地功能。然而，作为一般共识，CNN无法捕获由于卷积操作的固有性能的内在特性而捕获长期依赖性和空间相关性。另外，从全球信息建模中获利的变压器源于自我发项机制，最近在自然语言处理和计算机视觉方面取得了出色的表现。然而，以前的研究证明，局部和全局特征对于密集预测的深层模型至关重要，例如以不同的形状和配置对复杂的结构进行分割。为此，本文提出了TransDeeplab，这是一种新型的DeepLab样纯变压器，用于医学图像分割。具体而言，我们用移动的窗口利用层次旋转式变形器来扩展DeepLabV3并建模非常有用的空间金字塔池（ASPP）模块。对相关文献的彻底搜索结果是，我们是第一个用基于纯变压器模型对开创性DeepLab模型进行建模的人。关于各种医学图像分割任务的广泛实验证明，我们的方法在视觉变压器和基于CNN的方法的合并中表现出色或与大多数当代作品相提并论，并显着降低了模型复杂性。代码和训练有素的模型可在https://github.com/rezazad68/transdeeplab上公开获得

translated by 谷歌翻译

TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism for a Deep Segmentation Model

Reza Azad , Mohammad T. AL-Antary , Moein Heidari , Dorit Merhof

分类：计算机视觉

2022-07-27

在过去的几年中，卷积神经网络（CNN），尤其是U-NET，一直是医学图像处理时代的流行技术。具体而言，开创性的U-NET及其替代方案成功地设法解决了各种各样的医学图像分割任务。但是，这些体系结构在本质上是不完美的，因为它们无法表现出长距离相互作用和空间依赖性，从而导致具有可变形状和结构的医学图像分割的严重性能下降。针对序列到序列预测的初步提议的变压器已成为替代体系结构，以精确地模拟由自我激进机制辅助的全局信息。尽管设计了可行的设计，但利用纯变压器来进行图像分割目的，可能导致限制的定位容量，导致低级功能不足。因此，一系列研究旨在设计基于变压器的U-NET的强大变体。在本文中，我们提出了Trans-Norm，这是一种新型的深层分割框架，它随同将变压器模块合并为标准U-NET的编码器和跳过连接。我们认为，跳过连接的方便设计对于准确的分割至关重要，因为它可以帮助扩展路径和收缩路径之间的功能融合。在这方面，我们从变压器模块中得出了一种空间归一化机制，以适应性地重新校准跳过连接路径。对医学图像分割的三个典型任务进行了广泛的实验，证明了透气的有效性。代码和训练有素的模型可在https://github.com/rezazad68/transnorm上公开获得。

translated by 谷歌翻译

Parotid Gland MRI Segmentation Based on Swin-Unet and Multimodal Images

Yin Dai , Zi'an Xu , Fayu Liu , Siqi Li , Sheng Liu , Lifu Shi , Jun Fu

分类：计算机视觉 | 机器学习

2022-06-07

腮腺肿瘤约占头颈肿瘤的2％至10％。术前肿瘤定位，鉴别诊断以及随后选择适当的腮腺肿瘤治疗方法。然而，这些肿瘤的相对稀有性和高度分散的组织类型使基于术前放射线学对这种肿瘤病变的细微差异诊断造成了未满足的需求。最近，深度学习方法发展迅速，尤其是变形金刚在计算机视觉中击败了传统的卷积神经网络。为计算机视觉任务提出了许多新的基于变压器的网络。在这项研究中，收集了多中心多模束MRI图像。使用了基于变压器的SWIN-UNET。将搅拌，T1和T2模态的MRI图像合并为三通道数据以训练网络。我们实现了对腮腺和肿瘤感兴趣区域的分割。测试集上的模型DSC为88.63％，MPA为99.31％，MIOU为83.99％，HD为3.04。然后在本文中设计了一系列比较实验，以进一步验证算法的分割性能。

translated by 谷歌翻译