智能论文笔记

BiTr-Unet: a CNN-Transformer Combined Network for MRI Brain Tumor Segmentation

Qiran Jia , Hai Shu

分类：人工智能 | 计算机视觉 | 机器学习

2021-09-25

卷积神经网络（CNNS）在3D医学图像上自动分割器官或病变取得了显着的成功。最近，视觉变压器网络在2D图像分类任务中表现出卓越的性能。与CNN相比，变压器网络由于其自我关注算法而提取远程特征的吸引力。因此，我们提出了一种称为Bitr-UNET的CNN变压器组合模型，对多模态MRI扫描进行脑肿瘤分割的具体修饰。我们的Bitr-UNET在BRATS2021验证数据集中实现了良好的性能，中值骰子得分0.9335,0.9304和0.8899，以及整个肿瘤，肿瘤核心和增强肿瘤的中位Hausdorff距离2.8284,2.2361和1.4142。在BRATS2021测试数据集上，骰子评分的相应结果为0.9257,0.9350和0.8874，对于Hausdorff距离为3,2.2361和1.4142。该代码在https://github.com/justatinydot/bitr-unet上公开使用。

translated by 谷歌翻译

Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images

Ali Hatamizadeh , Vishwesh Nath , Yucheng Tang , Dong Yang , Holger Roth , Daguang Xu

分类：计算机视觉 | 机器学习

2022-01-04

脑肿瘤的语义分割是一个基本的医学图像分析任务，涉及多个MRI成像方式，可以帮助临床医生诊断患者并先后研究恶性实体的进展。近年来，完全卷积神经网络（FCNNS）方法已成为3D医学图像分割的事实标准。受欢迎的“U形”网络架构在不同的2D和3D语义分割任务和各种成像方式上实现了最先进的性能基准。然而，由于FCNNS中的卷积层的核心大小有限，它们的建模远程信息的性能是次优的，这可能导致具有可变尺寸的肿瘤分割的缺陷。另一方面，变压器模型在捕获多个域中的这种远程信息，包括自然语言处理和计算机视觉中的卓越功能。灵感来自视觉变形金刚的成功及其变体，我们提出了一种新的分割模型，被称为往返博物馆变压器（Swin Unet）。具体地，3D脑肿瘤语义分割的任务被重新重整为序列预测问题的序列，其中多模态输入数据被投射到嵌入的1D序列并用作作为编码器的分层SWIN变压器的输入。 SWIN变压器编码器通过利用移位窗口来提取五个不同分辨率的特征，以通过跳过连接在每个分辨率下连接到每个分辨率的基于FCNN的解码器。我们参与了Brats 2021分割挑战，我们所提出的模型在验证阶段的最佳方法中排名。代码：https://monai.io/research/swin-unetr.

translated by 谷歌翻译

UNETR: Transformers for 3D Medical Image Segmentation

Ali Hatamizadeh , Yucheng Tang , Vishwesh Nath , Dong Yang , Andriy Myronenko , Bennett Landman , Holger Roth , Daguang Xu

分类：

2021-03-18

Fully Convolutional Neural Networks (FCNNs) with contracting and expanding paths have shown prominence for the majority of medical image segmentation applications since the past decade. In FCNNs, the encoder plays an integral role by learning both global and local features and contextual representations which can be utilized for semantic output prediction by the decoder. Despite their success, the locality of convolutional layers in FCNNs, limits the capability of learning long-range spatial dependencies. Inspired by the recent success of transformers for Natural Language Processing (NLP) in long-range sequence learning, we reformulate the task of volumetric (3D) medical image segmentation as a sequence-to-sequence prediction problem. We introduce a novel architecture, dubbed as UNEt TRansformers (UNETR), that utilizes a transformer as the encoder to learn sequence representations of the input volume and effectively capture the global multi-scale information, while also following the successful "U-shaped" network design for the encoder and decoder. The transformer encoder is directly connected to a decoder via skip connections at different resolutions to compute the final semantic segmentation output. We have validated the performance of our method on the Multi Atlas Labeling Beyond The Cranial Vault (BTCV) dataset for multiorgan segmentation and the Medical Segmentation Decathlon (MSD) dataset for brain tumor and spleen segmentation tasks. Our benchmarks demonstrate new state-of-the-art performance on the BTCV leaderboard. Code: https://monai.io/research/unetr

translated by 谷歌翻译

NestedFormer: Nested Modality-Aware Transformer for Brain Tumor Segmentation

Zhaohu Xing , Lequan Yu , Liang Wan , Tong Han , Lei Zhu

分类：计算机视觉

2022-08-31

多模式MR成像通常用于临床实践中，以通过提供丰富的互补信息来诊断和研究脑肿瘤。以前的多模式MRI分割方法通常通过在网络的早期/中阶段连接多模式MRIS来执行模态融合，这几乎无法探索模态之间的非线性依赖性。在这项工作中，我们提出了一种新型的嵌套模态感知变压器（嵌套形式），以明确探索多模式MRIS在脑肿瘤分割中的模式内和模式间关系。我们建立在基于变压器的多模型和单一码头结构的基础上，我们对不同模式的高级表示进行嵌套的多模式融合，并在较低的尺度上应用对模态敏感的门控（MSG），以进行更有效的跳过连接。具体而言，多模式融合是在我们提出的嵌套模态感知特征聚合（NMAFA）模块中进行的，该模块通过三个方向的空间意见变压器增强了单个模态内的长期依赖性，并进一步补充了模态信息之间的关键情境信息。通过跨模式注意变压器。关于BRATS2020基准和私人脑膜瘤细分（Maniseg）数据集的广泛实验表明，嵌套形式显然比最先进的表现优于最先进的。该代码可从https://github.com/920232796/nestedformer获得。

translated by 谷歌翻译

HTML版本

A Transformer-based Generative Adversarial Network for Brain Tumor Segmentation

Liqun Huang , Long Chen , Baihai Zhang , Senchun Chai

分类：机器学习

2022-07-28

在医学图像分割任务中，脑肿瘤分割仍然是一个挑战。随着变压器在各种计算机视觉任务中的应用，变压器块显示了在全球空间中学习长距离依赖性的能力，这是与CNN互补的。在本文中，我们提出了一个新型的基于变压器的生成对抗网络，以自动分割具有多模式MRI的脑肿瘤。我们的架构由一个发电机和一个歧视器组成，这些发电机和歧视器接受了最小游戏进度的培训。发电机基于典型的“ U形”编码器架构，其底层由带有Resnet的变压器块组成。此外，发电机还接受了深度监督技术的培训。我们设计的鉴别器是一个基于CNN的网络，具有多尺度$ L_ {1} $损失，事实证明，这对于医学语义图像分割是有效的。为了验证我们方法的有效性，我们对BRATS2015数据集进行了实验，比以前的最新方法实现了可比或更好的性能。

translated by 谷歌翻译

D-Former: A U-shaped Dilated Transformer for 3D Medical Image Segmentation

Yixuan Wu , Kuanlun Liao , Jintai Chen , Danny Z. Chen , Jinhong Wang , Honghao Gao , Jian Wu

分类：计算机视觉 | 人工智能

2022-01-03

计算机辅助医学图像分割已广泛应用于诊断和治疗，以获得靶器官和组织的形状和体积的临床有用信息。在过去的几年中，基于卷积神经网络（CNN）的方法（例如，U-Net）占主导地位，但仍遭受了不足的远程信息捕获。因此，最近的工作提出了用于医学图像分割任务的计算机视觉变压器变体，并获得了有希望的表现。这种变压器通过计算配对贴片关系来模拟远程依赖性。然而，它们促进了禁止的计算成本，尤其是在3D医学图像（例如，CT和MRI）上。在本文中，我们提出了一种称为扩张变压器的新方法，该方法在本地和全球范围内交替捕获的配对贴片关系进行自我关注。灵感来自扩张卷积核，我们以扩张的方式进行全球自我关注，扩大接收领域而不增加所涉及的斑块，从而降低计算成本。基于这种扩展变压器的设计，我们构造了一个用于3D医学图像分割的U形编码器解码器分层体系结构。 Synapse和ACDC数据集的实验表明，我们的D-Ager Model从头开始培训，以低计算成本从划痕训练，优于各种竞争力的CNN或基于变压器的分段模型，而不耗时的每训练过程。

translated by 谷歌翻译

Optimized U-Net for Brain Tumor Segmentation

Michał Futrega , Alexandre Milesi , Michal Marcinkiewicz , Pablo Ribalta

分类：计算机视觉 | 机器学习

2021-10-07

我们为Brats21挑战中的脑肿瘤分割任务提出了优化的U-Net架构。为了找到最佳模型架构和学习时间表，我们运行了一个广泛的消融研究来测试：深度监督损失，焦点，解码器注意，下降块和残余连接。此外，我们搜索了U-Net编码器的最佳深度，卷积通道数量和后处理策略。我们的方法赢得了验证阶段，并在测试阶段进行了第三位。我们已开放源代码以在NVIDIA深度学习示例GitHub存储库中重现我们的Brats21提交。

translated by 谷歌翻译

A Data-scalable Transformer for Medical Image Segmentation: Architecture, Model Efficiency, and Benchmark

Yunhe Gao , Mu Zhou , Di Liu , Zhennan Yan , Shaoting Zhang , Dimitris N. Metaxas

分类：计算机视觉

2022-02-28

作为新一代神经体系结构的变形金刚在自然语言处理和计算机视觉方面表现出色。但是，现有的视觉变形金刚努力使用有限的医学数据学习，并且无法概括各种医学图像任务。为了应对这些挑战，我们将Medformer作为数据量表变压器呈现为可推广的医学图像分割。关键设计结合了理想的电感偏差，线性复杂性的层次建模以及以空间和语义全局方式以线性复杂性的关注以及多尺度特征融合。 Medformer可以在不预训练的情况下学习微小至大规模的数据。广泛的实验表明，Medformer作为一般分割主链的潜力，在三个具有多种模式（例如CT和MRI）和多样化的医学靶标（例如，健康器官，疾病，疾病组织和肿瘤）的三个公共数据集上优于CNN和视觉变压器。我们将模型和评估管道公开可用，为促进广泛的下游临床应用提供固体基线和无偏比较。

translated by 谷歌翻译

High-Resolution Swin Transformer for Automatic Medical Image Segmentation

Chen Wei , Shenghan Ren , Kaitai Guo , Haihong Hu , Jimin Liang

分类：计算机视觉 | 人工智能

2022-07-23

特征图的分辨率对于医学图像分割至关重要。大多数现有用于医疗图像分割的基于变压器的网络都是U-NET样体系结构，其中包含一个编码器，该编码器利用一系列变压器块将输入医疗图像从高分辨率表示形式转换为低分辨率特征图和解码器这逐渐从低分辨率特征图中恢复了高分辨率表示。与以前的研究不同，在本文中，我们利用高分辨率网络（HRNET）的网络设计样式，用变压器块替换卷积层，并从变压器块生成的不同分辨率特征图中连续交换信息。本文介绍的新基于变压器的网络表示为高分辨率SWIN Transformer网络（HRSTNET）。广泛的实验表明，HRSTNET可以与基于最新的变压器类似于脑肿瘤分割的U-NET样结构（BRATS）2021和Medical Sementation Decathlon的肝数据集实现可比的性能。 HRSTNET代码将在https://github.com/auroua/hrstnet上公开获得。

translated by 谷歌翻译

TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism for a Deep Segmentation Model

Reza Azad , Mohammad T. AL-Antary , Moein Heidari , Dorit Merhof

分类：计算机视觉

2022-07-27

在过去的几年中，卷积神经网络（CNN），尤其是U-NET，一直是医学图像处理时代的流行技术。具体而言，开创性的U-NET及其替代方案成功地设法解决了各种各样的医学图像分割任务。但是，这些体系结构在本质上是不完美的，因为它们无法表现出长距离相互作用和空间依赖性，从而导致具有可变形状和结构的医学图像分割的严重性能下降。针对序列到序列预测的初步提议的变压器已成为替代体系结构，以精确地模拟由自我激进机制辅助的全局信息。尽管设计了可行的设计，但利用纯变压器来进行图像分割目的，可能导致限制的定位容量，导致低级功能不足。因此，一系列研究旨在设计基于变压器的U-NET的强大变体。在本文中，我们提出了Trans-Norm，这是一种新型的深层分割框架，它随同将变压器模块合并为标准U-NET的编码器和跳过连接。我们认为，跳过连接的方便设计对于准确的分割至关重要，因为它可以帮助扩展路径和收缩路径之间的功能融合。在这方面，我们从变压器模块中得出了一种空间归一化机制，以适应性地重新校准跳过连接路径。对医学图像分割的三个典型任务进行了广泛的实验，证明了透气的有效性。代码和训练有素的模型可在https://github.com/rezazad68/transnorm上公开获得。

translated by 谷歌翻译

Hepatic vessel segmentation based on 3Dswin-transformer with inductive biased multi-head self-attention

Mian Wu , Yinling Qian , Xiangyun Liao , Qiong Wang , Pheng-Ann Heng

分类：计算机视觉

2021-11-05

目的：在手术规划之前，CT图像中肝血管的分割是必不可少的，并引起了医学图像分析界的广泛兴趣。由于结构复杂，对比度背景下，自动肝脏血管分割仍然特别具有挑战性。大多数相关的研究采用FCN，U-Net和V-Net变体作为骨干。然而，这些方法主要集中在捕获多尺度局部特征，这可能导致由于卷积运营商有限的地区接收领域而产生错误分类的体素。方法：我们提出了一种强大的端到端血管分割网络，通过将SWIN变压器扩展到3D并采用卷积和自我关注的有效组合，提出了一种被称为电感偏置的多头注意船网（IBIMHAV-NET）的稳健端到端血管分割网络。在实践中，我们介绍了Voxel-Wise嵌入而不是修补程序嵌入，以定位精确的肝脏血管素，并采用多尺度卷积运营商来获得局部空间信息。另一方面，我们提出了感应偏置的多头自我关注，其学习从初始化的绝对位置嵌入的归纳偏置相对位置嵌入嵌入。基于此，我们可以获得更可靠的查询和键矩阵。为了验证我们模型的泛化，我们测试具有不同结构复杂性的样本。结果：我们对3Dircadb数据集进行了实验。四种测试病例的平均骰子和敏感性为74.8％和77.5％，超过现有深度学习方法的结果和改进的图形切割方法。结论：拟议模型IBIMHAV-Net提供一种具有交错架构的自动，精确的3D肝血管分割，可更好地利用CT卷中的全局和局部空间特征。它可以进一步扩展到其他临床数据。

translated by 谷歌翻译

Multimodal CNN Networks for Brain Tumor Segmentation in MRI: A BraTS 2022 Challenge Solution

Ramy A. Zeineldin , Mohamed E. Karar , Oliver Burgert , Franziska Mathis-Ullrich

分类：计算机视觉 | 机器学习

2022-12-19

Automatic segmentation is essential for the brain tumor diagnosis, disease prognosis, and follow-up therapy of patients with gliomas. Still, accurate detection of gliomas and their sub-regions in multimodal MRI is very challenging due to the variety of scanners and imaging protocols. Over the last years, the BraTS Challenge has provided a large number of multi-institutional MRI scans as a benchmark for glioma segmentation algorithms. This paper describes our contribution to the BraTS 2022 Continuous Evaluation challenge. We propose a new ensemble of multiple deep learning frameworks namely, DeepSeg, nnU-Net, and DeepSCAN for automatic glioma boundaries detection in pre-operative MRI. It is worth noting that our ensemble models took first place in the final evaluation on the BraTS testing dataset with Dice scores of 0.9294, 0.8788, and 0.8803, and Hausdorf distance of 5.23, 13.54, and 12.05, for the whole tumor, tumor core, and enhancing tumor, respectively. Furthermore, the proposed ensemble method ranked first in the final ranking on another unseen test dataset, namely Sub-Saharan Africa dataset, achieving mean Dice scores of 0.9737, 0.9593, and 0.9022, and HD95 of 2.66, 1.72, 3.32 for the whole tumor, tumor core, and enhancing tumor, respectively. The docker image for the winning submission is publicly available at (https://hub.docker.com/r/razeineldin/camed22).

translated by 谷歌翻译

CKD-TransBTS: Clinical Knowledge-Driven Hybrid Transformer with Modality-Correlated Cross-Attention for Brain Tumor Segmentation

Jianwei Lin , Jiatai Lin , Cheng Lu , Hao Chen , Huan Lin , Bingchao Zhao , Zhenwei Shi , Bingjiang Qiu , Xipeng Pan , Zeyan Xu

分类：计算机视觉

2022-07-15

磁共振图像（MRI）中的脑肿瘤分割（BTS）对于脑肿瘤诊断，癌症管理和研究目的至关重要。随着十年小型挑战的巨大成功以及CNN和Transformer算法的进步，已经提出了许多出色的BTS模型来解决BTS在不同技术方面的困难。但是，现有研究几乎没有考虑如何以合理的方式融合多模式图像。在本文中，我们利用了放射科医生如何从多种MRI模态诊断脑肿瘤的临床知识，并提出了一种称为CKD-TRANSBTS的临床知识驱动的脑肿瘤分割模型。我们没有直接串联所有模式，而是通过根据MRI的成像原理将输入方式分为两组来重新组织输入方式。具有拟议模态相关的跨意义块（MCCA）的双支支混合式编码器旨在提取多模式图像特征。所提出的模型以局部特征表示能力的能力来继承来自变压器和CNN的强度，以提供精确的病变边界和3D体积图像的远程特征提取。为了弥合变压器和CNN功能之间的间隙，我们提出了解码器中的反式和CNN功能校准块（TCFC）。我们将提出的模型与五个基于CNN的模型和六个基于Transformer的模型在Brats 2021挑战数据集上进行了比较。广泛的实验表明，与所有竞争对手相比，所提出的模型可实现最先进的脑肿瘤分割性能。

translated by 谷歌翻译

Factorizer: A Scalable Interpretable Approach to Context Modeling for Medical Image Segmentation

Pooya Ashtari , Diana M. Sima , Lieven De Lathauwer , Dominique Sappey-Marinier , Frederik Maes , Sabine Van Huffel

分类：计算机视觉 | 机器学习

2022-02-24

Convolutional Neural Networks (CNNs) with U-shaped architectures have dominated medical image segmentation, which is crucial for various clinical purposes. However, the inherent locality of convolution makes CNNs fail to fully exploit global context, essential for better recognition of some structures, e.g., brain lesions. Transformers have recently proven promising performance on vision tasks, including semantic segmentation, mainly due to their capability of modeling long-range dependencies. Nevertheless, the quadratic complexity of attention makes existing Transformer-based models use self-attention layers only after somehow reducing the image resolution, which limits the ability to capture global contexts present at higher resolutions. Therefore, this work introduces a family of models, dubbed Factorizer, which leverages the power of low-rank matrix factorization for constructing an end-to-end segmentation model. Specifically, we propose a linearly scalable approach to context modeling, formulating Nonnegative Matrix Factorization (NMF) as a differentiable layer integrated into a U-shaped architecture. The shifted window technique is also utilized in combination with NMF to effectively aggregate local information. Factorizers compete favorably with CNNs and Transformers in terms of accuracy, scalability, and interpretability, achieving state-of-the-art results on the BraTS dataset for brain tumor segmentation and ISLES'22 dataset for stroke lesion segmentation. Highly meaningful NMF components give an additional interpretability advantage to Factorizers over CNNs and Transformers. Moreover, our ablation studies reveal a distinctive feature of Factorizers that enables a significant speed-up in inference for a trained Factorizer without any extra steps and without sacrificing much accuracy. The code and models are publicly available at https://github.com/pashtari/factorizer.

translated by 谷歌翻译

MISSFormer: An Effective Medical Image Segmentation Transformer

Xiaohong Huang , Zhifang Deng , Dandan Li , Xueguang Yuan

分类：计算机视觉

2021-09-15

基于CNN的方法已经实现了医学图像分割的令人印象深刻的结果，但由于卷积操作的内在局部，它们未能捕获远程依赖性。基于变压器的方法最近在愿景任务中流行，因为它们的远程依赖性和有希望的性能。但是，它缺乏建模本地背景。本文以医学图像分割为例，我们呈现了MissFormer，一种有效和强大的医学图像分割变压器。 MissFormer是具有两个吸引人设计的分层编码器 - 解码器网络：1）通过所提出的增强型变压器块重新设计前馈网络，该熵增强了远程依赖性并补充本地上下文，使得该特征更加辨别。 2）我们提出了增强的变压器上下文网桥，与以前的模拟全局信息的方法不同，所提出的上下文网桥与增强变压器块提取了由我们的层级变压器编码器产生的多尺度特征的远程依赖性和本地语境。由这两个设计驱动，MissFormer显示了捕获更多辨别性依赖性和在医学图像分割中的识别依赖性和上下文的牢固能力。多器官和心脏分割任务的实验表明了我们的错过更优越性，有效性和稳健性，训练了从划伤的痕迹甚至高于想象的最先进方法。核心设计可以推广到其他视觉分段任务。代码已在GitHub上发布：https://github.com/zhifangdeng/missformer

translated by 谷歌翻译

Ensemble CNN Networks for GBM Tumors Segmentation using Multi-parametric MRI

Ramy A. Zeineldin , Mohamed E. Karar , Franziska Mathis-Ullrich , Oliver Burgert

分类：计算机视觉 | 机器学习

2021-12-13

Glioblastomas是最具侵略性的快速生长的主要脑癌，起源于大脑的胶质细胞。准确鉴定恶性脑肿瘤及其子区域仍然是医学图像分割中最具挑战性问题之一。脑肿瘤分割挑战（Brats）是自动脑胶质细胞瘤分割算法的流行基准，自于其启动。在今年的挑战中，Brats 2021提供了2,000名术前患者的最大多参数（MPMRI）数据集。在本文中，我们提出了两个深度学习框架的新聚合，即在术前MPMRI中的自动胶质母细胞瘤识别的Deepseg和NNU-Net。我们的集合方法获得了92.00,87.33和84.10和Hausdorff距离为3.81,8.91和16.02的骰子相似度分数，用于增强肿瘤，肿瘤核心和全肿瘤区域，单独进行。这些实验结果提供了证据表明它可以在临床上容易地应用，从而助攻脑癌预后，治疗计划和治疗反应监测。

translated by 谷歌翻译

HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

Moein Heidari , Amirhossein Kazerouni , Milad Soltany , Reza Azad , Ehsan Khodapanah Aghdam , Julien Cohen-Adad , Dorit Merhof

分类：计算机视觉 | 人工智能

2022-07-18

卷积神经网络（CNN）已成为医疗图像分割任务的共识。但是，由于卷积操作的性质，它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题，但它们未能捕获低级功能。相比之下，证明本地和全球特征对于密集的预测至关重要，例如在具有挑战性的环境中细分。在本文中，我们提出了一种新型方法，该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言，我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合，我们建议在编码器编码器结构的跳过连接中提出一个双层融合（DLF）模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的，基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取：https：//github.com/amirhossein-kz/hiformer

translated by 谷歌翻译

Extending nn-UNet for brain tumor segmentation

Huan Minh Luu , Sung-Hong Park

分类：计算机视觉

2021-12-09

脑肿瘤细分对于胶质瘤患者的诊断和预后至关重要。脑肿瘤分割挑战赛继续提供一种开发自动算法来执行任务的伟大数据来源。本文介绍了我们对2021年竞争的贡献。我们开发了基于NN-UNET的方法，去年竞争的胜利。我们尝试了多种修改，包括使用较大的网络，用组标准化替换批量归一化，并在解码器中使用轴向注意力。内部5倍交叉验证以及组织者的在线评估显示了我们的方法的有效性，与基线相比，定量度量的微小改善。拟议的型号在最终排名上赢得了未经证明的测试数据的第一名。获奖提交的代码，备用重量和Docker图像在https://github.com/rixez/brats21_kaist_mri_lab上公开可用

translated by 谷歌翻译

DAE-Former: Dual Attention-guided Efficient Transformer for Medical Image Segmentation

Reza Azad , René Arimond , Ehsan Khodapanah Aghdam , Amirhosein Kazerouni , Dorit Merhof

分类：计算机视觉

2022-12-27

Transformers have recently gained attention in the computer vision domain due to their ability to model long-range dependencies. However, the self-attention mechanism, which is the core part of the Transformer model, usually suffers from quadratic computational complexity with respect to the number of tokens. Many architectures attempt to reduce model complexity by limiting the self-attention mechanism to local regions or by redesigning the tokenization process. In this paper, we propose DAE-Former, a novel method that seeks to provide an alternative perspective by efficiently designing the self-attention mechanism. More specifically, we reformulate the self-attention mechanism to capture both spatial and channel relations across the whole feature dimension while staying computationally efficient. Furthermore, we redesign the skip connection path by including the cross-attention module to ensure the feature reusability and enhance the localization power. Our method outperforms state-of-the-art methods on multi-organ cardiac and skin lesion segmentation datasets without requiring pre-training weights. The code is publicly available at https://github.com/mindflow-institue/DAEFormer.

translated by 谷歌翻译

Parotid Gland MRI Segmentation Based on Swin-Unet and Multimodal Images

Yin Dai , Zi'an Xu , Fayu Liu , Siqi Li , Sheng Liu , Lifu Shi , Jun Fu

分类：计算机视觉 | 机器学习

2022-06-07

腮腺肿瘤约占头颈肿瘤的2％至10％。术前肿瘤定位，鉴别诊断以及随后选择适当的腮腺肿瘤治疗方法。然而，这些肿瘤的相对稀有性和高度分散的组织类型使基于术前放射线学对这种肿瘤病变的细微差异诊断造成了未满足的需求。最近，深度学习方法发展迅速，尤其是变形金刚在计算机视觉中击败了传统的卷积神经网络。为计算机视觉任务提出了许多新的基于变压器的网络。在这项研究中，收集了多中心多模束MRI图像。使用了基于变压器的SWIN-UNET。将搅拌，T1和T2模态的MRI图像合并为三通道数据以训练网络。我们实现了对腮腺和肿瘤感兴趣区域的分割。测试集上的模型DSC为88.63％，MPA为99.31％，MIOU为83.99％，HD为3.04。然后在本文中设计了一系列比较实验，以进一步验证算法的分割性能。

translated by 谷歌翻译