生物标志物确定患者对治疗的反应。随着基于变压器网络的人工智能的最新进展,仅进行了有限的研究来衡量具有挑战性的组织病理学图像的性能。在本文中,我们研究了众多最先进的变压器网络对免疫组织蛋白质细胞分割免疫组织癌(IHC)幻灯片中结肠癌的众多最先进的变压器网络的疗效。广泛而全面的实验结果证实,与其余评估的变压器和有效的U-NET方法相比,Missformer的骰子得分最高74.85%。
translated by 谷歌翻译
特征图的分辨率对于医学图像分割至关重要。大多数现有用于医疗图像分割的基于变压器的网络都是U-NET样体系结构,其中包含一个编码器,该编码器利用一系列变压器块将输入医疗图像从高分辨率表示形式转换为低分辨率特征图和解码器这逐渐从低分辨率特征图中恢复了高分辨率表示。与以前的研究不同,在本文中,我们利用高分辨率网络(HRNET)的网络设计样式,用变压器块替换卷积层,并从变压器块生成的不同分辨率特征图中连续交换信息。本文介绍的新基于变压器的网络表示为高分辨率SWIN Transformer网络(HRSTNET)。广泛的实验表明,HRSTNET可以与基于最新的变压器类似于脑肿瘤分割的U-NET样结构(BRATS)2021和Medical Sementation Decathlon的肝数据集实现可比的性能。 HRSTNET代码将在https://github.com/auroua/hrstnet上公开获得。
translated by 谷歌翻译
多年来,卷积神经网络(CNN)已成为多种计算机视觉任务的事实上的标准。尤其是,基于开创性体系结构(例如具有跳过连接的U形模型)或具有金字塔池的Artous卷积的深度神经网络已针对广泛的医学图像分析任务量身定制。此类架构的主要优点是它们容易拘留多功能本地功能。然而,作为一般共识,CNN无法捕获由于卷积操作的固有性能的内在特性而捕获长期依赖性和空间相关性。另外,从全球信息建模中获利的变压器源于自我发项机制,最近在自然语言处理和计算机视觉方面取得了出色的表现。然而,以前的研究证明,局部和全局特征对于密集预测的深层模型至关重要,例如以不同的形状和配置对复杂的结构进行分割。为此,本文提出了TransDeeplab,这是一种新型的DeepLab样纯变压器,用于医学图像分割。具体而言,我们用移动的窗口利用层次旋转式变形器来扩展DeepLabV3并建模非常有用的空间金字塔池(ASPP)模块。对相关文献的彻底搜索结果是,我们是第一个用基于纯变压器模型对开创性DeepLab模型进行建模的人。关于各种医学图像分割任务的广泛实验证明,我们的方法在视觉变压器和基于CNN的方法的合并中表现出色或与大多数当代作品相提并论,并显着降低了模型复杂性。代码和训练有素的模型可在https://github.com/rezazad68/transdeeplab上公开获得
translated by 谷歌翻译
卷积神经网络(CNN)已成为医疗图像分割任务的共识。但是,由于卷积操作的性质,它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题,但它们未能捕获低级功能。相比之下,证明本地和全球特征对于密集的预测至关重要,例如在具有挑战性的环境中细分。在本文中,我们提出了一种新型方法,该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言,我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合,我们建议在编码器编码器结构的跳过连接中提出一个双层融合(DLF)模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的,基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取:https://github.com/amirhossein-kz/hiformer
translated by 谷歌翻译
目的:在手术规划之前,CT图像中肝血管的分割是必不可少的,并引起了医学图像分析界的广泛兴趣。由于结构复杂,对比度背景下,自动肝脏血管分割仍然特别具有挑战性。大多数相关的研究采用FCN,U-Net和V-Net变体作为骨干。然而,这些方法主要集中在捕获多尺度局部特征,这可能导致由于卷积运营商有限的地区接收领域而产生错误分类的体素。方法:我们提出了一种强大的端到端血管分割网络,通过将SWIN变压器扩展到3D并采用卷积和自我关注的有效组合,提出了一种被称为电感偏置的多头注意船网(IBIMHAV-NET)的稳健端到端血管分割网络。在实践中,我们介绍了Voxel-Wise嵌入而不是修补程序嵌入,以定位精确的肝脏血管素,并采用多尺度卷积运营商来获得局部空间信息。另一方面,我们提出了感应偏置的多头自我关注,其学习从初始化的绝对位置嵌入的归纳偏置相对位置嵌入嵌入。基于此,我们可以获得更可靠的查询和键矩阵。为了验证我们模型的泛化,我们测试具有不同结构复杂性的样本。结果:我们对3Dircadb数据集进行了实验。四种测试病例的平均骰子和敏感性为74.8%和77.5%,超过现有深度学习方法的结果和改进的图形切割方法。结论:拟议模型IBIMHAV-Net提供一种具有交错架构的自动,精确的3D肝血管分割,可更好地利用CT卷中的全局和局部空间特征。它可以进一步扩展到其他临床数据。
translated by 谷歌翻译
Recently, many attempts have been made to construct a transformer base U-shaped architecture, and new methods have been proposed that outperformed CNN-based rivals. However, serious problems such as blockiness and cropped edges in predicted masks remain because of transformers' patch partitioning operations. In this work, we propose a new U-shaped architecture for medical image segmentation with the help of the newly introduced focal modulation mechanism. The proposed architecture has asymmetric depths for the encoder and decoder. Due to the ability of the focal module to aggregate local and global features, our model could simultaneously benefit the wide receptive field of transformers and local viewing of CNNs. This helps the proposed method balance the local and global feature usage to outperform one of the most powerful transformer-based U-shaped models called Swin-UNet. We achieved a 1.68% higher DICE score and a 0.89 better HD metric on the Synapse dataset. Also, with extremely limited data, we had a 4.25% higher DICE score on the NeoPolyp dataset. Our implementations are available at: https://github.com/givkashi/Focal-UNet
translated by 谷歌翻译
计算机辅助医学图像分割已广泛应用于诊断和治疗,以获得靶器官和组织的形状和体积的临床有用信息。在过去的几年中,基于卷积神经网络(CNN)的方法(例如,U-Net)占主导地位,但仍遭受了不足的远程信息捕获。因此,最近的工作提出了用于医学图像分割任务的计算机视觉变压器变体,并获得了有希望的表现。这种变压器通过计算配对贴片关系来模拟远程依赖性。然而,它们促进了禁止的计算成本,尤其是在3D医学图像(例如,CT和MRI)上。在本文中,我们提出了一种称为扩张变压器的新方法,该方法在本地和全球范围内交替捕获的配对贴片关系进行自我关注。灵感来自扩张卷积核,我们以扩张的方式进行全球自我关注,扩大接收领域而不增加所涉及的斑块,从而降低计算成本。基于这种扩展变压器的设计,我们构造了一个用于3D医学图像分割的U形编码器解码器分层体系结构。 Synapse和ACDC数据集的实验表明,我们的D-Ager Model从头开始培训,以低计算成本从划痕训练,优于各种竞争力的CNN或基于变压器的分段模型,而不耗时的每训练过程。
translated by 谷歌翻译
变压器在计算机视觉中的成功吸引了医学成像社区越来越多的关注。特别是对于医学图像细分,已经介绍了许多基于卷积神经网络(CNN)和变压器的出色混合体系结构,并取得了令人印象深刻的性能。但是,将模块化变压器嵌入CNN中的大多数方法都难以发挥其全部潜力。在本文中,我们提出了一种新型的医学图像分割的混合体系结构,称为Phtrans,该架构可与主要构建基块中的变形金刚和CNN杂交,以产生来自全球和本地特征的层次结构表示,并适应性地汇总它们,旨在完全利用其优势以获得更好的优势。细分性能。具体而言,phtrans遵循U形编码器编码器设计,并在深层阶段引入平行的Hybird模块,其中卷积块和经过修改的3D SWIN变压器分别学习本地特征和全局依赖性,然后统一尺寸,统一尺寸输出以实现特征聚合。超出颅库和自动化心脏诊断挑战数据集以外的多ATLA标签的广泛实验结果证实了其有效性,始终超过了最先进的方法。该代码可在以下网址获得:https://github.com/lseventeen/phtrans。
translated by 谷歌翻译
在过去的几年中,卷积神经网络(CNN),尤其是U-NET,一直是医学图像处理时代的流行技术。具体而言,开创性的U-NET及其替代方案成功地设法解决了各种各样的医学图像分割任务。但是,这些体系结构在本质上是不完美的,因为它们无法表现出长距离相互作用和空间依赖性,从而导致具有可变形状和结构的医学图像分割的严重性能下降。针对序列到序列预测的初步提议的变压器已成为替代体系结构,以精确地模拟由自我激进机制辅助的全局信息。尽管设计了可行的设计,但利用纯变压器来进行图像分割目的,可能导致限制的定位容量,导致低级功能不足。因此,一系列研究旨在设计基于变压器的U-NET的强大变体。在本文中,我们提出了Trans-Norm,这是一种新型的深层分割框架,它随同将变压器模块合并为标准U-NET的编码器和跳过连接。我们认为,跳过连接的方便设计对于准确的分割至关重要,因为它可以帮助扩展路径和收缩路径之间的功能融合。在这方面,我们从变压器模块中得出了一种空间归一化机制,以适应性地重新校准跳过连接路径。对医学图像分割的三个典型任务进行了广泛的实验,证明了透气的有效性。代码和训练有素的模型可在https://github.com/rezazad68/transnorm上公开获得。
translated by 谷歌翻译
Transformers have proved to be very effective for visual recognition tasks. In particular, vision transformers construct compressed global representations through self-attention and learnable class tokens. Multi-resolution transformers have shown recent successes in semantic segmentation but can only capture local interactions in high-resolution feature maps. This paper extends the notion of global tokens to build GLobal Attention Multi-resolution (GLAM) transformers. GLAM is a generic module that can be integrated into most existing transformer backbones. GLAM includes learnable global tokens, which unlike previous methods can model interactions between all image regions, and extracts powerful representations during training. Extensive experiments show that GLAM-Swin or GLAM-Swin-UNet exhibit substantially better performances than their vanilla counterparts on ADE20K and Cityscapes. Moreover, GLAM can be used to segment large 3D medical images, and GLAM-nnFormer achieves new state-of-the-art performance on the BCV dataset.
translated by 谷歌翻译
基于CNN的方法已经实现了医学图像分割的令人印象深刻的结果,但由于卷积操作的内在局部,它们未能捕获远程依赖性。基于变压器的方法最近在愿景任务中流行,因为它们的远程依赖性和有希望的性能。但是,它缺乏建模本地背景。本文以医学图像分割为例,我们呈现了MissFormer,一种有效和强大的医学图像分割变压器。 MissFormer是具有两个吸引人设计的分层编码器 - 解码器网络:1)通过所提出的增强型变压器块重新设计前馈网络,该熵增强了远程依赖性并补充本地上下文,使得该特征更加辨别。 2)我们提出了增强的变压器上下文网桥,与以前的模拟全局信息的方法不同,所提出的上下文网桥与增强变压器块提取了由我们的层级变压器编码器产生的多尺度特征的远程依赖性和本地语境。由这两个设计驱动,MissFormer显示了捕获更多辨别性依赖性和在医学图像分割中的识别依赖性和上下文的牢固能力。多器官和心脏分割任务的实验表明了我们的错过更优越性,有效性和稳健性,训练了从划伤的痕迹甚至高于想象的最先进方法。核心设计可以推广到其他视觉分段任务。代码已在GitHub上发布:https://github.com/zhifangdeng/missformer
translated by 谷歌翻译
最新的语义分段方法采用具有编码器解码器架构的U-Net框架。 U-Net仍然具有挑战性,具有简单的跳过连接方案来模拟全局多尺度上下文:1)由于编码器和解码器级的不兼容功能集的问题,并非每个跳过连接设置都是有效的,甚至一些跳过连接对分割性能产生负面影响; 2)原始U-Net比某些数据集上没有任何跳过连接的U-Net更糟糕。根据我们的调查结果,我们提出了一个名为Uctransnet的新分段框架(在U-Net中的提议CTRANS模块),从引导机制的频道视角。具体地,CTRANS模块是U-NET SKIP连接的替代,其包括与变压器(命名CCT)和子模块通道 - 明智的跨关注进行多尺度信道交叉融合的子模块(命名为CCA)以指导熔融的多尺度通道 - 明智信息,以有效地连接到解码器功能以消除歧义。因此,由CCT和CCA组成的所提出的连接能够替换原始跳过连接以解决精确的自动医学图像分割的语义间隙。实验结果表明,我们的UCTRANSNET产生更精确的分割性能,并通过涉及变压器或U形框架的不同数据集和传统架构的语义分割来实现一致的改进。代码:https://github.com/mcgregorwwwww/uctransnet。
translated by 谷歌翻译
视觉变压器最近由于其在各种计算机视觉任务上的出色表现而引发了医学图像分析领域的新浪潮。但是,最近的基于混合/变压器的方法主要集中于变形金刚在捕获长期依赖性方面的好处,同时忽略了其艰巨的计算复杂性,高培训成本和冗余依赖性的问题。在本文中,我们建议对变形金刚进行自适应修剪进行医学图像分割,并提出轻巧有效的混合网络表达式。据我们所知,这是针对医学图像分析任务修剪变压器修剪的第一项工作。 Apformer的关键特征主要是自我监督的自我注意力(SSA),以改善依赖性建立的收敛性,高斯 - 优先相对位置嵌入(GRPE),以促进学习位置信息的学习,并自适应修剪以消除冗余计算和感知信息。具体而言,SSA和GRPE分别考虑了良好的依赖分布和高斯热图分布,作为自我注意事项和嵌入位置的先验知识,以减轻变压器的训练并为以下修剪操作奠定坚实的基础。然后,通过调整栅极控制参数以降低复杂性和性能改进来执行自适应变压器修剪,无论是查询和依赖性方面的修剪,都可以执行。在两个广泛使用的数据集上进行了广泛的实验,证明了Apformer对具有更少参数和较低GFLOPS的最新方法的显着分割性能。更重要的是,通过消融研究,我们证明了自适应修剪可以作为插头-N-play模块,以改善其他基于混合的混合/变压器方法。代码可从https://github.com/xianlin7/apformer获得。
translated by 谷歌翻译
最近,已经开发了各种视觉变压器作为对远程依赖性建模的能力。在当前的基于变压器的主骨用于医疗图像分割的骨架中,卷积层被纯变压器替换,或者将变压器添加到最深的编码器中以学习全球环境。但是,从规模的角度来看,主要有两个挑战:(1)尺度内问题:在每个尺度中提取局部全球线索所缺乏的现有方法,这可能会影响小物体的信号传播; (2)尺度间问题:现有方法未能从多个量表中探索独特的信息,这可能会阻碍表示尺寸,形状和位置广泛的对象的表示形式学习。为了解决这些局限性,我们提出了一个新颖的骨干,即比例尺形式,具有两个吸引人的设计:(1)尺度上的尺度内变压器旨在将基于CNN的本地功能与每个尺度中的基于变压器的全球线索相结合,在行和列的全局依赖项上可以通过轻巧的双轴MSA提取。 (2)一种简单有效的空间感知尺度变压器旨在以多个尺度之间的共识区域相互作用,该区域可以突出跨尺度依赖性并解决复杂量表的变化。对不同基准测试的实验结果表明,我们的尺度形式的表现优于当前最新方法。该代码可公开可用:https://github.com/zjugivelab/scaleformer。
translated by 谷歌翻译
心脏磁共振成像通常用于评估心脏解剖结构和功能。左心室血池和左心室心肌的描述对于诊断心脏疾病很重要。不幸的是,在CMR采集程序中,患者的运动可能会导致最终图像中出现的运动伪像。这种伪像降低了CMR图像的诊断质量和对程序的重做。在本文中,我们提出了一个多任务SWIN UNET变压器网络,用于在CMRXMOTION挑战中同时解决两个任务:CMR分割和运动伪像分类。我们将细分和分类作为多任务学习方法,使我们能够确定CMR的诊断质量并同时生成口罩。 CMR图像分为三个诊断质量类别,而所有具有非严重运动伪像的样本都被分割。使用5倍交叉验证训练的五个网络的合奏实现了骰子系数为0.871的分割性能,分类精度为0.595。
translated by 谷歌翻译
Owing to the success of transformer models, recent works study their applicability in 3D medical segmentation tasks. Within the transformer models, the self-attention mechanism is one of the main building blocks that strives to capture long-range dependencies, compared to the local convolutional-based design. However, the self-attention operation has quadratic complexity which proves to be a computational bottleneck, especially in volumetric medical imaging, where the inputs are 3D with numerous slices. In this paper, we propose a 3D medical image segmentation approach, named UNETR++, that offers both high-quality segmentation masks as well as efficiency in terms of parameters and compute cost. The core of our design is the introduction of a novel efficient paired attention (EPA) block that efficiently learns spatial and channel-wise discriminative features using a pair of inter-dependent branches based on spatial and channel attention. Our spatial attention formulation is efficient having linear complexity with respect to the input sequence length. To enable communication between spatial and channel-focused branches, we share the weights of query and key mapping functions that provide a complimentary benefit (paired attention), while also reducing the overall network parameters. Our extensive evaluations on three benchmarks, Synapse, BTCV and ACDC, reveal the effectiveness of the proposed contributions in terms of both efficiency and accuracy. On Synapse dataset, our UNETR++ sets a new state-of-the-art with a Dice Similarity Score of 87.2%, while being significantly efficient with a reduction of over 71% in terms of both parameters and FLOPs, compared to the best existing method in the literature. Code: https://github.com/Amshaker/unetr_plus_plus.
translated by 谷歌翻译
Transformers have made remarkable progress towards modeling long-range dependencies within the medical image analysis domain. However, current transformer-based models suffer from several disadvantages: (1) existing methods fail to capture the important features of the images due to the naive tokenization scheme; (2) the models suffer from information loss because they only consider single-scale feature representations; and (3) the segmentation label maps generated by the models are not accurate enough without considering rich semantic contexts and anatomical textures. In this work, we present CASTformer, a novel type of adversarial transformers, for 2D medical image segmentation. First, we take advantage of the pyramid structure to construct multi-scale representations and handle multi-scale variations. We then design a novel class-aware transformer module to better learn the discriminative regions of objects with semantic structures. Lastly, we utilize an adversarial training strategy that boosts segmentation accuracy and correspondingly allows a transformer-based discriminator to capture high-level semantically correlated contents and low-level anatomical features. Our experiments demonstrate that CASTformer dramatically outperforms previous state-of-the-art transformer-based approaches on three benchmarks, obtaining 2.54%-5.88% absolute improvements in Dice over previous models. Further qualitative experiments provide a more detailed picture of the model's inner workings, shed light on the challenges in improved transparency, and demonstrate that transfer learning can greatly improve performance and reduce the size of medical image datasets in training, making CASTformer a strong starting point for downstream medical image analysis tasks.
translated by 谷歌翻译
我们提出了ISEGFormer,一种用于交互式图像分割的新型变换器的方法。ISEGFormer由用户单击作为附加输入的现有分段变换器,允许用户交互和迭代地改进分割掩码。
translated by 谷歌翻译
最近,深度学习方法已经在许多医学图像分割任务中实现了最先进的表现。其中许多是基于卷积神经网络(CNN)。对于这种方法,编码器是从输入图像中提取全局和局部信息的关键部分。然后将提取的特征传递给解码器以预测分割。相比之下,最近的几部作品显示了使用变压器的卓越性能,可以更好地对远程空间依赖性进行建模并捕获低级细节。但是,对于某些任务无法有效替换基于卷积的编码器的某些任务,变形金刚作为唯一的编码器表现不佳。在本文中,我们提出了一个带有双重编码器的模型,用于3D生物医学图像分割。我们的模型是带有独立变压器编码器的U形CNN。我们融合了卷积编码器和变压器的信息,并将其传递给解码器以获得结果。我们从三个不同的挑战中评估了三个公共数据集上的方法:BTCV,MODA和DECHANLON。与在每个任务上有和没有变压器的最先进模型相比,我们提出的方法在整个方面都获得了更高的骰子分数。
translated by 谷歌翻译
本文提出了一种用于体积医学图像分割的变压器架构。设计用于体积分割的计算高效的变压器架构是一个具有挑战性的任务。它需要在编码本地和全局空间线索中保持复杂的平衡,并沿着体积数据的所有轴保留信息。所提出的体积变压器具有U形编码器解码器设计,其整体处理输入体素。我们的编码器具有两个连续的自我注意层,同时编码本地和全球性提示,我们的解码器具有基于新颖的并联窗口的自我和跨关注块,以通过归类傅立叶位置编码来捕获边界改进的精细细节。我们所提出的设计选择导致计算上有效的架构,其表明脑肿瘤分割(BRATS)2021的有希望的结果,以及用于肿瘤细分的医学分割牌照(胰腺和肝脏)数据集。我们进一步表明,我们的模型在数据集中传输了更好的地传输的表示,并且对数据损坏具有稳健性。 \ href {https://github.com/himashi92/vt-unet} {我们的代码实现是公开可用的}。
translated by 谷歌翻译