Fully Convolutional Neural Networks (FCNNs) with contracting and expanding paths have shown prominence for the majority of medical image segmentation applications since the past decade. In FCNNs, the encoder plays an integral role by learning both global and local features and contextual representations which can be utilized for semantic output prediction by the decoder. Despite their success, the locality of convolutional layers in FCNNs, limits the capability of learning long-range spatial dependencies. Inspired by the recent success of transformers for Natural Language Processing (NLP) in long-range sequence learning, we reformulate the task of volumetric (3D) medical image segmentation as a sequence-to-sequence prediction problem. We introduce a novel architecture, dubbed as UNEt TRansformers (UNETR), that utilizes a transformer as the encoder to learn sequence representations of the input volume and effectively capture the global multi-scale information, while also following the successful "U-shaped" network design for the encoder and decoder. The transformer encoder is directly connected to a decoder via skip connections at different resolutions to compute the final semantic segmentation output. We have validated the performance of our method on the Multi Atlas Labeling Beyond The Cranial Vault (BTCV) dataset for multiorgan segmentation and the Medical Segmentation Decathlon (MSD) dataset for brain tumor and spleen segmentation tasks. Our benchmarks demonstrate new state-of-the-art performance on the BTCV leaderboard. Code: https://monai.io/research/unetr
translated by 谷歌翻译
脑肿瘤的语义分割是一个基本的医学图像分析任务,涉及多个MRI成像方式,可以帮助临床医生诊断患者并先后研究恶性实体的进展。近年来,完全卷积神经网络(FCNNS)方法已成为3D医学图像分割的事实标准。受欢迎的“U形”网络架构在不同的2D和3D语义分割任务和各种成像方式上实现了最先进的性能基准。然而,由于FCNNS中的卷积层的核心大小有限,它们的建模远程信息的性能是次优的,这可能导致具有可变尺寸的肿瘤分割的缺陷。另一方面,变压器模型在捕获多个域中的这种远程信息,包括自然语言处理和计算机视觉中的卓越功能。灵感来自视觉变形金刚的成功及其变体,我们提出了一种新的分割模型,被称为往返博物馆变压器(Swin Unet)。具体地,3D脑肿瘤语义分割的任务被重新重整为序列预测问题的序列,其中多模态输入数据被投射到嵌入的1D序列并用作作为编码器的分层SWIN变压器的输入。 SWIN变压器编码器通过利用移位窗口来提取五个不同分辨率的特征,以通过跳过连接在每个分辨率下连接到每个分辨率的基于FCNN的解码器。我们参与了Brats 2021分割挑战,我们所提出的模型在验证阶段的最佳方法中排名。代码:https://monai.io/research/swin-unetr.
translated by 谷歌翻译
视觉变形金刚(VIT)S表现出可观的全球和本地陈述的自我监督学习表现,可以转移到下游应用程序。灵感来自这些结果,我们介绍了一种新的自我监督学习框架,具有用于医学图像分析的定制代理任务。具体而言,我们提出:(i)以新的3D变压器为基础的型号,被称为往返变压器(Swin Unet),具有分层编码器,用于自我监督的预训练; (ii)用于学习人类解剖学潜在模式的定制代理任务。我们展示了来自各种身体器官的5,050个公共可用的计算机断层扫描(CT)图像的提出模型的成功预培训。通过微调超出颅穹窿(BTCV)分割挑战的预先调整训练模型和来自医疗细分牌组(MSD)数据集的分割任务,通过微调训练有素的模型来验证我们的方法的有效性。我们的模型目前是MSD和BTCV数据集的公共测试排行榜上的最先进的(即第1号)。代码:https://monai.io/research/swin-unetr.
translated by 谷歌翻译
Transformer-based models, capable of learning better global dependencies, have recently demonstrated exceptional representation learning capabilities in computer vision and medical image analysis. Transformer reformats the image into separate patches and realize global communication via the self-attention mechanism. However, positional information between patches is hard to preserve in such 1D sequences, and loss of it can lead to sub-optimal performance when dealing with large amounts of heterogeneous tissues of various sizes in 3D medical image segmentation. Additionally, current methods are not robust and efficient for heavy-duty medical segmentation tasks such as predicting a large number of tissue classes or modeling globally inter-connected tissues structures. Inspired by the nested hierarchical structures in vision transformer, we proposed a novel 3D medical image segmentation method (UNesT), employing a simplified and faster-converging transformer encoder design that achieves local communication among spatially adjacent patch sequences by aggregating them hierarchically. We extensively validate our method on multiple challenging datasets, consisting anatomies of 133 structures in brain, 14 organs in abdomen, 4 hierarchical components in kidney, and inter-connected kidney tumors). We show that UNesT consistently achieves state-of-the-art performance and evaluate its generalizability and data efficiency. Particularly, the model achieves whole brain segmentation task complete ROI with 133 tissue classes in single network, outperforms prior state-of-the-art method SLANT27 ensembled with 27 network tiles, our model performance increases the mean DSC score of the publicly available Colin and CANDI dataset from 0.7264 to 0.7444 and from 0.6968 to 0.7025, respectively.
translated by 谷歌翻译
Convolutional Neural Networks (CNNs) with U-shaped architectures have dominated medical image segmentation, which is crucial for various clinical purposes. However, the inherent locality of convolution makes CNNs fail to fully exploit global context, essential for better recognition of some structures, e.g., brain lesions. Transformers have recently proven promising performance on vision tasks, including semantic segmentation, mainly due to their capability of modeling long-range dependencies. Nevertheless, the quadratic complexity of attention makes existing Transformer-based models use self-attention layers only after somehow reducing the image resolution, which limits the ability to capture global contexts present at higher resolutions. Therefore, this work introduces a family of models, dubbed Factorizer, which leverages the power of low-rank matrix factorization for constructing an end-to-end segmentation model. Specifically, we propose a linearly scalable approach to context modeling, formulating Nonnegative Matrix Factorization (NMF) as a differentiable layer integrated into a U-shaped architecture. The shifted window technique is also utilized in combination with NMF to effectively aggregate local information. Factorizers compete favorably with CNNs and Transformers in terms of accuracy, scalability, and interpretability, achieving state-of-the-art results on the BraTS dataset for brain tumor segmentation and ISLES'22 dataset for stroke lesion segmentation. Highly meaningful NMF components give an additional interpretability advantage to Factorizers over CNNs and Transformers. Moreover, our ablation studies reveal a distinctive feature of Factorizers that enables a significant speed-up in inference for a trained Factorizer without any extra steps and without sacrificing much accuracy. The code and models are publicly available at https://github.com/pashtari/factorizer.
translated by 谷歌翻译
计算机辅助医学图像分割已广泛应用于诊断和治疗,以获得靶器官和组织的形状和体积的临床有用信息。在过去的几年中,基于卷积神经网络(CNN)的方法(例如,U-Net)占主导地位,但仍遭受了不足的远程信息捕获。因此,最近的工作提出了用于医学图像分割任务的计算机视觉变压器变体,并获得了有希望的表现。这种变压器通过计算配对贴片关系来模拟远程依赖性。然而,它们促进了禁止的计算成本,尤其是在3D医学图像(例如,CT和MRI)上。在本文中,我们提出了一种称为扩张变压器的新方法,该方法在本地和全球范围内交替捕获的配对贴片关系进行自我关注。灵感来自扩张卷积核,我们以扩张的方式进行全球自我关注,扩大接收领域而不增加所涉及的斑块,从而降低计算成本。基于这种扩展变压器的设计,我们构造了一个用于3D医学图像分割的U形编码器解码器分层体系结构。 Synapse和ACDC数据集的实验表明,我们的D-Ager Model从头开始培训,以低计算成本从划痕训练,优于各种竞争力的CNN或基于变压器的分段模型,而不耗时的每训练过程。
translated by 谷歌翻译
在医学图像分割任务中,脑肿瘤分割仍然是一个挑战。随着变压器在各种计算机视觉任务中的应用,变压器块显示了在全球空间中学习长距离依赖性的能力,这是与CNN互补的。在本文中,我们提出了一个新型的基于变压器的生成对抗网络,以自动分割具有多模式MRI的脑肿瘤。我们的架构由一个发电机和一个歧视器组成,这些发电机和歧视器接受了最小游戏进度的培训。发电机基于典型的“ U形”编码器架构,其底层由带有Resnet的变压器块组成。此外,发电机还接受了深度监督技术的培训。我们设计的鉴别器是一个基于CNN的网络,具有多尺度$ L_ {1} $损失,事实证明,这对于医学语义图像分割是有效的。为了验证我们方法的有效性,我们对BRATS2015数据集进行了实验,比以前的最新方法实现了可比或更好的性能。
translated by 谷歌翻译
Owing to the success of transformer models, recent works study their applicability in 3D medical segmentation tasks. Within the transformer models, the self-attention mechanism is one of the main building blocks that strives to capture long-range dependencies, compared to the local convolutional-based design. However, the self-attention operation has quadratic complexity which proves to be a computational bottleneck, especially in volumetric medical imaging, where the inputs are 3D with numerous slices. In this paper, we propose a 3D medical image segmentation approach, named UNETR++, that offers both high-quality segmentation masks as well as efficiency in terms of parameters and compute cost. The core of our design is the introduction of a novel efficient paired attention (EPA) block that efficiently learns spatial and channel-wise discriminative features using a pair of inter-dependent branches based on spatial and channel attention. Our spatial attention formulation is efficient having linear complexity with respect to the input sequence length. To enable communication between spatial and channel-focused branches, we share the weights of query and key mapping functions that provide a complimentary benefit (paired attention), while also reducing the overall network parameters. Our extensive evaluations on three benchmarks, Synapse, BTCV and ACDC, reveal the effectiveness of the proposed contributions in terms of both efficiency and accuracy. On Synapse dataset, our UNETR++ sets a new state-of-the-art with a Dice Similarity Score of 87.2%, while being significantly efficient with a reduction of over 71% in terms of both parameters and FLOPs, compared to the best existing method in the literature. Code: https://github.com/Amshaker/unetr_plus_plus.
translated by 谷歌翻译
卷积神经网络(CNN)已成为医疗图像分割任务的共识。但是,由于卷积操作的性质,它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题,但它们未能捕获低级功能。相比之下,证明本地和全球特征对于密集的预测至关重要,例如在具有挑战性的环境中细分。在本文中,我们提出了一种新型方法,该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言,我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合,我们建议在编码器编码器结构的跳过连接中提出一个双层融合(DLF)模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的,基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取:https://github.com/amirhossein-kz/hiformer
translated by 谷歌翻译
作为新一代神经体系结构的变形金刚在自然语言处理和计算机视觉方面表现出色。但是,现有的视觉变形金刚努力使用有限的医学数据学习,并且无法概括各种医学图像任务。为了应对这些挑战,我们将Medformer作为数据量表变压器呈现为可推广的医学图像分割。关键设计结合了理想的电感偏差,线性复杂性的层次建模以及以空间和语义全局方式以线性复杂性的关注以及多尺度特征融合。 Medformer可以在不预训练的情况下学习微小至大规模的数据。广泛的实验表明,Medformer作为一般分割主链的潜力,在三个具有多种模式(例如CT和MRI)和多样化的医学靶标(例如,健康器官,疾病,疾病组织和肿瘤)的三个公共数据集上优于CNN和视觉变压器。我们将模型和评估管道公开可用,为促进广泛的下游临床应用提供固体基线和无偏比较。
translated by 谷歌翻译
目的:在手术规划之前,CT图像中肝血管的分割是必不可少的,并引起了医学图像分析界的广泛兴趣。由于结构复杂,对比度背景下,自动肝脏血管分割仍然特别具有挑战性。大多数相关的研究采用FCN,U-Net和V-Net变体作为骨干。然而,这些方法主要集中在捕获多尺度局部特征,这可能导致由于卷积运营商有限的地区接收领域而产生错误分类的体素。方法:我们提出了一种强大的端到端血管分割网络,通过将SWIN变压器扩展到3D并采用卷积和自我关注的有效组合,提出了一种被称为电感偏置的多头注意船网(IBIMHAV-NET)的稳健端到端血管分割网络。在实践中,我们介绍了Voxel-Wise嵌入而不是修补程序嵌入,以定位精确的肝脏血管素,并采用多尺度卷积运营商来获得局部空间信息。另一方面,我们提出了感应偏置的多头自我关注,其学习从初始化的绝对位置嵌入的归纳偏置相对位置嵌入嵌入。基于此,我们可以获得更可靠的查询和键矩阵。为了验证我们模型的泛化,我们测试具有不同结构复杂性的样本。结果:我们对3Dircadb数据集进行了实验。四种测试病例的平均骰子和敏感性为74.8%和77.5%,超过现有深度学习方法的结果和改进的图形切割方法。结论:拟议模型IBIMHAV-Net提供一种具有交错架构的自动,精确的3D肝血管分割,可更好地利用CT卷中的全局和局部空间特征。它可以进一步扩展到其他临床数据。
translated by 谷歌翻译
本文提出了一种用于体积医学图像分割的变压器架构。设计用于体积分割的计算高效的变压器架构是一个具有挑战性的任务。它需要在编码本地和全局空间线索中保持复杂的平衡,并沿着体积数据的所有轴保留信息。所提出的体积变压器具有U形编码器解码器设计,其整体处理输入体素。我们的编码器具有两个连续的自我注意层,同时编码本地和全球性提示,我们的解码器具有基于新颖的并联窗口的自我和跨关注块,以通过归类傅立叶位置编码来捕获边界改进的精细细节。我们所提出的设计选择导致计算上有效的架构,其表明脑肿瘤分割(BRATS)2021的有希望的结果,以及用于肿瘤细分的医学分割牌照(胰腺和肝脏)数据集。我们进一步表明,我们的模型在数据集中传输了更好的地传输的表示,并且对数据损坏具有稳健性。 \ href {https://github.com/himashi92/vt-unet} {我们的代码实现是公开可用的}。
translated by 谷歌翻译
使用卷积神经网络(CNN)的最先进的磁共振(MR)图像超分辨率方法(ISR)由于CNN的空间覆盖率有限,因此在有限的上下文信息中利用有限的上下文信息。Vision Transformers(VIT)学习更好的全球环境,这有助于产生优质的HR图像。我们将CNN的本地信息和来自VIT的全局信息结合在一起,以获得图像超级分辨率和输出超级分辨率的图像,这些图像的质量比最先进的方法所产生的质量更高。我们通过多个新颖的损失函数包括额外的约束,这些损失功能将结构和纹理信息从低分辨率到高分辨率图像。
translated by 谷歌翻译
在过去的几年中,卷积神经网络(CNN),尤其是U-NET,一直是医学图像处理时代的流行技术。具体而言,开创性的U-NET及其替代方案成功地设法解决了各种各样的医学图像分割任务。但是,这些体系结构在本质上是不完美的,因为它们无法表现出长距离相互作用和空间依赖性,从而导致具有可变形状和结构的医学图像分割的严重性能下降。针对序列到序列预测的初步提议的变压器已成为替代体系结构,以精确地模拟由自我激进机制辅助的全局信息。尽管设计了可行的设计,但利用纯变压器来进行图像分割目的,可能导致限制的定位容量,导致低级功能不足。因此,一系列研究旨在设计基于变压器的U-NET的强大变体。在本文中,我们提出了Trans-Norm,这是一种新型的深层分割框架,它随同将变压器模块合并为标准U-NET的编码器和跳过连接。我们认为,跳过连接的方便设计对于准确的分割至关重要,因为它可以帮助扩展路径和收缩路径之间的功能融合。在这方面,我们从变压器模块中得出了一种空间归一化机制,以适应性地重新校准跳过连接路径。对医学图像分割的三个典型任务进行了广泛的实验,证明了透气的有效性。代码和训练有素的模型可在https://github.com/rezazad68/transnorm上公开获得。
translated by 谷歌翻译
最近,深度学习方法已经在许多医学图像分割任务中实现了最先进的表现。其中许多是基于卷积神经网络(CNN)。对于这种方法,编码器是从输入图像中提取全局和局部信息的关键部分。然后将提取的特征传递给解码器以预测分割。相比之下,最近的几部作品显示了使用变压器的卓越性能,可以更好地对远程空间依赖性进行建模并捕获低级细节。但是,对于某些任务无法有效替换基于卷积的编码器的某些任务,变形金刚作为唯一的编码器表现不佳。在本文中,我们提出了一个带有双重编码器的模型,用于3D生物医学图像分割。我们的模型是带有独立变压器编码器的U形CNN。我们融合了卷积编码器和变压器的信息,并将其传递给解码器以获得结果。我们从三个不同的挑战中评估了三个公共数据集上的方法:BTCV,MODA和DECHANLON。与在每个任务上有和没有变压器的最先进模型相比,我们提出的方法在整个方面都获得了更高的骰子分数。
translated by 谷歌翻译
Transformers have made remarkable progress towards modeling long-range dependencies within the medical image analysis domain. However, current transformer-based models suffer from several disadvantages: (1) existing methods fail to capture the important features of the images due to the naive tokenization scheme; (2) the models suffer from information loss because they only consider single-scale feature representations; and (3) the segmentation label maps generated by the models are not accurate enough without considering rich semantic contexts and anatomical textures. In this work, we present CASTformer, a novel type of adversarial transformers, for 2D medical image segmentation. First, we take advantage of the pyramid structure to construct multi-scale representations and handle multi-scale variations. We then design a novel class-aware transformer module to better learn the discriminative regions of objects with semantic structures. Lastly, we utilize an adversarial training strategy that boosts segmentation accuracy and correspondingly allows a transformer-based discriminator to capture high-level semantically correlated contents and low-level anatomical features. Our experiments demonstrate that CASTformer dramatically outperforms previous state-of-the-art transformer-based approaches on three benchmarks, obtaining 2.54%-5.88% absolute improvements in Dice over previous models. Further qualitative experiments provide a more detailed picture of the model's inner workings, shed light on the challenges in improved transparency, and demonstrate that transfer learning can greatly improve performance and reduce the size of medical image datasets in training, making CASTformer a strong starting point for downstream medical image analysis tasks.
translated by 谷歌翻译
磁共振图像(MRI)中的脑肿瘤分割(BTS)对于脑肿瘤诊断,癌症管理和研究目的至关重要。随着十年小型挑战的巨大成功以及CNN和Transformer算法的进步,已经提出了许多出色的BTS模型来解决BTS在不同技术方面的困难。但是,现有研究几乎没有考虑如何以合理的方式融合多模式图像。在本文中,我们利用了放射科医生如何从多种MRI模态诊断脑肿瘤的临床知识,并提出了一种称为CKD-TRANSBTS的临床知识驱动的脑肿瘤分割模型。我们没有直接串联所有模式,而是通过根据MRI的成像原理将输入方式分为两组来重新组织输入方式。具有拟议模态相关的跨意义块(MCCA)的双支支混合式编码器旨在提取多模式图像特征。所提出的模型以局部特征表示能力的能力来继承来自变压器和CNN的强度,以提供精确的病变边界和3D体积图像的远程特征提取。为了弥合变压器和CNN功能之间的间隙,我们提出了解码器中的反式和CNN功能校准块(TCFC)。我们将提出的模型与五个基于CNN的模型和六个基于Transformer的模型在Brats 2021挑战数据集上进行了比较。广泛的实验表明,与所有竞争对手相比,所提出的模型可实现最先进的脑肿瘤分割性能。
translated by 谷歌翻译
在过去的十年中,卷积神经网络(Convnets)主导了医学图像分析领域。然而,发现脉搏的性能仍然可以受到它们无法模拟图像中体素之间的远程空间关系的限制。最近提出了众多视力变压器来解决哀悼缺点,在许多医学成像应用中展示最先进的表演。变压器可以是用于图像配准的强烈候选者,因为它们的自我注意机制能够更精确地理解移动和固定图像之间的空间对应。在本文中,我们呈现透射帧,一个用于体积医学图像配准的混合变压器-Cromnet模型。我们还介绍了三种变速器的变形,具有两个散晶变体,确保了拓扑保存的变形和产生良好校准的登记不确定性估计的贝叶斯变体。使用来自两个应用的体积医学图像的各种现有的登记方法和变压器架构进行广泛验证所提出的模型:患者间脑MRI注册和幻影到CT注册。定性和定量结果表明,传输和其变体导致基线方法的实质性改进,展示了用于医学图像配准的变压器的有效性。
translated by 谷歌翻译
多模式MR成像通常用于临床实践中,以通过提供丰富的互补信息来诊断和研究脑肿瘤。以前的多模式MRI分割方法通常通过在网络的早期/中阶段连接多模式MRIS来执行模态融合,这几乎无法探索模态之间的非线性依赖性。在这项工作中,我们提出了一种新型的嵌套模态感知变压器(嵌套形式),以明确探索多模式MRIS在脑肿瘤分割中的模式内和模式间关系。我们建立在基于变压器的多模型和单一码头结构的基础上,我们对不同模式的高级表示进行嵌套的多模式融合,并在较低的尺度上应用对模态敏感的门控(MSG),以进行更有效的跳过连接。具体而言,多模式融合是在我们提出的嵌套模态感知特征聚合(NMAFA)模块中进行的,该模块通过三个方向的空间意见变压器增强了单个模态内的长期依赖性,并进一步补充了模态信息之间的关键情境信息。通过跨模式注意变压器。关于BRATS2020基准和私人脑膜瘤细分(Maniseg)数据集的广泛实验表明,嵌套形式显然比最先进的表现优于最先进的。该代码可从https://github.com/920232796/nestedformer获得。
translated by 谷歌翻译
特征图的分辨率对于医学图像分割至关重要。大多数现有用于医疗图像分割的基于变压器的网络都是U-NET样体系结构,其中包含一个编码器,该编码器利用一系列变压器块将输入医疗图像从高分辨率表示形式转换为低分辨率特征图和解码器这逐渐从低分辨率特征图中恢复了高分辨率表示。与以前的研究不同,在本文中,我们利用高分辨率网络(HRNET)的网络设计样式,用变压器块替换卷积层,并从变压器块生成的不同分辨率特征图中连续交换信息。本文介绍的新基于变压器的网络表示为高分辨率SWIN Transformer网络(HRSTNET)。广泛的实验表明,HRSTNET可以与基于最新的变压器类似于脑肿瘤分割的U-NET样结构(BRATS)2021和Medical Sementation Decathlon的肝数据集实现可比的性能。 HRSTNET代码将在https://github.com/auroua/hrstnet上公开获得。
translated by 谷歌翻译