智能论文笔记

3DConvCaps: 3DUnet with Convolutional Capsule Encoder for Medical Image Segmentation

Minh Tran , Viet-Khoa Vo-Ho , Ngan T. H. Le

分类：计算机视觉

2022-05-19

卷积神经网络（CNN）已在医学图像分割方面取得了有希望的结果。但是，CNN需要大量的培训数据，并且无法处理姿势和对象的变形。此外，它们的合并层倾向于丢弃重要信息，例如位置以及CNN对旋转和仿射转化敏感。胶囊网络是一种最新的新体系结构，通过用动态路由和卷积步伐替换池层来实现零件整体表示学习的更好的鲁棒性，这在流行任务（例如数字分类和对象细分）上显示了潜在的结果。在本文中，我们提出了一个带有卷积胶囊编码器（称为3DConvCaps）的3D编码器网络，以学习具有卷积层的低级特征（短距离注意），同时用胶囊建模更高级别的特征（远程依赖）层。我们在包括ISEG-2017，Hippocampus和Cardiac在内的多个数据集上进行的实验表明，我们的3D 3DConvcaps网络的表现非常优于先前的胶囊网络和3D-UNET。我们进一步进行了在卷积层和胶囊层的各种配置下在合同和扩展路径的各种配置下进行网络效率和分割性能的消融研究。

translated by 谷歌翻译

DAM-AL: Dilated Attention Mechanism with Attention Loss for 3D Infant Brain Image Segmentation

Dinh-Hieu Hoang , Gia-Han Diep , Minh-Triet Tran , Ngan T. H Le

分类：计算机视觉

2021-12-27

虽然磁共振成像（MRI）在婴儿脑分析中发挥了重要作用，但是将MRI分段为许多组织，例如灰质（GM），白质（WM）和脑脊液（CSF）是至关重要的，并且由于组织之间的极低强度对比度在6-9个月的年龄约6-9个月之间以及扩增的噪声，髓鞘，不完全体积。在本文中，我们通过开发一个名为Dam-al的新的深层学习模型来解决这些限制，其中包含两个主要贡献，即扩张注意机制和难以案例的注意力。我们的Dam-Al网络设计有跳过块层和焦点卷积。它在低级空间结构特征下，它在高级上下文特征和空间注意中包含通道。我们的注意力损失由与地区信息和硬样品对应的两个术语组成。我们拟议的Dam-Al已经在婴儿脑ISEG 2017数据集上进行了评估，并且在验证和测试集中进行了实验。我们在骰子系数和ASD指标上进行了基准测试了Dam-AL，并将其与最先进的方法进行了比较。

translated by 谷歌翻译

UNETR: Transformers for 3D Medical Image Segmentation

Ali Hatamizadeh , Yucheng Tang , Vishwesh Nath , Dong Yang , Andriy Myronenko , Bennett Landman , Holger Roth , Daguang Xu

分类：

2021-03-18

Fully Convolutional Neural Networks (FCNNs) with contracting and expanding paths have shown prominence for the majority of medical image segmentation applications since the past decade. In FCNNs, the encoder plays an integral role by learning both global and local features and contextual representations which can be utilized for semantic output prediction by the decoder. Despite their success, the locality of convolutional layers in FCNNs, limits the capability of learning long-range spatial dependencies. Inspired by the recent success of transformers for Natural Language Processing (NLP) in long-range sequence learning, we reformulate the task of volumetric (3D) medical image segmentation as a sequence-to-sequence prediction problem. We introduce a novel architecture, dubbed as UNEt TRansformers (UNETR), that utilizes a transformer as the encoder to learn sequence representations of the input volume and effectively capture the global multi-scale information, while also following the successful "U-shaped" network design for the encoder and decoder. The transformer encoder is directly connected to a decoder via skip connections at different resolutions to compute the final semantic segmentation output. We have validated the performance of our method on the Multi Atlas Labeling Beyond The Cranial Vault (BTCV) dataset for multiorgan segmentation and the Medical Segmentation Decathlon (MSD) dataset for brain tumor and spleen segmentation tasks. Our benchmarks demonstrate new state-of-the-art performance on the BTCV leaderboard. Code: https://monai.io/research/unetr

translated by 谷歌翻译

Medical Image Segmentation Using Deep Learning: A Survey

Risheng Wang , Tao Lei , Ruixia Cui , Bingtao Zhang , Hongying Meng , Asoke K. Nandi

分类：计算机视觉

2020-09-28

深度学习已被广泛用于医学图像分割，并且录制了录制了该领域深度学习的成功的大量论文。在本文中，我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先，与传统调查相比，直接将深度学习的文献分成医学图像分割的文学，并为每组详细介绍了文献，我们根据从粗略到精细的多级结构分类目前流行的文献。其次，本文侧重于监督和弱监督的学习方法，而不包括无监督的方法，因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法，我们分析了三个方面的文献：骨干网络的选择，网络块的设计，以及损耗功能的改进。对于虚弱的学习方法，我们根据数据增强，转移学习和交互式分割进行调查文献。与现有调查相比，本调查将文献分类为比例不同，更方便读者了解相关理由，并将引导他们基于深度学习方法思考医学图像分割的适当改进。

translated by 谷歌翻译

A Data-scalable Transformer for Medical Image Segmentation: Architecture, Model Efficiency, and Benchmark

Yunhe Gao , Mu Zhou , Di Liu , Zhennan Yan , Shaoting Zhang , Dimitris N. Metaxas

分类：计算机视觉

2022-02-28

作为新一代神经体系结构的变形金刚在自然语言处理和计算机视觉方面表现出色。但是，现有的视觉变形金刚努力使用有限的医学数据学习，并且无法概括各种医学图像任务。为了应对这些挑战，我们将Medformer作为数据量表变压器呈现为可推广的医学图像分割。关键设计结合了理想的电感偏差，线性复杂性的层次建模以及以空间和语义全局方式以线性复杂性的关注以及多尺度特征融合。 Medformer可以在不预训练的情况下学习微小至大规模的数据。广泛的实验表明，Medformer作为一般分割主链的潜力，在三个具有多种模式（例如CT和MRI）和多样化的医学靶标（例如，健康器官，疾病，疾病组织和肿瘤）的三个公共数据集上优于CNN和视觉变压器。我们将模型和评估管道公开可用，为促进广泛的下游临床应用提供固体基线和无偏比较。

translated by 谷歌翻译

UNesT: Local Spatial Representation Learning with Hierarchical Transformer for Efficient Medical Segmentation

Xin Yu , Qi Yang , Yinchi Zhou , Leon Y. Cai , Riqiang Gao , Ho Hin Lee , Thomas Li , Shunxing Bao , Zhoubing Xu , Thomas A. Lasko

分类：计算机视觉

2022-09-28

Transformer-based models, capable of learning better global dependencies, have recently demonstrated exceptional representation learning capabilities in computer vision and medical image analysis. Transformer reformats the image into separate patches and realize global communication via the self-attention mechanism. However, positional information between patches is hard to preserve in such 1D sequences, and loss of it can lead to sub-optimal performance when dealing with large amounts of heterogeneous tissues of various sizes in 3D medical image segmentation. Additionally, current methods are not robust and efficient for heavy-duty medical segmentation tasks such as predicting a large number of tissue classes or modeling globally inter-connected tissues structures. Inspired by the nested hierarchical structures in vision transformer, we proposed a novel 3D medical image segmentation method (UNesT), employing a simplified and faster-converging transformer encoder design that achieves local communication among spatially adjacent patch sequences by aggregating them hierarchically. We extensively validate our method on multiple challenging datasets, consisting anatomies of 133 structures in brain, 14 organs in abdomen, 4 hierarchical components in kidney, and inter-connected kidney tumors). We show that UNesT consistently achieves state-of-the-art performance and evaluate its generalizability and data efficiency. Particularly, the model achieves whole brain segmentation task complete ROI with 133 tissue classes in single network, outperforms prior state-of-the-art method SLANT27 ensembled with 27 network tiles, our model performance increases the mean DSC score of the publicly available Colin and CANDI dataset from 0.7264 to 0.7444 and from 0.6968 to 0.7025, respectively.

translated by 谷歌翻译

Beyond CNNs: Exploiting Further Inherent Symmetries in Medical Image Segmentation

Shuchao Pang , Anan Du , Mehmet A. Orgun , Yan Wang , Quan Z. Sheng , Shoujin Wang , Xiaoshui Huang , Zhenmei Yu

分类：计算机视觉 | 机器学习

2022-07-29

自动肿瘤或病变分割是用于计算机辅助诊断的医学图像分析的关键步骤。尽管基于卷积神经网络（CNN）的现有方法已经达到了最先进的表现，但医疗肿瘤分割中仍然存在许多挑战。这是因为，尽管人类视觉系统可以有效地检测到2D图像中的对称性，但常规CNN只能利用翻译不变性，忽略医学图像中存在的进一步固有的对称性，例如旋转和反射。为了解决这个问题，我们通过编码那些固有的对称性来学习更精确的表示形式，提出了一个新型的群体模棱两可的分割框架。首先，在每个方向上都设计了基于内核的模棱两可的操作，这使其能够有效地解决现有方法中学习对称性的差距。然后，为了保持全球分割网络，我们设计具有层面对称性约束的独特组层。最后，基于我们的新框架，对现实世界临床数据进行的广泛实验表明，一个群体含量的res-unet（名为GER-UNET）优于其基于CNN的常规对应物，并且在最新的分段方法中优于其最新的分段方法。肝肿瘤分割，COVID-19肺部感染分割和视网膜血管检测的任务。更重要的是，新建的GER-UNET还显示出在降低样品复杂性和过滤器的冗余，升级当前分割CNN和划定器官上的其他医学成像方式上的潜力。

translated by 谷歌翻译

NestedFormer: Nested Modality-Aware Transformer for Brain Tumor Segmentation

Zhaohu Xing , Lequan Yu , Liang Wan , Tong Han , Lei Zhu

分类：计算机视觉

2022-08-31

多模式MR成像通常用于临床实践中，以通过提供丰富的互补信息来诊断和研究脑肿瘤。以前的多模式MRI分割方法通常通过在网络的早期/中阶段连接多模式MRIS来执行模态融合，这几乎无法探索模态之间的非线性依赖性。在这项工作中，我们提出了一种新型的嵌套模态感知变压器（嵌套形式），以明确探索多模式MRIS在脑肿瘤分割中的模式内和模式间关系。我们建立在基于变压器的多模型和单一码头结构的基础上，我们对不同模式的高级表示进行嵌套的多模式融合，并在较低的尺度上应用对模态敏感的门控（MSG），以进行更有效的跳过连接。具体而言，多模式融合是在我们提出的嵌套模态感知特征聚合（NMAFA）模块中进行的，该模块通过三个方向的空间意见变压器增强了单个模态内的长期依赖性，并进一步补充了模态信息之间的关键情境信息。通过跨模式注意变压器。关于BRATS2020基准和私人脑膜瘤细分（Maniseg）数据集的广泛实验表明，嵌套形式显然比最先进的表现优于最先进的。该代码可从https://github.com/920232796/nestedformer获得。

translated by 谷歌翻译

HTML版本

Med-DANet: Dynamic Architecture Network for Efficient Medical Volumetric Segmentation

Wenxuan Wang , Chen Chen , Jing Wang , Sen Zha , Yan Zhang , Jiangyun Li

分类：计算机视觉

2022-06-14

对于3D医学图像（例如CT和MRI）分割，在临床情况下分割每个切片的难度差异很大。先前以逐片方式进行体积医学图像分割的研究通常使用相同的2D深神经网络来细分同一情况的所有切片，从而忽略了图像切片之间的数据异质性。在本文中，我们专注于多模式3D MRI脑肿瘤分割，并根据自适应模型选择提出了一个名为MED-DANET的动态体系结构网络，以实现有效的准确性和效率折衷。对于输入3D MRI量的每个切片，我们提出的方法学习了决策网络的特定于切片的决策，以动态从预定义的模型库中选择合适的模型，以完成后续的2D分割任务。 Brats 2019和2020年数据集的广泛实验结果表明，我们提出的方法比以前的3D MRI脑肿瘤分割的最先进方法获得了可比或更好的结果，模型的复杂性要少得多。与最新的3D方法TransBT相比，提出的框架提高了模型效率高达3.5倍，而无需牺牲准确性。我们的代码将很快公开可用。

translated by 谷歌翻译

Deep and Statistical Learning in Biomedical Imaging: State of the Art in 3D MRI Brain Tumor Segmentation

K. Ruwani M. Fernando , Chris P. Tsokos

分类：计算机视觉

2021-03-09

Clinical diagnostic and treatment decisions rely upon the integration of patient-specific data with clinical reasoning. Cancer presents a unique context that influence treatment decisions, given its diverse forms of disease evolution. Biomedical imaging allows noninvasive assessment of disease based on visual evaluations leading to better clinical outcome prediction and therapeutic planning. Early methods of brain cancer characterization predominantly relied upon statistical modeling of neuroimaging data. Driven by the breakthroughs in computer vision, deep learning became the de facto standard in the domain of medical imaging. Integrated statistical and deep learning methods have recently emerged as a new direction in the automation of the medical practice unifying multi-disciplinary knowledge in medicine, statistics, and artificial intelligence. In this study, we critically review major statistical and deep learning models and their applications in brain imaging research with a focus on MRI-based brain tumor segmentation. The results do highlight that model-driven classical statistics and data-driven deep learning is a potent combination for developing automated systems in clinical oncology.

translated by 谷歌翻译

D-Former: A U-shaped Dilated Transformer for 3D Medical Image Segmentation

Yixuan Wu , Kuanlun Liao , Jintai Chen , Danny Z. Chen , Jinhong Wang , Honghao Gao , Jian Wu

分类：计算机视觉 | 人工智能

2022-01-03

计算机辅助医学图像分割已广泛应用于诊断和治疗，以获得靶器官和组织的形状和体积的临床有用信息。在过去的几年中，基于卷积神经网络（CNN）的方法（例如，U-Net）占主导地位，但仍遭受了不足的远程信息捕获。因此，最近的工作提出了用于医学图像分割任务的计算机视觉变压器变体，并获得了有希望的表现。这种变压器通过计算配对贴片关系来模拟远程依赖性。然而，它们促进了禁止的计算成本，尤其是在3D医学图像（例如，CT和MRI）上。在本文中，我们提出了一种称为扩张变压器的新方法，该方法在本地和全球范围内交替捕获的配对贴片关系进行自我关注。灵感来自扩张卷积核，我们以扩张的方式进行全球自我关注，扩大接收领域而不增加所涉及的斑块，从而降低计算成本。基于这种扩展变压器的设计，我们构造了一个用于3D医学图像分割的U形编码器解码器分层体系结构。 Synapse和ACDC数据集的实验表明，我们的D-Ager Model从头开始培训，以低计算成本从划痕训练，优于各种竞争力的CNN或基于变压器的分段模型，而不耗时的每训练过程。

translated by 谷歌翻译

Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image Analysis

Yucheng Tang , Dong Yang , Wenqi Li , Holger Roth , Bennett Landman , Daguang Xu , Vishwesh Nath , Ali Hatamizadeh

分类：计算机视觉 | 人工智能 | 机器学习

2021-11-29

视觉变形金刚（VIT）S表现出可观的全球和本地陈述的自我监督学习表现，可以转移到下游应用程序。灵感来自这些结果，我们介绍了一种新的自我监督学习框架，具有用于医学图像分析的定制代理任务。具体而言，我们提出：（i）以新的3D变压器为基础的型号，被称为往返变压器（Swin Unet），具有分层编码器，用于自我监督的预训练; （ii）用于学习人类解剖学潜在模式的定制代理任务。我们展示了来自各种身体器官的5,050个公共可用的计算机断层扫描（CT）图像的提出模型的成功预培训。通过微调超出颅穹窿（BTCV）分割挑战的预先调整训练模型和来自医疗细分牌组（MSD）数据集的分割任务，通过微调训练有素的模型来验证我们的方法的有效性。我们的模型目前是MSD和BTCV数据集的公共测试排行榜上的最先进的（即第1号）。代码：https://monai.io/research/swin-unetr.

translated by 谷歌翻译

CAT-Net: A Cross-Slice Attention Transformer Model for Prostate Zonal Segmentation in MRI

Alex Ling Yu Hung , Haoxin Zheng , Qi Miao , Steven S. Raman , Demetri Terzopoulos , Kyunghyun Sung

分类：计算机视觉

2022-03-29

前列腺癌是美国男性癌症死亡的第二大原因。前列腺MRI的诊断通常依赖于准确的前列腺区域分割。但是，最新的自动分割方法通常无法产生前列腺区域的含有良好的体积分割，因为某些切片的前列腺MRI（例如碱基和顶点片）比其他切片更难分割。可以通过考虑相邻切片之间的跨片段关系来克服这一困难，但是当前的方法不能完全学习和利用这种关系。在本文中，我们提出了一种新型的跨板夹心注意机制，我们在变压器模块中使用该机制，以系统地学习不同尺度的跨斜纹关系。该模块可以在任何基于Skip Connections的现有基于学习的细分框架中使用。实验表明，我们的跨板块注意力能够捕获前列腺区域分割中的跨板片信息，并提高当前最新方法的性能。我们的方法提高了外围区域的分割精度，从而使所有前列腺切片（Apex，Mid-Gland和Base）的分割结果保持一致。

translated by 谷歌翻译

Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images

Ali Hatamizadeh , Vishwesh Nath , Yucheng Tang , Dong Yang , Holger Roth , Daguang Xu

分类：计算机视觉 | 机器学习

2022-01-04

脑肿瘤的语义分割是一个基本的医学图像分析任务，涉及多个MRI成像方式，可以帮助临床医生诊断患者并先后研究恶性实体的进展。近年来，完全卷积神经网络（FCNNS）方法已成为3D医学图像分割的事实标准。受欢迎的“U形”网络架构在不同的2D和3D语义分割任务和各种成像方式上实现了最先进的性能基准。然而，由于FCNNS中的卷积层的核心大小有限，它们的建模远程信息的性能是次优的，这可能导致具有可变尺寸的肿瘤分割的缺陷。另一方面，变压器模型在捕获多个域中的这种远程信息，包括自然语言处理和计算机视觉中的卓越功能。灵感来自视觉变形金刚的成功及其变体，我们提出了一种新的分割模型，被称为往返博物馆变压器（Swin Unet）。具体地，3D脑肿瘤语义分割的任务被重新重整为序列预测问题的序列，其中多模态输入数据被投射到嵌入的1D序列并用作作为编码器的分层SWIN变压器的输入。 SWIN变压器编码器通过利用移位窗口来提取五个不同分辨率的特征，以通过跳过连接在每个分辨率下连接到每个分辨率的基于FCNN的解码器。我们参与了Brats 2021分割挑战，我们所提出的模型在验证阶段的最佳方法中排名。代码：https://monai.io/research/swin-unetr.

translated by 谷歌翻译

Deep Learning Based Brain Tumor Segmentation: A Survey

Zhihua Liu , Lei Tong , Zheheng Jiang , Long Chen , Feixiang Zhou , Qianni Zhang , Xiangrong Zhang , Yaochu Jin , Huiyu Zhou

分类：计算机视觉

2020-07-18

脑肿瘤分割是医学图像分析中最具挑战性问题之一。脑肿瘤细分的目标是产生准确描绘脑肿瘤区域。近年来，深入学习方法在解决各种计算机视觉问题时表现出了有希望的性能，例如图像分类，对象检测和语义分割。基于深度学习的方法已经应用于脑肿瘤细分并取得了有希望的结果。考虑到最先进技术所制作的显着突破，我们使用本调查来提供最近开发的深层学习脑肿瘤分割技术的全面研究。在本次调查中选择并讨论了100多篇科学论文，广泛地涵盖了网络架构设计，在不平衡条件下的细分等技术方面，以及多种方式流程。我们还为未来的发展方向提供了富有洞察力的讨论。

translated by 谷歌翻译

CKD-TransBTS: Clinical Knowledge-Driven Hybrid Transformer with Modality-Correlated Cross-Attention for Brain Tumor Segmentation

Jianwei Lin , Jiatai Lin , Cheng Lu , Hao Chen , Huan Lin , Bingchao Zhao , Zhenwei Shi , Bingjiang Qiu , Xipeng Pan , Zeyan Xu

分类：计算机视觉

2022-07-15

磁共振图像（MRI）中的脑肿瘤分割（BTS）对于脑肿瘤诊断，癌症管理和研究目的至关重要。随着十年小型挑战的巨大成功以及CNN和Transformer算法的进步，已经提出了许多出色的BTS模型来解决BTS在不同技术方面的困难。但是，现有研究几乎没有考虑如何以合理的方式融合多模式图像。在本文中，我们利用了放射科医生如何从多种MRI模态诊断脑肿瘤的临床知识，并提出了一种称为CKD-TRANSBTS的临床知识驱动的脑肿瘤分割模型。我们没有直接串联所有模式，而是通过根据MRI的成像原理将输入方式分为两组来重新组织输入方式。具有拟议模态相关的跨意义块（MCCA）的双支支混合式编码器旨在提取多模式图像特征。所提出的模型以局部特征表示能力的能力来继承来自变压器和CNN的强度，以提供精确的病变边界和3D体积图像的远程特征提取。为了弥合变压器和CNN功能之间的间隙，我们提出了解码器中的反式和CNN功能校准块（TCFC）。我们将提出的模型与五个基于CNN的模型和六个基于Transformer的模型在Brats 2021挑战数据集上进行了比较。广泛的实验表明，与所有竞争对手相比，所提出的模型可实现最先进的脑肿瘤分割性能。

translated by 谷歌翻译

A Transformer-based Generative Adversarial Network for Brain Tumor Segmentation

Liqun Huang , Long Chen , Baihai Zhang , Senchun Chai

分类：机器学习

2022-07-28

在医学图像分割任务中，脑肿瘤分割仍然是一个挑战。随着变压器在各种计算机视觉任务中的应用，变压器块显示了在全球空间中学习长距离依赖性的能力，这是与CNN互补的。在本文中，我们提出了一个新型的基于变压器的生成对抗网络，以自动分割具有多模式MRI的脑肿瘤。我们的架构由一个发电机和一个歧视器组成，这些发电机和歧视器接受了最小游戏进度的培训。发电机基于典型的“ U形”编码器架构，其底层由带有Resnet的变压器块组成。此外，发电机还接受了深度监督技术的培训。我们设计的鉴别器是一个基于CNN的网络，具有多尺度$ L_ {1} $损失，事实证明，这对于医学语义图像分割是有效的。为了验证我们方法的有效性，我们对BRATS2015数据集进行了实验，比以前的最新方法实现了可比或更好的性能。

translated by 谷歌翻译

Modality specific U-Net variants for biomedical image segmentation: A survey

Narinder Singh Punn , Sonali Agarwal

分类：计算机视觉

2021-07-09

随着深度学习方法的进步，如深度卷积神经网络，残余神经网络，对抗网络的进步。 U-Net架构最广泛利用生物医学图像分割，以解决目标区域或子区域的识别和检测的自动化。在最近的研究中，基于U-Net的方法在不同应用中显示了最先进的性能，以便在脑肿瘤，肺癌，阿尔茨海默，乳腺癌等疾病的早期诊断和治疗中发育计算机辅助诊断系统等，使用各种方式。本文通过描述U-Net框架来提出这些方法的成功，然后通过执行1）型号的U-Net变体进行综合分析，2）模特内分类，建立更好的见解相关的挑战和解决方案。此外，本文还强调了基于U-Net框架在持续的大流行病，严重急性呼吸综合征冠状病毒2（SARS-COV-2）中的贡献也称为Covid-19。最后，分析了这些U-Net变体的优点和相似性以及生物医学图像分割所涉及的挑战，以发现该领域的未来未来的研究方向。

translated by 谷歌翻译

BCS-Net: Boundary, Context and Semantic for Automatic COVID-19 Lung Infection Segmentation from CT Images

Runmin Cong , Haowei Yang , Qiuping Jiang , Wei Gao , Haisheng Li , Cong Wang , Yao Zhao , Sam Kwong

分类：计算机视觉

2022-07-17

Covid-19的传播给世界带来了巨大的灾难，自动分割感染区域可以帮助医生快速诊断并减少工作量。但是，准确和完整的分割面临一些挑战，例如散射的感染区分布，复杂的背景噪声和模糊的分割边界。为此，在本文中，我们提出了一个新的网络，用于从CT图像（名为BCS-NET）的自动covid-19肺部感染分割，该网络考虑了边界，上下文和语义属性。 BCS-NET遵循编码器架构，更多的设计集中在解码器阶段，该阶段包括三个逐渐边界上下文 - 语义重建（BCSR）块。在每个BCSR块中，注意引导的全局上下文（AGGC）模块旨在通过突出显示重要的空间和边界位置并建模全局上下文依赖性来学习解码器最有价值的编码器功能。此外，语义指南（SG）单元通过在中间分辨率上汇总多规模的高级特征来生成语义指南图来完善解码器特征。广泛的实验表明，我们提出的框架在定性和定量上都优于现有竞争对手。

translated by 谷歌翻译

TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism for a Deep Segmentation Model

Reza Azad , Mohammad T. AL-Antary , Moein Heidari , Dorit Merhof

分类：计算机视觉

2022-07-27

在过去的几年中，卷积神经网络（CNN），尤其是U-NET，一直是医学图像处理时代的流行技术。具体而言，开创性的U-NET及其替代方案成功地设法解决了各种各样的医学图像分割任务。但是，这些体系结构在本质上是不完美的，因为它们无法表现出长距离相互作用和空间依赖性，从而导致具有可变形状和结构的医学图像分割的严重性能下降。针对序列到序列预测的初步提议的变压器已成为替代体系结构，以精确地模拟由自我激进机制辅助的全局信息。尽管设计了可行的设计，但利用纯变压器来进行图像分割目的，可能导致限制的定位容量，导致低级功能不足。因此，一系列研究旨在设计基于变压器的U-NET的强大变体。在本文中，我们提出了Trans-Norm，这是一种新型的深层分割框架，它随同将变压器模块合并为标准U-NET的编码器和跳过连接。我们认为，跳过连接的方便设计对于准确的分割至关重要，因为它可以帮助扩展路径和收缩路径之间的功能融合。在这方面，我们从变压器模块中得出了一种空间归一化机制，以适应性地重新校准跳过连接路径。对医学图像分割的三个典型任务进行了广泛的实验，证明了透气的有效性。代码和训练有素的模型可在https://github.com/rezazad68/transnorm上公开获得。

translated by 谷歌翻译