智能论文笔记

TransFusion: Multi-view Divergent Fusion for Medical Image Segmentation with Transformers

Di Liu , Yunhe Gao , Qilong Zhangli , Ligong Han , Xiaoxiao He , Zhaoyang Xia , Song Wen , Qi Chang , Zhennan Yan , Mu Zhou

分类：计算机视觉

2022-03-21

组合来自多视图图像的信息对于提高自动化方法的疾病诊断方法的性能和鲁棒性至关重要。但是，由于多视图图像的非对齐特性，跨视图的构建相关性和数据融合在很大程度上仍然是一个开放的问题。在这项研究中，我们提出了输血，这是一种基于变压器的体系结构，可使用卷积层和强大的注意机制合并不同的多视图成像信息。特别是，针对丰富的跨视图上下文建模和语义依赖性挖掘，提出了发散的融合注意（DIFA）模块，以解决从不同图像视图中捕获未对齐数据之间的长期相关性的关键问题。我们进一步提出了多尺度注意（MSA），以收集多尺度特征表示的全局对应关系。我们评估了心脏MRI（M \＆MS-2）挑战队列中多疾病，多视图\＆多中心右心室分段的输血。输血表明了针对最先进方法的领先绩效，并为多视图成像集成的新观点打开了稳健的医学图像分割。

translated by 谷歌翻译

A Data-scalable Transformer for Medical Image Segmentation: Architecture, Model Efficiency, and Benchmark

Yunhe Gao , Mu Zhou , Di Liu , Zhennan Yan , Shaoting Zhang , Dimitris N. Metaxas

分类：计算机视觉

2022-02-28

作为新一代神经体系结构的变形金刚在自然语言处理和计算机视觉方面表现出色。但是，现有的视觉变形金刚努力使用有限的医学数据学习，并且无法概括各种医学图像任务。为了应对这些挑战，我们将Medformer作为数据量表变压器呈现为可推广的医学图像分割。关键设计结合了理想的电感偏差，线性复杂性的层次建模以及以空间和语义全局方式以线性复杂性的关注以及多尺度特征融合。 Medformer可以在不预训练的情况下学习微小至大规模的数据。广泛的实验表明，Medformer作为一般分割主链的潜力，在三个具有多种模式（例如CT和MRI）和多样化的医学靶标（例如，健康器官，疾病，疾病组织和肿瘤）的三个公共数据集上优于CNN和视觉变压器。我们将模型和评估管道公开可用，为促进广泛的下游临床应用提供固体基线和无偏比较。

translated by 谷歌翻译

TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical Image Segmentation

Reza Azad , Moein Heidari , Moein Shariatnia , Ehsan Khodapanah Aghdam , Sanaz Karimijafarbigloo , Ehsan Adeli , Dorit Merhof

分类：计算机视觉 | 机器学习

2022-08-01

多年来，卷积神经网络（CNN）已成为多种计算机视觉任务的事实上的标准。尤其是，基于开创性体系结构（例如具有跳过连接的U形模型）或具有金字塔池的Artous卷积的深度神经网络已针对广泛的医学图像分析任务量身定制。此类架构的主要优点是它们容易拘留多功能本地功能。然而，作为一般共识，CNN无法捕获由于卷积操作的固有性能的内在特性而捕获长期依赖性和空间相关性。另外，从全球信息建模中获利的变压器源于自我发项机制，最近在自然语言处理和计算机视觉方面取得了出色的表现。然而，以前的研究证明，局部和全局特征对于密集预测的深层模型至关重要，例如以不同的形状和配置对复杂的结构进行分割。为此，本文提出了TransDeeplab，这是一种新型的DeepLab样纯变压器，用于医学图像分割。具体而言，我们用移动的窗口利用层次旋转式变形器来扩展DeepLabV3并建模非常有用的空间金字塔池（ASPP）模块。对相关文献的彻底搜索结果是，我们是第一个用基于纯变压器模型对开创性DeepLab模型进行建模的人。关于各种医学图像分割任务的广泛实验证明，我们的方法在视觉变压器和基于CNN的方法的合并中表现出色或与大多数当代作品相提并论，并显着降低了模型复杂性。代码和训练有素的模型可在https://github.com/rezazad68/transdeeplab上公开获得

translated by 谷歌翻译

HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

Moein Heidari , Amirhossein Kazerouni , Milad Soltany , Reza Azad , Ehsan Khodapanah Aghdam , Julien Cohen-Adad , Dorit Merhof

分类：计算机视觉 | 人工智能

2022-07-18

卷积神经网络（CNN）已成为医疗图像分割任务的共识。但是，由于卷积操作的性质，它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题，但它们未能捕获低级功能。相比之下，证明本地和全球特征对于密集的预测至关重要，例如在具有挑战性的环境中细分。在本文中，我们提出了一种新型方法，该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言，我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合，我们建议在编码器编码器结构的跳过连接中提出一个双层融合（DLF）模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的，基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取：https：//github.com/amirhossein-kz/hiformer

translated by 谷歌翻译

UCTransNet: Rethinking the Skip Connections in U-Net from a Channel-wise Perspective with Transformer

Haonan Wang , Peng Cao , Jiaqi Wang , Osmar R. Zaiane

分类：计算机视觉 | 机器学习

2021-09-09

最新的语义分段方法采用具有编码器解码器架构的U-Net框架。 U-Net仍然具有挑战性，具有简单的跳过连接方案来模拟全局多尺度上下文：1）由于编码器和解码器级的不兼容功能集的问题，并非每个跳过连接设置都是有效的，甚至一些跳过连接对分割性能产生负面影响; 2）原始U-Net比某些数据集上没有任何跳过连接的U-Net更糟糕。根据我们的调查结果，我们提出了一个名为Uctransnet的新分段框架（在U-Net中的提议CTRANS模块），从引导机制的频道视角。具体地，CTRANS模块是U-NET SKIP连接的替代，其包括与变压器（命名CCT）和子模块通道 - 明智的跨关注进行多尺度信道交叉融合的子模块（命名为CCA）以指导熔融的多尺度通道 - 明智信息，以有效地连接到解码器功能以消除歧义。因此，由CCT和CCA组成的所提出的连接能够替换原始跳过连接以解决精确的自动医学图像分割的语义间隙。实验结果表明，我们的UCTRANSNET产生更精确的分割性能，并通过涉及变压器或U形框架的不同数据集和传统架构的语义分割来实现一致的改进。代码：https：//github.com/mcgregorwwwww/uctransnet。

translated by 谷歌翻译

ScaleFormer: Revisiting the Transformer-based Backbones from a Scale-wise Perspective for Medical Image Segmentation

Huimin Huang , Shiao Xie1 , Lanfen Lin , Yutaro Iwamoto , Xianhua Han , Yen-Wei Chen , Ruofeng Tong

分类：计算机视觉

2022-07-29

最近，已经开发了各种视觉变压器作为对远程依赖性建模的能力。在当前的基于变压器的主骨用于医疗图像分割的骨架中，卷积层被纯变压器替换，或者将变压器添加到最深的编码器中以学习全球环境。但是，从规模的角度来看，主要有两个挑战：（1）尺度内问题：在每个尺度中提取局部全球线索所缺乏的现有方法，这可能会影响小物体的信号传播；（2）尺度间问题：现有方法未能从多个量表中探索独特的信息，这可能会阻碍表示尺寸，形状和位置广泛的对象的表示形式学习。为了解决这些局限性，我们提出了一个新颖的骨干，即比例尺形式，具有两个吸引人的设计：（1）尺度上的尺度内变压器旨在将基于CNN的本地功能与每个尺度中的基于变压器的全球线索相结合，在行和列的全局依赖项上可以通过轻巧的双轴MSA提取。（2）一种简单有效的空间感知尺度变压器旨在以多个尺度之间的共识区域相互作用，该区域可以突出跨尺度依赖性并解决复杂量表的变化。对不同基准测试的实验结果表明，我们的尺度形式的表现优于当前最新方法。该代码可公开可用：https：//github.com/zjugivelab/scaleformer。

translated by 谷歌翻译

D-Former: A U-shaped Dilated Transformer for 3D Medical Image Segmentation

Yixuan Wu , Kuanlun Liao , Jintai Chen , Danny Z. Chen , Jinhong Wang , Honghao Gao , Jian Wu

分类：计算机视觉 | 人工智能

2022-01-03

计算机辅助医学图像分割已广泛应用于诊断和治疗，以获得靶器官和组织的形状和体积的临床有用信息。在过去的几年中，基于卷积神经网络（CNN）的方法（例如，U-Net）占主导地位，但仍遭受了不足的远程信息捕获。因此，最近的工作提出了用于医学图像分割任务的计算机视觉变压器变体，并获得了有希望的表现。这种变压器通过计算配对贴片关系来模拟远程依赖性。然而，它们促进了禁止的计算成本，尤其是在3D医学图像（例如，CT和MRI）上。在本文中，我们提出了一种称为扩张变压器的新方法，该方法在本地和全球范围内交替捕获的配对贴片关系进行自我关注。灵感来自扩张卷积核，我们以扩张的方式进行全球自我关注，扩大接收领域而不增加所涉及的斑块，从而降低计算成本。基于这种扩展变压器的设计，我们构造了一个用于3D医学图像分割的U形编码器解码器分层体系结构。 Synapse和ACDC数据集的实验表明，我们的D-Ager Model从头开始培训，以低计算成本从划痕训练，优于各种竞争力的CNN或基于变压器的分段模型，而不耗时的每训练过程。

translated by 谷歌翻译

Toward Unpaired Multi-modal Medical Image Segmentation via Learning Structured Semantic Consistency

Jie Yang , Ruimao Zhang , Chaoqun Wang , Zhen Li , Xiang Wan , Lingyan Zhang

分类：计算机视觉

2022-06-21

集成多模式数据以改善医学图像分析，最近受到了极大的关注。但是，由于模态差异，如何使用单个模型来处理来自多种模式的数据仍然是一个开放的问题。在本文中，我们提出了一种新的方案，以实现未配对多模式医学图像的更好的像素级分割。与以前采用模式特异性和模态共享模块的以前方法不同，以适应不同方式的外观差异，同时提取共同的语义信息，我们的方法基于具有精心设计的外部注意模块（EAM）的单个变压器来学习在训练阶段，结构化的语义一致性（即语义类表示及其相关性）。在实践中，可以通过分别在模态级别和图像级别实施一致性正则化来逐步实现上述结构化语义一致性。采用了提出的EAM来学习不同尺度表示的语义一致性，并且一旦模型进行了优化，就可以丢弃。因此，在测试阶段，我们只需要为所有模态预测维护一个变压器，这可以很好地平衡模型的易用性和简单性。为了证明所提出的方法的有效性，我们对两个医学图像分割方案进行了实验：（1）心脏结构分割，（2）腹部多器官分割。广泛的结果表明，所提出的方法的表现优于最新方法，甚至通过极有限的训练样本（例如1或3个注释的CT或MRI图像）以一种特定的方式来实现竞争性能。

translated by 谷歌翻译

PHTrans: Parallelly Aggregating Global and Local Representations for Medical Image Segmentation

Wentao Liu , Tong Tian , Weijin Xu , Huihua Yang , Xipeng Pan , Songlin Yan , Lemeng Wang

分类：计算机视觉

2022-03-09

变压器在计算机视觉中的成功吸引了医学成像社区越来越多的关注。特别是对于医学图像细分，已经介绍了许多基于卷积神经网络（CNN）和变压器的出色混合体系结构，并取得了令人印象深刻的性能。但是，将模块化变压器嵌入CNN中的大多数方法都难以发挥其全部潜力。在本文中，我们提出了一种新型的医学图像分割的混合体系结构，称为Phtrans，该架构可与主要构建基块中的变形金刚和CNN杂交，以产生来自全球和本地特征的层次结构表示，并适应性地汇总它们，旨在完全利用其优势以获得更好的优势。细分性能。具体而言，phtrans遵循U形编码器编码器设计，并在深层阶段引入平行的Hybird模块，其中卷积块和经过修改的3D SWIN变压器分别学习本地特征和全局依赖性，然后统一尺寸，统一尺寸输出以实现特征聚合。超出颅库和自动化心脏诊断挑战数据集以外的多ATLA标签的广泛实验结果证实了其有效性，始终超过了最先进的方法。该代码可在以下网址获得：https：//github.com/lseventeen/phtrans。

translated by 谷歌翻译

CAT-Net: A Cross-Slice Attention Transformer Model for Prostate Zonal Segmentation in MRI

Alex Ling Yu Hung , Haoxin Zheng , Qi Miao , Steven S. Raman , Demetri Terzopoulos , Kyunghyun Sung

分类：计算机视觉

2022-03-29

前列腺癌是美国男性癌症死亡的第二大原因。前列腺MRI的诊断通常依赖于准确的前列腺区域分割。但是，最新的自动分割方法通常无法产生前列腺区域的含有良好的体积分割，因为某些切片的前列腺MRI（例如碱基和顶点片）比其他切片更难分割。可以通过考虑相邻切片之间的跨片段关系来克服这一困难，但是当前的方法不能完全学习和利用这种关系。在本文中，我们提出了一种新型的跨板夹心注意机制，我们在变压器模块中使用该机制，以系统地学习不同尺度的跨斜纹关系。该模块可以在任何基于Skip Connections的现有基于学习的细分框架中使用。实验表明，我们的跨板块注意力能够捕获前列腺区域分割中的跨板片信息，并提高当前最新方法的性能。我们的方法提高了外围区域的分割精度，从而使所有前列腺切片（Apex，Mid-Gland和Base）的分割结果保持一致。

translated by 谷歌翻译

Focal-UNet: UNet-like Focal Modulation for Medical Image Segmentation

MohammadReza Naderi , MohammadHossein Givkashi , Fatemeh Piri , Nader Karimi , Shadrokh Samavi

分类：计算机视觉

2022-12-19

Recently, many attempts have been made to construct a transformer base U-shaped architecture, and new methods have been proposed that outperformed CNN-based rivals. However, serious problems such as blockiness and cropped edges in predicted masks remain because of transformers' patch partitioning operations. In this work, we propose a new U-shaped architecture for medical image segmentation with the help of the newly introduced focal modulation mechanism. The proposed architecture has asymmetric depths for the encoder and decoder. Due to the ability of the focal module to aggregate local and global features, our model could simultaneously benefit the wide receptive field of transformers and local viewing of CNNs. This helps the proposed method balance the local and global feature usage to outperform one of the most powerful transformer-based U-shaped models called Swin-UNet. We achieved a 1.68% higher DICE score and a 0.89 better HD metric on the Synapse dataset. Also, with extremely limited data, we had a 4.25% higher DICE score on the NeoPolyp dataset. Our implementations are available at: https://github.com/givkashi/Focal-UNet

translated by 谷歌翻译

TransAttUnet: Multi-level Attention-guided U-Net with Transformer for Medical Image Segmentation

Bingzhi Chen , Yishu Liu , Zheng Zhang , Guangming Lu , Adams Wai Kin Kong

分类：计算机视觉

2021-07-12

对医学图像的器官或病变的准确分割对于可靠的疾病和器官形态计量学的可靠诊断至关重要。近年来，卷积编码器解码器解决方案在自动医疗图像分割领域取得了重大进展。由于卷积操作中的固有偏见，先前的模型主要集中在相邻像素形成的局部视觉提示上，但无法完全对远程上下文依赖性进行建模。在本文中，我们提出了一个新型的基于变压器的注意力指导网络，称为Transattunet，其中多层引导注意力和多尺度跳过连接旨在共同增强语义分割体系结构的性能。受到变压器的启发，具有变压器自我注意力（TSA）和全球空间注意力（GSA）的自我意识注意（SAA）被纳入Transattunet中，以有效地学习编码器特征之间的非本地相互作用。此外，我们还使用解码器块之间的其他多尺度跳过连接来汇总具有不同语义尺度的上采样功能。这样，多尺度上下文信息的表示能力就可以增强以产生判别特征。从这些互补组件中受益，拟议的Transattunet可以有效地减轻卷积层堆叠和连续采样操作引起的细节损失，最终提高医学图像的细分质量。来自不同成像方式的多个医疗图像分割数据集进行了广泛的实验表明，所提出的方法始终优于最先进的基线。我们的代码和预培训模型可在以下网址找到：https：//github.com/yishuliu/transattunet。

translated by 谷歌翻译

MISSFormer: An Effective Medical Image Segmentation Transformer

Xiaohong Huang , Zhifang Deng , Dandan Li , Xueguang Yuan

分类：计算机视觉

2021-09-15

基于CNN的方法已经实现了医学图像分割的令人印象深刻的结果，但由于卷积操作的内在局部，它们未能捕获远程依赖性。基于变压器的方法最近在愿景任务中流行，因为它们的远程依赖性和有希望的性能。但是，它缺乏建模本地背景。本文以医学图像分割为例，我们呈现了MissFormer，一种有效和强大的医学图像分割变压器。 MissFormer是具有两个吸引人设计的分层编码器 - 解码器网络：1）通过所提出的增强型变压器块重新设计前馈网络，该熵增强了远程依赖性并补充本地上下文，使得该特征更加辨别。 2）我们提出了增强的变压器上下文网桥，与以前的模拟全局信息的方法不同，所提出的上下文网桥与增强变压器块提取了由我们的层级变压器编码器产生的多尺度特征的远程依赖性和本地语境。由这两个设计驱动，MissFormer显示了捕获更多辨别性依赖性和在医学图像分割中的识别依赖性和上下文的牢固能力。多器官和心脏分割任务的实验表明了我们的错过更优越性，有效性和稳健性，训练了从划伤的痕迹甚至高于想象的最先进方法。核心设计可以推广到其他视觉分段任务。代码已在GitHub上发布：https://github.com/zhifangdeng/missformer

translated by 谷歌翻译

UNETR: Transformers for 3D Medical Image Segmentation

Ali Hatamizadeh , Yucheng Tang , Vishwesh Nath , Dong Yang , Andriy Myronenko , Bennett Landman , Holger Roth , Daguang Xu

分类：

2021-03-18

Fully Convolutional Neural Networks (FCNNs) with contracting and expanding paths have shown prominence for the majority of medical image segmentation applications since the past decade. In FCNNs, the encoder plays an integral role by learning both global and local features and contextual representations which can be utilized for semantic output prediction by the decoder. Despite their success, the locality of convolutional layers in FCNNs, limits the capability of learning long-range spatial dependencies. Inspired by the recent success of transformers for Natural Language Processing (NLP) in long-range sequence learning, we reformulate the task of volumetric (3D) medical image segmentation as a sequence-to-sequence prediction problem. We introduce a novel architecture, dubbed as UNEt TRansformers (UNETR), that utilizes a transformer as the encoder to learn sequence representations of the input volume and effectively capture the global multi-scale information, while also following the successful "U-shaped" network design for the encoder and decoder. The transformer encoder is directly connected to a decoder via skip connections at different resolutions to compute the final semantic segmentation output. We have validated the performance of our method on the Multi Atlas Labeling Beyond The Cranial Vault (BTCV) dataset for multiorgan segmentation and the Medical Segmentation Decathlon (MSD) dataset for brain tumor and spleen segmentation tasks. Our benchmarks demonstrate new state-of-the-art performance on the BTCV leaderboard. Code: https://monai.io/research/unetr

translated by 谷歌翻译

Transformers in Medical Image Analysis: A Review

Kelei He , Chen Gan , Zhuoyuan Li , Islem Rekik , Zihao Yin , Wen Ji , Yang Gao , Qian Wang , Junfeng Zhang , Dinggang Shen

分类：计算机视觉

2022-02-24

变形金刚占据了自然语言处理领域，最近影响了计算机视觉区域。在医学图像分析领域中，变压器也已成功应用于全栈临床应用，包括图像合成/重建，注册，分割，检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言，我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次，我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构，并讨论其局限性。在这篇综述中，我们调查了围绕在不同学习范式中使用变压器，提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。

translated by 谷歌翻译

UNesT: Local Spatial Representation Learning with Hierarchical Transformer for Efficient Medical Segmentation

Xin Yu , Qi Yang , Yinchi Zhou , Leon Y. Cai , Riqiang Gao , Ho Hin Lee , Thomas Li , Shunxing Bao , Zhoubing Xu , Thomas A. Lasko

分类：计算机视觉

2022-09-28

Transformer-based models, capable of learning better global dependencies, have recently demonstrated exceptional representation learning capabilities in computer vision and medical image analysis. Transformer reformats the image into separate patches and realize global communication via the self-attention mechanism. However, positional information between patches is hard to preserve in such 1D sequences, and loss of it can lead to sub-optimal performance when dealing with large amounts of heterogeneous tissues of various sizes in 3D medical image segmentation. Additionally, current methods are not robust and efficient for heavy-duty medical segmentation tasks such as predicting a large number of tissue classes or modeling globally inter-connected tissues structures. Inspired by the nested hierarchical structures in vision transformer, we proposed a novel 3D medical image segmentation method (UNesT), employing a simplified and faster-converging transformer encoder design that achieves local communication among spatially adjacent patch sequences by aggregating them hierarchically. We extensively validate our method on multiple challenging datasets, consisting anatomies of 133 structures in brain, 14 organs in abdomen, 4 hierarchical components in kidney, and inter-connected kidney tumors). We show that UNesT consistently achieves state-of-the-art performance and evaluate its generalizability and data efficiency. Particularly, the model achieves whole brain segmentation task complete ROI with 133 tissue classes in single network, outperforms prior state-of-the-art method SLANT27 ensembled with 27 network tiles, our model performance increases the mean DSC score of the publicly available Colin and CANDI dataset from 0.7264 to 0.7444 and from 0.6968 to 0.7025, respectively.

translated by 谷歌翻译

CKD-TransBTS: Clinical Knowledge-Driven Hybrid Transformer with Modality-Correlated Cross-Attention for Brain Tumor Segmentation

Jianwei Lin , Jiatai Lin , Cheng Lu , Hao Chen , Huan Lin , Bingchao Zhao , Zhenwei Shi , Bingjiang Qiu , Xipeng Pan , Zeyan Xu

分类：计算机视觉

2022-07-15

磁共振图像（MRI）中的脑肿瘤分割（BTS）对于脑肿瘤诊断，癌症管理和研究目的至关重要。随着十年小型挑战的巨大成功以及CNN和Transformer算法的进步，已经提出了许多出色的BTS模型来解决BTS在不同技术方面的困难。但是，现有研究几乎没有考虑如何以合理的方式融合多模式图像。在本文中，我们利用了放射科医生如何从多种MRI模态诊断脑肿瘤的临床知识，并提出了一种称为CKD-TRANSBTS的临床知识驱动的脑肿瘤分割模型。我们没有直接串联所有模式，而是通过根据MRI的成像原理将输入方式分为两组来重新组织输入方式。具有拟议模态相关的跨意义块（MCCA）的双支支混合式编码器旨在提取多模式图像特征。所提出的模型以局部特征表示能力的能力来继承来自变压器和CNN的强度，以提供精确的病变边界和3D体积图像的远程特征提取。为了弥合变压器和CNN功能之间的间隙，我们提出了解码器中的反式和CNN功能校准块（TCFC）。我们将提出的模型与五个基于CNN的模型和六个基于Transformer的模型在Brats 2021挑战数据集上进行了比较。广泛的实验表明，与所有竞争对手相比，所提出的模型可实现最先进的脑肿瘤分割性能。

translated by 谷歌翻译

DAE-Former: Dual Attention-guided Efficient Transformer for Medical Image Segmentation

Reza Azad , René Arimond , Ehsan Khodapanah Aghdam , Amirhosein Kazerouni , Dorit Merhof

分类：计算机视觉

2022-12-27

Transformers have recently gained attention in the computer vision domain due to their ability to model long-range dependencies. However, the self-attention mechanism, which is the core part of the Transformer model, usually suffers from quadratic computational complexity with respect to the number of tokens. Many architectures attempt to reduce model complexity by limiting the self-attention mechanism to local regions or by redesigning the tokenization process. In this paper, we propose DAE-Former, a novel method that seeks to provide an alternative perspective by efficiently designing the self-attention mechanism. More specifically, we reformulate the self-attention mechanism to capture both spatial and channel relations across the whole feature dimension while staying computationally efficient. Furthermore, we redesign the skip connection path by including the cross-attention module to ensure the feature reusability and enhance the localization power. Our method outperforms state-of-the-art methods on multi-organ cardiac and skin lesion segmentation datasets without requiring pre-training weights. The code is publicly available at https://github.com/mindflow-institue/DAEFormer.

translated by 谷歌翻译

A Volumetric Transformer for Accurate 3D Tumor Segmentation

Himashi Peiris , Munawar Hayat , Zhaolin Chen , Gary Egan , Mehrtash Harandi

分类：计算机视觉

2021-11-26

本文提出了一种用于体积医学图像分割的变压器架构。设计用于体积分割的计算高效的变压器架构是一个具有挑战性的任务。它需要在编码本地和全局空间线索中保持复杂的平衡，并沿着体积数据的所有轴保留信息。所提出的体积变压器具有U形编码器解码器设计，其整体处理输入体素。我们的编码器具有两个连续的自我注意层，同时编码本地和全球性提示，我们的解码器具有基于新颖的并联窗口的自我和跨关注块，以通过归类傅立叶位置编码来捕获边界改进的精细细节。我们所提出的设计选择导致计算上有效的架构，其表明脑肿瘤分割（BRATS）2021的有希望的结果，以及用于肿瘤细分的医学分割牌照（胰腺和肝脏）数据集。我们进一步表明，我们的模型在数据集中传输了更好的地传输的表示，并且对数据损坏具有稳健性。 \ href {https://github.com/himashi92/vt-unet} {我们的代码实现是公开可用的}。

translated by 谷歌翻译

3D Vision with Transformers: A Survey

Jean Lahoud , Jiale Cao , Fahad Shahbaz Khan , Hisham Cholakkal , Rao Muhammad Anwer , Salman Khan , Ming-Hsuan Yang

分类：计算机视觉

2022-08-08

变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性，变压器已被用作广泛使用的卷积运算符的替代品。事实证明，这种替代者在许多任务中都取得了成功，其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中，3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上，但由于与2D视觉相比，由于数据表示和处理的差异，3D视觉需要特别注意。在这项工作中，我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查，包括分类，细分，检测，完成，姿势估计等。我们在3D Vision中讨论了变形金刚的设计，该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序，我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力，我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外，我们的目标是频繁更新最新的相关论文及其相应的实现：https：//github.com/lahoud/3d-vision-transformers。

translated by 谷歌翻译