智能论文笔记

TFCNs: A CNN-Transformer Hybrid Network for Medical Image Segmentation

Zihan Li , Dihan Li , Cangbai Xu , Weice Wang , Qingqi Hong , Qingde Li , Jie Tian

分类：计算机视觉

2022-07-07

医疗图像细分是有关医学信息分析的最基本任务之一。到目前为止，已经提出了各种解决方案，包括许多深度学习的技术，例如U-NET，FC-DENSENET等。但是，由于存在固有的放大倍率，高精度医学图像分割仍然是一项高度挑战的任务。在医学图像以及与正常组织密度相似的病变中的存在。在本文中，我们提出了TFCN（用于完全卷积的齿轮的变压器），以通过引入ReslineAr-Transear-TransFormer（RL-转换器）和卷积线性注意块（CLAB）来解决该问题。 TFCN不仅能够从CT图像中利用更多的潜在信息进行特征提取，而且可以通过CLAB模块更有效地捕获和传播语义特征和更有效地滤波非语义功能。我们的实验结果表明，TFCN可以在Synapse数据集上以83.72 \％的骰子得分实现最新性能。此外，我们评估了TFCN对COVID-19公共数据集的病变区域影响的鲁棒性。 Python代码将在https://github.com/huanglizi/tfcns上公开提供。

translated by 谷歌翻译

D-Former: A U-shaped Dilated Transformer for 3D Medical Image Segmentation

Yixuan Wu , Kuanlun Liao , Jintai Chen , Danny Z. Chen , Jinhong Wang , Honghao Gao , Jian Wu

分类：计算机视觉 | 人工智能

2022-01-03

计算机辅助医学图像分割已广泛应用于诊断和治疗，以获得靶器官和组织的形状和体积的临床有用信息。在过去的几年中，基于卷积神经网络（CNN）的方法（例如，U-Net）占主导地位，但仍遭受了不足的远程信息捕获。因此，最近的工作提出了用于医学图像分割任务的计算机视觉变压器变体，并获得了有希望的表现。这种变压器通过计算配对贴片关系来模拟远程依赖性。然而，它们促进了禁止的计算成本，尤其是在3D医学图像（例如，CT和MRI）上。在本文中，我们提出了一种称为扩张变压器的新方法，该方法在本地和全球范围内交替捕获的配对贴片关系进行自我关注。灵感来自扩张卷积核，我们以扩张的方式进行全球自我关注，扩大接收领域而不增加所涉及的斑块，从而降低计算成本。基于这种扩展变压器的设计，我们构造了一个用于3D医学图像分割的U形编码器解码器分层体系结构。 Synapse和ACDC数据集的实验表明，我们的D-Ager Model从头开始培训，以低计算成本从划痕训练，优于各种竞争力的CNN或基于变压器的分段模型，而不耗时的每训练过程。

translated by 谷歌翻译

TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism for a Deep Segmentation Model

Reza Azad , Mohammad T. AL-Antary , Moein Heidari , Dorit Merhof

分类：计算机视觉

2022-07-27

在过去的几年中，卷积神经网络（CNN），尤其是U-NET，一直是医学图像处理时代的流行技术。具体而言，开创性的U-NET及其替代方案成功地设法解决了各种各样的医学图像分割任务。但是，这些体系结构在本质上是不完美的，因为它们无法表现出长距离相互作用和空间依赖性，从而导致具有可变形状和结构的医学图像分割的严重性能下降。针对序列到序列预测的初步提议的变压器已成为替代体系结构，以精确地模拟由自我激进机制辅助的全局信息。尽管设计了可行的设计，但利用纯变压器来进行图像分割目的，可能导致限制的定位容量，导致低级功能不足。因此，一系列研究旨在设计基于变压器的U-NET的强大变体。在本文中，我们提出了Trans-Norm，这是一种新型的深层分割框架，它随同将变压器模块合并为标准U-NET的编码器和跳过连接。我们认为，跳过连接的方便设计对于准确的分割至关重要，因为它可以帮助扩展路径和收缩路径之间的功能融合。在这方面，我们从变压器模块中得出了一种空间归一化机制，以适应性地重新校准跳过连接路径。对医学图像分割的三个典型任务进行了广泛的实验，证明了透气的有效性。代码和训练有素的模型可在https://github.com/rezazad68/transnorm上公开获得。

translated by 谷歌翻译

TransAttUnet: Multi-level Attention-guided U-Net with Transformer for Medical Image Segmentation

Bingzhi Chen , Yishu Liu , Zheng Zhang , Guangming Lu , Adams Wai Kin Kong

分类：计算机视觉

2021-07-12

对医学图像的器官或病变的准确分割对于可靠的疾病和器官形态计量学的可靠诊断至关重要。近年来，卷积编码器解码器解决方案在自动医疗图像分割领域取得了重大进展。由于卷积操作中的固有偏见，先前的模型主要集中在相邻像素形成的局部视觉提示上，但无法完全对远程上下文依赖性进行建模。在本文中，我们提出了一个新型的基于变压器的注意力指导网络，称为Transattunet，其中多层引导注意力和多尺度跳过连接旨在共同增强语义分割体系结构的性能。受到变压器的启发，具有变压器自我注意力（TSA）和全球空间注意力（GSA）的自我意识注意（SAA）被纳入Transattunet中，以有效地学习编码器特征之间的非本地相互作用。此外，我们还使用解码器块之间的其他多尺度跳过连接来汇总具有不同语义尺度的上采样功能。这样，多尺度上下文信息的表示能力就可以增强以产生判别特征。从这些互补组件中受益，拟议的Transattunet可以有效地减轻卷积层堆叠和连续采样操作引起的细节损失，最终提高医学图像的细分质量。来自不同成像方式的多个医疗图像分割数据集进行了广泛的实验表明，所提出的方法始终优于最先进的基线。我们的代码和预培训模型可在以下网址找到：https：//github.com/yishuliu/transattunet。

translated by 谷歌翻译

LViT: Language meets Vision Transformer in Medical Image Segmentation

Zihan Li , Yunxiang Li , Qingde Li , You Zhang , Puyang Wang , Dazhou Guo , Le Lu , Dakai Jin , Qingqi Hong

分类：计算机视觉

2022-06-29

深度学习已被广泛用于医学图像细分和其他方面。但是，现有的医学图像分割模型的性能受到获得足够数量的高质量数据的挑战的限制。为了克服限制，我们提出了一个新的视觉医学图像分割模型LVIT（语言符合视觉变压器）。在我们的模型中，引入了医学文本注释，以弥补图像数据的质量缺陷。此外，文本信息可以在一定程度上指导伪标签的产生，并进一步保证半监督学习中伪标签的质量。我们还提出了指数伪标签迭代机制（EPI），以帮助扩展LVIT和像素级注意模块（PLAM）的半监督版本，以保留图像的局部特征。在我们的模型中，LV（语言视觉）损失旨在直接使用文本信息监督未标记图像的培训。为了验证LVIT的性能，我们构建了包含病理图像，X射线等的多模式医学分割数据集（图像 +文本）。实验结果表明，我们提出的LVIT在完全和半监督条件下具有更好的分割性能。代码和数据集可在https://github.com/huanglizi/lvit上找到。

translated by 谷歌翻译

DuAT: Dual-Aggregation Transformer Network for Medical Image Segmentation

Feilong Tang , Qiming Huang , Jinfeng Wang , Xianxu Hou , Jionglong Su , Jingxin Liu

分类：计算机视觉

2022-12-21

Transformer-based models have been widely demonstrated to be successful in computer vision tasks by modelling long-range dependencies and capturing global representations. However, they are often dominated by features of large patterns leading to the loss of local details (e.g., boundaries and small objects), which are critical in medical image segmentation. To alleviate this problem, we propose a Dual-Aggregation Transformer Network called DuAT, which is characterized by two innovative designs, namely, the Global-to-Local Spatial Aggregation (GLSA) and Selective Boundary Aggregation (SBA) modules. The GLSA has the ability to aggregate and represent both global and local spatial features, which are beneficial for locating large and small objects, respectively. The SBA module is used to aggregate the boundary characteristic from low-level features and semantic information from high-level features for better preserving boundary details and locating the re-calibration objects. Extensive experiments in six benchmark datasets demonstrate that our proposed model outperforms state-of-the-art methods in the segmentation of skin lesion images, and polyps in colonoscopy images. In addition, our approach is more robust than existing methods in various challenging situations such as small object segmentation and ambiguous object boundaries.

translated by 谷歌翻译

UCTransNet: Rethinking the Skip Connections in U-Net from a Channel-wise Perspective with Transformer

Haonan Wang , Peng Cao , Jiaqi Wang , Osmar R. Zaiane

分类：计算机视觉 | 机器学习

2021-09-09

最新的语义分段方法采用具有编码器解码器架构的U-Net框架。 U-Net仍然具有挑战性，具有简单的跳过连接方案来模拟全局多尺度上下文：1）由于编码器和解码器级的不兼容功能集的问题，并非每个跳过连接设置都是有效的，甚至一些跳过连接对分割性能产生负面影响; 2）原始U-Net比某些数据集上没有任何跳过连接的U-Net更糟糕。根据我们的调查结果，我们提出了一个名为Uctransnet的新分段框架（在U-Net中的提议CTRANS模块），从引导机制的频道视角。具体地，CTRANS模块是U-NET SKIP连接的替代，其包括与变压器（命名CCT）和子模块通道 - 明智的跨关注进行多尺度信道交叉融合的子模块（命名为CCA）以指导熔融的多尺度通道 - 明智信息，以有效地连接到解码器功能以消除歧义。因此，由CCT和CCA组成的所提出的连接能够替换原始跳过连接以解决精确的自动医学图像分割的语义间隙。实验结果表明，我们的UCTRANSNET产生更精确的分割性能，并通过涉及变压器或U形框架的不同数据集和传统架构的语义分割来实现一致的改进。代码：https：//github.com/mcgregorwwwww/uctransnet。

translated by 谷歌翻译

HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

Moein Heidari , Amirhossein Kazerouni , Milad Soltany , Reza Azad , Ehsan Khodapanah Aghdam , Julien Cohen-Adad , Dorit Merhof

分类：计算机视觉 | 人工智能

2022-07-18

卷积神经网络（CNN）已成为医疗图像分割任务的共识。但是，由于卷积操作的性质，它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题，但它们未能捕获低级功能。相比之下，证明本地和全球特征对于密集的预测至关重要，例如在具有挑战性的环境中细分。在本文中，我们提出了一种新型方法，该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言，我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合，我们建议在编码器编码器结构的跳过连接中提出一个双层融合（DLF）模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的，基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取：https：//github.com/amirhossein-kz/hiformer

translated by 谷歌翻译

TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical Image Segmentation

Reza Azad , Moein Heidari , Moein Shariatnia , Ehsan Khodapanah Aghdam , Sanaz Karimijafarbigloo , Ehsan Adeli , Dorit Merhof

分类：计算机视觉 | 机器学习

2022-08-01

多年来，卷积神经网络（CNN）已成为多种计算机视觉任务的事实上的标准。尤其是，基于开创性体系结构（例如具有跳过连接的U形模型）或具有金字塔池的Artous卷积的深度神经网络已针对广泛的医学图像分析任务量身定制。此类架构的主要优点是它们容易拘留多功能本地功能。然而，作为一般共识，CNN无法捕获由于卷积操作的固有性能的内在特性而捕获长期依赖性和空间相关性。另外，从全球信息建模中获利的变压器源于自我发项机制，最近在自然语言处理和计算机视觉方面取得了出色的表现。然而，以前的研究证明，局部和全局特征对于密集预测的深层模型至关重要，例如以不同的形状和配置对复杂的结构进行分割。为此，本文提出了TransDeeplab，这是一种新型的DeepLab样纯变压器，用于医学图像分割。具体而言，我们用移动的窗口利用层次旋转式变形器来扩展DeepLabV3并建模非常有用的空间金字塔池（ASPP）模块。对相关文献的彻底搜索结果是，我们是第一个用基于纯变压器模型对开创性DeepLab模型进行建模的人。关于各种医学图像分割任务的广泛实验证明，我们的方法在视觉变压器和基于CNN的方法的合并中表现出色或与大多数当代作品相提并论，并显着降低了模型复杂性。代码和训练有素的模型可在https://github.com/rezazad68/transdeeplab上公开获得

translated by 谷歌翻译

MISSFormer: An Effective Medical Image Segmentation Transformer

Xiaohong Huang , Zhifang Deng , Dandan Li , Xueguang Yuan

分类：计算机视觉

2021-09-15

基于CNN的方法已经实现了医学图像分割的令人印象深刻的结果，但由于卷积操作的内在局部，它们未能捕获远程依赖性。基于变压器的方法最近在愿景任务中流行，因为它们的远程依赖性和有希望的性能。但是，它缺乏建模本地背景。本文以医学图像分割为例，我们呈现了MissFormer，一种有效和强大的医学图像分割变压器。 MissFormer是具有两个吸引人设计的分层编码器 - 解码器网络：1）通过所提出的增强型变压器块重新设计前馈网络，该熵增强了远程依赖性并补充本地上下文，使得该特征更加辨别。 2）我们提出了增强的变压器上下文网桥，与以前的模拟全局信息的方法不同，所提出的上下文网桥与增强变压器块提取了由我们的层级变压器编码器产生的多尺度特征的远程依赖性和本地语境。由这两个设计驱动，MissFormer显示了捕获更多辨别性依赖性和在医学图像分割中的识别依赖性和上下文的牢固能力。多器官和心脏分割任务的实验表明了我们的错过更优越性，有效性和稳健性，训练了从划伤的痕迹甚至高于想象的最先进方法。核心设计可以推广到其他视觉分段任务。代码已在GitHub上发布：https://github.com/zhifangdeng/missformer

translated by 谷歌翻译

Hepatic vessel segmentation based on 3Dswin-transformer with inductive biased multi-head self-attention

Mian Wu , Yinling Qian , Xiangyun Liao , Qiong Wang , Pheng-Ann Heng

分类：计算机视觉

2021-11-05

目的：在手术规划之前，CT图像中肝血管的分割是必不可少的，并引起了医学图像分析界的广泛兴趣。由于结构复杂，对比度背景下，自动肝脏血管分割仍然特别具有挑战性。大多数相关的研究采用FCN，U-Net和V-Net变体作为骨干。然而，这些方法主要集中在捕获多尺度局部特征，这可能导致由于卷积运营商有限的地区接收领域而产生错误分类的体素。方法：我们提出了一种强大的端到端血管分割网络，通过将SWIN变压器扩展到3D并采用卷积和自我关注的有效组合，提出了一种被称为电感偏置的多头注意船网（IBIMHAV-NET）的稳健端到端血管分割网络。在实践中，我们介绍了Voxel-Wise嵌入而不是修补程序嵌入，以定位精确的肝脏血管素，并采用多尺度卷积运营商来获得局部空间信息。另一方面，我们提出了感应偏置的多头自我关注，其学习从初始化的绝对位置嵌入的归纳偏置相对位置嵌入嵌入。基于此，我们可以获得更可靠的查询和键矩阵。为了验证我们模型的泛化，我们测试具有不同结构复杂性的样本。结果：我们对3Dircadb数据集进行了实验。四种测试病例的平均骰子和敏感性为74.8％和77.5％，超过现有深度学习方法的结果和改进的图形切割方法。结论：拟议模型IBIMHAV-Net提供一种具有交错架构的自动，精确的3D肝血管分割，可更好地利用CT卷中的全局和局部空间特征。它可以进一步扩展到其他临床数据。

translated by 谷歌翻译

BCS-Net: Boundary, Context and Semantic for Automatic COVID-19 Lung Infection Segmentation from CT Images

Runmin Cong , Haowei Yang , Qiuping Jiang , Wei Gao , Haisheng Li , Cong Wang , Yao Zhao , Sam Kwong

分类：计算机视觉

2022-07-17

Covid-19的传播给世界带来了巨大的灾难，自动分割感染区域可以帮助医生快速诊断并减少工作量。但是，准确和完整的分割面临一些挑战，例如散射的感染区分布，复杂的背景噪声和模糊的分割边界。为此，在本文中，我们提出了一个新的网络，用于从CT图像（名为BCS-NET）的自动covid-19肺部感染分割，该网络考虑了边界，上下文和语义属性。 BCS-NET遵循编码器架构，更多的设计集中在解码器阶段，该阶段包括三个逐渐边界上下文 - 语义重建（BCSR）块。在每个BCSR块中，注意引导的全局上下文（AGGC）模块旨在通过突出显示重要的空间和边界位置并建模全局上下文依赖性来学习解码器最有价值的编码器功能。此外，语义指南（SG）单元通过在中间分辨率上汇总多规模的高级特征来生成语义指南图来完善解码器特征。广泛的实验表明，我们提出的框架在定性和定量上都优于现有竞争对手。

translated by 谷歌翻译

Medical Image Segmentation Using Deep Learning: A Survey

Risheng Wang , Tao Lei , Ruixia Cui , Bingtao Zhang , Hongying Meng , Asoke K. Nandi

分类：计算机视觉

2020-09-28

深度学习已被广泛用于医学图像分割，并且录制了录制了该领域深度学习的成功的大量论文。在本文中，我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先，与传统调查相比，直接将深度学习的文献分成医学图像分割的文学，并为每组详细介绍了文献，我们根据从粗略到精细的多级结构分类目前流行的文献。其次，本文侧重于监督和弱监督的学习方法，而不包括无监督的方法，因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法，我们分析了三个方面的文献：骨干网络的选择，网络块的设计，以及损耗功能的改进。对于虚弱的学习方法，我们根据数据增强，转移学习和交互式分割进行调查文献。与现有调查相比，本调查将文献分类为比例不同，更方便读者了解相关理由，并将引导他们基于深度学习方法思考医学图像分割的适当改进。

translated by 谷歌翻译

UNETR: Transformers for 3D Medical Image Segmentation

Ali Hatamizadeh , Yucheng Tang , Vishwesh Nath , Dong Yang , Andriy Myronenko , Bennett Landman , Holger Roth , Daguang Xu

分类：

2021-03-18

Fully Convolutional Neural Networks (FCNNs) with contracting and expanding paths have shown prominence for the majority of medical image segmentation applications since the past decade. In FCNNs, the encoder plays an integral role by learning both global and local features and contextual representations which can be utilized for semantic output prediction by the decoder. Despite their success, the locality of convolutional layers in FCNNs, limits the capability of learning long-range spatial dependencies. Inspired by the recent success of transformers for Natural Language Processing (NLP) in long-range sequence learning, we reformulate the task of volumetric (3D) medical image segmentation as a sequence-to-sequence prediction problem. We introduce a novel architecture, dubbed as UNEt TRansformers (UNETR), that utilizes a transformer as the encoder to learn sequence representations of the input volume and effectively capture the global multi-scale information, while also following the successful "U-shaped" network design for the encoder and decoder. The transformer encoder is directly connected to a decoder via skip connections at different resolutions to compute the final semantic segmentation output. We have validated the performance of our method on the Multi Atlas Labeling Beyond The Cranial Vault (BTCV) dataset for multiorgan segmentation and the Medical Segmentation Decathlon (MSD) dataset for brain tumor and spleen segmentation tasks. Our benchmarks demonstrate new state-of-the-art performance on the BTCV leaderboard. Code: https://monai.io/research/unetr

translated by 谷歌翻译

DCSAU-Net: A Deeper and More Compact Split-Attention U-Net for Medical Image Segmentation

Qing Xu , Zhicheng Ma , Na HE , Wenting Duan

分类：计算机视觉 | 机器学习

2022-02-02

卷积神经网络（CNN）的深度学习体系结构在计算机视野领域取得了杰出的成功。 CNN构建的编码器架构U-Net在生物医学图像分割方面取得了重大突破，并且已在各种实用的情况下应用。但是，编码器部分中每个下采样层和简单堆积的卷积的平等设计不允许U-NET从不同深度提取足够的特征信息。医学图像的复杂性日益增加为现有方法带来了新的挑战。在本文中，我们提出了一个更深层，更紧凑的分裂注意U形网络（DCSAU-NET），该网络有效地利用了基于两个新颖框架的低级和高级语义信息：主要功能保护和紧凑的分裂注意力堵塞。我们评估了CVC-ClinicDB，2018 Data Science Bowl，ISIC-2018和SEGPC-2021数据集的建议模型。结果，DCSAU-NET在联合（MIOU）和F1-SOCRE的平均交点方面显示出比其他最先进的方法（SOTA）方法更好的性能。更重要的是，提出的模型在具有挑战性的图像上表现出了出色的细分性能。我们的工作代码以及更多技术细节，请访问https://github.com/xq141839/dcsau-net。

translated by 谷歌翻译

EAA-Net: Rethinking the Autoencoder Architecture with Intra-class Features for Medical Image Segmentation

Shiqiang Ma , Xuejian Li , Jijun Tang , Fei Guo

分类：计算机视觉

2022-08-19

自动图像分割技术对于视觉分析至关重要。自动编码器体系结构在各种图像分割任务中具有令人满意的性能。但是，基于卷积神经网络（CNN）的自动编码器似乎在提高语义分割的准确性方面遇到了瓶颈。增加前景和背景之间的类间距离是分割网络的固有特征。但是，分割网络过于关注前景和背景之间的主要视觉差异，而忽略了详细的边缘信息，从而导致边缘分割的准确性降低。在本文中，我们提出了一个基于多任务学习的轻量级端到端细分框架，称为Edge Coasity AutoCododer Network（EAA-NET），以提高边缘细分能力。我们的方法不仅利用分割网络来获得类间特征，而且还采用重建网络来提取前景中的类内特征。我们进一步设计了一个阶层和类间特征融合模块-I2融合模块。 I2融合模块用于合并课内和类间特征，并使用软注意机制去除无效的背景信息。实验结果表明，我们的方法在医疗图像分割任务中的表现良好。 EAA-NET易于实现，并且计算成本较小。

translated by 谷歌翻译

HistoSeg : Quick attention with multi-loss function for multi-structure segmentation in digital histology images

Saad Wazir , Muhammad Moazam Fraz

分类：计算机视觉

2022-09-01

医疗图像分割有助于计算机辅助诊断，手术和治疗。数字化组织载玻片图像用于分析和分段腺，核和其他生物标志物，这些标志物进一步用于计算机辅助医疗应用中。为此，许多研究人员开发了不同的神经网络来对组织学图像进行分割，主要是这些网络基于编码器编码器体系结构，并且还利用了复杂的注意力模块或变压器。但是，这些网络不太准确地捕获相关的本地和全局特征，并在多个尺度下具有准确的边界检测，因此，我们提出了一个编码器折叠网络，快速注意模块和多损耗函数（二进制交叉熵（BCE）损失的组合），焦点损失和骰子损失）。我们在两个公开可用数据集上评估了我们提出的网络的概括能力，用于医疗图像分割Monuseg和Glas，并胜过最先进的网络，在Monuseg数据集上提高了1.99％的提高，而GLAS数据集则提高了7.15％。实施代码可在此链接上获得：https：//bit.ly/histoseg

translated by 谷歌翻译

A Data-scalable Transformer for Medical Image Segmentation: Architecture, Model Efficiency, and Benchmark

Yunhe Gao , Mu Zhou , Di Liu , Zhennan Yan , Shaoting Zhang , Dimitris N. Metaxas

分类：计算机视觉

2022-02-28

作为新一代神经体系结构的变形金刚在自然语言处理和计算机视觉方面表现出色。但是，现有的视觉变形金刚努力使用有限的医学数据学习，并且无法概括各种医学图像任务。为了应对这些挑战，我们将Medformer作为数据量表变压器呈现为可推广的医学图像分割。关键设计结合了理想的电感偏差，线性复杂性的层次建模以及以空间和语义全局方式以线性复杂性的关注以及多尺度特征融合。 Medformer可以在不预训练的情况下学习微小至大规模的数据。广泛的实验表明，Medformer作为一般分割主链的潜力，在三个具有多种模式（例如CT和MRI）和多样化的医学靶标（例如，健康器官，疾病，疾病组织和肿瘤）的三个公共数据集上优于CNN和视觉变压器。我们将模型和评估管道公开可用，为促进广泛的下游临床应用提供固体基线和无偏比较。

translated by 谷歌翻译

Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers

Bo Dong , Wenhai Wang , Deng-Ping Fan , Jinpeng Li , Huazhu Fu , Ling Shao

分类：计算机视觉

2021-08-16

大多数息肉分段方法使用CNNS作为其骨干，导致在编码器和解码器之间的信息交换信息时的两个关键问题：1）考虑到不同级别特征之间的贡献的差异; 2）设计有效机制，以融合这些功能。不同于现有的基于CNN的方法，我们采用了一个变压器编码器，它学会了更强大和强大的表示。此外，考虑到息肉的图像采集影响和难以实现的性质，我们介绍了三种新模块，包括级联融合模块（CFM），伪装识别模块（CIM），A和相似性聚集模块（SAM）。其中，CFM用于从高级功能收集息肉的语义和位置信息，而CIM应用于在低级功能中伪装的息肉信息。在SAM的帮助下，我们将息肉区域的像素特征扩展到整个息肉区域的高电平语义位置信息，从而有效地融合了交叉级别特征。所提出的模型名为Polyp-PVT，有效地抑制了特征中的噪声，并显着提高了他们的表现力。在五个广泛采用的数据集上进行了广泛的实验表明，所提出的模型对各种具有挑战性的情况（例如，外观变化，小物体）比现有方法更加强大，并实现了新的最先进的性能。拟议的模型可在https://github.com/dengpingfan/polyp-pvt获得。

translated by 谷歌翻译

Transformers in Medical Image Analysis: A Review

Kelei He , Chen Gan , Zhuoyuan Li , Islem Rekik , Zihao Yin , Wen Ji , Yang Gao , Qian Wang , Junfeng Zhang , Dinggang Shen

分类：计算机视觉

2022-02-24

变形金刚占据了自然语言处理领域，最近影响了计算机视觉区域。在医学图像分析领域中，变压器也已成功应用于全栈临床应用，包括图像合成/重建，注册，分割，检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言，我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次，我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构，并讨论其局限性。在这篇综述中，我们调查了围绕在不同学习范式中使用变压器，提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。

translated by 谷歌翻译