智能论文笔记

Efficient Lung Cancer Image Classification and Segmentation Algorithm Based on Improved Swin Transformer

Ruina Sun , Yuexin Pang

分类：计算机视觉 | 人工智能

2022-07-04

随着计算机技术的开发，人工智能已经出现了各种模型。在自然语言处理（NLP）成功之后，变压器模型已应用于计算机视觉（CV）。放射科医生在当今迅速发展的医疗领域中继续面临多重挑战，例如增加工作量和增加的诊断需求。尽管以前有一些常规的肺癌检测方法，但仍需要提高其准确性，尤其是在现实的诊断情况下。本文创造性地提出了一种基于有效变压器的分割方法，并将其应用于医学图像分析。该算法通过分析肺癌数据来完成肺癌分类和细分的任务，并旨在为医务人员提供有效的技术支持。此外，我们在各个方面进行了评估并比较了结果。对于分类任务，通过定期培训和SWIN-B在两项决议中通过预训练的最高准确性可高达82.3％。对于分割任务，我们使用预训练来帮助模型提高实验的准确性。这三个模型的准确性达到95％以上。实验表明该算法可以很好地应用于肺癌分类和分割任务。

translated by 谷歌翻译

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Ze Liu , Yutong Lin , Yue Cao , Han Hu , Yixuan Wei , Zheng Zhang , Stephen Lin , Baining Guo

分类：

2021-03-25

This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences between the two domains, such as large variations in the scale of visual entities and the high resolution of pixels in images compared to words in text. To address these differences, we propose a hierarchical Transformer whose representation is computed with Shifted windows. The shifted windowing scheme brings greater efficiency by limiting self-attention computation to non-overlapping local windows while also allowing for cross-window connection. This hierarchical architecture has the flexibility to model at various scales and has linear computational complexity with respect to image size. These qualities of Swin Transformer make it compatible with a broad range of vision tasks, including image classification (87.3 top-1 accuracy on ImageNet-1K) and dense prediction tasks such as object detection (58.7 box AP and 51.1 mask AP on COCO testdev) and semantic segmentation (53.5 mIoU on ADE20K val). Its performance surpasses the previous state-of-theart by a large margin of +2.7 box AP and +2.6 mask AP on COCO, and +3.2 mIoU on ADE20K, demonstrating the potential of Transformer-based models as vision backbones. The hierarchical design and the shifted window approach also prove beneficial for all-MLP architectures. The code and models are publicly available at https://github. com/microsoft/Swin-Transformer.

translated by 谷歌翻译

Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image Analysis

Yucheng Tang , Dong Yang , Wenqi Li , Holger Roth , Bennett Landman , Daguang Xu , Vishwesh Nath , Ali Hatamizadeh

分类：计算机视觉 | 人工智能 | 机器学习

2021-11-29

视觉变形金刚（VIT）S表现出可观的全球和本地陈述的自我监督学习表现，可以转移到下游应用程序。灵感来自这些结果，我们介绍了一种新的自我监督学习框架，具有用于医学图像分析的定制代理任务。具体而言，我们提出：（i）以新的3D变压器为基础的型号，被称为往返变压器（Swin Unet），具有分层编码器，用于自我监督的预训练; （ii）用于学习人类解剖学潜在模式的定制代理任务。我们展示了来自各种身体器官的5,050个公共可用的计算机断层扫描（CT）图像的提出模型的成功预培训。通过微调超出颅穹窿（BTCV）分割挑战的预先调整训练模型和来自医疗细分牌组（MSD）数据集的分割任务，通过微调训练有素的模型来验证我们的方法的有效性。我们的模型目前是MSD和BTCV数据集的公共测试排行榜上的最先进的（即第1号）。代码：https://monai.io/research/swin-unetr.

translated by 谷歌翻译

Parotid Gland MRI Segmentation Based on Swin-Unet and Multimodal Images

Yin Dai , Zi'an Xu , Fayu Liu , Siqi Li , Sheng Liu , Lifu Shi , Jun Fu

分类：计算机视觉 | 机器学习

2022-06-07

腮腺肿瘤约占头颈肿瘤的2％至10％。术前肿瘤定位，鉴别诊断以及随后选择适当的腮腺肿瘤治疗方法。然而，这些肿瘤的相对稀有性和高度分散的组织类型使基于术前放射线学对这种肿瘤病变的细微差异诊断造成了未满足的需求。最近，深度学习方法发展迅速，尤其是变形金刚在计算机视觉中击败了传统的卷积神经网络。为计算机视觉任务提出了许多新的基于变压器的网络。在这项研究中，收集了多中心多模束MRI图像。使用了基于变压器的SWIN-UNET。将搅拌，T1和T2模态的MRI图像合并为三通道数据以训练网络。我们实现了对腮腺和肿瘤感兴趣区域的分割。测试集上的模型DSC为88.63％，MPA为99.31％，MIOU为83.99％，HD为3.04。然后在本文中设计了一系列比较实验，以进一步验证算法的分割性能。

translated by 谷歌翻译

Hepatic vessel segmentation based on 3Dswin-transformer with inductive biased multi-head self-attention

Mian Wu , Yinling Qian , Xiangyun Liao , Qiong Wang , Pheng-Ann Heng

分类：计算机视觉

2021-11-05

目的：在手术规划之前，CT图像中肝血管的分割是必不可少的，并引起了医学图像分析界的广泛兴趣。由于结构复杂，对比度背景下，自动肝脏血管分割仍然特别具有挑战性。大多数相关的研究采用FCN，U-Net和V-Net变体作为骨干。然而，这些方法主要集中在捕获多尺度局部特征，这可能导致由于卷积运营商有限的地区接收领域而产生错误分类的体素。方法：我们提出了一种强大的端到端血管分割网络，通过将SWIN变压器扩展到3D并采用卷积和自我关注的有效组合，提出了一种被称为电感偏置的多头注意船网（IBIMHAV-NET）的稳健端到端血管分割网络。在实践中，我们介绍了Voxel-Wise嵌入而不是修补程序嵌入，以定位精确的肝脏血管素，并采用多尺度卷积运营商来获得局部空间信息。另一方面，我们提出了感应偏置的多头自我关注，其学习从初始化的绝对位置嵌入的归纳偏置相对位置嵌入嵌入。基于此，我们可以获得更可靠的查询和键矩阵。为了验证我们模型的泛化，我们测试具有不同结构复杂性的样本。结果：我们对3Dircadb数据集进行了实验。四种测试病例的平均骰子和敏感性为74.8％和77.5％，超过现有深度学习方法的结果和改进的图形切割方法。结论：拟议模型IBIMHAV-Net提供一种具有交错架构的自动，精确的3D肝血管分割，可更好地利用CT卷中的全局和局部空间特征。它可以进一步扩展到其他临床数据。

translated by 谷歌翻译

SwinCheX: Multi-label classification on chest X-ray images with transformers

Sina Taslimi , Soroush Taslimi , Nima Fathi , Mohammadreza Salehi , Mohammad Hossein Rohban

分类：计算机视觉

2022-06-09

根据诊断各种疾病的胸部X射线图像的可观增长，以及收集广泛的数据集，使用深神经网络进行了自动诊断程序，已经占据了专家的思想。计算机视觉中的大多数可用方法都使用CNN主链来获得分类问题的高精度。然而，最近的研究表明，在NLP中成为事实上方法的变压器也可以优于许多基于CNN的模型。本文提出了一个基于SWIN变压器的多标签分类深模型，作为实现最新诊断分类的骨干。它利用了头部体系结构来利用多层感知器（也称为MLP）。我们评估了我们的模型，该模型称为“ Chest X-Ray14”，最广泛，最大的X射线数据集之一，该数据集由30,000多名14例著名胸部疾病的患者组成100,000多个额叶/背景图像。我们的模型已经用几个数量的MLP层用于头部设置，每个模型都在所有类别上都达到了竞争性的AUC分数。胸部X射线14的全面实验表明，与以前的SOTA平均AUC为0.799相比，三层头的平均AUC得分为0.810，其平均AUC得分为0.810。我们建议对现有方法进行公平基准测试的实验设置，该设置可以用作未来研究的基础。最后，我们通过确认所提出的方法参与胸部的病理相关区域，从而跟进了结果。

translated by 谷歌翻译

HiFuse: Hierarchical Multi-Scale Feature Fusion Network for Medical Image Classification

Xiangzuo Huo , Gang Sun , Shengwei Tian , Yan Wang , Long Yu , Jun Long , Wendong Zhang , Aolun Li

分类：计算机视觉

2022-09-21

在卷积神经网络（CNN）的动力下，医学图像分类迅速发展。由于卷积内核的接受场的固定尺寸，很难捕获医学图像的全局特征。尽管基于自发的变压器可以对远程依赖性进行建模，但它具有很高的计算复杂性，并且缺乏局部电感偏见。许多研究表明，全球和本地特征对于图像分类至关重要。但是，医学图像具有许多嘈杂，分散的特征，类内的变化和类间的相似性。本文提出了三个分支分层的多尺度特征融合网络结构，称为医学图像分类为新方法。它可以融合多尺度层次结构的变压器和CNN的优势，而不会破坏各自的建模，从而提高各种医学图像的分类精度。局部和全局特征块的平行层次结构旨在有效地提取各种语义尺度的本地特征和全局表示，并灵活地在不同的尺度上建模，并与图像大小相关的线性计算复杂性。此外，自适应分层特征融合块（HFF块）旨在全面利用在不同层次级别获得的功能。 HFF块包含空间注意力，通道注意力，残留的倒置MLP和快捷方式，以在每个分支的各个规模特征之间适应融合语义信息。我们在ISIC2018数据集上提出的模型的准确性比基线高7.6％，COVID-19数据集的准确性为21.5％，Kvasir数据集的准确性为10.4％。与其他高级模型相比，HIFUSE模型表现最好。我们的代码是开源的，可从https://github.com/huoxiangzuo/hifuse获得。

translated by 谷歌翻译

Self-attention on Multi-Shifted Windows for Scene Segmentation

Litao Yu , Zhibin Li , Jian Zhang , Qiang Wu

分类：计算机视觉

2022-07-10

图像中的场景细分是视觉内容理解中的一个基本而又具有挑战性的问题，即学习一个模型，将每个图像像素分配给分类标签。这项学习任务的挑战之一是考虑空间和语义关系以获得描述性特征表示，因此从多个量表中学习特征图是场景细分中的一种常见实践。在本文中，我们探讨了在多尺度图像窗口中自我发挥的有效使用来学习描述性视觉特征，然后提出三种不同的策略来汇总这些特征图以解码特征表示形式以进行密集的预测。我们的设计基于最近提出的SWIN Transformer模型，该模型完全放弃了卷积操作。借助简单而有效的多尺度功能学习和聚合，我们的模型在四个公共场景细分数据集，Pascal VOC2012，Coco-STUFF 10K，ADE20K和CITYSCAPES上实现了非常有希望的性能。

translated by 谷歌翻译

PHTrans: Parallelly Aggregating Global and Local Representations for Medical Image Segmentation

Wentao Liu , Tong Tian , Weijin Xu , Huihua Yang , Xipeng Pan , Songlin Yan , Lemeng Wang

分类：计算机视觉

2022-03-09

变压器在计算机视觉中的成功吸引了医学成像社区越来越多的关注。特别是对于医学图像细分，已经介绍了许多基于卷积神经网络（CNN）和变压器的出色混合体系结构，并取得了令人印象深刻的性能。但是，将模块化变压器嵌入CNN中的大多数方法都难以发挥其全部潜力。在本文中，我们提出了一种新型的医学图像分割的混合体系结构，称为Phtrans，该架构可与主要构建基块中的变形金刚和CNN杂交，以产生来自全球和本地特征的层次结构表示，并适应性地汇总它们，旨在完全利用其优势以获得更好的优势。细分性能。具体而言，phtrans遵循U形编码器编码器设计，并在深层阶段引入平行的Hybird模块，其中卷积块和经过修改的3D SWIN变压器分别学习本地特征和全局依赖性，然后统一尺寸，统一尺寸输出以实现特征聚合。超出颅库和自动化心脏诊断挑战数据集以外的多ATLA标签的广泛实验结果证实了其有效性，始终超过了最先进的方法。该代码可在以下网址获得：https：//github.com/lseventeen/phtrans。

translated by 谷歌翻译

gSwin: Gated MLP Vision Model with Hierarchical Structure of Shifted Window

Mocho Go , Hideyuki Tachibana

分类：计算机视觉 | 机器学习

2022-08-24

在语言领域取得成功之后，自我发挥机制（变压器）在视觉领域采用并取得了巨大的成功。此外，作为另一个流中的多层感知器（MLP），也在视觉域中探索。除传统CNN以外，这些架构最近引起了人们的关注，并提出了许多方法。作为将参数效率和性能与图像识别中的局部性和层次结合在一起的一种，我们提出了将两个流合并的GSWIN。Swin Transformer和（多头）GMLP。我们表明，与具有较小模型大小的SWIN Transformer相比，GSWIN可以在三个视觉任务，图像分类，对象检测和语义分割方面实现更好的准确性。

translated by 谷歌翻译

HTML版本

Transformers in Medical Image Analysis: A Review

Kelei He , Chen Gan , Zhuoyuan Li , Islem Rekik , Zihao Yin , Wen Ji , Yang Gao , Qian Wang , Junfeng Zhang , Dinggang Shen

分类：计算机视觉

2022-02-24

变形金刚占据了自然语言处理领域，最近影响了计算机视觉区域。在医学图像分析领域中，变压器也已成功应用于全栈临床应用，包括图像合成/重建，注册，分割，检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言，我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次，我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构，并讨论其局限性。在这篇综述中，我们调查了围绕在不同学习范式中使用变压器，提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。

translated by 谷歌翻译

TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical Image Segmentation

Reza Azad , Moein Heidari , Moein Shariatnia , Ehsan Khodapanah Aghdam , Sanaz Karimijafarbigloo , Ehsan Adeli , Dorit Merhof

分类：计算机视觉 | 机器学习

2022-08-01

多年来，卷积神经网络（CNN）已成为多种计算机视觉任务的事实上的标准。尤其是，基于开创性体系结构（例如具有跳过连接的U形模型）或具有金字塔池的Artous卷积的深度神经网络已针对广泛的医学图像分析任务量身定制。此类架构的主要优点是它们容易拘留多功能本地功能。然而，作为一般共识，CNN无法捕获由于卷积操作的固有性能的内在特性而捕获长期依赖性和空间相关性。另外，从全球信息建模中获利的变压器源于自我发项机制，最近在自然语言处理和计算机视觉方面取得了出色的表现。然而，以前的研究证明，局部和全局特征对于密集预测的深层模型至关重要，例如以不同的形状和配置对复杂的结构进行分割。为此，本文提出了TransDeeplab，这是一种新型的DeepLab样纯变压器，用于医学图像分割。具体而言，我们用移动的窗口利用层次旋转式变形器来扩展DeepLabV3并建模非常有用的空间金字塔池（ASPP）模块。对相关文献的彻底搜索结果是，我们是第一个用基于纯变压器模型对开创性DeepLab模型进行建模的人。关于各种医学图像分割任务的广泛实验证明，我们的方法在视觉变压器和基于CNN的方法的合并中表现出色或与大多数当代作品相提并论，并显着降低了模型复杂性。代码和训练有素的模型可在https://github.com/rezazad68/transdeeplab上公开获得

translated by 谷歌翻译

D-Former: A U-shaped Dilated Transformer for 3D Medical Image Segmentation

Yixuan Wu , Kuanlun Liao , Jintai Chen , Danny Z. Chen , Jinhong Wang , Honghao Gao , Jian Wu

分类：计算机视觉 | 人工智能

2022-01-03

计算机辅助医学图像分割已广泛应用于诊断和治疗，以获得靶器官和组织的形状和体积的临床有用信息。在过去的几年中，基于卷积神经网络（CNN）的方法（例如，U-Net）占主导地位，但仍遭受了不足的远程信息捕获。因此，最近的工作提出了用于医学图像分割任务的计算机视觉变压器变体，并获得了有希望的表现。这种变压器通过计算配对贴片关系来模拟远程依赖性。然而，它们促进了禁止的计算成本，尤其是在3D医学图像（例如，CT和MRI）上。在本文中，我们提出了一种称为扩张变压器的新方法，该方法在本地和全球范围内交替捕获的配对贴片关系进行自我关注。灵感来自扩张卷积核，我们以扩张的方式进行全球自我关注，扩大接收领域而不增加所涉及的斑块，从而降低计算成本。基于这种扩展变压器的设计，我们构造了一个用于3D医学图像分割的U形编码器解码器分层体系结构。 Synapse和ACDC数据集的实验表明，我们的D-Ager Model从头开始培训，以低计算成本从划痕训练，优于各种竞争力的CNN或基于变压器的分段模型，而不耗时的每训练过程。

translated by 谷歌翻译

HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

Moein Heidari , Amirhossein Kazerouni , Milad Soltany , Reza Azad , Ehsan Khodapanah Aghdam , Julien Cohen-Adad , Dorit Merhof

分类：计算机视觉 | 人工智能

2022-07-18

卷积神经网络（CNN）已成为医疗图像分割任务的共识。但是，由于卷积操作的性质，它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题，但它们未能捕获低级功能。相比之下，证明本地和全球特征对于密集的预测至关重要，例如在具有挑战性的环境中细分。在本文中，我们提出了一种新型方法，该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言，我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合，我们建议在编码器编码器结构的跳过连接中提出一个双层融合（DLF）模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的，基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取：https：//github.com/amirhossein-kz/hiformer

translated by 谷歌翻译

SeMask: Semantically Masked Transformers for Semantic Segmentation

Jitesh Jain , Anukriti Singh , Nikita Orlov , Zilong Huang , Jiachen Li , Steven Walton , Humphrey Shi

分类：计算机视觉 | 机器学习

2021-12-23

在图像变压器网络的编码器部分中的FineTuning佩带的骨干网一直是语义分段任务的传统方法。然而，这种方法揭示了图像在编码阶段提供的语义上下文。本文认为将图像的语义信息纳入预磨料的基于分层变换器的骨干，而FineTuning可显着提高性能。为实现这一目标，我们提出了一个简单且有效的框架，在语义关注操作的帮助下将语义信息包含在编码器中。此外，我们在训练期间使用轻量级语义解码器，为每个阶段提供监督对中间语义的先前地图。我们的实验表明，结合语义前导者增强了所建立的分层编码器的性能，随着絮凝物的数量略有增加。我们通过将Sromask集成到Swin-Cransformer的每个变体中提供了经验证明，因为我们的编码器与不同的解码器配对。我们的框架在CudeScapes数据集上实现了ADE20K数据集的新型58.22％的MIOU，并在Miou指标中提高了超过3％的内容。代码和检查点在https://github.com/picsart-ai-research/semask-egation上公开使用。

translated by 谷歌翻译

High-Resolution Swin Transformer for Automatic Medical Image Segmentation

Chen Wei , Shenghan Ren , Kaitai Guo , Haihong Hu , Jimin Liang

分类：计算机视觉 | 人工智能

2022-07-23

特征图的分辨率对于医学图像分割至关重要。大多数现有用于医疗图像分割的基于变压器的网络都是U-NET样体系结构，其中包含一个编码器，该编码器利用一系列变压器块将输入医疗图像从高分辨率表示形式转换为低分辨率特征图和解码器这逐渐从低分辨率特征图中恢复了高分辨率表示。与以前的研究不同，在本文中，我们利用高分辨率网络（HRNET）的网络设计样式，用变压器块替换卷积层，并从变压器块生成的不同分辨率特征图中连续交换信息。本文介绍的新基于变压器的网络表示为高分辨率SWIN Transformer网络（HRSTNET）。广泛的实验表明，HRSTNET可以与基于最新的变压器类似于脑肿瘤分割的U-NET样结构（BRATS）2021和Medical Sementation Decathlon的肝数据集实现可比的性能。 HRSTNET代码将在https://github.com/auroua/hrstnet上公开获得。

translated by 谷歌翻译

Shifted Windows Transformers for Medical Image Quality Assessment

Caner Ozer , Arda Guler , Aysel Turkvatan Cansever , Deniz Alis , Ercan Karaarslan , Ilkay Oksuz

分类：计算机视觉

2022-08-11

为了在医学成像研究中保持标准，图像应具有必要的图像质量，以进行潜在的诊断使用。尽管基于CNN的方法用于评估图像质量，但仍可以从准确性方面提高其性能。在这项工作中，我们通过使用SWIN Transformer来解决此问题，这改善了导致医疗图像质量降解的质量质量差分类性能。我们在胸部X射线（Object-CXR）和心脏MRI上的左心室流出路分类问题（LVOT）上测试了胸部X射线（Object-CXR）和左心室流出路分类问题的方法。虽然我们在Object-CXR和LVOT数据集中获得了87.1％和95.48％的分类精度，但我们的实验结果表明，SWIN Transformer的使用可以改善对象CXR分类性能，同时获得LVOT数据集的可比性能。据我们所知，我们的研究是医学图像质量评估的第一个Vision Transformer应用程序。

translated by 谷歌翻译

Raw Produce Quality Detection with Shifted Window Self-Attention

Oh Joon Kwon , Byungsoo Kim , Youngduck Choi

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-24

预计未来几十年的全球粮食不安全将加速气候变化率和人口迅速增加。在这种静脉中，重要的是在每种饮食生产水平上消除效率低下。最近深入学习的进步可以帮助降低这种效率低下，但他们的申请尚未成为整个行业的主流，以大规模的规模诱导经济成本。为此，已将现代技术（如CNNS（卷积神经网络）应用于RPQD（原始产生质量检测）任务。另一方面，变压器在其他方式中的视野中的成功首次亮相使我们能够在RPQD中预计这些基于变压器的模型更好的性能。在这项工作中，我们专门调查了最近的最先进的水流（移位的Windows）变压器，这些变压器可以在窗口和窗口间的方式中计算自我关注。我们将Swin变压器与CNN模型进行比较四个RPQD图像数据集，每个CNN模型都包含不同种类的生成：水果和蔬菜，鱼类，猪肉和牛肉。我们观察到Swin Transformer不仅实现了更好或更有竞争力的性能，而且还具有数据和计算效率，使其成为现实世界的实际部署的理想选择。据我们所知，这是第一个对RPQD任务的大规模实证研究，我们希望在未来的作品中更加关注。

translated by 谷歌翻译

Vicinity Vision Transformer

Weixuan Sun , Zhen Qin , Hui Deng , Jianyuan Wang , Yi Zhang , Kaihao Zhang , Nick Barnes , Stan Birchfield , Lingpeng Kong , Yiran Zhong

分类：计算机视觉

2022-06-21

视觉变压器在众多计算机视觉任务上表现出了巨大的成功。然而，由于计算复杂性和记忆足迹是二次的，因此其中心分量（软磁性注意力）禁止视觉变压器扩展到高分辨率图像。尽管在自然语言处理（NLP）任务中引入了线性注意以减轻类似问题，但直接将现有的线性注意力应用于视觉变压器可能不会导致令人满意的结果。我们研究了这个问题，发现与NLP任务相比，计算机视觉任务更多地关注本地信息。基于这一观察结果，我们提出了附近的关注，该关注引入了具有线性复杂性的视觉变压器的局部性偏见。具体而言，对于每个图像补丁，我们根据其相邻贴片测量的2D曼哈顿距离调整了注意力重量。在这种情况下，相邻的补丁比遥远的补丁会受到更大的关注。此外，由于我们的附近注意力要求令牌长度比特征维度大得多，以显示其效率优势，因此我们进一步提出了一个新的附近视觉变压器（VVT）结构，以减少特征维度而不脱离准确性。我们在CIFAR100，ImagEnet1k和ADE20K数据集上进行了广泛的实验，以验证我们方法的有效性。当输入分辨率增加时，与以前的基于变压器和基于卷积的网络相比，GFLOP的增长率较慢。特别是，我们的方法达到了最新的图像分类精度，其参数比以前的方法少50％。

translated by 谷歌翻译

MSG-Transformer: Exchanging Local Spatial Information by Manipulating Messenger Tokens

Jiemin Fang , Lingxi Xie , Xinggang Wang , Xiaopeng Zhang , Wenyu Liu , Qi Tian

分类：计算机视觉 | 机器学习

2021-05-31

变压器提供了一种设计神经网络以进行视觉识别的新方法。与卷积网络相比，变压器享有在每个阶段引用全局特征的能力，但注意模块带来了更高的计算开销，阻碍了变压器的应用来处理高分辨率的视觉数据。本文旨在减轻效率和灵活性之间的冲突，为此，我们为每个地区提出了专门的令牌，作为使者（MSG）。因此，通过操纵这些MSG令牌，可以在跨区域灵活地交换视觉信息，并且减少计算复杂性。然后，我们将MSG令牌集成到一个名为MSG-Transformer的多尺度体系结构中。在标准图像分类和对象检测中，MSG变压器实现了竞争性能，加速了GPU和CPU的推断。代码可在https://github.com/hustvl/msg-transformer中找到。

translated by 谷歌翻译