智能论文笔记

MT-TransUNet: Mediating Multi-Task Tokens in Transformers for Skin Lesion Segmentation and Classification

Jingye Chen , Jieneng Chen , Zongwei Zhou , Bin Li , Alan Yuille , Yongyi Lu

分类：计算机视觉 | 机器学习

2021-12-03

自动皮肤癌诊断的最新进展情况会产生与董事会认证的皮肤科医生的表现。然而，这些方法将皮肤癌诊断制定为简单的分类任务，解除了病变细分的潜在益处。我们认为，准确的病变分割可以补充具有添加性病变信息的分类任务，例如不对称，边界，强度和物理尺寸;反过来，忠诚的病变分类可以支持判别病变特征的分割任务。为此，本文提出了一个名为MT-TransUnet的新的多任务框架，该框架是MT-TransUnet，它能够通过在变压器中调解多任务令牌来协同分割和分类皮肤病。此外，我们引入了双重任务和参加区域一致性损失，以利用这些图像，没有像素级注释，确保在遇到与增强的账户时遇到相同图像时的模型的稳健性。我们的MT-TransUnet超过了ISIC-2017和PH2中的病变细分和分类任务的先前现有技术;更重要的是，它保留了有关模型参数（48m〜与〜130m）和推理速度的令人信服的计算效率（每张图片0.17s〜与〜2.02s）。代码将在https://github.com/jingyechen/mt-transunet上获得。

translated by 谷歌翻译

HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

Moein Heidari , Amirhossein Kazerouni , Milad Soltany , Reza Azad , Ehsan Khodapanah Aghdam , Julien Cohen-Adad , Dorit Merhof

分类：计算机视觉 | 人工智能

2022-07-18

卷积神经网络（CNN）已成为医疗图像分割任务的共识。但是，由于卷积操作的性质，它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题，但它们未能捕获低级功能。相比之下，证明本地和全球特征对于密集的预测至关重要，例如在具有挑战性的环境中细分。在本文中，我们提出了一种新型方法，该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言，我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合，我们建议在编码器编码器结构的跳过连接中提出一个双层融合（DLF）模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的，基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取：https：//github.com/amirhossein-kz/hiformer

translated by 谷歌翻译

TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism for a Deep Segmentation Model

Reza Azad , Mohammad T. AL-Antary , Moein Heidari , Dorit Merhof

分类：计算机视觉

2022-07-27

在过去的几年中，卷积神经网络（CNN），尤其是U-NET，一直是医学图像处理时代的流行技术。具体而言，开创性的U-NET及其替代方案成功地设法解决了各种各样的医学图像分割任务。但是，这些体系结构在本质上是不完美的，因为它们无法表现出长距离相互作用和空间依赖性，从而导致具有可变形状和结构的医学图像分割的严重性能下降。针对序列到序列预测的初步提议的变压器已成为替代体系结构，以精确地模拟由自我激进机制辅助的全局信息。尽管设计了可行的设计，但利用纯变压器来进行图像分割目的，可能导致限制的定位容量，导致低级功能不足。因此，一系列研究旨在设计基于变压器的U-NET的强大变体。在本文中，我们提出了Trans-Norm，这是一种新型的深层分割框架，它随同将变压器模块合并为标准U-NET的编码器和跳过连接。我们认为，跳过连接的方便设计对于准确的分割至关重要，因为它可以帮助扩展路径和收缩路径之间的功能融合。在这方面，我们从变压器模块中得出了一种空间归一化机制，以适应性地重新校准跳过连接路径。对医学图像分割的三个典型任务进行了广泛的实验，证明了透气的有效性。代码和训练有素的模型可在https://github.com/rezazad68/transnorm上公开获得。

translated by 谷歌翻译

TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical Image Segmentation

Reza Azad , Moein Heidari , Moein Shariatnia , Ehsan Khodapanah Aghdam , Sanaz Karimijafarbigloo , Ehsan Adeli , Dorit Merhof

分类：计算机视觉 | 机器学习

2022-08-01

多年来，卷积神经网络（CNN）已成为多种计算机视觉任务的事实上的标准。尤其是，基于开创性体系结构（例如具有跳过连接的U形模型）或具有金字塔池的Artous卷积的深度神经网络已针对广泛的医学图像分析任务量身定制。此类架构的主要优点是它们容易拘留多功能本地功能。然而，作为一般共识，CNN无法捕获由于卷积操作的固有性能的内在特性而捕获长期依赖性和空间相关性。另外，从全球信息建模中获利的变压器源于自我发项机制，最近在自然语言处理和计算机视觉方面取得了出色的表现。然而，以前的研究证明，局部和全局特征对于密集预测的深层模型至关重要，例如以不同的形状和配置对复杂的结构进行分割。为此，本文提出了TransDeeplab，这是一种新型的DeepLab样纯变压器，用于医学图像分割。具体而言，我们用移动的窗口利用层次旋转式变形器来扩展DeepLabV3并建模非常有用的空间金字塔池（ASPP）模块。对相关文献的彻底搜索结果是，我们是第一个用基于纯变压器模型对开创性DeepLab模型进行建模的人。关于各种医学图像分割任务的广泛实验证明，我们的方法在视觉变压器和基于CNN的方法的合并中表现出色或与大多数当代作品相提并论，并显着降低了模型复杂性。代码和训练有素的模型可在https://github.com/rezazad68/transdeeplab上公开获得

translated by 谷歌翻译

Knowledge-aware Deep Framework for Collaborative Skin Lesion Segmentation and Melanoma Recognition

Xiaohong Wang , Xudong Jiang , Henghui Ding , Yuqian Zhao , Jun Liu

分类：计算机视觉

2021-06-07

深度学习技术表明它们在皮肤科医生临床检查中的优越性。然而，由于难以将临床知识掺入学习过程中，黑色素瘤诊断仍然是一个具有挑战性的任务。在本文中，我们提出了一种新颖的知识意识的深度框架，将一些临床知识纳入两个重要的黑色素瘤诊断任务的协作学习，即皮肤病变分割和黑色素瘤识别。具体地，利用病变区的形态表达的知识以及黑色素瘤鉴定的周边区域，设计了一种基于病变的汇集和形状提取（LPSE）方案，其将从皮肤病变分段获得的结构信息转移到黑色素瘤识别中。同时，为了通过黑色素瘤识别到皮肤病变细分的皮肤病原诊断知识，设计了有效的诊断引导特征融合（DGFF）策略。此外，我们提出了一种递归相互学习机制，进一步促进任务间合作，因此迭代地提高了皮肤病病变分割和黑色素瘤识别模型的联合学习能力。两种公共皮肤病原数据集的实验结果表明了黑色素瘤分析方法的有效性。

translated by 谷歌翻译

Exploring dual-attention mechanism with multi-scale feature extraction scheme for skin lesion segmentation

G Jignesh Chowdary , G V S N Durga Yathisha , Suganya G , Premalatha M

分类：计算机视觉

2021-11-16

由于不规则的病变界限，病变与背景之间的对比度较差，以及伪影之间的对比度，皮肤病的自动分割是一种具有挑战性的任务。在这项工作中，提出了一种新的卷积神经网络的方法，用于皮肤病变分割。在这项工作中，提出了一种新型多尺度特征提取模块，用于提取更多辨别特征，以处理与复杂的皮肤病变有关的挑战;该模块嵌入在UNET中，替换标准架构中的卷积层。此外，在这项工作中，两个不同的关注机制完善了编码器提取的特征和后ups采样的特征。使用两个公开的数据集进行评估，包括ISBI2017和ISIC2018数据集。该方法报告了ISBI2017数据集中的准确性，召回和JSI，97.5％，94.29％，91.16％，95.92％，95.92％，95.37％，95.37％，91.52％在ISIC2018数据集。它在各个竞争中表现出现有的方法和排名的模型。

translated by 谷歌翻译

Hepatic vessel segmentation based on 3Dswin-transformer with inductive biased multi-head self-attention

Mian Wu , Yinling Qian , Xiangyun Liao , Qiong Wang , Pheng-Ann Heng

分类：计算机视觉

2021-11-05

目的：在手术规划之前，CT图像中肝血管的分割是必不可少的，并引起了医学图像分析界的广泛兴趣。由于结构复杂，对比度背景下，自动肝脏血管分割仍然特别具有挑战性。大多数相关的研究采用FCN，U-Net和V-Net变体作为骨干。然而，这些方法主要集中在捕获多尺度局部特征，这可能导致由于卷积运营商有限的地区接收领域而产生错误分类的体素。方法：我们提出了一种强大的端到端血管分割网络，通过将SWIN变压器扩展到3D并采用卷积和自我关注的有效组合，提出了一种被称为电感偏置的多头注意船网（IBIMHAV-NET）的稳健端到端血管分割网络。在实践中，我们介绍了Voxel-Wise嵌入而不是修补程序嵌入，以定位精确的肝脏血管素，并采用多尺度卷积运营商来获得局部空间信息。另一方面，我们提出了感应偏置的多头自我关注，其学习从初始化的绝对位置嵌入的归纳偏置相对位置嵌入嵌入。基于此，我们可以获得更可靠的查询和键矩阵。为了验证我们模型的泛化，我们测试具有不同结构复杂性的样本。结果：我们对3Dircadb数据集进行了实验。四种测试病例的平均骰子和敏感性为74.8％和77.5％，超过现有深度学习方法的结果和改进的图形切割方法。结论：拟议模型IBIMHAV-Net提供一种具有交错架构的自动，精确的3D肝血管分割，可更好地利用CT卷中的全局和局部空间特征。它可以进一步扩展到其他临床数据。

translated by 谷歌翻译

DuAT: Dual-Aggregation Transformer Network for Medical Image Segmentation

Feilong Tang , Qiming Huang , Jinfeng Wang , Xianxu Hou , Jionglong Su , Jingxin Liu

分类：计算机视觉

2022-12-21

Transformer-based models have been widely demonstrated to be successful in computer vision tasks by modelling long-range dependencies and capturing global representations. However, they are often dominated by features of large patterns leading to the loss of local details (e.g., boundaries and small objects), which are critical in medical image segmentation. To alleviate this problem, we propose a Dual-Aggregation Transformer Network called DuAT, which is characterized by two innovative designs, namely, the Global-to-Local Spatial Aggregation (GLSA) and Selective Boundary Aggregation (SBA) modules. The GLSA has the ability to aggregate and represent both global and local spatial features, which are beneficial for locating large and small objects, respectively. The SBA module is used to aggregate the boundary characteristic from low-level features and semantic information from high-level features for better preserving boundary details and locating the re-calibration objects. Extensive experiments in six benchmark datasets demonstrate that our proposed model outperforms state-of-the-art methods in the segmentation of skin lesion images, and polyps in colonoscopy images. In addition, our approach is more robust than existing methods in various challenging situations such as small object segmentation and ambiguous object boundaries.

translated by 谷歌翻译

TransAttUnet: Multi-level Attention-guided U-Net with Transformer for Medical Image Segmentation

Bingzhi Chen , Yishu Liu , Zheng Zhang , Guangming Lu , Adams Wai Kin Kong

分类：计算机视觉

2021-07-12

对医学图像的器官或病变的准确分割对于可靠的疾病和器官形态计量学的可靠诊断至关重要。近年来，卷积编码器解码器解决方案在自动医疗图像分割领域取得了重大进展。由于卷积操作中的固有偏见，先前的模型主要集中在相邻像素形成的局部视觉提示上，但无法完全对远程上下文依赖性进行建模。在本文中，我们提出了一个新型的基于变压器的注意力指导网络，称为Transattunet，其中多层引导注意力和多尺度跳过连接旨在共同增强语义分割体系结构的性能。受到变压器的启发，具有变压器自我注意力（TSA）和全球空间注意力（GSA）的自我意识注意（SAA）被纳入Transattunet中，以有效地学习编码器特征之间的非本地相互作用。此外，我们还使用解码器块之间的其他多尺度跳过连接来汇总具有不同语义尺度的上采样功能。这样，多尺度上下文信息的表示能力就可以增强以产生判别特征。从这些互补组件中受益，拟议的Transattunet可以有效地减轻卷积层堆叠和连续采样操作引起的细节损失，最终提高医学图像的细分质量。来自不同成像方式的多个医疗图像分割数据集进行了广泛的实验表明，所提出的方法始终优于最先进的基线。我们的代码和预培训模型可在以下网址找到：https：//github.com/yishuliu/transattunet。

translated by 谷歌翻译

D-Former: A U-shaped Dilated Transformer for 3D Medical Image Segmentation

Yixuan Wu , Kuanlun Liao , Jintai Chen , Danny Z. Chen , Jinhong Wang , Honghao Gao , Jian Wu

分类：计算机视觉 | 人工智能

2022-01-03

计算机辅助医学图像分割已广泛应用于诊断和治疗，以获得靶器官和组织的形状和体积的临床有用信息。在过去的几年中，基于卷积神经网络（CNN）的方法（例如，U-Net）占主导地位，但仍遭受了不足的远程信息捕获。因此，最近的工作提出了用于医学图像分割任务的计算机视觉变压器变体，并获得了有希望的表现。这种变压器通过计算配对贴片关系来模拟远程依赖性。然而，它们促进了禁止的计算成本，尤其是在3D医学图像（例如，CT和MRI）上。在本文中，我们提出了一种称为扩张变压器的新方法，该方法在本地和全球范围内交替捕获的配对贴片关系进行自我关注。灵感来自扩张卷积核，我们以扩张的方式进行全球自我关注，扩大接收领域而不增加所涉及的斑块，从而降低计算成本。基于这种扩展变压器的设计，我们构造了一个用于3D医学图像分割的U形编码器解码器分层体系结构。 Synapse和ACDC数据集的实验表明，我们的D-Ager Model从头开始培训，以低计算成本从划痕训练，优于各种竞争力的CNN或基于变压器的分段模型，而不耗时的每训练过程。

translated by 谷歌翻译

Uformer: A General U-Shaped Transformer for Image Restoration

Zhendong Wang , Xiaodong Cun , Jianmin Bao , Wengang Zhou , Jianzhuang Liu , Houqiang Li

分类：计算机视觉

2021-06-06

在本文中，我们呈现了UFFORER，一种用于图像恢复的有效和高效的变换器架构，其中我们使用变压器块构建分层编码器解码器网络。在UFFAR中，有两个核心设计。首先，我们介绍了一个新颖的本地增强型窗口（Lewin）变压器块，其执行基于窗口的自我关注而不是全局自我关注。它显着降低了高分辨率特征映射的计算复杂性，同时捕获本地上下文。其次，我们提出了一种以多尺度空间偏置的形式提出了一种学习的多尺度恢复调制器，以调整UFFORER解码器的多个层中的特征。我们的调制器展示了卓越的能力，用于恢复各种图像恢复任务的详细信息，同时引入边缘额外参数和计算成本。通过这两个设计提供支持，UFFORER享有高能力，可以捕获本地和全局依赖性的图像恢复。为了评估我们的方法，在几种图像恢复任务中进行了广泛的实验，包括图像去噪，运动脱棕，散焦和污染物。没有钟声和口哨，与最先进的算法相比，我们的UFormer实现了卓越的性能或相当的性能。代码和模型可在https://github.com/zhendongwang6/uformer中找到。

translated by 谷歌翻译

C2FTrans: Coarse-to-Fine Transformers for Medical Image Segmentation

Xian Lin , Zengqiang Yan , Li Yu , Kwang-Ting Cheng

分类：计算机视觉 | 人工智能

2022-06-29

卷积神经网络（CNN），是基于深度学习的医学图像分析的最普遍的体系结构，在功能上仍受其固有的电感偏见和不充分的接收场的限制。旨在解决这个问题的变压器由于其出色的捕获长期依赖的能力而引起了自然语言处理和计算机视觉的爆炸性关注。但是，最新的基于变压器的医学图像分割方法直接将香草变压器作为基于CNN的方法中的辅助模块应用于辅助模块，从而导致由于变压器中刚性贴片分配方案而导致严重的细节损失。为了解决这个问题，我们提出了C2FTRANS，这是一种新型的多尺度架构，将医学图像分割作为粗到精细的过程。 C2FTRAN主要由跨尺度的全局变压器（CGT）组成，该变压器（CGT）解决了CNN中的局部上下文相似性和边界感知的局部变压器（BLT），该局部变压器（BLT）克服了通过变压器中的刚性贴片分配带来的边界不确定性。具体而言，CGT在三个不同的小规模特征图上建立全球依赖性，以获得具有可接受的计算成本的丰富全球语义特征，而BLT通过在熵的指导下适应围绕边界的窗口来捕获中端依赖性，以降低计算复杂性并最小化最小基于大规模特征地图的详细损失。三个公共数据集的广泛实验结果证明了C2FTRAN的卓越性能与基于CNN的最新基于CNN和基于变压器的方法具有更少的参数和较低的拖失术。我们认为，C2Ftrans的设计将进一步激发未来在开发高效和轻量级变压器以进行医学图像细分方面的工作。本文的源代码可在https://github.com/xianlin7/c2ftrans上公开获得。

translated by 谷歌翻译

Class-Aware Adversarial Transformers for Medical Image Segmentation

Chenyu You , Ruihan Zhao , Fenglin Liu , Siyuan Dong , Sandeep Chinchali , Ufuk Topcu , Lawrence Staib , James S. Duncan

分类：计算机视觉 | 人工智能 | 机器学习

2022-01-26

Transformers have made remarkable progress towards modeling long-range dependencies within the medical image analysis domain. However, current transformer-based models suffer from several disadvantages: (1) existing methods fail to capture the important features of the images due to the naive tokenization scheme; (2) the models suffer from information loss because they only consider single-scale feature representations; and (3) the segmentation label maps generated by the models are not accurate enough without considering rich semantic contexts and anatomical textures. In this work, we present CASTformer, a novel type of adversarial transformers, for 2D medical image segmentation. First, we take advantage of the pyramid structure to construct multi-scale representations and handle multi-scale variations. We then design a novel class-aware transformer module to better learn the discriminative regions of objects with semantic structures. Lastly, we utilize an adversarial training strategy that boosts segmentation accuracy and correspondingly allows a transformer-based discriminator to capture high-level semantically correlated contents and low-level anatomical features. Our experiments demonstrate that CASTformer dramatically outperforms previous state-of-the-art transformer-based approaches on three benchmarks, obtaining 2.54%-5.88% absolute improvements in Dice over previous models. Further qualitative experiments provide a more detailed picture of the model's inner workings, shed light on the challenges in improved transparency, and demonstrate that transfer learning can greatly improve performance and reduce the size of medical image datasets in training, making CASTformer a strong starting point for downstream medical image analysis tasks.

translated by 谷歌翻译

Fully Transformer Networks for Semantic Image Segmentation

Sitong Wu , Tianyi Wu , Fangjian Lin , Shengwei Tian , Guodong Guo

分类：计算机视觉

2021-06-08

由于长距离依赖性建模的能力，变压器在各种自然语言处理和计算机视觉任务中表现出令人印象深刻的性能。最近的进展证明，将这种变压器与基于CNN的语义图像分割模型相结合非常有前途。然而，目前还没有很好地研究了纯变压器的方法如何实现图像分割。在这项工作中，我们探索了语义图像分割的新框架，它是基于编码器 - 解码器的完全变压器网络（FTN）。具体地，我们首先提出金字塔组变压器（PGT）作为逐步学习分层特征的编码器，同时降低标准视觉变压器（VIT）的计算复杂性。然后，我们将特征金字塔变换器（FPT）提出了来自PGT编码器的多电平进行语义图像分割的多级别的语义级别和空间级信息。令人惊讶的是，这种简单的基线可以在多个具有挑战性的语义细分和面部解析基准上实现更好的结果，包括帕斯卡背景，ADE20K，Cocostuff和Celebamask-HQ。源代码将在https://github.com/br -dl/paddlevit上发布。

translated by 谷歌翻译

DAE-Former: Dual Attention-guided Efficient Transformer for Medical Image Segmentation

Reza Azad , René Arimond , Ehsan Khodapanah Aghdam , Amirhosein Kazerouni , Dorit Merhof

分类：计算机视觉

2022-12-27

Transformers have recently gained attention in the computer vision domain due to their ability to model long-range dependencies. However, the self-attention mechanism, which is the core part of the Transformer model, usually suffers from quadratic computational complexity with respect to the number of tokens. Many architectures attempt to reduce model complexity by limiting the self-attention mechanism to local regions or by redesigning the tokenization process. In this paper, we propose DAE-Former, a novel method that seeks to provide an alternative perspective by efficiently designing the self-attention mechanism. More specifically, we reformulate the self-attention mechanism to capture both spatial and channel relations across the whole feature dimension while staying computationally efficient. Furthermore, we redesign the skip connection path by including the cross-attention module to ensure the feature reusability and enhance the localization power. Our method outperforms state-of-the-art methods on multi-organ cardiac and skin lesion segmentation datasets without requiring pre-training weights. The code is publicly available at https://github.com/mindflow-institue/DAEFormer.

translated by 谷歌翻译

Transformers in Medical Image Analysis: A Review

Kelei He , Chen Gan , Zhuoyuan Li , Islem Rekik , Zihao Yin , Wen Ji , Yang Gao , Qian Wang , Junfeng Zhang , Dinggang Shen

分类：计算机视觉

2022-02-24

变形金刚占据了自然语言处理领域，最近影响了计算机视觉区域。在医学图像分析领域中，变压器也已成功应用于全栈临床应用，包括图像合成/重建，注册，分割，检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言，我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次，我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构，并讨论其局限性。在这篇综述中，我们调查了围绕在不同学习范式中使用变压器，提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。

translated by 谷歌翻译

Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers

Bo Dong , Wenhai Wang , Deng-Ping Fan , Jinpeng Li , Huazhu Fu , Ling Shao

分类：计算机视觉

2021-08-16

大多数息肉分段方法使用CNNS作为其骨干，导致在编码器和解码器之间的信息交换信息时的两个关键问题：1）考虑到不同级别特征之间的贡献的差异; 2）设计有效机制，以融合这些功能。不同于现有的基于CNN的方法，我们采用了一个变压器编码器，它学会了更强大和强大的表示。此外，考虑到息肉的图像采集影响和难以实现的性质，我们介绍了三种新模块，包括级联融合模块（CFM），伪装识别模块（CIM），A和相似性聚集模块（SAM）。其中，CFM用于从高级功能收集息肉的语义和位置信息，而CIM应用于在低级功能中伪装的息肉信息。在SAM的帮助下，我们将息肉区域的像素特征扩展到整个息肉区域的高电平语义位置信息，从而有效地融合了交叉级别特征。所提出的模型名为Polyp-PVT，有效地抑制了特征中的噪声，并显着提高了他们的表现力。在五个广泛采用的数据集上进行了广泛的实验表明，所提出的模型对各种具有挑战性的情况（例如，外观变化，小物体）比现有方法更加强大，并实现了新的最先进的性能。拟议的模型可在https://github.com/dengpingfan/polyp-pvt获得。

translated by 谷歌翻译

OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers

Jialun Pei , Tianyang Cheng , Deng-Ping Fan , He Tang , Chuanbo Chen , Luc Van Gool

分类：计算机视觉

2022-07-05

我们提出Osformer，这是伪装实例分割（CIS）的第一个单阶段变压器框架。Osformer基于两个关键设计。首先，我们设计了一个位置传感变压器（LST），以通过引入位置引导查询和混合通风volvolution feedforward网络来获得位置标签和实例感知参数。其次，我们开发了一个粗到细节的融合（CFF），以合并LST编码器和CNN骨架的各种上下文信息。结合这两个组件使Osformer能够有效地融合本地特征和远程上下文依赖关系，以预测伪装的实例。与两阶段的框架相比，我们的OSFORMER达到41％的AP并达到良好的收敛效率，而无需大量的训练数据，即仅3040个以下的样本以下60个时代。代码链接：https：//github.com/pjlallen/osformer。

translated by 谷歌翻译

Defect Transformer: An Efficient Hybrid Transformer Architecture for Surface Defect Detection

Junpu Wang , Guili Xu , Fuju Yan , Jinjin Wang , Zhengsheng Wang

分类：计算机视觉

2022-07-17

表面缺陷检测是确保工业产品质量的极其至关重要的步骤。如今，基于编码器架构的卷积神经网络（CNN）在各种缺陷检测任务中取得了巨大的成功。然而，由于卷积的内在局部性，它们通常在明确建模长距离相互作用时表现出限制，这对于复杂情况下的像素缺陷检测至关重要，例如杂乱的背景和难以辨认的伪缺陷。最近的变压器尤其擅长学习全球图像依赖性，但对于详细的缺陷位置所需的本地结构信息有限。为了克服上述局限性，我们提出了一个有效的混合变压器体系结构，称为缺陷变压器（faft），用于表面缺陷检测，该检测将CNN和Transferaler纳入统一模型，以协作捕获本地和非本地关系。具体而言，在编码器模块中，首先采用卷积茎块来保留更详细的空间信息。然后，贴片聚合块用于生成具有四个层次结构的多尺度表示形式，每个层次结构之后分别是一系列的feft块，该块分别包括用于本地位置编码的本地位置块，一个轻巧的多功能自我自我 - 注意与良好的计算效率建模多尺度的全球上下文关系，以及用于功能转换和进一步位置信息学习的卷积馈送网络。最后，提出了一个简单但有效的解码器模块，以从编码器中的跳过连接中逐渐恢复空间细节。与其他基于CNN的网络相比，三个数据集上的广泛实验证明了我们方法的优势和效率。

translated by 谷歌翻译

SegViT: Semantic Segmentation with Plain Vision Transformers

Bowen Zhang , Zhi Tian , Quan Tang , Xiangxiang Chu , Xiaolin Wei , Chunhua Shen , Yifan Liu

分类：计算机视觉

2022-10-12

We explore the capability of plain Vision Transformers (ViTs) for semantic segmentation and propose the SegVit. Previous ViT-based segmentation networks usually learn a pixel-level representation from the output of the ViT. Differently, we make use of the fundamental component -- attention mechanism, to generate masks for semantic segmentation. Specifically, we propose the Attention-to-Mask (ATM) module, in which the similarity maps between a set of learnable class tokens and the spatial feature maps are transferred to the segmentation masks. Experiments show that our proposed SegVit using the ATM module outperforms its counterparts using the plain ViT backbone on the ADE20K dataset and achieves new state-of-the-art performance on COCO-Stuff-10K and PASCAL-Context datasets. Furthermore, to reduce the computational cost of the ViT backbone, we propose query-based down-sampling (QD) and query-based up-sampling (QU) to build a Shrunk structure. With the proposed Shrunk structure, the model can save up to $40\%$ computations while maintaining competitive performance.

translated by 谷歌翻译