智能论文笔记

Learning Implicit Feature Alignment Function for Semantic Segmentation

Hanzhe Hu , Yinbo Chen , Jiarui Xu , Shubhankar Borse , Hong Cai , Fatih Porikli , Xiaolong Wang

分类：计算机视觉

2022-06-17

在语义细分中，将高级上下文信息与低级详细信息集成至关重要。为此，大多数现有的分割模型都采用双线性启动采样和卷积来具有不同尺度的地图，然后以相同的分辨率对齐。但是，双线性启动采样模糊了这些特征地图和卷积中所学到的精确信息，这会产生额外的计算成本。为了解决这些问题，我们提出了隐式特征对齐函数（IFA）。我们的方法的灵感来自隐式神经表示的快速扩展的主题，在该主题中，基于坐标的神经网络用于指定信号字段。在IFA中，特征向量被视为表示2D信息字段。给定查询坐标，附近的具有相对坐标的特征向量是从多级特征图中获取的，然后馈入MLP以生成相应的输出。因此，IFA隐含地将特征图在不同级别对齐，并能够在任意分辨率中产生分割图。我们证明了IFA在多个数据集上的功效，包括CityScapes，Pascal环境和ADE20K。我们的方法可以与各种体系结构的改进结合使用，并在共同基准上实现最新的计算准确性权衡。代码将在https://github.com/hzhupku/ifa上提供。

translated by 谷歌翻译

SFNet: Faster, Accurate, and Domain Agnostic Semantic Segmentation via Semantic Flow

Xiangtai Li , Jiangning Zhang , Yibo Yang , Guangliang Cheng , Kuiyuan Yang , Yunhai Tong , Dacheng Tao

分类：计算机视觉

2022-07-10

在本文中，我们专注于探索有效的方法，以更快，准确和域的不可知性语义分割。受到相邻视频帧之间运动对齐的光流的启发，我们提出了一个流对齐模块（FAM），以了解相邻级别的特征映射之间的\ textit {语义流}，并将高级特征广播到高分辨率特征有效地，有效地有效。。此外，将我们的FAM与共同特征的金字塔结构集成在一起，甚至在轻量重量骨干网络（例如Resnet-18和DFNET）上也表现出优于其他实时方法的性能。然后，为了进一步加快推理过程，我们还提出了一个新型的封闭式双流对齐模块，以直接对齐高分辨率特征图和低分辨率特征图，在该图中我们将改进版本网络称为SFNET-LITE。广泛的实验是在几个具有挑战性的数据集上进行的，结果显示了SFNET和SFNET-LITE的有效性。特别是，建议的SFNET-LITE系列在使用RESNET-18主链和78.8 MIOU以120 fps运行的情况下，使用RTX-3090上的STDC主链在120 fps运行时，在60 fps运行时达到80.1 miou。此外，我们将四个具有挑战性的驾驶数据集（即CityScapes，Mapillary，IDD和BDD）统一到一个大数据集中，我们将其命名为Unified Drive细分（UDS）数据集。它包含不同的域和样式信息。我们基准了UDS上的几项代表性作品。 SFNET和SFNET-LITE仍然可以在UDS上取得最佳的速度和准确性权衡，这在如此新的挑战性环境中是强大的基准。所有代码和模型均可在https://github.com/lxtgh/sfsegnets上公开获得。

translated by 谷歌翻译

S\textsuperscript{2}-FPN: Scale-ware Strip Attention Guided Feature Pyramid Network for Real-time Semantic Segmentation

Mohammed A. M. Elhassan , Chenhui Yang , Chenxi Huang , Tewodros Legesse Munea , Xin Hong

分类：计算机视觉 | 人工智能

2022-06-15

现代的高性能语义分割方法采用沉重的主链和扩张的卷积来提取相关特征。尽管使用上下文和语义信息提取功能对于分割任务至关重要，但它为实时应用程序带来了内存足迹和高计算成本。本文提出了一种新模型，以实现实时道路场景语义细分的准确性/速度之间的权衡。具体来说，我们提出了一个名为“比例吸引的条带引导特征金字塔网络”（s \ textsuperscript {2} -fpn）的轻巧模型。我们的网络由三个主要模块组成：注意金字塔融合（APF）模块，比例吸引条带注意模块（SSAM）和全局特征Upsample（GFU）模块。 APF采用了注意力机制来学习判别性多尺度特征，并有助于缩小不同级别之间的语义差距。 APF使用量表感知的关注来用垂直剥离操作编码全局上下文，并建模长期依赖性，这有助于将像素与类似的语义标签相关联。此外，APF还采用频道重新加权块（CRB）来强调频道功能。最后，S \ TextSuperScript {2} -fpn的解码器然后采用GFU，该GFU用于融合APF和编码器的功能。已经对两个具有挑战性的语义分割基准进行了广泛的实验，这表明我们的方法通过不同的模型设置实现了更好的准确性/速度权衡。提出的模型已在CityScapes Dataset上实现了76.2 \％miou/87.3fps，77.4 \％miou/67fps和77.8 \％miou/30.5fps，以及69.6 \％miou，71.0 miou，71.0 \％miou，和74.2 \％\％\％\％\％\％。 miou在Camvid数据集上。这项工作的代码将在\ url {https://github.com/mohamedac29/s2-fpn提供。

translated by 谷歌翻译

Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road Scenes

Yuanduo Hong , Huihui Pan , Weichao Sun , Yisong Jia

分类：计算机视觉

2021-01-15

语义分割是自主车辆了解周围场景的关键技术。当代模型的吸引力表现通常以牺牲重计算和冗长的推理时间为代价，这对于自行车来说是无法忍受的。在低分辨率图像上使用轻量级架构（编码器 - 解码器或双路）或推理，最近的方法实现了非常快的场景解析，即使在单个1080TI GPU上以100多件FPS运行。然而，这些实时方法与基于扩张骨架的模型之间的性能仍有显着差距。为了解决这个问题，我们提出了一家专门为实时语义细分设计的高效底座。所提出的深层双分辨率网络（DDRNET）由两个深部分支组成，之间进行多个双边融合。此外，我们设计了一个名为Deep聚合金字塔池（DAPPM）的新上下文信息提取器，以基于低分辨率特征映射放大有效的接收字段和熔丝多尺度上下文。我们的方法在城市景观和Camvid数据集上的准确性和速度之间实现了新的最先进的权衡。特别是，在单一的2080Ti GPU上，DDRNET-23-Slim在Camvid测试组上的Citycapes试验组102 FPS上的102 FPS，74.7％Miou。通过广泛使用的测试增强，我们的方法优于最先进的模型，需要计算得多。 CODES和培训的型号在线提供。

translated by 谷歌翻译

Revisiting Multi-Scale Feature Fusion for Semantic Segmentation

Tianjian Meng , Golnaz Ghiasi , Reza Mahjourian , Quoc V. Le , Mingxing Tan

分类：计算机视觉 | 人工智能

2022-03-23

人们普遍认为，对于准确的语义细分，必须使用昂贵的操作（例如，非常卷积）结合使用昂贵的操作（例如非常卷积），从而导致缓慢的速度和大量的内存使用。在本文中，我们质疑这种信念，并证明既不需要高度的内部决议也不是必需的卷积。我们的直觉是，尽管分割是一个每像素的密集预测任务，但每个像素的语义通常都取决于附近的邻居和遥远的环境。因此，更强大的多尺度功能融合网络起着至关重要的作用。在此直觉之后，我们重新访问常规的多尺度特征空间（通常限制为P5），并将其扩展到更丰富的空间，最小的P9，其中最小的功能仅为输入大小的1/512，因此具有很大的功能接受场。为了处理如此丰富的功能空间，我们利用最近的BIFPN融合了多尺度功能。基于这些见解，我们开发了一个简化的分割模型，称为ESEG，该模型既没有内部分辨率高，也没有昂贵的严重卷积。也许令人惊讶的是，与多个数据集相比，我们的简单方法可以以比以前的艺术更快地实现更高的准确性。在实时设置中，ESEG-Lite-S在189 fps的CityScapes [12]上达到76.0％MIOU，表现优于更快的[9]（73.1％MIOU时为170 fps）。我们的ESEG-LITE-L以79 fps的速度运行，达到80.1％MIOU，在很大程度上缩小了实时和高性能分割模型之间的差距。

translated by 谷歌翻译

Multi-Scale Feature Aggregation by Cross-Scale Pixel-to-Region Relation Operation for Semantic Segmentation

Yechao Bai , Ziyuan Huang , Lyuyu Shen , Hongliang Guo , Marcelo H. Ang Jr , Daniela Rus

分类：计算机视觉

2021-06-03

利用多尺度功能在解决语义细分问题方面表现出了巨大的潜力。聚集通常是用总和或串联（Concat）进行的，然后是卷积（Conv）层。但是，它将高级上下文完全通过了以下层次结构，而无需考虑它们的相互关系。在这项工作中，我们旨在启用低级功能，以通过跨尺度像素到区域关系操作从相邻的高级特征图中汇总互补上下文。我们利用跨尺度上下文的传播，即使高分辨率的低级特征也可以使远程依赖关系也可以捕获。为此，我们采用有效的功能金字塔网络来获得多尺度功能。我们提出了一个关系语义提取器（RSE）和关系语义传播器（RSP），分别用于上下文提取和传播。然后，我们将几个RSP堆叠到RSP头中，以实现上下文的渐进自上而下分布。两个具有挑战性的数据集和可可的实验结果表明，RSP头在语义细分和泛型分割方面都具有高效率的竞争性。在语义分割任务中，它的表现优于DeepLabv3 [1]，而在语义分割任务中少75％（多重添加）。

translated by 谷歌翻译

Fully Transformer Networks for Semantic Image Segmentation

Sitong Wu , Tianyi Wu , Fangjian Lin , Shengwei Tian , Guodong Guo

分类：计算机视觉

2021-06-08

由于长距离依赖性建模的能力，变压器在各种自然语言处理和计算机视觉任务中表现出令人印象深刻的性能。最近的进展证明，将这种变压器与基于CNN的语义图像分割模型相结合非常有前途。然而，目前还没有很好地研究了纯变压器的方法如何实现图像分割。在这项工作中，我们探索了语义图像分割的新框架，它是基于编码器 - 解码器的完全变压器网络（FTN）。具体地，我们首先提出金字塔组变压器（PGT）作为逐步学习分层特征的编码器，同时降低标准视觉变压器（VIT）的计算复杂性。然后，我们将特征金字塔变换器（FPT）提出了来自PGT编码器的多电平进行语义图像分割的多级别的语义级别和空间级信息。令人惊讶的是，这种简单的基线可以在多个具有挑战性的语义细分和面部解析基准上实现更好的结果，包括帕斯卡背景，ADE20K，Cocostuff和Celebamask-HQ。源代码将在https://github.com/br -dl/paddlevit上发布。

translated by 谷歌翻译

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

Sixiao Zheng , Jiachen Lu , Hengshuang Zhao , Xiatian Zhu , Zekun Luo , Yabiao Wang , Yanwei Fu , Jianfeng Feng , Tao Xiang , Philip H. S. Torr

分类：

2020-12-31

Most recent semantic segmentation methods adopt a fully-convolutional network (FCN) with an encoderdecoder architecture. The encoder progressively reduces the spatial resolution and learns more abstract/semantic visual concepts with larger receptive fields. Since context modeling is critical for segmentation, the latest efforts have been focused on increasing the receptive field, through either dilated/atrous convolutions or inserting attention modules. However, the encoder-decoder based FCN architecture remains unchanged. In this paper, we aim to provide an alternative perspective by treating semantic segmentation as a sequence-to-sequence prediction task. Specifically, we deploy a pure transformer (i.e., without convolution and resolution reduction) to encode an image as a sequence of patches. With the global context modeled in every layer of the transformer, this encoder can be combined with a simple decoder to provide a powerful segmentation model, termed SEgmentation TRansformer (SETR). Extensive experiments show that SETR achieves new state of the art on ADE20K (50.28% mIoU), Pascal Context (55.83% mIoU) and competitive results on Cityscapes. Particularly, we achieve the first position in the highly competitive ADE20K test server leaderboard on the day of submission.

translated by 谷歌翻译

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

Liang-Chieh Chen , Yukun Zhu , George Papandreou , Florian Schroff , Hartwig Adam

分类：

2018-02-07

Spatial pyramid pooling module or encode-decoder structure are used in deep neural networks for semantic segmentation task. The former networks are able to encode multi-scale contextual information by probing the incoming features with filters or pooling operations at multiple rates and multiple effective fields-of-view, while the latter networks can capture sharper object boundaries by gradually recovering the spatial information. In this work, we propose to combine the advantages from both methods. Specifically, our proposed model, DeepLabv3+, extends DeepLabv3 by adding a simple yet effective decoder module to refine the segmentation results especially along object boundaries. We further explore the Xception model and apply the depthwise separable convolution to both Atrous Spatial Pyramid Pooling and decoder modules, resulting in a faster and stronger encoder-decoder network. We demonstrate the effectiveness of the proposed model on PASCAL VOC 2012 and Cityscapes datasets, achieving the test set performance of 89.0% and 82.1% without any post-processing. Our paper is accompanied with a publicly available reference implementation of the proposed models in Tensorflow at https: //github.com/tensorflow/models/tree/master/research/deeplab.

translated by 谷歌翻译

Self-attention on Multi-Shifted Windows for Scene Segmentation

Litao Yu , Zhibin Li , Jian Zhang , Qiang Wu

分类：计算机视觉

2022-07-10

图像中的场景细分是视觉内容理解中的一个基本而又具有挑战性的问题，即学习一个模型，将每个图像像素分配给分类标签。这项学习任务的挑战之一是考虑空间和语义关系以获得描述性特征表示，因此从多个量表中学习特征图是场景细分中的一种常见实践。在本文中，我们探讨了在多尺度图像窗口中自我发挥的有效使用来学习描述性视觉特征，然后提出三种不同的策略来汇总这些特征图以解码特征表示形式以进行密集的预测。我们的设计基于最近提出的SWIN Transformer模型，该模型完全放弃了卷积操作。借助简单而有效的多尺度功能学习和聚合，我们的模型在四个公共场景细分数据集，Pascal VOC2012，Coco-STUFF 10K，ADE20K和CITYSCAPES上实现了非常有希望的性能。

translated by 谷歌翻译

MCIBI++: Soft Mining Contextual Information Beyond Image for Semantic Segmentation

Zhenchao Jin , Dongdong Yu , Zehuan Yuan , Lequan Yu

分类：计算机视觉

2022-09-09

共同出现的视觉模式使上下文聚集成为语义分割的重要范式。现有的研究重点是建模图像中的上下文，同时忽略图像以下相应类别的有价值的语义。为此，我们提出了一个新颖的软采矿上下文信息，超出了名为McIbi ++的图像范式，以进一步提高像素级表示。具体来说，我们首先设置了动态更新的内存模块，以存储各种类别的数据集级别的分布信息，然后利用信息在网络转发过程中产生数据集级别类别表示。之后，我们为每个像素表示形式生成一个类概率分布，并以类概率分布作为权重进行数据集级上下文聚合。最后，使用汇总的数据集级别和传统的图像级上下文信息来增强原始像素表示。此外，在推论阶段，我们还设计了一种粗到最新的迭代推理策略，以进一步提高分割结果。 MCIBI ++可以轻松地纳入现有的分割框架中，并带来一致的性能改进。此外，MCIBI ++可以扩展到视频语义分割框架中，比基线进行了大量改进。配备MCIBI ++，我们在七个具有挑战性的图像或视频语义分段基准测试中实现了最先进的性能。

translated by 谷歌翻译

Multi Receptive Field Network for Semantic Segmentation

Jianlong Yuan , Zelu Deng , Shu Wang , Zhenbo Luo

分类：计算机视觉

2020-11-17

语义分割是计算机视觉中的关键任务之一，它是为图像中的每个像素分配类别标签。尽管最近取得了重大进展，但大多数现有方法仍然遇到两个具有挑战性的问题：1）图像中的物体和东西的大小可能非常多样化，要求将多规模特征纳入完全卷积网络（FCN）； 2）由于卷积网络的固有弱点，很难分类靠近物体/物体的边界的像素。为了解决第一个问题，我们提出了一个新的多受感受性现场模块（MRFM），明确考虑了多尺度功能。对于第二期，我们设计了一个边缘感知损失，可有效区分对象/物体的边界。通过这两种设计，我们的多种接收场网络在两个广泛使用的语义分割基准数据集上实现了新的最先进的结果。具体来说，我们在CityScapes数据集上实现了83.0的平均值，在Pascal VOC2012数据集中达到了88.4的平均值。

translated by 谷歌翻译

Visual Representation Learning with Transformer: A Sequence-to-Sequence Perspective

Li Zhang , Sixiao Zheng , Jiachen Lu , Xinxuan Zhao , Xiatian Zhu , Yanwei Fu , Tao Xiang , Jianfeng Feng

分类：计算机视觉

2022-07-19

视觉表示学习是解决各种视力问题的关键。依靠开创性的网格结构先验，卷积神经网络（CNN）已成为大多数深视觉模型的事实上的标准架构。例如，经典的语义分割方法通常采用带有编码器编码器体系结构的完全横向卷积网络（FCN）。编码器逐渐减少了空间分辨率，并通过更大的接受场来学习更多抽象的视觉概念。由于上下文建模对于分割至关重要，因此最新的努力一直集中在通过扩张（即极度）卷积或插入注意力模块来增加接受场。但是，基于FCN的体系结构保持不变。在本文中，我们旨在通过将视觉表示学习作为序列到序列预测任务来提供替代观点。具体而言，我们部署纯变压器以将图像编码为一系列贴片，而无需局部卷积和分辨率减少。通过在变压器的每一层中建立的全球环境，可以学习更强大的视觉表示形式，以更好地解决视力任务。特别是，我们的细分模型（称为分割变压器（SETR））在ADE20K上擅长（50.28％MIOU，这是提交当天测试排行榜中的第一个位置），Pascal环境（55.83％MIOU），并在CityScapes上达到竞争成果。此外，我们制定了一个分层局部全球（HLG）变压器的家族，其特征是窗户内的本地关注和跨窗户的全球性专注于层次结构和金字塔架构。广泛的实验表明，我们的方法在各种视觉识别任务（例如，图像分类，对象检测和实例分割和语义分割）上实现了吸引力的性能。

translated by 谷歌翻译

MOSAIC: Mobile Segmentation via decoding Aggregated Information and encoded Context

Weijun Wang , Andrew Howard

分类：计算机视觉 | 人工智能

2021-12-22

我们展示了一个下一代神经网络架构，马赛克，用于移动设备上的高效和准确的语义图像分割。MOSAIC是通过各种移动硬件平台使用常用的神经操作设计，以灵活地部署各种移动平台。利用简单的非对称编码器 - 解码器结构，该解码器结构由有效的多尺度上下文编码器和轻量级混合解码器组成，以从聚合信息中恢复空间细节，Mosaic在平衡准确度和计算成本的同时实现了新的最先进的性能。基于搜索的分类网络，马赛克部署在定制的特征提取骨架顶部，达到目前行业标准MLPerf型号和最先进的架构，达到5％的绝对精度增益。

translated by 谷歌翻译

Efficient Self-Ensemble Framework for Semantic Segmentation

Walid Bousselham , Guillaume Thibault , Lucas Pagano , Archana Machireddy , Joe Gray , Young Hwan Chang , Xubo Song

分类：计算机视觉

2021-11-26

已知预测的集合，而是比单独采取的个体预测更好地执行更好。但是，对于需要重型计算资源的任务，\ texit {例如}语义细分，创建需要单独培训的学习者的集合几乎没有易行。在这项工作中，我们建议利用集合方法提供的性能提升，以增强语义分割，同时避免了集合的传统训练成本。我们的自我集成框架利用了通过特征金字塔网络方法生产的多尺度功能来提供独立解码器，从而在单个模型中创建集合。类似于集合，最终预测是每个学习者所做的预测的聚合。与以前的作品相比，我们的模型可以训练结束，减轻了传统的繁琐多阶段培训的合奏。我们的自身融合框架优于当前最先进的基准数据集ADE20K，Pascal Context和Coco-Stuff-10K用于语义细分，并且在城市景观竞争。代码将在Github.com/walbouss/senformer上使用。

translated by 谷歌翻译

Dense Prediction with Attentive Feature Aggregation

Yung-Hsu Yang , Thomas E. Huang , Samuel Rota Bulò , Peter Kontschieder , Fisher Yu

分类：计算机视觉

2021-11-01

跨不同层的特征的聚合信息是密集预测模型的基本操作。尽管表现力有限，但功能级联占主导地位聚合运营的选择。在本文中，我们引入了细分特征聚合（AFA），以融合不同的网络层，具有更具表现力的非线性操作。 AFA利用空间和渠道注意，以计算层激活的加权平均值。灵感来自神经体积渲染，我们将AFA扩展到规模空间渲染（SSR），以执行多尺度预测的后期融合。 AFA适用于各种现有网络设计。我们的实验表明了对挑战性的语义细分基准，包括城市景观，BDD100K和Mapillary Vistas的一致而显着的改进，可忽略不计的计算和参数开销。特别是，AFA改善了深层聚集（DLA）模型在城市景观上的近6％Miou的性能。我们的实验分析表明，AFA学会逐步改进分割地图并改善边界细节，导致新的最先进结果对BSDS500和NYUDV2上的边界检测基准。在http://vis.xyz/pub/dla-afa上提供代码和视频资源。

translated by 谷歌翻译

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation

Meng-Hao Guo , Cheng-Ze Lu , Qibin Hou , Zhengning Liu , Ming-Ming Cheng , Shi-Min Hu

分类：计算机视觉

2022-09-18

我们提出Segnext，这是一种简单的卷积网络体系结构，用于语义分割。由于自我注意力在编码空间信息中的效率，基于变压器的最新模型已主导语义分割领域。在本文中，我们表明卷积注意是一种比变形金刚中的自我注意机制更有效的编码上下文信息的方法。通过重新检查成功分割模型所拥有的特征，我们发现了几个关键组件，从而导致分割模型的性能提高。这促使我们设计了一个新型的卷积注意网络，该网络使用廉价的卷积操作。没有铃铛和哨子，我们的Segnext显着提高了先前最先进的方法对流行基准测试的性能，包括ADE20K，CityScapes，Coco-stuff，Pascal VOC，Pascal Context和ISAID。值得注意的是，segnext优于w/ nas-fpn的效率超过lavenet-l2，在帕斯卡VOC 2012测试排行榜上仅使用1/10参数，在Pascal VOC 2012测试排行榜上达到90.6％。平均而言，与具有相同或更少计算的ADE20K数据集上的最新方法相比，Segnext的改进约为2.0％。代码可在https://github.com/uyzhang/jseg（jittor）和https://github.com/visual-cratch-network/segnext（pytorch）获得。

translated by 谷歌翻译

Dual Attention Network for Scene Segmentation

Jun Fu , Jing Liu , Haijie Tian , Yong Li , Yongjun Bao , Zhiwei Fang , Hanqing Lu

分类：

2018-09-09

In this paper, we address the scene segmentation task by capturing rich contextual dependencies based on the self-attention mechanism. Unlike previous works that capture contexts by multi-scale feature fusion, we propose a Dual Attention Network (DANet) to adaptively integrate local features with their global dependencies. Specifically, we append two types of attention modules on top of dilated FCN, which model the semantic interdependencies in spatial and channel dimensions respectively. The position attention module selectively aggregates the feature at each position by a weighted sum of the features at all positions. Similar features would be related to each other regardless of their distances. Meanwhile, the channel attention module selectively emphasizes interdependent channel maps by integrating associated features among all channel maps. We sum the outputs of the two attention modules to further improve feature representation which contributes to more precise segmentation results. We achieve new state-of-theart segmentation performance on three challenging scene segmentation datasets, i.e., Cityscapes, PASCAL Context and COCO Stuff dataset. In particular, a Mean IoU score of 81.5% on Cityscapes test set is achieved without using coarse data. 1 .

translated by 谷歌翻译

RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation

Guosheng Lin , Anton Milan , Chunhua Shen , Ian Reid

分类：

2016-11-20

Australian Centre for Robotic Vision {guosheng.lin;anton.milan;chunhua.shen;

translated by 谷歌翻译

SegViT: Semantic Segmentation with Plain Vision Transformers

Bowen Zhang , Zhi Tian , Quan Tang , Xiangxiang Chu , Xiaolin Wei , Chunhua Shen , Yifan Liu

分类：计算机视觉

2022-10-12

We explore the capability of plain Vision Transformers (ViTs) for semantic segmentation and propose the SegVit. Previous ViT-based segmentation networks usually learn a pixel-level representation from the output of the ViT. Differently, we make use of the fundamental component -- attention mechanism, to generate masks for semantic segmentation. Specifically, we propose the Attention-to-Mask (ATM) module, in which the similarity maps between a set of learnable class tokens and the spatial feature maps are transferred to the segmentation masks. Experiments show that our proposed SegVit using the ATM module outperforms its counterparts using the plain ViT backbone on the ADE20K dataset and achieves new state-of-the-art performance on COCO-Stuff-10K and PASCAL-Context datasets. Furthermore, to reduce the computational cost of the ViT backbone, we propose query-based down-sampling (QD) and query-based up-sampling (QU) to build a Shrunk structure. With the proposed Shrunk structure, the model can save up to $40\%$ computations while maintaining competitive performance.

translated by 谷歌翻译