智能论文笔记

Localized Feature Aggregation Module for Semantic Segmentation

Ryouichi Furukawa , Kazuhiro Hotta

分类：计算机视觉

2021-12-03

我们提出了一种新的信息聚合方法，其基于编码器和解码器的特征映射之间的相似性称为本地特征聚合模块。该方法通过强调解码器的特征映射与具有卓越位置信息的特征映射的特征映射的相似性来恢复位置信息。该方法可以比U-Net和U-Net中的传统替代更有效地学习位置信息。此外，该方法还使用局部关注范围来降低计算成本。两种创新有助于提高计算成本较低的分割准确性。通过对果蝇单元格图像数据集和Covid-19图像数据集进行实验，我们证实了我们的方法表现出常规方法。

translated by 谷歌翻译

TransAttUnet: Multi-level Attention-guided U-Net with Transformer for Medical Image Segmentation

Bingzhi Chen , Yishu Liu , Zheng Zhang , Guangming Lu , Adams Wai Kin Kong

分类：计算机视觉

2021-07-12

对医学图像的器官或病变的准确分割对于可靠的疾病和器官形态计量学的可靠诊断至关重要。近年来，卷积编码器解码器解决方案在自动医疗图像分割领域取得了重大进展。由于卷积操作中的固有偏见，先前的模型主要集中在相邻像素形成的局部视觉提示上，但无法完全对远程上下文依赖性进行建模。在本文中，我们提出了一个新型的基于变压器的注意力指导网络，称为Transattunet，其中多层引导注意力和多尺度跳过连接旨在共同增强语义分割体系结构的性能。受到变压器的启发，具有变压器自我注意力（TSA）和全球空间注意力（GSA）的自我意识注意（SAA）被纳入Transattunet中，以有效地学习编码器特征之间的非本地相互作用。此外，我们还使用解码器块之间的其他多尺度跳过连接来汇总具有不同语义尺度的上采样功能。这样，多尺度上下文信息的表示能力就可以增强以产生判别特征。从这些互补组件中受益，拟议的Transattunet可以有效地减轻卷积层堆叠和连续采样操作引起的细节损失，最终提高医学图像的细分质量。来自不同成像方式的多个医疗图像分割数据集进行了广泛的实验表明，所提出的方法始终优于最先进的基线。我们的代码和预培训模型可在以下网址找到：https：//github.com/yishuliu/transattunet。

translated by 谷歌翻译

HistoSeg : Quick attention with multi-loss function for multi-structure segmentation in digital histology images

Saad Wazir , Muhammad Moazam Fraz

分类：计算机视觉

2022-09-01

医疗图像分割有助于计算机辅助诊断，手术和治疗。数字化组织载玻片图像用于分析和分段腺，核和其他生物标志物，这些标志物进一步用于计算机辅助医疗应用中。为此，许多研究人员开发了不同的神经网络来对组织学图像进行分割，主要是这些网络基于编码器编码器体系结构，并且还利用了复杂的注意力模块或变压器。但是，这些网络不太准确地捕获相关的本地和全局特征，并在多个尺度下具有准确的边界检测，因此，我们提出了一个编码器折叠网络，快速注意模块和多损耗函数（二进制交叉熵（BCE）损失的组合），焦点损失和骰子损失）。我们在两个公开可用数据集上评估了我们提出的网络的概括能力，用于医疗图像分割Monuseg和Glas，并胜过最先进的网络，在Monuseg数据集上提高了1.99％的提高，而GLAS数据集则提高了7.15％。实施代码可在此链接上获得：https：//bit.ly/histoseg

translated by 谷歌翻译

ColonFormer: An Efficient Transformer based Method for Colon Polyp Segmentation

Nguyen Thanh Duc , Nguyen Thi Oanh , Nguyen Thi Thuy , Tran Minh Triet , Dinh Viet Sang

分类：计算机视觉

2022-05-17

识别息肉对于在计算机辅助临床支持系统中自动分析内窥镜图像的自动分析具有挑战性。已经提出了基于卷积网络（CNN），变压器及其组合的模型，以分割息肉以有希望的结果。但是，这些方法在模拟息肉的局部外观方面存在局限性，或者在解码过程中缺乏用于空间依赖性的多层次特征。本文提出了一个新颖的网络，即结肠形式，以解决这些局限性。 Colonformer是一种编码器架构，能够在编码器和解码器分支上对远程语义信息进行建模。编码器是一种基于变压器的轻量级体系结构，用于在多尺度上建模全局语义关系。解码器是一种层次结构结构，旨在学习多层功能以丰富特征表示。此外，添加了一个新的Skip连接技术，以完善整体地图中的息肉对象的边界以进行精确分割。已经在五个流行的基准数据集上进行了广泛的实验，以进行息肉分割，包括Kvasir，CVC-Clinic DB，CVC-ColondB，CVC-T和Etis-Larib。实验结果表明，我们的结肠构造者在所有基准数据集上的表现优于其他最先进的方法。

translated by 谷歌翻译

UCTransNet: Rethinking the Skip Connections in U-Net from a Channel-wise Perspective with Transformer

Haonan Wang , Peng Cao , Jiaqi Wang , Osmar R. Zaiane

分类：计算机视觉 | 机器学习

2021-09-09

最新的语义分段方法采用具有编码器解码器架构的U-Net框架。 U-Net仍然具有挑战性，具有简单的跳过连接方案来模拟全局多尺度上下文：1）由于编码器和解码器级的不兼容功能集的问题，并非每个跳过连接设置都是有效的，甚至一些跳过连接对分割性能产生负面影响; 2）原始U-Net比某些数据集上没有任何跳过连接的U-Net更糟糕。根据我们的调查结果，我们提出了一个名为Uctransnet的新分段框架（在U-Net中的提议CTRANS模块），从引导机制的频道视角。具体地，CTRANS模块是U-NET SKIP连接的替代，其包括与变压器（命名CCT）和子模块通道 - 明智的跨关注进行多尺度信道交叉融合的子模块（命名为CCA）以指导熔融的多尺度通道 - 明智信息，以有效地连接到解码器功能以消除歧义。因此，由CCT和CCA组成的所提出的连接能够替换原始跳过连接以解决精确的自动医学图像分割的语义间隙。实验结果表明，我们的UCTRANSNET产生更精确的分割性能，并通过涉及变压器或U形框架的不同数据集和传统架构的语义分割来实现一致的改进。代码：https：//github.com/mcgregorwwwww/uctransnet。

translated by 谷歌翻译

CAT-Net: A Cross-Slice Attention Transformer Model for Prostate Zonal Segmentation in MRI

Alex Ling Yu Hung , Haoxin Zheng , Qi Miao , Steven S. Raman , Demetri Terzopoulos , Kyunghyun Sung

分类：计算机视觉

2022-03-29

前列腺癌是美国男性癌症死亡的第二大原因。前列腺MRI的诊断通常依赖于准确的前列腺区域分割。但是，最新的自动分割方法通常无法产生前列腺区域的含有良好的体积分割，因为某些切片的前列腺MRI（例如碱基和顶点片）比其他切片更难分割。可以通过考虑相邻切片之间的跨片段关系来克服这一困难，但是当前的方法不能完全学习和利用这种关系。在本文中，我们提出了一种新型的跨板夹心注意机制，我们在变压器模块中使用该机制，以系统地学习不同尺度的跨斜纹关系。该模块可以在任何基于Skip Connections的现有基于学习的细分框架中使用。实验表明，我们的跨板块注意力能够捕获前列腺区域分割中的跨板片信息，并提高当前最新方法的性能。我们的方法提高了外围区域的分割精度，从而使所有前列腺切片（Apex，Mid-Gland和Base）的分割结果保持一致。

translated by 谷歌翻译

CSSAM: U-net Network for Application and Segmentation of Welding Engineering Drawings

Zhiwei Song , Hui Yao , Dan Tian , GaoHui Zhan

分类：计算机视觉 | 机器学习

2022-09-28

重型设备制造将特定的轮廓分解为图纸，并切割钣金以缩放焊接。当前，手动实现了焊接图轮廓的大多数分割和提取。它的效率大大降低了。因此，我们提出了一种基于U-NET的轮廓分割和用于焊接工程图的提取方法。工程图纸所需的零件的轮廓可以自动划分和清空，从而大大提高了制造效率。 U-NET包括一个编码器，该编码器通过语义差异和编码器和解码器之间的空间位置特征信息实现端到端映射。尽管U-NET擅长于细分医学图像，但我们在焊接结构图数据集上进行的广泛实验表明，经典的U-NET体系结构在细分焊接工程图纸方面缺乏。因此，我们设计了一种新型的通道空间序列注意模块（CSSAM），并在经典的U-NET上进行改进。同时，提出了垂直最大池和平均水平池。通过两个相等的卷积将池操作传递到CSSAM模块中。汇总之前的输出和功能通过语义聚类融合在一起，它取代了传统的跳跃结构，并有效地缩小了编码器和解码器之间的语义差距，从而改善了焊接工程图的分割性能。我们使用VGG16作为骨干网络。与经典的U-NET相比，我们的网络在工程绘图数据集细分方面具有良好的性能。

translated by 谷歌翻译

Deep Co-supervision and Attention Fusion Strategy for Automatic COVID-19 Lung Infection Segmentation on CT Images

Haigen Hu , Leizhao Shen , Qiu Guan , Xiaoxin Li , Qianwei Zhou , Su Ruan

分类：计算机视觉

2021-12-20

由于不规则的形状，正常和感染组织之间的各种尺寸和无法区分的边界，仍然是一种具有挑战性的任务，可以准确地在CT图像上进行Covid-19的感染病变。在本文中，提出了一种新的分段方案，用于通过增强基于编码器 - 解码器架构的不同级别的监督信息和融合多尺度特征映射来感染Covid-19。为此，提出了深入的协作监督（共同监督）计划，以指导网络学习边缘和语义的特征。更具体地，首先设计边缘监控模块（ESM），以通过将边缘监督信息结合到初始阶段的下采样的初始阶段来突出显示低电平边界特征。同时，提出了一种辅助语义监督模块（ASSM）来加强通过将掩码监督信息集成到稍后阶段来加强高电平语义信息。然后，通过使用注意机制来扩展高级和低电平特征映射之间的语义间隙，开发了一种注意融合模块（AFM）以融合不同级别的多个规模特征图。最后，在四个各种Covid-19 CT数据集上证明了所提出的方案的有效性。结果表明，提出的三个模块都是有希望的。基于基线（RESUNT），单独使用ESM，ASSM或AFM可以分别将骰子度量增加1.12 \％，1.95 \％，1.63 \％，而在我们的数据集中，通过将三个模型结合在一起可以上升3.97 \％。与各个数据集的现有方法相比，所提出的方法可以在某些主要指标中获得更好的分段性能，并可实现最佳的泛化和全面的性能。

translated by 谷歌翻译

TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism for a Deep Segmentation Model

Reza Azad , Mohammad T. AL-Antary , Moein Heidari , Dorit Merhof

分类：计算机视觉

2022-07-27

在过去的几年中，卷积神经网络（CNN），尤其是U-NET，一直是医学图像处理时代的流行技术。具体而言，开创性的U-NET及其替代方案成功地设法解决了各种各样的医学图像分割任务。但是，这些体系结构在本质上是不完美的，因为它们无法表现出长距离相互作用和空间依赖性，从而导致具有可变形状和结构的医学图像分割的严重性能下降。针对序列到序列预测的初步提议的变压器已成为替代体系结构，以精确地模拟由自我激进机制辅助的全局信息。尽管设计了可行的设计，但利用纯变压器来进行图像分割目的，可能导致限制的定位容量，导致低级功能不足。因此，一系列研究旨在设计基于变压器的U-NET的强大变体。在本文中，我们提出了Trans-Norm，这是一种新型的深层分割框架，它随同将变压器模块合并为标准U-NET的编码器和跳过连接。我们认为，跳过连接的方便设计对于准确的分割至关重要，因为它可以帮助扩展路径和收缩路径之间的功能融合。在这方面，我们从变压器模块中得出了一种空间归一化机制，以适应性地重新校准跳过连接路径。对医学图像分割的三个典型任务进行了广泛的实验，证明了透气的有效性。代码和训练有素的模型可在https://github.com/rezazad68/transnorm上公开获得。

translated by 谷歌翻译

RetiFluidNet: A Self-Adaptive and Multi-Attention Deep Convolutional Network for Retinal OCT Fluid Segmentation

Reza Rasti , Armin Biglari , Mohammad Rezapourian , Ziyun Yang , Sina Farsiu

分类：计算机视觉

2022-09-26

光学相干断层扫描（OCT）有助于眼科医生评估黄斑水肿，流体的积累以及微观分辨率的病变。视网膜流体的定量对于OCT引导的治疗管理是必需的，这取决于精确的图像分割步骤。由于对视网膜流体的手动分析是一项耗时，主观和容易出错的任务，因此对快速和健壮的自动解决方案的需求增加了。在这项研究中，提出了一种名为Retifluidnet的新型卷积神经结构，用于多级视网膜流体分割。该模型受益于层次表示使用新的自适应双重注意（SDA）模块的纹理，上下文和边缘特征的学习，多个基于自适应的Skip Connections（SASC）以及一种新颖的多尺度深度自我监督学习（DSL）方案。拟议的SDA模块中的注意机制使该模型能够自动提取不同级别的变形感知表示，并且引入的SASC路径进一步考虑了空间通道相互依存，以串联编码器和解码器单元，从而提高了表示能力。还使用包含加权版本的骰子重叠和基于边缘的连接损失的联合损失函数进行了优化的retifluidnet，其中将多尺度局部损失的几个分层阶段集成到优化过程中。该模型根据三个公开可用数据集进行验证：润饰，Optima和Duke，并与几个基线进行了比较。数据集的实验结果证明了在视网膜OCT分割中提出的模型的有效性，并揭示了建议的方法比现有的最新流体分割算法更有效，以适应各种图像扫描仪器记录的视网膜OCT扫描。

translated by 谷歌翻译

SegViT: Semantic Segmentation with Plain Vision Transformers

Bowen Zhang , Zhi Tian , Quan Tang , Xiangxiang Chu , Xiaolin Wei , Chunhua Shen , Yifan Liu

分类：计算机视觉

2022-10-12

We explore the capability of plain Vision Transformers (ViTs) for semantic segmentation and propose the SegVit. Previous ViT-based segmentation networks usually learn a pixel-level representation from the output of the ViT. Differently, we make use of the fundamental component -- attention mechanism, to generate masks for semantic segmentation. Specifically, we propose the Attention-to-Mask (ATM) module, in which the similarity maps between a set of learnable class tokens and the spatial feature maps are transferred to the segmentation masks. Experiments show that our proposed SegVit using the ATM module outperforms its counterparts using the plain ViT backbone on the ADE20K dataset and achieves new state-of-the-art performance on COCO-Stuff-10K and PASCAL-Context datasets. Furthermore, to reduce the computational cost of the ViT backbone, we propose query-based down-sampling (QD) and query-based up-sampling (QU) to build a Shrunk structure. With the proposed Shrunk structure, the model can save up to $40\%$ computations while maintaining competitive performance.

translated by 谷歌翻译

BCS-Net: Boundary, Context and Semantic for Automatic COVID-19 Lung Infection Segmentation from CT Images

Runmin Cong , Haowei Yang , Qiuping Jiang , Wei Gao , Haisheng Li , Cong Wang , Yao Zhao , Sam Kwong

分类：计算机视觉

2022-07-17

Covid-19的传播给世界带来了巨大的灾难，自动分割感染区域可以帮助医生快速诊断并减少工作量。但是，准确和完整的分割面临一些挑战，例如散射的感染区分布，复杂的背景噪声和模糊的分割边界。为此，在本文中，我们提出了一个新的网络，用于从CT图像（名为BCS-NET）的自动covid-19肺部感染分割，该网络考虑了边界，上下文和语义属性。 BCS-NET遵循编码器架构，更多的设计集中在解码器阶段，该阶段包括三个逐渐边界上下文 - 语义重建（BCSR）块。在每个BCSR块中，注意引导的全局上下文（AGGC）模块旨在通过突出显示重要的空间和边界位置并建模全局上下文依赖性来学习解码器最有价值的编码器功能。此外，语义指南（SG）单元通过在中间分辨率上汇总多规模的高级特征来生成语义指南图来完善解码器特征。广泛的实验表明，我们提出的框架在定性和定量上都优于现有竞争对手。

translated by 谷歌翻译

Attention on Classification for Fire Segmentation

Milad Niknejad , Alexandre Bernardino

分类：计算机视觉

2021-11-04

探测和火灾中的图像和视频的定位是在应对火灾事故的重要。虽然语义分割方法可以用来表示在图像火像素的位置，他们的预测是局部的，他们往往没有考虑到火图像中的存在，这是在图像标签隐含的全局信息。我们提出了一个卷积神经网络（CNN）联合分类和图像火的分割提高了防火分割的性能。我们使用的空间自注意机制来捕获其使用分类概率作为关注重量的新信道注意模块的像素之间的远程相关性，和。该网络联合训练既分割和分类，从而提高了的单任务的图像分割方法的性能，并提出了防火分割以前的方法。

translated by 谷歌翻译

Multi-Scale Feature Fusion: Learning Better Semantic Segmentation for Road Pothole Detection

Jiahe Fan , Mohammud J. Bocus , Brett Hosking , Rigen Wu , Yanan Liu , Sergey Vityazev , Rui Fan

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-24

本文介绍了一种基于单模态语义分割的新型坑洞检测方法。它首先使用卷积神经网络从输入图像中提取视觉特征。然后，通道注意力模块重新引起通道功能以增强不同特征映射的一致性。随后，我们采用了一个不足的空间金字塔汇集模块（包括串联循环升级的不足卷积）来整合空间上下文信息。这有助于更好地区分坑洼和未损害的道路区域。最后，相邻层中的特征映射使用我们提出的多尺度特征融合模块融合。这进一步降低了不同特征通道层之间的语义间隙。在Pothole-600数据集上进行了广泛的实验，以证明我们提出的方法的有效性。定量比较表明，我们的方法在RGB图像和变换的差异图像上实现了最先进的（SOTA）性能，优于三个SOTA单模语义分段网络。

translated by 谷歌翻译

PL-Net: Progressive Learning Network for Medical Image Segmentation

Junlong Cheng , Chengrui Gao , Hongchun Lu , Zhangqiang Ming , Yong Yang , Min Zhu

分类：计算机视觉 | 机器学习

2021-10-27

近年来，基于深度卷积神经网络（CNN）的细分方法已为许多医学分析任务做出了最先进的成就。但是，这些方法中的大多数通过优化结构或添加U-NET的新功能模块来改善性能，从而忽略了粗粒和细粒的语义信息的互补和融合。为了解决上述问题，我们提出了一个称为渐进学习网络（PL-NET）的医学图像分割框架，其中包括内部渐进式学习（IPL）和外部渐进学习（EPL）。 PL-NET具有以下优点：（1）IPL将特征提取为两个“步骤”，它们可以混合不同尺寸的接收场并捕获从粗粒度到细粒度的语义信息，而无需引入其他参数；（2）EPL将训练过程分为两个“阶段”以优化参数，并在上一阶段中实现粗粒信息的融合，并在后期阶段进行细粒度。我们在不同的医学图像分析任务中评估了我们的方法，结果表明，PL-NET的分割性能优于U-NET及其变体的最新方法。

translated by 谷歌翻译

Cell segmentation from telecentric bright-field transmitted light microscopy images using a Residual Attention U-Net: a case study on HeLa line

Ali Ghaznavi , Renata Rychtarikova , Mohammadmehdi Saberioon , Dalibor Stys

分类：计算机视觉

2022-03-23

由于图像的复杂性和活细胞的时间变化，来自明亮场光显微镜图像的活细胞分割具有挑战性。最近开发的基于深度学习（DL）的方法由于其成功和有希望的结果而在医学和显微镜图像分割任务中变得流行。本文的主要目的是开发一种基于U-NET的深度学习方法，以在明亮场传输光学显微镜中分割HeLa系的活细胞。为了找到适合我们数据集的最合适的体系结构，提出了剩余的注意U-net，并将其与注意力和简单的U-NET体系结构进行了比较。注意机制突出了显着的特征，并抑制了无关图像区域中的激活。残余机制克服了消失的梯度问题。对于简单，注意力和剩余的关注U-NET，我们数据集的平均值得分分别达到0.9505、0.9524和0.9530。通过将残留和注意机制应用在一起，在平均值和骰子指标中实现了最准确的语义分割结果。应用的分水岭方法适用于这种最佳的（残留的关注）语义分割结果，使每个单元格的特定信息进行了分割。

translated by 谷歌翻译

dual unet:a novel siamese network for change detection with cascade differential fusion

Kaixuan Jiang , Ja Liu , Fang Liu , Wenhua Zhang , Yangguang Liu

分类：计算机视觉

2022-08-12

遥感图像的更改检测（CD）是通过分析两个次时图像之间的差异来检测变化区域。它广泛用于土地资源规划，自然危害监测和其他领域。在我们的研究中，我们提出了一个新型的暹罗神经网络，用于变化检测任务，即双UNET。与以前的单独编码BITEMAL图像相反，我们设计了一个编码器差分注意模块，以关注像素的空间差异关系。为了改善网络的概括，它计算了咬合图像之间的任何像素之间的注意力权重，并使用它们来引起更具区别的特征。为了改善特征融合并避免梯度消失，在解码阶段提出了多尺度加权方差图融合策略。实验表明，所提出的方法始终优于流行的季节性变化检测数据集最先进的方法。

translated by 谷歌翻译

CM-MLP: Cascade Multi-scale MLP with Axial Context Relation Encoder for Edge Segmentation of Medical Image

Jinkai Lv , Yuyong Hu , Quanshui Fu , Zhiwang Zhang , Yuqiang Hu , Lin Lv , Guoqing Yang , Jinpeng Li , Yi Zhao

分类：计算机视觉

2022-08-23

基于卷积的方法在医疗图像分割任务中提供了良好的分割性能。但是，这些方法在处理医学图像的边缘时面临以下挑战：（1）以前的基于卷积的方法不关注分割边缘周围前景和背景之间的边界关系，从而导致分割性能的退化当边缘变化时。（2）卷积层的电感偏置不能适应复杂的边缘变化和多分段区域的聚合，从而导致其性能改善大部分仅限于分割分段区域而不是边缘的范围。为了应对这些挑战，我们提出了MFI（多尺度特征交互）块和英亩（轴向上下文关系编码器）块上的CM-MLP框架，以精确分割医疗图像的边缘。在MFI块中，我们建议级联多尺度MLP（Cascade MLP）同时从网络的较深层中处理所有局部信息，并利用CASCADE多尺度机制逐渐融合离散的本地信息。然后，英亩块用于使深度监督着眼于探索前景和背景之间的边界关系以修改医疗图像的边缘。我们提议的CM-MLP框架的分割准确性（DICE）达到96.96％，96.76％和82.54％的三个基准数据集：CVC-ClinicDB数据集，Sub-Kvasir Dataset和我们的内部数据集，这些数据集分别超过了。最先进的方法。源代码和训练有素的模型将在https://github.com/programmerhyy/cm-mlp上找到。

translated by 谷歌翻译

Background-Aware 3D Point Cloud Segmentationwith Dynamic Point Feature Aggregation

Jiajing Chen , Burak Kakillioglu , Senem Velipasalar

分类：计算机视觉

2021-11-14

随着激光雷达传感器和3D视觉摄像头的扩散，3D点云分析近年来引起了重大关注。经过先驱工作点的成功后，基于深度学习的方法越来越多地应用于各种任务，包括3D点云分段和3D对象分类。在本文中，我们提出了一种新颖的3D点云学习网络，通过选择性地执行具有动态池的邻域特征聚合和注意机制来提出作为动态点特征聚合网络（DPFA-NET）。 DPFA-Net有两个可用于三维云的语义分割和分类的变体。作为DPFA-NET的核心模块，我们提出了一个特征聚合层，其中每个点的动态邻域的特征通过自我注意机制聚合。与其他分割模型相比，来自固定邻域的聚合特征，我们的方法可以在不同层中聚合来自不同邻居的特征，在不同层中为查询点提供更具选择性和更广泛的视图，并更多地关注本地邻域中的相关特征。此外，为了进一步提高所提出的语义分割模型的性能，我们提出了两种新方法，即两级BF-Net和BF-Rengralization来利用背景前台信息。实验结果表明，所提出的DPFA-Net在S3DIS数据集上实现了最先进的整体精度分数，在S3DIS数据集上进行了语义分割，并在不同的语义分割，部分分割和3D对象分类中提供始终如一的令人满意的性能。与其他方法相比，它也在计算上更有效。

translated by 谷歌翻译

Pyramid Fusion Transformer for Semantic Segmentation

Zipeng Qin , Jianbo Liu , Xiaolin Zhang , Maoqing Tian , Aojun Zhou , Shuai Yi , Hongsheng Li

分类：计算机视觉 | 人工智能

2022-01-11

最近建议的MaskFormer \ Cite {MaskFormer}对语义分割的任务提供了刷新的透视图：它从流行的像素级分类范例转移到蒙版级分类方法。实质上，它生成对应于类别段的配对概率和掩码，并在推理的分割映射期间结合它们。因此，分割质量依赖于查询如何捕获类别的语义信息及其空间位置。在我们的研究中，我们发现单尺度特征顶部的每个掩模分类解码器不足以提取可靠的概率或掩模。对于挖掘功能金字塔的丰富语义信息，我们提出了一个基于变压器的金字塔融合变压器（PFT），用于多尺度特征顶部的每个掩模方法语义分段。为了有效地利用不同分辨率的图像特征而不会产生过多的计算开销，PFT使用多尺度变压器解码器，具有跨尺度间间的关注来交换互补信息。广泛的实验评估和消融展示了我们框架的功效。特别是，与屏蔽Former相比，我们通过Reset-101c实现了3.2 miou改进了Reset-101c。此外，在ADE20K验证集上，我们的Swin-B骨架的结果与单尺度和多尺寸推断的屏蔽骨架中的较大的Swin-L骨架相匹配，分别实现54.1 miou和55.3 miou。使用Swin-L骨干，我们在ADE20K验证集中实现了56.0 Miou单尺度结果和57.2多尺度结果，从而获得数据集的最先进的性能。

translated by 谷歌翻译