智能论文笔记

Harmonious Attention Network for Person Re-Identification

Wei Li , Xiatian Zhu , Shaogang Gong

分类：

2018-02-22

Existing person re-identification (re-id) methods either assume the availability of well-aligned person bounding box images as model input or rely on constrained attention selection mechanisms to calibrate misaligned images. They are therefore sub-optimal for re-id matching in arbitrarily aligned person images potentially with large human pose variations and unconstrained auto-detection errors. In this work, we show the advantages of jointly learning attention selection and feature representation in a Convolutional Neural Network (CNN) by maximising the complementary information of different levels of visual attention subject to re-id discriminative learning constraints. Specifically, we formulate a novel Harmonious Attention CNN (HA-CNN) model for joint learning of soft pixel attention and hard regional attention along with simultaneous optimisation of feature representations, dedicated to optimise person re-id in uncontrolled (misaligned) images. Extensive comparative evaluations validate the superiority of this new HA-CNN model for person re-id over a wide variety of state-ofthe-art methods on three large-scale benchmarks including CUHK03, Market-1501, and DukeMTMC-ReID.

translated by 谷歌翻译

Weakly-supervised Part-Attention and Mentored Networks for Vehicle Re-Identification

Lisha Tang , Yi Wang , Lap-Pui Chau

分类：计算机视觉

2021-07-17

车辆重新识别（RE-ID）旨在通过不同的摄像机检索具有相同车辆ID的图像。当前的零件级特征学习方法通常通过统一的部门，外部工具或注意力建模来检测车辆零件。但是，此部分功能通常需要昂贵的额外注释，并在不可靠的零件遮罩预测的情况下导致次优性能。在本文中，我们提出了一个针对车辆重新ID的弱监督零件注意网络（Panet）和零件式网络（PMNET）。首先，Panet通过与零件相关的通道重新校准和基于群集的掩模生成无需车辆零件监管信息来定位车辆零件。其次，PMNET利用教师指导的学习来从锅et中提取特定于车辆的特定功能，并进行多尺度的全球零件特征提取。在推断过程中，PMNET可以自适应提取歧视零件特征，而无需围绕锅et定位，从而防止了不稳定的零件掩模预测。我们将重新ID问题作为一个多任务问题，并采用同质的不确定性来学习最佳的ID损失权衡。实验是在两个公共基准上进行的，这表明我们的方法优于最近的方法，这不需要额外的注释，即CMC@5的平均增加3.0％，而Veri776的MAP中不需要超过1.4％。此外，我们的方法可以扩展到遮挡的车辆重新ID任务，并具有良好的概括能力。

translated by 谷歌翻译

PGGANet: Pose Guided Graph Attention Network for Person Re-identification

Zhijun He , Hongbo Zhao , Wenquan Feng

分类：计算机视觉

2021-11-29

人重新识别（Reid）旨在从不同摄像机捕获的图像中检索一个人。对于基于深度学习的REID方法，已经证明，使用本地特征与人物图像的全局特征可以帮助为人员检索提供强大的特征表示。人类的姿势信息可以提供人体骨架的位置，有效地指导网络在这些关键领域更加关注这些关键领域，也可能有助于减少来自背景或闭塞的噪音分散。然而，先前与姿势相关的作品提出的方法可能无法充分利用姿势信息的好处，并没有考虑不同当地特征的不同贡献。在本文中，我们提出了一种姿势引导图注意网络，一个多分支架构，包括一个用于全局特征的一个分支，一个用于中粒体特征的一个分支，一个分支用于细粒度关键点特征。我们使用预先训练的姿势估计器来生成本地特征学习的关键点热图，并仔细设计图表卷积层以通过建模相似关系来重新评估提取的本地特征的贡献权重。实验结果表明我们对歧视特征学习的方法的有效性，我们表明我们的模型在几个主流评估数据集上实现了最先进的表演。我们还对我们的网络进行了大量的消融研究和设计不同类型的比较实验，以证明其有效性和鲁棒性，包括整体数据集，部分数据集，遮挡数据集和跨域测试。

translated by 谷歌翻译

Deep Learning for Person Re-identification: A Survey and Outlook

Mang Ye , Jianbing Shen , Gaojie Lin , Tao Xiang , Ling Shao , Steven C. H. Hoi

分类：

2020-01-13

Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.

translated by 谷歌翻译

Object Detection with Deep Learning: A Review

Zhong-Qiu Zhao , Peng Zheng , Shou-tao Xu , Xindong Wu

分类：

2018-07-15

Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.

translated by 谷歌翻译

Local-Aware Global Attention Network for Person Re-Identification

Nathanael L. Baisa

分类：计算机视觉

2022-09-11

从图像中学习代表，健壮和歧视性信息对于有效的人重新识别（RE-ID）至关重要。在本文中，我们提出了一种基于身体和手部图像的人重新ID的端到端判别深度学习的复合方法。我们仔细设计了本地感知的全球注意力网络（Laga-Net），这是一个多分支深度网络架构，由一个用于空间注意力的分支组成，一个用于渠道注意。注意分支集中在图像的相关特征上，同时抑制了无关紧要的背景。为了克服注意力机制的弱点，与像素改组一样，我们将相对位置编码整合到空间注意模块中以捕获像素的空间位置。全球分支机构打算保留全球环境或结构信息。对于打算捕获细粒度信息的本地分支，我们进行统一的分区以水平在Conv-Layer上生成条纹。我们通过执行软分区来检索零件，而无需明确分区图像或需要外部线索，例如姿势估计。一组消融研究表明，每个组件都会有助于提高拉加网络的性能。对四个受欢迎的人体重新ID基准和两个公开可用的手数据集的广泛评估表明，我们的建议方法始终优于现有的最新方法。

translated by 谷歌翻译

Deep Reinforced Attention Learning for Quality-Aware Visual Recognition

Duo Li , Qifeng Chen

分类：计算机视觉

2020-07-13

在本文中，我们基于任何卷积神经网络中中间注意图的弱监督生成机制，并更加直接地披露了注意模块的有效性，以充分利用其潜力。鉴于现有的神经网络配备了任意注意模块，我们介绍了一个元评论家网络，以评估主网络中注意力图的质量。由于我们设计的奖励的离散性，提出的学习方法是在强化学习环境中安排的，在此设置中，注意力参与者和经常性的批评家交替优化，以提供临时注意力表示的即时批评和修订，因此，由于深度强化的注意力学习而引起了人们的关注。（Dreal）。它可以普遍应用于具有不同类型的注意模块的网络体系结构，并通过最大程度地提高每个单独注意模块产生的最终识别性能的相对增益来促进其表现能力，如类别和实例识别基准的广泛实验所证明的那样。

translated by 谷歌翻译

Learning Discriminative Features with Multiple Granularities for Person Re-Identification

Guanshuo Wang , Yufeng Yuan , Xiong Chen , Jiwei Li , Xi Zhou

分类：

2018-04-04

The combination of global and partial features has been an essential solution to improve discriminative performances in person re-identification (Re-ID) tasks. Previous part-based methods mainly focus on locating regions with specific pre-defined semantics to learn local representations, which increases learning difficulty but not efficient or robust to scenarios with large variances. In this paper, we propose an end-to-end feature learning strategy integrating discriminative information with various granularities. We carefully design the Multiple Granularity Network (MGN), a multi-branch deep network architecture consisting of one branch for global feature representations and two branches for local feature representations. Instead of learning on semantic regions, we uniformly partition the images into several stripes, and vary the number of parts in different local branches to obtain local feature representations with multiple granularities. Comprehensive experiments implemented on the mainstream evaluation datasets including Market-1501, DukeMTMC-reid and CUHK03 indicate that our method robustly achieves state-of-the-art performances and outperforms any existing approaches by a large margin. For example, on Market-1501 dataset in single query mode, we obtain a top result of Rank-1/mAP=96.6%/94.2% with this method after re-ranking.

translated by 谷歌翻译

Quality-aware Part Models for Occluded Person Re-identification

Pengfei Wang , Changxing Ding , Zhiyin Shao , Zhibin Hong , Shengli Zhang , Dacheng Tao

分类：计算机视觉

2022-01-01

遮挡对人重新识别（Reid）构成了重大挑战。现有方法通常依赖于外部工具来推断可见的身体部位，这在计算效率和Reid精度方面可能是次优。特别是，在面对复杂的闭塞时，它们可能会失败，例如行人之间的遮挡。因此，在本文中，我们提出了一种名为M质量感知部分模型（QPM）的新方法，用于遮挡鲁棒Reid。首先，我们建议共同学习零件特征和预测部分质量分数。由于没有提供质量注释，我们介绍了一种自动将低分分配给闭塞体部位的策略，从而削弱了遮挡体零落在Reid结果上的影响。其次，基于预测部分质量分数，我们提出了一种新颖的身份感知空间关注（ISA）模块。在该模块中，利用粗略标识感知功能来突出目标行人的像素，以便处理行人之间的遮挡。第三，我们设计了一种自适应和有效的方法，用于了解来自每个图像对的共同非遮挡区域的全局特征。这种设计至关重要，但经常被现有方法忽略。 QPM有三个关键优势：1）它不依赖于培训或推理阶段的任何外部工具; 2）它处理由物体和其他行人引起的闭塞; 3）它是高度计算效率。对闭塞Reid的四个流行数据库的实验结果证明QPM始终如一地以显着的利润方式优于最先进的方法。 QPM代码将被释放。

translated by 谷歌翻译

Co-segmentation Inspired Attention Module for Video-based Computer Vision Tasks

Arulkumar Subramaniam , Jayesh Vaidya , Muhammed Abdul Majeed Ameen , Athira Nambiar , Anurag Mittal

分类：计算机视觉

2021-11-14

计算机视觉任务可以从估计突出物区域和这些对象区域之间的相互作用中受益。识别对象区域涉及利用预借鉴模型来执行对象检测，对象分割和/或对象姿势估计。但是，由于以下原因，在实践中不可行：1）预用模型的训练数据集的对象类别可能不会涵盖一般计算机视觉任务的所有对象类别，2）佩戴型模型训练数据集之间的域间隙并且目标任务的数据集可能会影响性能，3）预磨模模型中存在的偏差和方差可能泄漏到导致无意中偏置的目标模型的目标任务中。为了克服这些缺点，我们建议利用一系列视频帧捕获一组公共对象和它们之间的相互作用的公共基本原理，因此视频帧特征之间的共分割的概念可以用自动的能力装配模型专注于突出区域，以最终的方式提高潜在的任务的性能。在这方面，我们提出了一种称为“共分割激活模块”（COSAM）的通用模块，其可以被插入任何CNN，以促进基于CNN的任何CNN的概念在一系列视频帧特征中的关注。我们在三个基于视频的任务中展示Cosam的应用即1）基于视频的人Re-ID，2）视频字幕分类，并证明COSAM能够在视频帧中捕获突出区域，从而引导对于显着的性能改进以及可解释的关注图。

translated by 谷歌翻译

Deep learning-based person re-identification methods: A survey and outlook of recent works

Zhangqiang Ming , Min Zhu , Xiangkun Wang , Jiamin Zhu , Junlong Cheng , Yong Yang , Xiaoyong Wei

分类：计算机视觉

2021-10-10

近年来，随着对公共安全的需求越来越多，智能监测网络的快速发展，人员重新识别（RE-ID）已成为计算机视野领域的热门研究主题之一。人员RE-ID的主要研究目标是从不同的摄像机中检索具有相同身份的人。但是，传统的人重新ID方法需要手动标记人的目标，这消耗了大量的劳动力成本。随着深度神经网络的广泛应用，出现了许多基于深入的基于学习的人物的方法。因此，本文促进研究人员了解最新的研究成果和该领域的未来趋势。首先，我们总结了对几个最近公布的人的研究重新ID调查，并补充了系统地分类基于深度学习的人的重新ID方法的最新研究方法。其次，我们提出了一种多维分类，根据度量标准和表示学习，将基于深度学习的人的重新ID方法分为四类，包括深度度量学习，本地特征学习，生成的对抗学习和序列特征学习的方法。此外，我们根据其方法和动机来细分以上四类，讨论部分子类别的优缺点。最后，我们讨论了一些挑战和可能的研究方向的人重新ID。

translated by 谷歌翻译

Learning to Detect Instance-level Salient Objects Using Complementary Image Labels

Xin Tian , Ke Xu , Xin Yang , Baocai Yin , Rynson W. H. Lau

分类：计算机视觉

2021-11-19

现有的突出实例检测（SID）方法通常从像素级注释数据集中学习。在本文中，我们向SID问题提出了第一个弱监督的方法。虽然在一般显着性检测中考虑了弱监管，但它主要基于使用类标签进行对象本地化。然而，仅使用类标签来学习实例知识的显着性信息是不普遍的，因为标签可能不容易地分离具有高语义亲和力的显着实例。由于子化信息提供了对突出项的数量的即时判断，因此自然地与检测突出实例相关，并且可以帮助分离相同实例的不同部分的同一类别的单独实例。灵感来自这一观察，我们建议使用课程和镇展标签作为SID问题的弱监督。我们提出了一种具有三个分支的新型弱监管网络：显着性检测分支利用类一致性信息来定位候选物体;边界检测分支利用类差异信息来解除对象边界;和Firedroid检测分支，使用子化信息来检测SALICE实例质心。然后融合该互补信息以产生突出的实例图。为方便学习过程，我们进一步提出了一种渐进的培训方案，以减少标签噪声和模型中学到的相应噪声，通过往复式突出实例预测和模型刷新模型。我们广泛的评估表明，该方法对精心设计的基线方法进行了有利地竞争，这些方法适应了相关任务。

translated by 谷歌翻译

Query-Guided Networks for Few-shot Fine-grained Classification and Person Search

Bharti Munjal , Alessandro Flaborea , Sikandar Amin , Federico Tombari , Fabio Galasso

分类：计算机视觉

2022-09-21

很少有细粒度的分类和人搜索作为独特的任务和文学作品，已经分别对待了它们。但是，仔细观察揭示了重要的相似之处：这两个任务的目标类别只能由特定的对象细节歧视；相关模型应概括为新类别，而在培训期间看不到。我们提出了一个适用于这两个任务的新型统一查询引导网络（QGN）。QGN由一个查询引导的暹罗引文和兴奋子网组成，该子网还重新进行了所有网络层的查询和画廊功能，一个查询实习的区域建议特定于特定于特定的本地化以及查询指导的相似性子网络子网本网络用于公制学习。QGN在最近的一些少数细颗粒数据集上有所改善，在幼崽上的其他技术优于大幅度。QGN还对人搜索Cuhk-Sysu和PRW数据集进行了竞争性执行，我们在其中进行了深入的分析。

translated by 谷歌翻译

Exploiting Robust Unsupervised Video Person Re-identification

Xianghao Zang , Ge Li , Wei Gao , Xiujun Shu

分类：计算机视觉

2021-11-09

无监督的视频人重新识别（Reid）方法通常取决于全局级别功能。许多监督的Reid方法采用了本地级别的功能，并实现了显着的性能改进。但是，将本地级别的功能应用于无监督的方法可能会引入不稳定的性能。为了提高无监督视频REID的性能稳定，本文介绍了一般方案融合零件模型和无监督的学习。在该方案中，全局级别功能分为等于的本地级别。用于探索无监督学习的本地感知模块以探索对本地级别功能的概括。建议克服本地级别特征的缺点来克服全局感知模块。来自这两个模块的功能融合以形成每个输入图像的鲁棒特征表示。此特征表示具有本地级别功能的优点，而不会遭受其缺点。综合实验是在三个基准上进行的，包括PRID2011，ILIDS-VID和Dukemtmc-Videoreid，结果表明，该方法实现了最先进的性能。广泛的消融研究证明了所提出的计划，本地感知模块和全局感知模块的有效性和稳健性。

translated by 谷歌翻译

Body Part-Based Representation Learning for Occluded Person Re-Identification

Vladimir Somers , Christophe De Vleeschouwer , Alexandre Alahi

分类：计算机视觉

2022-11-07

Occluded person re-identification (ReID) is a person retrieval task which aims at matching occluded person images with holistic ones. For addressing occluded ReID, part-based methods have been shown beneficial as they offer fine-grained information and are well suited to represent partially visible human bodies. However, training a part-based model is a challenging task for two reasons. Firstly, individual body part appearance is not as discriminative as global appearance (two distinct IDs might have the same local appearance), this means standard ReID training objectives using identity labels are not adapted to local feature learning. Secondly, ReID datasets are not provided with human topographical annotations. In this work, we propose BPBreID, a body part-based ReID model for solving the above issues. We first design two modules for predicting body part attention maps and producing body part-based features of the ReID target. We then propose GiLt, a novel training scheme for learning part-based representations that is robust to occlusions and non-discriminative local appearance. Extensive experiments on popular holistic and occluded datasets show the effectiveness of our proposed method, which outperforms state-of-the-art methods by 0.7% mAP and 5.6% rank-1 accuracy on the challenging Occluded-Duke dataset. Our code is available at https://github.com/VlSomers/bpbreid.

translated by 谷歌翻译

Pedestrian Attribute Recognition in Video Surveillance Scenarios Based on View-attribute Attention Localization

Weichen Chen , Xinyi Yu , Linlin Ou

分类：计算机视觉

2021-06-11

由于特定属性的定位不准确，监控场景中的行人属性识别仍然是一个具有挑战性的任务。在本文中，我们提出了一种基于注意力（VALA）的新型视图 - 属性定位方法，其利用查看信息来指导识别过程，专注于对特定属性对应区域的特定属性和注意机制。具体地，查看信息由视图预测分支利用，以生成四个视图权重，表示来自不同视图的属性的信心。然后将视图重量交付回撰写以撰写特定的视图属性，该属性将参与和监督深度特征提取。为了探索视图属性的空间位置，引入区域关注来聚合空间信息并编码视图特征的通道间依赖性。随后，特定于细小的特定属性特定区域是本地化的，并且通过区域关注获得了来自不同空间位置的视图属性的区域权重。通过将视图权重与区域权重组合来获得最终视图 - 属性识别结果。在三个宽数据集（RAP，RAPV2和PA-100K）上的实验证明了与最先进的方法相比我们的方法的有效性。

translated by 谷歌翻译

Deep Learning-based Occluded Person Re-identification: A Survey

Yunjie Peng , Saihui Hou , Chunshui Cao , Xu Liu , Yongzhen Huang , Zhiqiang He

分类：计算机视觉

2022-07-29

被遮挡的人重新识别（RE-ID）旨在解决跨多个摄像机感兴趣的人时解决遮挡问题。随着深度学习技术的促进和对智能视频监视的需求的不断增长，现实世界应用中的频繁闭塞使闭塞的人重新引起了研究人员的极大兴趣。已经提出了大量封闭的人重新ID方法，而很少有针对遮挡的调查。为了填补这一空白并有助于提高未来的研究，本文提供了对封闭者重新ID的系统调查。通过对人体闭塞的深入分析，发现大多数现有方法仅考虑一部分闭塞问题。因此，我们从问题和解决方案的角度回顾了与闭塞相关的人重新ID方法。我们总结了个人重新闭塞引起的四个问题，即位置错位，规模错位，嘈杂的信息和缺失的信息。然后对解决不同问题的闭塞相关方法进行分类和引入。之后，我们总结并比较了四个流行数据集上最近被遮挡的人重新ID方法的性能：部分reid，部分易边，咬合 - 固定和遮挡的dukemtmc。最后，我们提供了有关有希望的未来研究方向的见解。

translated by 谷歌翻译

Global-Local Context Network for Person Search

Peng Zheng , Jie Qin , Yichao Yan , Shengcai Liao , Bingbing Ni , Xiaogang Cheng , Ling Shao

分类：计算机视觉

2021-12-05

人员搜索旨在共同本地化和识别来自自然的查询人员，不可用的图像，这在过去几年中在计算机视觉社区中积极研究了这一图像。在本文中，我们将在全球和本地围绕目标人群的丰富的上下文信息中阐述，我们分别指的是场景和组上下文。与以前的作品单独处理这两种类型的作品，我们将它们利用统一的全球本地上下文网络（GLCNet），其具有直观的功能增强。具体地，以多级方式同时增强重新ID嵌入和上下文特征，最终导致人员搜索增强，辨别特征。我们对两个人搜索基准（即Cuhk-Sysu和PRW）进行实验，并将我们的方法扩展到更具有挑战性的环境（即，在MovieIenet上的字符搜索）。广泛的实验结果表明，在三个数据集上的最先进方法中提出的GLCNET的一致性改进。我们的源代码，预先训练的型号，以及字符搜索的新设置可以：https://github.com/zhengpeng7/llcnet。

translated by 谷歌翻译

Attention Mechanisms in Computer Vision: A Survey

Meng-Hao Guo , Tian-Xing Xu , Jiang-Jiang Liu , Zheng-Ning Liu , Peng-Tao Jiang , Tai-Jiang Mu , Song-Hai Zhang , Ralph R. Martin , Ming-Ming Cheng , Shi-Min Hu

分类：计算机视觉

2021-11-15

人类自然有效地在复杂的场景中找到突出区域。通过这种观察的动机，引入了计算机视觉中的注意力机制，目的是模仿人类视觉系统的这一方面。这种注意机制可以基于输入图像的特征被视为动态权重调整过程。注意机制在许多视觉任务中取得了巨大的成功，包括图像分类，对象检测，语义分割，视频理解，图像生成，3D视觉，多模态任务和自我监督的学习。在本调查中，我们对计算机愿景中的各种关注机制进行了全面的审查，并根据渠道注意，空间关注，暂时关注和分支注意力进行分类。相关的存储库https：//github.com/menghaoguo/awesome-vision-tions致力于收集相关的工作。我们还建议了未来的注意机制研究方向。

translated by 谷歌翻译

Visual Representation Learning with Transformer: A Sequence-to-Sequence Perspective

Li Zhang , Sixiao Zheng , Jiachen Lu , Xinxuan Zhao , Xiatian Zhu , Yanwei Fu , Tao Xiang , Jianfeng Feng

分类：计算机视觉

2022-07-19

视觉表示学习是解决各种视力问题的关键。依靠开创性的网格结构先验，卷积神经网络（CNN）已成为大多数深视觉模型的事实上的标准架构。例如，经典的语义分割方法通常采用带有编码器编码器体系结构的完全横向卷积网络（FCN）。编码器逐渐减少了空间分辨率，并通过更大的接受场来学习更多抽象的视觉概念。由于上下文建模对于分割至关重要，因此最新的努力一直集中在通过扩张（即极度）卷积或插入注意力模块来增加接受场。但是，基于FCN的体系结构保持不变。在本文中，我们旨在通过将视觉表示学习作为序列到序列预测任务来提供替代观点。具体而言，我们部署纯变压器以将图像编码为一系列贴片，而无需局部卷积和分辨率减少。通过在变压器的每一层中建立的全球环境，可以学习更强大的视觉表示形式，以更好地解决视力任务。特别是，我们的细分模型（称为分割变压器（SETR））在ADE20K上擅长（50.28％MIOU，这是提交当天测试排行榜中的第一个位置），Pascal环境（55.83％MIOU），并在CityScapes上达到竞争成果。此外，我们制定了一个分层局部全球（HLG）变压器的家族，其特征是窗户内的本地关注和跨窗户的全球性专注于层次结构和金字塔架构。广泛的实验表明，我们的方法在各种视觉识别任务（例如，图像分类，对象检测和实例分割和语义分割）上实现了吸引力的性能。

translated by 谷歌翻译