智能论文笔记

Scene-Adaptive Attention Network for Crowd Counting

Xing Wei , Yuanrui Kang , Jihao Yang , Yunfeng Qiu , Dahu Shi , Wenming Tan , Yihong Gong

分类：计算机视觉

2021-12-31

近年来，人群计数研究取得了重大进展。然而，随着人群中存在具有挑战性的规模变化和复杂的场景，传统的卷积网络和最近具有固定大小的变压器架构都不能良好地处理任务。为了解决这个问题，本文提出了一个场景 - 自适应关注网络，称为Saanet。首先，我们设计了可变形的变压器骨干内的可变形关注，从而了解具有可变形采样位置和动态注意力的自适应特征表示。然后，我们提出了多级特征融合和计数专注特征增强模块，以加强全局图像上下文下的特征表示。学习的陈述可以参加前景，并适应不同的人群。我们对四个具有挑战性的人群计数基准进行广泛的实验，表明我们的方法实现了最先进的性能。特别是，我们的方法目前在NWPU-Crowd基准的公共排行榜上排名第一。我们希望我们的方法可能是一个强大的基线，以支持人群计数的未来研究。源代码将被释放到社区。

translated by 谷歌翻译

Multi-scale Feature Aggregation for Crowd Counting

Xiaoheng Jiang , Xinyi Wu , Hisham Cholakkal , Rao Muhammad Anwer , Jiale Cao Mingliang Xu , Bing Zhou , Yanwei Pang , Fahad Shahbaz Khan

分类：计算机视觉

2022-08-10

在过去的几年中，基于卷积的神经网络（CNN）的人群计数方法已取得了有希望的结果。但是，对于准确的计数估计，量表变化问题仍然是一个巨大的挑战。在本文中，我们提出了一个多尺度特征聚合网络（MSFANET），可以在某种程度上减轻此问题。具体而言，我们的方法由两个特征聚合模块组成：短聚合（Shortagg）和Skip Contregation（Skipagg）。 Shortagg模块聚集了相邻卷积块的特征。其目的是制作具有从网络底部逐渐融合的不同接收场的功能。 Skipagg模块将具有小型接受场的特征直接传播到具有更大接收场的特征。它的目的是促进特征与大小接收场的融合。尤其是，Skipagg模块引入了Swin Transformer块中的本地自我注意力特征，以结合丰富的空间信息。此外，我们通过考虑不均匀的人群分布来提出基于局部和全球的计数损失。在四个具有挑战性的数据集（Shanghaitech数据集，UCF_CC_50数据集，UCF-QNRF数据集，WorldExpo'10数据集）上进行了广泛的实验，这表明与先前的先前的尚未实行的方法相比，提出的易于实现的MSFANET可以实现有希望的结果。

translated by 谷歌翻译

Counting Varying Density Crowds Through Density Guided Adaptive Selection CNN and Transformer Estimation

Yuehai Chen , Jing Yang , Badong Chen , Shaoyi Du

分类：计算机视觉

2022-06-21

在实际人群计算应用程序中，图像中的人群密度差异很大。当面对密度变化时，人类倾向于在低密度区域定位和计数目标，并推理高密度区域的数量。我们观察到，CNN使用固定大小的卷积内核专注于局部信息相关性，而变压器可以通过使用全球自我注意机制有效地提取语义人群信息。因此，CNN可以在低密度区域中准确定位和估计人群，而在高密度区域中很难正确感知密度。相反，变压器在高密度区域具有很高的可靠性，但未能在稀疏区域定位目标。 CNN或变压器都无法很好地处理这种密度变化。为了解决此问题，我们提出了一个CNN和变压器自适应选择网络（CTASNET），该网络可以自适应地为不同密度区域选择适当的计数分支。首先，CTASNET生成CNN和变压器的预测结果。然后，考虑到CNN/变压器适用于低/高密度区域，密度引导的自适应选择模块被设计为自动结合CNN和Transformer的预测。此外，为了减少注释噪声的影响，我们引入了基于Correntropy的最佳运输损失。对四个挑战的人群计数数据集进行了广泛的实验，已经验证了该方法。

translated by 谷歌翻译

MAFNet: A Multi-Attention Fusion Network for RGB-T Crowd Counting

Pengyu Chen , Junyu Gao , Yuan Yuan , Qi Wang

分类：计算机视觉

2022-08-14

RGB-Thermal（RGB-T）人群计数是一项具有挑战性的任务，它将热图像用作与RGB图像的互补信息，以应对低弹片或类似背景的场景中单峰基于RGB的方法的降低。大多数现有方法提出了精心设计的结构，用于RGB-T人群计数中的跨模式融合。但是，这些方法在编码RGB-T图像对中编码跨模式上下文语义信息方面存在困难。考虑到上述问题，我们提出了一个称为多发意见融合网络（MAFNET）的两流RGB-T人群计数网络，该网络旨在根据注意机制完全捕获RGB和热模式中的远距离上下文信息。具体而言，在编码器部分中，多发融合（MAF）模块嵌入到全球级别的两个特定于模态分支的不同阶段中。此外，引入了多模式多尺度聚合（MMA）回归头，以充分利用跨模态的多尺度和上下文信息，以生成高质量的人群密度图。在两个受欢迎的数据集上进行的广泛实验表明，拟议的MAFNET对RGB-T人群计数有效，并实现了最新的性能。

translated by 谷歌翻译

TransCrowd: weakly-supervised crowd counting with transformers

Dingkang Liang , Xiwu Chen , Wei Xu , Yu Zhou , Xiang Bai

分类：计算机视觉

2021-04-19

主流人群计数方法通常利用卷积神经网络（CNN）回归密度图，需要点级注释。但是，用一点点注释每个人是一个昂贵且费力的过程。在测试阶段，未考虑点级注释来评估计数精度，这意味着点级注释是冗余的。因此，希望开发仅依赖计数级注释的弱监督计数方法，这是一种更经济的标签方式。当前的弱监督计数方法采用了CNN来通过图像计数范式回归人群的总数。但是，对于上下文建模的接受场有限是这些基于CNN的弱监督法的内在局限性。因此，在现实世界中的应用有限的情况下，这些方法无法实现令人满意的性能。变压器是自然语言处理（NLP）中流行的序列到序列预测模型，其中包含一个全球接收场。在本文中，我们提出了transercroderd，从基于变压器的序列到计数的角度来重新制定了弱监督的人群计数问题。我们观察到，所提出的译者可以使用变压器的自发机制有效地提取语义人群信息。据我们所知，这是第一项采用纯变压器进行人群计算研究的工作。五个基准数据集的实验表明，与所有基于弱的CNN的计数方法相比，所提出的transercroud的性能优于较高的性能，并且与某些流行的完全监督的计数方法相比，基于CNN的计数方法和提高了竞争激烈的计数性能。

translated by 谷歌翻译

Region-Aware Network: Model Human's Top-Down Visual Perception Mechanism for Crowd Counting

Yuehai Chen , Jing Yang , Dong Zhang , Kun Zhang , Badong Chen , Shaoyi Du

分类：计算机视觉

2021-06-23

背景噪声和规模变化是人群计数中长期以来已经认识到的常见问题。人类瞥见人群的形象，立即知道人类的大概数量，以及他们通过关注的人群地区和人群地区的拥塞程度，并具有全球接收领域。因此，在本文中，我们通过对人类自上而下的视觉感知机制进行建模，提出了一个具有称为RANET的区域感知块的新型反馈网络。首先，我们介绍了一个反馈体系结构，以生成优先级地图，这些图提供了输入图像中候选人人群区域的先验。先验使Ranet更加关注人群地区。然后，我们设计了可以通过全局接受字段自适应地将上下文信息编码为输入图像的区域感知块。更具体地说，我们以列向量的形式扫描整个输入图像及其优先级图，以获得相关矩阵估计其相似性。获得的相关矩阵将用于建立像素之间的全球关系。我们的方法在几个公共数据集上优于最先进的人群计数方法。

translated by 谷歌翻译

A Survey on Deep Learning-based Single Image Crowd Counting: Network Design, Loss Function and Supervisory Signal

Haoyue Bai , Jiageng Mao , S. -H. Gary Chan

分类：计算机视觉

2020-12-31

单图像人群计数是一个充满挑战的计算机视觉问题，在公共安全，城市规划，交通管理等方面进行了广泛的应用。随着深度学习技术的最新发展，近年来，人群的数量引起了很多关注并取得了巨大的成功。这项调查是为了通过系统审查和总结该地区的200多件作品来提供有关基于深度学习的人群计数技术的最新进展的全面摘要。我们的目标是提供最新的评论。在最近的方法中，并在该领域教育新研究人员的设计原理和权衡。在介绍了公开可用的数据集和评估指标之后，我们通过对三个主要的设计模块进行了详细比较来回顾最近的进展：深度神经网络设计，损失功能和监督信号。我们使用公共数据集和评估指标研究和比较方法。我们以一些未来的指示结束了调查。

translated by 谷歌翻译

Video Crowd Localization with Multi-focus Gaussian Neighborhood Attention and a Large-Scale Benchmark

Haopeng Li , Lingbo Liu , Kunlin Yang , Shinan Liu , Junyu Gao , Bin Zhao , Rui Zhang , Jun Hou

分类：计算机视觉

2021-07-19

视频人群本地化是一项至关重要但又具有挑战性的任务，旨在估算给定拥挤视频中人头的确切位置。为了模拟人类活动性的时空依赖性，我们提出了多焦点高斯邻里注意力（GNA），可以有效利用远程对应关系，同时保持输入视频的空间拓扑结构。特别是，我们的GNA还可以使用配备的多聚焦机制良好地捕获人头的尺度变化。基于多聚焦GNA，我们开发了一个名为GNANET的统一神经网络，以通过场景建模模块和上下文交叉意见模块充分聚合时空信息来准确地定位视频片段中的头部中心。此外，为了促进该领域的未来研究，我们介绍了一个名为VScrowd的大规模人群视频基准，该视频由60k+框架组成，这些框架在各种监视场景和2M+头部注释中捕获。最后，我们在包括我们的SenseCrowd在内的三个数据集上进行了广泛的实验，实验结果表明，所提出的方法能够实现视频人群本地化和计数的最新性能。

translated by 谷歌翻译

Revisiting Crowd Counting: State-of-the-art, Trends, and Future Perspectives

Muhammad Asif Khan , Hamid Menouar , Ridha Hamila

分类：计算机视觉 | 人工智能

2022-09-14

人群计数是公共场所情境意识的有效工具。使用图像和视频进行自动人群计数是一个有趣但充满挑战的问题，在计算机视觉中引起了极大的关注。在过去的几年中，已经开发了各种深度学习方法来实现最先进的表现。随着时间的流逝，这些方法在许多方面发生了变化，例如模型架构，输入管道，学习范式，计算复杂性和准确性提高等。在本文中，我们对人群计数领域中最重要的贡献进行了系统和全面的评论。。尽管对该主题的调查很少，但我们的调查是最新的，并且在几个方面都不同。首先，它通过模型体系结构，学习方法（即损失功能）和评估方法（即评估指标）对最重要的贡献进行了更有意义的分类。我们选择了杰出和独特的作品，并排除了类似的作品。我们还通过基准数据集对著名人群计数模型进行分类。我们认为，这项调查可能是新手研究人员了解随着时间的推移和当前最新技术的逐步发展和贡献的好资源。

translated by 谷歌翻译

Indirect-Instant Attention Optimization for Crowd Counting in Dense Scenes

Suyu Han , Guodong Wang , Donghua Liu

分类：计算机视觉

2022-06-12

指导可学习的参数优化的一种吸引人的方法，例如特征图，是全球关注，它以成本的一小部分启发了网络智能。但是，它的损失计算过程仍然很短：1）我们只能产生一维的“伪标签”，因为该过程中涉及的人工阈值不健壮； 2）等待损失计算的注意力必然是高维的，而通过卷积减少它将不可避免地引入其他可学习的参数，从而使损失的来源混淆。为此，我们设计了一个基于软磁性注意的简单但有效的间接注意力优化（IIAO）模块，该模块将高维注意图转换为数学意义上的一维功能图，以通过网络中途进行损失计算，同时自动提供自适应多尺度融合以配备金字塔模块。特殊转化产生相对粗糙的特征，最初，区域的预测性谬误性随着人群的密度分布而变化，因此我们定制区域相关损失（RCLOSS）以检索连续错误的错误区域和平滑的空间信息。广泛的实验证明，我们的方法在许多基准数据集中超过了先前的SOTA方法。

translated by 谷歌翻译

HDNet: A Hierarchically Decoupled Network for Crowd Counting

Chenliang Gu , Changan Wang , Bin-Bin Gao , Jun Liu , Tianliang Zhang

分类：计算机视觉

2022-12-12

Recently, density map regression-based methods have dominated in crowd counting owing to their excellent fitting ability on density distribution. However, further improvement tends to saturate mainly because of the confusing background noise and the large density variation. In this paper, we propose a Hierarchically Decoupled Network (HDNet) to solve the above two problems within a unified framework. Specifically, a background classification sub-task is decomposed from the density map prediction task, which is then assigned to a Density Decoupling Module (DDM) to exploit its highly discriminative ability. For the remaining foreground prediction sub-task, it is further hierarchically decomposed to several density-specific sub-tasks by the DDM, which are then solved by the regression-based experts in a Foreground Density Estimation Module (FDEM). Although the proposed strategy effectively reduces the hypothesis space so as to relieve the optimization for those task-specific experts, the high correlation of these sub-tasks are ignored. Therefore, we introduce three types of interaction strategies to unify the whole framework, which are Feature Interaction, Gradient Interaction, and Scale Interaction. Integrated with the above spirits, HDNet achieves state-of-the-art performance on several popular counting benchmarks.

translated by 谷歌翻译

DQnet: Cross-Model Detail Querying for Camouflaged Object Detection

Wei Sun , Chengao Liu , Linyan Zhang , Yu Li , Pengxu Wei , Chang Liu , Jialing Zou , Jianbin Jiao , Qixiang Ye

分类：计算机视觉

2022-12-16

Camouflaged objects are seamlessly blended in with their surroundings, which brings a challenging detection task in computer vision. Optimizing a convolutional neural network (CNN) for camouflaged object detection (COD) tends to activate local discriminative regions while ignoring complete object extent, causing the partial activation issue which inevitably leads to missing or redundant regions of objects. In this paper, we argue that partial activation is caused by the intrinsic characteristics of CNN, where the convolution operations produce local receptive fields and experience difficulty to capture long-range feature dependency among image regions. In order to obtain feature maps that could activate full object extent, keeping the segmental results from being overwhelmed by noisy features, a novel framework termed Cross-Model Detail Querying network (DQnet) is proposed. It reasons the relations between long-range-aware representations and multi-scale local details to make the enhanced representation fully highlight the object regions and eliminate noise on non-object regions. Specifically, a vanilla ViT pretrained with self-supervised learning (SSL) is employed to model long-range dependencies among image regions. A ResNet is employed to enable learning fine-grained spatial local details in multiple scales. Then, to effectively retrieve object-related details, a Relation-Based Querying (RBQ) module is proposed to explore window-based interactions between the global representations and the multi-scale local details. Extensive experiments are conducted on the widely used COD datasets and show that our DQnet outperforms the current state-of-the-arts.

translated by 谷歌翻译

Vision Transformer with Deformable Attention

Zhuofan Xia , Xuran Pan , Shiji Song , Li Erran Li , Gao Huang

分类：计算机视觉

2022-01-03

变压器最近在各种视觉任务上表现出卓越的性能。大型有时甚至全球，接收领域赋予变换器模型，并通过其CNN对应物具有更高的表示功率。然而，简单地扩大接收领域也产生了几个问题。一方面，使用致密的注意，例如，在VIT中，导致过度的记忆和计算成本，并且特征可以受到超出兴趣区域的无关紧要的影响。另一方面，PVT或SWIN变压器采用的稀疏注意是数据不可知论，可能会限制模拟长距离关系的能力。为了缓解这些问题，我们提出了一种新型可变形的自我关注模块，其中以数据相关的方式选择密钥和值对中的密钥和值对的位置。这种灵活的方案使自我关注模块能够专注于相关区域并捕获更多的信息性功能。在此基础上，我们呈现可变形的关注变压器，一般骨干模型，具有可变形关注的图像分类和密集预测任务。广泛的实验表明，我们的模型在综合基准上实现了一致的改善结果。代码可在https://github.com/leaplabthu/dat上获得。

translated by 谷歌翻译

Fully Transformer Networks for Semantic Image Segmentation

Sitong Wu , Tianyi Wu , Fangjian Lin , Shengwei Tian , Guodong Guo

分类：计算机视觉

2021-06-08

由于长距离依赖性建模的能力，变压器在各种自然语言处理和计算机视觉任务中表现出令人印象深刻的性能。最近的进展证明，将这种变压器与基于CNN的语义图像分割模型相结合非常有前途。然而，目前还没有很好地研究了纯变压器的方法如何实现图像分割。在这项工作中，我们探索了语义图像分割的新框架，它是基于编码器 - 解码器的完全变压器网络（FTN）。具体地，我们首先提出金字塔组变压器（PGT）作为逐步学习分层特征的编码器，同时降低标准视觉变压器（VIT）的计算复杂性。然后，我们将特征金字塔变换器（FPT）提出了来自PGT编码器的多电平进行语义图像分割的多级别的语义级别和空间级信息。令人惊讶的是，这种简单的基线可以在多个具有挑战性的语义细分和面部解析基准上实现更好的结果，包括帕斯卡背景，ADE20K，Cocostuff和Celebamask-HQ。源代码将在https://github.com/br -dl/paddlevit上发布。

translated by 谷歌翻译

Deformable DETR: Deformable Transformers for End-to-End Object Detection

Xizhou Zhu , Weijie Su , Lewei Lu , Bin Li , Xiaogang Wang , Jifeng Dai

分类：

2020-10-08

DETR has been recently proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance. However, it suffers from slow convergence and limited feature spatial resolution, due to the limitation of Transformer attention modules in processing image feature maps. To mitigate these issues, we proposed Deformable DETR, whose attention modules only attend to a small set of key sampling points around a reference. Deformable DETR can achieve better performance than DETR (especially on small objects) with 10× less training epochs. Extensive experiments on the COCO benchmark demonstrate the effectiveness of our approach. Code is released at https:// github.com/fundamentalvision/Deformable-DETR.

translated by 谷歌翻译

Visual Representation Learning with Transformer: A Sequence-to-Sequence Perspective

Li Zhang , Sixiao Zheng , Jiachen Lu , Xinxuan Zhao , Xiatian Zhu , Yanwei Fu , Tao Xiang , Jianfeng Feng

分类：计算机视觉

2022-07-19

视觉表示学习是解决各种视力问题的关键。依靠开创性的网格结构先验，卷积神经网络（CNN）已成为大多数深视觉模型的事实上的标准架构。例如，经典的语义分割方法通常采用带有编码器编码器体系结构的完全横向卷积网络（FCN）。编码器逐渐减少了空间分辨率，并通过更大的接受场来学习更多抽象的视觉概念。由于上下文建模对于分割至关重要，因此最新的努力一直集中在通过扩张（即极度）卷积或插入注意力模块来增加接受场。但是，基于FCN的体系结构保持不变。在本文中，我们旨在通过将视觉表示学习作为序列到序列预测任务来提供替代观点。具体而言，我们部署纯变压器以将图像编码为一系列贴片，而无需局部卷积和分辨率减少。通过在变压器的每一层中建立的全球环境，可以学习更强大的视觉表示形式，以更好地解决视力任务。特别是，我们的细分模型（称为分割变压器（SETR））在ADE20K上擅长（50.28％MIOU，这是提交当天测试排行榜中的第一个位置），Pascal环境（55.83％MIOU），并在CityScapes上达到竞争成果。此外，我们制定了一个分层局部全球（HLG）变压器的家族，其特征是窗户内的本地关注和跨窗户的全球性专注于层次结构和金字塔架构。广泛的实验表明，我们的方法在各种视觉识别任务（例如，图像分类，对象检测和实例分割和语义分割）上实现了吸引力的性能。

translated by 谷歌翻译

Defect Transformer: An Efficient Hybrid Transformer Architecture for Surface Defect Detection

Junpu Wang , Guili Xu , Fuju Yan , Jinjin Wang , Zhengsheng Wang

分类：计算机视觉

2022-07-17

表面缺陷检测是确保工业产品质量的极其至关重要的步骤。如今，基于编码器架构的卷积神经网络（CNN）在各种缺陷检测任务中取得了巨大的成功。然而，由于卷积的内在局部性，它们通常在明确建模长距离相互作用时表现出限制，这对于复杂情况下的像素缺陷检测至关重要，例如杂乱的背景和难以辨认的伪缺陷。最近的变压器尤其擅长学习全球图像依赖性，但对于详细的缺陷位置所需的本地结构信息有限。为了克服上述局限性，我们提出了一个有效的混合变压器体系结构，称为缺陷变压器（faft），用于表面缺陷检测，该检测将CNN和Transferaler纳入统一模型，以协作捕获本地和非本地关系。具体而言，在编码器模块中，首先采用卷积茎块来保留更详细的空间信息。然后，贴片聚合块用于生成具有四个层次结构的多尺度表示形式，每个层次结构之后分别是一系列的feft块，该块分别包括用于本地位置编码的本地位置块，一个轻巧的多功能自我自我 - 注意与良好的计算效率建模多尺度的全球上下文关系，以及用于功能转换和进一步位置信息学习的卷积馈送网络。最后，提出了一个简单但有效的解码器模块，以从编码器中的跳过连接中逐渐恢复空间细节。与其他基于CNN的网络相比，三个数据集上的广泛实验证明了我们方法的优势和效率。

translated by 谷歌翻译

3D Vision with Transformers: A Survey

Jean Lahoud , Jiale Cao , Fahad Shahbaz Khan , Hisham Cholakkal , Rao Muhammad Anwer , Salman Khan , Ming-Hsuan Yang

分类：计算机视觉

2022-08-08

变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性，变压器已被用作广泛使用的卷积运算符的替代品。事实证明，这种替代者在许多任务中都取得了成功，其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中，3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上，但由于与2D视觉相比，由于数据表示和处理的差异，3D视觉需要特别注意。在这项工作中，我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查，包括分类，细分，检测，完成，姿势估计等。我们在3D Vision中讨论了变形金刚的设计，该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序，我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力，我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外，我们的目标是频繁更新最新的相关论文及其相应的实现：https：//github.com/lahoud/3d-vision-transformers。

translated by 谷歌翻译

Representation Separation for Semantic Segmentation with Vision Transformers

Yuanduo Hong , Huihui Pan , Weichao Sun , Xinghu Yu , Huijun Gao

分类：计算机视觉 | 人工智能

2022-12-28

Vision transformers (ViTs) encoding an image as a sequence of patches bring new paradigms for semantic segmentation.We present an efficient framework of representation separation in local-patch level and global-region level for semantic segmentation with ViTs. It is targeted for the peculiar over-smoothness of ViTs in semantic segmentation, and therefore differs from current popular paradigms of context modeling and most existing related methods reinforcing the advantage of attention. We first deliver the decoupled two-pathway network in which another pathway enhances and passes down local-patch discrepancy complementary to global representations of transformers. We then propose the spatially adaptive separation module to obtain more separate deep representations and the discriminative cross-attention which yields more discriminative region representations through novel auxiliary supervisions. The proposed methods achieve some impressive results: 1) incorporated with large-scale plain ViTs, our methods achieve new state-of-the-art performances on five widely used benchmarks; 2) using masked pre-trained plain ViTs, we achieve 68.9% mIoU on Pascal Context, setting a new record; 3) pyramid ViTs integrated with the decoupled two-pathway network even surpass the well-designed high-resolution ViTs on Cityscapes; 4) the improved representations by our framework have favorable transferability in images with natural corruptions. The codes will be released publicly.

translated by 谷歌翻译

A Survey of Visual Transformers

Yang Liu , Yao Zhang , Yixin Wang , Feng Hou , Jin Yuan , Jiang Tian , Yang Zhang , Zhongchao Shi , Jianping Fan , Zhiqiang He

分类：计算机视觉

2021-11-11

变压器是一种基于关注的编码器解码器架构，彻底改变了自然语言处理领域。灵感来自这一重大成就，最近在将变形式架构调整到计算机视觉（CV）领域的一些开创性作品，这已经证明了他们对各种简历任务的有效性。依靠竞争力的建模能力，与现代卷积神经网络相比在本文中，我们已经为三百不同的视觉变压器进行了全面的审查，用于三个基本的CV任务（分类，检测和分割），提出了根据其动机，结构和使用情况组织这些方法的分类。。由于培训设置和面向任务的差异，我们还在不同的配置上进行了评估了这些方法，以便于易于和直观的比较而不是各种基准。此外，我们已经揭示了一系列必不可少的，但可能使变压器能够从众多架构中脱颖而出，例如松弛的高级语义嵌入，以弥合视觉和顺序变压器之间的差距。最后，提出了三个未来的未来研究方向进行进一步投资。

translated by 谷歌翻译