智能论文笔记

Rethinking Vision Transformers for MobileNet Size and Speed

Yanyu Li , Ju Hu , Yang Wen , Georgios Evangelidis , Kamyar Salahi , Yanzhi Wang , Sergey Tulyakov , Jian Ren

分类：计算机视觉 | 人工智能 | 机器学习

2022-12-15

With the success of Vision Transformers (ViTs) in computer vision tasks, recent arts try to optimize the performance and complexity of ViTs to enable efficient deployment on mobile devices. Multiple approaches are proposed to accelerate attention mechanism, improve inefficient designs, or incorporate mobile-friendly lightweight convolutions to form hybrid architectures. However, ViT and its variants still have higher latency or considerably more parameters than lightweight CNNs, even true for the years-old MobileNet. In practice, latency and size are both crucial for efficient deployment on resource-constraint hardware. In this work, we investigate a central question, can transformer models run as fast as MobileNet and maintain a similar size? We revisit the design choices of ViTs and propose an improved supernet with low latency and high parameter efficiency. We further introduce a fine-grained joint search strategy that can find efficient architectures by optimizing latency and number of parameters simultaneously. The proposed models, EfficientFormerV2, achieve about $4\%$ higher top-1 accuracy than MobileNetV2 and MobileNetV2$\times1.4$ on ImageNet-1K with similar latency and parameters. We demonstrate that properly designed and optimized vision transformers can achieve high performance with MobileNet-level size and speed.

translated by 谷歌翻译

EfficientFormer: Vision Transformers at MobileNet Speed

Yanyu Li , Geng Yuan , Yang Wen , Eric Hu , Georgios Evangelidis , Sergey Tulyakov , Yanzhi Wang , Jian Ren

分类：计算机视觉

2022-06-02

视觉变压器（VIT）显示了计算机视觉任务的快速进步，在各种基准上取得了令人鼓舞的结果。但是，由于参数和模型设计的数量大量，例如注意机制，基于VIT的模型通常比轻型卷积网络慢。因此，为实时应用程序部署VIT特别具有挑战性，尤其是在资源受限的硬件（例如移动设备）上。最近的努力试图通过网络体系结构搜索或与Mobilenet块的混合设计来降低VIT的计算复杂性，但推理速度仍然不令人满意。这导致了一个重要的问题：变形金刚在获得高性能的同时可以像Mobilenet一样快吗？为了回答这一点，我们首先重新审视基于VIT的模型中使用的网络体系结构和运营商，并确定效率低下的设计。然后，我们引入了一个尺寸一致的纯变压器（无需Mobilenet块）作为设计范式。最后，我们执行以延迟驱动的缩小，以获取一系列称为EfficityFormer的最终模型。广泛的实验表明，在移动设备上的性能和速度方面，有效形式的优势。我们最快的型号，EfficientFormer-L1，在ImagEnet-1k上获得$ 79.2 \％$ $ TOP-1的准确性，仅$ 1.6 $ MS推理潜伏期在iPhone 12上（与Coreml一起编译），该{运行速度与MobileNetV2 $ \ Times Times 1.4 $（ $ 1.6 $ MS，$ 74.7 \％$ top-1），我们最大的型号EfficientFormer-L7，获得了$ 83.3 \％$精度，仅$ 7.0 $ MS延迟。我们的工作证明，正确设计的变压器可以在移动设备上达到极低的延迟，同时保持高性能。

translated by 谷歌翻译

EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers

Junting Pan , Adrian Bulat , Fuwen Tan , Xiatian Zhu , Lukasz Dudziak , Hongsheng Li , Georgios Tzimiropoulos , Brais Martinez

分类：计算机视觉

2022-05-06

基于自我注意力的模型，例如视觉变压器（VIT），已经成为计算机视觉中卷积神经网络（CNN）的一种非常有竞争力的建筑。尽管越来越高的变体具有更高的识别精度，但由于自我注意力的二次复杂性，现有的VIT通常在计算和模型大小中要求。尽管已重新引入了最近的CNN的几种成功设计选择（例如，卷积和分层多阶段结构）已重新引入最近的VIT，但它们仍然不足以满足移动设备的有限资源要求。这激发了最近根据最先进的Mobilenet-V2开发光线的尝试，但仍然留下了性能差距。在这项工作中，在这个研究不足的方向上进一步推动了Edgevits，这是一个新的轻巧vits家族，这首先使基于注意力的视觉模型能够与最佳轻巧的CNN竞争，这准确性和设备效率。这是通过基于自我注意力和卷积的最佳整合而引入高度成本效益的本地 - 全球局（LGL）信息交换瓶颈来实现的。对于设备青年的评估，我们不再依赖诸如拖船或参数的不准确代理，而是采用一种实用的方法来直接专注于设备延迟，以及首次首次提供能源效率。具体而言，我们表明，当考虑准确性的延迟和准确性 - 能量折衷时，我们的模型是帕累托最佳的，在几乎所有情况下都严格占据了其他VIT并与最有效的CNN竞争的严格优势。代码可从https://github.com/saic-fi/edgevit获得。

translated by 谷歌翻译

UniNet: Unified Architecture Search with Convolution, Transformer, and MLP

Jihao Liu , Xin Huang , Guanglu Song , Yu Liu , Hongsheng Li

分类：计算机视觉 | 人工智能

2022-07-12

最近，变压器和多层感知器（MLP）体系结构在各种视觉任务上取得了令人印象深刻的结果。但是，如何有效地结合这些操作员形成高性能混合视觉体系结构仍然是一个挑战。在这项工作中，我们通过提出一种新型的统一体系结构搜索方法来研究卷积，变压器和MLP的可学习组合。我们的方法包含两个关键设计，以实现高性能网络的搜索。首先，我们以统一的形式对截然不同的可搜索运算符进行建模，从而使操作员能够用相同的配置参数进行表征。这样，总体搜索空间规模大大减少，总搜索成本变得负担得起。其次，我们提出上下文感知的倒数采样模块（DSM），以减轻不同类型的操作员之间的差距。我们提出的DSM能够更好地适应不同类型的操作员的功能，这对于识别高性能混合体系结构很重要。最后，我们将可配置的运算符和DSM集成到统一的搜索空间中，并使用基于增强学习的搜索算法进行搜索，以充分探索操作员的最佳组合。为此，我们搜索一个基线网络并扩大规模，以获得一个名为UNINET的模型系列，该模型的准确性和效率比以前的Convnets和Transformers更好。特别是，我们的UNET-B5在ImageNet上获得了84.9％的TOP-1精度，比效应网络-B7和Botnet-T7分别少了44％和55％。通过在Imagenet-21K上进行预处理，我们的UNET-B6获得了87.4％，表现优于SWIN-L，拖鞋少51％，参数减少了41％。代码可在https://github.com/sense-x/uninet上找到。

translated by 谷歌翻译

Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks

Yongming Rao , Zuyan Liu , Wenliang Zhao , Jie Zhou , Jiwen Lu

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-04

在本文中，我们通过利用视觉数据中的空间稀疏性提出了一种新的模型加速方法。我们观察到，视觉变压器中的最终预测仅基于最有用的令牌的子集，这足以使图像识别。基于此观察，我们提出了一个动态的令牌稀疏框架，以根据加速视觉变压器的输入逐渐和动态地修剪冗余令牌。具体而言，我们设计了一个轻量级预测模块，以估计给定当前功能的每个令牌的重要性得分。该模块被添加到不同的层中以层次修剪冗余令牌。尽管该框架的启发是我们观察到视觉变压器中稀疏注意力的启发，但我们发现自适应和不对称计算的想法可能是加速各种体系结构的一般解决方案。我们将我们的方法扩展到包括CNN和分层视觉变压器在内的层次模型，以及更复杂的密集预测任务，这些任务需要通过制定更通用的动态空间稀疏框架，并具有渐进性的稀疏性和非对称性计算，用于不同空间位置。通过将轻质快速路径应用于少量的特征，并使用更具表现力的慢速路径到更重要的位置，我们可以维护特征地图的结构，同时大大减少整体计算。广泛的实验证明了我们框架对各种现代体系结构和不同视觉识别任务的有效性。我们的结果清楚地表明，动态空间稀疏为模型加速提供了一个新的，更有效的维度。代码可从https://github.com/raoyongming/dynamicvit获得

translated by 谷歌翻译

EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications

Muhammad Maaz , Abdelrahman Shaker , Hisham Cholakkal , Salman Khan , Syed Waqas Zamir , Rao Muhammad Anwer , Fahad Shahbaz Khan

分类：计算机视觉

2022-06-21

为了实现不断增长的准确性，通常会开发大型和复杂的神经网络。这样的模型需要高度的计算资源，因此不能在边缘设备上部署。由于它们在几个应用领域的有用性，建立资源有效的通用网络非常感兴趣。在这项工作中，我们努力有效地结合了CNN和变压器模型的优势，并提出了一种新的有效混合体系结构。特别是在EDGENEXT中，我们引入了分裂深度转置注意力（SDTA）编码器，该编码器将输入张量分解为多个通道组，并利用深度旋转以及跨通道维度的自我注意力，以隐含地增加接受场并编码多尺度特征。我们在分类，检测和分割任务上进行的广泛实验揭示了所提出的方法的优点，优于相对较低的计算要求的最先进方法。我们具有130万参数的EDGENEXT模型在Imagenet-1k上达到71.2 \％TOP-1的精度，超过移动设备的绝对增益为2.2 \％，而拖鞋减少了28 \％。此外，我们具有560万参数的EDGENEXT模型在Imagenet-1k上达到了79.4 \％TOP-1的精度。代码和模型可在https://t.ly/_vu9上公开获得。

translated by 谷歌翻译

Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

Jiashi Li , Xin Xia , Wei Li , Huixia Li , Xing Wang , Xuefeng Xiao , Rui Wang , Min Zheng , Xin Pan

分类：计算机视觉

2022-07-12

由于复杂的注意机制和模型设计，大多数现有的视觉变压器（VIT）无法在现实的工业部署方案中的卷积神经网络（CNN）高效，例如张力和coreml。这提出了一个独特的挑战：可以设计视觉神经网络以与CNN一样快地推断并表现强大吗？最近的作品试图设计CNN-Transformer混合体系结构来解决这个问题，但是这些作品的整体性能远非令人满意。为了结束这些结束，我们提出了下一代视觉变压器，以在现实的工业场景中有效部署，即下一步，从延迟/准确性权衡的角度来看，它在CNN和VIT上占主导地位。在这项工作中，下一个卷积块（NCB）和下一个变压器块（NTB）分别开发出用于使用部署友好机制捕获本地和全球信息。然后，下一个混合策略（NHS）旨在将NCB和NTB堆叠在有效的混合范式中，从而提高了各种下游任务中的性能。广泛的实验表明，在各种视觉任务方面的延迟/准确性权衡方面，下一个VIT明显优于现有的CNN，VIT和CNN转换混合体系结构。在Tensorrt上，在可可检测上，Next-Vit超过5.4 MAP（从40.4到45.8），在类似延迟下，ADE20K细分的8.2％MIOU（从38.8％到47.0％）。同时，它可以与CSWIN达到可比的性能，而推理速度则以3.6倍的速度加速。在COREML上，在类似的延迟下，在COCO检测上，下一步超过了可可检测的4.6 MAP（从42.6到47.2），ADE20K分割的3.5％MIOU（从45.2％到48.7％）。代码将最近发布。

translated by 谷歌翻译

CMT: Convolutional Neural Networks Meet Vision Transformers

Jianyuan Guo , Kai Han , Han Wu , Yehui Tang , Xinghao Chen , Yunhe Wang , Chang Xu

分类：计算机视觉

2021-07-13

视觉变压器由于能够捕获图像中的长期依赖性的能力而成功地应用于图像识别任务。但是，变压器与现有卷积神经网络（CNN）之间的性能和计算成本仍然存在差距。在本文中，我们旨在解决此问题，并开发一个网络，该网络不仅可以超越规范变压器，而且可以超越高性能卷积模型。我们通过利用变压器来捕获长期依赖性和CNN来建模本地特征，从而提出了一个新的基于变压器的混合网络。此外，我们将其扩展为获得一个称为CMT的模型家族，比以前的基于卷积和基于变压器的模型获得了更好的准确性和效率。特别是，我们的CMT-S在ImageNet上获得了83.5％的TOP-1精度，而在拖鞋上的拖曳率分别比现有的DEIT和EficitiveNet小14倍和2倍。拟议的CMT-S还可以很好地概括CIFAR10（99.2％），CIFAR100（91.7％），花（98.7％）以及其他具有挑战性的视觉数据集，例如可可（44.3％地图），计算成本较小。

translated by 谷歌翻译

HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions

Yongming Rao , Wenliang Zhao , Yansong Tang , Jie Zhou , Ser-Nam Lim , Jiwen Lu

分类：计算机视觉

2022-07-28

视觉变压器的最新进展在基于点产生自我注意的新空间建模机制驱动的各种任务中取得了巨大成功。在本文中，我们表明，视觉变压器背后的关键要素，即输入自适应，远程和高阶空间相互作用，也可以通过基于卷积的框架有效地实现。我们介绍了递归封闭式卷积（$ \ textit {g}^\ textit {n} $ conv），该卷积{n} $ conv）与封闭的卷积和递归设计执行高阶空间交互。新操作是高度灵活和可定制的，它与卷积的各种变体兼容，并将自我注意的两阶相互作用扩展到任意订单，而无需引入大量额外的计算。 $ \ textit {g}^\ textit {n} $ conv可以用作插件模块，以改善各种视觉变压器和基于卷积的模型。根据该操作，我们构建了一个名为Hornet的新型通用视觉骨干家族。关于ImageNet分类，可可对象检测和ADE20K语义分割的广泛实验表明，大黄蜂的表现优于Swin变形金刚，并具有相似的整体体系结构和训练配置的明显边距。大黄蜂还显示出对更多训练数据和更大模型大小的有利可伸缩性。除了在视觉编码器中的有效性外，我们还可以将$ \ textit {g}^\ textit {n} $ conv应用于特定于任务的解码器，并始终通过较少的计算来提高密集的预测性能。我们的结果表明，$ \ textIt {g}^\ textit {n} $ conv可以成为视觉建模的新基本模块，可有效结合视觉变形金刚和CNN的优点。代码可从https://github.com/raoyongming/hornet获得

translated by 谷歌翻译

LightViT: Towards Light-Weight Convolution-Free Vision Transformers

Tao Huang , Lang Huang , Shan You , Fei Wang , Chen Qian , Chang Xu

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-12

由于缺乏电感偏见，视觉变压器（VIT）通常被认为比卷积神经网络（CNN）少。因此，最近的工作将卷积作为插件模块，并将其嵌入各种Vit对应物中。在本文中，我们认为卷积内核执行信息聚合以连接所有令牌。但是，如果这种明确的聚合能够以更均匀的方式起作用，则实际上是轻重量VIT的不必要的。受到这一点的启发，我们将Lightvit作为新的轻巧VIT家族，以在不卷积的情况下在纯变压器块上实现更好的准确性效率平衡。具体而言，我们将一个全球但有效的聚合方案引入了VIT的自我注意力和前馈网络（FFN），其中引入了其他可学习的令牌以捕获全球依赖性；在令牌嵌入上施加了双维通道和空间注意力。实验表明，我们的模型在图像分类，对象检测和语义分割任务上取得了重大改进。例如，我们的LightVit-T仅使用0.7G拖鞋的ImageNet上达到78.7％的精度，在GPU上的PVTV2-B0优于8.2％，而GPU的速度快11％。代码可在https://github.com/hunto/lightvit上找到。

translated by 谷歌翻译

Learned Queries for Efficient Local Attention

Moab Arar , Ariel Shamir , Amit H. Bermano

分类：计算机视觉

2021-12-21

视觉变压器（VIT）用作强大的视觉模型。与卷积神经网络不同，在前几年主导视觉研究，视觉变压器享有捕获数据中的远程依赖性的能力。尽管如此，任何变压器架构的组成部分，自我关注机制都存在高延迟和低效的内存利用，使其不太适合高分辨率输入图像。为了缓解这些缺点，分层视觉模型在非交错的窗口上局部使用自我关注。这种放松会降低输入尺寸的复杂性;但是，它限制了横窗相互作用，损害了模型性能。在本文中，我们提出了一种新的班次不变的本地注意层，称为查询和参加（QNA），其以重叠的方式聚集在本地输入，非常类似于卷积。 QNA背后的关键想法是介绍学习的查询，这允许快速高效地实现。我们通过将其纳入分层视觉变压器模型来验证我们的层的有效性。我们展示了速度和内存复杂性的改进，同时实现了与最先进的模型的可比准确性。最后，我们的图层尺寸尤其良好，窗口大小，需要高于X10的内存，而不是比现有方法更快。

translated by 谷歌翻译

TRT-ViT: TensorRT-oriented Vision Transformer

Xin Xia , Jiashi Li , Jie Wu , Xing Wang , Xuefeng Xiao , Min Zheng , Rui Wang

分类：计算机视觉

2022-05-19

我们从实际应用的角度重新审视了现有的出色变压器。他们中的大多数甚至不如基本的重新连接系列效率那么高，并且偏离了现实的部署方案。这可能是由于当前的标准测量计算效率，例如FLOPS或参数是单方面的，次优的和对硬件的不敏感的。因此，本文直接将特定硬件的紧张延迟视为效率指标，该指标提供了涉及计算能力，内存成本和带宽的更全面的反馈。基于一系列受控实验，这项工作为面向浓度和部署的网络设计提供了四个实用指南，例如，在阶段级别，早期的变压器和晚期CNN，在Block Level的早期CNN和Late Transformer。因此，提出了一个面向Tensortrt的变压器家族，缩写为TRT-VIT。广泛的实验表明，在不同的视觉任务（例如，图像分类，对象检测和语义细分）方面，TRT-VIT显着优于现有的Convnet和视觉变压器。例如，在82.7％的Imagenet-1k Top-1精度下，TRT-VIT比CSWIN快2.7 $ \ times $，比双胞胎快2.0 $ \ times $。在MS-COCO对象检测任务上，TRT-VIT与双胞胎达到可比的性能，而推理速度则增加了2.8 $ \ times $。

translated by 谷歌翻译

Fast Vision Transformers with HiLo Attention

Zizheng Pan , Jianfei Cai , Bohan Zhuang

分类：计算机视觉 | 人工智能 | 机器学习

2022-05-26

视觉变压器（VIT）触发了计算机视觉的最新和重大突破。它们的有效设计主要由计算复杂性的间接度量（即拖船）指导，但是，该指标与直接度量（例如吞吐量）具有明显的差距。因此，我们建议将目标平台上的直接速度评估作为有效VIT的设计原理。特别是，我们介绍了LITV2，这是一种简单有效的VIT，可与以更快的速度更快的不同模型大小相对现有的最新方法。 LITV2的核心是一种新型的自我发项机制，我们将其配音。希洛的灵感来自于洞察力的启发：图像中的高频捕获本地细节和低频集中在全球结构上，而多头自发项层则忽略了不同频率的特征。因此，我们建议通过将头部分为两组来解散注意力层中的高/低频模式，其中一组在每个本地窗口内通过自我关注来编码高频，而另一组则执行注意力以模拟全局关系。在每个窗口的平均低频键与输入功能图中的每个查询位置之间。从两组的有效设计中受益，我们表明希洛通过对GPU上的速度，速度和记忆消耗进行了全面测试，优于现有的注意机制。 LITV2由Hilo提供支持，是主流视觉任务的强大主链，包括图像分类，密集检测和分割。代码可从https://github.com/ziplab/litv2获得。

translated by 谷歌翻译

P2T: Pyramid Pooling Transformer for Scene Understanding

Yu-Huan Wu , Yun Liu , Xin Zhan , Ming-Ming Cheng

分类：计算机视觉

2021-06-22

最近，Vision Transformer通过推动各种视觉任务的最新技术取得了巨大的成功。视觉变压器中最具挑战性的问题之一是，图像令牌的较大序列长度会导致高计算成本（二次复杂性）。解决此问题的一个流行解决方案是使用单个合并操作来减少序列长度。本文考虑如何改善现有的视觉变压器，在这种变压器中，单个合并操作提取的合并功能似乎不太强大。为此，我们注意到，由于其在上下文抽象中的强大能力，金字塔池在各种视觉任务中已被证明是有效的。但是，在骨干网络设计中尚未探索金字塔池。为了弥合这一差距，我们建议在视觉变压器中将金字塔池汇总到多头自我注意力（MHSA）中，同时降低了序列长度并捕获强大的上下文特征。我们插入了基于池的MHSA，我们构建了一个通用视觉变压器主链，称为金字塔池变压器（P2T）。广泛的实验表明，与先前的基于CNN-和基于变压器的网络相比，当将P2T用作骨干网络时，它在各种视觉任务中显示出很大的优势。该代码将在https://github.com/yuhuan-wu/p2t上发布。

translated by 谷歌翻译

Mobile-Former: Bridging MobileNet and Transformer

Yinpeng Chen , Xiyang Dai , Dongdong Chen , Mengchen Liu , Xiaoyi Dong , Lu Yuan , Zicheng Liu

分类：计算机视觉 | 机器学习

2021-08-12

我们介绍了移动前的Mobilenet和Transformer的平行设计，在两侧桥。该结构利用MobileNet在全局互动下在局部加工和变压器处的优点。而且桥梁可以实现本地和全局特征的双向融合。不同于近期Vision变形金机的作品，移动设备中的变压器包含很少的令牌（例如6或更少的令牌），这些代币被随机初始化以学习全球前沿，导致计算成本低。结合所提出的轻量度跨关注模型桥梁，移动前不仅是计算高效的，而且还有更多的表示力量。它在从25米到500米到500米拖鞋的低浮圈制度以25米到500米的潮流表现出MobileNetv3。例如，移动前者在294米的拖鞋处获得77.9 \％的前1个精度，获得1.3 \％的MobileNetv3，但节省了17 \％的计算。当传输到对象检测时，移动式以前从RetinAnet框架中占MobileNetv3到8.6 AP。此外，我们通过用移动设备替换DETR中的骨干，编码器和解码器来构建高效的端到端探测器，该骨干，其优于12个AP，但节省了52 \％的计算成本和36 \％的参数。

translated by 谷歌翻译

Lightweight Vision Transformer with Cross Feature Attention

Youpeng Zhao , Huadong Tang , Yingying Jiang , Yong A , Qiang Wu

分类：计算机视觉

2022-07-15

视觉变压器（VIT）的最新进展在视觉识别任务中取得了出色的表现。卷积神经网络（CNNS）利用空间电感偏见来学习视觉表示，但是这些网络在空间上是局部的。 VIT可以通过其自我注意力机制学习全球表示形式，但它们通常是重量重量，不适合移动设备。在本文中，我们提出了交叉功能关注（XFA），以降低变压器的计算成本，并结合有效的移动CNN，形成一种新型有效的轻质CNN-CNN-VIT混合模型Xformer，可以用作通用的骨干链。学习全球和本地代表。实验结果表明，Xformer在不同的任务和数据集上的表现优于大量CNN和基于VIT的模型。在ImagEnet1k数据集上，XFormer以550万参数的优先级达到78.5％的TOP-1精度，比EdgitionNet-B0（基于CNN）（基于CNN）和DEIT（基于VIT）（基于VIT）的参数高2.2％和6.3％。当转移到对象检测和语义分割任务时，我们的模型也表现良好。在MS Coco数据集上，Xformer在Yolov3框架中仅超过10.5 AP（22.7-> 33.2 AP），只有630万参数和3.8克Flops。在CityScapes数据集上，只有一个简单的全MLP解码器，Xformer可实现78.5的MIOU，而FPS为15.3，超过了最先进的轻量级分割网络。

translated by 谷歌翻译

A Close Look at Spatial Modeling: From Attention to Convolution

Xu Ma , Huan Wang , Can Qin , Kunpeng Li , Xingchen Zhao , Jie Fu , Yun Fu

分类：计算机视觉 | 人工智能 | 机器学习

2022-12-23

Vision Transformers have shown great promise recently for many vision tasks due to the insightful architecture design and attention mechanism. By revisiting the self-attention responses in Transformers, we empirically observe two interesting issues. First, Vision Transformers present a queryirrelevant behavior at deep layers, where the attention maps exhibit nearly consistent contexts in global scope, regardless of the query patch position (also head-irrelevant). Second, the attention maps are intrinsically sparse, few tokens dominate the attention weights; introducing the knowledge from ConvNets would largely smooth the attention and enhance the performance. Motivated by above observations, we generalize self-attention formulation to abstract a queryirrelevant global context directly and further integrate the global context into convolutions. The resulting model, a Fully Convolutional Vision Transformer (i.e., FCViT), purely consists of convolutional layers and firmly inherits the merits of both attention mechanism and convolutions, including dynamic property, weight sharing, and short- and long-range feature modeling, etc. Experimental results demonstrate the effectiveness of FCViT. With less than 14M parameters, our FCViT-S12 outperforms related work ResT-Lite by 3.7% top1 accuracy on ImageNet-1K. When scaling FCViT to larger models, we still perform better than previous state-of-the-art ConvNeXt with even fewer parameters. FCViT-based models also demonstrate promising transferability to downstream tasks, like object detection, instance segmentation, and semantic segmentation. Codes and models are made available at: https://github.com/ma-xu/FCViT.

translated by 谷歌翻译

Twins: Revisiting the Design of Spatial Attention in Vision Transformers

Xiangxiang Chu , Zhi Tian , Yuqing Wang , Bo Zhang , Haibing Ren , Xiaolin Wei , Huaxia Xia , Chunhua Shen

分类：

2021-04-28

Very recently, a variety of vision transformer architectures for dense prediction tasks have been proposed and they show that the design of spatial attention is critical to their success in these tasks. In this work, we revisit the design of the spatial attention and demonstrate that a carefully devised yet simple spatial attention mechanism performs favorably against the state-of-the-art schemes. As a result, we propose two vision transformer architectures, namely, Twins-PCPVT and Twins-SVT. Our proposed architectures are highly efficient and easy to implement, only involving matrix multiplications that are highly optimized in modern deep learning frameworks. More importantly, the proposed architectures achieve excellent performance on a wide range of visual tasks including image-level classification as well as dense detection and segmentation. The simplicity and strong performance suggest that our proposed architectures may serve as stronger backbones for many vision tasks. Our Code is available at: https://git.io/Twins.

translated by 谷歌翻译

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

Xiaoyi Dong , Jianmin Bao , Dongdong Chen , Weiming Zhang , Nenghai Yu , Lu Yuan , Dong Chen , Baining Guo

分类：计算机视觉 | 机器学习

2021-07-01

我们介绍克斯内变压器，一种高效且有效的变压器的骨干，用于通用视觉任务。变压器设计的具有挑战性的问题是，全球自我关注来计算成本昂贵，而局部自我关注经常限制每个令牌的相互作用。为了解决这个问题，我们开发了以平行的横向和垂直条纹在水平和垂直条纹中计算自我关注的交叉形窗口自我关注机制，通过将输入特征分成相等的条纹而获得的每个条纹宽度。我们提供了条纹宽度效果的数学分析，并改变变压器网络的不同层的条纹宽度，这在限制计算成本时实现了强大的建模能力。我们还介绍了本地增强的位置编码（LEPE），比现有的编码方案更好地处理本地位置信息。 LEPE自然支持任意输入分辨率，因此对下游任务特别有效和友好。 CSWIN变压器并入其具有这些设计和分层结构，展示了普通愿景任务的竞争性能。具体来说，它在ImageNet-1K上实现了85.4 \％Top-1精度，而无需任何额外的培训数据或标签，53.9盒AP和46.4掩模AP，ADE20K语义分割任务上的52.2 Miou，超过以前的状态 - 在类似的拖鞋设置下，艺术品+1.2，+2.0，+1.4和+2.0分别为+1.2，+2.0，+1.4和+2.0。通过在较大的数据集Imagenet-21k上进行前预先预订，我们在Ave20K上实现了87.5％的成像-1K和高分性能，55.7 miou。代码和模型可在https://github.com/microsoft/cswin-transformer中找到。

translated by 谷歌翻译

MPViT: Multi-Path Vision Transformer for Dense Prediction

Youngwan Lee , Jonghee Kim , Jeff Willette , Sung Ju Hwang

分类：计算机视觉

2021-12-21

诸如对象检测和分割等密集的计算机视觉任务需要有效的多尺度特征表示，用于检测或分类具有不同大小的对象或区域。虽然卷积神经网络（CNNS）是这种任务的主导架构，但最近引入了视觉变压器（VITS）的目标是将它们替换为骨干。类似于CNN，VITS构建一个简单的多级结构（即，细致粗略），用于使用单尺度补丁进行多尺度表示。在这项工作中，通过从现有变压器的不同角度来看，我们探索了多尺度补丁嵌入和多路径结构，构建了多路径视觉变压器（MPVIT）。 MPVIT通过使用重叠的卷积贴片嵌入，将相同尺寸〜（即，序列长度，序列长度，序列长度的序列长度）嵌入不同尺度的斑块。然后，通过多个路径独立地将不同尺度的令牌独立地馈送到变压器编码器，并且可以聚合产生的特征，使得能够在相同特征级别的精细和粗糙的特征表示。由于多样化，多尺寸特征表示，我们的MPVits从微小〜（5m）缩放到基础〜（73米）一直在想象成分，对象检测，实例分段上的最先进的视觉变压器来实现卓越的性能，和语义细分。这些广泛的结果表明，MPVIT可以作为各种视觉任务的多功能骨干网。代码将在\ url {https://git.io/mpvit}上公开可用。

translated by 谷歌翻译