智能论文笔记

Rethinking Mobile Block for Efficient Neural Models

Jiangning Zhang , Xiangtai Li , Jian Li , Liang Liu , Zhucun Xue , Boshen Zhang , Zhengkai Jiang , Tianxin Huang , Yabiao Wang , Chengjie Wang

分类：计算机视觉

2023-01-03

This paper focuses on designing efficient models with low parameters and FLOPs for dense predictions. Even though CNN-based lightweight methods have achieved stunning results after years of research, trading-off model accuracy and constrained resources still need further improvements. This work rethinks the essential unity of efficient Inverted Residual Block in MobileNetv2 and effective Transformer in ViT, inductively abstracting a general concept of Meta-Mobile Block, and we argue that the specific instantiation is very important to model performance though sharing the same framework. Motivated by this phenomenon, we deduce a simple yet efficient modern \textbf{I}nverted \textbf{R}esidual \textbf{M}obile \textbf{B}lock (iRMB) for mobile applications, which absorbs CNN-like efficiency to model short-distance dependency and Transformer-like dynamic modeling capability to learn long-distance interactions. Furthermore, we design a ResNet-like 4-phase \textbf{E}fficient \textbf{MO}del (EMO) based only on a series of iRMBs for dense applications. Massive experiments on ImageNet-1K, COCO2017, and ADE20K benchmarks demonstrate the superiority of our EMO over state-of-the-art methods, \eg, our EMO-1M/2M/5M achieve 71.5, 75.1, and 78.4 Top-1 that surpass \textbf{SoTA} CNN-/Transformer-based models, while trading-off the model accuracy and efficiency well.

translated by 谷歌翻译

EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm

Jiangning Zhang , Xiangtai Li , Yabiao Wang , Chengjie Wang , Yibo Yang , Yong Liu , Dacheng Tao

分类：计算机视觉

2022-06-19

由生物学进化的动机，本文通过类比与经过验证的实践进化算法（EA）相比，解释了视觉变压器的合理性，并得出了两者都具有一致的数学表述。然后，我们受到有效的EA变体的启发，我们提出了一个新型的金字塔饮食式主链，该主链仅包含拟议的\ emph {ea-ea-lase transformer}（eat）块，该块由三个残留零件组成，\ ie，\ emph {多尺度区域聚集}（msra），\ emph {global and local互动}（GLI）和\ emph {feed-forward Network}（ffn）模块，以分别建模多尺度，交互和个人信息。此外，我们设计了一个与变压器骨架对接的\ emph {与任务相关的头}（TRH），以更灵活地完成最终信息融合，并\ emph {reviv} a \ emph {调制变形MSA}（MD-MSA），以动态模型模型位置。关于图像分类，下游任务和解释性实验的大量定量和定量实验证明了我们方法比最新方法（SOTA）方法的有效性和优越性。 \例如，我们的手机（1.8m），微小（6.1m），小（24.3m）和基地（49.0m）型号达到了69.4、78.4、83.1和83.9的83.9 TOP-1仅在Imagenet-1 K上接受NAIVE训练的TOP-1食谱; Eatformer微型/小型/基本武装面具-R-CNN获得45.4/47.4/49.0盒AP和41.4/42.9/44.2掩膜可可检测，超过当代MPVIT-T，SWIN-T，SWIN-T和SWIN-S，而SWIN-S则是0.6/ 1.4/0.5盒AP和0.4/1.3/0.9掩码AP分别使用较少的拖鞋；我们的Eatformer-small/base在Upernet上获得了47.3/49.3 MIOU，超过Swin-T/S超过2.8/1.7。代码将在\ url {https：//https：//github.com/zhangzjn/eatformer}上提供。

translated by 谷歌翻译

Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

Jiashi Li , Xin Xia , Wei Li , Huixia Li , Xing Wang , Xuefeng Xiao , Rui Wang , Min Zheng , Xin Pan

分类：计算机视觉

2022-07-12

由于复杂的注意机制和模型设计，大多数现有的视觉变压器（VIT）无法在现实的工业部署方案中的卷积神经网络（CNN）高效，例如张力和coreml。这提出了一个独特的挑战：可以设计视觉神经网络以与CNN一样快地推断并表现强大吗？最近的作品试图设计CNN-Transformer混合体系结构来解决这个问题，但是这些作品的整体性能远非令人满意。为了结束这些结束，我们提出了下一代视觉变压器，以在现实的工业场景中有效部署，即下一步，从延迟/准确性权衡的角度来看，它在CNN和VIT上占主导地位。在这项工作中，下一个卷积块（NCB）和下一个变压器块（NTB）分别开发出用于使用部署友好机制捕获本地和全球信息。然后，下一个混合策略（NHS）旨在将NCB和NTB堆叠在有效的混合范式中，从而提高了各种下游任务中的性能。广泛的实验表明，在各种视觉任务方面的延迟/准确性权衡方面，下一个VIT明显优于现有的CNN，VIT和CNN转换混合体系结构。在Tensorrt上，在可可检测上，Next-Vit超过5.4 MAP（从40.4到45.8），在类似延迟下，ADE20K细分的8.2％MIOU（从38.8％到47.0％）。同时，它可以与CSWIN达到可比的性能，而推理速度则以3.6倍的速度加速。在COREML上，在类似的延迟下，在COCO检测上，下一步超过了可可检测的4.6 MAP（从42.6到47.2），ADE20K分割的3.5％MIOU（从45.2％到48.7％）。代码将最近发布。

translated by 谷歌翻译

CMT: Convolutional Neural Networks Meet Vision Transformers

Jianyuan Guo , Kai Han , Han Wu , Yehui Tang , Xinghao Chen , Yunhe Wang , Chang Xu

分类：计算机视觉

2021-07-13

视觉变压器由于能够捕获图像中的长期依赖性的能力而成功地应用于图像识别任务。但是，变压器与现有卷积神经网络（CNN）之间的性能和计算成本仍然存在差距。在本文中，我们旨在解决此问题，并开发一个网络，该网络不仅可以超越规范变压器，而且可以超越高性能卷积模型。我们通过利用变压器来捕获长期依赖性和CNN来建模本地特征，从而提出了一个新的基于变压器的混合网络。此外，我们将其扩展为获得一个称为CMT的模型家族，比以前的基于卷积和基于变压器的模型获得了更好的准确性和效率。特别是，我们的CMT-S在ImageNet上获得了83.5％的TOP-1精度，而在拖鞋上的拖曳率分别比现有的DEIT和EficitiveNet小14倍和2倍。拟议的CMT-S还可以很好地概括CIFAR10（99.2％），CIFAR100（91.7％），花（98.7％）以及其他具有挑战性的视觉数据集，例如可可（44.3％地图），计算成本较小。

translated by 谷歌翻译

Convolutional Embedding Makes Hierarchical Vision Transformer Stronger

Cong Wang , Hongmin Xu , Xiong Zhang , Li Wang , Zhitong Zheng , Haifeng Liu

分类：计算机视觉 | 人工智能

2022-07-27

视觉变压器（VIT）最近在一系列计算机视觉任务中占据了主导地位，但训练数据效率低下，局部语义表示能力较低，而没有适当的电感偏差。卷积神经网络（CNNS）固有地捕获了区域感知语义，激发了研究人员将CNN引入VIT的架构中，以为VIT提供理想的诱导偏见。但是，嵌入在VIT中的微型CNN实现的位置是否足够好？在本文中，我们通过深入探讨混合CNNS/VIT的宏观结构如何增强层次VIT的性能。特别是，我们研究了令牌嵌入层，别名卷积嵌入（CE）的作用，并系统地揭示了CE如何在VIT中注入理想的感应偏置。此外，我们将最佳CE配置应用于最近发布的4个最先进的Vits，从而有效地增强了相应的性能。最后，释放了一个有效的混合CNN/VIT家族，称为CETNET，可以用作通用的视觉骨架。具体而言，CETNET在Imagenet-1K上获得了84.9％的TOP-1准确性（从头开始训练），可可基准上的48.6％的盒子地图和ADE20K上的51.6％MIOU，从而显着提高了相应的最新态度的性能。艺术基线。

translated by 谷歌翻译

Efficient Multi-order Gated Aggregation Network

Siyuan Li , Zedong Wang , Zicheng Liu , Cheng Tan , Haitao Lin , Di Wu , Zhiyuan Chen , Jiangbin Zheng , Stan Z. Li

分类：计算机视觉 | 人工智能

2022-11-07

Since the recent success of Vision Transformers (ViTs), explorations toward transformer-style architectures have triggered the resurgence of modern ConvNets. In this work, we explore the representation ability of DNNs through the lens of interaction complexities. We empirically show that interaction complexity is an overlooked but essential indicator for visual recognition. Accordingly, a new family of efficient ConvNets, named MogaNet, is presented to pursue informative context mining in pure ConvNet-based models, with preferable complexity-performance trade-offs. In MogaNet, interactions across multiple complexities are facilitated and contextualized by leveraging two specially designed aggregation blocks in both spatial and channel interaction spaces. Extensive studies are conducted on ImageNet classification, COCO object detection, and ADE20K semantic segmentation tasks. The results demonstrate that our MogaNet establishes new state-of-the-art over other popular methods in mainstream scenarios and all model scales. Typically, the lightweight MogaNet-T achieves 80.0\% top-1 accuracy with only 1.44G FLOPs using a refined training setup on ImageNet-1K, surpassing ParC-Net-S by 1.4\% accuracy but saving 59\% (2.04G) FLOPs.

translated by 谷歌翻译

UniNet: Unified Architecture Search with Convolution, Transformer, and MLP

Jihao Liu , Xin Huang , Guanglu Song , Yu Liu , Hongsheng Li

分类：计算机视觉 | 人工智能

2022-07-12

最近，变压器和多层感知器（MLP）体系结构在各种视觉任务上取得了令人印象深刻的结果。但是，如何有效地结合这些操作员形成高性能混合视觉体系结构仍然是一个挑战。在这项工作中，我们通过提出一种新型的统一体系结构搜索方法来研究卷积，变压器和MLP的可学习组合。我们的方法包含两个关键设计，以实现高性能网络的搜索。首先，我们以统一的形式对截然不同的可搜索运算符进行建模，从而使操作员能够用相同的配置参数进行表征。这样，总体搜索空间规模大大减少，总搜索成本变得负担得起。其次，我们提出上下文感知的倒数采样模块（DSM），以减轻不同类型的操作员之间的差距。我们提出的DSM能够更好地适应不同类型的操作员的功能，这对于识别高性能混合体系结构很重要。最后，我们将可配置的运算符和DSM集成到统一的搜索空间中，并使用基于增强学习的搜索算法进行搜索，以充分探索操作员的最佳组合。为此，我们搜索一个基线网络并扩大规模，以获得一个名为UNINET的模型系列，该模型的准确性和效率比以前的Convnets和Transformers更好。特别是，我们的UNET-B5在ImageNet上获得了84.9％的TOP-1精度，比效应网络-B7和Botnet-T7分别少了44％和55％。通过在Imagenet-21K上进行预处理，我们的UNET-B6获得了87.4％，表现优于SWIN-L，拖鞋少51％，参数减少了41％。代码可在https://github.com/sense-x/uninet上找到。

translated by 谷歌翻译

EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications

Muhammad Maaz , Abdelrahman Shaker , Hisham Cholakkal , Salman Khan , Syed Waqas Zamir , Rao Muhammad Anwer , Fahad Shahbaz Khan

分类：计算机视觉

2022-06-21

为了实现不断增长的准确性，通常会开发大型和复杂的神经网络。这样的模型需要高度的计算资源，因此不能在边缘设备上部署。由于它们在几个应用领域的有用性，建立资源有效的通用网络非常感兴趣。在这项工作中，我们努力有效地结合了CNN和变压器模型的优势，并提出了一种新的有效混合体系结构。特别是在EDGENEXT中，我们引入了分裂深度转置注意力（SDTA）编码器，该编码器将输入张量分解为多个通道组，并利用深度旋转以及跨通道维度的自我注意力，以隐含地增加接受场并编码多尺度特征。我们在分类，检测和分割任务上进行的广泛实验揭示了所提出的方法的优点，优于相对较低的计算要求的最先进方法。我们具有130万参数的EDGENEXT模型在Imagenet-1k上达到71.2 \％TOP-1的精度，超过移动设备的绝对增益为2.2 \％，而拖鞋减少了28 \％。此外，我们具有560万参数的EDGENEXT模型在Imagenet-1k上达到了79.4 \％TOP-1的精度。代码和模型可在https://t.ly/_vu9上公开获得。

translated by 谷歌翻译

Lightweight Vision Transformer with Cross Feature Attention

Youpeng Zhao , Huadong Tang , Yingying Jiang , Yong A , Qiang Wu

分类：计算机视觉

2022-07-15

视觉变压器（VIT）的最新进展在视觉识别任务中取得了出色的表现。卷积神经网络（CNNS）利用空间电感偏见来学习视觉表示，但是这些网络在空间上是局部的。 VIT可以通过其自我注意力机制学习全球表示形式，但它们通常是重量重量，不适合移动设备。在本文中，我们提出了交叉功能关注（XFA），以降低变压器的计算成本，并结合有效的移动CNN，形成一种新型有效的轻质CNN-CNN-VIT混合模型Xformer，可以用作通用的骨干链。学习全球和本地代表。实验结果表明，Xformer在不同的任务和数据集上的表现优于大量CNN和基于VIT的模型。在ImagEnet1k数据集上，XFormer以550万参数的优先级达到78.5％的TOP-1精度，比EdgitionNet-B0（基于CNN）（基于CNN）和DEIT（基于VIT）（基于VIT）的参数高2.2％和6.3％。当转移到对象检测和语义分割任务时，我们的模型也表现良好。在MS Coco数据集上，Xformer在Yolov3框架中仅超过10.5 AP（22.7-> 33.2 AP），只有630万参数和3.8克Flops。在CityScapes数据集上，只有一个简单的全MLP解码器，Xformer可实现78.5的MIOU，而FPS为15.3，超过了最先进的轻量级分割网络。

translated by 谷歌翻译

HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions

Yongming Rao , Wenliang Zhao , Yansong Tang , Jie Zhou , Ser-Nam Lim , Jiwen Lu

分类：计算机视觉

2022-07-28

视觉变压器的最新进展在基于点产生自我注意的新空间建模机制驱动的各种任务中取得了巨大成功。在本文中，我们表明，视觉变压器背后的关键要素，即输入自适应，远程和高阶空间相互作用，也可以通过基于卷积的框架有效地实现。我们介绍了递归封闭式卷积（$ \ textit {g}^\ textit {n} $ conv），该卷积{n} $ conv）与封闭的卷积和递归设计执行高阶空间交互。新操作是高度灵活和可定制的，它与卷积的各种变体兼容，并将自我注意的两阶相互作用扩展到任意订单，而无需引入大量额外的计算。 $ \ textit {g}^\ textit {n} $ conv可以用作插件模块，以改善各种视觉变压器和基于卷积的模型。根据该操作，我们构建了一个名为Hornet的新型通用视觉骨干家族。关于ImageNet分类，可可对象检测和ADE20K语义分割的广泛实验表明，大黄蜂的表现优于Swin变形金刚，并具有相似的整体体系结构和训练配置的明显边距。大黄蜂还显示出对更多训练数据和更大模型大小的有利可伸缩性。除了在视觉编码器中的有效性外，我们还可以将$ \ textit {g}^\ textit {n} $ conv应用于特定于任务的解码器，并始终通过较少的计算来提高密集的预测性能。我们的结果表明，$ \ textIt {g}^\ textit {n} $ conv可以成为视觉建模的新基本模块，可有效结合视觉变形金刚和CNN的优点。代码可从https://github.com/raoyongming/hornet获得

translated by 谷歌翻译

EfficientFormer: Vision Transformers at MobileNet Speed

Yanyu Li , Geng Yuan , Yang Wen , Eric Hu , Georgios Evangelidis , Sergey Tulyakov , Yanzhi Wang , Jian Ren

分类：计算机视觉

2022-06-02

视觉变压器（VIT）显示了计算机视觉任务的快速进步，在各种基准上取得了令人鼓舞的结果。但是，由于参数和模型设计的数量大量，例如注意机制，基于VIT的模型通常比轻型卷积网络慢。因此，为实时应用程序部署VIT特别具有挑战性，尤其是在资源受限的硬件（例如移动设备）上。最近的努力试图通过网络体系结构搜索或与Mobilenet块的混合设计来降低VIT的计算复杂性，但推理速度仍然不令人满意。这导致了一个重要的问题：变形金刚在获得高性能的同时可以像Mobilenet一样快吗？为了回答这一点，我们首先重新审视基于VIT的模型中使用的网络体系结构和运营商，并确定效率低下的设计。然后，我们引入了一个尺寸一致的纯变压器（无需Mobilenet块）作为设计范式。最后，我们执行以延迟驱动的缩小，以获取一系列称为EfficityFormer的最终模型。广泛的实验表明，在移动设备上的性能和速度方面，有效形式的优势。我们最快的型号，EfficientFormer-L1，在ImagEnet-1k上获得$ 79.2 \％$ $ TOP-1的准确性，仅$ 1.6 $ MS推理潜伏期在iPhone 12上（与Coreml一起编译），该{运行速度与MobileNetV2 $ \ Times Times 1.4 $（ $ 1.6 $ MS，$ 74.7 \％$ top-1），我们最大的型号EfficientFormer-L7，获得了$ 83.3 \％$精度，仅$ 7.0 $ MS延迟。我们的工作证明，正确设计的变压器可以在移动设备上达到极低的延迟，同时保持高性能。

translated by 谷歌翻译

Rethinking Vision Transformers for MobileNet Size and Speed

Yanyu Li , Ju Hu , Yang Wen , Georgios Evangelidis , Kamyar Salahi , Yanzhi Wang , Sergey Tulyakov , Jian Ren

分类：计算机视觉 | 人工智能 | 机器学习

2022-12-15

With the success of Vision Transformers (ViTs) in computer vision tasks, recent arts try to optimize the performance and complexity of ViTs to enable efficient deployment on mobile devices. Multiple approaches are proposed to accelerate attention mechanism, improve inefficient designs, or incorporate mobile-friendly lightweight convolutions to form hybrid architectures. However, ViT and its variants still have higher latency or considerably more parameters than lightweight CNNs, even true for the years-old MobileNet. In practice, latency and size are both crucial for efficient deployment on resource-constraint hardware. In this work, we investigate a central question, can transformer models run as fast as MobileNet and maintain a similar size? We revisit the design choices of ViTs and propose an improved supernet with low latency and high parameter efficiency. We further introduce a fine-grained joint search strategy that can find efficient architectures by optimizing latency and number of parameters simultaneously. The proposed models, EfficientFormerV2, achieve about $4\%$ higher top-1 accuracy than MobileNetV2 and MobileNetV2$\times1.4$ on ImageNet-1K with similar latency and parameters. We demonstrate that properly designed and optimized vision transformers can achieve high performance with MobileNet-level size and speed.

translated by 谷歌翻译

Visual Attention Network

Meng-Hao Guo , Cheng-Ze Lu , Zheng-Ning Liu , Ming-Ming Cheng , Shi-Min Hu

分类：计算机视觉

2022-02-20

虽然最初是为自然语言处理任务而设计的，但自我发挥的机制最近逐渐席卷了各种计算机视觉领域。但是，图像的2D性质带来了在计算机视觉中应用自我注意力的三个挑战。（1）将图像作为1D序列忽略了其2D结构。（2）对于高分辨率图像而言，二次复杂性太贵了。（3）它仅捕获空间适应性，但忽略了通道适应性。在本文中，我们提出了一种新颖的线性注意力，名为“大核心注意”（LKA），以使自适应和远程相关性在自我注意力中避免其缺点。此外，我们提出了基于LKA的神经网络，即视觉注意力网络（VAN）。虽然非常简单，但范超过了相似的大小视觉变压器（VIT）和各种任务中的卷积神经网络（CNN），包括图像分类，对象检测，语义细分，泛型分割，姿势估计等。 ImageNet基准测试的精度为％，并为全景分割设置新的最先进性能（58.2 PQ）。此外，Van-B2超过Swin-T 4％MIOU（50.1 vs. 46.1），用于ADE20K基准上的语义分割，2.6％AP（48.8 vs. 46.2）在COCO数据集上进行对象检测。它为社区提供了一种新颖的方法和简单而强大的基线。代码可从https://github.com/visual-crestention-network获得。

translated by 谷歌翻译

Visual Representation Learning with Transformer: A Sequence-to-Sequence Perspective

Li Zhang , Sixiao Zheng , Jiachen Lu , Xinxuan Zhao , Xiatian Zhu , Yanwei Fu , Tao Xiang , Jianfeng Feng

分类：计算机视觉

2022-07-19

视觉表示学习是解决各种视力问题的关键。依靠开创性的网格结构先验，卷积神经网络（CNN）已成为大多数深视觉模型的事实上的标准架构。例如，经典的语义分割方法通常采用带有编码器编码器体系结构的完全横向卷积网络（FCN）。编码器逐渐减少了空间分辨率，并通过更大的接受场来学习更多抽象的视觉概念。由于上下文建模对于分割至关重要，因此最新的努力一直集中在通过扩张（即极度）卷积或插入注意力模块来增加接受场。但是，基于FCN的体系结构保持不变。在本文中，我们旨在通过将视觉表示学习作为序列到序列预测任务来提供替代观点。具体而言，我们部署纯变压器以将图像编码为一系列贴片，而无需局部卷积和分辨率减少。通过在变压器的每一层中建立的全球环境，可以学习更强大的视觉表示形式，以更好地解决视力任务。特别是，我们的细分模型（称为分割变压器（SETR））在ADE20K上擅长（50.28％MIOU，这是提交当天测试排行榜中的第一个位置），Pascal环境（55.83％MIOU），并在CityScapes上达到竞争成果。此外，我们制定了一个分层局部全球（HLG）变压器的家族，其特征是窗户内的本地关注和跨窗户的全球性专注于层次结构和金字塔架构。广泛的实验表明，我们的方法在各种视觉识别任务（例如，图像分类，对象检测和实例分割和语义分割）上实现了吸引力的性能。

translated by 谷歌翻译

ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer

Rui Yang , Hailong Ma , Jie Wu , Yansong Tang , Xuefeng Xiao , Min Zheng , Xiu Li

分类：计算机视觉 | 人工智能

2022-03-21

香草自我注意的机制固有地依赖于预定和坚定的计算维度。这种僵化的性限制了它具有面向上下文的概括，可以带来更多的上下文提示和全球表示。为了减轻此问题，我们提出了一种可扩展的自我注意（SSA）机制，该机制利用两个缩放因素来释放查询，键和价值矩阵的维度，同时使它们不符合输入。这种可伸缩性可获得面向上下文的概括并增强对象灵敏度，从而将整个网络推向准确性和成本之间的更有效的权衡状态。此外，我们提出了一个基于窗口的自我注意事项（IWSA），该自我注意力（IWSA）通过重新合并独立的值代币并从相邻窗口中汇总空间信息来建立非重叠区域之间的相互作用。通过交替堆叠SSA和IWSA，可扩展的视觉变压器（可伸缩率）在通用视觉任务中实现最先进的性能。例如，在Imagenet-1K分类中，可伸缩率S的表现优于双胞胎-SVT-S，而Swin-T则比1.4％。

translated by 谷歌翻译

Vision Transformers with Hierarchical Attention

Yun Liu , Yu-Huan Wu , Guolei Sun , Le Zhang , Ajad Chhatkuli , Luc Van Gool

分类：计算机视觉

2021-06-06

本文解决了由多头自我注意力（MHSA）中高计算/空间复杂性引起的视觉变压器的低效率缺陷。为此，我们提出了层次MHSA（H-MHSA），其表示以层次方式计算。具体而言，我们首先将输入图像分为通常完成的补丁，每个补丁都被视为令牌。然后，拟议的H-MHSA学习本地贴片中的令牌关系，作为局部关系建模。然后，将小贴片合并为较大的贴片，H-MHSA对少量合并令牌的全局依赖性建模。最后，汇总了本地和全球专注的功能，以获得具有强大表示能力的功能。由于我们仅在每个步骤中计算有限数量的令牌的注意力，因此大大减少了计算负载。因此，H-MHSA可以在不牺牲细粒度信息的情况下有效地模拟令牌之间的全局关系。使用H-MHSA模块合并，我们建立了一个基于层次的变压器网络的家族，即HAT-NET。为了证明在场景理解中HAT-NET的优越性，我们就基本视觉任务进行了广泛的实验，包括图像分类，语义分割，对象检测和实例细分。因此，HAT-NET为视觉变压器提供了新的视角。可以在https://github.com/yun-liu/hat-net上获得代码和预估计的模型。

translated by 谷歌翻译

HRFormer: High-Resolution Transformer for Dense Prediction

Yuhui Yuan , Rao Fu , Lang Huang , Weihong Lin , Chao Zhang , Xilin Chen , Jingdong Wang

分类：计算机视觉

2021-10-18

我们介绍了一个高分辨率变压器（HRFormer），其学习了密集预测任务的高分辨率表示，与产生低分辨率表示的原始视觉变压器，具有高存储器和计算成本。我们利用在高分辨率卷积网络（HRNET）中引入的多分辨率并行设计，以及本地窗口自我关注，用于通过小型非重叠图像窗口进行自我关注，以提高存储器和计算效率。此外，我们将卷积介绍到FFN中以在断开连接的图像窗口中交换信息。我们展示了高分辨率变压器对人类姿态估计和语义分割任务的有效性，例如，HRFormer在Coco姿势估算中以$ 50 \％$ 50 + 50美元和30 \％$更少的拖鞋。代码可用：https://github.com/hrnet/hRFormer。

translated by 谷歌翻译

CvT: Introducing Convolutions to Vision Transformers

Haiping Wu , Bin Xiao , Noel Codella , Mengchen Liu , Xiyang Dai , Lu Yuan , Lei Zhang

分类：

2021-03-29

We present in this paper a new architecture, named Convolutional vision Transformer (CvT), that improves Vision Transformer (ViT) in performance and efficiency by introducing convolutions into ViT to yield the best of both designs. This is accomplished through two primary modifications: a hierarchy of Transformers containing a new convolutional token embedding, and a convolutional Transformer block leveraging a convolutional projection. These changes introduce desirable properties of convolutional neural networks (CNNs) to the ViT architecture (i.e. shift, scale, and distortion invariance) while maintaining the merits of Transformers (i.e. dynamic attention, global context, and better generalization). We validate CvT by conducting extensive experiments, showing that this approach achieves state-of-the-art performance over other Vision Transformers and ResNets on ImageNet-1k, with fewer parameters and lower FLOPs. In addition, performance gains are maintained when pretrained on larger datasets (e.g. ImageNet-22k) and fine-tuned to downstream tasks. Pretrained on ImageNet-22k, our CvT-W24 obtains a top-1 accuracy of 87.7% on the ImageNet-1k val set. Finally, our results show that the positional encoding, a crucial component in existing Vision Transformers, can be safely removed in our model, simplifying the design for higher resolution vision tasks. Code will be released at https: //github.com/leoxiaobin/CvT.

translated by 谷歌翻译

Global Context Vision Transformers

Ali Hatamizadeh , Hongxu Yin , Jan Kautz , Pavlo Molchanov

分类：计算机视觉 | 人工智能 | 机器学习

2022-06-20

我们提出了全球环境视觉变压器（GC VIT），这是一种新的结构，可增强参数和计算利用率。我们的方法利用了与本地自我注意的联合的全球自我发项模块，以有效但有效地建模长和短距离的空间相互作用，而无需昂贵的操作，例如计算注意力面罩或移动本地窗户。此外，我们通过建议在我们的体系结构中使用修改后的融合倒置残差块来解决VIT中缺乏归纳偏差的问题。我们提出的GC VIT在图像分类，对象检测和语义分割任务中实现了最新的结果。在用于分类的ImagEnet-1k数据集上，基本，小而微小的GC VIT，$ 28 $ M，$ 51 $ M和$ 90 $ M参数实现$ \ textbf {83.2 \％} $，$ \ textbf {83.9 \％} $和$ \ textbf {84.4 \％} $ top-1的精度，超过了相当大的先前艺术，例如基于CNN的Convnext和基于VIT的Swin Transformer，其优势大大。在对象检测，实例分割和使用MS Coco和ADE20K数据集的下游任务中，预训练的GC VIT主机在对象检测，实例分割和语义分割的任务中始终如一地超过事务，有时是通过大余量。可在https://github.com/nvlabs/gcvit上获得代码。

translated by 谷歌翻译

A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP

Yucheng Zhao , Guangting Wang , Chuanxin Tang , Chong Luo , Wenjun Zeng , Zheng-Jun Zha

分类：计算机视觉

2021-08-30

卷积神经网络（CNN）是用于计算机视觉的主要的深神经网络（DNN）架构。最近，变压器和多层的Perceptron（MLP）的基础型号，如视觉变压器和MLP-MILER，开始引领新的趋势，因为它们在想象成分类任务中显示出了有希望的结果。在本文中，我们对这些DNN结构进行了实证研究，并试图了解他们各自的利弊。为了确保公平的比较，我们首先开发一个名为SPACH的统一框架，可以采用单独的空间和通道处理模块。我们在SPACH框架下的实验表明，所有结构都可以以适度的规模实现竞争性能。但是，当网络大小缩放时，它们展示了独特的行为。根据我们的调查结果，我们建议使用卷积和变压器模块的混合模型。由此产生的Hybrid-MS-S +模型实现了83.9％的前1个精度，63米参数和12.3g拖薄。它已与具有复杂设计的SOTA模型相提并论。代码和模型在https://github.com/microsoft/spach上公开使用。

translated by 谷歌翻译