在本文中,我们提出了一种使用CNN和变压器结构融合以提高图像分类性能的方法。对于CNN,可以很好地提取有关图像上局部区域的信息,但是限制了全局信息的提取。另一方面,变压器在相对全局的提取方面具有优势,但缺点是因为它需要大量的内存来进行本地特征值提取。在图像的情况下,它通过CNN转换为特征映射,每个特征映射的像素都被视为令牌。同时,将图像分为贴片区域,然后与将其视为令牌视图的变压器方法融合在一起。对于令牌与两个不同特征的融合,我们提出了三种方法:(1)具有平行结构的晚令融合,(2)早期令牌融合,(3)逐层中的令牌融合。在使用Imagenet 1K的实验中,提出的方法显示了最佳的分类性能。
translated by 谷歌翻译
视觉变压器由于能够捕获图像中的长期依赖性的能力而成功地应用于图像识别任务。但是,变压器与现有卷积神经网络(CNN)之间的性能和计算成本仍然存在差距。在本文中,我们旨在解决此问题,并开发一个网络,该网络不仅可以超越规范变压器,而且可以超越高性能卷积模型。我们通过利用变压器来捕获长期依赖性和CNN来建模本地特征,从而提出了一个新的基于变压器的混合网络。此外,我们将其扩展为获得一个称为CMT的模型家族,比以前的基于卷积和基于变压器的模型获得了更好的准确性和效率。特别是,我们的CMT-S在ImageNet上获得了83.5%的TOP-1精度,而在拖鞋上的拖曳率分别比现有的DEIT和EficitiveNet小14倍和2倍。拟议的CMT-S还可以很好地概括CIFAR10(99.2%),CIFAR100(91.7%),花(98.7%)以及其他具有挑战性的视觉数据集,例如可可(44.3%地图),计算成本较小。
translated by 谷歌翻译
在过去的十年中,CNN在电脑愿景世界中统治了至高无上,但最近,变压器一直在崛起。然而,自我关注的二次计算成本已成为实践应用中的严重问题。在没有CNN的情况下,在这种情况下已经有很多研究了,并且在这种情况下自我关注。特别地,MLP混合器是使用MLP设计的简单架构,并击中与视觉变压器相当的精度。然而,这种体系结构中唯一的归纳偏见是嵌入令牌。这叶打开了将非卷积(或非本地)电感偏差结合到架构中的可能性,因此我们使用了两个简单的想法,以便利用其捕获全局相关能力的同时将电感偏差纳入MLP混合器。一种方法是将令牌混合块垂直和水平分割。另一种方法是在一些令牌混合通道中进行空间相关性密集。通过这种方法,我们能够提高MLP混合器的准确性,同时降低其参数和计算复杂性。 RAFTMLP-S的小型模型与每个计算的参数和效率方面的基于最先进的全球MLP的模型相当。此外,我们通过利用双向插值来解决基于MLP的模型的固定输入图像分辨率的问题。我们证明这些模型可以应用于诸如物体检测的下游任务的架构的骨干。但是,它没有显着的性能,并提到了对基于全球MLP的模型的下游任务的特定MLP特定架构的需求。 pytorch版本中的源代码可用于\ url {https:/github.com/okojoalg/raft-mlp}。
translated by 谷歌翻译
We present in this paper a new architecture, named Convolutional vision Transformer (CvT), that improves Vision Transformer (ViT) in performance and efficiency by introducing convolutions into ViT to yield the best of both designs. This is accomplished through two primary modifications: a hierarchy of Transformers containing a new convolutional token embedding, and a convolutional Transformer block leveraging a convolutional projection. These changes introduce desirable properties of convolutional neural networks (CNNs) to the ViT architecture (i.e. shift, scale, and distortion invariance) while maintaining the merits of Transformers (i.e. dynamic attention, global context, and better generalization). We validate CvT by conducting extensive experiments, showing that this approach achieves state-of-the-art performance over other Vision Transformers and ResNets on ImageNet-1k, with fewer parameters and lower FLOPs. In addition, performance gains are maintained when pretrained on larger datasets (e.g. ImageNet-22k) and fine-tuned to downstream tasks. Pretrained on ImageNet-22k, our CvT-W24 obtains a top-1 accuracy of 87.7% on the ImageNet-1k val set. Finally, our results show that the positional encoding, a crucial component in existing Vision Transformers, can be safely removed in our model, simplifying the design for higher resolution vision tasks. Code will be released at https: //github.com/leoxiaobin/CvT.
translated by 谷歌翻译
最近,类似于MLP的视觉模型已在主流视觉识别任务上实现了有希望的表演。与视觉变压器和CNN相反,类似MLP的模型的成功表明,令牌和渠道之间的简单信息融合操作可以为深度识别模型带来良好的表示能力。但是,现有的类似于MLP的模型通过静态融合操作融合代币,缺乏对代币内容的适应性。因此,习惯信息融合程序不够有效。为此,本文介绍了一种有效的MLP式网络体系结构,称为Dynamixer,诉诸动态信息融合。至关重要的是,我们提出了一个程序,该过程依赖于该过程,以通过利用混合所有令牌的内容来动态生成混合矩阵。为了减少时间复杂性并提高鲁棒性,采用了降低性降低技术和多段融合机制。我们提出的Dynamixer模型(9700万参数)在没有额外的训练数据的情况下,在Imagenet-1k数据集上实现了84.3 \%TOP-1的精度,对最先进的视觉MLP模型表现出色。当参数数量减少到26m时,它仍然可以达到82.7 \%TOP-1的精度,超过了具有相似容量的现有MLP样模型。该代码可在\ url {https://github.com/ziyuwwang/dynamixer}中获得。
translated by 谷歌翻译
The recently developed vision transformer (ViT) has achieved promising results on image classification compared to convolutional neural networks. Inspired by this, in this paper, we study how to learn multi-scale feature representations in transformer models for image classification. To this end, we propose a dual-branch transformer to combine image patches (i.e., tokens in a transformer) of different sizes to produce stronger image features. Our approach processes small-patch and large-patch tokens with two separate branches of different computational complexity and these tokens are then fused purely by attention multiple times to complement each other. Furthermore, to reduce computation, we develop a simple yet effective token fusion module based on cross attention, which uses a single token for each branch as a query to exchange information with other branches. Our proposed cross-attention only requires linear time for both computational and memory complexity instead of quadratic time otherwise. Extensive experiments demonstrate that our approach performs better than or on par with several concurrent works on vision transformer, in addition to efficient CNN models. For example, on the ImageNet1K dataset, with some architectural changes, our approach outperforms the recent DeiT by a large margin of 2% with a small to moderate increase in FLOPs and model parameters. Our source codes and models are available at https://github.com/IBM/CrossViT.
translated by 谷歌翻译
位置编码对于视觉变压器(VIT)捕获输入图像的空间结构很重要。一般疗效已在VIT中得到证明。在我们的工作中,我们建议训练VIT以识别输入图像贴片的2D位置编码,这项显然简单的任务实际上产生了有意义的自我研究任务。基于对VIT位置编码的先前工作,我们提出了两个专用于2D图像的位置标签,包括绝对位置和相对位置。我们的位置标签可以轻松地插入变压器中,并结合各种当前VIT变体。它可以通过两种方式工作:1。作为Vanilla Vit(例如VIT-B和SWIN-B)的辅助培训目标,以提高模型性能。 2.结合自我监督的vit(例如,MAE),为语义特征学习提供了更强大的自我监督信号。实验表明,仅由于提出的自我监督方法,Swin-B和Vit-B分别在Mini-Imagenet上获得了1.9%(TOP-1 ACC)和5.6%(TOP-1 ACC)的改善。
translated by 谷歌翻译
Transformer is a new kind of neural architecture which encodes the input data as powerful features via the attention mechanism. Basically, the visual transformers first divide the input images into several local patches and then calculate both representations and their relationship. Since natural images are of high complexity with abundant detail and color information, the granularity of the patch dividing is not fine enough for excavating features of objects in different scales and locations. In this paper, we point out that the attention inside these local patches are also essential for building visual transformers with high performance and we explore a new architecture, namely, Transformer iN Transformer (TNT). Specifically, we regard the local patches (e.g., 16×16) as "visual sentences" and present to further divide them into smaller patches (e.g., 4×4) as "visual words". The attention of each word will be calculated with other words in the given visual sentence with negligible computational costs. Features of both words and sentences will be aggregated to enhance the representation ability. Experiments on several benchmarks demonstrate the effectiveness of the proposed TNT architecture, e.g., we achieve an 81.5% top-1 accuracy on the ImageNet, which is about 1.7% higher than that of the state-of-the-art visual transformer with similar computational cost.
translated by 谷歌翻译
While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place. We show that this reliance on CNNs is not necessary and a pure transformer applied directly to sequences of image patches can perform very well on image classification tasks. When pre-trained on large amounts of data and transferred to multiple mid-sized or small image recognition benchmarks (ImageNet, CIFAR-100, VTAB, etc.), Vision Transformer (ViT) attains excellent results compared to state-of-the-art convolutional networks while requiring substantially fewer computational resources to train. 1
translated by 谷歌翻译
本文解决了由多头自我注意力(MHSA)中高计算/空间复杂性引起的视觉变压器的低效率缺陷。为此,我们提出了层次MHSA(H-MHSA),其表示以层次方式计算。具体而言,我们首先将输入图像分为通常完成的补丁,每个补丁都被视为令牌。然后,拟议的H-MHSA学习本地贴片中的令牌关系,作为局部关系建模。然后,将小贴片合并为较大的贴片,H-MHSA对少量合并令牌的全局依赖性建模。最后,汇总了本地和全球专注的功能,以获得具有强大表示能力的功能。由于我们仅在每个步骤中计算有限数量的令牌的注意力,因此大大减少了计算负载。因此,H-MHSA可以在不牺牲细粒度信息的情况下有效地模拟令牌之间的全局关系。使用H-MHSA模块合并,我们建立了一个基于层次的变压器网络的家族,即HAT-NET。为了证明在场景理解中HAT-NET的优越性,我们就基本视觉任务进行了广泛的实验,包括图像分类,语义分割,对象检测和实例细分。因此,HAT-NET为视觉变压器提供了新的视角。可以在https://github.com/yun-liu/hat-net上获得代码和预估计的模型。
translated by 谷歌翻译
在语言领域取得成功之后,自我发挥机制(变压器)在视觉领域采用并取得了巨大的成功。此外,作为另一个流中的多层感知器(MLP),也在视觉域中探索。除传统CNN以外,这些架构最近引起了人们的关注,并提出了许多方法。作为将参数效率和性能与图像识别中的局部性和层次结合在一起的一种,我们提出了将两个流合并的GSWIN。Swin Transformer和(多头)GMLP。我们表明,与具有较小模型大小的SWIN Transformer相比,GSWIN可以在三个视觉任务,图像分类,对象检测和语义分割方面实现更好的准确性。
translated by 谷歌翻译
卷积神经网络(CNN)是用于计算机视觉的主要的深神经网络(DNN)架构。最近,变压器和多层的Perceptron(MLP)的基础型号,如视觉变压器和MLP-MILER,开始引领新的趋势,因为它们在想象成分类任务中显示出了有希望的结果。在本文中,我们对这些DNN结构进行了实证研究,并试图了解他们各自的利弊。为了确保公平的比较,我们首先开发一个名为SPACH的统一框架,可以采用单独的空间和通道处理模块。我们在SPACH框架下的实验表明,所有结构都可以以适度的规模实现竞争性能。但是,当网络大小缩放时,它们展示了独特的行为。根据我们的调查结果,我们建议使用卷积和变压器模块的混合模型。由此产生的Hybrid-MS-S +模型实现了83.9%的前1个精度,63米参数和12.3g拖薄。它已与具有复杂设计的SOTA模型相提并论。代码和模型在https://github.com/microsoft/spach上公开使用。
translated by 谷歌翻译
尽管图像变形金刚与计算机视觉任务中的卷积神经网络显示出竞争性结果,但缺乏诸如区域的电感偏见仍然在模型效率方面构成问题,尤其是对于嵌入式应用程序而言。在这项工作中,我们通过引入注意力面具以将空间位置纳入自我发挥作用来解决这个问题。局部依赖性有效地捕获了掩盖的注意力头,以及由未掩盖的注意力头部捕获的全球依赖性。随着蒙版注意力图像变压器 - MAIT,与CAIT相比,TOP -1的准确性提高了1.7%,与SWIN相比,吞吐量更少,吞吐量提高了1.5倍。使用注意力面罩编码局部性是模型的不可知论,因此它适用于整体,分层或其他新型变压器体系结构。
translated by 谷歌翻译
由于长距离依赖性建模的能力,变压器在各种自然语言处理和计算机视觉任务中表现出令人印象深刻的性能。最近的进展证明,将这种变压器与基于CNN的语义图像分割模型相结合非常有前途。然而,目前还没有很好地研究了纯变压器的方法如何实现图像分割。在这项工作中,我们探索了语义图像分割的新框架,它是基于编码器 - 解码器的完全变压器网络(FTN)。具体地,我们首先提出金字塔组变压器(PGT)作为逐步学习分层特征的编码器,同时降低标准视觉变压器(VIT)的计算复杂性。然后,我们将特征金字塔变换器(FPT)提出了来自PGT编码器的多电平进行语义图像分割的多级别的语义级别和空间级信息。令人惊讶的是,这种简单的基线可以在多个具有挑战性的语义细分和面部解析基准上实现更好的结果,包括帕斯卡背景,ADE20K,Cocostuff和Celebamask-HQ。源代码将在https://github.com/br -dl/paddlevit上发布。
translated by 谷歌翻译
最近,Vision Transformer通过推动各种视觉任务的最新技术取得了巨大的成功。视觉变压器中最具挑战性的问题之一是,图像令牌的较大序列长度会导致高计算成本(二次复杂性)。解决此问题的一个流行解决方案是使用单个合并操作来减少序列长度。本文考虑如何改善现有的视觉变压器,在这种变压器中,单个合并操作提取的合并功能似乎不太强大。为此,我们注意到,由于其在上下文抽象中的强大能力,金字塔池在各种视觉任务中已被证明是有效的。但是,在骨干网络设计中尚未探索金字塔池。为了弥合这一差距,我们建议在视觉变压器中将金字塔池汇总到多头自我注意力(MHSA)中,同时降低了序列长度并捕获强大的上下文特征。我们插入了基于池的MHSA,我们构建了一个通用视觉变压器主链,称为金字塔池变压器(P2T)。广泛的实验表明,与先前的基于CNN-和基于变压器的网络相比,当将P2T用作骨干网络时,它在各种视觉任务中显示出很大的优势。该代码将在https://github.com/yuhuan-wu/p2t上发布。
translated by 谷歌翻译
本文介绍了一个简单的MLP架构,CycleMLP,这是一种多功能骨干,用于视觉识别和密集的预测。与现代MLP架构相比,例如MLP混合器,RESMLP和GMLP,其架构与图像尺寸相关,因此在物体检测和分割中不可行,与现代方法相比具有两个优点。 (1)它可以应对各种图像尺寸。 (2)通过使用本地窗口,它可以实现对图像大小的线性计算复杂性。相比之下,由于完全空间连接,以前的MLP具有$ O(n ^ 2)$计算。我们构建一系列模型,超越现有的MLP,甚至最先进的基于变压器的模型,例如,使用较少的参数和拖鞋。我们扩展了类似MLP的模型的适用性,使它们成为密集预测任务的多功能骨干。 CycleMLP在对象检测,实例分割和语义细分上实现了竞争结果。特别是,Cyclemlp-tiny优于3.3%Miou在Ade20K数据集中的速度较少,具有较少的拖鞋。此外,CycleMLP还在Imagenet-C数据集上显示出优异的零射鲁布利。代码可以在https://github.com/shoufachen/cyclemlp获得。
translated by 谷歌翻译
基于CNN的方法已经实现了医学图像分割的令人印象深刻的结果,但由于卷积操作的内在局部,它们未能捕获远程依赖性。基于变压器的方法最近在愿景任务中流行,因为它们的远程依赖性和有希望的性能。但是,它缺乏建模本地背景。本文以医学图像分割为例,我们呈现了MissFormer,一种有效和强大的医学图像分割变压器。 MissFormer是具有两个吸引人设计的分层编码器 - 解码器网络:1)通过所提出的增强型变压器块重新设计前馈网络,该熵增强了远程依赖性并补充本地上下文,使得该特征更加辨别。 2)我们提出了增强的变压器上下文网桥,与以前的模拟全局信息的方法不同,所提出的上下文网桥与增强变压器块提取了由我们的层级变压器编码器产生的多尺度特征的远程依赖性和本地语境。由这两个设计驱动,MissFormer显示了捕获更多辨别性依赖性和在医学图像分割中的识别依赖性和上下文的牢固能力。多器官和心脏分割任务的实验表明了我们的错过更优越性,有效性和稳健性,训练了从划伤的痕迹甚至高于想象的最先进方法。核心设计可以推广到其他视觉分段任务。代码已在GitHub上发布:https://github.com/zhifangdeng/missformer
translated by 谷歌翻译
变形金刚在自然语言处理方面取得了巨大的成功。由于变压器中自我发挥机制的强大能力,研究人员为各种计算机视觉任务(例如图像识别,对象检测,图像分割,姿势估计和3D重建)开发了视觉变压器。本文介绍了有关视觉变形金刚的不同建筑设计和培训技巧(包括自我监督的学习)文献的全面概述。我们的目标是为开放研究机会提供系统的审查。
translated by 谷歌翻译
变形金刚占据了自然语言处理领域,最近影响了计算机视觉区域。在医学图像分析领域中,变压器也已成功应用于全栈临床应用,包括图像合成/重建,注册,分割,检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言,我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次,我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构,并讨论其局限性。在这篇综述中,我们调查了围绕在不同学习范式中使用变压器,提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。
translated by 谷歌翻译
与卷积神经网络(CNN)相比,视觉变压器(VIT)正在变得越来越流行和主导技术。作为计算机视觉中苛刻的技术,VIT已成功解决了各种视觉问题,同时着眼于远程关系。在本文中,我们首先介绍自我注意机制的基本概念和背景。接下来,我们提供了最新表现最好的VIT方法的全面概述,该方法在强度和弱点,计算成本以及培训和测试数据集方面描述。我们彻底比较了流行基准数据集上各种VIT算法和大多数代表性CNN方法的性能。最后,我们通过有见地的观察来探索一些局限性,并提供进一步的研究方向。项目页面以及论文集可通过https://github.com/khawar512/vit-survey获得
translated by 谷歌翻译