视觉变压器(VIT)在计算机视觉任务中取得了许多突破。但是,输入图像的空间维度出现了相当大的冗余,导致了巨大的计算成本。因此,我们提出了一个粗糙的视觉变压器(CF-VIT),以减轻计算负担,同时在本文中保持绩效。我们提出的CF-VIT是由现代VIT模型中的两个重要观察结果激励的:(1)粗粒斑分裂可以找到输入图像的信息区域。 (2)大多数图像可以通过小型令牌序列中的VIT模型很好地识别。因此,我们的CF-Vit以两阶段的方式实现网络推断。在粗糙的推理阶段,输入图像分为一个小长度贴片序列,以进行计算经济分类。如果不公认的话,请确定信息斑块,并在细粒度的细粒度中进一步重新分解。广泛的实验证明了我们CF-VIT的功效。例如,在不妥协性能的情况下,CF-VIT可以减少53%的LV-VIT拖鞋,还可以达到2.01倍的吞吐量。
translated by 谷歌翻译
Vision变形金刚(VITS)最近获得了爆炸性的人气,但巨额的计算成本仍然是一个严峻的问题。由于VIT的计算复杂性相对于输入序列长度是二次的,因此用于计算还原的主流范例是减少令牌的数量。现有设计包括结构化空间压缩,该压缩使用逐行缩小的金字塔来减少大型特征映射的计算,并且动态丢弃冗余令牌的非结构化令牌修剪。然而,现有令牌修剪的限制在两倍以下:1)由修剪引起的不完全空间结构与现代深窄变压器通常使用的结构化空间压缩不兼容; 2)通常需要耗时的预训练程序。为了解决局限性并扩大令牌修剪的适用场景,我们提出了Evo-Vit,一种自动激励的慢速令牌演化方法,用于视觉变压器。具体而言,我们通过利用原产于视觉变压器的简单有效的全球课程关注来进行非结构化的案例 - 明智的选择。然后,我们建议使用不同的计算路径更新所选的信息令牌和未表征性令牌,即慢速更新。由于快速更新机制保持空间结构和信息流,因此Evo-Vit可以从训练过程的开始,从训练过程的开始,加速平坦和深窄的结构的Vanilla变压器。实验结果表明,我们的方法显着降低了视觉变压器的计算成本,同时在图像分类上保持了可比性。
translated by 谷歌翻译
Vision Transformer已成为计算机视觉中的新范式,表现出出色的性能,同时还具有昂贵的计算成本。图像令牌修剪是VIT压缩的主要方法之一,这是因为相对于令牌数的复杂性是二次的,而许多仅包含背景区域的令牌并不能真正促进最终预测。现有作品要么依赖其他模块来评分单个令牌的重要性,要么为不同的输入实例实施固定比率修剪策略。在这项工作中,我们提出了一个自适应的稀疏令牌修剪框架,成本最低。我们的方法是基于可学习的阈值,并利用多头自我注意力来评估令牌信息,但几乎没有其他操作。具体而言,我们首先提出了廉价的注意力重点加权阶级注意力评分机制。然后,将可学习的参数插入VIT作为阈值,以区分信息令牌和不重要的令牌。通过比较令牌注意分数和阈值,我们可以从层次上丢弃无用的令牌,从而加速推理。可学习的阈值在预算感知培训中进行了优化,以平衡准确性和复杂性,并为不同的输入实例执行相应的修剪配置。广泛的实验证明了我们方法的有效性。例如,我们的方法将DEIT-S的吞吐量提高了50%,并且TOP-1的准确性仅下降了0.2%,这比以前的方法在准确性和延迟之间取得了更好的权衡。
translated by 谷歌翻译
视觉变换器将每个图像分成具有固定长度的令牌序列,并以与自然语言处理中的单词相同的方式处理令牌。更多令牌通​​常会导致更好的性能,但计算成本显着增加。通过谚语“一张图片胜过千言万语”,我们的目标是通过制造长图像短而加速VIT模型。为此,我们提出了一种新颖的方法在推论期间自适应地分配令牌长度。具体而言,我们首先培养一种含有可调整化 - vit(Revit)的Vit模型,可以处理任何具有不同令牌长度的给定输入。然后,我们从Revit检索“令牌长度标签”,并使用它培训轻量级令牌长度分配(TLA)。令牌长度标签是最小的令牌,以分割Revit可以使REVIT可以进行正确的预测,并且学习TLA以基于这些标签分配最佳令牌长度。 TLA使REVIT能够在推理期间使用最小足够数量的令牌处理图像。因此,通过减少VIT模型中的令牌数字来提高推广速度。我们的方法是一般的,与现代视觉变压器架构兼容,可以显着减少计算扩展。我们在两个任务中验证了我们对多个代表性VIT模型(DEIT,LV-VIT和TIMESFRER)的效果(图像分类和动作识别)。
translated by 谷歌翻译
在本文中,我们通过利用视觉数据中的空间稀疏性提出了一种新的模型加速方法。我们观察到,视觉变压器中的最终预测仅基于最有用的令牌的子集,这足以使图像识别。基于此观察,我们提出了一个动态的令牌稀疏框架,以根据加速视觉变压器的输入逐渐和动态地修剪冗余令牌。具体而言,我们设计了一个轻量级预测模块,以估计给定当前功能的每个令牌的重要性得分。该模块被添加到不同的层中以层次修剪冗余令牌。尽管该框架的启发是我们观察到视觉变压器中稀疏注意力的启发,但我们发现自适应和不对称计算的想法可能是加速各种体系结构的一般解决方案。我们将我们的方法扩展到包括CNN和分层视觉变压器在内的层次模型,以及更复杂的密集预测任务,这些任务需要通过制定更通用的动态空间稀疏框架,并具有渐进性的稀疏性和非对称性计算,用于不同空间位置。通过将轻质快速路径应用于少量的特征,并使用更具表现力的慢速路径到更重要的位置,我们可以维护特征地图的结构,同时大大减少整体计算。广泛的实验证明了我们框架对各种现代体系结构和不同视觉识别任务的有效性。我们的结果清楚地表明,动态空间稀疏为模型加速提供了一个新的,更有效的维度。代码可从https://github.com/raoyongming/dynamicvit获得
translated by 谷歌翻译
视觉变压器由于能够捕获图像中的长期依赖性的能力而成功地应用于图像识别任务。但是,变压器与现有卷积神经网络(CNN)之间的性能和计算成本仍然存在差距。在本文中,我们旨在解决此问题,并开发一个网络,该网络不仅可以超越规范变压器,而且可以超越高性能卷积模型。我们通过利用变压器来捕获长期依赖性和CNN来建模本地特征,从而提出了一个新的基于变压器的混合网络。此外,我们将其扩展为获得一个称为CMT的模型家族,比以前的基于卷积和基于变压器的模型获得了更好的准确性和效率。特别是,我们的CMT-S在ImageNet上获得了83.5%的TOP-1精度,而在拖鞋上的拖曳率分别比现有的DEIT和EficitiveNet小14倍和2倍。拟议的CMT-S还可以很好地概括CIFAR10(99.2%),CIFAR100(91.7%),花(98.7%)以及其他具有挑战性的视觉数据集,例如可可(44.3%地图),计算成本较小。
translated by 谷歌翻译
虽然最先进的视觉变压器模型实现了图像分类的有希望的结果,但它们是非常昂贵的并且需要许多GFLOPS。尽管可以通过减少网络中的令牌数量来降低视觉变压器的GFLOPS,但是没有对所有输入图像的最佳设置。因此,在这项工作中,我们引入了可分辨率的无参数自适应令牌采样(ATS)模块,可以插入任何现有的视觉变压器架构。通过评分和自适应采样重要令牌,在视觉变压器上实现视觉变压器。结果,令牌的数量不再静态,但是每个输入图像都变化。通过将ATS集成为当前变压器块内的附加层,我们可以将它们转换为具有自适应令牌的更高效的视觉变压器。由于ATS是一种无参数模块,因此它可以作为即插即用模块添加到从货架上的预制视觉变压器中,从而在没有任何额外训练的情况下减少他们的GFLOP。但是,由于其可分辨动的设计,人们还可以培训配有ATS的视觉变压器。通过将其添加到多个最先进的视觉变压器,我们在想象成数据集上进行评估。我们的评估表明,通过将计算成本(GFLOPS)降低37%,在保留准确性时,该模块通过降低了37%,提高了最先进的模块。
translated by 谷歌翻译
旨在识别来自子类别的对象的细粒度视觉分类(FGVC)是一个非常具有挑战性的任务,因为固有的微妙级别差异。大多数现有工程主要通过重用骨干网络来提取检测到的歧视区域的特征来解决这个问题。然而,该策略不可避免地使管道复杂化并推动所提出的区域,其中大多数物体的大多数部分未能定位真正重要的部分。最近,视觉变压器(VIT)在传统的分类任务中表现出其强大的表现。变压器的自我关注机制将每个补丁令牌链接到分类令牌。在这项工作中,我们首先评估vit框架在细粒度识别环境中的有效性。然后,由于注意力的强度,可以直观地被认为是令牌重要性的指标,我们进一步提出了一种新颖的部分选择模块,可以应用于我们整合变压器的所有原始注意力的变压器架构进入注意地图,用于指导网络以有效,准确地选择鉴别的图像斑块并计算它们的关系。应用对比损失来扩大混淆类的特征表示之间的距离。我们将基于增强的变压器的模型Transfg命名,并通过在我们实现最先进的绩效的五个流行的细粒度基准测试中进行实验来展示它的价值。提出了更好地理解模型的定性结果。
translated by 谷歌翻译
最近,视觉变压器(VIT)及其变体在各种计算机视觉任务中取得了有希望的表现。然而,VITS的高计算成本和培训数据要求将其应用程序限制在资源受限设置中。模型压缩是加快深度学习模型的有效方法,但压缩VITS的研究已经不太探索。许多以前的作品集中在减少令牌的数量。然而,这种攻击行会破坏VIT的空间结构,并且难以推广到下游任务中。在本文中,我们设计了统一的框架,用于对VITS及其变体的结构修剪,即升级Vits。我们的方法侧重于修剪所有VITS组件,同时保持模型结构的一致性。丰富的实验结果表明,我们的方法可以在压缩VITS和变体上实现高精度,例如,UP-DEIT-T在Imagenet上实现了75.79%的精度,这与Vanilla Deit-T以相同的计算成本优于3.59%。 UP-PVTV2-B0提高了PVTV2-B0的精度4.83%,以进行想象成分类。同时,上升VITS维护令牌表示的一致性,并在对象检测任务上提高一致的改进。
translated by 谷歌翻译
We present the Group Propagation Vision Transformer (GPViT): a novel nonhierarchical (i.e. non-pyramidal) transformer model designed for general visual recognition with high-resolution features. High-resolution features (or tokens) are a natural fit for tasks that involve perceiving fine-grained details such as detection and segmentation, but exchanging global information between these features is expensive in memory and computation because of the way self-attention scales. We provide a highly efficient alternative Group Propagation Block (GP Block) to exchange global information. In each GP Block, features are first grouped together by a fixed number of learnable group tokens; we then perform Group Propagation where global information is exchanged between the grouped features; finally, global information in the updated grouped features is returned back to the image features through a transformer decoder. We evaluate GPViT on a variety of visual recognition tasks including image classification, semantic segmentation, object detection, and instance segmentation. Our method achieves significant performance gains over previous works across all tasks, especially on tasks that require high-resolution outputs, for example, our GPViT-L3 outperforms Swin Transformer-B by 2.0 mIoU on ADE20K semantic segmentation with only half as many parameters. Code and pre-trained models are available at https://github.com/ChenhongyiYang/GPViT .
translated by 谷歌翻译
The recently developed vision transformer (ViT) has achieved promising results on image classification compared to convolutional neural networks. Inspired by this, in this paper, we study how to learn multi-scale feature representations in transformer models for image classification. To this end, we propose a dual-branch transformer to combine image patches (i.e., tokens in a transformer) of different sizes to produce stronger image features. Our approach processes small-patch and large-patch tokens with two separate branches of different computational complexity and these tokens are then fused purely by attention multiple times to complement each other. Furthermore, to reduce computation, we develop a simple yet effective token fusion module based on cross attention, which uses a single token for each branch as a query to exchange information with other branches. Our proposed cross-attention only requires linear time for both computational and memory complexity instead of quadratic time otherwise. Extensive experiments demonstrate that our approach performs better than or on par with several concurrent works on vision transformer, in addition to efficient CNN models. For example, on the ImageNet1K dataset, with some architectural changes, our approach outperforms the recent DeiT by a large margin of 2% with a small to moderate increase in FLOPs and model parameters. Our source codes and models are available at https://github.com/IBM/CrossViT.
translated by 谷歌翻译
尽管图像变形金刚与计算机视觉任务中的卷积神经网络显示出竞争性结果,但缺乏诸如区域的电感偏见仍然在模型效率方面构成问题,尤其是对于嵌入式应用程序而言。在这项工作中,我们通过引入注意力面具以将空间位置纳入自我发挥作用来解决这个问题。局部依赖性有效地捕获了掩盖的注意力头,以及由未掩盖的注意力头部捕获的全球依赖性。随着蒙版注意力图像变压器 - MAIT,与CAIT相比,TOP -1的准确性提高了1.7%,与SWIN相比,吞吐量更少,吞吐量提高了1.5倍。使用注意力面罩编码局部性是模型的不可知论,因此它适用于整体,分层或其他新型变压器体系结构。
translated by 谷歌翻译
视觉变压器(VITS)已成为各种视觉任务的流行结构和优于卷积神经网络(CNNS)。然而,这种强大的变形金机带来了巨大的计算负担。而这背后的基本障碍是排气的令牌到令牌比较。为了缓解这一点,我们深入研究Vit的模型属性,观察到VITS表现出稀疏关注,具有高令牌相似性。这直观地向我们介绍了可行的结构不可知的尺寸,令牌编号,以降低计算成本。基于这一探索,我们为香草vits提出了一种通用的自我切片学习方法,即坐下。具体而言,我们首先设计一种新颖的令牌减肥模块(TSM),可以通过动态令牌聚集来提高VIT的推理效率。不同于令牌硬滴,我们的TSM轻轻地集成了冗余令牌变成了更少的信息,可以在不切断图像中的鉴别性令牌关系的情况下动态缩放视觉注意。此外,我们介绍了一种简洁的密集知识蒸馏(DKD)框架,其密集地以柔性自动编码器方式传送无组织的令牌信息。由于教师和学生之间的结构类似,我们的框架可以有效地利用结构知识以获得更好的收敛性。最后,我们进行了广泛的实验来评估我们的坐姿。它展示了我们的方法可以通过1.7倍加速VITS,其精度下降可忽略不计,甚至在3.6倍上加速VITS,同时保持其性能的97%。令人惊讶的是,通过简单地武装LV-VIT与我们的坐线,我们在想象中实现了新的最先进的表现,超过了最近文学中的所有CNN和VITS。
translated by 谷歌翻译
基于自我关注机制的顶部,视觉变压器最近在各种视觉任务上表现出显着的性能。虽然实现出色的性能,但它们仍然需要相对密集的计算成本,随着斑块的数量,自我关注头和变压器块增加而剧烈缩放。在本文中,我们争辩说,由于图像的变化大,因此它们对贴片之间的长距离依赖性建模的需要不同。为此,我们介绍了一个Adavit,一个自适应计算框架,学习在每次输入的基础上派生在整个骨干内的修补程序,自我注意力头和变压器块的使用策略,旨在提高视觉变压器的推理效率图像识别的最小精度降低。以端到端的方式与变压器骨架一起优化,轻量级决策网络连接到骨架上,以便在飞行中产生决定。关于ImageNet的广泛实验表明,与最先进的视觉变压器相比,我们的方法对效率的提高超过了2倍的效率,只有0.8%的准确性,实现了在不同的计算预算上的良好效率/准确性权衡权衡。我们进一步对学习使用政策进行了定量和定性分析,并对视觉变压器的冗余提供了更多的见解。
translated by 谷歌翻译
最近,视觉变压器(VIT)在计算机视野中连续建立了新的里程碑,而高计算和内存成本使其在工业生产中的传播困难。修剪是一种用于硬件效率的传统模型压缩范例,已广泛应用于各种DNN结构。尽管如此,它含糊不清,如何在vit结构上进行独家修剪。考虑三个关键点:结构特征,VITS的内部数据模式和相关边缘设备部署,我们利用输入令牌稀疏性并提出了一种计算感知软修剪框架,可以在扁平的vanilla变压器上设置。和CNN型结构,例如基于池的Vit(坑)。更具体地说,我们设计了一种基于动态关注的多头令牌选择器,它是一个轻量级模块,用于自适应实例 - 明智令牌选择。我们进一步引入了一种软修剪技术,它将选择器模块生成的较少的信息令牌集成到将参与后续计算的包令牌,而不是完全丢弃。我们的框架通过我们所提出的计算感知培训策略,我们通过特定边缘设备的准确性和计算限制之间的权衡。实验结果表明,我们的框架显着降低了VIT的计算成本,同时在图像分类上保持了可比性。此外,我们的框架可以保证所识别的模型,以满足移动设备和FPGA的资源规范,甚至在移动平台上实现DEIT-T的实时执行。例如,我们的方法在移动设备上减少了DEIT-T至26毫秒的延迟(26%$ \ SIM 41%的41%),在移动设备上,在0.25%$ \ sim $ 4%的ImageNet上的前1个精度高出4%。我们的代码即将发布。
translated by 谷歌翻译
Transformer is a new kind of neural architecture which encodes the input data as powerful features via the attention mechanism. Basically, the visual transformers first divide the input images into several local patches and then calculate both representations and their relationship. Since natural images are of high complexity with abundant detail and color information, the granularity of the patch dividing is not fine enough for excavating features of objects in different scales and locations. In this paper, we point out that the attention inside these local patches are also essential for building visual transformers with high performance and we explore a new architecture, namely, Transformer iN Transformer (TNT). Specifically, we regard the local patches (e.g., 16×16) as "visual sentences" and present to further divide them into smaller patches (e.g., 4×4) as "visual words". The attention of each word will be calculated with other words in the given visual sentence with negligible computational costs. Features of both words and sentences will be aggregated to enhance the representation ability. Experiments on several benchmarks demonstrate the effectiveness of the proposed TNT architecture, e.g., we achieve an 81.5% top-1 accuracy on the ImageNet, which is about 1.7% higher than that of the state-of-the-art visual transformer with similar computational cost.
translated by 谷歌翻译
最近,变形金刚在各种视觉任务中表现出了有希望的表现。变压器设计中的一个挑战性问题是,全球自我注意力非常昂贵,尤其是对于高分辨率视觉任务。局部自我注意力在局部区域内执行注意力计算以提高其效率,从而导致其在单个注意力层中的接受场不够大,从而导致上下文建模不足。在观察场景时,人类通常集中在局部区域,同时在粗粒度下参加非注意区域。基于这一观察结果,我们开发了轴向扩展的窗口自我发注意机制,该机制在局部窗口内执行精细颗粒的自我注意力,并在水平和垂直轴上进行粗粒度的自我注意力,因此可以有效地捕获短 - 远程视觉依赖性。
translated by 谷歌翻译
近期视觉变压器〜(VIT)模型在各种计算机视觉任务中展示了令人鼓舞的结果,因为他们的竞争力通过自我关注建模图像补丁或令牌的长距离依赖性。然而,这些模型通常指定每层中每个令牌特征的类似场景。这种约束不可避免地限制了每个自我注意层在捕获多尺度特征中的能力,从而导致处理具有不同尺度的多个对象的图像的性能下降。为了解决这个问题,我们提出了一种新颖和通用的策略,称为分流的自我关注〜(SSA),它允许VITS为每个关注层的混合秤的关注进行模拟。 SSA的关键概念是将异构接收领域的尺寸注入令牌:在计算自我注意矩阵之前,它选择性地合并令牌以表示较大的对象特征,同时保持某些令牌以保持细粒度的特征。这种新颖的合并方案能够自我注意,以了解具有不同大小的对象之间的关系,并同时降低令牌数字和计算成本。各种任务的广泛实验表明了SSA的优越性。具体而言,基于SSA的变压器实现了84.0 \%的前1个精度,并且在ImageNet上占据了最先进的焦距变压器,只有一半的模型尺寸和计算成本,并且在Coco上超过了焦点变压器1.3映射2.9 MIOU在ADE20K上类似参数和计算成本。代码已在https://github.com/oliverrensu/shunted-transformer发布。
translated by 谷歌翻译
我们在视觉变压器上呈现整洁但有效的递归操作,可以提高参数利用而不涉及额外参数。这是通过在变压器网络的深度分享权重来实现的。所提出的方法可以只使用NA \“IVE递归操作来获得大量增益(〜2%),不需要对设计网络原理的特殊或复杂的知识,并引入训练程序的最小计算开销。减少额外的计算通过递归操作,同时保持卓越的准确性,我们通过递归层的多个切片组自行引入近似方法,这可以通过最小的性能损失将成本消耗降低10〜30%。我们称我们的模型切片递归变压器(SRET) ,这与高效视觉变压器的广泛的其他设计兼容。我们最好的模型在含有较少参数的同时,在最先进的方法中对Imagenet建立了重大改进。建议的切片递归操作使我们能够建立一个变压器超过100甚至1000层,仍然仍然小尺寸(13〜15米),以避免困难当模型尺寸太大时,IES在优化中。灵活的可扩展性显示出缩放和构建极深和大维视觉变压器的巨大潜力。我们的代码和模型可在https://github.com/szq0214/sret中找到。
translated by 谷歌翻译
我们介绍了ADAVIT,一种可自适应地调整视觉变压器(VIT)推理成本的方法,用于不同复杂性的图像。 Adavit通过自动减少在网络中处理的视觉变压器中的令牌数量作为推理进行的令牌的数量来实现这一目标。我们为此任务进行重新格式化自适应计算时间(ACT),扩展为丢弃冗余空间令牌。视觉变换器的吸引力架构属性使我们的自适应令牌减少机制能够加速推理而不修改网络架构或推理硬件。我们展示了ADAVIT不需要额外的参数或子网来停止,因为我们基于自适应停止在原始网络参数上的学习。我们进一步引入了与现有行为方法相比稳定培训的分布先前正则化。在图像分类任务(ImageNet1K)上,我们表明我们提出的Adavit在过滤信息丰富的空间特征和削减整体计算上产生了高效率。所提出的方法将Deit-Tiny的吞吐量提高了62%并除去了38%,只有0.3%的精度下降,优于大边距。
translated by 谷歌翻译