视觉变压器(VIT)是卷积神经网络(CNN)的强大替代方案,引起了很多关注。最近的工作表明,VIT也容易受到CNN等对抗性例子的影响。为了建立强大的VIT,一种直观的方法是应用对抗训练,因为它已被证明是完成强大CNN的最有效方法之一。但是,对抗性培训的一个主要局限性是其沉重的计算成本。 VIT所采用的自我注意力的机制是计算强度的操作,其费用随输入贴片的数量四次增加,从而使VIT上的对抗性训练更加耗时。在这项工作中,我们首先全面研究了有关各种视觉变压器的快速对抗训练,并说明了效率和鲁棒性之间的关系。然后,为了加快对VIT的对抗训练,我们提出了一种有效的注意力引导的对抗训练机制。具体而言,依靠自我注意的专长,我们在对抗训练过程中以注意引导策略的掉落策略积极地嵌入了每一层的某些斑块嵌入。纤细的自我发场模块大大加速了对VIT的对抗训练。只有65%的快速对抗训练时间,我们与具有挑战性的成像网基准相匹配。
translated by 谷歌翻译
在本文中,我们询问视觉变形金刚(VIT)是否可以作为改善机器学习模型对抗逃避攻击的对抗性鲁棒性的基础结构。尽管较早的作品集中在改善卷积神经网络上,但我们表明VIT也非常适合对抗训练以实现竞争性能。我们使用自定义的对抗训练配方实现了这一目标,该配方是在Imagenet数据集的一部分上使用严格的消融研究发现的。与卷积相比,VIT的规范培训配方建议强大的数据增强,部分是为了补偿注意力模块的视力归纳偏置。我们表明,该食谱在用于对抗训练时可实现次优性能。相比之下,我们发现省略所有重型数据增强,并添加一些额外的零件($ \ varepsilon $ -Warmup和更大的重量衰减),从而大大提高了健壮的Vits的性能。我们表明,我们的配方在完整的Imagenet-1k上概括了不同类别的VIT体系结构和大规模模型。此外,调查了模型鲁棒性的原因,我们表明,在使用我们的食谱时,在训练过程中产生强烈的攻击更加容易,这会在测试时提高鲁棒性。最后,我们通过提出一种量化对抗性扰动的语义性质并强调其与模型的鲁棒性的相关性来进一步研究对抗训练的结果。总体而言,我们建议社区应避免将VIT的规范培训食谱转换为在对抗培训的背景下进行强大的培训和重新思考常见的培训选择。
translated by 谷歌翻译
变压器出现为可视识别的强大工具。除了在广泛的视觉基准上展示竞争性能外,最近的作品还争辩说,变形金刚比卷曲神经网络(CNNS)更强大。令人惊讶的是,我们发现这些结论是从不公平的实验设置中得出的,其中变压器和CNN在不同的尺度上比较,并用不同的训练框架应用。在本文中,我们的目标是在变压器和CNN之间提供第一个公平和深入的比较,重点是鲁棒性评估。通过我们的统一培训设置,我们首先挑战以前的信念,使得在衡量对抗性鲁棒性时越来越多的CNN。更令人惊讶的是,如果他们合理地采用变形金刚的培训食谱,我们发现CNNS可以很容易地作为捍卫对抗性攻击的变形金刚。在关于推广样本的泛化的同时,我们显示了对(外部)大规模数据集的预训练不是对实现变压器来实现比CNN更好的性能的根本请求。此外,我们的消融表明,这种更强大的概括主要受到变压器的自我关注架构本身的影响,而不是通过其他培训设置。我们希望这项工作可以帮助社区更好地理解和基准变压器和CNN的鲁棒性。代码和模型在https://github.com/ytongbai/vits-vs-cnns上公开使用。
translated by 谷歌翻译
视觉变形金刚(VITS)处理将图像输入图像作为通过自我关注的斑块;比卷积神经网络(CNNS)彻底不同的结构。这使得研究Vit模型的对抗特征空间及其可转移性有趣。特别是,我们观察到通过常规逆势攻击发现的对抗性模式,即使对于大型Vit模型,也表现出非常低的黑箱可转移性。但是,我们表明这种现象仅是由于不利用VITS的真实表示潜力的次优攻击程序。深紫色由多个块组成,具有一致的架构,包括自我关注和前馈层,其中每个块能够独立地产生类令牌。仅使用最后一类令牌(传统方法)制定攻击并不直接利用存储在早期令牌中的辨别信息,从而导致VITS的逆势转移性差。使用Vit模型的组成性质,我们通过引入特定于Vit模型结构的两种新策略来增强现有攻击的可转移性。 (i)自我合奏:我们提出了一种通过将单vit模型解剖到网络的集合来找到多种判别途径的方法。这允许在每个VIT块处明确地利用特定于类信息。 (ii)令牌改进:我们建议改进令牌,以进一步增强每种Vit障碍的歧视能力。我们的令牌细化系统地将类令牌系统组合在补丁令牌中保留的结构信息。在一个视觉变压器中发现的分类器的集合中应用于此类精炼令牌时,对抗攻击具有明显更高的可转移性。
translated by 谷歌翻译
最近的视觉变压器(VIT)的进步已经证明了其在图像分类中的令人印象深刻的性能,这使其成为卷积神经网络(CNN)的有希望的替代品。与CNN不同,VIT表示作为图像斑块序列的输入图像。 PATCH-WISE输入图像表示提出了以下问题:与CNN相比,当各个输入图像贴片扰乱自然损坏或对抗性扰动时,如何进行VIT vit表现在这项工作中,我们研究了视觉变形金刚的稳健性,以修补扰动。令人惊讶的是,我们发现视觉变压器对自然腐蚀的斑块比CNN更腐蚀,而它们更容易受到对抗性补丁的影响。此外,我们进行广泛的定性和定量实验,以了解修补扰动的鲁棒性。我们透露,Vit对天然腐蚀斑块的更强烈的稳健性以及对抗对抗性斑块的更高脆弱性都是由注意机制引起的。具体而言,注意模型可以通过有效地忽略自然腐蚀斑块来帮助改善视觉变压器的稳健性。然而,当视力变压器被对手攻击时,注意机制可以很容易地愚弄更多地关注对抗扰动的斑块并导致错误。
translated by 谷歌翻译
基于自我关注机制的顶部,视觉变压器最近在各种视觉任务上表现出显着的性能。虽然实现出色的性能,但它们仍然需要相对密集的计算成本,随着斑块的数量,自我关注头和变压器块增加而剧烈缩放。在本文中,我们争辩说,由于图像的变化大,因此它们对贴片之间的长距离依赖性建模的需要不同。为此,我们介绍了一个Adavit,一个自适应计算框架,学习在每次输入的基础上派生在整个骨干内的修补程序,自我注意力头和变压器块的使用策略,旨在提高视觉变压器的推理效率图像识别的最小精度降低。以端到端的方式与变压器骨架一起优化,轻量级决策网络连接到骨架上,以便在飞行中产生决定。关于ImageNet的广泛实验表明,与最先进的视觉变压器相比,我们的方法对效率的提高超过了2倍的效率,只有0.8%的准确性,实现了在不同的计算预算上的良好效率/准确性权衡权衡。我们进一步对学习使用政策进行了定量和定性分析,并对视觉变压器的冗余提供了更多的见解。
translated by 谷歌翻译
在本文中,我们通过利用视觉数据中的空间稀疏性提出了一种新的模型加速方法。我们观察到,视觉变压器中的最终预测仅基于最有用的令牌的子集,这足以使图像识别。基于此观察,我们提出了一个动态的令牌稀疏框架,以根据加速视觉变压器的输入逐渐和动态地修剪冗余令牌。具体而言,我们设计了一个轻量级预测模块,以估计给定当前功能的每个令牌的重要性得分。该模块被添加到不同的层中以层次修剪冗余令牌。尽管该框架的启发是我们观察到视觉变压器中稀疏注意力的启发,但我们发现自适应和不对称计算的想法可能是加速各种体系结构的一般解决方案。我们将我们的方法扩展到包括CNN和分层视觉变压器在内的层次模型,以及更复杂的密集预测任务,这些任务需要通过制定更通用的动态空间稀疏框架,并具有渐进性的稀疏性和非对称性计算,用于不同空间位置。通过将轻质快速路径应用于少量的特征,并使用更具表现力的慢速路径到更重要的位置,我们可以维护特征地图的结构,同时大大减少整体计算。广泛的实验证明了我们框架对各种现代体系结构和不同视觉识别任务的有效性。我们的结果清楚地表明,动态空间稀疏为模型加速提供了一个新的,更有效的维度。代码可从https://github.com/raoyongming/dynamicvit获得
translated by 谷歌翻译
对抗性训练已被证明是捍卫对抗性例子的最有效的补救措施之一,但通常会遭受在看不见的测试对手身上巨大的稳定性概括差距,被认为是\ emph {对抗性强大的概括性问题}。尽管最初是针对对抗性强大的概括的初步理解,但从建筑的角度来看,知之甚少。因此,本文试图通过系统地检查最具代表性的体系结构(例如,视觉变压器和CNN)来弥合差距。特别是,我们首先对Imagenette和CIFAR-10数据集进行了对抗训练的架构\ Emph {20}对几个对手(多个$ \ ell_p $ -norm -norm对照攻击)的架构,并发现视觉变形金刚(例如,PVT,Coatnet)经常产生更好的对抗性稳定性。为了进一步了解哪种建筑成分有利于对抗性的强大概括,我们深入研究了几个关键的构建块,并通过Rademacher复杂性的镜头揭示了这一事实,即更高的重量稀疏性对更好的对手的视觉变形金刚的强大良好概括有很大贡献,这通常可以实现这一目标,这是可以实现的。通过注意层。我们的广泛研究发现了建筑设计与对抗性稳定的概括之间的密切关系,并实例化了一些重要的见解。我们希望我们的发现可以帮助更好地理解设计强大的深度学习体系结构的机制。
translated by 谷歌翻译
过去一年目睹了将变压器模块应用于视力问题的快速发展。虽然一些研究人员已经证明,基于变压器的模型享有有利的拟合数据能力,但仍然越来越多的证据,表明这些模型尤其在训练数据受到限制时遭受过度拟合。本文通过执行逐步操作来提供实证研究,逐步运输基于变压器的模型到基于卷积的模型。我们在过渡过程中获得的结果为改善视觉识别提供了有用的消息。基于这些观察,我们提出了一个名为VIRFormer的新架构,该体系结构从“视觉友好的变压器”中缩写。具有相同的计算复杂度,在想象集分类精度方面,VISFormer占据了基于变压器的基于卷积的模型,并且当模型复杂性较低或训练集较小时,优势变得更加重要。代码可在https://github.com/danczs/visformer中找到。
translated by 谷歌翻译
There still remains an extreme performance gap between Vision Transformers (ViTs) and Convolutional Neural Networks (CNNs) when training from scratch on small datasets, which is concluded to the lack of inductive bias. In this paper, we further consider this problem and point out two weaknesses of ViTs in inductive biases, that is, the spatial relevance and diverse channel representation. First, on spatial aspect, objects are locally compact and relevant, thus fine-grained feature needs to be extracted from a token and its neighbors. While the lack of data hinders ViTs to attend the spatial relevance. Second, on channel aspect, representation exhibits diversity on different channels. But the scarce data can not enable ViTs to learn strong enough representation for accurate recognition. To this end, we propose Dynamic Hybrid Vision Transformer (DHVT) as the solution to enhance the two inductive biases. On spatial aspect, we adopt a hybrid structure, in which convolution is integrated into patch embedding and multi-layer perceptron module, forcing the model to capture the token features as well as their neighboring features. On channel aspect, we introduce a dynamic feature aggregation module in MLP and a brand new "head token" design in multi-head self-attention module to help re-calibrate channel representation and make different channel group representation interacts with each other. The fusion of weak channel representation forms a strong enough representation for classification. With this design, we successfully eliminate the performance gap between CNNs and ViTs, and our DHVT achieves a series of state-of-the-art performance with a lightweight model, 85.68% on CIFAR-100 with 22.8M parameters, 82.3% on ImageNet-1K with 24.0M parameters. Code is available at https://github.com/ArieSeirack/DHVT.
translated by 谷歌翻译
尽管大量研究专门用于变形检测,但大多数研究都无法推广其在训练范式之外的变形面。此外,最近的变体检测方法非常容易受到对抗攻击的影响。在本文中,我们打算学习一个具有高概括的变体检测模型,以对各种形态攻击和对不同的对抗攻击的高度鲁棒性。为此,我们开发了卷积神经网络(CNN)和变压器模型的合奏,以同时受益于其能力。为了提高整体模型的鲁棒精度,我们采用多扰动对抗训练,并生成具有高可传递性的对抗性示例。我们详尽的评估表明,提出的强大合奏模型将概括为几个变形攻击和面部数据集。此外,我们验证了我们的稳健集成模型在超过最先进的研究的同时,对几次对抗性攻击获得了更好的鲁棒性。
translated by 谷歌翻译
视觉变压器(VIT)在各种计算机视觉任务中的成功促进了该无卷积网络的不断增长。 VIT在图像贴片上工作的事实使其可能与拼图拼图解决的问题有关,这是一项经典的自我监督的任务,旨在重新排序洗牌的顺序图像贴片回到其自然形式。尽管它很简单,但已证明解决拼图拼图对使用卷积神经网络(CNN)(例如自我监督的特征表示学习,领域的概括和细粒度分类)的任务有帮助。在本文中,我们探索了解决拼图拼图作为图像分类的自我监督的辅助损失,名为Jigsaw-Vit。我们展示了两种修改,可以使拼图优于标准VIT:丢弃位置嵌入和随机掩盖斑块。但是很简单,我们发现拼图vit能够改善标准VIT的概括和鲁棒性,这通常是一种权衡。在实验上,我们表明,在ImageNet上的大规模图像分类中,添加拼图拼图分支比VIT提供了更好的概括。此外,辅助任务还提高了对动物-10n,食物101N和服装的嘈杂标签的鲁棒性,也可以提高对抗性示例。我们的实施可从https://yingyichen-cyy.github.io/jigsaw-vit/获得。
translated by 谷歌翻译
在最近的计算机视觉研究中,Vision Transformer(VIT)的出现迅速彻底改变了各种建筑设计工作:VIT使用自然语言处理中发现的自我注意力实现了最新的图像分类性能,而MLP-Mixer实现了使用简单多层感知器的竞争性能。相比之下,一些研究还表明,精心重新设计的卷积神经网络(CNN)可以实现与VIT相当的先进性能,而无需诉诸这些新想法。在这种背景下,越来越多的感应偏见适合计算机视觉。在这里,我们提出了Sequencer,这是VIT的一种新颖且具有竞争力的体系结构,可为这些问题提供新的看法。与VIT不同,音序器使用LSTM而不是自我发项层模型的远程依赖性。我们还提出了二维版本的音序器模块,其中LSTM分解为垂直和水平LSTM,以增强性能。尽管它很简单,但一些实验表明,Sequencer表现出色:Sequencer2d-L,具有54m参数,​​仅在Imagenet-1K上实现了84.6%的TOP-1精度。不仅如此,我们还表明它具有良好的可传递性和在双分辨率波段上具有强大的分辨率适应性。
translated by 谷歌翻译
This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences between the two domains, such as large variations in the scale of visual entities and the high resolution of pixels in images compared to words in text. To address these differences, we propose a hierarchical Transformer whose representation is computed with Shifted windows. The shifted windowing scheme brings greater efficiency by limiting self-attention computation to non-overlapping local windows while also allowing for cross-window connection. This hierarchical architecture has the flexibility to model at various scales and has linear computational complexity with respect to image size. These qualities of Swin Transformer make it compatible with a broad range of vision tasks, including image classification (87.3 top-1 accuracy on ImageNet-1K) and dense prediction tasks such as object detection (58.7 box AP and 51.1 mask AP on COCO testdev) and semantic segmentation (53.5 mIoU on ADE20K val). Its performance surpasses the previous state-of-theart by a large margin of +2.7 box AP and +2.6 mask AP on COCO, and +3.2 mIoU on ADE20K, demonstrating the potential of Transformer-based models as vision backbones. The hierarchical design and the shifted window approach also prove beneficial for all-MLP architectures. The code and models are publicly available at https://github. com/microsoft/Swin-Transformer.
translated by 谷歌翻译
近年来,已经开发了用于图像分类的新型体系结构组件,从变压器中使用的注意力和斑块开始。尽管先前的作品已经分析了建筑成分某些方面对对抗性攻击的鲁棒性,尤其是视觉变形金刚的影响,但对主要因素的理解仍然是有限的。我们比较了几个(非)固定分类器与不同的架构并研究其属性,包括对抗训练对学习特征的解释性和对看不见威胁模型的鲁棒性的影响。从Resnet到Convnext的消融揭示了关键的架构变化,导致$ 10 \%$更高$ \ ell_ \ ell_ \ infty $ bobustness。
translated by 谷歌翻译
VITS通常太昂贵昂贵,无法安装在现实世界资源受限的设备上,因为(1)它们与输入令牌的数量和(2)其过度分开的自我关注头和模型深度相反的复杂性。并行地,不同的图像具有变化性变化,并且它们的不同区域可以包含各种级别的视觉信息,表明在模型复杂性方面同样地处理所有区域/令牌是不必要的,而这些机会尚未完全探索修剪vits的复杂性的机会。为此,我们提出了一种多粒子的输入 - 自适应视觉变压器框架被称为MIA-Fight,可以在三个粗粒细粒粒度(即,模型深度和模型数量的数量头/令牌)。特别是,我们的MIA-Agent采用具有混合监督和加固训练方法的低成本网络,以跳过不必要的层,头部和令牌以输入的自适应方式,降低整体计算成本。此外,我们的mia-ideor的有趣副作用是它的由此产生的vits自然地配备了对他们静态同行的对抗对抗攻击的改善的鲁棒性,因为米娅 - 以前的多粒度动态控制改善了模型多样性,类似于集合的效果因此,增加对抗所有子模型的对抗性攻击的难度。广泛的实验和消融研究验证了所提出的MIA - 前框架可以有效地分配适应性的计算预算与输入图像的难度增加,同时增加稳健性,实现最先进的(SOTA)精度效率权衡,例如20与SOTA动态变压器模型相比,%计算节省相同甚至更高的准确性。
translated by 谷歌翻译
最近,视觉变压器变得非常流行。但是,将它们部署在许多应用程序中的计算昂贵部分是由于注意力块中的软磁层。我们引入了一个简单但有效的,无软的注意力块Sima,它使用简单的$ \ ell_1 $ -norm而不是使用SoftMax层,将查询和密钥矩阵归一化。然后,SIMA中的注意力块是三个矩阵的简单乘法,因此SIMA可以在测试时间动态更改计算的顺序,以在令牌数量或通道数量上实现线性计算。我们从经验上表明,SIMA应用于变形金刚,DEIT,XCIT和CVT的三种SOTA变体,与SOTA模型相比,SIMA可在不需要SoftMax层的情况下达到PAR准确性。有趣的是,将SIMA从多头更改为单头只会对精度产生很小的影响,这进一步简化了注意力障碍。该代码可在此处找到:$ \ href {https://github.com/ucdvision/sima} {\ text {this https url}} $
translated by 谷歌翻译
积极的数据增强是视觉变压器(VIT)的强大泛化能力的关键组成部分。一种这样的数据增强技术是对抗性培训;然而,许多先前的作品表明,这通常会导致清洁的准确性差。在这项工作中,我们展示了金字塔对抗训练,这是一种简单有效的技术来提高韦维尔的整体性能。我们将其与“匹配”辍学和随机深度正则化配对,这采用了干净和对抗样品的相同辍学和随机深度配置。类似于Advprop的CNNS的改进(不直接适用于VIT),我们的金字塔对抗性训练会破坏分销准确性和vit和相关架构的分配鲁棒性之间的权衡。当Imagenet-1K数据训练时,它导致ImageNet清洁准确性的182美元的vit-B模型的精确度,同时由7美元的稳健性指标同时提高性能,从$ 1.76 \%$至11.45 \%$。我们为Imagenet-C(41.4 MCE),Imagenet-R($ 53.92 \%$),以及Imagenet-Sketch(41.04美元\%$)的新的最先进,只使用vit-b / 16骨干和我们的金字塔对抗训练。我们的代码将在接受时公开提供。
translated by 谷歌翻译
在本文中,我们提出了一种称为Q-Vit的视觉变压器(VIT)的完全可区分的量化方法,其中两个量化标度和位宽度都是可学习的参数。具体而言,根据我们的观察,即VIT显示出不同的量化鲁棒性,我们利用头部宽度的位宽度来挤压Q-Vit的大小,同时保持性能。此外,我们提出了一种名为“可切换量表”的新技术,以解决量级和位宽度的联合训练中的收敛问题。这样,Q-Vit将VIT量化的限制推向了3位,而不会降低性能。此外,我们分析了VIT的每个体系结构成分的量化鲁棒性,并表明多头自我注意力(MSA)和高斯误差线性单元(GELU)是VIT量化的关键方面。这项研究提供了一些有关VIT量化的进一步研究的见解。在不同的VIT模型(例如DEIT和SWIN Transformer)上进行的广泛实验显示了我们量化方法的有效性。特别是,我们的方法优于最先进的统一量化方法,而Deit微型的量化方法则优于1.5%。
translated by 谷歌翻译
变压器提供了一种设计神经网络以进行视觉识别的新方法。与卷积网络相比,变压器享有在每个阶段引用全局特征的能力,但注意模块带来了更高的计算开销,阻碍了变压器的应用来处理高分辨率的视觉数据。本文旨在减轻效率和灵活性之间的冲突,为此,我们为每个地区提出了专门的令牌,作为使者(MSG)。因此,通过操纵这些MSG令牌,可以在跨区域灵活地交换视觉信息,并且减少计算复杂性。然后,我们将MSG令牌集成到一个名为MSG-Transformer的多尺度体系结构中。在标准图像分类和对象检测中,MSG变压器实现了竞争性能,加速了GPU和CPU的推断。代码可在https://github.com/hustvl/msg-transformer中找到。
translated by 谷歌翻译