智能论文笔记

GraphFPN: Graph Feature Pyramid Network for Object Detection

Gangming Zhao , Weifeng Ge , Yizhou Yu

分类：计算机视觉

2021-08-02

特征金字塔已在图像理解任务中被证明是强大的，需要多尺度功能。用于多尺度特征学习的最先进方法，专注于使用具有固定拓扑的神经网络执行空间和尺度的特征交互。在本文中，我们提出了能够将它们的拓扑结构调整为不同的内在图像结构并支持所有尺度的同时特征交互的金字塔网络。我们首先为每个输入图像定义特定于图像特定的SuperPixel层次结构以表示其内在图像结构。图表特征金字塔网络继承了其结构从该超像素层次结构。上下文和分层层旨在实现相同规模和不同尺度内的功能交互。为了使这些层更强大，我们通过概括卷积神经网络的全球渠道注意力来推出图形神经网络的两种类型的本地通道注意。所提出的图表特征金字塔网络可以增强来自卷积特征金字塔网络的多尺度功能。我们通过将其集成到更快的R-CNN算法中，在对象检测任务中评估我们的图表特征金字塔网络。修改算法不仅优于以前的最先进的基于金字塔的方法，具有清晰的余量，而且还具有关于MS-Coco 2017验证和测试数据集的其他流行检测方法。

translated by 谷歌翻译

HR-RCNN: Hierarchical Relational Reasoning for Object Detection

Hao Chen , Abhinav Shrivastava

分类：计算机视觉

2021-10-26

在用于对象识别的神经网络中包含关系推理仍然是一个打开问题。虽然已经用于关系推理的许多尝试，但它们通常只考虑单一类型的关系。例如，通过自我关注（例如，非本地网络），通过特征融合（例如，特征金字塔网络）或通过图形卷积来规模关系（例如，推理-RCNN）的对象关系。对更广泛的框架来说，这几乎没有注意这些关系。在本文中，我们提出了一种用于对象检测的分层关系推理框架（HR-RCNN），其利用新的图表注意模块（GAM）。此GAM是一个简洁的模块，通过直接在图形边缘上操作，可以通过在图形边缘上操作来推理异构节点。利用异构关系，我们的HR-RCNN在Coco DataSet上显示了很大的改进，用于对象检测和实例分割。

translated by 谷歌翻译

SDA-$x$Net: Selective Depth Attention Networks for Adaptive Multi-scale Feature Representation

Qingbei Guo , Xiao-Jun Wu , Zhiquan Feng , Tianyang Xu , Cong Hu

分类：计算机视觉

2022-09-21

现有的多尺度解决方案会导致仅增加接受场大小的风险，同时忽略小型接受场。因此，有效构建自适应神经网络以识别各种空间尺度对象是一个具有挑战性的问题。为了解决这个问题，我们首先引入一个新的注意力维度，即除了现有的注意力维度（例如渠道，空间和分支）之外，并提出了一个新颖的选择性深度注意网络，以对称地处理各种视觉中的多尺度对象任务。具体而言，在给定神经网络的每个阶段内的块，即重新连接，输出层次功能映射共享相同的分辨率但具有不同的接收场大小。基于此结构属性，我们设计了一个舞台建筑模块，即SDA，其中包括树干分支和类似SE的注意力分支。躯干分支的块输出融合在一起，以通过注意力分支指导其深度注意力分配。根据提出的注意机制，我们可以动态选择不同的深度特征，这有助于自适应调整可变大小输入对象的接收场大小。这样，跨块信息相互作用会导致沿深度方向的远距离依赖关系。与其他多尺度方法相比，我们的SDA方法结合了从以前的块到舞台输出的多个接受场，从而提供了更广泛，更丰富的有效接收场。此外，我们的方法可以用作其他多尺度网络以及注意力网络的可插入模块，并创造为SDA- $ x $ net。它们的组合进一步扩展了有效的接受场的范围，可以实现可解释的神经网络。我们的源代码可在\ url {https://github.com/qingbeiguo/sda-xnet.git}中获得。

translated by 谷歌翻译

S\textsuperscript{2}-FPN: Scale-ware Strip Attention Guided Feature Pyramid Network for Real-time Semantic Segmentation

Mohammed A. M. Elhassan , Chenhui Yang , Chenxi Huang , Tewodros Legesse Munea , Xin Hong

分类：计算机视觉 | 人工智能

2022-06-15

现代的高性能语义分割方法采用沉重的主链和扩张的卷积来提取相关特征。尽管使用上下文和语义信息提取功能对于分割任务至关重要，但它为实时应用程序带来了内存足迹和高计算成本。本文提出了一种新模型，以实现实时道路场景语义细分的准确性/速度之间的权衡。具体来说，我们提出了一个名为“比例吸引的条带引导特征金字塔网络”（s \ textsuperscript {2} -fpn）的轻巧模型。我们的网络由三个主要模块组成：注意金字塔融合（APF）模块，比例吸引条带注意模块（SSAM）和全局特征Upsample（GFU）模块。 APF采用了注意力机制来学习判别性多尺度特征，并有助于缩小不同级别之间的语义差距。 APF使用量表感知的关注来用垂直剥离操作编码全局上下文，并建模长期依赖性，这有助于将像素与类似的语义标签相关联。此外，APF还采用频道重新加权块（CRB）来强调频道功能。最后，S \ TextSuperScript {2} -fpn的解码器然后采用GFU，该GFU用于融合APF和编码器的功能。已经对两个具有挑战性的语义分割基准进行了广泛的实验，这表明我们的方法通过不同的模型设置实现了更好的准确性/速度权衡。提出的模型已在CityScapes Dataset上实现了76.2 \％miou/87.3fps，77.4 \％miou/67fps和77.8 \％miou/30.5fps，以及69.6 \％miou，71.0 miou，71.0 \％miou，和74.2 \％\％\％\％\％\％。 miou在Camvid数据集上。这项工作的代码将在\ url {https://github.com/mohamedac29/s2-fpn提供。

translated by 谷歌翻译

Selective Multi-Scale Learning for Object Detection

Junliang Chen , Weizeng Lu , Linlin Shen

分类：计算机视觉

2022-06-16

锥体网络是多尺度对象检测的标准方法。当前对特征金字塔网络的研究通常采用层连接来从特征层次结构的某些级别收集特征，并且不考虑它们之间的显着差异。我们提出了一个更好的特征金字塔网络的体系结构，称为选择性多尺度学习（SMSL），以解决此问题。SMSL高效且泛滥，可以将其集成到单阶段和两阶段检测器中以提高检测性能，几乎没有额外的推理成本。视网膜与SMSL的结合获得了可可数据集的AP（从39.1 \％到40.9 \％）的1.8 \％改进。与SMSL集成时，两阶段探测器的AP可以提高1.0 \％。

translated by 谷歌翻译

Delving into the Scale Variance Problem in Object Detection

Junliang Chen , Xiaodong Zhao , Linlin Shen

分类：计算机视觉

2022-06-16

由于卷积在提取物体的局部上下文中，在过去十年中，对象检测在过去十年中取得了重大进展。但是，对象的尺度是多样的，当前卷积只能处理单尺度输入。因此，传统卷积具有固定接收场在处理这种规模差异问题方面的能力受到限制。多尺度功能表示已被证明是缓解规模差异问题的有效方法。最近的研究主要与某些量表或各个尺度的总体特征采用部分联系，并专注于整个量表的全球信息。但是，跨空间和深度维度的信息被忽略了。受此启发，我们提出了多尺度卷积（MSCONV）来解决此问题。同时考虑到量表，空间和深度信息，MSCONV能够更全面地处理多尺度输入。 MSCONV是有效的，并且在计算上是有效的，只有少量计算成本增加。对于大多数单阶段对象探测器，在检测头中用MSCONV代替传统的卷积可以带来AP的2.5 \％改进（在Coco 2017数据集上），只有3 \％的拖鞋增加了。 MSCONV对于两阶段对象探测器也具有灵活性和有效性。当扩展到主流两阶段对象检测器时，MSCONV的AP可以提高3.0 \％。我们在单尺度测试下的最佳模型在Coco 2017上实现了48.9 \％AP，\ textit {test-dev} Split，它超过了许多最新方法。

translated by 谷歌翻译

Transformer-based Context Condensation for Boosting Feature Pyramids in Object Detection

Zhe Chen , Jing Zhang , Yufei Xu , Dacheng Tao

分类：计算机视觉

2022-07-14

当前对象检测器通常具有用于多级特征融合（MFF）的特征金字塔（FP）模块，该模块旨在减轻不同级别的特征之间的差距，并形成全面的对象表示以实现更好的检测性能。但是，它们通常需要较重的跨层次连接或迭代精炼才能获得更好的MFF结果，从而使它们在结构上变得复杂且计算效率低下。为了解决这些问题，我们提出了一种新颖有效的上下文建模机制，可以帮助现有的FPS提供更好的MFF结果，同时有效地降低计算成本。特别是，我们介绍了一种新颖的见解，即可以将综合背景分解并凝结成两种类型的表示，以提高效率。这两种表示包括本地集中的表示和全球汇总表示形式，前者着重于从附近地区提取上下文提示，而后者将整个图像场景的关键表示形式提取为全局上下文提示。通过收集凝结的环境，我们采用变压器解码器来研究它们与FP的每个局部特征之间的关系，然后相应地完善MFF结果。结果，我们获得了一个简单且轻巧的基于变压器的上下文冷凝（TCC）模块，该模块可以提高各种FPS并同时降低其计算成本。关于挑战性的可可数据集的广泛实验结果表明，TCC与四个代表性FPS兼容，并始终将其检测准确性提高到平均精度高达7.8％，并将其复杂性降低到GFLOPS上，以帮助高达20％。他们更有效地实现最先进的绩效。代码将发布。

translated by 谷歌翻译

Path Aggregation Network for Instance Segmentation

Shu Liu , Lu Qi , Haifang Qin , Jianping Shi , Jiaya Jia

分类：

2018-03-05

The way that information propagates in neural networks is of great importance. In this paper, we propose Path Aggregation Network (PANet) aiming at boosting information flow in proposal-based instance segmentation framework. Specifically, we enhance the entire feature hierarchy with accurate localization signals in lower layers by bottom-up path augmentation, which shortens the information path between lower layers and topmost feature. We present adaptive feature pooling, which links feature grid and all feature levels to make useful information in each feature level propagate directly to following proposal subnetworks. A complementary branch capturing different views for each proposal is created to further improve mask prediction.These improvements are simple to implement, with subtle extra computational overhead. Our PANet reaches the 1 st place in the COCO 2017 Challenge Instance Segmentation task and the 2 nd place in Object Detection task without large-batch training. It is also state-of-the-art on MVD and Cityscapes. Code is available at https://github. com/ShuLiu1993/PANet.

translated by 谷歌翻译

Mask Transfiner for High-Quality Instance Segmentation

Lei Ke , Martin Danelljan , Xia Li , Yu-Wing Tai , Chi-Keung Tang , Fisher Yu

分类：计算机视觉

2021-11-26

两阶段和基于查询的实例分段方法取得了显着的结果。然而，他们的分段面具仍然非常粗糙。在本文中，我们呈现了用于高质量高效的实例分割的掩模转发器。我们的掩模转发器代替常规密集的张量，而不是在常规密集的张量上进行分解，并表示作为Quadtree的图像区域。我们基于变换器的方法仅处理检测到的错误易于树节点，并并行自我纠正其错误。虽然这些稀疏的像素仅构成总数的小比例，但它们对最终掩模质量至关重要。这允许掩模转换器以低计算成本预测高精度的实例掩模。广泛的实验表明，掩模转发器在三个流行的基准上优于当前实例分段方法，显着改善了COCO和BDD100K上的大型+3.0掩模AP的+3.0掩模AP的大余量和CityScapes上的+6.6边界AP。我们的代码和培训的型号将在http://vis.xyz/pub/transfiner提供。

translated by 谷歌翻译

Exploring Contextual Relationships for Cervical Abnormal Cell Detection

Yixiong Liang , Shuo Feng , Qing Liu , Hulin Kuang , Liyan Liao , Yun Du , Nanying Che , Jianfeng Liu , Jianxin Wang

分类：计算机视觉

2022-07-11

宫颈异常细胞检测是一项具有挑战性的任务，因为异常细胞和正常细胞之间的形态差异通常是微妙的。为了确定宫颈细胞是正常还是异常，细胞病理学家总是将周围细胞作为参考，并进行仔细比较以鉴定其异常。为了模仿这些临床行为，我们建议探索上下文关系，以提高宫颈异常细胞检测的性能。具体而言，利用细胞和细胞到全球图像之间的上下文关系，以增强每个感兴趣区域（ROI）建议的特征。因此，开发了两个模块，称为ROI关系注意模块（RRAM）和全球ROI注意模块（GRAM），还研究了它们的组合策略。我们通过使用特征金字塔网络（FPN）使用单头或双头更快的R-CNN来设置强基础，并将我们的RRAM和革兰氏集整合到它们中以验证提出的模块的有效性。由40,000个细胞学图像组成的大宫颈细胞检测数据集进行的实验表明，RRAM和GRAM的引入都比基线方法获得了更好的平均精度（AP）。此外，当级联RRAM和GRAM时，我们的方法优于最先进的方法（SOTA）方法。此外，我们还显示了提出的功能增强方案可以促进图像级别和涂片级别的分类。代码和训练有素的模型可在https://github.com/cviu-csu/cr4cacd上公开获得。

translated by 谷歌翻译

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions

Wenhai Wang , Enze Xie , Xiang Li , Deng-Ping Fan , Kaitao Song , Ding Liang , Tong Lu , Ping Luo , Ling Shao

分类：

2021-02-24

ous vision tasks without convolutions, where it can be used as a direct replacement for CNN backbones. (3) We validate PVT through extensive experiments, showing that it boosts the performance of many downstream tasks, including object detection, instance and semantic segmentation. For example, with a comparable number of parameters, PVT+RetinaNet achieves 40.4 AP on the COCO dataset, surpassing ResNet50+RetinNet (36.3 AP) by 4.1 absolute AP (see Figure 2). We hope that PVT could serve as an alternative and useful backbone for pixel-level predictions and facilitate future research.

translated by 谷歌翻译

P2T: Pyramid Pooling Transformer for Scene Understanding

Yu-Huan Wu , Yun Liu , Xin Zhan , Ming-Ming Cheng

分类：计算机视觉

2021-06-22

最近，Vision Transformer通过推动各种视觉任务的最新技术取得了巨大的成功。视觉变压器中最具挑战性的问题之一是，图像令牌的较大序列长度会导致高计算成本（二次复杂性）。解决此问题的一个流行解决方案是使用单个合并操作来减少序列长度。本文考虑如何改善现有的视觉变压器，在这种变压器中，单个合并操作提取的合并功能似乎不太强大。为此，我们注意到，由于其在上下文抽象中的强大能力，金字塔池在各种视觉任务中已被证明是有效的。但是，在骨干网络设计中尚未探索金字塔池。为了弥合这一差距，我们建议在视觉变压器中将金字塔池汇总到多头自我注意力（MHSA）中，同时降低了序列长度并捕获强大的上下文特征。我们插入了基于池的MHSA，我们构建了一个通用视觉变压器主链，称为金字塔池变压器（P2T）。广泛的实验表明，与先前的基于CNN-和基于变压器的网络相比，当将P2T用作骨干网络时，它在各种视觉任务中显示出很大的优势。该代码将在https://github.com/yuhuan-wu/p2t上发布。

translated by 谷歌翻译

Vision Transformers with Hierarchical Attention

Yun Liu , Yu-Huan Wu , Guolei Sun , Le Zhang , Ajad Chhatkuli , Luc Van Gool

分类：计算机视觉

2021-06-06

本文解决了由多头自我注意力（MHSA）中高计算/空间复杂性引起的视觉变压器的低效率缺陷。为此，我们提出了层次MHSA（H-MHSA），其表示以层次方式计算。具体而言，我们首先将输入图像分为通常完成的补丁，每个补丁都被视为令牌。然后，拟议的H-MHSA学习本地贴片中的令牌关系，作为局部关系建模。然后，将小贴片合并为较大的贴片，H-MHSA对少量合并令牌的全局依赖性建模。最后，汇总了本地和全球专注的功能，以获得具有强大表示能力的功能。由于我们仅在每个步骤中计算有限数量的令牌的注意力，因此大大减少了计算负载。因此，H-MHSA可以在不牺牲细粒度信息的情况下有效地模拟令牌之间的全局关系。使用H-MHSA模块合并，我们建立了一个基于层次的变压器网络的家族，即HAT-NET。为了证明在场景理解中HAT-NET的优越性，我们就基本视觉任务进行了广泛的实验，包括图像分类，语义分割，对象检测和实例细分。因此，HAT-NET为视觉变压器提供了新的视角。可以在https://github.com/yun-liu/hat-net上获得代码和预估计的模型。

translated by 谷歌翻译

Zero Cost Improvements for General Object Detection Network

Shaohua Wang , Yaping Dai

分类：计算机视觉

2020-11-16

现代物体检测网络追求一般物体检测数据集的更高精度，同时计算负担也随着精度的提高而越来越多。然而，推理时间和精度对于需要是实时的对象检测系统至关重要。没有额外的计算成本，有必要研究精度改进。在这项工作中，提出了两种模块以提高零成本的检测精度，这是一般对象检测网络的FPN和检测头改进。我们采用规模注意机制，以有效地保险熔断多级功能映射，参数较少，称为SA-FPN模块。考虑到分类头和回归头的相关性，我们使用顺序头取代广泛使用的并联头部，称为SEQ-Head模块。为了评估有效性，我们将这两个模块应用于一些现代最先进的对象检测网络，包括基于锚和无锚。 Coco DataSet上的实验结果表明，具有两个模块的网络可以将原始网络超越1.1 AP和0.8 AP，分别为锚的锚和无锚网络的零成本。代码将在https://git.io/jtfgl提供。

translated by 谷歌翻译

CCNet: Criss-Cross Attention for Semantic Segmentation

Zilong Huang , Xinggang Wang , Yunchao Wei , Lichao Huang , Humphrey Shi , Wenyu Liu , Thomas S. Huang

分类：

2018-11-28

Contextual information is vital in visual understanding problems, such as semantic segmentation and object detection. We propose a Criss-Cross Network (CCNet) for obtaining full-image contextual information in a very effective and efficient way. Concretely, for each pixel, a novel criss-cross attention module harvests the contextual information of all the pixels on its criss-cross path. By taking a further recurrent operation, each pixel can finally capture the full-image dependencies. Besides, a category consistent loss is proposed to enforce the criss-cross attention module to produce more discriminative features. Overall, CCNet is with the following merits: 1) GPU memory friendly. Compared with the non-local block, the proposed recurrent criss-cross attention module requires 11× less GPU memory usage. 2) High computational efficiency. The recurrent criss-cross attention significantly reduces FLOPs by about 85% of the non-local block. 3) The state-of-the-art performance. We conduct extensive experiments on semantic segmentation benchmarks including Cityscapes, ADE20K, human parsing benchmark LIP, instance segmentation benchmark COCO, video segmentation benchmark CamVid. In particular, our CCNet achieves the mIoU scores of 81.9%, 45.76% and 55.47% on the Cityscapes test set, the ADE20K validation set and the LIP validation set respectively, which are the new state-of-the-art results. The source codes are available at https://github.com/speedinghzl/CCNet.

translated by 谷歌翻译

Dynamic Graph Message Passing Networks for Visual Recognition

Li Zhang , Mohan Chen , Anurag Arnab , Xiangyang Xue , Philip H. S. Torr

分类：计算机视觉 | 机器学习

2022-09-20

建模长期依赖关系对于理解计算机视觉中的任务至关重要。尽管卷积神经网络（CNN）在许多视觉任务中都表现出色，但由于它们通常由当地核层组成，因此它们仍然限制捕获长期结构化关系。但是，完全连接的图（例如变形金刚中的自我发项操作）对这种建模是有益的，但是，其计算开销非常有用。在本文中，我们提出了一个动态图形消息传递网络，与建模完全连接的图形相比，该网络大大降低了计算复杂性。这是通过在图表中自适应采样节点（以输入为条件）来实现的，以传递消息传递。基于采样节点，我们动态预测节点依赖性滤波器权重和亲和力矩阵，以在它们之间传播信息。这种公式使我们能够设计一个自我发挥的模块，更重要的是，我们将基于变压器的新骨干网络用于图像分类预处理，并用于解决各种下游任务（对象检测，实例和语义细分）。使用此模型，我们在四个不同任务上的强，最先进的基线方面显示出显着改进。我们的方法还优于完全连接的图形，同时使用较少的浮点操作和参数。代码和型号将在https://github.com/fudan-zvg/dgmn2上公开提供。

translated by 谷歌翻译

Visual Representation Learning with Transformer: A Sequence-to-Sequence Perspective

Li Zhang , Sixiao Zheng , Jiachen Lu , Xinxuan Zhao , Xiatian Zhu , Yanwei Fu , Tao Xiang , Jianfeng Feng

分类：计算机视觉

2022-07-19

视觉表示学习是解决各种视力问题的关键。依靠开创性的网格结构先验，卷积神经网络（CNN）已成为大多数深视觉模型的事实上的标准架构。例如，经典的语义分割方法通常采用带有编码器编码器体系结构的完全横向卷积网络（FCN）。编码器逐渐减少了空间分辨率，并通过更大的接受场来学习更多抽象的视觉概念。由于上下文建模对于分割至关重要，因此最新的努力一直集中在通过扩张（即极度）卷积或插入注意力模块来增加接受场。但是，基于FCN的体系结构保持不变。在本文中，我们旨在通过将视觉表示学习作为序列到序列预测任务来提供替代观点。具体而言，我们部署纯变压器以将图像编码为一系列贴片，而无需局部卷积和分辨率减少。通过在变压器的每一层中建立的全球环境，可以学习更强大的视觉表示形式，以更好地解决视力任务。特别是，我们的细分模型（称为分割变压器（SETR））在ADE20K上擅长（50.28％MIOU，这是提交当天测试排行榜中的第一个位置），Pascal环境（55.83％MIOU），并在CityScapes上达到竞争成果。此外，我们制定了一个分层局部全球（HLG）变压器的家族，其特征是窗户内的本地关注和跨窗户的全球性专注于层次结构和金字塔架构。广泛的实验表明，我们的方法在各种视觉识别任务（例如，图像分类，对象检测和实例分割和语义分割）上实现了吸引力的性能。

translated by 谷歌翻译

ssFPN: Scale Sequence (S^2) Feature Based-Feature Pyramid Network for Object Detection

Hye-Jin Park , Young-Ju Choi , Young-Woon Lee , Byung-Gyu Kim

分类：计算机视觉

2022-08-24

特征金字塔网络（FPN）已成为对象检测模型考虑对象的各种尺度的重要模块。但是，小物体上的平均精度（AP）相对低于中和大物体上的AP。原因是CNN较深层导致信息丢失作为特征提取水平的原因。我们提出了一个新的比例顺序（S^2）特征FPN的特征提取，以增强小物体的特征信息。我们将FPN结构视为尺度空间和提取尺度序列（s^2）特征，该特征是在FPN的水平轴上通过3D卷积。它基本上是扩展不变的功能，并建立在小物体的高分辨率金字塔功能图上。此外，建议的S^2功能可以扩展到基于FPN的大多数对象检测模型。我们证明所提出的S2功能可以提高COCO数据集中一阶段和两阶段探测器的性能。根据提出的S2功能，我们分别为Yolov4-P5和Yolov4-P6获得了高达1.3％和1.1％的AP改善。对于更快的RCNN和Mask R-CNN，我们分别观察到AP改进的2.0％和1.6％，分别具有建议的S^2功能。

translated by 谷歌翻译

Feature Pyramid Networks for Object Detection

Tsung-Yi Lin , Piotr Dollár , Ross Girshick , Kaiming He , Bharath Hariharan , Serge Belongie

分类：

2016-12-09

Feature pyramids are a basic component in recognition systems for detecting objects at different scales. But recent deep learning object detectors have avoided pyramid representations, in part because they are compute and memory intensive. In this paper, we exploit the inherent multi-scale, pyramidal hierarchy of deep convolutional networks to construct feature pyramids with marginal extra cost. A topdown architecture with lateral connections is developed for building high-level semantic feature maps at all scales. This architecture, called a Feature Pyramid Network (FPN), shows significant improvement as a generic feature extractor in several applications. Using FPN in a basic Faster R-CNN system, our method achieves state-of-the-art singlemodel results on the COCO detection benchmark without bells and whistles, surpassing all existing single-model entries including those from the COCO 2016 challenge winners. In addition, our method can run at 6 FPS on a GPU and thus is a practical and accurate solution to multi-scale object detection. Code will be made publicly available.

translated by 谷歌翻译

ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer

Rui Yang , Hailong Ma , Jie Wu , Yansong Tang , Xuefeng Xiao , Min Zheng , Xiu Li

分类：计算机视觉 | 人工智能

2022-03-21

香草自我注意的机制固有地依赖于预定和坚定的计算维度。这种僵化的性限制了它具有面向上下文的概括，可以带来更多的上下文提示和全球表示。为了减轻此问题，我们提出了一种可扩展的自我注意（SSA）机制，该机制利用两个缩放因素来释放查询，键和价值矩阵的维度，同时使它们不符合输入。这种可伸缩性可获得面向上下文的概括并增强对象灵敏度，从而将整个网络推向准确性和成本之间的更有效的权衡状态。此外，我们提出了一个基于窗口的自我注意事项（IWSA），该自我注意力（IWSA）通过重新合并独立的值代币并从相邻窗口中汇总空间信息来建立非重叠区域之间的相互作用。通过交替堆叠SSA和IWSA，可扩展的视觉变压器（可伸缩率）在通用视觉任务中实现最先进的性能。例如，在Imagenet-1K分类中，可伸缩率S的表现优于双胞胎-SVT-S，而Swin-T则比1.4％。

translated by 谷歌翻译