智能论文笔记

FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment Sampling

Haoning Wu , Chaofeng Chen , Jingwen Hou , Liang Liao , Annan Wang , Wenxiu Sun , Qiong Yan , Weisi Lin

分类：计算机视觉

2022-07-06

当前的深度视频质量评估（VQA）方法通常在评估高分辨率视频时具有高计算成本。这使他们无法通过端到端培训学习更好的视频质量相关表示。现有方法通常考虑幼稚的采样以降低计算成本，例如调整大小和裁剪。但是，它们显然在视频中损坏了与质量相关的信息，因此并不是学习VQA的良好表示形式的最佳选择。因此，渴望为VQA设计一种新的质量保留抽样方案。在本文中，我们提出了网格迷你斑点采样（GMS），该采样允许通过在原始分辨率下采样贴片来考虑局部质量，并通过以统一网格采样的迷你绘制来涵盖全球质量。这些迷你斑点是剪接和对齐的，称为片段。我们进一步构建了专门设计的碎片注意网络（粉丝），以适应碎片作为输入。由片段和粉丝组成，VQA（快速VQA）提出的片段样品变压器可实现有效的端到端深VQA，并学习有效的与视频质量相关的表示。它可以提高最新准确性约10％，同时减少1080p高分辨率视频的99.5％的失败。新学习的与视频质量相关的表示形式也可以转移到较小的VQA数据集中，从而在这些情况下提高性能。广泛的实验表明，Fast-VQA在各种分辨率的输入方面具有良好的性能，同时保持高效率。我们在https://github.com/timothyhtimothy/fast-vqa上发布代码。

translated by 谷歌翻译

DisCoVQA: Temporal Distortion-Content Transformers for Video Quality Assessment

Haoning Wu , Chaofeng Chen , Liang Liao , Jingwen Hou , Wenxiu Sun , Qiong Yan , Weisi Lin

分类：计算机视觉

2022-06-20

在现有作品中，框架及其对视频质量评估（VQA）的影响之间的时间关系仍然不足。这些关系导致视频质量的两种重要效果类型。首先，某些时间变化（例如摇动，闪烁和突然的场景过渡）会导致时间扭曲并导致额外的质量降解，而其他变化（例如，与有意义的事件相关的变化）却没有。其次，人类视觉系统通常对具有不同内容的框架有不同的关注，从而导致其对整体视频质量的重要性不同。基于变压器的突出时间序列建模能力，我们提出了一种新颖有效的基于变压器的VQA方法来解决这两个问题。为了更好地区分时间变化，从而捕获了时间变形，我们设计了一个基于变压器的时空扭曲提取（STDE）模块。为了解决时间质量的关注，我们提出了类似编码器的时间含量变压器（TCT）。我们还介绍了功能上的时间抽样，以减少TCT的输入长度，以提高该模块的学习效率和效率。由STDE和TCT组成，用于视频质量评估（DISCOVQA）的拟议的时间失真符合变压器（DISCOVQA）在几个VQA基准上达到了最新的性能，而无需任何额外的预训练数据集，多达10％的概括能力提高了10％比现有方法。我们还进行了广泛的消融实验，以证明我们提出的模型中每个部分的有效性，并提供可视化以证明所提出的模块实现了我们对这些时间问题进行建模的意图。我们将在以后发布我们的代码和预算权重。

translated by 谷歌翻译

Disentangling Aesthetic and Technical Effects for Video Quality Assessment of User Generated Content

Haoning Wu , Liang Liao , Chaofeng Chen , Jingwen Hou , Annan Wang , Wenxiu Sun , Qiong Yan , Weisi Lin

分类：计算机视觉 | 机器学习

2022-11-09

User-generated-content (UGC) videos have dominated the Internet during recent years. While many methods attempt to objectively assess the quality of these UGC videos, the mechanisms of human quality perception in the UGC-VQA problem is still yet to be explored. To better explain the quality perception mechanisms and learn more robust representations, we aim to disentangle the effects of aesthetic quality issues and technical quality issues risen by the complicated video generation processes in the UGC-VQA problem. To overcome the absence of respective supervisions during disentanglement, we propose the Limited View Biased Supervisions (LVBS) scheme where two separate evaluators are trained with decomposed views specifically designed for each issue. Composed of an Aesthetic Quality Evaluator (AQE) and a Technical Quality Evaluator (TQE) under the LVBS scheme, the proposed Disentangled Objective Video Quality Evaluator (DOVER) reach excellent performance (0.91 SRCC for KoNViD-1k, 0.89 SRCC for LSVQ, 0.88 SRCC for YouTube-UGC) in the UGC-VQA problem. More importantly, our blind subjective studies prove that the separate evaluators in DOVER can effectively match human perception on respective disentangled quality issues. Codes and demos are released in https://github.com/teowu/dover.

translated by 谷歌翻译

CONVIQT: Contrastive Video Quality Estimator

Pavan C. Madhusudana , Neil Birkbeck , Yilin Wang , Balu Adsumilli , Alan C. Bovik

分类：计算机视觉

2022-06-29

感知视频质量评估（VQA）是许多流和视频共享平台的组成部分。在这里，我们以自我监督的方式考虑学习具有感知相关的视频质量表示的问题。失真类型的识别和降解水平确定被用作辅助任务，以训练一个深度学习模型，该模型包含深度卷积神经网络（CNN），该模型提取了空间特征，以及捕获时间信息的复发单元。该模型是使用对比度损失训练的，因此我们将此训练框架和结果模型称为对比度质量估计器（Conviqt）。在测试过程中，训练有素的模型的权重被冷冻，并且线性回归器将学习的功能映射到No-Reference（NR）设置中的质量得分。我们通过分析模型预测与地面真相质量评级之间的相关性，并与最先进的NR-VQA模型相比，我们对多个VQA数据库进行了全面评估，并实现竞争性能在这些数据库上进行了培训。我们的消融实验表明，学到的表示形式非常强大，并且在合成和现实的扭曲中很好地概括了。我们的结果表明，可以使用自我监督的学习来获得具有感知轴承的引人注目的表示。这项工作中使用的实现已在https://github.com/pavancm/conviqt上提供。

translated by 谷歌翻译

Visual Mechanisms Inspired Efficient Transformers for Image and Video Quality Assessment

Junyong You , Zheng Zhang

分类：计算机视觉

2022-03-28

视觉（图像，视频）质量评估可以通过不同域中的视觉特征来建模，例如空间，频率和时间域。人类视觉系统（HVS）中的感知机制在质量感知的产生中起着至关重要的作用。本文提出了使用有效的窗口变压器体系结构进行无引用视觉质量评估的一般框架。用于多阶段通道注意的轻量级模块集成到SWIN（移位窗口）变压器中。这样的模块可以在图像质量评估（IQA）中代表适当的感知机制，以构建准确的IQA模型。同时，在空间和频域中图像质量感知的代表性特征也可以从IQA模型中得出，然后将其馈入另一个窗户的变压器体系结构进行视频质量评估（VQA）。 VQA模型有效地重复了整个本地窗口的注意力信息，以解决原始变压器的昂贵时间和记忆复杂性的问题。大规模IQA和VQA数据库的实验结果表明，所提出的质量评估模型优于大幅度的其他最先进模型。完整的源代码将在GitHub上发布。

translated by 谷歌翻译

Telepresence Video Quality Assessment

Zhenqiang Ying , Deepti Ghadiyaram , Alan Bovik

分类：计算机视觉

2022-07-20

包括视频和音频内容在内的视频会议已导致互联网流量的急剧增加，因为COVID-19大流行迫使数百万人在家中工作和学习。由于这种情况，需要进行高效且准确的视频质量工具，以监视和感知优化通过Zoom，Webex，Meet等进行了优化的远程息息流量，因此，全球视频会议的全球互联网流量已大大增加，因此，现有模型在Multi上的预测能力受到限制。 - 模式，实时流媒体介绍内容。在这里，我们通过多种方式解决了远程敏感视频质量评估（TVQA）的重大挑战。首先，我们通过收集来自不同国家 /地区的〜2k触觉视频来减轻主观标记的数据的缺乏，我们挤在了〜80k的主观质量标签上。使用此新资源，我们使用带有单独途径的多模式学习框架创建了一个在线视频质量预测框架，用于实时流媒体，以计算视觉和音频质量预测。我们的多合一模型能够在贴片，框架，剪辑和视听水平上提供准确的质量预测。我们的模型在现有质量数据库和新的TVQA数据库上都达到了最新的性能，计算费用降低，使其成为移动和嵌入式系统的有吸引力的解决方案。

translated by 谷歌翻译

RAPIQUE: Rapid and Accurate Video Quality Prediction of User Generated Content

Zhengzhong Tu , Xiangxu Yu , Yilin Wang , Neil Birkbeck , Balu Adsumilli , Alan C. Bovik

分类：计算机视觉

2021-01-26

用户生成的内容（UGC）的盲或禁区视频质量评估已成为趋势，具有挑战性，迄今未解决的问题。因此，适用于该内容的准确和高效的视频质量预测因素都需要实现更智能的分析和处理UGC视频的需求。以前的研究表明，自然场景统计和深度学习特征既足以捕获空间扭曲，这有助于UGC视频质量问题的重要方面。然而，这些模型无法对实际应用中预测复杂和不同的UGC视频的质量无能为力或效率低。在这里，我们为UGC含量介绍了一种有效且高效的视频质量模型，我们将我们展示快速准确的视频质量评估员（Rapique），我们展示了与最先进的（SOTA）模型相对表现，而是具有订单-magnitude更快的运行时。 Rapique结合并利用了质量意识的现场统计特征和语义知识的深度卷积功能的优势，使我们能够设计用于视频质量建模的第一通用和有效的空间和时间（时空）带通统计模型。我们对最近的大型UGC视频质量数据库的实验结果表明，Rapique以相当更低的计算费用提供所有数据集的顶级表现。我们希望这项工作促进并激发进一步努力实现潜在的实时和低延迟应用程序的视频质量问题的实际建模。为促进公共用途，在线进行了求助的实施：\ url {https://github.com/vztu/rapique}。

translated by 谷歌翻译

Efficient Video Transformers with Spatial-Temporal Token Selection

Junke Wang , Xitong Yang , Hengduo Li , Zuxuan Wu , Yu-Gang Jiang

分类：计算机视觉

2021-11-23

视频变压器在主要视频识别基准上取得了令人印象深刻的结果，但它们遭受了高计算成本。在本文中，我们呈现Stts，一个令牌选择框架，动态地在输入视频样本上调节的时间和空间尺寸的几个信息令牌。具体而言，我们将令牌选择作为一个排名问题，估计每个令牌通过轻量级选择网络的重要性，并且只有顶级分数的人将用于下游评估。在时间维度中，我们将最相关的帧保持对识别作用类别的帧，而在空间维度中，我们确定特征映射中最辨别的区域，而不会影响大多数视频变换器中以分层方式使用的空间上下文。由于令牌选择的决定是不可差异的，因此我们采用了一个扰动最大的可分辨率Top-K运算符，用于最终培训。我们对动力学-400进行广泛的实验，最近推出的视频变压器骨架MVIT。我们的框架实现了类似的结果，同时需要计算20％。我们还表明我们的方法与其他变压器架构兼容。

translated by 谷歌翻译

Exploring the Effectiveness of Video Perceptual Representation in Blind Video Quality Assessment

Liang Liao , Kangmin Xu , Haoning Wu , Chaofeng Chen , Wenxiu Sun , Qiong Yan , Weisi Lin

分类：计算机视觉

2022-07-08

随着非专家们拍摄的野外视频的快速增长，盲目视频质量评估（VQA）已成为一个具有挑战性且苛刻的问题。尽管已经做出了许多努力来解决这个问题，但尚不清楚人类视觉系统（HVS）与视频的时间质量有何关系。同时，最近的工作发现，自然视频的框架变成了HV的感知领域，往往会形成表示形式的直线轨迹。通过获得的洞察力，即失真会损害感知的视频质量并导致感知表示的弯曲轨迹，我们提出了一个时间感知质量指数（TPQI），以通过描述表示形式的图形形态来测量时间失真。具体而言，我们首先从HVS的横向基因核（LGN）和主要视觉区域（V1）中提取视频感知表示，然后测量其轨迹的直率和紧凑性，以量化视频的自然性和内容连续性的降解。实验表明，HVS中的感知表示是一种预测主观时间质量的有效方法，因此TPQI首次可以实现与空间质量度量的可比性能，并且在评估具有较大时间变化的视频方面更加有效。我们进一步证明，通过与NIQE（空间质量指标）结合使用，TPQI可以在流行的野外视频数据集中实现最佳性能。更重要的是，除了要评估的视频之外，TPQI不需要任何其他信息，因此可以将其应用于任何数据集，而无需参数调整。源代码可在https://github.com/uolmm/tpqi-vqa上找到。

translated by 谷歌翻译

DualFormer: Local-Global Stratified Transformer for Efficient Video Recognition

Yuxuan Liang , Pan Zhou , Roger Zimmermann , Shuicheng Yan

分类：计算机视觉 | 人工智能

2021-12-09

虽然变形金机对视频识别任务的巨大潜力具有较强的捕获远程依赖性的强大能力，但它们经常遭受通过对视频中大量3D令牌的自我关注操作引起的高计算成本。在本文中，我们提出了一种新的变压器架构，称为双重格式，可以有效且有效地对视频识别进行时空关注。具体而言，我们的Dualformer将完全时空注意力分层到双级级联级别，即首先在附近的3D令牌之间学习细粒度的本地时空交互，然后捕获查询令牌之间的粗粒度全局依赖关系。粗粒度全球金字塔背景。不同于在本地窗口内应用时空分解或限制关注计算以提高效率的现有方法，我们本地 - 全球分层策略可以很好地捕获短期和远程时空依赖项，同时大大减少了钥匙和值的数量在注意计算提高效率。实验结果表明，对抗现有方法的五个视频基准的经济优势。特别是，Dualformer在动态-400/600上设置了新的最先进的82.9％/ 85.2％，大约1000g推理拖鞋，比具有相似性能的现有方法至少3.2倍。

translated by 谷歌翻译

VidConv: A modernized 2D ConvNet for Efficient Video Recognition

Chuong H. Nguyen , Su Huynh , Vinh Nguyen , Ngoc Nguyen

分类：计算机视觉

2022-07-08

自2020年推出以来，Vision Transformers（VIT）一直在稳步打破许多视觉任务的记录，通常被描述为``全部'''替换Convnet。而且对于嵌入式设备不友好。此外，最近的研究表明，标准的转话如果经过重新设计和培训，可以在准确性和可伸缩性方面与VIT竞争。在本文中，我们采用Convnet的现代化结构来设计一种新的骨干，以采取行动，以采取行动特别是我们的主要目标是为工业产品部署服务，例如仅支持标准操作的FPGA董事会。因此，我们的网络仅由2D卷积组成，而无需使用任何3D卷积，远程注意插件或变压器块。在接受较少的时期（5x-10x）训练时，我们的骨干线超过了（2+1）D和3D卷积的方法，并获得可比的结果s在两个基准数据集上具有vit。

translated by 谷歌翻译

Spatiotemporal Self-attention Modeling with Temporal Patch Shift for Action Recognition

Wangmeng Xiang , Chao Li , Biao Wang , Xihan Wei , Xian-Sheng Hua , Lei Zhang

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-27

基于变压器的方法最近在基于2D图像的视力任务上取得了巨大进步。但是，对于基于3D视频的任务，例如动作识别，直接将时空变压器应用于视频数据将带来沉重的计算和记忆负担，因为斑块的数量大大增加以及自我注意计算的二次复杂性。如何对视频数据的3D自我注意力进行有效地建模，这对于变压器来说是一个巨大的挑战。在本文中，我们提出了一种时间贴片移动（TPS）方法，用于在变压器中有效的3D自发明建模，以进行基于视频的动作识别。 TPS在时间尺寸中以特定的镶嵌图模式移动斑块的一部分，从而将香草的空间自我发项操作转换为时空的一部分，几乎没有额外的成本。结果，我们可以使用几乎相同的计算和记忆成本来计算3D自我注意力。 TPS是一个插件模块，可以插入现有的2D变压器模型中，以增强时空特征学习。提出的方法可以通过最先进的V1和V1，潜水-48和Kinetics400实现竞争性能，同时在计算和内存成本方面效率更高。 TPS的源代码可在https://github.com/martinxm/tps上找到。

translated by 谷歌翻译

Blind VQA on 360° Video via Progressively Learning from Pixels, Frames and Video

Li Yang , Mai Xu , Shengxi Li , Yichen Guo , Zulin Wang

分类：计算机视觉

2021-11-18

360 {\ TextDegree}视频的盲目视觉质量评估（BVQA）在优化沉浸式多媒体系统中起着关键作用。在评估360 {\ TextDegree}视频的质量时，人类倾向于从每个球形帧的基于视口的空间失真来识别其在相邻帧中的运动伪影，以视频级质量分数为止，即渐进性质量评估范式。然而，现有的BVQA方法对于360 {\ TextDegree}视频忽略了这条范式。在本文中，我们考虑了人类对球面视频质量的逐步范例，因此提出了一种新颖的BVQA方法（即ProvQA），通过逐步学习从像素，帧和视频中逐步学习。对应于像素，帧和视频的渐进学习，三个子网被设计为我们的PROPQA方法，即球形感知感知质量预测（SPAQ），运动感知感知质量预测（MPAQ）和多帧时间非本地（MFTN）子网。 SPAQ子网首先模拟基于人的球面感知机制的空间质量下降。然后，通过跨越相邻帧的运动提示，MPAQ子网适当地结合了在360 {\ TextDegree}视频上的质量评估的运动上下文信息。最后，MFTN子网聚集多帧质量劣化，通过探索来自多个帧的长期质量相关性来产生最终质量分数。实验验证了我们的方法在两个数据集中的360 {\ TextDegree}视频上显着提高了最先进的BVQA性能，该代码是公共\ url {https://github.com/yanglixiaoshen/的代码Provqa。}

translated by 谷歌翻译

FAVER: Blind Quality Prediction of Variable Frame Rate Videos

Qi Zheng , Zhengzhong Tu , Pavan C. Madhusudana , Xiaoyang Zeng , Alan C. Bovik , Yibo Fan

分类：计算机视觉

2022-01-05

视频质量评估（VQA）仍然是一个重要而挑战性的问题，影响了最广泛的尺度的许多应用程序。移动设备和云计算技术的最新进展使得可以捕获，处理和共度高分辨率，高分辨率（HFR）视频几乎瞬间。能够监控和控制这些流式视频的质量可以使得能够提供更令人愉快的内容和感知的优化速率控制。因此，需要一种强迫需要开发可以在巨大尺度部署的VQA模型。虽然最近的一些效果已应用于可变帧速率和HFR视频质量的全参考（FR）分析，但是没有研究帧速率变化的无引用（NR）VQA算法的开发。在这里，我们提出了一种用于评估HFR视频的一级盲VQA模型，我们将其配给了帧群感知视频评估程序W / O参考（Faver）。 Faver使用扩展模型的空间自然场景统计数据，即包括节省空间小波分解的视频信号，进行有效的帧速率敏感质量预测。我们对几个HFR视频质量数据集的广泛实验表明，PEVER以合理的计算成本优于其他盲VQA算法。为了便于可重复的研究和公共评估，在线可以在线进行狂热的实施：\ url {https://github.com/uniqzheng/hfr-bvqa}。

translated by 谷歌翻译

A strong baseline for image and video quality assessment

Shaoguo Wen , Junle Wang

分类：计算机视觉 | 机器学习

2021-11-13

在这项工作中，我们为图像和视频的感知质量评估提供了一个简单而有效的统一模型。与通常由复杂的网络架构组成的现有模型或依赖于多个分支的串联，我们的模型通过仅介绍从骨干网的一个全局特征（即呈现的工作中的Resnet18）来实现相当的性能。结合一些培训技巧，所提出的模型超越了公共和私有数据集的SOTA模型的当前基线。基于建议的架构，我们释放了三个常见的真实情景训练硕士学位：UGC视频在野外，PGC视频中的压缩，带有压缩的游戏视频。这三种预先训练的型号可以直接申请质量评估，或者进一步微调以获取更多定制的用途。所有代码，SDK和所提出的模型的预先训练的权重在HTTPS://github.com/tencent/censeoqoe上公开使用。

translated by 谷歌翻译

Imaging through the Atmosphere using Turbulence Mitigation Transformer

Xingguang Zhang , Zhiyuan Mao , Nicholas Chimitt , Stanley H. Chan

分类：计算机视觉

2022-07-13

由于大气湍流的扭曲而恢复图像是一个长期存在的问题，这是由于变形的空间变化，图像形成过程的非线性以及训练和测试数据的稀缺性。现有方法通常在失真模型上具有强大的统计假设，在许多情况下，由于没有概括，因此在现实世界中的性能有限。为了克服挑战，本文提出了一种端到端物理驱动的方法，该方法有效，可以推广到现实世界的湍流。在数据合成方面，我们通过通过宽sense式的平稳性近似随机场来显着增加SOTA湍流模拟器可以处理的图像分辨率。新的数据合成过程使大规模的多级湍流和训练的地面真相对产生。在网络设计方面，我们提出了湍流缓解变压器（TMT），这是一个两级U-NET形状的多帧恢复网络，该网络具有Noval有效的自发机制，称为暂时通道关节关注（TCJA）。我们还引入了一种新的培训方案，该方案由新的模拟器启用，并设计新的变压器单元以减少内存消耗。在静态场景和动态场景上的实验结果是有希望的，包括各种真实的湍流场景。

translated by 谷歌翻译

MAR: Masked Autoencoders for Efficient Action Recognition

Zhiwu Qing , Shiwei Zhang , Ziyuan Huang , Xiang Wang , Yuehuan Wang , Yiliang Lv , Changxin Gao , Nong Sang

分类：计算机视觉

2022-07-24

视频识别的标准方法通常在完整的输入视频上运行，由于视频中的时空冗余率广泛，因此效率低下。蒙版视频建模（即视频）的最新进展表明，香草视觉变压器（VIT）仅具有有限的视觉内容来补充时空上下文的能力。受到这一点的启发，我们提出了建议的蒙版动作识别（MAR），该识别（MAR）通过丢弃一定比例的补丁并仅在视频的一部分上操作来减少冗余计算。 MAR包含以下两个必不可少的组件：单元运行掩盖和桥接分类器。具体而言，为了使VIT轻松地感知细节以外的细节，并且会呈现单元格的掩蔽，以保留视频中的时空相关性，从而确保可以在同一空间位置观察到在同一空间位置的贴片，以便轻松地重建。此外，我们注意到，尽管部分观察到的特征可以重建语义上明确的隐形贴片，但它们无法实现准确的分类。为了解决这个问题，提出了一个桥接分类器，以弥合重建的VIT编码功能与专门用于分类的功能之间的语义差距。我们提出的MAR将VIT的计算成本降低了53％，并且广泛的实验表明，MAR始终以明显的边距优于现有的VIT模型。尤其是，我们发现由MAR训练的Vit-Lage胜过由标准培训方案训练的Vit-Bugue，这是通过说服Kinetics-400和某些v2数据集中的利润率，而VIT-LARGE的计算开销仅为14.5％。维特（Vit-Huge）。

translated by 谷歌翻译

Spatial-Temporal Residual Aggregation for High Resolution Video Inpainting

Vishnu Sanjay Ramiya Srinivasan , Rui Ma , Qiang Tang , Zili Yi , Zhan Xu

分类：计算机视觉

2021-11-05

最近的基于学习的初始化算法已经达到了在删除视频中的不期望的对象之后完成缺失区域的令人信服的结果。为了保持帧之间的时间一致性，3D空间和时间操作通常在深网络中使用。但是，这些方法通常遭受内存约束，只能处理低分辨率视频。我们提出了一种用于高分辨率视频侵略的新型空间剩余聚集框架。关键的想法是首先在下采样的低分辨率视频上学习和应用空间和时间内染色网络。然后，我们通过将学习的空间和时间图像残差（细节）聚合到上采样的染色帧来细化低分辨率结果。定量和定性评估都表明，我们可以生产出比确定高分辨率视频的最先进的方法产生更多的时间相干和视觉上吸引力。

translated by 谷歌翻译

Transformers in Vision: A Survey

Salman Khan , Muzammal Naseer , Munawar Hayat , Syed Waqas Zamir , Fahad Shahbaz Khan , Mubarak Shah

分类：

2021-01-04

Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.

translated by 谷歌翻译

Expanding Language-Image Pretrained Models for General Video Recognition

Bolin Ni , Houwen Peng , Minghao Chen , Songyang Zhang , Gaofeng Meng , Jianlong Fu , Shiming Xiang , Haibin Ling

分类：计算机视觉

2022-08-04

对比性语言图像预测在学习网络尺度数据的视觉文本联合表示方面取得了巨大的成功，这表明了各种图像任务的显着“零射”概括能力。但是，如何有效地将这种新的语言图像预处理方法扩展到视频域仍然是一个开放的问题。在这项工作中，我们提出了一种简单而有效的方法，该方法将预验证的语言图像模型直接适应视频识别，而不是从头开始预处理新模型。更具体地说，为了捕获沿时间维度框架的远距离依赖性，我们提出了一种跨框架注意机制，该机制明确地跨帧交换信息。这样的模块是轻量级的，可以无缝地插入验证的语言图像模型中。此外，我们提出了一个特定于视频的提示方案，该方案利用视频内容信息生成歧视性文本提示。广泛的实验表明，我们的方法是有效的，可以推广到不同的视频识别方案。特别是，在完全监督的设置下，我们的方法在Kinectics-400上获得了最高1的精度为87.1％，而与SWIN-L和Vivit-H相比，使用量少12倍。在零拍摄的实验中，我们的方法超过了当前的最新方法 +7.6％和 +14.9％，而在两个流行协议下，TOP-1的准确性。在少数拍摄的情况下，当标记的数据非常有限时，我们的方法优于先前的最佳方法 +32.1％和 +23.1％。代码和型号可在https://aka.ms/x-clip上找到

translated by 谷歌翻译