智能论文笔记

NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition

Boyang Xia , Wenhao Wu , Haoran Wang , Rui Su , Dongliang He , Haosen Yang , Xiaoran Fan , Wanli Ouyang

分类：计算机视觉

2022-07-21

对于人工智能系统来说，在低计算成本的情况下实现准确的视频识别是一项挑战。基于自适应推理的有效视频识别方法通常会预览视频，并专注于显着零件以降低计算成本。大多数现有作品都集中在复杂的网络学习，并具有基于视频分类的目标。以所有框架为正样本，其中很少有人关注积极样本（显着框架）和负面样本（非空位框架）之间的歧视。为了填补这一空白，在本文中，我们提出了一个新型的非高度抑制网络（NSNET），该网络有效地抑制了非征力框架的响应。具体而言，在框架级别上，可以生成可以区分显着框架和非空位框架的有效伪标签，以指导框架显着性学习。在视频层面上，在双重视频级别的监督下都学会了一个时间关注模块，这些模块既是对突出表示和非偏心表示形式。从两个两个级别的显着度测量都合并以利用多粒性互补信息。在四个众所周知的基准上进行的广泛实验验证了我们的NSNET不仅实现了最先进的准确性效率折衷，而且比最先进的推理速度要快得多（2.4〜4.3倍） - 艺术方法。我们的项目页面位于https://lawrencexia2008.github.io/projects/nsnet。

translated by 谷歌翻译

Temporal Saliency Query Network for Efficient Video Recognition

Boyang Xia , Zhihao Wang , Wenhao Wu , Haoran Wang , Jungong Han

分类：计算机视觉

2022-07-21

有效的视频识别是一个热点研究主题，具有互联网和移动设备上多媒体数据的爆炸性增长。大多数现有方法都选择了显着帧，而不意识对特定于类的显着性分数，这忽略了框架显着性及其归属类别之间的隐式关联。为了减轻此问题，我们设计了一种新颖的时间显着性查询（TSQ）机制，该机制引入了特定于类的信息，以提供明显测量的细粒线索。具体而言，我们将特定于类的显着性测量过程建模为查询响应任务。对于每个类别，它的共同模式被用作查询，最突出的框架对其进行了响应。然后，计算出的相似性被用作框架显着性得分。为了实现这一目标，我们提出了一个时间显着性查询网络（TSQNET），其中包括基于视觉外观相似性和文本事件对象关系的TSQ机制的两个实例化。之后，实施了交叉模式相互作用以促进它们之间的信息交换。最后，我们使用了两种模式生成的最自信类别的特定阶级销售，以执行显着框架的选择。广泛的实验通过在ActivityNet，FCVID和Mini-Kinetics数据集上实现最新结果来证明我们方法的有效性。我们的项目页面位于https://lawrencexia2008.github.io/projects/tsqnet。

translated by 谷歌翻译

OCSampler: Compressing Videos to One Clip with Single-step Sampling

Jintao Lin , Haodong Duan , Kai Chen , Dahua Lin , Limin Wang

分类：计算机视觉

2022-01-12

在本文中，我们提出了一个名为OcSampler的框架，以探索一个紧凑而有效的视频表示，其中一个短剪辑以获得高效的视频识别。最近的作品宁愿通过根据其重要性选择一个框架作为顺序决策任务的帧采样，而我们呈现了一个专用的学习实例的视频冷凝策略的新范式，以选择仅在单个视频中表示整个视频的信息帧步。我们的基本动机是高效的视频识别任务在于一次地处理整个序列而不是顺序拾取帧。因此，这些策略在一个步骤中与简单而有效的策略网络一起导出从光加权略微脱脂网络。此外，我们以帧编号预算扩展了所提出的方法，使框架能够以尽可能少的帧的高度置信度产生正确的预测。四个基准测试，即ActivityNet，Mini-Kinetics，FCVID，Mini-Sports1M的实验证明了我们在准确性，理论计算费用，实际推理速度方面对先前方法的效果。我们还在不同分类器，采样框架和搜索空间上评估其泛化电量。特别是，我们在ActivityNet上达到76.9％的地图和21.7 GFLOPS，具有令人印象深刻的吞吐量：123.9个视频/ s在单个Titan XP GPU上。

translated by 谷歌翻译

Efficient Video Transformers with Spatial-Temporal Token Selection

Junke Wang , Xitong Yang , Hengduo Li , Zuxuan Wu , Yu-Gang Jiang

分类：计算机视觉

2021-11-23

视频变压器在主要视频识别基准上取得了令人印象深刻的结果，但它们遭受了高计算成本。在本文中，我们呈现Stts，一个令牌选择框架，动态地在输入视频样本上调节的时间和空间尺寸的几个信息令牌。具体而言，我们将令牌选择作为一个排名问题，估计每个令牌通过轻量级选择网络的重要性，并且只有顶级分数的人将用于下游评估。在时间维度中，我们将最相关的帧保持对识别作用类别的帧，而在空间维度中，我们确定特征映射中最辨别的区域，而不会影响大多数视频变换器中以分层方式使用的空间上下文。由于令牌选择的决定是不可差异的，因此我们采用了一个扰动最大的可分辨率Top-K运算符，用于最终培训。我们对动力学-400进行广泛的实验，最近推出的视频变压器骨架MVIT。我们的框架实现了类似的结果，同时需要计算20％。我们还表明我们的方法与其他变压器架构兼容。

translated by 谷歌翻译

EAN: Event Adaptive Network for Enhanced Action Recognition

Yuan Tian , Yichao Yan , Guangtao Zhai , Guodong Guo , Zhiyong Gao

分类：计算机视觉

2021-07-22

有效地对视频中的空间信息进行建模对于动作识别至关重要。为了实现这一目标，最先进的方法通常采用卷积操作员和密集的相互作用模块，例如非本地块。但是，这些方法无法准确地符合视频中的各种事件。一方面，采用的卷积是有固定尺度的，因此在各种尺度的事件中挣扎。另一方面，密集的相互作用建模范式仅在动作 - 欧元零件时实现次优性能，给最终预测带来了其他噪音。在本文中，我们提出了一个统一的动作识别框架，以通过引入以下设计来研究视频内容的动态性质。首先，在提取本地提示时，我们会生成动态尺度的时空内核，以适应各种事件。其次，为了将这些线索准确地汇总为全局视频表示形式，我们建议仅通过变压器在一些选定的前景对象之间进行交互，从而产生稀疏的范式。我们将提出的框架称为事件自适应网络（EAN），因为这两个关键设计都适应输入视频内容。为了利用本地细分市场内的短期运动，我们提出了一种新颖有效的潜在运动代码（LMC）模块，进一步改善了框架的性能。在几个大规模视频数据集上进行了广泛的实验，例如，某种东西，动力学和潜水48，验证了我们的模型是否在低拖鞋上实现了最先进或竞争性的表演。代码可在：https：//github.com/tianyuan168326/ean-pytorch中找到。

translated by 谷歌翻译

Task-adaptive Spatial-Temporal Video Sampler for Few-shot Action Recognition

Huabin Liu , Weixian Lv , John See , Weiyao Lin

分类：计算机视觉 | 人工智能

2022-07-20

几次动作识别中面临的主要挑战是培训视频数据不足。为了解决此问题，该领域中的当前方法主要集中于在功能级别上设计算法，而对处理输入视频数据的关注很少。此外，现有的框架采样策略可能会省略时间和空间维度的关键行动信息，从而进一步影响视频利用效率。在本文中，我们提出了一个新颖的视频框架采样器，以进行几次动作识别以解决此问题，其中特定于任务的空间框架采样是通过时间选择器（TS）和空间放大器（SA）实现的。具体而言，我们的采样器首先以较小的计算成本扫描整个视频，以获得对视频帧的全球感知。 TS在选择最显着，随后的贡献的顶级框架方面发挥了作用。 SA通过使用显着图的指导来扩大关键区域来强调每个框架的歧视性信息。我们进一步采用任务自适应学习，根据手头的情节任务动态调整采样策略。 TS和SA的实现均可以端到端的优化为基础，从而通过大多数少数发动的动作识别方法促进了我们所提出的采样器的无缝集成。广泛的实验表明，在包括长期视频在内的各种基准测试中的表演都有显着提高。

translated by 谷歌翻译

Expanding Language-Image Pretrained Models for General Video Recognition

Bolin Ni , Houwen Peng , Minghao Chen , Songyang Zhang , Gaofeng Meng , Jianlong Fu , Shiming Xiang , Haibin Ling

分类：计算机视觉

2022-08-04

对比性语言图像预测在学习网络尺度数据的视觉文本联合表示方面取得了巨大的成功，这表明了各种图像任务的显着“零射”概括能力。但是，如何有效地将这种新的语言图像预处理方法扩展到视频域仍然是一个开放的问题。在这项工作中，我们提出了一种简单而有效的方法，该方法将预验证的语言图像模型直接适应视频识别，而不是从头开始预处理新模型。更具体地说，为了捕获沿时间维度框架的远距离依赖性，我们提出了一种跨框架注意机制，该机制明确地跨帧交换信息。这样的模块是轻量级的，可以无缝地插入验证的语言图像模型中。此外，我们提出了一个特定于视频的提示方案，该方案利用视频内容信息生成歧视性文本提示。广泛的实验表明，我们的方法是有效的，可以推广到不同的视频识别方案。特别是，在完全监督的设置下，我们的方法在Kinectics-400上获得了最高1的精度为87.1％，而与SWIN-L和Vivit-H相比，使用量少12倍。在零拍摄的实验中，我们的方法超过了当前的最新方法 +7.6％和 +14.9％，而在两个流行协议下，TOP-1的准确性。在少数拍摄的情况下，当标记的数据非常有限时，我们的方法优于先前的最佳方法 +32.1％和 +23.1％。代码和型号可在https://aka.ms/x-clip上找到

translated by 谷歌翻译

Self-supervised and Weakly Supervised Contrastive Learning for Frame-wise Action Representations

Minghao Chen , Renbo Tu , Chenxi Huang , Yuqi Lin , Boxi Wu , Deng Cai

分类：计算机视觉

2022-12-06

Previous work on action representation learning focused on global representations for short video clips. In contrast, many practical applications, such as video alignment, strongly demand learning the intensive representation of long videos. In this paper, we introduce a new framework of contrastive action representation learning (CARL) to learn frame-wise action representation in a self-supervised or weakly-supervised manner, especially for long videos. Specifically, we introduce a simple but effective video encoder that considers both spatial and temporal context by combining convolution and transformer. Inspired by the recent massive progress in self-supervised learning, we propose a new sequence contrast loss (SCL) applied to two related views obtained by expanding a series of spatio-temporal data in two versions. One is the self-supervised version that optimizes embedding space by minimizing KL-divergence between sequence similarity of two augmented views and prior Gaussian distribution of timestamp distance. The other is the weakly-supervised version that builds more sample pairs among videos using video-level labels by dynamic time wrapping (DTW). Experiments on FineGym, PennAction, and Pouring datasets show that our method outperforms previous state-of-the-art by a large margin for downstream fine-grained action classification and even faster inference. Surprisingly, although without training on paired videos like in previous works, our self-supervised version also shows outstanding performance in video alignment and fine-grained frame retrieval tasks.

translated by 谷歌翻译

TALLFormer: Temporal Action Localization with a Long-memory Transformer

Feng Cheng , Gedas Bertasius

分类：计算机视觉

2022-04-04

时间动作定位中的大多数现代方法将此问题分为两个部分：（i）短期特征提取和（ii）远程时间边界定位。由于处理长期未修剪的视频引起的GPU内存成本很高，因此许多方法通过冷冻骨干或使用小型空间视频分辨率来牺牲短期功能提取器的代表力。由于最近的视频变压器模型，其中许多具有二次记忆复杂性，这个问题变得更糟。为了解决这些问题，我们提出了TallFormer，这是一种具有长期内存的记忆效率和端到端的可训练时间动作定位变压器。我们的长期记忆机制消除了在每个训练迭代期间处理数百个冗余视频帧的需求，从而大大减少了GPU的记忆消耗和训练时间。这些效率节省使我们（i）可以使用功能强大的视频变压器提取器，而无需冷冻主链或减少空间视频分辨率，而（ii）也保持了远距离的时间边界定位能力。只有RGB框架作为输入，没有外部动作识别分类器，TallFormer的表现优于先前的最先前的边距，在Thumos14上获得了59.1％的平均地图，而ActivityNet-1.3的平均地图为35.6％。该代码可公开：https：//github.com/klauscc/tallformer。

translated by 谷歌翻译

Video Salient Object Detection via Contrastive Features and Attention Modules

Yi-Wen Chen , Xiaojie Jin , Xiaohui Shen , Ming-Hsuan Yang

分类：计算机视觉

2021-11-03

视频突出对象检测旨在在视频中找到最具视觉上的对象。为了探索时间依赖性，现有方法通常是恢复性的神经网络或光学流量。然而，这些方法需要高计算成本，并且往往会随着时间的推移积累不准确性。在本文中，我们提出了一种带有注意模块的网络，以学习视频突出物体检测的对比特征，而没有高计算时间建模技术。我们开发了非本地自我关注方案，以捕获视频帧中的全局信息。共注意配方用于结合低级和高级功能。我们进一步应用了对比学学习以改善来自相同视频的前景区域对的特征表示，并将前景 - 背景区域对被推除在潜在的空间中。帧内对比损失有助于将前景和背景特征分开，并且帧间的对比损失提高了时间的稠度。我们对多个基准数据集进行广泛的实验，用于视频突出对象检测和无监督的视频对象分割，并表明所提出的方法需要较少的计算，并且对最先进的方法进行有利地执行。

translated by 谷歌翻译

AdaFocus V2: End-to-End Training of Spatial Dynamic Networks for Video Recognition

Yulin Wang , Yang Yue , Yuanze Lin , Haojun Jiang , Zihang Lai , Victor Kulikov , Nikita Orlov , Humphrey Shi , Gao Huang

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-28

最近的作品表明，通过降低空间冗余，可以显着提高视频识别的计算效率。作为代表性的工作，自适应焦点方法（Adafocus）通过动态识别和参加每个视频帧中的信息区域来实现精度和推理速度之间的有利权衡。然而，除非领需要一个复杂的三阶段训练管道（涉及强化学习），导致收敛缓慢，对从业者不友好。这项工作通过引入基于分配的内插的补丁选择操作来重新重新培训ADAFOCUS作为简单的单级算法，实现有效的端到端优化。我们进一步提出了一种改进的培训计划，以解决一级制定的问题，包括缺乏监督，投入多样性和培训稳定性。此外，提出了一种条件 - 退出技术，用于在没有额外训练的情况下在Adafocus的顶部执行时间自适应计算。在六个基准数据集（即，ActivityNet，FCVID，Mini-Kinetics，Something-V1＆V2和Jesters）上进行了广泛的实验表明，我们的模型显着优于原始的Adafocus和其他竞争基础，同时培训更简单和有效。代码可在https://github.com/leaplabthu/adafocusv2获得。

translated by 谷歌翻译

ViGAT: Bottom-up event recognition and explanation in video using factorized graph attention network

Nikolaos Gkalelis , Dimitrios Daskalakis , Vasileios Mezaris

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-20

在本文中，一种称为VigAt的纯粹发行的自下而上的方法，该方法将对象检测器与视觉变压器（VIT）骨干网络一起得出对象和框架功能，以及一个头网络来处理这些功能，以处理事件的任务提出了视频中的识别和解释。VIGAT头由沿空间和时间维度分解的图形注意网络（GAT）组成，以便有效捕获对象或帧之间的局部和长期依赖性。此外，使用从各个GAT块的邻接矩阵得出的加权内（wids），我们表明所提出的体系结构可以识别解释网络决策的最显着对象和框架。进行了全面的评估研究，表明所提出的方法在三个大型公开视频数据集（FCVID，Mini-Kinetics，ActivityNet）上提供了最先进的结果。

translated by 谷歌翻译

HCMS: Hierarchical and Conditional Modality Selection for Efficient Video Recognition

Zejia Weng , Zuxuan Wu , Hengduo Li , Jingjing Chen , Yu-Gang Jiang

分类：计算机视觉

2021-04-20

Videos are multimodal in nature. Conventional video recognition pipelines typically fuse multimodal features for improved performance. However, this is not only computationally expensive but also neglects the fact that different videos rely on different modalities for predictions. This paper introduces Hierarchical and Conditional Modality Selection (HCMS), a simple yet efficient multimodal learning framework for efficient video recognition. HCMS operates on a low-cost modality, i.e., audio clues, by default, and dynamically decides on-the-fly whether to use computationally-expensive modalities, including appearance and motion clues, on a per-input basis. This is achieved by the collaboration of three LSTMs that are organized in a hierarchical manner. In particular, LSTMs that operate on high-cost modalities contain a gating module, which takes as inputs lower-level features and historical information to adaptively determine whether to activate its corresponding modality; otherwise it simply reuses historical information. We conduct extensive experiments on two large-scale video benchmarks, FCVID and ActivityNet, and the results demonstrate the proposed approach can effectively explore multimodal information for improved classification performance while requiring much less computation.

translated by 谷歌翻译

TSI: Temporal Saliency Integration for Video Action Recognition

Haisheng Su , Kunchang Li , Jinyuan Feng , Dongliang Wang , Weihao Gan , Wei Wu , Yu Qiao

分类：计算机视觉

2021-06-02

高效的时空建模是视频动作识别的重要而挑战性问题。现有的最先进的方法利用相邻的特征差异，以获得短期时间建模的运动线索，简单的卷积。然而，只有一个本地卷积，由于接收领域有限而无法处理各种动作。此外，摄像机运动带来的动作耳鸣还将损害提取的运动功能的质量。在本文中，我们提出了一个时间显着积分（TSI）块，其主要包含突出运动激励（SME）模块和交叉感知时间集成（CTI）模块。具体地，中小企业旨在通过空间级局部 - 全局运动建模突出显示运动敏感区域，其中显着对准和金字塔型运动建模在相邻帧之间连续进行，以捕获由未对准背景引起的噪声较少的运动动态。 CTI旨在分别通过一组单独的1D卷积进行多感知时间建模。同时，不同看法的时间相互作用与注意机制相结合。通过这两个模块，通过引入有限的附加参数，可以有效地编码长短的短期时间关系。在几个流行的基准测试中进行了广泛的实验（即，某种东西 - 某种东西 - 东西 - 400，uCF-101和HMDB-51），这证明了我们所提出的方法的有效性。

translated by 谷歌翻译

End-to-end Temporal Action Detection with Transformer

Xiaolong Liu , Qimeng Wang , Yao Hu , Xu Tang , Shiwei Zhang , Song Bai , Xiang Bai

分类：计算机视觉

2021-06-18

时间动作检测（TAD）旨在确定未修剪视频中每个动作实例的语义标签和边界。先前的方法通过复杂的管道来解决此任务。在本文中，我们提出了一个具有简单集的预测管道的端到端时间动作检测变压器（TADTR）。给定一组名为“动作查询”的可学习嵌入，Tadtr可以从每个查询的视频中自适应提取时间上下文，并直接预测动作实例。为了适应TAD的变压器，我们提出了三个改进，以提高其所在地意识。核心是一个时间可变形的注意模块，在视频中有选择地参加一组稀疏的密钥片段。片段的完善机制和动作回归头旨在完善预测实例的边界和信心。 TADTR需要比以前的检测器更低的计算成本，同时保留了出色的性能。作为一个独立的检测器，它在Thumos14（56.7％地图）和HACS段（32.09％地图）上实现了最先进的性能。结合一个额外的动作分类器，它在ActivityNet-1.3上获得了36.75％的地图。我们的代码可在\ url {https://github.com/xlliu7/tadtr}上获得。

translated by 谷歌翻译

Efficient Human Vision Inspired Action Recognition using Adaptive Spatiotemporal Sampling

Khoi-Nguyen C. Mac , Minh N. Do , Minh P. Vo

分类：计算机视觉

2022-07-12

在视频中利用时空冗余的自适应抽样对于在有限的计算机和电池资源的可穿戴设备上始终进行动作识别至关重要。常用的固定采样策略不是上下文感知的，并且可能会在视觉内容下进行样本，从而对计算效率和准确性产生不利影响。受到人类视觉感知机制的动脉视觉和动力前处理的概念的启发，我们引入了一种新型的自适应时空抽样方案，以进行有效的动作识别。我们的系统以低分辨率为扫描前扫视全球场景上下文，并决定跳过或要求在显着区域的高分辨率功能进行进一步处理。我们在Epic-Kitchens和UCF-101数据集上验证该系统以进行动作识别，并表明我们所提出的方法可以大大加快与最先进基线相比的准确性丧失的推断。

translated by 谷歌翻译

Frozen CLIP Models are Efficient Video Learners

Ziyi Lin , Shijie Geng , Renrui Zhang , Peng Gao , Gerard de Melo , Xiaogang Wang , Jifeng Dai , Yu Qiao , Hongsheng Li

分类：计算机视觉

2022-08-06

视频识别是由端到端学习范式主导的 - 首先初始化具有预审预周化图像模型的视频识别模型，然后对视频进行端到端培训。这使视频网络能够受益于验证的图像模型。但是，这需要大量的计算和内存资源，以便在视频上进行填充以及直接使用预审计的图像功能的替代方案，而无需填充图像骨架会导致结果不足。幸运的是，在对比视力语言预训练（剪辑）方面的最新进展为视觉识别任务的新途径铺平了道路。这些模型在大型开放式图像文本对数据上进行了预测，以丰富的语义学习强大的视觉表示。在本文中，我们介绍了有效的视频学习（EVL） - 一种有效的框架，用于直接训练具有冷冻剪辑功能的高质量视频识别模型。具体来说，我们采用轻型变压器解码器并学习查询令牌，从剪辑图像编码器中动态收集帧级空间特征。此外，我们在每个解码器层中采用局部时间模块，以发现相邻帧及其注意力图的时间线索。我们表明，尽管有效地使用冷冻的骨干训练，但我们的模型在各种视频识别数据集上学习了高质量的视频表示。代码可在https://github.com/opengvlab/feld-video-rencognition上找到。

translated by 谷歌翻译

Deep Reinforced Attention Learning for Quality-Aware Visual Recognition

Duo Li , Qifeng Chen

分类：计算机视觉

2020-07-13

在本文中，我们基于任何卷积神经网络中中间注意图的弱监督生成机制，并更加直接地披露了注意模块的有效性，以充分利用其潜力。鉴于现有的神经网络配备了任意注意模块，我们介绍了一个元评论家网络，以评估主网络中注意力图的质量。由于我们设计的奖励的离散性，提出的学习方法是在强化学习环境中安排的，在此设置中，注意力参与者和经常性的批评家交替优化，以提供临时注意力表示的即时批评和修订，因此，由于深度强化的注意力学习而引起了人们的关注。（Dreal）。它可以普遍应用于具有不同类型的注意模块的网络体系结构，并通过最大程度地提高每个单独注意模块产生的最终识别性能的相对增益来促进其表现能力，如类别和实例识别基准的广泛实验所证明的那样。

translated by 谷歌翻译

Learning Muti-expert Distribution Calibration for Long-tailed Video Classification

Yufan Hu , Junyu Gao , Changsheng Xu

分类：计算机视觉

2022-05-22

大多数现有的最新视频分类方法假设训练数据遵守统一的分布。但是，现实世界中的视频数据通常会表现出不平衡的长尾巴分布，从而导致模型偏见对头等阶层，并且在尾巴上的性能相对较低。虽然当前的长尾分类方法通常集中在图像分类上，但将其调整到视频数据并不是微不足道的扩展。我们提出了一种端到端的多专家分布校准方法，以基于两级分布信息来应对这些挑战。该方法共同考虑了每个类别中样品的分布（类内部分布）和各种数据（类间分布）的总体分布，以解决在长尾分布下数据不平衡数据的问题。通过对两级分布信息进行建模，该模型可以共同考虑头等阶层和尾部类别，并将知识从头等阶层显着转移，以提高尾部类别的性能。广泛的实验验证了我们的方法是否在长尾视频分类任务上实现了最先进的性能。

translated by 谷歌翻译

VLG: General Video Recognition with Web Textual Knowledge

Jintao Lin , Zhaoyang Liu , Wenhai Wang , Wayne Wu , Limin Wang

分类：计算机视觉

2022-12-03

Video recognition in an open and dynamic world is quite challenging, as we need to handle different settings such as close-set, long-tail, few-shot and open-set. By leveraging semantic knowledge from noisy text descriptions crawled from the Internet, we focus on the general video recognition (GVR) problem of solving different recognition tasks within a unified framework. The core contribution of this paper is twofold. First, we build a comprehensive video recognition benchmark of Kinetics-GVR, including four sub-task datasets to cover the mentioned settings. To facilitate the research of GVR, we propose to utilize external textual knowledge from the Internet and provide multi-source text descriptions for all action classes. Second, inspired by the flexibility of language representation, we present a unified visual-linguistic framework (VLG) to solve the problem of GVR by an effective two-stage training paradigm. Our VLG is first pre-trained on video and language datasets to learn a shared feature space, and then devises a flexible bi-modal attention head to collaborate high-level semantic concepts under different settings. Extensive results show that our VLG obtains the state-of-the-art performance under four settings. The superior performance demonstrates the effectiveness and generalization ability of our proposed framework. We hope our work makes a step towards the general video recognition and could serve as a baseline for future research. The code and models will be available at https://github.com/MCG-NJU/VLG.

translated by 谷歌翻译