智能论文笔记

Blind VQA on 360° Video via Progressively Learning from Pixels, Frames and Video

Li Yang , Mai Xu , Shengxi Li , Yichen Guo , Zulin Wang

分类：计算机视觉

2021-11-18

360 {\ TextDegree}视频的盲目视觉质量评估（BVQA）在优化沉浸式多媒体系统中起着关键作用。在评估360 {\ TextDegree}视频的质量时，人类倾向于从每个球形帧的基于视口的空间失真来识别其在相邻帧中的运动伪影，以视频级质量分数为止，即渐进性质量评估范式。然而，现有的BVQA方法对于360 {\ TextDegree}视频忽略了这条范式。在本文中，我们考虑了人类对球面视频质量的逐步范例，因此提出了一种新颖的BVQA方法（即ProvQA），通过逐步学习从像素，帧和视频中逐步学习。对应于像素，帧和视频的渐进学习，三个子网被设计为我们的PROPQA方法，即球形感知感知质量预测（SPAQ），运动感知感知质量预测（MPAQ）和多帧时间非本地（MFTN）子网。 SPAQ子网首先模拟基于人的球面感知机制的空间质量下降。然后，通过跨越相邻帧的运动提示，MPAQ子网适当地结合了在360 {\ TextDegree}视频上的质量评估的运动上下文信息。最后，MFTN子网聚集多帧质量劣化，通过探索来自多个帧的长期质量相关性来产生最终质量分数。实验验证了我们的方法在两个数据集中的360 {\ TextDegree}视频上显着提高了最先进的BVQA性能，该代码是公共\ url {https://github.com/yanglixiaoshen/的代码Provqa。}

translated by 谷歌翻译

Visual Mechanisms Inspired Efficient Transformers for Image and Video Quality Assessment

Junyong You , Zheng Zhang

分类：计算机视觉

2022-03-28

视觉（图像，视频）质量评估可以通过不同域中的视觉特征来建模，例如空间，频率和时间域。人类视觉系统（HVS）中的感知机制在质量感知的产生中起着至关重要的作用。本文提出了使用有效的窗口变压器体系结构进行无引用视觉质量评估的一般框架。用于多阶段通道注意的轻量级模块集成到SWIN（移位窗口）变压器中。这样的模块可以在图像质量评估（IQA）中代表适当的感知机制，以构建准确的IQA模型。同时，在空间和频域中图像质量感知的代表性特征也可以从IQA模型中得出，然后将其馈入另一个窗户的变压器体系结构进行视频质量评估（VQA）。 VQA模型有效地重复了整个本地窗口的注意力信息，以解决原始变压器的昂贵时间和记忆复杂性的问题。大规模IQA和VQA数据库的实验结果表明，所提出的质量评估模型优于大幅度的其他最先进模型。完整的源代码将在GitHub上发布。

translated by 谷歌翻译

FAVER: Blind Quality Prediction of Variable Frame Rate Videos

Qi Zheng , Zhengzhong Tu , Pavan C. Madhusudana , Xiaoyang Zeng , Alan C. Bovik , Yibo Fan

分类：计算机视觉

2022-01-05

视频质量评估（VQA）仍然是一个重要而挑战性的问题，影响了最广泛的尺度的许多应用程序。移动设备和云计算技术的最新进展使得可以捕获，处理和共度高分辨率，高分辨率（HFR）视频几乎瞬间。能够监控和控制这些流式视频的质量可以使得能够提供更令人愉快的内容和感知的优化速率控制。因此，需要一种强迫需要开发可以在巨大尺度部署的VQA模型。虽然最近的一些效果已应用于可变帧速率和HFR视频质量的全参考（FR）分析，但是没有研究帧速率变化的无引用（NR）VQA算法的开发。在这里，我们提出了一种用于评估HFR视频的一级盲VQA模型，我们将其配给了帧群感知视频评估程序W / O参考（Faver）。 Faver使用扩展模型的空间自然场景统计数据，即包括节省空间小波分解的视频信号，进行有效的帧速率敏感质量预测。我们对几个HFR视频质量数据集的广泛实验表明，PEVER以合理的计算成本优于其他盲VQA算法。为了便于可重复的研究和公共评估，在线可以在线进行狂热的实施：\ url {https://github.com/uniqzheng/hfr-bvqa}。

translated by 谷歌翻译

Exploring the Effectiveness of Video Perceptual Representation in Blind Video Quality Assessment

Liang Liao , Kangmin Xu , Haoning Wu , Chaofeng Chen , Wenxiu Sun , Qiong Yan , Weisi Lin

分类：计算机视觉

2022-07-08

随着非专家们拍摄的野外视频的快速增长，盲目视频质量评估（VQA）已成为一个具有挑战性且苛刻的问题。尽管已经做出了许多努力来解决这个问题，但尚不清楚人类视觉系统（HVS）与视频的时间质量有何关系。同时，最近的工作发现，自然视频的框架变成了HV的感知领域，往往会形成表示形式的直线轨迹。通过获得的洞察力，即失真会损害感知的视频质量并导致感知表示的弯曲轨迹，我们提出了一个时间感知质量指数（TPQI），以通过描述表示形式的图形形态来测量时间失真。具体而言，我们首先从HVS的横向基因核（LGN）和主要视觉区域（V1）中提取视频感知表示，然后测量其轨迹的直率和紧凑性，以量化视频的自然性和内容连续性的降解。实验表明，HVS中的感知表示是一种预测主观时间质量的有效方法，因此TPQI首次可以实现与空间质量度量的可比性能，并且在评估具有较大时间变化的视频方面更加有效。我们进一步证明，通过与NIQE（空间质量指标）结合使用，TPQI可以在流行的野外视频数据集中实现最佳性能。更重要的是，除了要评估的视频之外，TPQI不需要任何其他信息，因此可以将其应用于任何数据集，而无需参数调整。源代码可在https://github.com/uolmm/tpqi-vqa上找到。

translated by 谷歌翻译

Treating Point Cloud as Moving Camera Videos: A No-Reference Quality Assessment Metric

Zicheng Zhang , Wei Sun , Xiongkuo Min , Yu Fan , Guangtao Zhai

分类：计算机视觉

2022-08-30

Point Cloud是3D内容使用最广泛使用的数字表示格式之一，其视觉质量可能会在生产过程中遇到噪声和几何变化，以及在传输过程中的压缩和压缩采样。为了应对点云质量评估（PCQA）的挑战，已经提出了许多PCQA方法来评估点云的视觉质量水平，以评估渲染的静态2D投影。尽管这种基于投影的PCQA方法在成熟图像质量评估（IQA）方法的帮助下实现了竞争性能，但它们忽略了动态质量感知信息，这与观察者倾向于通过两种静态感知点云的事实完全不符和动态视图。因此，在本文中，我们将点云视为移动相机视频，并通过使用视频质量评估（VQA）方法（NR）方式探索处理PCQA任务的方式。首先，我们通过四个圆形路径将相机围绕点云旋转来生成捕获的视频。然后，我们分别使用可训练的2D-CNN和预训练的3D-CNN模型从所选的关键帧和视频剪辑中提取空间和时间质量感知功能。最后，点云的视觉质量由回归的视频质量值表示。实验结果表明，所提出的方法可有效预测点云的视觉质量水平，甚至可以使用全参考（FR）PCQA方法竞争。消融研究进一步验证了提出的框架的合理性，并确认了从动态视图中提取的质量感知特征所做的贡献。

translated by 谷歌翻译

RAPIQUE: Rapid and Accurate Video Quality Prediction of User Generated Content

Zhengzhong Tu , Xiangxu Yu , Yilin Wang , Neil Birkbeck , Balu Adsumilli , Alan C. Bovik

分类：计算机视觉

2021-01-26

用户生成的内容（UGC）的盲或禁区视频质量评估已成为趋势，具有挑战性，迄今未解决的问题。因此，适用于该内容的准确和高效的视频质量预测因素都需要实现更智能的分析和处理UGC视频的需求。以前的研究表明，自然场景统计和深度学习特征既足以捕获空间扭曲，这有助于UGC视频质量问题的重要方面。然而，这些模型无法对实际应用中预测复杂和不同的UGC视频的质量无能为力或效率低。在这里，我们为UGC含量介绍了一种有效且高效的视频质量模型，我们将我们展示快速准确的视频质量评估员（Rapique），我们展示了与最先进的（SOTA）模型相对表现，而是具有订单-magnitude更快的运行时。 Rapique结合并利用了质量意识的现场统计特征和语义知识的深度卷积功能的优势，使我们能够设计用于视频质量建模的第一通用和有效的空间和时间（时空）带通统计模型。我们对最近的大型UGC视频质量数据库的实验结果表明，Rapique以相当更低的计算费用提供所有数据集的顶级表现。我们希望这项工作促进并激发进一步努力实现潜在的实时和低延迟应用程序的视频质量问题的实际建模。为促进公共用途，在线进行了求助的实施：\ url {https://github.com/vztu/rapique}。

translated by 谷歌翻译

PeQuENet: Perceptual Quality Enhancement of Compressed Video with Adaptation- and Attention-based Network

Saiping Zhang , Luis Herranz , Marta Mrak , Marc Gorriz Blanch , Shuai Wan , Fuzheng Yang

分类：计算机视觉

2022-06-16

在本文中，我们提出了一个生成的对抗网络（GAN）框架，以增强压缩视频的感知质量。我们的框架包括单个模型中对不同量化参数（QP）的注意和适应。注意模块利用了可以捕获和对齐连续框架之间的远程相关性的全球接收场，这可能有益于提高视频感知质量。要增强的框架与其相邻的框架一起馈入深网，并在第一阶段的特征中提取不同深度的特征。然后提取的特征被馈入注意力块以探索全局的时间相关性，然后进行一系列上采样和卷积层。最后，通过利用相应的QP信息的QP条件适应模块处理所得的功能。这样，单个模型可用于增强对各种QP的适应性，而无需针对每个QP值的多个模型，同时具有相似的性能。实验结果表明，与最先进的压缩视频质量增强算法相比，所提出的PEQUENET的表现出色。

translated by 谷歌翻译

Deep Neural Network for Blind Visual Quality Assessment of 4K Content

Wei Lu , Wei Sun , Xiongkuo Min , Wenhan Zhu , Quan Zhou , Jun He , Qiyuan Wang , Zicheng Zhang , Tao Wang , Guangtao Zhai

分类：计算机视觉

2022-06-09

由于空间分辨率的巨大改进，4K内容可以为消费者提供更严肃的视觉体验。但是，由于分辨率扩大和特定的扭曲，现有的盲图质量评估（BIQA）方法不适合原始和升级的4K内容物。在本文中，我们提出了一个针对4K内容的深度学习的BIQA模型，一方面可以识别True和pseudo 4K内容，另一方面可以评估其感知视觉质量。考虑到高空间分辨率可以代表更丰富的高频信息的特征，我们首先提出了基于灰色级别的共发生矩阵（GLCM）的纹理复杂度度量，以从4K图像中选择三个代表性图像贴片，这可以减少计算复杂性，被证明对通过实验的总体质量预测非常有效。然后，我们从卷积神经网络（CNN）的中间层中提取不同种类的视觉特征，并将它们集成到质量感知的特征表示中。最后，使用两个多层感知（MLP）网络用于将质量感知功能映射到类概率和每个贴片的质量分数中。总体质量指数是通过平均贴片结果汇总获得的。提出的模型通过多任务学习方式进行了训练，我们引入了不确定性原理，以平衡分类和回归任务的损失。实验结果表明，所提出的模型的表现均优于所有4K内容质量评估数据库中的BIQA指标。

translated by 谷歌翻译

CONVIQT: Contrastive Video Quality Estimator

Pavan C. Madhusudana , Neil Birkbeck , Yilin Wang , Balu Adsumilli , Alan C. Bovik

分类：计算机视觉

2022-06-29

感知视频质量评估（VQA）是许多流和视频共享平台的组成部分。在这里，我们以自我监督的方式考虑学习具有感知相关的视频质量表示的问题。失真类型的识别和降解水平确定被用作辅助任务，以训练一个深度学习模型，该模型包含深度卷积神经网络（CNN），该模型提取了空间特征，以及捕获时间信息的复发单元。该模型是使用对比度损失训练的，因此我们将此训练框架和结果模型称为对比度质量估计器（Conviqt）。在测试过程中，训练有素的模型的权重被冷冻，并且线性回归器将学习的功能映射到No-Reference（NR）设置中的质量得分。我们通过分析模型预测与地面真相质量评级之间的相关性，并与最先进的NR-VQA模型相比，我们对多个VQA数据库进行了全面评估，并实现竞争性能在这些数据库上进行了培训。我们的消融实验表明，学到的表示形式非常强大，并且在合成和现实的扭曲中很好地概括了。我们的结果表明，可以使用自我监督的学习来获得具有感知轴承的引人注目的表示。这项工作中使用的实现已在https://github.com/pavancm/conviqt上提供。

translated by 谷歌翻译

Deep Decomposition and Bilinear Pooling Network for Blind Night-Time Image Quality Evaluation

Qiuping Jiang , Jiawu Xu , Yudong Mao , Wei Zhou , Xiongkuo Min , Guangtao Zhai

分类：计算机视觉

2022-05-12

在过去的几十年中，盲目的图像质量评估（BIQA）旨在准确地预测图像质量而无需任何原始参考信息，但一直在广泛关注。特别是，在深层神经网络的帮助下，取得了巨大进展。但是，对于夜间图像（NTI）的BIQA的研究仍然较少，通常患有复杂的真实扭曲，例如可见性降低，低对比度，添加噪声和颜色失真。这些多样化的真实降解特别挑战了有效的深神网络的设计，用于盲目NTI质量评估（NTIQE）。在本文中，我们提出了一个新颖的深层分解和双线性池网络（DDB-NET），以更好地解决此问题。 DDB-NET包含三个模块，即图像分解模块，一个特征编码模块和双线性池模块。图像分解模块的灵感来自Itinex理论，并涉及将输入NTI解耦到负责照明信息的照明层组件和负责内容信息的反射层组件。然后，编码模块的功能涉及分别植根于两个解耦组件的降解的特征表示。最后，通过将照明相关和与内容相关的降解作为两因素变化进行建模，将两个特征集组合在一起，将双线汇总在一起以形成统一的表示，以进行质量预测。在几个基准数据集上进行了广泛的实验，已对所提出的DDB-NET的优势得到了很好的验证。源代码将很快提供。

translated by 谷歌翻译

Saliency-Aware Spatio-Temporal Artifact Detection for Compressed Video Quality Assessment

Liqun Lin , Yang Zheng , Weiling Chen , Chengdong Lan , Tiesong Zhao

分类：计算机视觉

2023-01-03

Compressed videos often exhibit visually annoying artifacts, known as Perceivable Encoding Artifacts (PEAs), which dramatically degrade video visual quality. Subjective and objective measures capable of identifying and quantifying various types of PEAs are critical in improving visual quality. In this paper, we investigate the influence of four spatial PEAs (i.e. blurring, blocking, bleeding, and ringing) and two temporal PEAs (i.e. flickering and floating) on video quality. For spatial artifacts, we propose a visual saliency model with a low computational cost and higher consistency with human visual perception. In terms of temporal artifacts, self-attention based TimeSFormer is improved to detect temporal artifacts. Based on the six types of PEAs, a quality metric called Saliency-Aware Spatio-Temporal Artifacts Measurement (SSTAM) is proposed. Experimental results demonstrate that the proposed method outperforms state-of-the-art metrics. We believe that SSTAM will be beneficial for optimizing video coding techniques.

translated by 谷歌翻译

High-resolution Depth Maps Imaging via Attention-based Hierarchical Multi-modal Fusion

Zhiwei Zhong , Xianming Liu , Junjun Jiang , Debin Zhao , Zhiwen Chen , Xiangyang Ji

分类：计算机视觉

2021-04-04

深度映射记录场景中的视点和对象之间的距离，这在许多真实应用程序中起着关键作用。然而，消费者级RGB-D相机捕获的深度图遭受了低空间分辨率。引导深度地图超分辨率（DSR）是解决此问题的流行方法，该方法试图从输入的低分辨率（LR）深度及其耦合的HR RGB图像中恢复高分辨率（HR）深度映射和作为指引。引导DSR最具挑战性的问题是如何正确选择一致的结构并传播它们，并正确处理不一致的结构。在本文中，我们提出了一种用于引导DSR的新型关注的分层多模态融合（AHMF）网络。具体地，为了有效地提取和组合来自LR深度和HR引导的相关信息，我们提出了一种基于多模态注意力的融合（MMAF）策略，包括分层卷积层，包括特征增强块，以选择有价值的功能和特征重新校准块来统一不同外观特征的方式的相似性度量。此外，我们提出了一个双向分层特征协作（BHFC）模块，以完全利用多尺度特征之间的低级空间信息和高级结构信息。实验结果表明，在重建精度，运行速度和记忆效率方面，我们的方法优于最先进的方法。

translated by 谷歌翻译

Video Salient Object Detection via Contrastive Features and Attention Modules

Yi-Wen Chen , Xiaojie Jin , Xiaohui Shen , Ming-Hsuan Yang

分类：计算机视觉

2021-11-03

视频突出对象检测旨在在视频中找到最具视觉上的对象。为了探索时间依赖性，现有方法通常是恢复性的神经网络或光学流量。然而，这些方法需要高计算成本，并且往往会随着时间的推移积累不准确性。在本文中，我们提出了一种带有注意模块的网络，以学习视频突出物体检测的对比特征，而没有高计算时间建模技术。我们开发了非本地自我关注方案，以捕获视频帧中的全局信息。共注意配方用于结合低级和高级功能。我们进一步应用了对比学学习以改善来自相同视频的前景区域对的特征表示，并将前景 - 背景区域对被推除在潜在的空间中。帧内对比损失有助于将前景和背景特征分开，并且帧间的对比损失提高了时间的稠度。我们对多个基准数据集进行广泛的实验，用于视频突出对象检测和无监督的视频对象分割，并表明所提出的方法需要较少的计算，并且对最先进的方法进行有利地执行。

translated by 谷歌翻译

MEGAN: Memory Enhanced Graph Attention Network for Space-Time Video Super-Resolution

Chenyu You , Lianyi Han , Aosong Feng , Ruihan Zhao , Hui Tang , Wei Fan

分类：计算机视觉 | 人工智能 | 机器学习

2021-10-28

时空视频超分辨率（STVSR）旨在从相应的低帧速率，低分辨率视频序列构建高空时间分辨率视频序列。灵感来自最近的成功，考虑空间时间超级分辨率的空间信息，我们在这项工作中的主要目标是在快速动态事件的视频序列中充分考虑空间和时间相关性。为此，我们提出了一种新颖的单级内存增强图注意网络（Megan），用于时空视频超分辨率。具体地，我们构建新颖的远程存储图聚合（LMGA）模块，以沿着特征映射的信道尺寸动态捕获相关性，并自适应地聚合信道特征以增强特征表示。我们介绍了一个非本地剩余块，其使每个通道明智的功能能够参加全局空间分层特征。此外，我们采用渐进式融合模块通过广泛利用来自多个帧的空间 - 时间相关性来进一步提高表示能力。实验结果表明，我们的方法与定量和视觉上的最先进的方法相比，实现了更好的结果。

translated by 谷歌翻译

DisCoVQA: Temporal Distortion-Content Transformers for Video Quality Assessment

Haoning Wu , Chaofeng Chen , Liang Liao , Jingwen Hou , Wenxiu Sun , Qiong Yan , Weisi Lin

分类：计算机视觉

2022-06-20

在现有作品中，框架及其对视频质量评估（VQA）的影响之间的时间关系仍然不足。这些关系导致视频质量的两种重要效果类型。首先，某些时间变化（例如摇动，闪烁和突然的场景过渡）会导致时间扭曲并导致额外的质量降解，而其他变化（例如，与有意义的事件相关的变化）却没有。其次，人类视觉系统通常对具有不同内容的框架有不同的关注，从而导致其对整体视频质量的重要性不同。基于变压器的突出时间序列建模能力，我们提出了一种新颖有效的基于变压器的VQA方法来解决这两个问题。为了更好地区分时间变化，从而捕获了时间变形，我们设计了一个基于变压器的时空扭曲提取（STDE）模块。为了解决时间质量的关注，我们提出了类似编码器的时间含量变压器（TCT）。我们还介绍了功能上的时间抽样，以减少TCT的输入长度，以提高该模块的学习效率和效率。由STDE和TCT组成，用于视频质量评估（DISCOVQA）的拟议的时间失真符合变压器（DISCOVQA）在几个VQA基准上达到了最新的性能，而无需任何额外的预训练数据集，多达10％的概括能力提高了10％比现有方法。我们还进行了广泛的消融实验，以证明我们提出的模型中每个部分的有效性，并提供可视化以证明所提出的模块实现了我们对这些时间问题进行建模的意图。我们将在以后发布我们的代码和预算权重。

translated by 谷歌翻译

A Database for Perceived Quality Assessment of User-Generated VR Videos

Yuming Fang , Yiru Yao , Xiangjie Sui , Kede Ma

分类：计算机视觉

2022-06-13

虚拟现实（VR）视频（通常以360美元$^\ Circ $视频形式）由于VR技术的快速开发以及消费级360 $^\ Circ $摄像机和显示器的显着普及而引起了人们的关注。因此，了解人们如何看待用户生成的VR视频，这些视频可能会受到混乱的真实扭曲，通常是在时空和时间上局部的。在本文中，我们建立了最大的360美元$^\ Circ $视频数据库之一，其中包含502个用户生成的视频，内容丰富和失真多样性。我们捕获了139位用户的观看行为（即扫描路径），并在四个不同的观看条件下（两个起点$ \ times $ $ $ $ $两个探索时间）收集了他们的意见分数。我们对记录的数据提供了详尽的统计分析，从而产生了一些有趣的观察结果，例如观看条件对观看行为和感知质量的重大影响。此外，我们还探讨了我们的数据和分析的其他用法，包括评估360 $^\ CIRC $视频的质量评估和显着性检测的计算模型。我们已经在https://github.com/yao-yiru/vr-video-database上提供了数据集和代码。

translated by 谷歌翻译

A strong baseline for image and video quality assessment

Shaoguo Wen , Junle Wang

分类：计算机视觉 | 机器学习

2021-11-13

在这项工作中，我们为图像和视频的感知质量评估提供了一个简单而有效的统一模型。与通常由复杂的网络架构组成的现有模型或依赖于多个分支的串联，我们的模型通过仅介绍从骨干网的一个全局特征（即呈现的工作中的Resnet18）来实现相当的性能。结合一些培训技巧，所提出的模型超越了公共和私有数据集的SOTA模型的当前基线。基于建议的架构，我们释放了三个常见的真实情景训练硕士学位：UGC视频在野外，PGC视频中的压缩，带有压缩的游戏视频。这三种预先训练的型号可以直接申请质量评估，或者进一步微调以获取更多定制的用途。所有代码，SDK和所提出的模型的预先训练的权重在HTTPS://github.com/tencent/censeoqoe上公开使用。

translated by 谷歌翻译

TEA: Temporal Excitation and Aggregation for Action Recognition

Yan Li , Bin Ji , Xintian Shi , Jianguo Zhang , Bin Kang , Limin Wang

分类：

2020-04-03

Temporal modeling is key for action recognition in videos. It normally considers both short-range motions and long-range aggregations. In this paper, we propose a Temporal Excitation and Aggregation (TEA) block, including a motion excitation (ME) module and a multiple temporal aggregation (MTA) module, specifically designed to capture both short-and long-range temporal evolution. In particular, for short-range motion modeling, the ME module calculates the feature-level temporal differences from spatiotemporal features. It then utilizes the differences to excite the motion-sensitive channels of the features. The long-range temporal aggregations in previous works are typically achieved by stacking a large number of local temporal convolutions. Each convolution processes a local temporal window at a time. In contrast, the MTA module proposes to deform the local convolution to a group of subconvolutions, forming a hierarchical residual architecture. Without introducing additional parameters, the features will be processed with a series of sub-convolutions, and each frame could complete multiple temporal aggregations with neighborhoods. The final equivalent receptive field of temporal dimension is accordingly enlarged, which is capable of modeling the long-range temporal relationship over distant frames. The two components of the TEA block are complementary in temporal modeling. Finally, our approach achieves impressive results at low FLOPs on several action recognition benchmarks, such as Kinetics, Something-Something, HMDB51, and UCF101, which confirms its effectiveness and efficiency.

translated by 谷歌翻译

STM: SpatioTemporal and Motion Encoding for Action Recognition

Boyuan Jiang , Mengmeng Wang , Weihao Gan , Wei Wu , Junjie Yan

分类：

2019-08-07

Spatiotemporal and motion features are two complementary and crucial information for video action recognition. Recent state-of-the-art methods adopt a 3D CNN stream to learn spatiotemporal features and another flow stream to learn motion features. In this work, we aim to efficiently encode these two features in a unified 2D framework. To this end, we first propose an STM block, which contains a Channel-wise SpatioTemporal Module (CSTM) to present the spatiotemporal features and a Channel-wise Motion Module (CMM) to efficiently encode motion features. We then replace original residual blocks in the ResNet architecture with STM blcoks to form a simple yet effective STM network by introducing very limited extra computation cost. Extensive experiments demonstrate that the proposed STM network outperforms the state-of-the-art methods on both temporal-related datasets (i.e., Something-Something v1 & v2 and Jester) and scene-related datasets (i.e., Kinetics-400, UCF-101, and HMDB-51) with the help of encoding spatiotemporal and motion features together. * The work was done during an internship at SenseTime.

translated by 谷歌翻译

Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person Re-identification

Ziyi Tang , Ruimao Zhang , Zhanglin Peng , Jinrui Chen , Liang Lin

分类：计算机视觉

2023-01-02

In recent years, the Transformer architecture has shown its superiority in the video-based person re-identification task. Inspired by video representation learning, these methods mainly focus on designing modules to extract informative spatial and temporal features. However, they are still limited in extracting local attributes and global identity information, which are critical for the person re-identification task. In this paper, we propose a novel Multi-Stage Spatial-Temporal Aggregation Transformer (MSTAT) with two novel designed proxy embedding modules to address the above issue. Specifically, MSTAT consists of three stages to encode the attribute-associated, the identity-associated, and the attribute-identity-associated information from the video clips, respectively, achieving the holistic perception of the input person. We combine the outputs of all the stages for the final identification. In practice, to save the computational cost, the Spatial-Temporal Aggregation (STA) modules are first adopted in each stage to conduct the self-attention operations along the spatial and temporal dimensions separately. We further introduce the Attribute-Aware and Identity-Aware Proxy embedding modules (AAP and IAP) to extract the informative and discriminative feature representations at different stages. All of them are realized by employing newly designed self-attention operations with specific meanings. Moreover, temporal patch shuffling is also introduced to further improve the robustness of the model. Extensive experimental results demonstrate the effectiveness of the proposed modules in extracting the informative and discriminative information from the videos, and illustrate the MSTAT can achieve state-of-the-art accuracies on various standard benchmarks.

translated by 谷歌翻译