智能论文笔记

In the Eye of Transformer: Global-Local Correlation for Egocentric Gaze Estimation

Bolin Lai , Miao Liu , Fiona Ryan , James Rehg

分类：计算机视觉

2022-08-08

在本文中，我们提出了第一个基于变压器的模型，该模型解决了以自我为中心凝视估计的具有挑战性的问题。我们观察到，全局场景上下文和本地视觉信息之间的连接对于从以自我为中心的视频帧进行凝视固定至关重要。为此，我们设计了变压器编码器将全局上下文嵌入为一个附加的视觉令牌，并进一步提出了一种新型的全球 - 本地相关（GLC）模块，以明确模拟全局令牌和每个本地令牌的相关性。我们在两个以自我为中心的视频数据集中验证了我们的模型-EGTEA凝视+和EGO4D。我们的详细消融研究证明了我们方法的好处。此外，我们的方法超过了先前的最新空间。我们还提供了其他可视化，以支持我们的主张，即全球 - 本地相关性是预测以自我为中心视频的凝视固定的关键表示。更多详细信息可以在我们的网站（https://bolinlai.github.io/glc-egogazeest）中找到。

translated by 谷歌翻译

Vision Transformers for Action Recognition: A Survey

Anwaar Ulhaq , Naveed Akhtar , Ganna Pogrebna , Ajmal Mian

分类：计算机视觉 | 人工智能

2022-09-13

视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中，由于其广泛的应用，人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献，同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用，我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构，方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下，我们探讨了编码时空数据，降低维度降低，框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化，以处理更长的序列，通常通过减少单个注意操作中的令牌数量。此外，我们还研究了不同的网络学习策略，例如自我监督和零局学习，以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后，它提供了有关该研究方向的挑战，前景和未来途径的讨论。

translated by 谷歌翻译

Video Vision Transformers for Violence Detection

Sanskar Singh , Shivaibhav Dewangan , Ghanta Sai Krishna , Vandit Tyagi , Sainath Reddy

分类：计算机视觉 | 人工智能

2022-09-08

执法和城市安全受到监视系统中的暴力事件的严重影响。尽管现代（智能）相机广泛可用且负担得起，但在大多数情况下，这种技术解决方案无能为力。此外，监测CCTV记录的人员经常显示出迟来的反应，从而导致对人和财产的灾难。因此，对迅速行动的暴力自动检测至关重要。拟议的解决方案使用了一种新颖的端到端深度学习视频视觉变压器（Vivit），可以在视频序列中熟练地辨别战斗，敌对运动和暴力事件。该研究提出了利用数据增强策略来克服较弱的电感偏见的缺点，同时在较小的培训数据集中训练视觉变压器。评估的结果随后可以发送给当地有关当局，可以分析捕获的视频。与最先进的（SOTA）相比，所提出的方法在某些具有挑战性的基准数据集上实现了吉祥的性能。

translated by 谷歌翻译

Generative Adversarial Network for Future Hand Segmentation from Egocentric Video

Wenqi Jia , Miao Liu , James M. Rehg

分类：计算机视觉

2022-03-21

我们介绍了一个新的问题，即从以自我为中心的视频中预期一个未来的手罩时间序列。一个关键的挑战是对未来头部运动的随机性进行建模，该动作在全球范围内影响了头饰的摄像头视频分析。为此，我们提出了一个新颖的深层生成模型-Egogan，它使用3D完全卷积网络来学习一个时空视频表示，以视觉预期，可以使用生成的对抗网络（GAN）和然后，根据视频表示和生成的未来头部运动来预测未来的手蒙版。我们在Epic-Kitchens和Egtea凝视+数据集上评估了我们的方法。我们进行详细的消融研究，以验证我们方法的设计选择。此外，我们将我们的方法与以前的未来图像分割方法进行比较，并表明我们的方法可以更准确地预测未来的手掩模。

translated by 谷歌翻译

Egocentric Activity Recognition and Localization on a 3D Map

Miao Liu , Lingni Ma , Kiran Somasundaram , Yin Li , Kristen Grauman , James M. Rehg , Chao Li

分类：计算机视觉

2021-05-20

鉴于从第一人称角度捕获的视频以及录制视频的环境环境，我们可以认识到该人在做什么并确定3D空间中的动作发生在哪里吗？我们解决了这个具有挑战性的问题，即在以自我为中心视频的已知3D地图上共同识别和本地化操作。为此，我们提出了一种新颖的深层概率模型。我们的模型采用了3D环境的层次体积表示（HVR）的输入和以自我为中心的视频，将3D Action位置视为潜在变量，并根据其潜在位置的视频和上下文提示识别动作。为了评估我们的模型，我们对EGO4D数据集的子集进行了广泛的实验，其中捕获了人类自然主义的作用和照片现实的3D环境重建。我们的方法证明了在可见和看不见的环境之间进行动作识别和3D动作定位的强劲结果。我们认为，我们的工作指向以自我为中心的视觉和3D场景理解的相交的令人兴奋的研究方向。

translated by 谷歌翻译

Object-Region Video Transformers

Roei Herzig , Elad Ben-Avraham , Karttikeya Mangalam , Amir Bar , Gal Chechik , Anna Rohrbach , Trevor Darrell , Amir Globerson

分类：计算机视觉

2021-10-13

最近，视频变压器在视频理解方面取得了巨大成功，超过了CNN性能;然而，现有的视频变换器模型不会明确地模拟对象，尽管对象对于识别操作至关重要。在这项工作中，我们呈现对象区域视频变换器（Orvit），一个\ emph {对象为中心}方法，它与直接包含对象表示的块扩展视频变压器图层。关键的想法是从早期层开始融合以对象形式的表示，并将它们传播到变压器层中，从而影响整个网络的时空表示。我们的orvit块由两个对象级流组成：外观和动态。在外观流中，“对象区域关注”模块在修补程序上应用自我关注和\ emph {对象区域}。以这种方式，Visual对象区域与统一修补程序令牌交互，并通过上下文化对象信息来丰富它们。我们通过单独的“对象 - 动态模块”进一步模型对象动态，捕获轨迹交互，并显示如何集成两个流。我们在四个任务和五个数据集中评估我们的模型：在某事物中的某些问题和几次射击动作识别，以及在AVA上的某些时空动作检测，以及在某种东西上的标准动作识别 - 某种东西 - 东西，潜水48和EPIC-Kitchen100。我们在考虑的所有任务和数据集中展示了强大的性能改进，展示了将对象表示的模型的值集成到变压器体系结构中。对于代码和预用模型，请访问项目页面\ url {https://roeiherz.github.io/orvit/}

translated by 谷歌翻译

Exploiting Temporal Contexts with Strided Transformer for 3D Human Pose Estimation

Wenhao Li , Hong Liu , Runwei Ding , Mengyuan Liu , Pichao Wang , Wenming Yang

分类：计算机视觉

2021-03-26

尽管来自视频的3D人类姿势估算的巨大进展，但是充分利用冗余2D姿势序列来学习用于生成一个3D姿势的代表表示的开放问题。为此，我们提出了一种改进的基于变压器的架构，称为冲压变压器，简单地有效地将长期的2D联合位置升高到单个3D姿势。具体地，采用Vanilla变压器编码器（VTE）来模拟2D姿势序列的远程依赖性。为了减少序列的冗余，vte的前馈网络中的完全连接的层被冲击卷积替换，以逐步缩小序列长度并从本地上下文聚合信息。修改的VTE称为STRIVEIVERCHER ENCODER（STE），其构建在VTE的输出时。 STE不仅有效地将远程信息聚集到分层全球和本地时尚的单载体表示，而且显着降低了计算成本。此外，全序列和单个目标帧尺度都设计了全序，分别适用于VTE和ST的输出。该方案与单个目标帧监督结合施加额外的时间平滑度约束，因此有助于产生更平滑和更准确的3D姿势。所提出的轮廓变压器在两个具有挑战性的基准数据集，Human3.6M和HumanVa-I中进行评估，并通过更少的参数实现最先进的结果。代码和模型可用于\ url {https://github.com/vegetebird/stridedtransformer-pose3d}。

translated by 谷歌翻译

ViViT: A Video Vision Transformer

Anurag Arnab , Mostafa Dehghani , Georg Heigold , Chen Sun , Mario Lučić , Cordelia Schmid

分类：计算机视觉

2021-03-29

我们呈现了基于纯变压器的视频分类模型，在图像分类中最近的近期成功进行了借鉴。我们的模型从输入视频中提取了时空令牌，然后由一系列变压器层编码。为了处理视频中遇到的令牌的长序列，我们提出了我们模型的几种有效的变体，它们将输入的空间和时间维构建。虽然已知基于变换器的模型只有在可用的大型训练数据集时才有效，但我们展示了我们如何在训练期间有效地规范模型，并利用预先训练的图像模型能够在相对小的数据集上训练。我们进行彻底的消融研究，并在包括动力学400和600，史诗厨房，东西的多个视频分类基准上实现最先进的结果，其中 - 基于深度3D卷积网络的现有方法表现出优先的方法。为了促进进一步的研究，我们在https://github.com/google-research/scenic/tree/main/scenic/projects/vivit发布代码

translated by 谷歌翻译

Recent Advances in Vision Transformer: A Survey for Different Domains

Khawar Islam

分类：计算机视觉 | 人工智能

2022-03-03

与卷积神经网络（CNN）相比，视觉变压器（VIT）正在变得越来越流行和主导技术。作为计算机视觉中苛刻的技术，VIT已成功解决了各种视觉问题，同时着眼于远程关系。在本文中，我们首先介绍自我注意机制的基本概念和背景。接下来，我们提供了最新表现最好的VIT方法的全面概述，该方法在强度和弱点，计算成本以及培训和测试数据集方面描述。我们彻底比较了流行基准数据集上各种VIT算法和大多数代表性CNN方法的性能。最后，我们通过有见地的观察来探索一些局限性，并提供进一步的研究方向。项目页面以及论文集可通过https://github.com/khawar512/vit-survey获得

translated by 谷歌翻译

Contextualized Spatio-Temporal Contrastive Learning with Self-Supervision

Liangzhe Yuan , Rui Qian , Yin Cui , Boqing Gong , Florian Schroff , Ming-Hsuan Yang , Hartwig Adam , Ting Liu

分类：计算机视觉

2021-12-09

现代自我监督的学习算法通常强制执行跨视图实例的表示的持久性。虽然非常有效地学习整体图像和视频表示，但这种方法成为在视频中学习时空时间细粒度的特征的子最优，其中场景和情况通过空间和时间演变。在本文中，我们介绍了上下文化的时空对比学习（Const-CL）框架，以利用自我监督有效学习时空时间细粒度的表示。我们首先设计一种基于区域的自我监督的借口任务，该任务要求模型从一个视图中学习将实例表示转换为上下文特征的另一个视图。此外，我们介绍了一个简单的网络设计，有效地调和了整体和本地表示的同时学习过程。我们评估我们对各种下游任务和CONST-CL的学习表现，实现了四个数据集的最先进结果。对于时空行动本地化，Const-CL可以使用AVA-Kinetics验证集的检测到框实现39.4％的地图和30.5％地图。对于对象跟踪，Const-CL在OTB2015上实现了78.1％的精度和55.2％的成功分数。此外，Const-CL分别在视频动作识别数据集，UCF101和HMDB51上实现了94.8％和71.9％的前1个微调精度。我们计划向公众发布我们的代码和模型。

translated by 谷歌翻译

3D Vision with Transformers: A Survey

Jean Lahoud , Jiale Cao , Fahad Shahbaz Khan , Hisham Cholakkal , Rao Muhammad Anwer , Salman Khan , Ming-Hsuan Yang

分类：计算机视觉

2022-08-08

变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性，变压器已被用作广泛使用的卷积运算符的替代品。事实证明，这种替代者在许多任务中都取得了成功，其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中，3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上，但由于与2D视觉相比，由于数据表示和处理的差异，3D视觉需要特别注意。在这项工作中，我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查，包括分类，细分，检测，完成，姿势估计等。我们在3D Vision中讨论了变形金刚的设计，该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序，我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力，我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外，我们的目标是频繁更新最新的相关论文及其相应的实现：https：//github.com/lahoud/3d-vision-transformers。

translated by 谷歌翻译

TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D Salient Object Detection

Youwei Pang , Xiaoqi Zhao , Lihe Zhang , Huchuan Lu

分类：计算机视觉

2021-12-04

大多数现有的RGB-D突出物体检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模型信息集成。卷积操作的固有局部连接将基于卷积的方法的性能进行了限制到天花板的性能。在这项工作中，我们从全球信息对齐和转换的角度重新思考此任务。具体地，所提出的方法（Transcmd）级联几个跨模型集成单元来构造基于自上而下的变换器的信息传播路径（TIPP）。 Transcmd将多尺度和多模态特征集成作为序列到序列上下文传播和内置于变压器上的更新过程。此外，考虑到二次复杂性W.R.T.输入令牌的数量，我们设计了具有可接受的计算成本的修补程序令牌重新嵌入策略（Ptre）。七个RGB-D SOD基准数据集上的实验结果表明，在配备TIPP时，简单的两流编码器 - 解码器框架可以超越最先进的基于CNN的方法。

translated by 谷歌翻译

GTA: Global Temporal Attention for Video Action Understanding

Bo He , Xitong Yang , Zuxuan Wu , Hao Chen , Ser-Nam Lim , Abhinav Shrivastava

分类：计算机视觉

2020-12-15

自我关注学习成对相互作用以模型远程依赖性，从而产生了对视频动作识别的巨大改进。在本文中，我们寻求更深入地了解视频中的时间建模的自我关注。我们首先表明通过扁平所有像素通过扁平化的时空信息的缠结建模是次优的，未明确捕获帧之间的时间关系。为此，我们介绍了全球暂时关注（GTA），以脱钩的方式在空间关注之上进行全球时间关注。我们在像素和语义类似地区上应用GTA，以捕获不同水平的空间粒度的时间关系。与计算特定于实例的注意矩阵的传统自我关注不同，GTA直接学习全局注意矩阵，该矩阵旨在编码遍布不同样本的时间结构。我们进一步增强了GTA的跨通道多头方式，以利用通道交互以获得更好的时间建模。对2D和3D网络的广泛实验表明，我们的方法一致地增强了时间建模，并在三个视频动作识别数据集中提供最先进的性能。

translated by 谷歌翻译

Transformers in Vision: A Survey

Salman Khan , Muzammal Naseer , Munawar Hayat , Syed Waqas Zamir , Fahad Shahbaz Khan , Mubarak Shah

分类：

2021-01-04

Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.

translated by 谷歌翻译

MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection

Rui Dai , Srijan Das , Kumara Kahatapitiya , Michael S. Ryoo , Francois Bremond

分类：计算机视觉

2021-12-07

动作检测是一个必不可少的和具有挑战性的任务，特别是对于未经监测视频的密集标记数据集。在这些数据集中，时间关系是复杂的，包括综合动作等挑战和共同发生的动作。为了检测这些复杂视频中的动作，有效地捕获视频中的短期和长期时间信息是至关重要的。为此，我们提出了一种用于动作检测的新型Converransformer网络。该网络包括三个主要组件：（1）时间编码器模块广泛探讨多个时间分辨率的全局和局部时间关系。（2）时间尺度混频器模块有效地熔化多尺度特征以具有统一的特征表示。（3）分类模块用于学习实例中心相对位置并预测帧级分类分数。多个数据集的大量实验，包括Charades，TSU和Multithumos，确认了我们所提出的方法的有效性。我们的网络在所有三个数据集上占据了最先进的方法。

translated by 谷歌翻译

Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person Re-identification

Ziyi Tang , Ruimao Zhang , Zhanglin Peng , Jinrui Chen , Liang Lin

分类：计算机视觉

2023-01-02

In recent years, the Transformer architecture has shown its superiority in the video-based person re-identification task. Inspired by video representation learning, these methods mainly focus on designing modules to extract informative spatial and temporal features. However, they are still limited in extracting local attributes and global identity information, which are critical for the person re-identification task. In this paper, we propose a novel Multi-Stage Spatial-Temporal Aggregation Transformer (MSTAT) with two novel designed proxy embedding modules to address the above issue. Specifically, MSTAT consists of three stages to encode the attribute-associated, the identity-associated, and the attribute-identity-associated information from the video clips, respectively, achieving the holistic perception of the input person. We combine the outputs of all the stages for the final identification. In practice, to save the computational cost, the Spatial-Temporal Aggregation (STA) modules are first adopted in each stage to conduct the self-attention operations along the spatial and temporal dimensions separately. We further introduce the Attribute-Aware and Identity-Aware Proxy embedding modules (AAP and IAP) to extract the informative and discriminative feature representations at different stages. All of them are realized by employing newly designed self-attention operations with specific meanings. Moreover, temporal patch shuffling is also introduced to further improve the robustness of the model. Extensive experimental results demonstrate the effectiveness of the proposed modules in extracting the informative and discriminative information from the videos, and illustrate the MSTAT can achieve state-of-the-art accuracies on various standard benchmarks.

translated by 谷歌翻译

Bringing Image Scene Structure to Video via Frame-Clip Consistency of Object Tokens

Elad Ben-Avraham , Roei Herzig , Karttikeya Mangalam , Amir Bar , Anna Rohrbach , Leonid Karlinsky , Trevor Darrell , Amir Globerson

分类：计算机视觉

2022-06-13

最近的动作识别模型通过整合对象，其位置和互动来取得令人印象深刻的结果。但是，为每个框架获得密集的结构化注释是乏味且耗时的，使这些方法的训练昂贵且可扩展性较低。同时，如果可以在感兴趣的域内或之外使用一小部分带注释的图像，我们如何将它们用于下游任务的视频？我们提出了一个学习框架的结构（简称SVIT），该结构证明了仅在训练过程中仅可用的少量图像的结构才能改善视频模型。 SVIT依靠两个关键见解。首先，由于图像和视频都包含结构化信息，因此我们用一组\ emph {对象令牌}丰富了一个可以在图像和视频中使用的\ emph {对象令牌}的模型。其次，视频中各个帧的场景表示应与静止图像的场景表示“对齐”。这是通过\ emph {frame-clip一致性}损失来实现的，该损失可确保图像和视频之间结构化信息的流动。我们探索场景结构的特定实例化，即\ emph {手对象图}，由手和对象组成，其位置为节点，以及触点/no-contact的物理关系作为边缘。 SVIT在多个视频理解任务和数据集上显示出强烈的性能改进；它在EGO4D CVPR'22对象状态本地化挑战中赢得了第一名。对于代码和预算模型，请访问\ url {https://eladb3.github.io/svit/}的项目页面

translated by 谷歌翻译

Stacked Temporal Attention: Improving First-person Action Recognition by Emphasizing Discriminative Clips

Lijin Yang , Yifei Huang , Yusuke Sugano , Yoichi Sato

分类：计算机视觉

2021-12-02

第一人称行动认可是视频理解中有挑战性的任务。由于强烈的自我运动和有限的视野，第一人称视频中的许多背景或嘈杂的帧可以在其学习过程中分散一个动作识别模型。为了编码更多的辨别特征，模型需要能够专注于视频的最相关的动作识别部分。以前的作品通过应用时间关注但未能考虑完整视频的全局背景来解决此问题，这对于确定相对重要的部分至关重要。在这项工作中，我们提出了一种简单而有效的堆叠的临时注意力模块（STAM），以基于跨越剪辑的全球知识来计算时间注意力，以强调最辨别的特征。我们通过堆叠多个自我注意层来实现这一目标。而不是天真的堆叠，这是实验证明是无效的，我们仔细地设计了每个自我关注层的输入，以便在产生时间注意力期间考虑视频的本地和全局背景。实验表明，我们提出的STAM可以基于大多数现有底座的顶部构建，并提高各个数据集中的性能。

translated by 谷歌翻译

Long Movie Clip Classification with State-Space Video Models

Md Mohaiminul Islam , Gedas Bertasius

分类：计算机视觉

2022-04-04

大多数现代视频识别模型旨在在短视频剪辑上运行（例如，长度为5-10）。因此，将此类模型应用于长时间的电影理解任务是一项挑战，通常需要复杂的长期时间推理。最近引入的视频变形金刚通过使用远程时间自我注意来部分解决此问题。但是，由于自我注意力的二次成本，这种模型通常是昂贵且不切实际的。取而代之的是，我们提出了Vis4mer，这是一种有效的远程视频模型，结合了自我注意力的优势和最近引入的结构化状态空间序列（S4）层。我们的模型使用标准的变压器编码器进行短距离时空特征提取，以及多尺度的时间S4解码器，用于随后的远程时间推理。通过逐步减少每个解码器层处的时空特征分辨率和通道维度，Vis4mer在视频中学习了复杂的长期时空依赖性。此外，比相应的基于纯的自我注意力的模型，Vis4mer的价格更快为$ 2.63 \ times $ $，$ 8 \ times $ $ GPU内存。此外，Vis4mer实现最先进的结果，在长期视频理解（LVU）基准中，$ 9 $ 9 $长的电影视频分类任务中的$ 6 $。此外，我们表明我们的方法成功地将其推广到其他领域，从而在早餐和硬币程序活动数据集中取得了竞争成果。该代码可在以下网址公开获取：https：//github.com/md-mohaiminul/vis4mer。

translated by 谷歌翻译

Combined CNN Transformer Encoder for Enhanced Fine-grained Human Action Recognition

Mei Chee Leong , Haosong Zhang , Hui Li Tan , Liyuan Li , Joo Hwee Lim

分类：计算机视觉

2022-08-03

细粒度的动作识别是计算机视觉中的一项具有挑战性的任务。由于细粒的数据集在空间和时间空间中具有较小的类间变化，因此细粒度的动作识别模型需要良好的时间推理和属性动作语义的歧视。利用CNN捕获高级时空特征表示能力以及变压器在捕获潜在语义和全球依赖性方面的建模效率，我们研究了两个结合CNN视觉骨干和变压器编码器以增强良好粒度动作识别的框架：1）基于编码器学习潜在的时间语义，以及2）多模式视频文本交叉编码器，以利用其他文本输入并学习视觉语义和文本语义之间的交叉关联。我们的实验结果表明，我们的变压器编码器框架有效地学习潜在的时间语义和跨模式关联，并且比CNN视觉模型改善了识别性能。我们在firgym基准数据集上实现了新的最先进的性能，用于两种拟议的架构。

translated by 谷歌翻译