智能论文笔记

AutoTransition: Learning to Recommend Video Transition Effects

Yaojie Shen , Libo Zhang , Kai Xu , Xiaojie Jin

分类：计算机视觉

2022-07-27

视频过渡效果被广泛用于视频编辑中，以连接镜头，以创建凝聚力和视觉上吸引人的视频。但是，由于缺乏摄影知识和设计技能，非专业人士选择最佳过渡是一个挑战。在本文中，我们介绍了执行自动视频过渡建议（VTR）的主要工作：给定一系列原始视频镜头和伴侣音频，建议每对相邻拍摄的视频过渡。为了解决此任务，我们使用有关编辑软件的公开视频模板收集了一个大规模的视频过渡数据集。然后，我们将VTR作为从视觉/音频到视频过渡的多模式检索问题，并提出了一个新型的多模式匹配框架，由两个部分组成。首先，我们通过视频过渡分类任务了解视频过渡的嵌入。然后，我们提出了一个模型，以学习从视觉/音频输入到视频过渡的匹配对应关系。具体而言，所提出的模型采用多模式变压器来融合视觉和音频信息，并捕获顺序过渡输出中的上下文提示。通过定量和定性实验，我们清楚地证明了我们方法的有效性。值得注意的是，在综合用户研究中，我们的方法获得了与专业编辑者相比的可比分数，同时通过\ textbf {300 \ scalebox {1.25} {$ \ times $}}提高视频编辑效率。我们希望我们的工作能够激发其他研究人员从事这项新任务。数据集和代码在\ url {https://github.com/acherstyx/autotransition}上公开。

translated by 谷歌翻译

Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions

Hongwei Xue , Tiankai Hang , Yanhong Zeng , Yuchong Sun , Bei Liu , Huan Yang , Jianlong Fu , Baining Guo

分类：计算机视觉

2021-11-19

我们研究了联合视频和语言（VL）预培训，以实现跨模型学习和益处丰富的下游VL任务。现有的作品要么提取低质量的视频特征或学习有限的文本嵌入，但忽略了高分辨率视频和多样化的语义可以显着提高跨模型学习。在本文中，我们提出了一种新的高分辨率和多样化的视频 - 语言预训练模型（HD-VILA），用于许多可视任务。特别是，我们收集具有两个不同属性的大型数据集：1）第一个高分辨率数据集包括371.5k小时的720p视频，2）最多样化的数据集涵盖15个流行的YouTube类别。为了启用VL预培训，我们通过学习丰富的时空特征的混合变压器联合优化HD-VILA模型，以及多峰变压器，用于强制学习视频功能与多样化文本的交互。我们的预训练模式实现了新的最先进的导致10 VL了解任务和2个新颖的文本到视觉生成任务。例如，我们以零拍摄MSR-VTT文本到视频检索任务的相对增加38.5％R @ 1的相对增长，高分辨率数据集LSMDC为53.6％。学习的VL嵌入也有效地在文本到视觉操纵和超分辨率任务中产生视觉上令人愉悦和语义相关结果。

translated by 谷歌翻译

Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

Nina Shvetsova , Brian Chen , Andrew Rouditchenko , Samuel Thomas , Brian Kingsbury , Rogerio Feris , David Harwath , James Glass , Hilde Kuehne

分类：计算机视觉 | 自然语言处理

2021-12-08

来自视频数据的多模态学习最近看过，因为它允许在没有人为注释的情况下培训语义有意义的嵌入，从而使得零射击检索和分类等任务。在这项工作中，我们提出了一种多模态，模态无政府主义融合变压器方法，它学会在多个模态之间交换信息，例如视频，音频和文本，并将它们集成到加入的多模态表示中，以获取聚合的嵌入多模态时间信息。我们建议培训系统的组合丢失，单个模态以及成对的方式，明确地留出任何附加组件，如位置或模态编码。在测试时间时，产生的模型可以处理和融合任意数量的输入模态。此外，变压器的隐式属性允许处理不同长度的输入。为了评估所提出的方法，我们在大规模HOWASET上培训模型，并评估四个具有挑战性的基准数据集上产生的嵌入空间获得最先进的视频检索和零射击视频动作定位。

translated by 谷歌翻译

The Anatomy of Video Editing: A Dataset and Benchmark Suite for AI-Assisted Video Editing

Dawit Mureja Argaw , Fabian Caba Heilbron , Joon-Young Lee , Markus Woodson , In So Kweon

分类：计算机视觉

2022-07-20

机器学习正在改变视频编辑行业。计算机视觉的最新进展已升级视频编辑任务，例如智能重新构图，旋转镜，颜色分级或应用数字化妆。但是，大多数解决方案都集中在视频操作和VFX上。这项工作介绍了视频编辑，数据集和基准测试的解剖结构，以促进AI辅助视频编辑研究。我们的基准套件专注于视频编辑任务，除了视觉效果之外，例如自动录像组织和辅助视频组装。为了对这些方面进行研究，我们注释了超过150万的标签，并从196176年从电影场景中取样了摄影作品。我们为每个任务建立竞争性基线方法和详细分析。我们希望我们的作品能够对AI辅助视频编辑的未经展开的领域进行创新的研究。

translated by 谷歌翻译

Clover: Towards A Unified Video-Language Alignment and Fusion Model

Jingjia Huang , Yinan Li , Jiashi Feng , Xiaoshuai Sun , Rongrong Ji

分类：计算机视觉

2022-07-16

构建一个通用视频语言模型，用于解决各种视频理解任务（例如，文本视频检索，视频问答）是对机器学习领域的开放挑战。为了实现这一目标，最近的尝试训练模型，通常由单峰和跨模式的特征编码器组成，并具有受监督或成对的对比度的预文本任务。尽管提供了有吸引力的通用性，但最终的模型必须在效率和性能之间妥协。我们认为这些缺陷是由它们的预训练策略\ Textemdash引起的，它们不能很好地对齐和融合不同方式的特征。然后，我们将三叶草（一种相关的视频预培训方法）介绍给一个通用的视频语言模型，该模型用于解决既不效率也不妥协的多个视频理解任务。它通过新的三模式比对预训练任务来改善跨模式特征对齐和融合。此外，我们建议通过合并蒙面样品的学习和新颖的成对排名损失来增强三模式对齐。三叶草表现出了出色的一般性。它在多个下游任务上建立了新的最新技术，包括零射击和微调设置的三个检索任务，以及八个视频问答任务。代码和预培训模型将在https://github.com/leeyn-43/clover上发布。

translated by 谷歌翻译

It's Time for Artistic Correspondence in Music and Video

Didac Suris , Carl Vondrick , Bryan Russell , Justin Salamon

分类：计算机视觉

2022-06-14

我们提出了一种为给定视频推荐音乐曲目的方法，反之亦然，基于它们的时间对齐及其在艺术层面上的信件。我们提出了一种自我监督的方法，该方法直接从数据中学习了这一对应，而无需任何人类注释。为了捕获解决任务所需的高级概念，我们建议使用每种模式的变压器网络对视频和音乐信号的长期时间上下文进行建模。实验表明，这种方法强烈胜过不利用时间上下文的替代方案。我们的贡献的结合提高了先前最高现状的检索准确性高达10倍。这种强大的改进使我们能够引入广泛的分析和应用。例如，我们可以根据视觉定义的属性来调节音乐检索。

translated by 谷歌翻译

CLIP2TV: An Empirical Study on Transformer-based Methods for Video-Text Retrieval

Zijian Gao , Jingyu Liu , Sheng Chen , Dedan Chang , Hao Zhang , Jinwei Yuan

分类：计算机视觉 | 自然语言处理

2021-11-10

现代视频文本检索框架基本上由三个部分组成：视频编码器，文本编码器和相似性。随着Visual和Textual表示学习的成功，在视频文本检索领域也采用了基于变压器的编码器和融合方法。在本报告中，我们呈现Clip2TV，旨在探索关键元素在基于变压器的方法中。为实现这一目标，我们首先重新审视一些对多模态学习的工作，然后将一些技术介绍到视频文本检索中，最后通过不同配置的大量实验进行评估。值得注意的是，Clip2TV在MSR-VTT数据集上实现了52.9 @ R1，优先表现出先前的SOTA结果为4.1％。

translated by 谷歌翻译

Robust Sound-Guided Image Manipulation

Seung Hyun Lee , Chanyoung Kim , Wonmin Byeon , Gyeongrok Oh , Jooyoung Lee , Sang Ho Yoon , Jinkyu Kim , Sangpil Kim

分类：计算机视觉

2022-08-30

最近的成功表明，可以通过文本提示来操纵图像，例如，在雨天的晴天，在雨天中被操纵到同一场景中，这是由文本输入“下雨”驱动的雨天。这些方法经常利用基于样式的图像生成器，该生成器利用多模式（文本和图像）嵌入空间。但是，我们观察到，这种文本输入通常在提供和综合丰富的语义提示时被瓶颈瓶颈，例如将大雨与雨雨区分开。为了解决这个问题，我们主张利用另一种方式，声音，在图像操纵中具有显着优势，因为它可以传达出比文本更多样化的语义提示（生动的情感或自然世界的动态表达）。在本文中，我们提出了一种新颖的方法，该方法首先使用声音扩展了图像文本接头嵌入空间，并应用了一种直接的潜在优化方法来根据音频输入（例如雨的声音）操纵给定的图像。我们的广泛实验表明，我们的声音引导的图像操纵方法在语义和视觉上比最先进的文本和声音引导的图像操纵方法产生更合理的操作结果，这通过我们的人类评估进一步证实。我们的下游任务评估还表明，我们学到的图像文本单嵌入空间有效地编码声音输入。

translated by 谷歌翻译

HTML版本

Masking Modalities for Cross-modal Video Retrieval

Valentin Gabeur , Arsha Nagrani , Chen Sun , Karteek Alahari , Cordelia Schmid

分类：计算机视觉

2021-11-01

大规模未标记数据集的预培训显示了计算机视觉和自然语言处理领域的令人印象深刻的性能改进。鉴于大规模教学视频数据集的出现，预训练视频编码器的常见策略是使用随附的语音作为弱监管。但是，由于演讲用于监督预培训，视频编码器从未见过，这不会学会处理该模态。我们解决了当前预训练方法的这种缺点，这未能利用口语语言中的丰富的线索。我们的提议是使用所有可用的视频模型作为监督，即外观，声音和转录语音预先列车。我们在输入中掩盖了整个模态并使用其他两个模态预测它。这鼓励每个码头与其他方式合作，我们的视频编码器学会处理外观和音频以及语音。我们展示了我们在How2R，YouScook2和浓缩电影数据集上视频检索的“模态屏蔽”预培训方法的卓越性能。

translated by 谷歌翻译

iQuery: Instruments as Queries for Audio-Visual Sound Separation

Jiaben Chen , Renrui Zhang , Dongze Lian , Jiaqi Yang , Ziyao Zeng , Jianbo Shi

分类：计算机视觉

2022-12-07

Current audio-visual separation methods share a standard architecture design where an audio encoder-decoder network is fused with visual encoding features at the encoder bottleneck. This design confounds the learning of multi-modal feature encoding with robust sound decoding for audio separation. To generalize to a new instrument: one must finetune the entire visual and audio network for all musical instruments. We re-formulate visual-sound separation task and propose Instrument as Query (iQuery) with a flexible query expansion mechanism. Our approach ensures cross-modal consistency and cross-instrument disentanglement. We utilize "visually named" queries to initiate the learning of audio queries and use cross-modal attention to remove potential sound source interference at the estimated waveforms. To generalize to a new instrument or event class, drawing inspiration from the text-prompt design, we insert an additional query as an audio prompt while freezing the attention mechanism. Experimental results on three benchmarks demonstrate that our iQuery improves audio-visual sound source separation performance.

translated by 谷歌翻译

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

Ludan Ruan , Yiyang Ma , Huan Yang , Huiguo He , Bei Liu , Jianlong Fu , Nicholas Jing Yuan , Qin Jin , Baining Guo

分类：计算机视觉

2022-12-19

We propose the first joint audio-video generation framework that brings engaging watching and listening experiences simultaneously, towards high-quality realistic videos. To generate joint audio-video pairs, we propose a novel Multi-Modal Diffusion model (i.e., MM-Diffusion), with two-coupled denoising autoencoders. In contrast to existing single-modal diffusion models, MM-Diffusion consists of a sequential multi-modal U-Net for a joint denoising process by design. Two subnets for audio and video learn to gradually generate aligned audio-video pairs from Gaussian noises. To ensure semantic consistency across modalities, we propose a novel random-shift based attention block bridging over the two subnets, which enables efficient cross-modal alignment, and thus reinforces the audio-video fidelity for each other. Extensive experiments show superior results in unconditional audio-video generation, and zero-shot conditional tasks (e.g., video-to-audio). In particular, we achieve the best FVD and FAD on Landscape and AIST++ dancing datasets. Turing tests of 10k votes further demonstrate dominant preferences for our model. The code and pre-trained models can be downloaded at https://github.com/researchmm/MM-Diffusion.

translated by 谷歌翻译

LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval

Jinbin Bai , Chunhui Liu , Feiyue Ni , Haofan Wang , Mengying Hu , Xiaofeng Guo , Lele Cheng

分类：计算机视觉

2022-07-11

Video-Text检索是一类跨模式表示学习问题，其目标是选择与给定文本查询和候选视频库之间的文本查询相对应的视频。视觉训练预处理的对比范式在大规模数据集和统一的变压器体系结构中表现出了有希望的成功，并证明了联合潜在空间的力量。尽管如此，视觉域和文本域之间的固有差异仍未被消除，并且将不同的模态投射到联合潜在空间可能会导致单个模式内的信息扭曲。为了克服上述问题，我们提出了一种新的机制，可以学习从源模式空间$ \ mathcal {s} $到目标模态空间$ \ mathcal {t} $的新颖机制桥接视觉和文本域之间的差距。此外，为了保持翻译之间的循环一致性，我们采用了一个循环损失，涉及从$ \ MATHCAL {S} $到预测的目标空间$ \ Mathcal {t'} $的两个前向翻译，以及$ \ Mathcal {t't'的向后翻译} $返回$ \ Mathcal {s} $。在MSR-VTT，MSVD和DIDEMO数据集上进行的广泛实验证明了我们LAT方法的优势和有效性与香草的最新方法相比。

translated by 谷歌翻译

Self-Supervised Learning of Music-Dance Representation through Explicit-Implicit Rhythm Synchronization

Jiashuo Yu , Junfu Pu , Ying Cheng , Rui Feng , Ying Shan

分类：计算机视觉

2022-07-07

尽管事实证明，视听表征适用于许多下游任务，但舞蹈视频的表示，这是更具体的，并且总是伴随着具有复杂听觉内容的音乐，但仍然具有挑战性且没有评估。考虑到舞者和音乐节奏的节奏运动之间的内在结合，我们介绍了Mudar，这是一个新颖的音乐舞蹈表示学习框架，以明确和隐性的方式执行音乐和舞蹈节奏的同步。具体而言，我们根据音乐节奏分析启发的视觉外观和运动提示得出舞蹈节奏。然后，视觉节奏在时间上与音乐对应物对齐，这些音乐由声音强度的幅度提取。同时，我们利用对比度学习在音频和视觉流中隐含的节奏的隐式连贯性。该模型通过预测视听对之间的时间一致性来学习关节嵌入。音乐舞蹈表示以及检测音频和视觉节奏的能力，可以进一步应用于三个下游任务：（a）舞蹈分类，（b）音乐舞蹈检索，以及（c）音乐舞蹈重新定位。广泛的实验表明，我们提出的框架以大幅度优于其他自我监督方法。

translated by 谷歌翻译

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

Hassan Akbari , Liangzhe Yuan , Rui Qian , Wei-Hong Chuang , Shih-Fu Chang , Yin Cui , Boqing Gong

分类：计算机视觉 | 人工智能 | 机器学习

2021-04-22

我们使用无卷积的变压器架构提出了一种从未标记数据学习多式式表示的框架。具体而言，我们的视频音频文本变压器（Vatt）将原始信号作为输入提取，提取丰富的多式化表示，以使各种下游任务受益。我们使用多模式对比损失从头划线训练Vatt端到端，并通过视频动作识别，音频事件分类，图像分类和文本到视频检索的下游任务评估其性能。此外，我们通过共享三种方式之间的重量来研究模型 - 无话的单骨架变压器。我们表明，无卷积VATT优于下游任务中的最先进的Convnet架构。特别是，Vatt的视觉变压器在动力学-400上实现82.1％的高精度82.1％，在动力学-600，72.7％的动力学-700上的72.7％，以及时间的时间，新的记录，在避免受监督的预训练时，新的记录。通过从头划伤训练相同的变压器，转移到图像分类导致图像分类导致78.7％的ImageNet精度为64.7％，尽管视频和图像之间的域间差距，我们的模型概括了我们的模型。 Vatt的音雅音频变压器还通过在没有任何监督的预训练的情况下在Audioset上实现39.4％的地图来设置基于波形的音频事件识别的新记录。 Vatt的源代码是公开的。

translated by 谷歌翻译

Visual Spatio-Temporal Relation-Enhanced Network for Cross-Modal Text-Video Retrieval

Ning Han , Jingjing Chen , Guangyi Xiao , Yawen Zeng , Chuhao Shi , Hao Chen

分类：计算机视觉

2021-10-29

文本和视频之间交叉模态检索的任务旨在了解视觉和语言之间的对应关系。现有研究遵循基于文本和视频嵌入的测量文本视频相似度的趋势。在常见的做法中，通过将视频帧馈送到用于全球视觉特征提取的视频帧或仅通过使用图形卷积网络使用本地细粒度的框架区域来实现简单的语义关系来构造视频表示。然而，这些视频表示在学习视频表示中的视觉组件之间没有充分利用时空关系，从而无法区分具有相同视觉组件但具有不同关系的视频。为了解决这个问题，我们提出了一种视觉时空关系增强的网络（VSR-Net），这是一种新的跨模型检索框架，其考虑组件之间的空间视觉关系，以增强桥接文本 - 视频模型中的全局视频表示。具体地，使用多层时空变压器来编码视觉时空关系，以学习视觉关系特征。我们将全局视觉和细粒度的关系功能与两个嵌入空格上的文本功能对齐，用于交叉模态文本 - 视频检索。在MSR-VTT和MSVD数据集中进行了广泛的实验。结果表明了我们提出的模型的有效性。我们将发布促进未来研究的代码。

translated by 谷歌翻译

Sound-Guided Semantic Video Generation

Seung Hyun Lee , Gyeongrok Oh , Wonmin Byeon , Chanyoung Kim , Won Jeong Ryoo , Sang Ho Yoon , Hyunjun Cho , Jihyun Bae , Jinkyu Kim , Sangpil Kim

分类：计算机视觉 | 人工智能

2022-04-20

Stylegan最近的成功表明，预训练的Stylegan潜在空间对现实的视频生成很有用。但是，由于难以确定stylegan潜在空间的方向和幅度，因此视频中产生的运动通常在语义上没有意义。在本文中，我们提出了一个框架来通过利用多模式（声音图像文本）嵌入空间来生成现实视频。由于声音提供了场景的时间上下文，因此我们的框架学会了生成与声音一致的视频。首先，我们的声音反演模块将音频直接映射到Stylegan潜在空间中。然后，我们结合了基于夹子的多模式嵌入空间，以进一步提供视听关系。最后，提出的帧发电机学会在潜在空间中找到轨迹，该空间与相应的声音相干，并以层次结构方式生成视频。我们为声音引导的视频生成任务提供新的高分辨率景观视频数据集（视听对）。实验表明，我们的模型在视频质量方面优于最新方法。我们进一步显示了几种应用程序，包括图像和视频编辑，以验证我们方法的有效性。

translated by 谷歌翻译

VLG: General Video Recognition with Web Textual Knowledge

Jintao Lin , Zhaoyang Liu , Wenhai Wang , Wayne Wu , Limin Wang

分类：计算机视觉

2022-12-03

Video recognition in an open and dynamic world is quite challenging, as we need to handle different settings such as close-set, long-tail, few-shot and open-set. By leveraging semantic knowledge from noisy text descriptions crawled from the Internet, we focus on the general video recognition (GVR) problem of solving different recognition tasks within a unified framework. The core contribution of this paper is twofold. First, we build a comprehensive video recognition benchmark of Kinetics-GVR, including four sub-task datasets to cover the mentioned settings. To facilitate the research of GVR, we propose to utilize external textual knowledge from the Internet and provide multi-source text descriptions for all action classes. Second, inspired by the flexibility of language representation, we present a unified visual-linguistic framework (VLG) to solve the problem of GVR by an effective two-stage training paradigm. Our VLG is first pre-trained on video and language datasets to learn a shared feature space, and then devises a flexible bi-modal attention head to collaborate high-level semantic concepts under different settings. Extensive results show that our VLG obtains the state-of-the-art performance under four settings. The superior performance demonstrates the effectiveness and generalization ability of our proposed framework. We hope our work makes a step towards the general video recognition and could serve as a baseline for future research. The code and models will be available at https://github.com/MCG-NJU/VLG.

translated by 谷歌翻译

AssistSR: Affordance-centric Question-driven Video Segment Retrieval

Stan Weixian Lei , Yuxuan Wang , Dongxing Mao , Difei Gao , Mike Zheng Shou

分类：计算机视觉

2021-11-30

它仍然是一个管道梦想，电话和AR眼镜的AI助手可以帮助我们的日常生活来解决我们的问题，如“如何调整这款手表日期？”和“如何设置加热持续时间？（指向烤箱的同时）”。传统任务中使用的查询（即视频问题应答，视频检索，时刻定位）通常是有关的，并基于纯文本。相比之下，我们提出了一项名为Cometdancy的问题驱动视频段检索（AQVSR）的新任务。我们每个问题都是一个图像框文本查询，专注于我们日常生活中的物品，并期望从教学视频转录程序段的语料库中检索相关的答案段。为了支持对此AQVSR任务的研究，我们构建一个名为AssionSR的新数据集。我们设计新颖的准则来创造高质量样本。此数据集包含有关1K视频片段的1.4K多模态问题，来自各种日用物品的教学视频。为了解决AQVSR，我们开发了一个称为双重多模式编码器（DME）的简单但有效的模型，显着优于几种基线方法，同时仍然有大型未来改善空间。此外，我们提供了详细的消融分析。我们的代码和数据可以在https://github.com/stanlei52/aqvsr中获得。

translated by 谷歌翻译

Probing Visual-Audio Representation for Video Highlight Detection via Hard-Pairs Guided Contrastive Learning

Shuaicheng Li , Feng Zhang , Kunlin Yang , Lingbo Liu , Shinan Liu , Jun Hou , Shuai Yi

分类：计算机视觉

2022-06-21

视频突出显示检测是一个至关重要但充满挑战的问题，旨在识别未修剪视频中有趣的时刻。该任务的关键在于有效的视频表示形式共同追求两个目标，即\ textit {i.e。}，跨模式表示学习和精细元素特征歧视。在本文中，这两个挑战不仅通过丰富表示建模的模式内部和跨模式关系来应对，而且还以歧视性的方式塑造了这些特征。我们提出的方法主要利用模式内编码和交叉模式共发生编码来完全表示建模。具体而言，编码的模式内模式可以增强模态特征，并通过音频和视觉信号中的模式关系学习来抑制无关的模态。同时，跨模式的共同发生编码着重于同时模式间关系，并选择性地捕获了多模式之间的有效信息。从本地上下文中抽象的全局信息进一步增强了多模式表示。此外，我们使用硬对对比度学习（HPCL）方案扩大了特征嵌入的判别能力。进一步采用了硬对采样策略来开采硬样品，以改善HPCL中的特征歧视。与其他最新方法相比，在两个基准上进行的广泛实验证明了我们提出的方法的有效性和优势。

translated by 谷歌翻译

Video-Guided Curriculum Learning for Spoken Video Grounding

Yan Xia , Zhou Zhao , Shangwei Ye , Yang Zhao , Haoyuan Li , Yi Ren

分类：计算机视觉 | 自然语言处理

2022-09-01

在本文中，我们介绍了一项新任务，口语视频接地（SVG），旨在将口语描述中所需的视频片段定位。与使用文本相比，使用音频需要模型直接利用与原始语音视频相关的有用音素和音节。此外，我们在语音音频中随机添加环境声音，进一步增加了此任务的困难并更好地模拟真实应用程序。为了纠正歧视性音素并从嘈杂的音频中提取与视频相关的信息，我们在音频预训练过程中开发了一种新颖的视频指导课程学习（VGCL），可以利用重要的视觉感知来帮助理解口语语言并抑制外部噪音。考虑到推理期间，模型无法获得地面真实视频片段，我们设计了一种课程策略，该策略将输入视频从地面真相转移到预训练期间的整个视频内容。最后，该模型可以学习如何从整个视频剪辑中提取关键的视觉信息，以帮助了解口语。此外，我们基于ActivityNet收集了第一个大规模口语视频接地数据集，该数据集称为ActivityNet语音数据集。广泛的实验表明，我们提出的视频指导课程学习可以促进预训练过程以获得相互的音频编码器，从而大大促进了口头视频接地任务的性能。此外，我们证明，在嘈杂的声音的情况下，我们的模型优于将视频与ASR转录本扎根的方法，进一步证明了我们课程策略的有效性。

translated by 谷歌翻译

HTML版本