从给定自然语言(NL)用户查询的视频中检测自定义时刻和亮点是一个重要而是研究过的主题。追求这个方向的挑战之一是缺乏注释数据。要解决此问题,我们介绍了基于查询的视频亮点(QVHighlights)数据集。它由超过10,000个YouTube视频组成,涵盖了各种主题,从日常活动,在Lifestyle VLog视频中旅行到新闻视频中的社会和政治活动。数据集中的每个视频都注释:(1)人类写的自由表格NL查询,(2)视频W.R.T中的相关时刻。查询和(3)所有查询相关剪辑的五点比例显着分数。此综合注释使我们能够开发和评估检测相关时刻的系统以及为不同灵活的用户查询的突出亮点。我们还为此任务提供了一个强大的基线,矩DETR,一个变压器编码器 - 解码器模型,即视图检索作为直接设置预测问题,将提取的视频和查询表示作为输入和预测时刻坐标和显着分数结束 - 结尾。虽然我们的模型不利用任何人,但我们表明它与经验丰富的架构相比,它表现得很竞争。使用ASR标题的弱预测预测,动量基本上显着优于先前的方法。最后,我们展示了几个措施和可视化的力矩。数据和代码在https://github.com/jayleicn/moment_detr上公开使用
translated by 谷歌翻译
For the majority of the machine learning community, the expensive nature of collecting high-quality human-annotated data and the inability to efficiently finetune very large state-of-the-art pretrained models on limited compute are major bottlenecks for building models for new tasks. We propose a zero-shot simple approach for one such task, Video Moment Retrieval (VMR), that does not perform any additional finetuning and simply repurposes off-the-shelf models trained on other tasks. Our three-step approach consists of moment proposal, moment-query matching and postprocessing, all using only off-the-shelf models. On the QVHighlights benchmark for VMR, we vastly improve performance of previous zero-shot approaches by at least 2.5x on all metrics and reduce the gap between zero-shot and state-of-the-art supervised by over 74%. Further, we also show that our zero-shot approach beats non-pretrained supervised models on the Recall metrics and comes very close on mAP metrics; and that it also performs better than the best pretrained supervised model on shorter moments. Finally, we ablate and analyze our results and propose interesting future directions.
translated by 谷歌翻译
暂时视频接地(TVG)旨在根据自然语言查询将时间段定位在未修饰的视频中。在这项工作中,我们提出了一个名为TVG探索和匹配的新范式,该范式无缝地统一了两种TVG方法:无提案和基于提案的方法;前者探索了直接查找细分市场的搜索空间,后者将预定义的提案与地面真相相匹配。为了实现这一目标,我们将TVG视为一个设定的预测问题,并设计了可端到端的可训练的语言视频变压器(LVTR),该视频变压器(LVTR)利用了丰富的上下文化和平行解码的建筑优势来设置预测。总体培训时间表与两次扮演不同角色的关键损失,即时间定位损失和设定指导损失的平衡。这两个损失允许每个建议可以回归目标细分并确定目标查询。更具体地说,LVTR首先探索搜索空间以使初始建议多样化,然后将建议与相应的目标匹配,以细粒度的方式对齐它们。探索和匹配方案成功地结合了两种互补方法的优势,而无需将先验知识(例如,非最大抑制)编码到TVG管道中。结果,LVTR在两个TVG基准(ActivityCaptions and Charades-sta)上设定了新的最新结果,其推理速度是两倍。代码可在https://github.com/sangminwoo/explore-and-match上找到。
translated by 谷歌翻译
它仍然是一个管道梦想,电话和AR眼镜的AI助手可以帮助我们的日常生活来解决我们的问题,如“如何调整这款手表日期?”和“如何设置加热持续时间?(指向烤箱的同时)”。传统任务中使用的查询(即视频问题应答,视频检索,时刻定位)通常是有关的,并基于纯文本。相比之下,我们提出了一项名为Cometdancy的问题驱动视频段检索(AQVSR)的新任务。我们每个问题都是一个图像框文本查询,专注于我们日常生活中的物品,并期望从教学视频转录程序段的语料库中检索相关的答案段。为了支持对此AQVSR任务的研究,我们构建一个名为AssionSR的新数据集。我们设计新颖的准则来创造高质量样本。此数据集包含有关1K视频片段的1.4K多模态问题,来自各种日用物品的教学视频。为了解决AQVSR,我们开发了一个称为双重多模式编码器(DME)的简单但有效的模型,显着优于几种基线方法,同时仍然有大型未来改善空间。此外,我们提供了详细的消融分析。我们的代码和数据可以在https://github.com/stanlei52/aqvsr中获得。
translated by 谷歌翻译
视频接地旨在通过给定语言查询,本地化未经监控的视频中的相应视频时刻。现有方法通常以间接方式解决此任务,通过将其作为提案和匹配或融合和检测问题。解决这些替代问题通常需要在培训和手工制作的近重复结果中进行复杂的标签分配。同时,现有的作品通常专注于具有单句的稀疏视频接地,作为输入可能导致由于其不清晰的描述而产生模糊的本地化。在本文中,我们通过将段落作为输入同时定位多个时刻来解决密集视频接地的新问题。从视频接地的视角是语言条件回归,我们通过重新拟合变压器 - 相似的架构(PRVG)来提出端到端的并行解码范式。我们的PRVG中的关键设计是使用语言作为查询,并基于语言调制的可视表示直接回归矩界限。由于其简单设计,我们的PRVG框架可以应用于不同的测试方案(稀疏或密集的接地),并允许无需任何后处理技术的有效推理。此外,我们设计了强大的提案级注意力损失,以指导PRVG的培训,这不变于时刻持续时间,并有助于模型收敛。我们对ActivityNet标题和炸玉米饼的两个视频接地基准进行实验,展示了我们的PRVG可以显着优于以前的方法。我们还进行深入的研究,以研究并行回归范例对视频接地的有效性。
translated by 谷歌翻译
寻找特定任务说明的YouTube用户可能会花费很长时间浏览内容,以寻找与他们需求相匹配的正确视频。创建视觉摘要(视频的删节版本)为观众提供了快速概述,并大大减少了搜索时间。在这项工作中,我们专注于总结教学视频,这​​是视频摘要的探索领域。与通用视频相比,可以将教学视频解析为语义上有意义的细分,这些细分与所示任务的重要步骤相对应。现有的视频摘要数据集依靠手动框架级注释,使其主观且大小有限。为了克服这一点,我们首先通过利用两个关键假设来自动为教学视频语料库生成伪摘要:(i)相关步骤可能会出现在相同任务(任务相关性)的多个视频中,并且(ii)它们更重要。可能由示威者口头描述(跨模式显着)。我们提出了一个教学视频摘要网络,该网络结合了上下文感知的时间视频编码器和段评分变压器。使用伪摘要作为弱监督,我们的网络为仅给出视频和转录语音的教学视频构建了视觉摘要。为了评估我们的模型,我们通过刮擦包含视频演示的Wikihow文章和步骤的视觉描绘,从而收集了高质量的测试集,即Wikihow摘要,从而使我们能够获得地面真实性摘要。我们的表现优于几个基线和这个新基准的最先进的视频摘要模型。
translated by 谷歌翻译
我们介绍了空间本地化叙述中的视频中的任务。我们的方法的关键是能够学会在与随附的叙述的视频中的大型视频中对自我监督进行空间地定位与自我监督的互动。为实现这一目标,我们提出了一种多层跨模型关注网络,可以在培训期间有效优化对比损失。我们介绍了一种分割的策略,可以通过视觉和自然语言方式计算和中间模态注意力之间的交替,这允许通过直接对比两种方式的表示来实现有效的培训。我们展示了我们对HOWTO100M教学数据集的自我训练的方法的有效性,并在YouCook2 DataSet中的本地化描述交互的新收集数据集上进行评估。我们展示了我们的方法优于替代基准,包括浅薄的共同关注和完全跨越的关注。我们还将我们的方法应用于在Flickr30k上的弱监管下的图像中的接地短语,并显示堆叠多个注意层是有效的,并且当与对区域丢失相结合时,在召回召回和指向时达到最先进的艺术状态手准确性。
translated by 谷歌翻译
近期和越来越越来越多的视频 - 语言研究的兴趣已经推动了大规模数据集的开发,可实现数据密集型机器学习技术。相比之下,在评估这些数据集的适应性时,已经进行了有限的努力进行视频 - 语言接地任务。最近的作品已经开始发现这些数据集中的重大限制,这表明最先进的技术通常会过度地覆盖到隐藏的数据集偏差。在这项工作中,我们呈现MAD(电影音频描述),这是一种新颖的基准,从扩充现有视频数据集的范式,其中包含文本注释,并专注于爬行和对齐主流电影的可用音频描述。 MAD包含超过384,000个自然语言句子,该句子接地为超过1,200小时的视频,并且在视频 - 语言接地数据集中展示目前诊断的偏差显着减少。疯狂的收集策略使新颖且更具挑战性的视频 - 语言接地版本,其中短时间时刻(通常秒长)必须在多样化的长型视频中准确地接地,可以持续长达三个小时。
translated by 谷歌翻译
Learning text-video embeddings usually requires a dataset of video clips with manually provided captions. However, such datasets are expensive and time consuming to create and therefore difficult to obtain on a large scale. In this work, we propose instead to learn such embeddings from video data with readily available natural language annotations in the form of automatically transcribed narrations. The contributions of this work are three-fold. First, we introduce HowTo100M: a large-scale dataset of 136 million video clips sourced from 1.22M narrated instructional web videos depicting humans performing and describing over 23k different visual tasks. Our data collection procedure is fast, scalable and does not require any additional manual annotation. Second, we demonstrate that a text-video embedding trained on this data leads to state-ofthe-art results for text-to-video retrieval and action localization on instructional video datasets such as YouCook2 or CrossTask. Finally, we show that this embedding transfers well to other domains: fine-tuning on generic Youtube videos (MSR-VTT dataset) and movies (LSMDC dataset) outperforms models trained on these datasets alone. Our dataset, code and models are publicly available [1]. * Equal contribution.
translated by 谷歌翻译
视频瞬间检索旨在找到给定自然语言查询描述的片刻的开始和结束时间戳(视频的一部分)。全面监督的方法需要完整的时间边界注释才能获得有希望的结果,这是昂贵的,因为注释者需要关注整个时刻。弱监督的方法仅依赖于配对的视频和查询,但性能相对较差。在本文中,我们仔细研究了注释过程,并提出了一种称为“ Glance注释”的新范式。该范式需要一个只有一个随机框架的时间戳,我们将其称为“目光”,在完全监督的对应物的时间边界内。我们认为这是有益的,因为与弱监督相比,添加了琐碎的成本,还提供了更大的潜力。在一眼注释设置下,我们提出了一种基于对比度学习的一眼注释(VIGA),称为视频力矩检索的方法。 Viga将输入视频切成片段,并在剪辑和查询之间形成对比,其中一眼指导的高斯分布重量被分配给所有夹子。我们的广泛实验表明,VIGA通过很大的边距较小的弱监督方法获得了更好的结果,甚至可以在某些情况下与完全监督的方法相媲美。
translated by 谷歌翻译
We introduce LaViLa, a new approach to learning video-language representations by leveraging Large Language Models (LLMs). We repurpose pre-trained LLMs to be conditioned on visual input, and finetune them to create automatic video narrators. Our auto-generated narrations offer a number of advantages, including dense coverage of long videos, better temporal synchronization of the visual information and text, and much higher diversity of text. The video-text embedding learned contrastively with these additional auto-generated narrations outperforms the previous state-of-the-art on multiple first-person and third-person video tasks, both in zero-shot and finetuned setups. Most notably, LaViLa obtains an absolute gain of 10.1% on EGTEA classification and 5.9% Epic-Kitchens-100 multi-instance retrieval benchmarks. Furthermore, LaViLa trained with only half the narrations from the Ego4D dataset outperforms baseline models trained on the full set, and shows positive scaling behavior on increasing pre-training data and model size.
translated by 谷歌翻译
声音事件检测(SED)在监控,视频索引等中的广泛应用程序上获得了越来越长的关注。SED中的现有模型主要产生帧级预测,将其转换为序列多标签分类问题。基于帧的模型的一个关键问题是它追求最佳的帧级预测而不是最佳的事件级预测。此外,它需要后处理,无法以端到端的方式培训。本文首先介绍了一维检测变压器(1D-DETR),受到图像对象检测的检测变压器的启发。此外,鉴于SED的特征,音频查询分支和用于微调的一对多匹配策略将模型添加到1D-DETR以形成声音事件检测变压器(SEDT)。据我们所知,Sedt是第一个基于事件和最终的SED模型。实验在城市 - SED数据集和DCES2019任务4数据集上进行,两者都表明席克可以实现竞争性能。
translated by 谷歌翻译
第一人称视频在其持续环境的背景下突出了摄影师的活动。但是,当前的视频理解方法是从短视频剪辑中的视觉特征的原因,这些视频片段与基础物理空间分离,只捕获直接看到的东西。我们提出了一种方法,该方法通过学习摄影师(潜在看不见的)本地环境来促进以人为中心的环境的了解来链接以自我为中心的视频和摄像机随着时间的推移而张开。我们使用来自模拟的3D环境中的代理商的视频进行训练,在该环境中,环境完全可以观察到,并在看不见的环境的房屋旅行的真实视频中对其进行测试。我们表明,通过将视频接地在其物理环境中,我们的模型超过了传统的场景分类模型,可以预测摄影师所处的哪个房间(其中帧级信息不足),并且可以利用这种基础来定位与环境相对应的视频瞬间 - 中心查询,优于先验方法。项目页面:http://vision.cs.utexas.edu/projects/ego-scene-context/
translated by 谷歌翻译
我们提出了块茎:一种简单的时空视频动作检测解决方案。与依赖于离线演员检测器或手工设计的演员位置假设的现有方法不同,我们建议通过同时执行动作定位和识别从单个表示来直接检测视频中的动作微管。块茎学习一组管芯查询,并利用微调模块来模拟视频剪辑的动态时空性质,其有效地加强了与在时空空间中的演员位置假设相比的模型容量。对于包含过渡状态或场景变更的视频,我们提出了一种上下文意识的分类头来利用短期和长期上下文来加强行动分类,以及用于检测精确的时间动作程度的动作开关回归头。块茎直接产生具有可变长度的动作管,甚至对长视频剪辑保持良好的结果。块茎在常用的动作检测数据集AVA,UCF101-24和JHMDB51-21上优于先前的最先进。
translated by 谷歌翻译
The little girl jumps back up after falling. Figure 1: We consider localizing moments in video with natural language and demonstrate that incorporating local and global video features is important for this task. To train and evaluate our model, we collect the Distinct Describable Moments (DiDeMo) dataset which consists of over 40,000 pairs of localized video moments and corresponding natural language.
translated by 谷歌翻译
视频时刻检索旨在搜索与给定语言查询最相关的那一刻。然而,该社区中的大多数现有方法通常需要季节边界注释,这昂贵且耗时地标记。因此,最近仅通过使用粗略视频级标签来提出弱监督的方法。尽管有效,但这些方法通常是独立处理候选人的候选人,同时忽略了不同时间尺度中候选者之间的自然时间依赖性的关键问题。要应对这个问题,我们提出了一种多尺度的2D表示学习方法,用于弱监督视频时刻检索。具体地,我们首先构造每个时间刻度的二维图以捕获候选者之间的时间依赖性。该地图中的两个维度表示这些候选人的开始和结束时间点。然后,我们使用学习卷积神经网络从每个刻度变化的地图中选择Top-K候选。通过新设计的时刻评估模块,我们获得所选候选人的对齐分数。最后,标题和语言查询之间的相似性被用作进一步培训候选者选择器的监督。两个基准数据集Charades-STA和ActivityNet标题的实验表明,我们的方法能够实现最先进的结果。
translated by 谷歌翻译
时间动作检测(TAD)旨在确定未修剪视频中每个动作实例的语义标签和边界。先前的方法通过复杂的管道来解决此任务。在本文中,我们提出了一个具有简单集的预测管道的端到端时间动作检测变压器(TADTR)。给定一组名为“动作查询”的可学习嵌入,Tadtr可以从每个查询的视频中自适应提取时间上下文,并直接预测动作实例。为了适应TAD的变压器,我们提出了三个改进,以提高其所在地意识。核心是一个时间可变形的注意模块,在视频中有选择地参加一组稀疏的密钥片段。片段的完善机制和动作回归头旨在完善预测实例的边界和信心。 TADTR需要比以前的检测器更低的计算成本,同时保留了出色的性能。作为一个独立的检测器,它在Thumos14(56.7%地图)和HACS段(32.09%地图)上实现了最先进的性能。结合一个额外的动作分类器,它在ActivityNet-1.3上获得了36.75%的地图。我们的代码可在\ url {https://github.com/xlliu7/tadtr}上获得。
translated by 谷歌翻译
当前的文本到视频检索方法(T2VR)经过培训和测试,并在视频捕获方向的数据集(例如MSVD,MSR-VTT和VATEX)上进行了测试。这些数据集的一个关键属性是,假定视频在短时间内被暂时预先修剪,而提供的字幕很好地描述了视频内容的要旨。因此,对于给定的配对视频和标题,该视频应该与标题完全相关。但是,实际上,由于查询尚不清楚,因此预处理的视频剪辑可能不包含足够的内容来完全满足查询。这表明文学与现实世界之间存在差距。为了填补空白,我们在本文中提出了一个新颖的T2VR子任务,称为部分相关的视频检索(PRVR)。未修剪的视频被认为是部分相关的W.R.T.给定的文本查询是否包含与查询相关的时刻。 PRVR旨在从大量未修剪视频中检索此类相关视频。 PRVR与单个视频时刻检索和视频语料库时刻的检索有所不同,因为后两个是要检索时刻而不是未修剪的视频。我们将PRVR作为多个实例学习(MIL)问题,同时将视频视为一袋视频片段和一袋视频帧。剪辑和帧表示不同时间尺度的视频内容。我们提出了一个多尺度的相似性学习(MS-SL)网络,该网络共同学习PRVR的剪辑规模和框架尺度相似性。在三个数据集(TVR,ActivityNet字幕和Charades-STA)上进行了广泛的实验,证明了该方法的可行性。我们还表明,我们的方法可用于改善视频语料库时刻的检索。
translated by 谷歌翻译
密集的视频字幕旨在使用视频的时间位置生成多个相关标题。以前的方法遵循复杂的“本地化 - 然后描述”方案,这些方案严重依赖于众多手工制作的组件。在本文中,通过将密集的标题产生作为设置预测任务,我们提出了一种具有并行解码(PDVC)的端到端密集视频字幕的简单且有效的框架。实际上,通过在变压器解码器顶部堆叠新提出的事件计数器,PDVC在对视频内容的整体理解下,将视频精确地将视频分成多个事件部分,这有效地提高了预测标题的相干性和可读性。与现有技术相比,PDVC具有多种吸引力优势:(1)不依赖于启发式非最大抑制或复发事件序列选择网络以除去冗余,PDVC直接产生具有适当尺寸的事件集; (2)与采用两级方案相比,我们并行地将事件查询的增强型表达送入本地化头和标题头,使这两个子任务深入相互关联,通过优化相互促进; (3)没有贝尔和吹口哨,对ActivityNet标题和YouScook2的广泛实验表明,PDVC能够产生高质量的标题结果,当其本地化准确性与它们相提并如此时,最先进的两级方法。代码可在https://github.com/ttengwang/pdvc提供。
translated by 谷歌翻译
在本报告中,我们向CVPR 2022中的EGO4D自然语言查询(NLQ)挑战介绍了Reler@zju-alibaba提交。给定视频剪辑和文本查询,该挑战的目标是确定视频的时间时刻剪辑可以获得查询的答案。为了解决这项任务,我们提出了一个多尺度的跨模式变压器和视频框架级对比度损失,以完全发现语言查询与视频剪辑之间的相关性。此外,我们提出了两种数据增强策略,以增加培训样本的多样性。实验结果证明了我们方法的有效性。最后的提交在排行榜上排名第一。
translated by 谷歌翻译