本文从未分割的烹饪视频中解决了食谱生成,该任务要求代理(1)提取完成盘子时提取关键事件,以及(2)为提取的事件生成句子。我们的任务类似于密集的视频字幕(DVC),该字幕旨在彻底检测事件并为其生成句子。但是,与DVC不同,在食谱生成中,食谱故事意识至关重要,模型应以正确的顺序输出适当数量的关键事件。我们分析了DVC模型的输出,并观察到,尽管(1)几个事件可作为食谱故事采用,但(2)此类事件的生成句子并未基于视觉内容。基于此,我们假设我们可以通过从DVC模型的输出事件中选择Oracle事件并为其重新生成句子来获得正确的配方。为了实现这一目标,我们提出了一种基于变压器的新型训练事件选择器和句子生成器的联合方法,用于从DVC模型的输出中选择Oracle事件并分别为事件生成接地句子。此外,我们通过包括成分来生成更准确的配方来扩展模型。实验结果表明,所提出的方法优于最先进的DVC模型。我们还确认,通过以故事感知方式对食谱进行建模,提出的模型以正确的顺序输出适当数量的事件。
translated by 谷歌翻译
密集的视频字幕旨在为未修剪视频中的一系列事件生成相应的文本描述,这些事件可以分为两个子任务,即事件检测和事件字幕。与以前分别解决这两个子任务的作品不同,最近的作品着重于增强两个子任务之间的任务间关联。但是,由于其特定于任务的解决方案的巨大差异,设计用于事件检测和字幕的任务间相互作用并不是微不足道的。此外,以前的事件检测方法通常会忽略事件之间的时间依赖性,从而导致事件冗余或不一致问题。在本文中,我们将事件检测定义为序列生成任务,并提出一个统一的预训练和微调框架,以自然增强事件检测和字幕之间的任务间关联。由于该模型将每个事件预测为以前的事件为上下文,因此事件之间的相互依赖性被充分利用,因此我们的模型可以检测到视频中更多样化和一致的事件。 ActivityNet数据集上的实验表明,我们的模型优于最新方法,并且在对大型视频文本数据进行预训练时,可以进一步提高。代码可在\ url {https://github.com/qiqang/uedvc}上获得。
translated by 谷歌翻译
密集的视频字幕(DVC)旨在生成多句子描述,以阐明视频中的多个事件,这是具有挑战性,需要的视觉一致性,疑惑一致性和语言多样性。现有方法主要生成各个视频段的标题,缺乏适应全局视觉上下文和快速发展的视觉内容和文本描述之间的渐进对齐,这导致冗余和拼接描述。在本文中,我们介绍了信息流的概念,以模拟跨视频序列和标题的渐进信息。通过设计跨模型信息流对准机制,捕获和对齐的视觉和文本信息流,其在事件/主题演化上以更丰富的上下文和动态赋予标题处理。基于跨模型信息流对准模块,我们进一步提出了DVCFlow框架,它由全球本地视觉编码器组成,用于捕获每个视频段的全局功能和本地特征,以及用于产生标题的预先培训的标题生成器。对流行的ActivityNet标题和Youcookii数据集的广泛实验表明,我们的方法显着优于竞争基础,并根据主题和客观测试产生更多人类文本。
translated by 谷歌翻译
Can we teach a robot to recognize and make predictions for activities that it has never seen before? We tackle this problem by learning models for video from text. This paper presents a hierarchical model that generalizes instructional knowledge from large-scale text corpora and transfers the knowledge to video. Given a portion of an instructional video, our model recognizes and predicts coherent and plausible actions multiple steps into the future, all in rich natural language. To demonstrate the capabilities of our model, we introduce the \emph{Tasty Videos Dataset V2}, a collection of 4022 recipes for zero-shot learning, recognition and anticipation. Extensive experiments with various evaluation metrics demonstrate the potential of our method for generalization, given limited video data for training models.
translated by 谷歌翻译
自动音频字幕是一项跨模式翻译任务,旨在为给定的音频剪辑生成自然语言描述。近年来,随着免费可用数据集的发布,该任务受到了越来越多的关注。该问题主要通过深度学习技术解决。已经提出了许多方法,例如研究不同的神经网络架构,利用辅助信息,例如关键字或句子信息来指导字幕生成,并采用了不同的培训策略,这些策略极大地促进了该领域的发展。在本文中,我们对自动音频字幕的已发表贡献进行了全面综述,从各种现有方法到评估指标和数据集。我们还讨论了公开挑战,并设想可能的未来研究方向。
translated by 谷歌翻译
本文研究了时间句子接地的多媒体问题(TSG),该问题旨在根据给定的句子查询准确地确定未修剪视频中的特定视频段。传统的TSG方法主要遵循自上而下或自下而上的框架,不是端到端。他们严重依靠耗时的后处理来完善接地结果。最近,提出了一些基于变压器的方法来有效地对视频和查询之间的细粒语义对齐进行建模。尽管这些方法在一定程度上达到了显着的性能,但它们同样将视频的框架和查询的单词视为用于关联的变压器输入,未能捕获其不同水平的粒度与独特的语义。为了解决这个问题,在本文中,我们提出了一种新型的等级局部 - 全球变压器(HLGT)来利用这种层次结构信息,并模拟不同粒度的不同级别的相互作用和不同的模态之间的相互作用,以学习更多细粒度的多模式表示。具体而言,我们首先将视频和查询分为单个剪辑和短语,以通过时间变压器学习其本地上下文(相邻依赖关系)和全局相关性(远程依赖)。然后,引入了全球本地变压器,以了解本地级别和全球级别语义之间的相互作用,以提供更好的多模式推理。此外,我们开发了一种新的跨模式周期一致性损失,以在两种模式之间实施相互作用,并鼓励它们之间的语义一致性。最后,我们设计了一个全新的跨模式平行变压器解码器,以集成编码的视觉和文本特征,以进行最终接地。在三个具有挑战性的数据集上进行了广泛的实验表明,我们提出的HLGT实现了新的最新性能。
translated by 谷歌翻译
Video paragraph captioning aims to generate a multi-sentence description of an untrimmed video with several temporal event locations in coherent storytelling. Following the human perception process, where the scene is effectively understood by decomposing it into visual (e.g. human, animal) and non-visual components (e.g. action, relations) under the mutual influence of vision and language, we first propose a visual-linguistic (VL) feature. In the proposed VL feature, the scene is modeled by three modalities including (i) a global visual environment; (ii) local visual main agents; (iii) linguistic scene elements. We then introduce an autoregressive Transformer-in-Transformer (TinT) to simultaneously capture the semantic coherence of intra- and inter-event contents within a video. Finally, we present a new VL contrastive loss function to guarantee learnt embedding features are matched with the captions semantics. Comprehensive experiments and extensive ablation studies on ActivityNet Captions and YouCookII datasets show that the proposed Visual-Linguistic Transformer-in-Transform (VLTinT) outperforms prior state-of-the-art methods on accuracy and diversity.
translated by 谷歌翻译
密集的视频字幕旨在使用视频的时间位置生成多个相关标题。以前的方法遵循复杂的“本地化 - 然后描述”方案,这些方案严重依赖于众多手工制作的组件。在本文中,通过将密集的标题产生作为设置预测任务,我们提出了一种具有并行解码(PDVC)的端到端密集视频字幕的简单且有效的框架。实际上,通过在变压器解码器顶部堆叠新提出的事件计数器,PDVC在对视频内容的整体理解下,将视频精确地将视频分成多个事件部分,这有效地提高了预测标题的相干性和可读性。与现有技术相比,PDVC具有多种吸引力优势:(1)不依赖于启发式非最大抑制或复发事件序列选择网络以除去冗余,PDVC直接产生具有适当尺寸的事件集; (2)与采用两级方案相比,我们并行地将事件查询的增强型表达送入本地化头和标题头,使这两个子任务深入相互关联,通过优化相互促进; (3)没有贝尔和吹口哨,对ActivityNet标题和YouScook2的广泛实验表明,PDVC能够产生高质量的标题结果,当其本地化准确性与它们相提并如此时,最先进的两级方法。代码可在https://github.com/ttengwang/pdvc提供。
translated by 谷歌翻译
我们介绍一种基于复杂事件(例如,分钟)可以分解成更简单的事件(例如,几秒钟)的前提的方法来学习无监督的语义视觉信息,并且这些简单事件在多个复杂事件中共享。我们将一个长视频分成短帧序列,以利用三维卷积神经网络提取它们的潜在表示。群集方法用于对产生视觉码本的组表示(即,长视频由集群标签给出的整数序列表示)。通过对码本条目编码共生概率矩阵来学习密集的表示。我们展示了该表示如何利用浓密视频标题任务的性能,只有视觉功能。由于这种方法,我们能够更换双模变压器(BMT)方法中的音频信号,并产生具有可比性的时间提案。此外,与Vanilla变压器方法中的我们的描述符连接视觉信号,与仅探索视觉功能的方法相比,在标题中实现最先进的性能,以及具有多模态方法的竞争性能。我们的代码可在https://github.com/valterlej/dvcusi获得。
translated by 谷歌翻译
本文对过去二十年来对自然语言生成(NLG)的研究提供了全面的审查,特别是与数据到文本生成和文本到文本生成深度学习方法有关,以及NLG的新应用技术。该调查旨在(a)给出关于NLG核心任务的最新综合,以及该领域采用的建筑;(b)详细介绍各种NLG任务和数据集,并提请注意NLG评估中的挑战,专注于不同的评估方法及其关系;(c)强调一些未来的强调和相对近期的研究问题,因为NLG和其他人工智能领域的协同作用而增加,例如计算机视觉,文本和计算创造力。
translated by 谷歌翻译
最近,几种方法探索了视频中对象的检测和分类,以便以显着的结果执行零射击动作识别。在这些方法中,类对象关系用于将视觉模式与语义侧信息相关联,因为这些关系也倾向于出现在文本中。因此,Word Vector方法将在其潜在的陈述中反映它们。灵感来自这些方法,并通过视频字幕来描述不仅具有一组对象但具有上下文信息的事件的能力,我们提出了一种方法,其中录像模型称为观察者,提供不同和互补的描述性句子。我们证明,在ZSAR中,代表具有描述性句子的视频而不是深度特征是可行的,并且自然而然地减轻了域适应问题,因为我们在UCF101数据集中达到了最先进的(SOTA)性能,并且在HMDB51上竞争性能他们的训练集。我们还展示了Word Vectors不适合构建我们描述的语义嵌入空间。因此,我们建议用从互联网上获取的搜索引擎获取的文档提取的句子代表课程,而没有任何人类评估描述的描述。最后,我们构建了在多个文本数据集上预先培训的基于BERT的eMbedder的共享语义空间。我们表明,这种预训练对于弥合语义差距至关重要。对于这两种类型的信息,视觉和语义,对此空间的投影很简单,因为它们是句子,使得在此共享空间中的最近邻居规则能够分类。我们的代码可在https://github.com/valterlej/zsarcap上找到。
translated by 谷歌翻译
Recent video+language datasets cover domains where the interaction is highly structured, such as instructional videos, or where the interaction is scripted, such as TV shows. Both of these properties can lead to spurious cues to be exploited by models rather than learning to ground language. In this paper, we present GrOunded footbAlL commentaries (GOAL), a novel dataset of football (or `soccer') highlights videos with transcribed live commentaries in English. As the course of a game is unpredictable, so are commentaries, which makes them a unique resource to investigate dynamic language grounding. We also provide state-of-the-art baselines for the following tasks: frame reordering, moment retrieval, live commentary retrieval and play-by-play live commentary generation. Results show that SOTA models perform reasonably well in most tasks. We discuss the implications of these results and suggest new tasks for which GOAL can be used. Our codebase is available at: https://gitlab.com/grounded-sport-convai/goal-baselines.
translated by 谷歌翻译
连接视觉和语言在生成智能中起着重要作用。因此,已经致力于图像标题的大型研究工作,即用句法和语义有意义的句子描述图像。从2015年开始,该任务通常通过由Visual Encoder组成的管道和文本生成的语言模型来解决任务。在这些年来,两种组件通过对象区域,属性,介绍多模态连接,完全关注方法和伯特早期融合策略的利用而显着发展。但是,无论令人印象深刻的结果,图像标题的研究还没有达到结论性答案。这项工作旨在提供图像标题方法的全面概述,从视觉编码和文本生成到培训策略,数据集和评估度量。在这方面,我们量化地比较了许多相关的最先进的方法来确定架构和培训策略中最有影响力的技术创新。此外,讨论了问题的许多变体及其开放挑战。这项工作的最终目标是作为理解现有文献的工具,并突出显示计算机视觉和自然语言处理的研究领域的未来方向可以找到最佳的协同作用。
translated by 谷歌翻译
视频标题旨在根据内容生成自然语言描述,其中表示学习起到至关重要的作用。现有方法主要通过对地理文本的生成标题的字词比较来在监督学习框架内开发,而不会完全利用语言语义。在这项工作中,我们提出了一个分层模块化网络,在生成字幕之前从三个级别桥接视频表示和语言语义。特别是,层次结构由以下组成:(i)实体级别,其突出显示最有可能在字幕中提及的对象。 (ii)谓词级别,它学习在突出显示的对象上调节的行动,并由标题中的谓词进行监督。 (iii)句子级别,了解全局语义表示,并受到整个标题的监督。每个级别由一个模块实现。广泛的实验结果表明,该方法对两个广泛使用的基准测试的最先进模型有利地表现出:MSVD 104.0%和苹果酒评分中的MSR-VTT 51.5%。
translated by 谷歌翻译
文本到图像合成的最新进展导致了较大的经过验证的变压器,具有出色的能力,可以从给定文本产生可视化。但是,这些模型不适合专门的任务,例如故事可视化,该任务要求代理商制作一系列图像,给定相应的字幕序列,形成叙述。此外,我们发现故事可视化任务无法适应新叙事中看不见的情节和角色的概括。因此,我们首先提出了故事延续的任务,其中生成的视觉故事是在源图像上进行的,从而可以更好地对具有新角色的叙述进行更好的概括。然后,我们使用特定于(a)顺序图像生成的任务特定模块和(b)从初始帧复制相关元素的任务特定模块来增强或“复古”文本对图像合成模型。然后,我们探讨了预训练模型的全模型芬太尼以及对参数适应的及时调整。我们在两个现有数据集(PororoSV和FlintStonessV)上评估了我们的方法storydall-e,并介绍了从视频吸引数据集收集的新数据集DIDEMOSV。我们还基于生成的对抗网络(GAN)开发了一个模型故事游戏,以进行故事的延续,并将其与StoryDall-E模型进行比较,以展示我们方法的优势。我们表明,我们的复古拟合方法优于基于GAN的模型,用于故事延续,并促进从源图像中复制视觉元素,从而改善了生成的视觉故事中的连续性。最后,我们的分析表明,经过审计的变压器努力理解包含几个角色的叙述。总体而言,我们的工作表明,可以验证的文本对图像合成模型可以适应复杂和低资源的任务,例如故事延续。
translated by 谷歌翻译
视频字幕的规范方法决定了用于从离线提取的密集视频特征学习的标题生成模型。这些特征提取器通常在以固定帧速率采样的视频帧上操作,并且通常在图像/视频理解任务上培训,而不适用于视频标题数据。在这项工作中,我们展示了Swinbert,一种用于视频字幕的基于端到端的变换器的模型,它将视频帧贴片直接作为输入,并输出自然语言描述。我们的方法代替利用多个2D / 3D特征提取器,该方法采用视频变压器来编码可适应可变长度的视频输入,而无需专用设计,可以针对不同的帧速率进行专用设计。基于该模型架构,我们表明视频标题可以从更密集地采样的视频帧中受益匪浅,而不是以前的成功,用于视频和语言理解任务的稀疏采样视频帧(例如,视频问题应答)。此外,为了避免连续视频帧中固有的冗余,我们建议通过更好的远程视频序列建模来自适应地学习稀疏的注意掩模并优化任务特定性能改进。通过对5个视频字幕数据集的广泛实验,我们展示了Swinbert通过较大的余量来实现对以前的方法的整体性能改进。此外,学习的稀疏注意力掩模将限制推向新的技术,可以在不同的视频长度和不同的数据集之间传输。
translated by 谷歌翻译
视频文本检索一直是多模式研究中的至关重要和基本任务。大型多模式对比预训练的发展,视频文本检索的开发已大大促进,这主要侧重于粗粒或细粒对比。然而,在先前的研究中很少探索过跨粒度的对比,这是粗粒表示和细粒度表示之间的对比。与细粒度或粗粒的对比相比,交叉粒度对比度计算了粗粒粒度特征与每个细粒特征之间的相关性,并且能够过滤出不必要的细颗粒特征,这些特征由粗粒度的特征引导相似性计算,从而提高了检索的准确性。为此,本文提出了一种新型的多透明对比模型,即X-CLIP,用于视频文本检索。但是,另一个挑战在于相似性聚集问题,该问题旨在将细粒度和跨粒度相似性矩阵与实例级别的相似性汇总。为了应对这一挑战,我们提出了对相似性矩阵(AOSM)模块的关注,以使模型重点放在基本帧和单词之间的对比度上,从而降低了不必要的帧和单词对检索结果的影响。 X-CLIP具有多透明的对比度和提议的AOSM模块,在五个广泛使用的视频文本检索数据集上取得了出色的性能,包括MSR-VTT(49.3 R@1),MSVD(50.4 R@1),LSMDC(26.11)(26.1 r@1),didemo(47.8 r@1)和ActivityNet(46.2 r@1)。它的表现优于先前的最先前, +6.3%, +6.6%, +11.1%, +6.7%, +3.8%的相对改善对这些基准测试,这表明了多透明的对比度和AOSM的优势。
translated by 谷歌翻译
每天都在社交渠道的普及时上传视频的海洋;因此,通过用户文本查询检索最相关的视频内容起着更为重要的作用。大多数方法仅考虑一个联合嵌入空间,而无需考虑每种模态的局部结构。其他一些方法考虑了分别由全球和局部特征组成的多个嵌入空间,忽略了丰富的模式间相关性。我们提出了一种新型的专家变压器罗马混合物,将文本和视频分为三个层次。空间上下文,时间上下文和对象上下文的角色。我们利用一种基于变压器的注意机制用充分的专家来完全利用全球和局部水平的视觉和文本嵌入,以考虑模式间和结构的相关性。结果表明,我们的方法优于YouCook2和MSR-VTT数据集上的最新方法,但给定相同的视觉主链而无需预训练。最后,我们进行了广泛的消融研究,以阐明我们的设计选择。
translated by 谷歌翻译
Automated audio captioning is a cross-modal translation task for describing the content of audio clips with natural language sentences. This task has attracted increasing attention and substantial progress has been made in recent years. Captions generated by existing models are generally faithful to the content of audio clips, however, these machine-generated captions are often deterministic (e.g., generating a fixed caption for a given audio clip), simple (e.g., using common words and simple grammar), and generic (e.g., generating the same caption for similar audio clips). When people are asked to describe the content of an audio clip, different people tend to focus on different sound events and describe an audio clip diversely from various aspects using distinct words and grammar. We believe that an audio captioning system should have the ability to generate diverse captions, either for a fixed audio clip, or across similar audio clips. To this end, we propose an adversarial training framework based on a conditional generative adversarial network (C-GAN) to improve diversity of audio captioning systems. A caption generator and two hybrid discriminators compete and are learned jointly, where the caption generator can be any standard encoder-decoder captioning model used to generate captions, and the hybrid discriminators assess the generated captions from different criteria, such as their naturalness and semantics. We conduct experiments on the Clotho dataset. The results show that our proposed model can generate captions with better diversity as compared to state-of-the-art methods.
translated by 谷歌翻译
通用视频摘要是一种传播全部故事并具有最重要的场景的视频的销钉版本。然而,视频中场景的重要性通常是主观的,并且用户应该可以选择通过使用自然语言来定制摘要来指定对它们重要的内容。此外,用于全自动通用摘要的现有模型没有利用可用的语言模型,可以作为显着性的有效性。这项工作引入了剪辑 - 它,一个框架,用于解决通用和查询的视频摘要,通常在文献中单独接近。我们提出了一种语言引导的多模式变压器,该变压器学习基于它们相对于彼此的重要性以及与用户定义的查询(用于查询集中的摘要)或自动生成的密集视频字幕的关联(用于泛型视频摘要)。我们的模型可以通过培训延伸到无监督的环境,而没有地理监督。我们以标准视频摘要数据集(TVSUM和SUMME)和查询视频摘要数据集(QFVS)在标准视频摘要数据集(TVSUM和SUMPE)上的重大边际而先前的工作。特别是,我们在转移环境中取得了大量的改进,证明了我们的方法的强大泛化能力。
translated by 谷歌翻译