Automated audio captioning is a cross-modal translation task for describing the content of audio clips with natural language sentences. This task has attracted increasing attention and substantial progress has been made in recent years. Captions generated by existing models are generally faithful to the content of audio clips, however, these machine-generated captions are often deterministic (e.g., generating a fixed caption for a given audio clip), simple (e.g., using common words and simple grammar), and generic (e.g., generating the same caption for similar audio clips). When people are asked to describe the content of an audio clip, different people tend to focus on different sound events and describe an audio clip diversely from various aspects using distinct words and grammar. We believe that an audio captioning system should have the ability to generate diverse captions, either for a fixed audio clip, or across similar audio clips. To this end, we propose an adversarial training framework based on a conditional generative adversarial network (C-GAN) to improve diversity of audio captioning systems. A caption generator and two hybrid discriminators compete and are learned jointly, where the caption generator can be any standard encoder-decoder captioning model used to generate captions, and the hybrid discriminators assess the generated captions from different criteria, such as their naturalness and semantics. We conduct experiments on the Clotho dataset. The results show that our proposed model can generate captions with better diversity as compared to state-of-the-art methods.
translated by 谷歌翻译
自动音频字幕是一项跨模式翻译任务,旨在为给定的音频剪辑生成自然语言描述。近年来,随着免费可用数据集的发布,该任务受到了越来越多的关注。该问题主要通过深度学习技术解决。已经提出了许多方法,例如研究不同的神经网络架构,利用辅助信息,例如关键字或句子信息来指导字幕生成,并采用了不同的培训策略,这些策略极大地促进了该领域的发展。在本文中,我们对自动音频字幕的已发表贡献进行了全面综述,从各种现有方法到评估指标和数据集。我们还讨论了公开挑战,并设想可能的未来研究方向。
translated by 谷歌翻译
图像字幕模型通常是根据人体注释的地面真实字幕训练的,该字幕可能会产生准确但通用的字幕。为了提高字幕模型的独特性,我们首先提出了一系列使用大规模视觉语言预训练模型剪辑来评估标题的独特性。然后,我们提出了一种简单有效的训练策略,该策略通过在相似图像组中进行比较来训练模型。我们对各种现有模型进行了广泛的实验,以证明我们的策略的广泛适用性以及基于公制的结果与人类评估的一致性。通过将最佳模型的性能与现有的最新模型进行比较,我们声称我们的模型实现了针对独特性目标的新最先进的。
translated by 谷歌翻译
描述使用自然语言的图像被广泛称为图像标题,这是由于计算机视觉和自然语言生成技术的发展而达成了一致的进展。虽然传统的标题模型基于流行度量的高精度,即BLEU,苹果酒和香料,探索了标题与其他类似图像中的标题的能力。为了产生独特的标题,一些先驱采用对比学习或重新加权地面真理标题,其侧重于一个输入图像。然而,忽略了类似图像组中对象之间的关系(例如,相同专辑中的项目或属性或细粒度事件中的物品)。在本文中,我们使用基于组的独特标题模型(Gdiscap)来提高图像标题的独特性,其将每个图像与一个类似的组中的其他图像进行比较,并突出显示每个图像的唯一性。特别是,我们提出了一种基于组的内存注意力(GMA)模块,其存储在图像组中是唯一的对象特征(即,与其他图像中的对象的低相似性)。生成字幕时突出显示这些唯一的对象功能,从而产生更有独特的标题。此外,选择地面标题中的独特单词来监督语言解码器和GMA。最后,我们提出了一种新的评估度量,独特的单词率(Diswordrate)来测量标题的独特性。定量结果表明,该方法显着提高了几种基线模型的独特性,并实现了精度和独特性的最先进的性能。用户学习的结果与定量评估一致,并证明了新的公制Diswordrate的合理性。
translated by 谷歌翻译
自动音频标题(AAC)是一种跨模型翻译任务,旨在使用自然语言来描述音频剪辑的内容。如在DCEAD 2021挑战的任务6所接收的提交所示,这一问题已受到越来越兴趣的社区。现有的AAC系统通常基于编码器解码器架构,其中音频信号被编码为潜像表示,并与其对应的文本描述对齐,则使用解码器来生成标题。然而,AAC系统的培训经常遇到数据稀缺问题,这可能导致不准确的表示和音频文本对齐。为了解决这个问题,我们提出了一种名为对比损耗的新型编码器解码器框架(CL4AC)。在CL4AC中,通过对比样本来利用来自原始音频文本成对数据的自我监督信号来利用音频和文本之间的对应关系,该样本可以提高潜在表示的质量和音频和文本之间的对齐,同时训练有限的数据。实验是在披丁数据集上进行的,以显示我们提出的方法的有效性。
translated by 谷歌翻译
我们考虑了自动生成音乐文本描述的新颖任务。与其他完善的文本生成任务(例如图像标题)相比,富裕的音乐和文本数据集的稀缺性使其成为更具挑战性的任务。在本文中,我们利用众包音乐评论来构建一个新的数据集,并提出一个序列到序列模型以生成音乐的文本描述。更具体地说,我们将扩张的卷积层用作编码器的基本组成部分,基于内存的复发性神经网络作为解码器。为了增强生成文本的真实性和主题,我们进一步建议用歧视者和新的主题评估者微调模型。为了衡量生成的文本的质量,我们还提出了两个新的评估指标,它们比人类评估比传统指标(例如BLEU)更加一致。实验结果验证了我们的模型能够在包含原始音乐的主题和内容信息的同时产生流利而有意义的评论。
translated by 谷歌翻译
Discriminativeness is a desirable feature of image captions: captions should describe the characteristic details of input images. However, recent high-performing captioning models, which are trained with reinforcement learning (RL), tend to generate overly generic captions despite their high performance in various other criteria. First, we investigate the cause of the unexpectedly low discriminativeness and show that RL has a deeply rooted side effect of limiting the output words to high-frequency words. The limited vocabulary is a severe bottleneck for discriminativeness as it is difficult for a model to describe the details beyond its vocabulary. Then, based on this identification of the bottleneck, we drastically recast discriminative image captioning as a much simpler task of encouraging low-frequency word generation. Hinted by long-tail classification and debiasing methods, we propose methods that easily switch off-the-shelf RL models to discriminativeness-aware models with only a single-epoch fine-tuning on the part of the parameters. Extensive experiments demonstrate that our methods significantly enhance the discriminativeness of off-the-shelf RL models and even outperform previous discriminativeness-aware methods with much smaller computational costs. Detailed analysis and human evaluation also verify that our methods boost the discriminativeness without sacrificing the overall quality of captions.
translated by 谷歌翻译
该项目涉及参加DCASE 2022竞赛(任务6),该竞赛具有两个子任务:(1)自动化音频字幕和(2)基于语言的音频检索。第一个子任务涉及对音频样本的文本描述的生成,而第二个目标是在匹配给定描述的固定数据集中找到音频样本。对于两个子任务,都使用了Clotho数据集。在BLEU1,BLEU2,BLEU3,ROGEL,Meteor,Cider,Spice和Spider评分上评估了这些模型,用于音频字幕,R1,R5,R10和MARP10分数用于音频检索。我们进行了一些实验,以修改这些任务的基线模型。我们用于自动音频字幕的最终体系结构接近基线性能,而我们的基于语言的音频检索模型已超过其对应方。
translated by 谷歌翻译
连接视觉和语言在生成智能中起着重要作用。因此,已经致力于图像标题的大型研究工作,即用句法和语义有意义的句子描述图像。从2015年开始,该任务通常通过由Visual Encoder组成的管道和文本生成的语言模型来解决任务。在这些年来,两种组件通过对象区域,属性,介绍多模态连接,完全关注方法和伯特早期融合策略的利用而显着发展。但是,无论令人印象深刻的结果,图像标题的研究还没有达到结论性答案。这项工作旨在提供图像标题方法的全面概述,从视觉编码和文本生成到培训策略,数据集和评估度量。在这方面,我们量化地比较了许多相关的最先进的方法来确定架构和培训策略中最有影响力的技术创新。此外,讨论了问题的许多变体及其开放挑战。这项工作的最终目标是作为理解现有文献的工具,并突出显示计算机视觉和自然语言处理的研究领域的未来方向可以找到最佳的协同作用。
translated by 谷歌翻译
图像字幕是当前的研究任务,用于使用场景中的对象及其关系来描述图像内容。为了应对这项任务,使用了两个重要的研究领域,人为的视觉和自然语言处理。在图像字幕中,就像在任何计算智能任务中一样,性能指标对于知道方法的性能(或坏)至关重要。近年来,已经观察到,基于n-gram的经典指标不足以捕获语义和关键含义来描述图像中的内容。为了衡量或不进行最新指标的集合,在本手稿中,我们对使用众所周知的COCO数据集进行了对几种图像字幕指标的评估以及它们之间的比较。为此,我们设计了两种情况。 1)一组人工构建字幕,以及2)比较某些最先进的图像字幕方法的比较。我们试图回答问题:当前的指标是否有助于制作高质量的标题?实际指标如何相互比较?指标真正测量什么?
translated by 谷歌翻译
自动音频标题(AAC)旨在使用自然语言描述具有标题的音频数据。大多数现有的AAC方法采用编码器 - 解码器结构,其中基于注意的机制是解码器(例如,变压器解码器)中的受欢迎选择,用于预测来自音频特征的标题。这种基于注意的解码器可以从音频特征捕获全局信息,然而,它们在提取本地信息的能力可以是有限的,这可能导致所生成的标题中的质量下降。在本文中,我们介绍了一种具有无注意解码器的AAC方法,其中基于Pann的编码器用于音频特征提取,并且设计了无注意的解码器以引入本地信息。所提出的方法使得能够从音频信号中有效地使用全局和本地信息。实验表明,我们的方法在DCASE 2021挑战的任务6中具有基于标准的解码器的最先进的方法。
translated by 谷歌翻译
This work presents a thorough review concerning recent studies and text generation advancements using Generative Adversarial Networks. The usage of adversarial learning for text generation is promising as it provides alternatives to generate the so-called "natural" language. Nevertheless, adversarial text generation is not a simple task as its foremost architecture, the Generative Adversarial Networks, were designed to cope with continuous information (image) instead of discrete data (text). Thus, most works are based on three possible options, i.e., Gumbel-Softmax differentiation, Reinforcement Learning, and modified training objectives. All alternatives are reviewed in this survey as they present the most recent approaches for generating text using adversarial-based techniques. The selected works were taken from renowned databases, such as Science Direct, IEEEXplore, Springer, Association for Computing Machinery, and arXiv, whereas each selected work has been critically analyzed and assessed to present its objective, methodology, and experimental results.
translated by 谷歌翻译
新颖的对象字幕(NOC)旨在描述包含对象的图像,而无需在训练过程中观察其地面真相标题。由于缺乏字幕注释,无法通过序列到序列训练或苹果酒优化直接优化字幕模型。结果,我们提出了启用释义(P2C),这是一个针对NOC的两阶段学习框架,它将通过释义通过释义来优化输出字幕。使用P2C,字幕模型首先从仅在文本语料库中预先训练的语言模型中学习释义,从而扩展了Bank一词以提高语言流利度。为了进一步实施足够描述输入图像的视觉内容的输出字幕,我们对引入的忠诚度和充分性目标进行字幕模型执行自我贴形。由于在训练过程中没有任何地面真相标题可用于新颖的对象图像,因此我们的P2C利用交叉模式(图像文本)关联模块可以确保可以正确保留上述字幕特征。在实验中,我们不仅表明我们的P2C在NOCAPS和COCO字幕数据集上实现了最先进的性能,而且还通过替换NOC的语言和跨模式关联模型来验证学习框架的有效性和灵活性。实施详细信息和代码可在补充材料中找到。
translated by 谷歌翻译
本文对过去二十年来对自然语言生成(NLG)的研究提供了全面的审查,特别是与数据到文本生成和文本到文本生成深度学习方法有关,以及NLG的新应用技术。该调查旨在(a)给出关于NLG核心任务的最新综合,以及该领域采用的建筑;(b)详细介绍各种NLG任务和数据集,并提请注意NLG评估中的挑战,专注于不同的评估方法及其关系;(c)强调一些未来的强调和相对近期的研究问题,因为NLG和其他人工智能领域的协同作用而增加,例如计算机视觉,文本和计算创造力。
translated by 谷歌翻译
为了为视频产生适当的标题,推理需要确定相关的概念并注意它们之间的空间关系以及剪辑中的时间发展。我们的端到端编码器视频字幕框架结合了两个基于变压器的体系结构,这是一种用于单个关节时空视频分析的改编变压器,以及用于高级文本生成的基于自我注意力的解码器。此外,我们引入了一种自适应框架选择方案,以减少所需的传入帧数,同时在训练两个变压器时保持相关内容。此外,我们通过汇总每个样本的所有基础真理标题来估计与视频字幕相关的语义概念。我们的方法在MSVD以及大规模的MSR-VTT和VATEX基准数据集上实现了最新的结果,并考虑了多个自然语言产生(NLG)指标。对多样性得分的其他评估突出了我们生成的标题结构的表现力和多样性。
translated by 谷歌翻译
视频到文本(VTT)是自动生成短视听视频剪辑的描述的任务,可以支持视觉上受损人员以了解YouTube视频的场景。变压器架构在机器翻译和图像标题中表现出具有很大的性能,缺乏对VTT的直接和可重复的应用。但是,对视频描述的不同策略和建议没有全面研究,包括利用完全自临时网络利用随附的音频。因此,我们通过开发直接变压器架构来探索来自图像标题和视频处理的有希望的方法,并将它们应用于VTT。此外,我们介绍了一种在我们呼叫分数位置编码(FPE)的变压器中同步音频和视频特征的新方法。我们在Vatex DataSet上运行多个实验,以确定适用于看不见的数据集的配置,有助于描述自然语言中的短视频剪辑,并与Vanilla变压器网络相比,通过37.13和12.83点改善苹果酒和BLE-4分数。 - MSR-VTT和MSVD数据集的最佳结果。此外,FPE有助于将苹果酒分数增加8.6%。
translated by 谷歌翻译
视频字幕结合了视频理解和语言生成。与图像标题不同,描述具有几乎每个对象的细节的静态图像,视频字幕通常考虑一系列帧和偏置朝向聚焦对象的偏差,例如,保持焦点的对象,无论更改的背景如何。因此,检测和适当地容纳聚焦对象在视频字幕中是至关重要的。为了执行聚焦对象的描述并实现可控制的视频标题,我们提出了一种面向对象的非自动增加方法(O2NA),其执行三个步骤中的标题生成:1)识别聚焦对象并预测其在目标字幕中的位置; 2)生成相关的属性词和这些聚焦对象的关系词来形成标题草案; 3)将视频信息组合以将标题草案精炼到流利的最终标题。由于产生了聚焦的对象并领先于其他单词,因此难以应用逐字的自回归生成过程;相反,我们采用了非自动评级方法。在两个基准数据集,即MSR-VTT和MSVD上的实验证明了O2NA的有效性,这实现了与最先进的结果竞争,但具有更高的多样性和推理速度。
translated by 谷歌翻译
图像段落字幕旨在描述具有一系列连贯句子的给定图像。大多数现有方法通过主题过渡对一致性建模,该主题过渡将主题向量从先前的句子中移动。但是,这些方法仍然遭受生成段落的立即或延迟重复,因为(i)语法和语义的纠缠使主题向量分散了参与相关视觉区域的注意力; (ii)学习长期过渡几乎没有限制或奖励。在本文中,我们提出了一个旁路网络,该网络分别模拟了前面句子的语义和语言语法。具体而言,提出的模型由两个主要模块组成,即主题过渡模块和句子生成模块。前者将先前的语义向量作为查询,并将注意机制应用于区域特征以获取下一个主题矢量,从而通过消除语言学来减少立即重复。后者将主题向量和先前的语法状态解码以产生以下句子。为了进一步减少生成段落中的延迟重复,我们为加强培训设计了基于替代的奖励。广泛使用的基准测试的全面实验证明了所提出的模型优于最终的技术,同时保持了高精度。
translated by 谷歌翻译
在过去的几年中,引起了独特的图像字幕(DIC)(DIC) - 生成独特的标题来描述目标图像的独特细节。最近的DIC工作建议通过将目标图像与一组语义相似的参考图像(即基于参考的DIC(REF-DIC))进行比较来生成独特的字幕。它的目的是使生成的字幕可以分开目标图像和参考图像。不幸的是,现有参考作品使用的参考图像易于区分:这些参考图像仅类似于场景级别的目标图像,并且几乎没有常见的对象,因此,即使不考虑该模型,Ref-DIC模型也可以微不足道地生成独特的字幕参考图像。为了确保Ref-DIC模型真正了解目标图像中的唯一对象(或属性),我们首先提出了两个新的Ref-DIC基准。具体而言,我们设计了一个两阶段的匹配机制,该机制严格控制对象 - /属性级别的目标和参考图像之间的相似性(相对于场景级别)。其次,为了产生独特的标题,我们开发了一个强大的基于变压器的ref-DIC基线,称为传播。它不仅从目标图像中提取视觉特征,而且还编码目标和参考图像中对象之间的差异。最后,为了获得更值得信赖的基准测试,我们提出了一个新的评估度量指标,名为Ref-DIC的Discider,评估生成的字幕的准确性和独特性。实验结果表明,我们的传统可以产生独特的标题。此外,它在不同指标上的两个新基准测试中的几个最先进的模型都优于多种最先进的模型。
translated by 谷歌翻译
自动在自然语言中自动生成图像的描述称为图像字幕。这是一个积极的研究主题,位于人工智能,计算机视觉和自然语言处理中两个主要领域的交集。图像字幕是图像理解中的重要挑战之一,因为它不仅需要识别图像中的显着对象,还需要其属性及其相互作用的方式。然后,系统必须生成句法和语义上正确的标题,该标题描述了自然语言的图像内容。鉴于深度学习模型的重大进展及其有效编码大量图像并生成正确句子的能力,最近已经提出了几种基于神经的字幕方法,每种方法都试图达到更好的准确性和标题质量。本文介绍了一个基于编码器的图像字幕系统,其中编码器使用以RESNET-101作为骨干为骨干来提取图像中每个区域的空间和全局特征。此阶段之后是一个精致的模型,该模型使用注意力进行注意的机制来提取目标图像对象的视觉特征,然后确定其相互作用。解码器由一个基于注意力的复发模块和一个反思性注意模块组成,该模块会协作地将注意力应用于视觉和文本特征,以增强解码器对长期顺序依赖性建模的能力。在两个基准数据集(MSCOCO和FLICKR30K)上进行的广泛实验显示了提出的方法和生成的字幕的高质量。
translated by 谷歌翻译