多年来,最新的(SOTA)图像字幕方法已在某些评估指标(例如苹果酒)上取得了令人鼓舞的结果。但是,最近的发现表明,这些方法生成的字幕往往会偏向“平均”字幕,该字幕仅捕获训练语料库中最通用的模式(又称语言模式),即所谓的模式崩溃问题。受其影响的影响,生成的标题在多样性上受到限制,通常不如人类做出的自然图像描述。在本文中,我们试图通过提出离散模式学习(DML)范式来避免此问题。我们的创新想法是探索训练字幕语料库中的丰富模式,以学习一组“模式嵌入”,并进一步使用它们来控制现有图像字幕模型生成的字幕模式。具体而言,提出的DML优化了由图像条件的离散变异自动编码器(CDVAE)分支和模式条件的图像字幕(MIC)分支组成的双重体系结构。 CDVAE分支将每个图像标题映射到存储在学习的代码簿中的模式嵌入之一,并接受了纯粹的非自动性生成目标训练,以使模式与众不同和代表性。可以简单地从现有的图像字幕模型中修改麦克风分支,其中将模式嵌入添加到原始单词嵌入作为控制信号中。在实验中,我们将提出的DML应用于两个广泛使用的图像字幕模型,即变压器和AOANET。结果表明,学习模式嵌入成功促进了这些模型,以不同模式生成高质量的图像标题,进一步为MSCOCO数据集的多样性和质量提供了更好的性能。
translated by 谷歌翻译
描述使用自然语言的图像被广泛称为图像标题,这是由于计算机视觉和自然语言生成技术的发展而达成了一致的进展。虽然传统的标题模型基于流行度量的高精度,即BLEU,苹果酒和香料,探索了标题与其他类似图像中的标题的能力。为了产生独特的标题,一些先驱采用对比学习或重新加权地面真理标题,其侧重于一个输入图像。然而,忽略了类似图像组中对象之间的关系(例如,相同专辑中的项目或属性或细粒度事件中的物品)。在本文中,我们使用基于组的独特标题模型(Gdiscap)来提高图像标题的独特性,其将每个图像与一个类似的组中的其他图像进行比较,并突出显示每个图像的唯一性。特别是,我们提出了一种基于组的内存注意力(GMA)模块,其存储在图像组中是唯一的对象特征(即,与其他图像中的对象的低相似性)。生成字幕时突出显示这些唯一的对象功能,从而产生更有独特的标题。此外,选择地面标题中的独特单词来监督语言解码器和GMA。最后,我们提出了一种新的评估度量,独特的单词率(Diswordrate)来测量标题的独特性。定量结果表明,该方法显着提高了几种基线模型的独特性,并实现了精度和独特性的最先进的性能。用户学习的结果与定量评估一致,并证明了新的公制Diswordrate的合理性。
translated by 谷歌翻译
连接视觉和语言在生成智能中起着重要作用。因此,已经致力于图像标题的大型研究工作,即用句法和语义有意义的句子描述图像。从2015年开始,该任务通常通过由Visual Encoder组成的管道和文本生成的语言模型来解决任务。在这些年来,两种组件通过对象区域,属性,介绍多模态连接,完全关注方法和伯特早期融合策略的利用而显着发展。但是,无论令人印象深刻的结果,图像标题的研究还没有达到结论性答案。这项工作旨在提供图像标题方法的全面概述,从视觉编码和文本生成到培训策略,数据集和评估度量。在这方面,我们量化地比较了许多相关的最先进的方法来确定架构和培训策略中最有影响力的技术创新。此外,讨论了问题的许多变体及其开放挑战。这项工作的最终目标是作为理解现有文献的工具,并突出显示计算机视觉和自然语言处理的研究领域的未来方向可以找到最佳的协同作用。
translated by 谷歌翻译
新颖的对象字幕(NOC)旨在描述包含对象的图像,而无需在训练过程中观察其地面真相标题。由于缺乏字幕注释,无法通过序列到序列训练或苹果酒优化直接优化字幕模型。结果,我们提出了启用释义(P2C),这是一个针对NOC的两阶段学习框架,它将通过释义通过释义来优化输出字幕。使用P2C,字幕模型首先从仅在文本语料库中预先训练的语言模型中学习释义,从而扩展了Bank一词以提高语言流利度。为了进一步实施足够描述输入图像的视觉内容的输出字幕,我们对引入的忠诚度和充分性目标进行字幕模型执行自我贴形。由于在训练过程中没有任何地面真相标题可用于新颖的对象图像,因此我们的P2C利用交叉模式(图像文本)关联模块可以确保可以正确保留上述字幕特征。在实验中,我们不仅表明我们的P2C在NOCAPS和COCO字幕数据集上实现了最先进的性能,而且还通过替换NOC的语言和跨模式关联模型来验证学习框架的有效性和灵活性。实施详细信息和代码可在补充材料中找到。
translated by 谷歌翻译
Automated audio captioning is a cross-modal translation task for describing the content of audio clips with natural language sentences. This task has attracted increasing attention and substantial progress has been made in recent years. Captions generated by existing models are generally faithful to the content of audio clips, however, these machine-generated captions are often deterministic (e.g., generating a fixed caption for a given audio clip), simple (e.g., using common words and simple grammar), and generic (e.g., generating the same caption for similar audio clips). When people are asked to describe the content of an audio clip, different people tend to focus on different sound events and describe an audio clip diversely from various aspects using distinct words and grammar. We believe that an audio captioning system should have the ability to generate diverse captions, either for a fixed audio clip, or across similar audio clips. To this end, we propose an adversarial training framework based on a conditional generative adversarial network (C-GAN) to improve diversity of audio captioning systems. A caption generator and two hybrid discriminators compete and are learned jointly, where the caption generator can be any standard encoder-decoder captioning model used to generate captions, and the hybrid discriminators assess the generated captions from different criteria, such as their naturalness and semantics. We conduct experiments on the Clotho dataset. The results show that our proposed model can generate captions with better diversity as compared to state-of-the-art methods.
translated by 谷歌翻译
增强描述视频内容的句子的多样性是近期视频字幕研究中出现的重要问题。在本文中,我们通过模仿示例句语法来自定义视频标题的小说视角来探讨此问题。具体地,给定视频和任何语法有效的示例句子,我们介绍了一个新的语法定制视频标题(SCVC)的任务,旨在生成一个字幕,不仅开始描述视频内容,而且还句法模仿给定的示例句子。为了解决SCVC任务,我们提出了一种新的视频标题模型,其中首先设计了分层句子语法编码器来提取示例句子的语法结构,然后设计了语法调节标题解码器以生成表达视频语义的语法结构标题。由于没有可用的语法定制地面视频字幕,我们通过提出新的培训策略来解决这种挑战,该策略利用传统的成对视频标题数据和我们所收集的示例性句子来完成模型学习。在语义,句法,流畅性和多样性评估方面进行了广泛的实验,清楚地展示了我们的模型能力,以生成与丰富的多样性很好地模仿不同示例性句子的语法变化和语义 - 相干的视频标题。
translated by 谷歌翻译
图像字幕模型旨在通过提供输入图像的自然语言描述来连接视觉和语言。在过去的几年中,通过学习参数模型并提出视觉特征提取的进步或建模更好的多模式连接来解决该任务。在本文中,我们研究了使用KNN记忆的图像字幕方法的开发,可以从外部语料库中检索知识以帮助生成过程。我们的架构结合了一个基于视觉相似性,可区分编码器和KNN-agn-agn-agement注意层的知识检索器,以根据过去的上下文和从外部内存检索的文本进行预测令牌。在可可数据集上进行的实验结果表明,采用明确的外部记忆可以帮助生成过程并提高标题质量。我们的工作开辟了新的途径,以更大规模改善图像字幕模型。
translated by 谷歌翻译
近年来在开发更好的图像标题模型方面取得了巨大进展,但其中大多数依赖于单独的对象探测器来提取区域特征。最近的视觉语言研究通过利用网格表示来实现更灵活的模型训练和更快推理速度的速度来转向探测器趋势。但是,这种发展主要专注于图像理解任务,并且对标题生成任务的研究仍然较少。在本文中,我们涉及一种更好的无需探测器图像标题模型,并提出了一种基于纯视觉变压器的图像标题模型,称为VITCAP,其中使用了网格表示而不提取区域特征。为了提高性能,我们介绍了一种新颖的概念令牌网络(CTN)来预测语义概念,然后将它们纳入端到端的标题。特别地,CTN是基于视觉变换器构建的,并且旨在通过分类任务预测概念令牌,其中包含丰富的语义信息极大地利益标题任务。与以前的探测器的模型相比,Vitcap大大简化了架构,同时在各种具有挑战性的图像标题数据集上实现了竞争性能。特别是,Vitcap分别达到138.1苹果酒分数,即在Nocaps上的Coco-Caption Karpatal-Splity,93.8和108.6苹果酒分数和Google-CC标题数据集上分别达到138.1苹果酒分数。
translated by 谷歌翻译
图像字幕模型通常是根据人体注释的地面真实字幕训练的,该字幕可能会产生准确但通用的字幕。为了提高字幕模型的独特性,我们首先提出了一系列使用大规模视觉语言预训练模型剪辑来评估标题的独特性。然后,我们提出了一种简单有效的训练策略,该策略通过在相似图像组中进行比较来训练模型。我们对各种现有模型进行了广泛的实验,以证明我们的策略的广泛适用性以及基于公制的结果与人类评估的一致性。通过将最佳模型的性能与现有的最新模型进行比较,我们声称我们的模型实现了针对独特性目标的新最先进的。
translated by 谷歌翻译
Image captioning is one of the straightforward tasks that can take advantage of large-scale web-crawled data which provides rich knowledge about the visual world for a captioning model. However, since web-crawled data contains image-text pairs that are aligned at different levels, the inherent noises (e.g., misaligned pairs) make it difficult to learn a precise captioning model. While the filtering strategy can effectively remove noisy data, however, it leads to a decrease in learnable knowledge and sometimes brings about a new problem of data deficiency. To take the best of both worlds, we propose a noise-aware learning framework, which learns rich knowledge from the whole web-crawled data while being less affected by the noises. This is achieved by the proposed quality controllable model, which is learned using alignment levels of the image-text pairs as an additional control signal during training. The alignment-conditioned training allows the model to generate high-quality captions of well-aligned by simply setting the control signal to desired alignment level at inference time. Through in-depth analysis, we show that our controllable captioning model is effective in handling noise. In addition, with two tasks of zero-shot captioning and text-to-image retrieval using generated captions (i.e., self-retrieval), we also demonstrate our model can produce high-quality captions in terms of descriptiveness and distinctiveness. Code is available at \url{https://github.com/kakaobrain/noc}.
translated by 谷歌翻译
用于图像文本生成任务的传统方法主要是分别解决自然双向生成任务,专注于设计任务特定的框架以提高所生成的样本的质量和保真度。最近,Vision-Language预训练模型大大提高了图像到文本生成任务的性能,但仍未开发出用于文本到图像综合任务的大规模预训练模型。在本文中,我们提出了一个具有变压器模型的双向图像文本生成的统一生成的预训练框架的Ernie-Vi​​lg。基于图像量化模型,我们将图像生成和文本生成标准为在文本/图像输入上调节的自回归生成任务。双向图像文本生成建模简化了视觉和语言的语义对齐。对于文本到图像生成过程,我们进一步提出了端到端的训练方法,共同学习视觉序列发生器和图像重建。为了探讨双向文本图像生成的大规模预培训景观,我们在大规模数据集中培训了100亿参数的Ernie-Vi​​lg模型,以145百万(中文)图像 - 文本对实现了达到的状态 - 文本到图像和图像到文本任务的最佳性能,以便在MS-Coco上获取7.9的FID,用于文本到图像合成以及用于图像标题的Coco-CN和AIC-ICC的最佳结果。
translated by 谷歌翻译
自动音频字幕是一项跨模式翻译任务,旨在为给定的音频剪辑生成自然语言描述。近年来,随着免费可用数据集的发布,该任务受到了越来越多的关注。该问题主要通过深度学习技术解决。已经提出了许多方法,例如研究不同的神经网络架构,利用辅助信息,例如关键字或句子信息来指导字幕生成,并采用了不同的培训策略,这些策略极大地促进了该领域的发展。在本文中,我们对自动音频字幕的已发表贡献进行了全面综述,从各种现有方法到评估指标和数据集。我们还讨论了公开挑战,并设想可能的未来研究方向。
translated by 谷歌翻译
It is well believed that the higher uncertainty in a word of the caption, the more inter-correlated context information is required to determine it. However, current image captioning methods usually consider the generation of all words in a sentence sequentially and equally. In this paper, we propose an uncertainty-aware image captioning framework, which parallelly and iteratively operates insertion of discontinuous candidate words between existing words from easy to difficult until converged. We hypothesize that high-uncertainty words in a sentence need more prior information to make a correct decision and should be produced at a later stage. The resulting non-autoregressive hierarchy makes the caption generation explainable and intuitive. Specifically, we utilize an image-conditioned bag-of-word model to measure the word uncertainty and apply a dynamic programming algorithm to construct the training pairs. During inference, we devise an uncertainty-adaptive parallel beam search technique that yields an empirically logarithmic time complexity. Extensive experiments on the MS COCO benchmark reveal that our approach outperforms the strong baseline and related methods on both captioning quality as well as decoding speed.
translated by 谷歌翻译
图像字幕显示可以通过使用场景图来表示图像中对象的关系来实现更好的性能。当前字幕编码器通常使用图形卷积网(GCN)来表示关系信息,并通过串联或卷积将其与对象区域特征合并,以获取句子解码的最终输入。但是,由于两个原因,现有方法中基于GCN的编码器在字幕上的有效性较小。首先,使用图像字幕作为目标(即最大似然估计),而不是以关系为中心的损失无法完全探索编码器的潜力。其次,使用预训练的模型代替编码器本身提取关系不是灵活的,并且不能有助于模型的解释性。为了提高图像字幕的质量,我们提出了一个新颖的体系结构改革者 - 一种关系变压器,可以生成具有嵌入关系信息的功能,并明确表达图像中对象之间的成对关系。改革者将场景图的生成目标与使用一个修改后的变压器模型的图像字幕结合在一起。这种设计使改革者不仅可以通过提取强大的关系图像特征的利益生成更好的图像标题,还可以生成场景图,以明确描述配对关系。公开可用数据集的实验表明,我们的模型在图像字幕和场景图生成上的最先进方法明显优于最先进的方法
translated by 谷歌翻译
对于视频标题,“预培训和微调”已成为事实上的范式,其中想象成预训练(InP)通常用于帮助编码视频内容,并且从头开始进行任务导向的网络应对标题一代。将InP与最近提出的剪辑(对比语言图像预培训)进行比较,研究了INP的潜在缺陷,用于视频标题,并探索产生准确描述的关键。具体而言,我们对INP与剪辑的实证研究表明,INP使视频标题模型棘手捕获属性的语义和对无关背景信息的敏感。相比之下,剪辑在标题质量中的显着提升突出了属性感知表示学习的重要性。因此,我们被激励引入双属性预测,需要一个辅助任务,需要视频字幕模型来学习视频内容和属性之间的对应关系以及属性之间的共同发生关系。基准数据集的广泛实验表明,我们的方法能够更好地学习属性感知的表示,这对具有不同架构和解码算法的模型带来了一致的改进。
translated by 谷歌翻译
为了为视频产生适当的标题,推理需要确定相关的概念并注意它们之间的空间关系以及剪辑中的时间发展。我们的端到端编码器视频字幕框架结合了两个基于变压器的体系结构,这是一种用于单个关节时空视频分析的改编变压器,以及用于高级文本生成的基于自我注意力的解码器。此外,我们引入了一种自适应框架选择方案,以减少所需的传入帧数,同时在训练两个变压器时保持相关内容。此外,我们通过汇总每个样本的所有基础真理标题来估计与视频字幕相关的语义概念。我们的方法在MSVD以及大规模的MSR-VTT和VATEX基准数据集上实现了最新的结果,并考虑了多个自然语言产生(NLG)指标。对多样性得分的其他评估突出了我们生成的标题结构的表现力和多样性。
translated by 谷歌翻译
密集的视频字幕旨在为未修剪视频中的一系列事件生成相应的文本描述,这些事件可以分为两个子任务,即事件检测和事件字幕。与以前分别解决这两个子任务的作品不同,最近的作品着重于增强两个子任务之间的任务间关联。但是,由于其特定于任务的解决方案的巨大差异,设计用于事件检测和字幕的任务间相互作用并不是微不足道的。此外,以前的事件检测方法通常会忽略事件之间的时间依赖性,从而导致事件冗余或不一致问题。在本文中,我们将事件检测定义为序列生成任务,并提出一个统一的预训练和微调框架,以自然增强事件检测和字幕之间的任务间关联。由于该模型将每个事件预测为以前的事件为上下文,因此事件之间的相互依赖性被充分利用,因此我们的模型可以检测到视频中更多样化和一致的事件。 ActivityNet数据集上的实验表明,我们的模型优于最新方法,并且在对大型视频文本数据进行预训练时,可以进一步提高。代码可在\ url {https://github.com/qiqang/uedvc}上获得。
translated by 谷歌翻译
用于评估有条件自然语言生成的传统自动化指标使用单个生成的文本和最佳匹配的金标准地面真相文本之间的成对比较。当有多个基础真相可用时,分数将使用参考中的平均或最大操作进行汇总。尽管这种方法在地面真相数据中的多样性(即有条件文本的分布的分散)可以归因于噪声,例如自动语音识别中,但在地面上的多样性的情况下,它不允许进行强有力的评估。真理代表模型的信号。在这项工作中,我们认为现有的指标不适合诸如视觉描述或摘要之类的域,而地面真理在语义上是多样的,并且这些字幕中的多样性捕获了有关上下文的有用的其他信息。我们提出了一种新的范式,用于对条件语言生成模型的多键入评估以及一个新的指标家族,该指标家族使用每种少量样本集比较参考和模型生成的字幕集的分布。我们通过视觉描述中的案例研究证明了方法的实用性:我们在其中证明现有模型优化了单描述质量而不是多样性,并获得了对采样方法和温度影响如何描述质量和多样性的一些见解。
translated by 谷歌翻译
现有的图像字幕的方法通常从左到右生成句子逐字,并在本地上下文中受到限制,包括给定的图像和历史记录生成的单词。在解码过程中,有许多研究目的是利用全球信息,例如迭代改进。但是,它仍然探讨了如何有效,有效地纳入未来的环境。为了回答这个问题,受到非自动回归图像字幕(NAIC)的启发,可以通过修改后的掩码操作利用两侧关系,我们的目标是将此进步嫁接到常规的自动回归图像字幕(AIC)模型,同时保持推理效率而无需进行推理效率额外的时间成本。具体而言,首先对AIC和NAIC模型结合了共享的视觉编码器,迫使视觉编码器包含足够有效的未来上下文。然后鼓励AIC模型捕获NAIC模型在其不自信的单词上互换的跨层互换的因果动态,该单词遵循教师学生的范式,并通过分配校准训练目标进行了优化。经验证据表明,我们所提出的方法清楚地超过了自动指标和人类评估的最新基线,对MS COCO基准测试。源代码可在以下网址获得:https://github.com/feizc/future-caption。
translated by 谷歌翻译
密集的视频字幕(DVC)旨在生成多句子描述,以阐明视频中的多个事件,这是具有挑战性,需要的视觉一致性,疑惑一致性和语言多样性。现有方法主要生成各个视频段的标题,缺乏适应全局视觉上下文和快速发展的视觉内容和文本描述之间的渐进对齐,这导致冗余和拼接描述。在本文中,我们介绍了信息流的概念,以模拟跨视频序列和标题的渐进信息。通过设计跨模型信息流对准机制,捕获和对齐的视觉和文本信息流,其在事件/主题演化上以更丰富的上下文和动态赋予标题处理。基于跨模型信息流对准模块,我们进一步提出了DVCFlow框架,它由全球本地视觉编码器组成,用于捕获每个视频段的全局功能和本地特征,以及用于产生标题的预先培训的标题生成器。对流行的ActivityNet标题和Youcookii数据集的广泛实验表明,我们的方法显着优于竞争基础,并根据主题和客观测试产生更多人类文本。
translated by 谷歌翻译