当代视觉标题模型通常是幻觉的对象,其实际上并不是一种场景,因为目视错误分类或过度依赖导致视觉信息与目标词汇词之间的语义不一致。最常见的方式是鼓励标题模型将生成的对象字或短语动态链接到图像的适当区域,即接地图像标题(GIC)。然而,GIC利用辅助任务(接地对象),这些任务(接地对象)没有解决对象幻觉的关键问题,即语义不一致。在本文中,我们对上面的问题进行了一种小说 - 利用视觉和语言模式之间的语义一致性。具体而言,我们提出了与GIC的共识RRAPH表示学习框架(CGRL),其纳入接地标题管道的共识表示。通过将可视图(例如,场景图)对准到图表中的节点和边的语言图来学习共识。通过对齐的共识,标题模型可以捕获正确的语言特征和视觉相关性,然后进一步接地适当的图像区域。我们验证了我们模型的有效性,对象幻觉(-9%主席)在Flickr30k实体数据集中显着下降。此外,我们的CGR还通过多种自动度量和人体评估评估,结果表明,该方法可以同时提高图像标题(+2.9苹果酒)和接地的性能(+2.3 f1loc)。
translated by 谷歌翻译
接地视频描述(GVD)促使标题模型动态地参加适当的视频区域(例如,对象)并生成描述。这样的设置可以帮助解释标题模型的决策,并防止模型在其描述中幻觉的对象词。然而,这种设计主要侧重于对象词生成,因此可能忽略细粒度信息并遭受缺失的视觉概念。此外,关系词(例如,“左转或右”)是通常的时空推断结果,即,这些单词不能在某些空间区域接地。为了解决上述限制,我们设计了GVD的新型关系图学习框架,其中旨在探索细粒度的视觉概念。此外,精细图可以被视为关系归纳知识,以帮助标题模型选择所需的相关信息来生成正确的单词。我们通过自动指标和人类评估验证我们模型的有效性,结果表明,我们的方法可以产生更细粒度和准确的描述,并解决了物体幻觉的问题。
translated by 谷歌翻译
基于文本的图像标题(TextCAP)需要同时对视觉内容的理解并读取图像文本以生成自然语言描述。虽然一项任务可以教导机器来了解复杂的人类环境进一步鉴于我们日常环境中的文本是全部的,但它在正常标题中提出了额外的挑战。基于文本的图像直观地包含丰富和复杂的多模式关系内容,即可以从多视图而不是单个字幕来扩散图像细节。当然,我们可以介绍额外的配对训练数据以显示图像描述的多样性,这一过程是具有额外文本的文本映射对注释的劳动密集型和耗时。基于上述洞察力,我们调查如何使用未配对的培训范例来生成专注于不同图像零件的不同标题。我们提出了多模式关系图对抗性推论(魔法)框架,用于多样化和未配对的Textcap。该框架可以自适应地构建图形之间的图像和模型复杂关系的多个多模式关系图来表示描述性分集。此外,从建模的图表中开发了一种级联的生成对抗性网络,以推断图像句子特征对齐和语言相干水平中的未配对字幕。我们验证了魔法在从图像的不同关系信息项目生成不同标题时的有效性。实验结果表明,魔法可以在不使用任何图像标题训练对的情况下产生非常有前途的结果。
translated by 谷歌翻译
连接视觉和语言在生成智能中起着重要作用。因此,已经致力于图像标题的大型研究工作,即用句法和语义有意义的句子描述图像。从2015年开始,该任务通常通过由Visual Encoder组成的管道和文本生成的语言模型来解决任务。在这些年来,两种组件通过对象区域,属性,介绍多模态连接,完全关注方法和伯特早期融合策略的利用而显着发展。但是,无论令人印象深刻的结果,图像标题的研究还没有达到结论性答案。这项工作旨在提供图像标题方法的全面概述,从视觉编码和文本生成到培训策略,数据集和评估度量。在这方面,我们量化地比较了许多相关的最先进的方法来确定架构和培训策略中最有影响力的技术创新。此外,讨论了问题的许多变体及其开放挑战。这项工作的最终目标是作为理解现有文献的工具,并突出显示计算机视觉和自然语言处理的研究领域的未来方向可以找到最佳的协同作用。
translated by 谷歌翻译
图像字幕显示可以通过使用场景图来表示图像中对象的关系来实现更好的性能。当前字幕编码器通常使用图形卷积网(GCN)来表示关系信息,并通过串联或卷积将其与对象区域特征合并,以获取句子解码的最终输入。但是,由于两个原因,现有方法中基于GCN的编码器在字幕上的有效性较小。首先,使用图像字幕作为目标(即最大似然估计),而不是以关系为中心的损失无法完全探索编码器的潜力。其次,使用预训练的模型代替编码器本身提取关系不是灵活的,并且不能有助于模型的解释性。为了提高图像字幕的质量,我们提出了一个新颖的体系结构改革者 - 一种关系变压器,可以生成具有嵌入关系信息的功能,并明确表达图像中对象之间的成对关系。改革者将场景图的生成目标与使用一个修改后的变压器模型的图像字幕结合在一起。这种设计使改革者不仅可以通过提取强大的关系图像特征的利益生成更好的图像标题,还可以生成场景图,以明确描述配对关系。公开可用数据集的实验表明,我们的模型在图像字幕和场景图生成上的最先进方法明显优于最先进的方法
translated by 谷歌翻译
We propose Scene Graph Auto-Encoder (SGAE) that incorporates the language inductive bias into the encoderdecoder image captioning framework for more human-like captions. Intuitively, we humans use the inductive bias to compose collocations and contextual inference in discourse. For example, when we see the relation "person on bike", it is natural to replace "on" with "ride" and infer "person riding bike on a road" even the "road" is not evident. Therefore, exploiting such bias as a language prior is expected to help the conventional encoder-decoder models less likely overfit to the dataset bias and focus on reasoning. Specifically, we use the scene graph -a directed graph (G) where an object node is connected by adjective nodes and relationship nodes -to represent the complex structural layout of both image (I) and sentence (S). In the textual domain, we use SGAE to learn a dictionary (D) that helps to reconstruct sentences in the S → G → D → S pipeline, where D encodes the desired language prior; in the vision-language domain, we use the shared D to guide the encoder-decoder in the I → G → D → S pipeline. Thanks to the scene graph representation and shared dictionary, the inductive bias is transferred across domains in principle. We validate the effectiveness of SGAE on the challenging MS-COCO image captioning benchmark, e.g., our SGAE-based single-model achieves a new state-of-theart 127.8 CIDEr-D on the Karpathy split, and a competitive 125.5 CIDEr-D (c40) on the official server even compared to other ensemble models. Code has been made available at: https://github.com/yangxuntu/SGAE.
translated by 谷歌翻译
It is always well believed that modeling relationships between objects would be helpful for representing and eventually describing an image. Nevertheless, there has not been evidence in support of the idea on image description generation. In this paper, we introduce a new design to explore the connections between objects for image captioning under the umbrella of attention-based encoder-decoder framework. Specifically, we present Graph Convolutional Networks plus Long Short-Term Memory (dubbed as GCN-LSTM) architecture that novelly integrates both semantic and spatial object relationships into image encoder. Technically, we build graphs over the detected objects in an image based on their spatial and semantic connections. The representations of each region proposed on objects are then refined by leveraging graph structure through GCN. With the learnt region-level features, our GCN-LSTM capitalizes on LSTM-based captioning framework with attention mechanism for sentence generation. Extensive experiments are conducted on COCO image captioning dataset, and superior results are reported when comparing to state-of-the-art approaches. More remarkably, GCN-LSTM increases CIDEr-D performance from 120.1% to 128.7% on COCO testing set.
translated by 谷歌翻译
视频字幕定位目标将复杂的视觉内容解释为文本说明,这要求模型充分了解包括对象及其交互的视频场景。流行的方法采用现成的对象检测网络来提供对象建议,并使用注意机制来建模对象之间的关系。他们通常会错过一些预验证模型的不确定语义概念,并且无法识别对象之间的确切谓词关系。在本文中,我们研究了为给定视频生成文本描述的开放研究任务,并提出了带有元概念的跨模式图(CMG)。具体而言,为了涵盖视频字幕中有用的语义概念,我们弱地学习了文本描述的相应视觉区域,其中相关的视觉区域和文本单词被命名为跨模式元概念。我们通过学习的跨模式元概念动态地构建元概念图。我们还构建了整体视频级别和本地框架级视频图,并具有预测的谓词,以建模视频序列结构。我们通过广泛的实验来验证我们提出的技术的功效,并在两个公共数据集上实现最新结果。
translated by 谷歌翻译
3D密集字幕是最近提供的新型任务,其中点云包含比2D对应物更多的几何信息。但是,由于点云中包含的更高复杂性和更广泛的对象关系,它也更具挑战性。现有方法仅将这种关系视为图表中对象特征学习的副产品,而无需特别编码它们,从而导致了亚最佳结果。在本文中,旨在通过捕获和利用3D场景中的复杂关系来改善3D密集的字幕,我们提出了更多的多阶关系挖掘模型,以支持产生更多的描述性和全面标题。从技术上讲,我们更多地以渐进的方式编码对象关系,因为可以从有限数量的基本关系中推论复杂的关系。我们首先设计了一种新型的空间布局图卷积(SLGC),该图形将几个一阶关系编码为在3D对象建议上构造的图的边缘。接下来,从结果图中,我们进一步提取多个三重态,这些三重态将基本的一阶关系封装为基本单元,并构造几个以对象为中心的三重态注意图(OTAG),以推断每个目标对象的多阶关系。将OTAG的更新的节点功能聚合并输入标题解码器,以提供丰富的关系提示,因此可以生成包括与上下文对象的不同关系的字幕。 SCAN2CAP数据集的广泛实验证明了我们提出的更多及其组件的有效性,并且我们也表现优于当前最新方法。我们的代码可从https://github.com/sxjyjay/more获得。
translated by 谷歌翻译
场景图是一个场景的结构化表示,可以清楚地表达场景中对象之间的对象,属性和关系。随着计算机视觉技术继续发展,只需检测和识别图像中的对象,人们不再满足。相反,人们期待着对视觉场景更高的理解和推理。例如,给定图像,我们希望不仅检测和识别图像中的对象,还要知道对象之间的关系(视觉关系检测),并基于图像内容生成文本描述(图像标题)。或者,我们可能希望机器告诉我们图像中的小女孩正在做什么(视觉问题应答(VQA)),甚至从图像中移除狗并找到类似的图像(图像编辑和检索)等。这些任务需要更高水平的图像视觉任务的理解和推理。场景图只是场景理解的强大工具。因此,场景图引起了大量研究人员的注意力,相关的研究往往是跨模型,复杂,快速发展的。然而,目前没有对场景图的相对系统的调查。为此,本调查对现行场景图研究进行了全面调查。更具体地说,我们首先总结了场景图的一般定义,随后对场景图(SGG)和SGG的发电方法进行了全面和系统的讨论,借助于先验知识。然后,我们调查了场景图的主要应用,并汇总了最常用的数据集。最后,我们对场景图的未来发展提供了一些见解。我们相信这将是未来研究场景图的一个非常有帮助的基础。
translated by 谷歌翻译
深度学习技术导致了通用对象检测领域的显着突破,近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解,场景图一直是研究的焦点。场景图生成(SGG)是指自动将图像映射到语义结构场景图中的任务,这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务,但社区已经提出了许多SGG方法并取得了良好的效果。在本文中,我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品,涵盖了不同的输入方式,并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法,概述和解释SGG的机制和策略。最后,我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。
translated by 谷歌翻译
描述使用自然语言的图像被广泛称为图像标题,这是由于计算机视觉和自然语言生成技术的发展而达成了一致的进展。虽然传统的标题模型基于流行度量的高精度,即BLEU,苹果酒和香料,探索了标题与其他类似图像中的标题的能力。为了产生独特的标题,一些先驱采用对比学习或重新加权地面真理标题,其侧重于一个输入图像。然而,忽略了类似图像组中对象之间的关系(例如,相同专辑中的项目或属性或细粒度事件中的物品)。在本文中,我们使用基于组的独特标题模型(Gdiscap)来提高图像标题的独特性,其将每个图像与一个类似的组中的其他图像进行比较,并突出显示每个图像的唯一性。特别是,我们提出了一种基于组的内存注意力(GMA)模块,其存储在图像组中是唯一的对象特征(即,与其他图像中的对象的低相似性)。生成字幕时突出显示这些唯一的对象功能,从而产生更有独特的标题。此外,选择地面标题中的独特单词来监督语言解码器和GMA。最后,我们提出了一种新的评估度量,独特的单词率(Diswordrate)来测量标题的独特性。定量结果表明,该方法显着提高了几种基线模型的独特性,并实现了精度和独特性的最先进的性能。用户学习的结果与定量评估一致,并证明了新的公制Diswordrate的合理性。
translated by 谷歌翻译
图像标题是自动生成句子的任务,以最好的方式生成描述输入图像。最近用于自动生成图像标题的最成功的技术最近使用了细心的深度学习模型。设计了深入学习模型的设计方式有变化。在本调查中,我们为图像标题的细心深度学习模型提供了相关的文献述评。而不是对深度图像标题模型的所有先前工作进行全面审查,我们解释了用于深度学习模型中的图像标题任务的各种类型的注意机制。用于图像标题的最成功的深度学习模型遵循编码器解码器架构,尽管这些模型采用注意机制的方式存在差异。通过分析图像标题的不同细节深层模型的性能结果,我们的目标是在图像标题中找到深度模型中最成功的注意机制。柔软的关注,自下而上的关注和多主题是一种广泛应用于图像标题的最先进的深度学习模型的关注机构的类型。在当前时,最佳结果是从多针关注的变体实现的,以自下而上的关注。
translated by 谷歌翻译
最近,越来越多的努力集中在弱监督的场景图(WSSGG)上。 WSSGG的主流解决方案通常遵循相同的管道:它们首先将文本实体与弱图像级别的监督(例如,未定位的关系三胞胎或字幕)相结合,然后用图像区域对齐,然后以完全固定的实例训练SGG模型 - 级别的“伪”标签。但是,我们认为大多数现有的WSSGG仅专注于对象一致性,这意味着接地区域应具有与文本实体相同的对象类别标签。尽管他们忽略了理想对齐的另一个基本要求:相互作用,这意味着接地区域对应具有与文本实体对相同的相互作用(即视觉关系)。因此,在本文中,我们建议通过使用对象感知和互动感知知识来增强简单的接地模块,以获取更可靠的伪标签。为了更好地利用这两种类型的知识,我们将它们视为两位老师,并融合其生成的目标,以指导我们接地模块的训练过程。具体而言,我们设计了两种不同的策略,可以通过评估每个培训样本的可靠性来适应不同的教师。广泛的实验表明,我们的方法始终在各种弱监督下提高WSSGG性能。
translated by 谷歌翻译
Learning descriptive 3D features is crucial for understanding 3D scenes with diverse objects and complex structures. However, it is usually unknown whether important geometric attributes and scene context obtain enough emphasis in an end-to-end trained 3D scene understanding network. To guide 3D feature learning toward important geometric attributes and scene context, we explore the help of textual scene descriptions. Given some free-form descriptions paired with 3D scenes, we extract the knowledge regarding the object relationships and object attributes. We then inject the knowledge to 3D feature learning through three classification-based auxiliary tasks. This language-assisted training can be combined with modern object detection and instance segmentation methods to promote 3D semantic scene understanding, especially in a label-deficient regime. Moreover, the 3D feature learned with language assistance is better aligned with the language features, which can benefit various 3D-language multimodal tasks. Experiments on several benchmarks of 3D-only and 3D-language tasks demonstrate the effectiveness of our language-assisted 3D feature learning. Code is available at https://github.com/Asterisci/Language-Assisted-3D.
translated by 谷歌翻译
人们说:“一张照片值一千字”。那么,我们如何从图像中获取丰富的信息?我们认为,通过使用视觉线索来桥接大型的识别视觉基础模型和语言模型,我们可以无需任何额外的跨模式训练。得益于基础模型的强大零拍功能,我们首先构建图像的丰富语义表示(例如,图像标签,对象属性 /位置,字幕)作为结构化的文本提示,称为视觉线索,使用视觉基础模型。基于视觉线索,我们使用大型语言模型为视觉内容生成一系列综合描述,然后再次通过视觉模型验证,以选择与图像最合适的候选人。我们通过定量和定性测量评估生成的描述的质量。结果证明了这种结构化语义表示的有效性。
translated by 谷歌翻译
本文对过去二十年来对自然语言生成(NLG)的研究提供了全面的审查,特别是与数据到文本生成和文本到文本生成深度学习方法有关,以及NLG的新应用技术。该调查旨在(a)给出关于NLG核心任务的最新综合,以及该领域采用的建筑;(b)详细介绍各种NLG任务和数据集,并提请注意NLG评估中的挑战,专注于不同的评估方法及其关系;(c)强调一些未来的强调和相对近期的研究问题,因为NLG和其他人工智能领域的协同作用而增加,例如计算机视觉,文本和计算创造力。
translated by 谷歌翻译
最近关于3D密集标题和视觉接地的研究取得了令人印象深刻的结果。尽管这两个方面都有发展,但可用的3D视觉语言数据的有限量导致3D视觉接地和3D密度标题方法的过度问题。此外,尚未完全研究如何辨别地描述复杂3D环境中的对象。为了解决这些挑战,我们呈现D3Net,即最终的神经扬声器 - 侦听器架构,可以检测,描述和辨别。我们的D3Net以自我批评方式统一3D密集的标题和视觉接地。D3Net的这种自我关键性质还引入了对象标题生成过程中的可怜性,并且可以通过部分注释的描述启用对Scannet数据的半监督培训。我们的方法在扫描带数据集的两个任务中优于SOTA方法,超越了SOTA 3D密度标题方法,通过显着的余量(23.56%的填充剂@ 0.5iou改进)。
translated by 谷歌翻译
This paper presents a framework for jointly grounding objects that follow certain semantic relationship constraints given in a scene graph. A typical natural scene contains several objects, often exhibiting visual relationships of varied complexities between them. These inter-object relationships provide strong contextual cues toward improving grounding performance compared to a traditional object query-only-based localization task. A scene graph is an efficient and structured way to represent all the objects and their semantic relationships in the image. In an attempt towards bridging these two modalities representing scenes and utilizing contextual information for improving object localization, we rigorously study the problem of grounding scene graphs on natural images. To this end, we propose a novel graph neural network-based approach referred to as Visio-Lingual Message PAssing Graph Neural Network (VL-MPAG Net). In VL-MPAG Net, we first construct a directed graph with object proposals as nodes and an edge between a pair of nodes representing a plausible relation between them. Then a three-step inter-graph and intra-graph message passing is performed to learn the context-dependent representation of the proposals and query objects. These object representations are used to score the proposals to generate object localization. The proposed method significantly outperforms the baselines on four public datasets.
translated by 谷歌翻译
Automatically generating a natural language description of an image has attracted interests recently both because of its importance in practical applications and because it connects two major artificial intelligence fields: computer vision and natural language processing. Existing approaches are either top-down, which start from a gist of an image and convert it into words, or bottom-up, which come up with words describing various aspects of an image and then combine them. In this paper, we propose a new algorithm that combines both approaches through a model of semantic attention. Our algorithm learns to selectively attend to semantic concept proposals and fuse them into hidden states and outputs of recurrent neural networks.The selection and fusion form a feedback connecting the top-down and bottom-up computation. We evaluate our algorithm on two public benchmarks: Microsoft COCO and Flickr30K. Experimental results show that our algorithm significantly outperforms the state-of-the-art approaches consistently across different evaluation metrics.
translated by 谷歌翻译