智能论文笔记

Relational Graph Learning for Grounded Video Description Generation

Wenqiao Zhang , Xin Eric Wang , Siliang Tang , Haizhou Shi , Haocheng Shi , Jun Xiao , Yueting Zhuang , William Yang Wang

分类：计算机视觉 | 人工智能 | 自然语言处理

2021-12-02

接地视频描述（GVD）促使标题模型动态地参加适当的视频区域（例如，对象）并生成描述。这样的设置可以帮助解释标题模型的决策，并防止模型在其描述中幻觉的对象词。然而，这种设计主要侧重于对象词生成，因此可能忽略细粒度信息并遭受缺失的视觉概念。此外，关系词（例如，“左转或右”）是通常的时空推断结果，即，这些单词不能在某些空间区域接地。为了解决上述限制，我们设计了GVD的新型关系图学习框架，其中旨在探索细粒度的视觉概念。此外，精细图可以被视为关系归纳知识，以帮助标题模型选择所需的相关信息来生成正确的单词。我们通过自动指标和人类评估验证我们模型的有效性，结果表明，我们的方法可以产生更细粒度和准确的描述，并解决了物体幻觉的问题。

translated by 谷歌翻译

Consensus Graph Representation Learning for Better Grounded Image Captioning

Wenqiao Zhang , Haochen Shi , Siliang Tang , Jun Xiao , Qiang Yu , Yueting Zhuang

分类：计算机视觉 | 人工智能 | 自然语言处理

2021-12-02

当代视觉标题模型通常是幻觉的对象，其实际上并不是一种场景，因为目视错误分类或过度依赖导致视觉信息与目标词汇词之间的语义不一致。最常见的方式是鼓励标题模型将生成的对象字或短语动态链接到图像的适当区域，即接地图像标题（GIC）。然而，GIC利用辅助任务（接地对象），这些任务（接地对象）没有解决对象幻觉的关键问题，即语义不一致。在本文中，我们对上面的问题进行了一种小说 - 利用视觉和语言模式之间的语义一致性。具体而言，我们提出了与GIC的共识RRAPH表示学习框架（CGRL），其纳入接地标题管道的共识表示。通过将可视图（例如，场景图）对准到图表中的节点和边的语言图来学习共识。通过对齐的共识，标题模型可以捕获正确的语言特征和视觉相关性，然后进一步接地适当的图像区域。我们验证了我们模型的有效性，对象幻觉（-9％主席）在Flickr30k实体数据集中显着下降。此外，我们的CGR还通过多种自动度量和人体评估评估，结果表明，该方法可以同时提高图像标题（+2.9苹果酒）和接地的性能（+2.3 f1loc）。

translated by 谷歌翻译

MAGIC: Multimodal relAtional Graph adversarIal inferenCe for Diverse and Unpaired Text-based Image Captioning

Wenqiao Zhang , Haochen Shi , Jiannan Guo , Shengyu Zhang , Qingpeng Cai , Juncheng Li , Sihui Luo , Yueting Zhuang

分类：计算机视觉 | 人工智能

2021-12-13

基于文本的图像标题（TextCAP）需要同时对视觉内容的理解并读取图像文本以生成自然语言描述。虽然一项任务可以教导机器来了解复杂的人类环境进一步鉴于我们日常环境中的文本是全部的，但它在正常标题中提出了额外的挑战。基于文本的图像直观地包含丰富和复杂的多模式关系内容，即可以从多视图而不是单个字幕来扩散图像细节。当然，我们可以介绍额外的配对训练数据以显示图像描述的多样性，这一过程是具有额外文本的文本映射对注释的劳动密集型和耗时。基于上述洞察力，我们调查如何使用未配对的培训范例来生成专注于不同图像零件的不同标题。我们提出了多模式关系图对抗性推论（魔法）框架，用于多样化和未配对的Textcap。该框架可以自适应地构建图形之间的图像和模型复杂关系的多个多模式关系图来表示描述性分集。此外，从建模的图表中开发了一种级联的生成对抗性网络，以推断图像句子特征对齐和语言相干水平中的未配对字幕。我们验证了魔法在从图像的不同关系信息项目生成不同标题时的有效性。实验结果表明，魔法可以在不使用任何图像标题训练对的情况下产生非常有前途的结果。

translated by 谷歌翻译

Cross-Modal Graph with Meta Concepts for Video Captioning

Hao Wang , Guosheng Lin , Steven C. H. Hoi , Chunyan Miao

分类：计算机视觉

2021-08-14

视频字幕定位目标将复杂的视觉内容解释为文本说明，这要求模型充分了解包括对象及其交互的视频场景。流行的方法采用现成的对象检测网络来提供对象建议，并使用注意机制来建模对象之间的关系。他们通常会错过一些预验证模型的不确定语义概念，并且无法识别对象之间的确切谓词关系。在本文中，我们研究了为给定视频生成文本描述的开放研究任务，并提出了带有元概念的跨模式图（CMG）。具体而言，为了涵盖视频字幕中有用的语义概念，我们弱地学习了文本描述的相应视觉区域，其中相关的视觉区域和文本单词被命名为跨模式元概念。我们通过学习的跨模式元概念动态地构建元概念图。我们还构建了整体视频级别和本地框架级视频图，并具有预测的谓词，以建模视频序列结构。我们通过广泛的实验来验证我们提出的技术的功效，并在两个公共数据集上实现最新结果。

translated by 谷歌翻译

Auto-encoding scene graphs for image captioning

分类：

We propose Scene Graph Auto-Encoder (SGAE) that incorporates the language inductive bias into the encoderdecoder image captioning framework for more human-like captions. Intuitively, we humans use the inductive bias to compose collocations and contextual inference in discourse. For example, when we see the relation "person on bike", it is natural to replace "on" with "ride" and infer "person riding bike on a road" even the "road" is not evident. Therefore, exploiting such bias as a language prior is expected to help the conventional encoder-decoder models less likely overfit to the dataset bias and focus on reasoning. Specifically, we use the scene graph -a directed graph (G) where an object node is connected by adjective nodes and relationship nodes -to represent the complex structural layout of both image (I) and sentence (S). In the textual domain, we use SGAE to learn a dictionary (D) that helps to reconstruct sentences in the S → G → D → S pipeline, where D encodes the desired language prior; in the vision-language domain, we use the shared D to guide the encoder-decoder in the I → G → D → S pipeline. Thanks to the scene graph representation and shared dictionary, the inductive bias is transferred across domains in principle. We validate the effectiveness of SGAE on the challenging MS-COCO image captioning benchmark, e.g., our SGAE-based single-model achieves a new state-of-theart 127.8 CIDEr-D on the Karpathy split, and a competitive 125.5 CIDEr-D (c40) on the official server even compared to other ensemble models. Code has been made available at: https://github.com/yangxuntu/SGAE.

translated by 谷歌翻译

ReFormer: The Relational Transformer for Image Captioning

Xuewen Yang , Yingru Liu , Xin Wang

分类：计算机视觉

2021-07-29

图像字幕显示可以通过使用场景图来表示图像中对象的关系来实现更好的性能。当前字幕编码器通常使用图形卷积网（GCN）来表示关系信息，并通过串联或卷积将其与对象区域特征合并，以获取句子解码的最终输入。但是，由于两个原因，现有方法中基于GCN的编码器在字幕上的有效性较小。首先，使用图像字幕作为目标（即最大似然估计），而不是以关系为中心的损失无法完全探索编码器的潜力。其次，使用预训练的模型代替编码器本身提取关系不是灵活的，并且不能有助于模型的解释性。为了提高图像字幕的质量，我们提出了一个新颖的体系结构改革者 - 一种关系变压器，可以生成具有嵌入关系信息的功能，并明确表达图像中对象之间的成对关系。改革者将场景图的生成目标与使用一个修改后的变压器模型的图像字幕结合在一起。这种设计使改革者不仅可以通过提取强大的关系图像特征的利益生成更好的图像标题，还可以生成场景图，以明确描述配对关系。公开可用数据集的实验表明，我们的模型在图像字幕和场景图生成上的最先进方法明显优于最先进的方法

translated by 谷歌翻译

From Show to Tell: A Survey on Deep Learning-based Image Captioning

Matteo Stefanini , Marcella Cornia , Lorenzo Baraldi , Silvia Cascianelli , Giuseppe Fiameni , Rita Cucchiara

分类：计算机视觉 | 自然语言处理

2021-07-14

连接视觉和语言在生成智能中起着重要作用。因此，已经致力于图像标题的大型研究工作，即用句法和语义有意义的句子描述图像。从2015年开始，该任务通常通过由Visual Encoder组成的管道和文本生成的语言模型来解决任务。在这些年来，两种组件通过对象区域，属性，介绍多模态连接，完全关注方法和伯特早期融合策略的利用而显着发展。但是，无论令人印象深刻的结果，图像标题的研究还没有达到结论性答案。这项工作旨在提供图像标题方法的全面概述，从视觉编码和文本生成到培训策略，数据集和评估度量。在这方面，我们量化地比较了许多相关的最先进的方法来确定架构和培训策略中最有影响力的技术创新。此外，讨论了问题的许多变体及其开放挑战。这项工作的最终目标是作为理解现有文献的工具，并突出显示计算机视觉和自然语言处理的研究领域的未来方向可以找到最佳的协同作用。

translated by 谷歌翻译

Scene Graphs: A Survey of Generations and Applications

Xiaojun Chang , Pengzhen Ren , Pengfei Xu , Zhihui Li , Xiaojiang Chen , Alex Hauptmann

分类：计算机视觉

2021-03-17

场景图是一个场景的结构化表示，可以清楚地表达场景中对象之间的对象，属性和关系。随着计算机视觉技术继续发展，只需检测和识别图像中的对象，人们不再满足。相反，人们期待着对视觉场景更高的理解和推理。例如，给定图像，我们希望不仅检测和识别图像中的对象，还要知道对象之间的关系（视觉关系检测），并基于图像内容生成文本描述（图像标题）。或者，我们可能希望机器告诉我们图像中的小女孩正在做什么（视觉问题应答（VQA）），甚至从图像中移除狗并找到类似的图像（图像编辑和检索）等。这些任务需要更高水平的图像视觉任务的理解和推理。场景图只是场景理解的强大工具。因此，场景图引起了大量研究人员的注意力，相关的研究往往是跨模型，复杂，快速发展的。然而，目前没有对场景图的相对系统的调查。为此，本调查对现行场景图研究进行了全面调查。更具体地说，我们首先总结了场景图的一般定义，随后对场景图（SGG）和SGG的发电方法进行了全面和系统的讨论，借助于先验知识。然后，我们调查了场景图的主要应用，并汇总了最常用的数据集。最后，我们对场景图的未来发展提供了一些见解。我们相信这将是未来研究场景图的一个非常有帮助的基础。

translated by 谷歌翻译

Exploring Visual Relationship for Image Captioning

Ting Yao , Yingwei Pan , Yehao Li , Tao Mei

分类：

2018-09-19

It is always well believed that modeling relationships between objects would be helpful for representing and eventually describing an image. Nevertheless, there has not been evidence in support of the idea on image description generation. In this paper, we introduce a new design to explore the connections between objects for image captioning under the umbrella of attention-based encoder-decoder framework. Specifically, we present Graph Convolutional Networks plus Long Short-Term Memory (dubbed as GCN-LSTM) architecture that novelly integrates both semantic and spatial object relationships into image encoder. Technically, we build graphs over the detected objects in an image based on their spatial and semantic connections. The representations of each region proposed on objects are then refined by leveraging graph structure through GCN. With the learnt region-level features, our GCN-LSTM capitalizes on LSTM-based captioning framework with attention mechanism for sentence generation. Extensive experiments are conducted on COCO image captioning dataset, and superior results are reported when comparing to state-of-the-art approaches. More remarkably, GCN-LSTM increases CIDEr-D performance from 120.1% to 128.7% on COCO testing set.

translated by 谷歌翻译

Scene Graph Generation: A Comprehensive Survey

Guangming Zhu , Liang Zhang , Youliang Jiang , Yixuan Dang , Haoran Hou , Peiyi Shen , Mingtao Feng , Xia Zhao , Qiguang Miao , Syed Afaq Ali Shah

分类：计算机视觉

2022-01-03

深度学习技术导致了通用对象检测领域的显着突破，近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解，场景图一直是研究的焦点。场景图生成（SGG）是指自动将图像映射到语义结构场景图中的任务，这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务，但社区已经提出了许多SGG方法并取得了良好的效果。在本文中，我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品，涵盖了不同的输入方式，并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法，概述和解释SGG的机制和策略。最后，我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。

translated by 谷歌翻译

Language-Assisted 3D Feature Learning for Semantic Scene Understanding

Junbo Zhang , Guofan Fan , Guanghan Wang , Zhengyuan Su , Kaisheng Ma , Li Yi

分类：计算机视觉

2022-11-25

Learning descriptive 3D features is crucial for understanding 3D scenes with diverse objects and complex structures. However, it is usually unknown whether important geometric attributes and scene context obtain enough emphasis in an end-to-end trained 3D scene understanding network. To guide 3D feature learning toward important geometric attributes and scene context, we explore the help of textual scene descriptions. Given some free-form descriptions paired with 3D scenes, we extract the knowledge regarding the object relationships and object attributes. We then inject the knowledge to 3D feature learning through three classification-based auxiliary tasks. This language-assisted training can be combined with modern object detection and instance segmentation methods to promote 3D semantic scene understanding, especially in a label-deficient regime. Moreover, the 3D feature learned with language assistance is better aligned with the language features, which can benefit various 3D-language multimodal tasks. Experiments on several benchmarks of 3D-only and 3D-language tasks demonstrate the effectiveness of our language-assisted 3D feature learning. Code is available at https://github.com/Asterisci/Language-Assisted-3D.

translated by 谷歌翻译

Hierarchical Modular Network for Video Captioning

Hanhua Ye , Guorong Li , Yuankai Qi , Shuhui Wang , Qingming Huang , Ming-Hsuan Yang

分类：计算机视觉

2021-11-24

视频标题旨在根据内容生成自然语言描述，其中表示学习起到至关重要的作用。现有方法主要通过对地理文本的生成标题的字词比较来在监督学习框架内开发，而不会完全利用语言语义。在这项工作中，我们提出了一个分层模块化网络，在生成字幕之前从三个级别桥接视频表示和语言语义。特别是，层次结构由以下组成：（i）实体级别，其突出显示最有可能在字幕中提及的对象。（ii）谓词级别，它学习在突出显示的对象上调节的行动，并由标题中的谓词进行监督。（iii）句子级别，了解全局语义表示，并受到整个标题的监督。每个级别由一个模块实现。广泛的实验结果表明，该方法对两个广泛使用的基准测试的最先进模型有利地表现出：MSVD 104.0％和苹果酒评分中的MSR-VTT 51.5％。

translated by 谷歌翻译

MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes

Yang Jiao , Shaoxiang Chen , Zequn Jie , Jingjing Chen , Lin Ma , Yu-Gang Jiang

分类：计算机视觉 | 人工智能 | 自然语言处理

2022-03-10

3D密集字幕是最近提供的新型任务，其中点云包含比2D对应物更多的几何信息。但是，由于点云中包含的更高复杂性和更广泛的对象关系，它也更具挑战性。现有方法仅将这种关系视为图表中对象特征学习的副产品，而无需特别编码它们，从而导致了亚最佳结果。在本文中，旨在通过捕获和利用3D场景中的复杂关系来改善3D密集的字幕，我们提出了更多的多阶关系挖掘模型，以支持产生更多的描述性和全面标题。从技术上讲，我们更多地以渐进的方式编码对象关系，因为可以从有限数量的基本关系中推论复杂的关系。我们首先设计了一种新型的空间布局图卷积（SLGC），该图形将几个一阶关系编码为在3D对象建议上构造的图的边缘。接下来，从结果图中，我们进一步提取多个三重态，这些三重态将基本的一阶关系封装为基本单元，并构造几个以对象为中心的三重态注意图（OTAG），以推断每个目标对象的多阶关系。将OTAG的更新的节点功能聚合并输入标题解码器，以提供丰富的关系提示，因此可以生成包括与上下文对象的不同关系的字幕。 SCAN2CAP数据集的广泛实验证明了我们提出的更多及其组件的有效性，并且我们也表现优于当前最新方法。我们的代码可从https://github.com/sxjyjay/more获得。

translated by 谷歌翻译

Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases

Zhihao Yuan , Xu Yan , Zhuo Li , Xuhao Li , Yao Guo , Shuguang Cui , Zhen Li

分类：计算机视觉

2022-07-05

3D场景理解的最新进展探索了视觉接地（3DVG），以通过语言描述定位目标对象。但是，现有方法仅考虑整个句子和目标对象之间的依赖性，从而忽略了上下文与非目标之间的细粒度关系。在本文中，我们将3DVG扩展到更可靠和可解释的任务，称为3D短语意识接地（3DPAG）。 3DPAG任务旨在通过明确识别所有与短语相关的对象，然后根据上下文短语进行推理，旨在在3D场景中定位目标对象。为了解决这个问题，我们在可用的3DVG数据集中的170k句子中标记了大约400k短语级别的注释，即NR3D，SR3D和ScanRefer。通过利用这些开发的数据集，我们提出了一个新颖的框架，即Phraserefer，该框架通过短语对象对准优化以及短语特异性预训练来进行短语感知和对象级表示学习。在我们的环境中，我们将先前的3DVG方法扩展到短语感知方案，并提供指标以衡量3DPAG任务的解释性。广泛的结果证实，3DPAG有效地提高了3DVG，而Phraserefer分别在SR3D，NR3D和SCANREFER上分别达到三个数据集（即63.0％，54.4％和55.5％）的最先进。

translated by 谷歌翻译

Visual Spatio-Temporal Relation-Enhanced Network for Cross-Modal Text-Video Retrieval

Ning Han , Jingjing Chen , Guangyi Xiao , Yawen Zeng , Chuhao Shi , Hao Chen

分类：计算机视觉

2021-10-29

文本和视频之间交叉模态检索的任务旨在了解视觉和语言之间的对应关系。现有研究遵循基于文本和视频嵌入的测量文本视频相似度的趋势。在常见的做法中，通过将视频帧馈送到用于全球视觉特征提取的视频帧或仅通过使用图形卷积网络使用本地细粒度的框架区域来实现简单的语义关系来构造视频表示。然而，这些视频表示在学习视频表示中的视觉组件之间没有充分利用时空关系，从而无法区分具有相同视觉组件但具有不同关系的视频。为了解决这个问题，我们提出了一种视觉时空关系增强的网络（VSR-Net），这是一种新的跨模型检索框架，其考虑组件之间的空间视觉关系，以增强桥接文本 - 视频模型中的全局视频表示。具体地，使用多层时空变压器来编码视觉时空关系，以学习视觉关系特征。我们将全局视觉和细粒度的关系功能与两个嵌入空格上的文本功能对齐，用于交叉模态文本 - 视频检索。在MSR-VTT和MSVD数据集中进行了广泛的实验。结果表明了我们提出的模型的有效性。我们将发布促进未来研究的代码。

translated by 谷歌翻译

Image Captioning based on Feature Refinement and Reflective Decoding

Ghadah Alabduljabbar , Hafida Benhidour , Said Kerrache

分类：计算机视觉

2022-06-16

自动在自然语言中自动生成图像的描述称为图像字幕。这是一个积极的研究主题，位于人工智能，计算机视觉和自然语言处理中两个主要领域的交集。图像字幕是图像理解中的重要挑战之一，因为它不仅需要识别图像中的显着对象，还需要其属性及其相互作用的方式。然后，系统必须生成句法和语义上正确的标题，该标题描述了自然语言的图像内容。鉴于深度学习模型的重大进展及其有效编码大量图像并生成正确句子的能力，最近已经提出了几种基于神经的字幕方法，每种方法都试图达到更好的准确性和标题质量。本文介绍了一个基于编码器的图像字幕系统，其中编码器使用以RESNET-101作为骨干为骨干来提取图像中每个区域的空间和全局特征。此阶段之后是一个精致的模型，该模型使用注意力进行注意的机制来提取目标图像对象的视觉特征，然后确定其相互作用。解码器由一个基于注意力的复发模块和一个反思性注意模块组成，该模块会协作地将注意力应用于视觉和文本特征，以增强解码器对长期顺序依赖性建模的能力。在两个基准数据集（MSCOCO和FLICKR30K）上进行的广泛实验显示了提出的方法和生成的字幕的高质量。

translated by 谷歌翻译

A Survey of Natural Language Generation

Chenhe Dong , Yinghui Li , Haifan Gong , Miaoxin Chen , Junxin Li , Ying Shen , Min Yang

分类：自然语言处理 | 人工智能 | 机器学习

2021-12-22

本文对过去二十年来对自然语言生成（NLG）的研究提供了全面的审查，特别是与数据到文本生成和文本到文本生成深度学习方法有关，以及NLG的新应用技术。该调查旨在（a）给出关于NLG核心任务的最新综合，以及该领域采用的建筑;（b）详细介绍各种NLG任务和数据集，并提请注意NLG评估中的挑战，专注于不同的评估方法及其关系;（c）强调一些未来的强调和相对近期的研究问题，因为NLG和其他人工智能领域的协同作用而增加，例如计算机视觉，文本和计算创造力。

translated by 谷歌翻译

Group-based Distinctive Image Captioning with Memory Attention

Jiuniu Wang , Wenjia Xu , Qingzhong Wang , Antoni B. Chan

分类：计算机视觉 | 自然语言处理 | 机器学习

2021-08-20

描述使用自然语言的图像被广泛称为图像标题，这是由于计算机视觉和自然语言生成技术的发展而达成了一致的进展。虽然传统的标题模型基于流行度量的高精度，即BLEU，苹果酒和香料，探索了标题与其他类似图像中的标题的能力。为了产生独特的标题，一些先驱采用对比学习或重新加权地面真理标题，其侧重于一个输入图像。然而，忽略了类似图像组中对象之间的关系（例如，相同专辑中的项目或属性或细粒度事件中的物品）。在本文中，我们使用基于组的独特标题模型（Gdiscap）来提高图像标题的独特性，其将每个图像与一个类似的组中的其他图像进行比较，并突出显示每个图像的唯一性。特别是，我们提出了一种基于组的内存注意力（GMA）模块，其存储在图像组中是唯一的对象特征（即，与其他图像中的对象的低相似性）。生成字幕时突出显示这些唯一的对象功能，从而产生更有独特的标题。此外，选择地面标题中的独特单词来监督语言解码器和GMA。最后，我们提出了一种新的评估度量，独特的单词率（Diswordrate）来测量标题的独特性。定量结果表明，该方法显着提高了几种基线模型的独特性，并实现了精度和独特性的最先进的性能。用户学习的结果与定量评估一致，并证明了新的公制Diswordrate的合理性。

translated by 谷歌翻译

D3Net: A Speaker-Listener Architecture for Semi-supervised Dense Captioning and Visual Grounding in RGB-D Scans

Dave Zhenyu Chen , Qirui Wu , Matthias Nießner , Angel X. Chang

分类：计算机视觉

2021-12-02

最近关于3D密集标题和视觉接地的研究取得了令人印象深刻的结果。尽管这两个方面都有发展，但可用的3D视觉语言数据的有限量导致3D视觉接地和3D密度标题方法的过度问题。此外，尚未完全研究如何辨别地描述复杂3D环境中的对象。为了解决这些挑战，我们呈现D3Net，即最终的神经扬声器 - 侦听器架构，可以检测，描述和辨别。我们的D3Net以自我批评方式统一3D密集的标题和视觉接地。D3Net的这种自我关键性质还引入了对象标题生成过程中的可怜性，并且可以通过部分注释的描述启用对Scannet数据的半监督培训。我们的方法在扫描带数据集的两个任务中优于SOTA方法，超越了SOTA 3D密度标题方法，通过显着的余量（23.56％的填充剂@ 0.5iou改进）。

translated by 谷歌翻译

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Peter Anderson , Xiaodong He , Chris Buehler , Damien Teney , Mark Johnson , Stephen Gould , Lei Zhang

分类：

2017-07-25

Top-down visual attention mechanisms have been used extensively in image captioning and visual question answering (VQA) to enable deeper image understanding through fine-grained analysis and even multiple steps of reasoning. In this work, we propose a combined bottom-up and topdown attention mechanism that enables attention to be calculated at the level of objects and other salient image regions. This is the natural basis for attention to be considered. Within our approach, the bottom-up mechanism (based on Faster R-CNN) proposes image regions, each with an associated feature vector, while the top-down mechanism determines feature weightings. Applying this approach to image captioning, our results on the MSCOCO test server establish a new state-of-the-art for the task, achieving CIDEr / SPICE / BLEU-4 scores of 117.9, 21.5 and 36.9, respectively. Demonstrating the broad applicability of the method, applying the same approach to VQA we obtain first place in the 2017 VQA Challenge.

translated by 谷歌翻译