Most TextVQA approaches focus on the integration of objects, scene texts and question words by a simple transformer encoder. But this fails to capture the semantic relations between different modalities. The paper proposes a Scene Graph based co-Attention Network (SceneGATE) for TextVQA, which reveals the semantic relations among the objects, Optical Character Recognition (OCR) tokens and the question words. It is achieved by a TextVQA-based scene graph that discovers the underlying semantics of an image. We created a guided-attention module to capture the intra-modal interplay between the language and the vision as a guidance for inter-modal interactions. To make explicit teaching of the relations between the two modalities, we proposed and integrated two attention modules, namely a scene graph-based semantic relation-aware attention and a positional relation-aware attention. We conducted extensive experiments on two benchmark datasets, Text-VQA and ST-VQA. It is shown that our SceneGATE method outperformed existing ones because of the scene graph and its attention modules.
translated by 谷歌翻译
在本文中,我们提出了端到端的结构化多峰关注(SMA)神经网络,主要解决了上述前两个问题。 SMA首先使用结构图表示来编码图像中出现的对象对象,对象文本和文本文本关系,然后设计多模式图注意网络以推理它。最后,由上述模块的输出由全局本地注意力应答模块处理,以通过跟随M4C迭代地生成从两个OCR和常规词汇拼接的答案。我们所提出的模型优于TextVQA数据集上的SOTA模型以及除基于预先训练的水龙头之外的所有模型中的所有模型中的ST-VQA数据集的两个任务。展示了强大的推理能力,它还在TextVQA挑战中获得了第一名的第一名。我们在几种推理模型中广泛测试了不同的OCR方法,并调查了逐步提高了OCR性能对TextVQA基准的影响。通过更好的OCR结果,不同的型号对VQA准确性的戏剧性提高,但我们的模型受益最强烈的文本视觉推理能力。要授予我们的方法,并为进一步作品提供公平的测试基础,我们还为TextVQA数据集提供人为的地面实际OCR注释,这些ocr注释未在原始版本中提供。 TextVQA数据集的代码和地面ocr注释在https://github.com/chenyugao-cs/sma提供
translated by 谷歌翻译
以前的研究如vizwiz发现,可以阅读的视觉问题(VQA)系统可以阅读和图像中的文本的理由在辅助视觉上受损人群的应用领域很有用。 TextVQA是一个用于这个问题的VQA数据集,其中问题需要回答系统来读取和理由图像中的视觉对象和文本对象。 TextVQA中的一个关键挑战是系统的设计,有效地是单独的视觉和文本对象的理由,而且还有关于这些对象之间的空间关系。这激励了使用“边缘特征”,即关于每对对象之间的关系的信息。一些当前TextVQA模型解决了这个问题,但只使用关系类别(而不是边缘特征向量),或者不要在变压器架构中使用边缘功能。为了克服这些缺点,我们提出了一种曲线图形关系变压器(GRT),除了节点信息之外,还使用边缘信息进行变压器中的图注意计算。我们发现,在不使用任何其他优化的情况下,所提出的GRT方法优于M4C基线模型的精度0.65%在Val Set上的精度和测试集0.57%。定性,我们观察到GRT对M4C具有卓越的空间推理能力。
translated by 谷歌翻译
基于文本的视觉问题回答〜(TextVQA)旨在为具有多个场景文本的图像问题提供正确的答案。在大多数情况下,文本自然附着在物体表面上。因此,文本和对象之间的空间推理在文本VQA中至关重要。但是,现有方法在从输入图像中学到的2D空间信息中受到限制,并依靠基于变压器的体系结构在融合过程中隐含地推理。在此设置下,这些2D空间推理方法无法区分同一图像平面上的视觉对象和场景文本之间的细颗粒空间关系,从而损害了TextVQA模型的可解释性和性能。在本文中,我们将3D几何信息引入了类似人类的空间推理过程,以逐步捕获关键对象的上下文知识。 %我们通过引入3D几何信息来捕获关键对象的上下文知识来制定类似人类的空间推理过程。为了增强模型对3D空间关系的理解,特别是(i)〜我们提出了一个关系预测模块,以准确定位关键对象的关注区域; (ii)〜我们设计了一个深度感知的注意校准模块,以根据关键对象校准OCR令牌的注意力。广泛的实验表明,我们的方法在TextVQA和ST-VQA数据集上实现了最先进的性能。更令人鼓舞的是,我们的模型在涉及TextVQA和ST-VQA有效拆分中的空间推理的问题上以5.7 \%和12.1 \%的明显边缘超过了他人。此外,我们还验证了模型对基于文本的图像字幕任务的普遍性。
translated by 谷歌翻译
文本VQA旨在回答需要了解图像中文本提示的问题。尽管现有的文本VQA方法取得了长足的进步,但它们的性能仍遭受了人类标记的问题解答(QA)对不足。但是,我们观察到,通常在现有数据集中没有完全利用场景文本 - 每个图像中只有一小部分文本参与了带注释的QA活动。这导致大量有用的信息浪费。为了解决这种缺陷,我们开发了一种新方法来通过明确利用每个图像的场景上下文中可用的现有文本来生成高质量和多样化的质量质量对。具体而言,我们建议,TAG是一种文本感知的视觉问题 - 答案生成的结构,该结构学会使用多模式变压器来生成有意义且准确的QA样品。该体系结构通过将生成的QA对与初始培训数据相结合,从而利用了未充满激光的场景文本信息,并增强了文本VQA模型的场景理解。对两个众所周知的Text-VQA基准(TextVQA和ST-VQA)的广泛实验结果表明,我们提议的标签有效地扩大了训练数据,有助于提高文本VQA性能而无需额外的标签努力。此外,我们的模型优于预先通过大规模数据进行训练的最先进方法。代码将公开可用。
translated by 谷歌翻译
根据图像回答语义复杂的问题是在视觉问题应答(VQA)任务中的具有挑战性。虽然图像可以通过深度学习来良好代表,但是始终简单地嵌入问题,并且不能很好地表明它的含义。此外,视觉和文本特征具有不同模式的间隙,很难对齐和利用跨模块信息。在本文中,我们专注于这两个问题,并提出了一种匹配关注(GMA)网络的图表。首先,它不仅为图像构建图形,而且在句法和嵌入信息方面构建了该问题的图表。接下来,我们通过双级图形编码器探讨了模特内的关系,然后呈现双边跨模型图匹配注意力以推断图像与问题之间的关系。然后将更新的跨模式特征发送到答案预测模块中以进行最终答案预测。实验表明,我们的网络在GQA数据集和VQA 2.0数据集上达到了最先进的性能。消融研究验证了GMA网络中每个模块的有效性。
translated by 谷歌翻译
3D场景理解是一个相对新兴的研究领域。在本文中,我们介绍了3D现实世界场景(VQA-3D)中的视觉问题应答任务,旨在给出3D场景的所有可能的问题。为了解决这个问题,提出了第一个VQA-3D数据集,即CLEVR3D,其中包含在1,129个现实世界场景中的60k个问题。具体而言,我们开发一个问题发动机利用3D场景图结构来生成不同的推理问题,涵盖物体属性的问题(即,大小,颜色和材料)及其空间关系。建立在此数据集之上,我们进一步设计了第一个VQA-3D基线模型TransVQA3D。 TransVQA3D型号采用精心设计的变压器架构,实现优越的VQA-3D性能,与纯语言基线和先前的3D推理方法直接应用于3D场景。实验结果验证了VQA-3D作为辅助任务可以提高3D场景理解的性能,包括节点明智分类和全图识别的场景图分析。
translated by 谷歌翻译
Visual Question Answering (VQA) requires a finegrained and simultaneous understanding of both the visual content of images and the textual content of questions. Therefore, designing an effective 'co-attention' model to associate key words in questions with key objects in images is central to VQA performance. So far, most successful attempts at co-attention learning have been achieved by using shallow models, and deep co-attention models show little improvement over their shallow counterparts. In this paper, we propose a deep Modular Co-Attention Network (MCAN) that consists of Modular Co-Attention (MCA) layers cascaded in depth. Each MCA layer models the self-attention of questions and images, as well as the guided-attention of images jointly using a modular composition of two basic attention units. We quantitatively and qualitatively evaluate MCAN on the benchmark VQA-v2 dataset and conduct extensive ablation studies to explore the reasons behind MCAN's effectiveness.Experimental results demonstrate that MCAN significantly outperforms the previous state-ofthe-art. Our best single model delivers 70.63% overall accuracy on the test-dev set.Code is available at https://github.com/MILVLG/mcan-vqa.
translated by 谷歌翻译
视频问题应答(VideoQA),旨在基于了解多模态视频内容正确回答给定的问题,由于视频内容丰富,这是具有挑战性的。从视频理解的角度来看,良好的视频仪框架需要了解不同语义级别的视频内容,并灵活地将不同的视频内容集成到蒸馏问题相关内容。为此,我们提出了一个名为Livlr的轻量级视觉语言推理框架。具体地,Livlr首先利用基于图形的视觉和语言编码器来获得多粒度的视觉和语言表示。随后,所获得的表示与设计的分集感知视觉语言推理模块(DAVL)集成。 DAVL考虑不同类型的表示之间的差异,并且在生成问题相关的联合表示时可以灵活地调整不同类型表示的重要性,这是一种有效和一般的表示集成方法。拟议的LIVLR轻量级,并在两个VideoQ基准,MRSVTT-QA和了解VQA上显示了其性能优势。广泛的消融研究证明了LIVLR关键部件的有效性。
translated by 谷歌翻译
在将文档解析为下游应用程序的结构化,机器可读格式时,识别非结构化数字文档的布局至关重要。文档布局分析中的最新研究通常依靠计算机视觉模型来理解文档,同时忽略其他信息,例如上下文信息或文档组件的关系,这对于捕获至关重要。我们的DOC-GCN提出了一种有效的方法,可以协调和整合异质方面以进行文档布局分析。我们首先构造图形以明确描述四个主要方面,包括句法,语义,密度和外观/视觉信息。然后,我们应用图形卷积网络来表示信息的各个方面,并使用池进行集成。最后,我们将各个方面汇总,并将它们送入2层MLP,以进行文档布局组件分类。我们的DOC-GCN实现了新的最先进的结果,从而获得了三个广泛使用的DLA数据集。
translated by 谷歌翻译
文本VQA的开放式问题回答任务通常需要读取和推理图像中很少见或完全看不见的场景文本内容。我们通过提出广义使用外部知识来增强我们对场景文本的理解来解决问题的零射击性质。我们设计一个框架,使用标准的多模式变压器来提取,验证和理性,以了解视觉语言理解任务。通过经验证据和定性结果,我们证明了外部知识如何突出实例的线索,从而有助于应对培训数据偏见,提高答案实体类型的正确性并检测名为“实体”的多字。在类似上游OCR系统和培训数据的限制下,我们生成的结果与三个公开数据集的最新结果相当。
translated by 谷歌翻译
为了实现一般的视觉问题回答(VQA)系统,必须学会回答需要在图像和外部知识上进行组成推理的更深入的问题。同时,应明确并可以解释推理过程,以了解模型的工作机制。对于人类而言,这毫不费力,但对于机器来说具有挑战性。在本文中,我们提出了一个层次图神经模块网络(HGNMN),该网络将其用于具有神经模块的多层图上的原因来解决上述问题。具体而言,我们首先通过视觉,语义和常识视图从多层图编码图像,因为支持答案的线索可能以不同的方式存在。我们的模型由几个精心设计的神经模块组成,这些神经模块在图形上执行特定的功能,这些模块可用于在不同图表内和之间进行多步推理。与现有的模块化网络相比,我们将视觉推理从一个图扩展到更多图。我们可以根据模块的权重和图形关注来明确跟踪推理过程。实验表明,我们的模型不仅可以在CRIC数据集上实现最先进的性能,而且还获得了明确且可解释的推理程序。
translated by 谷歌翻译
我们提出了一种用于场景文本视觉问题的新型多模式架构(STVQA),命名为布局感知变压器(LatR)。 STVQA的任务需要模型以推理不同的方式。因此,我们首先调查每种方式的影响,并揭示语言模块的重要性,尤其是在丰富布局信息时。考虑到这一点,我们提出了一种客观预培训计划,只需要文本和空间线索。我们表明,尽管域间隙差距,但仍然对扫描文件进行了对扫描文件的培训方案具有某些优点。扫描的文档易于采购,文本密集并具有各种布局,帮助模型通过捆绑语言和布局信息来学习各种空间线索(例如,下面等等)。与现有方法相比,我们的方法执行无词汇解码,如图所示,概括到超出培训词汇。我们进一步证明Latr改善了对OCR错误的鲁棒性,在STVQA失败的常见原因。另外,通过利用视觉变压器,我们消除了对外部物体检测器的需求。 Latr在多个数据集上赢得最先进的STVQA方法。特别是+ 7.6%的TextVQA,ST-VQA上的10.8%,+ 4.0%在OCR-VQA(所有绝对精度数字)。
translated by 谷歌翻译
Video Question Answering methods focus on commonsense reasoning and visual cognition of objects or persons and their interactions over time. Current VideoQA approaches ignore the textual information present in the video. Instead, we argue that textual information is complementary to the action and provides essential contextualisation cues to the reasoning process. To this end, we propose a novel VideoQA task that requires reading and understanding the text in the video. To explore this direction, we focus on news videos and require QA systems to comprehend and answer questions about the topics presented by combining visual and textual cues in the video. We introduce the ``NewsVideoQA'' dataset that comprises more than $8,600$ QA pairs on $3,000+$ news videos obtained from diverse news channels from around the world. We demonstrate the limitations of current Scene Text VQA and VideoQA methods and propose ways to incorporate scene text information into VideoQA methods.
translated by 谷歌翻译
手术中的视觉问题回答(VQA)在很大程度上没有探索。专家外科医生稀缺,经常被临床和学术工作负载超负荷。这种超负荷通常会限制他们从患者,医学生或初级居民与手术程序有关的时间回答问卷。有时,学生和初级居民也不要在课堂上提出太多问题以减少干扰。尽管计算机辅助的模拟器和过去的手术程序记录已经可以让他们观察和提高技能,但他们仍然非常依靠医学专家来回答他们的问题。将手术VQA系统作为可靠的“第二意见”可以作为备份,并减轻医疗专家回答这些问题的负担。缺乏注释的医学数据和特定于域的术语的存在限制了对手术程序的VQA探索。在这项工作中,我们设计了一项外科VQA任务,该任务根据外科手术场景回答有关手术程序的问卷。扩展MICCAI内窥镜视觉挑战2018数据集和工作流识别数据集,我们介绍了两个具有分类和基于句子的答案的手术VQA数据集。为了执行手术VQA,我们采用视觉文本变压器模型。我们进一步介绍了一个基于MLP的剩余Visualbert编码器模型,该模型可以在视觉令牌和文本令牌之间进行相互作用,从而改善了基于分类的答案的性能。此外,我们研究了输入图像贴片数量和时间视觉特征对分类和基于句子的答案中模型性能的影响。
translated by 谷歌翻译
最近,3D视觉和语言任务吸引了不断增长的研究兴趣。与其他视觉和语言任务相比,3D视觉问题回答(VQA)任务的利用较小,并且更容易受到语言先验和共同参考的歧义。同时,由于规模和注释方法有限,最近提出的几个3D VQA数据集并不能很好地支持3D VQA任务。在这项工作中,我们通过收集一个新的3D VQA数据集(称为FE-3DGQA),正式定义和解决3D接地的VQA任务,并具有多样化且相对自由形式的提问,以及密集和完全接地的边界框注释。为了获得更多可解释的答案,我们标记了出现在复杂的质量检查对中的对象,该对象具有不同的语义类型,包括答案接地的对象(均出现并未出现在问题中),以及用于答案的对象的上下文对象。我们还提出了一个新的3D VQA框架,以有效地预测完全视觉扎根和可解释的答案。广泛的实验证明,我们新收集的基准数据集可有效地用于评估不同方面的各种3D VQA方法,而我们新提出的框架也可以在新的基准数据集中实现最新的性能。新收集的数据集和我们的代码都将在http://github.com/zlccccc/3dgqa上公开获得。
translated by 谷歌翻译
场景图是一个场景的结构化表示,可以清楚地表达场景中对象之间的对象,属性和关系。随着计算机视觉技术继续发展,只需检测和识别图像中的对象,人们不再满足。相反,人们期待着对视觉场景更高的理解和推理。例如,给定图像,我们希望不仅检测和识别图像中的对象,还要知道对象之间的关系(视觉关系检测),并基于图像内容生成文本描述(图像标题)。或者,我们可能希望机器告诉我们图像中的小女孩正在做什么(视觉问题应答(VQA)),甚至从图像中移除狗并找到类似的图像(图像编辑和检索)等。这些任务需要更高水平的图像视觉任务的理解和推理。场景图只是场景理解的强大工具。因此,场景图引起了大量研究人员的注意力,相关的研究往往是跨模型,复杂,快速发展的。然而,目前没有对场景图的相对系统的调查。为此,本调查对现行场景图研究进行了全面调查。更具体地说,我们首先总结了场景图的一般定义,随后对场景图(SGG)和SGG的发电方法进行了全面和系统的讨论,借助于先验知识。然后,我们调查了场景图的主要应用,并汇总了最常用的数据集。最后,我们对场景图的未来发展提供了一些见解。我们相信这将是未来研究场景图的一个非常有帮助的基础。
translated by 谷歌翻译
视觉模型可以评估图像中的视觉上下文并生成描述性文本。尽管生成的文本可能是准确且句法正确的,但通常过于笼统。为了解决这个问题,最近的工作使用光学特征识别来补充视觉信息,并从图像中提取的文本进行补充。在这项工作中,我们认为,视觉模型可以受益于可以从图像中提取但不使用当前模型使用的其他信息。我们修改了以前的多模式框架,以接受来自任意数量的辅助分类器的相关信息。特别是,我们将重点放在人的名字作为附加令牌上,并创建一个新颖的图像捕获数据集,以促进用人名称的字幕。标题(PAC)中的数据集,政客和运动员包括背景下知名人士的字幕图像。通过使用此数据集对预处理的模型进行微调,我们演示了一个模型,该模型可以自然地将面部识别令牌纳入生成的文本中,通过培训有限的数据。对于PAC数据集,我们提供有关集合和基线基准分数的讨论。
translated by 谷歌翻译
Artificial Intelligence (AI) and its applications have sparked extraordinary interest in recent years. This achievement can be ascribed in part to advances in AI subfields including Machine Learning (ML), Computer Vision (CV), and Natural Language Processing (NLP). Deep learning, a sub-field of machine learning that employs artificial neural network concepts, has enabled the most rapid growth in these domains. The integration of vision and language has sparked a lot of attention as a result of this. The tasks have been created in such a way that they properly exemplify the concepts of deep learning. In this review paper, we provide a thorough and an extensive review of the state of the arts approaches, key models design principles and discuss existing datasets, methods, their problem formulation and evaluation measures for VQA and Visual reasoning tasks to understand vision and language representation learning. We also present some potential future paths in this field of research, with the hope that our study may generate new ideas and novel approaches to handle existing difficulties and develop new applications.
translated by 谷歌翻译
回答有关图像的复杂问题是机器智能的雄心勃勃的目标,这需要联合了解图像,文本和致料知识,以及强烈的推理能力。最近,多模式变压器通过联合了解视觉对象和文本令牌,通过跨模型关注的层次,通过跨模板的关注来实现了巨大的进展。然而,这些方法不利用现场的丰富结构和对象之间的相互作用,这在回答复杂的致辞问题方面至关重要。我们提出了一个场景图,增强了图像文本学习(SGEITL)框架,以在致辞中合并视觉场景图。为了利用场景图结构,在模型结构级别,我们提出了一个多彩色图形变压器,用于规范跳跃之间的注意力。至于预训练,提出了一种场景图感知的预训练方法,以利用在视觉场景图中提取的结构知识。此外,我们介绍一种以虚弱的方式使用文本注释训练和生成域相关视野图的方法。与最先进的方法相比,对VCR和其他任务的广泛实验表明了显着的性能提升,并证明了每个提出的组分的功效。
translated by 谷歌翻译