文本VQA的开放式问题回答任务通常需要读取和推理图像中很少见或完全看不见的场景文本内容。我们通过提出广义使用外部知识来增强我们对场景文本的理解来解决问题的零射击性质。我们设计一个框架,使用标准的多模式变压器来提取,验证和理性,以了解视觉语言理解任务。通过经验证据和定性结果,我们证明了外部知识如何突出实例的线索,从而有助于应对培训数据偏见,提高答案实体类型的正确性并检测名为“实体”的多字。在类似上游OCR系统和培训数据的限制下,我们生成的结果与三个公开数据集的最新结果相当。
translated by 谷歌翻译
在本文中,我们提出了端到端的结构化多峰关注(SMA)神经网络,主要解决了上述前两个问题。 SMA首先使用结构图表示来编码图像中出现的对象对象,对象文本和文本文本关系,然后设计多模式图注意网络以推理它。最后,由上述模块的输出由全局本地注意力应答模块处理,以通过跟随M4C迭代地生成从两个OCR和常规词汇拼接的答案。我们所提出的模型优于TextVQA数据集上的SOTA模型以及除基于预先训练的水龙头之外的所有模型中的所有模型中的ST-VQA数据集的两个任务。展示了强大的推理能力,它还在TextVQA挑战中获得了第一名的第一名。我们在几种推理模型中广泛测试了不同的OCR方法,并调查了逐步提高了OCR性能对TextVQA基准的影响。通过更好的OCR结果,不同的型号对VQA准确性的戏剧性提高,但我们的模型受益最强烈的文本视觉推理能力。要授予我们的方法,并为进一步作品提供公平的测试基础,我们还为TextVQA数据集提供人为的地面实际OCR注释,这些ocr注释未在原始版本中提供。 TextVQA数据集的代码和地面ocr注释在https://github.com/chenyugao-cs/sma提供
translated by 谷歌翻译
我们提出了一种用于场景文本视觉问题的新型多模式架构(STVQA),命名为布局感知变压器(LatR)。 STVQA的任务需要模型以推理不同的方式。因此,我们首先调查每种方式的影响,并揭示语言模块的重要性,尤其是在丰富布局信息时。考虑到这一点,我们提出了一种客观预培训计划,只需要文本和空间线索。我们表明,尽管域间隙差距,但仍然对扫描文件进行了对扫描文件的培训方案具有某些优点。扫描的文档易于采购,文本密集并具有各种布局,帮助模型通过捆绑语言和布局信息来学习各种空间线索(例如,下面等等)。与现有方法相比,我们的方法执行无词汇解码,如图所示,概括到超出培训词汇。我们进一步证明Latr改善了对OCR错误的鲁棒性,在STVQA失败的常见原因。另外,通过利用视觉变压器,我们消除了对外部物体检测器的需求。 Latr在多个数据集上赢得最先进的STVQA方法。特别是+ 7.6%的TextVQA,ST-VQA上的10.8%,+ 4.0%在OCR-VQA(所有绝对精度数字)。
translated by 谷歌翻译
Video Question Answering methods focus on commonsense reasoning and visual cognition of objects or persons and their interactions over time. Current VideoQA approaches ignore the textual information present in the video. Instead, we argue that textual information is complementary to the action and provides essential contextualisation cues to the reasoning process. To this end, we propose a novel VideoQA task that requires reading and understanding the text in the video. To explore this direction, we focus on news videos and require QA systems to comprehend and answer questions about the topics presented by combining visual and textual cues in the video. We introduce the ``NewsVideoQA'' dataset that comprises more than $8,600$ QA pairs on $3,000+$ news videos obtained from diverse news channels from around the world. We demonstrate the limitations of current Scene Text VQA and VideoQA methods and propose ways to incorporate scene text information into VideoQA methods.
translated by 谷歌翻译
文本VQA旨在回答需要了解图像中文本提示的问题。尽管现有的文本VQA方法取得了长足的进步,但它们的性能仍遭受了人类标记的问题解答(QA)对不足。但是,我们观察到,通常在现有数据集中没有完全利用场景文本 - 每个图像中只有一小部分文本参与了带注释的QA活动。这导致大量有用的信息浪费。为了解决这种缺陷,我们开发了一种新方法来通过明确利用每个图像的场景上下文中可用的现有文本来生成高质量和多样化的质量质量对。具体而言,我们建议,TAG是一种文本感知的视觉问题 - 答案生成的结构,该结构学会使用多模式变压器来生成有意义且准确的QA样品。该体系结构通过将生成的QA对与初始培训数据相结合,从而利用了未充满激光的场景文本信息,并增强了文本VQA模型的场景理解。对两个众所周知的Text-VQA基准(TextVQA和ST-VQA)的广泛实验结果表明,我们提议的标签有效地扩大了训练数据,有助于提高文本VQA性能而无需额外的标签努力。此外,我们的模型优于预先通过大规模数据进行训练的最先进方法。代码将公开可用。
translated by 谷歌翻译
Artificial Intelligence (AI) and its applications have sparked extraordinary interest in recent years. This achievement can be ascribed in part to advances in AI subfields including Machine Learning (ML), Computer Vision (CV), and Natural Language Processing (NLP). Deep learning, a sub-field of machine learning that employs artificial neural network concepts, has enabled the most rapid growth in these domains. The integration of vision and language has sparked a lot of attention as a result of this. The tasks have been created in such a way that they properly exemplify the concepts of deep learning. In this review paper, we provide a thorough and an extensive review of the state of the arts approaches, key models design principles and discuss existing datasets, methods, their problem formulation and evaluation measures for VQA and Visual reasoning tasks to understand vision and language representation learning. We also present some potential future paths in this field of research, with the hope that our study may generate new ideas and novel approaches to handle existing difficulties and develop new applications.
translated by 谷歌翻译
以前的研究如vizwiz发现,可以阅读的视觉问题(VQA)系统可以阅读和图像中的文本的理由在辅助视觉上受损人群的应用领域很有用。 TextVQA是一个用于这个问题的VQA数据集,其中问题需要回答系统来读取和理由图像中的视觉对象和文本对象。 TextVQA中的一个关键挑战是系统的设计,有效地是单独的视觉和文本对象的理由,而且还有关于这些对象之间的空间关系。这激励了使用“边缘特征”,即关于每对对象之间的关系的信息。一些当前TextVQA模型解决了这个问题,但只使用关系类别(而不是边缘特征向量),或者不要在变压器架构中使用边缘功能。为了克服这些缺点,我们提出了一种曲线图形关系变压器(GRT),除了节点信息之外,还使用边缘信息进行变压器中的图注意计算。我们发现,在不使用任何其他优化的情况下,所提出的GRT方法优于M4C基线模型的精度0.65%在Val Set上的精度和测试集0.57%。定性,我们观察到GRT对M4C具有卓越的空间推理能力。
translated by 谷歌翻译
视觉问题回答(VQA)通常需要对视觉概念和语言语义的理解,这取决于外部知识。大多数现有方法利用了预训练的语言模型或/和非结构化文本,但是这些资源中的知识通常不完整且嘈杂。有些方法更喜欢使用经常具有强化结构知识的知识图(kgs),但是研究仍然相当初步。在本文中,我们提出了Lako,这是一种知识驱动的VQA方法,通过后期的文本注射。为了有效地纳入外部kg,我们将三元三元转移到文本中,并提出一种晚期注射机制。最后,我们将VQA作为文本生成任务,并具有有效的编码器范式。在使用OKVQA数据集的评估中,我们的方法可实现最新的结果。
translated by 谷歌翻译
在本文中,我们介绍了一个多语言场景文本视觉问题的框架,以零拍的方式处理新语言。具体来说,我们考虑场景文本视觉质量回答(STVQA)的任务,其中可以用不同的语言提出问题,并且不一定与场景文本语言保持一致。因此,我们首先引入了自然的步骤,朝着更广泛的版本的STVQA:MUST-VQA介绍。考虑到这一点,我们讨论了在受约束设置的两个评估方案,即IID和零照片,我们证明这些模型可以在零拍设置的标准杆上执行。我们进一步提供了广泛的实验,并显示了将多语言模型调整为STVQA任务的有效性。
translated by 谷歌翻译
基于文本的视觉问题回答〜(TextVQA)旨在为具有多个场景文本的图像问题提供正确的答案。在大多数情况下,文本自然附着在物体表面上。因此,文本和对象之间的空间推理在文本VQA中至关重要。但是,现有方法在从输入图像中学到的2D空间信息中受到限制,并依靠基于变压器的体系结构在融合过程中隐含地推理。在此设置下,这些2D空间推理方法无法区分同一图像平面上的视觉对象和场景文本之间的细颗粒空间关系,从而损害了TextVQA模型的可解释性和性能。在本文中,我们将3D几何信息引入了类似人类的空间推理过程,以逐步捕获关键对象的上下文知识。 %我们通过引入3D几何信息来捕获关键对象的上下文知识来制定类似人类的空间推理过程。为了增强模型对3D空间关系的理解,特别是(i)〜我们提出了一个关系预测模块,以准确定位关键对象的关注区域; (ii)〜我们设计了一个深度感知的注意校准模块,以根据关键对象校准OCR令牌的注意力。广泛的实验表明,我们的方法在TextVQA和ST-VQA数据集上实现了最先进的性能。更令人鼓舞的是,我们的模型在涉及TextVQA和ST-VQA有效拆分中的空间推理的问题上以5.7 \%和12.1 \%的明显边缘超过了他人。此外,我们还验证了模型对基于文本的图像字幕任务的普遍性。
translated by 谷歌翻译
最近与大型变压器的主要工作的主要重点是优化包装到模型参数中的信息量。在这项工作中,我们问了一个不同的问题:多峰变压器可以在他们推理中利用明确的知识吗?现有,主要是单峰,方法在知识检索范例下探讨了方法,随后回答预测,但留下了关于所使用的检索知识的质量和相关性的开放性问题,以及如何集成隐含和明确知识的推理过程。为了解决这些挑战,我们提出了一种新颖的模型 - 知识增强变压器(KAT) - 在OK-VQA的开放式多模式任务上实现了强大的最先进的结果(+6分)。我们的方法在结束到终端编码器 - 解码器架构中集成了隐式和显式知识,同时在答案生成期间仍然共同推理了两个知识源。在我们分析中提高了模型预测的可解释性,可以看到明确知识集成的额外好处。
translated by 谷歌翻译
视觉模型可以评估图像中的视觉上下文并生成描述性文本。尽管生成的文本可能是准确且句法正确的,但通常过于笼统。为了解决这个问题,最近的工作使用光学特征识别来补充视觉信息,并从图像中提取的文本进行补充。在这项工作中,我们认为,视觉模型可以受益于可以从图像中提取但不使用当前模型使用的其他信息。我们修改了以前的多模式框架,以接受来自任意数量的辅助分类器的相关信息。特别是,我们将重点放在人的名字作为附加令牌上,并创建一个新颖的图像捕获数据集,以促进用人名称的字幕。标题(PAC)中的数据集,政客和运动员包括背景下知名人士的字幕图像。通过使用此数据集对预处理的模型进行微调,我们演示了一个模型,该模型可以自然地将面部识别令牌纳入生成的文本中,通过培训有限的数据。对于PAC数据集,我们提供有关集合和基线基准分数的讨论。
translated by 谷歌翻译
Natural Language Generation (NLG) has improved exponentially in recent years thanks to the development of sequence-to-sequence deep learning technologies such as Transformer-based language models. This advancement has led to more fluent and coherent NLG, leading to improved development in downstream tasks such as abstractive summarization, dialogue generation and data-to-text generation. However, it is also apparent that deep learning based generation is prone to hallucinate unintended text, which degrades the system performance and fails to meet user expectations in many real-world scenarios. To address this issue, many studies have been presented in measuring and mitigating hallucinated texts, but these have never been reviewed in a comprehensive manner before. In this survey, we thus provide a broad overview of the research progress and challenges in the hallucination problem in NLG. The survey is organized into two parts: (1) a general overview of metrics, mitigation methods, and future directions; and (2) an overview of task-specific research progress on hallucinations in the following downstream tasks, namely abstractive summarization, dialogue generation, generative question answering, data-to-text generation, machine translation, and visual-language generation. This survey serves to facilitate collaborative efforts among researchers in tackling the challenge of hallucinated texts in NLG.
translated by 谷歌翻译
基于知识的视觉问题的问题涉及除了图像内容之外还涉及需要外部知识的问题。这些知识通常有各种形式,包括视觉,文本和致辞知识。使用更多知识来源,增加了检索更无关紧要或嘈杂的事实的可能性,使其充实并找到答案的挑战。为了解决这一挑战,我们使用外部知识(MAVEX)提出了多模态答案验证,其中该想法是根据答案特定知识检索验证一组有希望的答案候选者。而不是在大多数现有方法中搜索大量不相关的事实中的答案,Mavex旨在学习如何从嘈杂来源中提取相关知识,这是对每个答复候选者的信任,以及如何使用候选者那个来源。除了以维基百科句子和概念概念的形式之外,我们的多模态设置是第一个利用外部视觉知识(使用谷歌搜索的图像)。我们的实验与OK-VQA是一个具有挑战性的知识VQA数据集,证明了MAVEX实现了新的最先进的结果。我们的代码可在https://github.com/jialinwu17/mavex提供
translated by 谷歌翻译
The availability of large-scale image captioning and visual question answering datasets has contributed significantly to recent successes in vision-and-language pretraining. However, these datasets are often collected with overrestrictive requirements inherited from their original target tasks (e.g., image caption generation), which limit the resulting dataset scale and diversity. We take a step further in pushing the limits of vision-and-language pretraining data by relaxing the data collection pipeline used in Conceptual Captions 3M (CC3M) [70] and introduce the Conceptual 12M (CC12M), a dataset with 12 million image-text pairs specifically meant to be used for visionand-language pre-training. We perform an analysis of this dataset and benchmark its effectiveness against CC3M on multiple downstream tasks with an emphasis on long-tail visual recognition. Our results clearly illustrate the benefit of scaling up pre-training data for vision-and-language tasks, as indicated by the new state-of-the-art results on both the nocaps and Conceptual Captions benchmarks. 1
translated by 谷歌翻译
基于知识的视觉问题应答(kbvqa)是一个需要外部世界知识的双模形任务,以便正确回答文本问题和相关图像。最近的单个模态文本工作已经显示了知识注入预培训的语言模型,特别是实体增强知识图形嵌入式,可以提高下游实体的任务的性能。在这项工作中,我们经验研究了在双模模型设置中应用的方法以及是否可以提高KBVQA任务的现有VQA系统的性能。我们试验两个大型公共可用的VQA数据集,(1)KVQA,其中包含大多数罕见的维基百科实体和(2)OKVQA,其与常识推理具有较少的实体和更符合。两者都缺乏明确的实体跨度,我们研究了不同弱监督和手动方法获得的效果。此外,我们分析了最近提出的双模和单一模态注意力的解释,这些实体增强了增强的表示。我们的结果表明,在KBVQA任务上表现出实质性的性能,无需额外的昂贵的预培训,我们为实体知识注射有助于提高模型的理解时提供见解。我们提供代码和增强的数据集以进行再现性。
translated by 谷歌翻译
在本报告中,我们展示了ICDAR 2021版文档视觉问题挑战的结果。此版本在单个文档VQA和Document Collection VQA上补充了以前的任务,并在Infographics VQA上进行了新引入的。信息图表VQA基于超过5,000个信息图表图像和30,000个问题答案对的新数据集。获胜者方法在Infographics VQA任务中获得了0.6120个ANL,0.7743 anlsl在文档集中的VQA任务和单个文档VQA中的0.8705 ANL中。我们展示了用于每个任务的数据集的摘要,每个提交的方法的描述以及它们的性能的结果和分析。由于还提出了自从第一版DocVQA 2020挑战以来在单个文档VQA上取得的摘要。
translated by 谷歌翻译
大型基于变压器的预训练的语言模型在各种知识密集的任务上取得了令人印象深刻的表现,并可以在其参数中捕获事实知识。我们认为,考虑到不断增长的知识和资源需求,在模型参数中存储大量知识是亚最佳选择。我们认为,更有效的替代方法是向模型提供对上下文相关的结构化知识的明确访问,并训练它以使用该知识。我们提出了LM核 - 实现这一目标的一般框架 - 允许从外部知识源对语言模型培训的\ textit {解耦},并允许后者更新而不会影响已经训练的模型。实验结果表明,LM核心获得外部知识,在知识探索任务上的最先进的知识增强语言模型中实现了重要而强大的优于性能。可以有效处理知识更新;并在两个下游任务上表现良好。我们还提出了一个彻底的错误分析,突出了LM核的成功和失败。
translated by 谷歌翻译
Visual understanding goes well beyond object recognition. With one glance at an image, we can effortlessly imagine the world beyond the pixels: for instance, we can infer people's actions, goals, and mental states. While this task is easy for humans, it is tremendously difficult for today's vision systems, requiring higher-order cognition and commonsense reasoning about the world. We formalize this task as Visual Commonsense Reasoning. Given a challenging question about an image, a machine must answer correctly and then provide a rationale justifying its answer.Next, we introduce a new dataset, VCR, consisting of 290k multiple choice QA problems derived from 110k movie scenes. The key recipe for generating non-trivial and highquality problems at scale is Adversarial Matching, a new approach to transform rich annotations into multiple choice questions with minimal bias. Experimental results show that while humans find VCR easy (over 90% accuracy), state-of-the-art vision models struggle (∼45%).To move towards cognition-level understanding, we present a new reasoning engine, Recognition to Cognition Networks (R2C), that models the necessary layered inferences for grounding, contextualization, and reasoning. R2C helps narrow the gap between humans and machines (∼65%); still, the challenge is far from solved, and we provide analysis that suggests avenues for future work.
translated by 谷歌翻译
最近,3D视觉和语言任务吸引了不断增长的研究兴趣。与其他视觉和语言任务相比,3D视觉问题回答(VQA)任务的利用较小,并且更容易受到语言先验和共同参考的歧义。同时,由于规模和注释方法有限,最近提出的几个3D VQA数据集并不能很好地支持3D VQA任务。在这项工作中,我们通过收集一个新的3D VQA数据集(称为FE-3DGQA),正式定义和解决3D接地的VQA任务,并具有多样化且相对自由形式的提问,以及密集和完全接地的边界框注释。为了获得更多可解释的答案,我们标记了出现在复杂的质量检查对中的对象,该对象具有不同的语义类型,包括答案接地的对象(均出现并未出现在问题中),以及用于答案的对象的上下文对象。我们还提出了一个新的3D VQA框架,以有效地预测完全视觉扎根和可解释的答案。广泛的实验证明,我们新收集的基准数据集可有效地用于评估不同方面的各种3D VQA方法,而我们新提出的框架也可以在新的基准数据集中实现最新的性能。新收集的数据集和我们的代码都将在http://github.com/zlccccc/3dgqa上公开获得。
translated by 谷歌翻译