教科书问题应答(TQA)是一个复杂的多模式任务,可在给定大的上下文描述和丰富的图表。与视觉问题应答(VQA)相比,TQA包含大量罕见的术语和各种图表输入。它为域特定跨度语言模型的表示能力带来了新的挑战。它还将多模式融合推动到更复杂的水平。为了解决上述问题,我们提出了一个名为MOCA的小说模型,该模型包括用于TQA任务的多阶段域预制和多模式跨传。首先,我们介绍了一个多级域预押模块,以便与跨度掩模战略和监督芬特先前的预先预测的预测性预先预测。特别是对于预先预测后,我们提出了一种启发式生成算法来使用术语语料库。其次,要充分考虑上下文和图表的丰富输入,我们提出了交叉引导的多模式注意,根据渐进策略更新文本,问题图和教学图的特征。此外,采用双门控机构来改进模型集合。实验结果表明了我们的模型的优势,其优于最先进的方法,分别优于最先进的方法和2.43%的验证和测试分裂。
translated by 谷歌翻译
机器阅读理解引起了广泛的关注,因为它探讨了模型对文本理解的潜力。为了进一步为机器配备推理能力,提出了逻辑推理的挑战性任务。以前关于逻辑推理的著作提出了一些策略,以从不同方面提取逻辑单位。但是,对于逻辑单元之间的长距离依赖性建模仍然存在挑战。同样,要求揭示文本的逻辑结构,并将离散逻辑进一步融合到连续的文本嵌入。为了解决上述问题,我们提出了一个端到端的模型徽标,该登录徽标器利用两个分支的图形变压器网络进行文本逻辑推理。首先,我们引入了不同的提取策略,将文本分为两组逻辑单元,并分别构造逻辑图和语法图。逻辑图模拟了逻辑分支的因果关系,而语法图捕获了语法分支的共发生关系。其次,为了建模长距离依赖性,每个图的节点序列被馈入完全连接的图形变压器结构。两个相邻的矩阵被视为图形变压器层的注意偏置,它们将离散的逻辑结构映射到连续的文本嵌入空间。第三,在答案预测更新功能之前,介绍了动态的门机制和问题意识到的自我发项模块。推理过程通过采用逻辑单元来提供与人类认知一致的逻辑单位。实验结果表明了我们的模型的优势,该模型的表现优于两个逻辑推理基准上的最新单个模型。
translated by 谷歌翻译
视觉问题应答(VQA)任务利用视觉图像和语言分析来回回答图像的文本问题。它是一个流行的研究课题,在过去十年中越来越多的现实应用。本文介绍了我们最近对AliceMind-MMU的研究(阿里巴巴的编码器 - 解码器来自Damo Academy - 多媒体理解的机器智能实验室),其比人类在VQA上获得相似甚至略微更好的结果。这是通过系统地改善VQA流水线来实现的,包括:(1)具有全面的视觉和文本特征表示的预培训; (2)与学习参加的有效跨模型互动; (3)一个新颖的知识挖掘框架,具有专门的专业专家模块,适用于复杂的VQA任务。处理不同类型的视觉问题,需要具有相应的专业知识在提高我们的VQA架构的表现方面发挥着重要作用,这取决于人力水平。进行了广泛的实验和分析,以证明新的研究工作的有效性。
translated by 谷歌翻译
在本文中,我们提出了端到端的结构化多峰关注(SMA)神经网络,主要解决了上述前两个问题。 SMA首先使用结构图表示来编码图像中出现的对象对象,对象文本和文本文本关系,然后设计多模式图注意网络以推理它。最后,由上述模块的输出由全局本地注意力应答模块处理,以通过跟随M4C迭代地生成从两个OCR和常规词汇拼接的答案。我们所提出的模型优于TextVQA数据集上的SOTA模型以及除基于预先训练的水龙头之外的所有模型中的所有模型中的ST-VQA数据集的两个任务。展示了强大的推理能力,它还在TextVQA挑战中获得了第一名的第一名。我们在几种推理模型中广泛测试了不同的OCR方法,并调查了逐步提高了OCR性能对TextVQA基准的影响。通过更好的OCR结果,不同的型号对VQA准确性的戏剧性提高,但我们的模型受益最强烈的文本视觉推理能力。要授予我们的方法,并为进一步作品提供公平的测试基础,我们还为TextVQA数据集提供人为的地面实际OCR注释,这些ocr注释未在原始版本中提供。 TextVQA数据集的代码和地面ocr注释在https://github.com/chenyugao-cs/sma提供
translated by 谷歌翻译
In this paper, we propose an end-to-end Retrieval-Augmented Visual Language Model (REVEAL) that learns to encode world knowledge into a large-scale memory, and to retrieve from it to answer knowledge-intensive queries. REVEAL consists of four key components: the memory, the encoder, the retriever and the generator. The large-scale memory encodes various sources of multimodal world knowledge (e.g. image-text pairs, question answering pairs, knowledge graph triplets, etc) via a unified encoder. The retriever finds the most relevant knowledge entries in the memory, and the generator fuses the retrieved knowledge with the input query to produce the output. A key novelty in our approach is that the memory, encoder, retriever and generator are all pre-trained end-to-end on a massive amount of data. Furthermore, our approach can use a diverse set of multimodal knowledge sources, which is shown to result in significant gains. We show that REVEAL achieves state-of-the-art results on visual question answering and image captioning.
translated by 谷歌翻译
Visual Question Answering (VQA) requires a finegrained and simultaneous understanding of both the visual content of images and the textual content of questions. Therefore, designing an effective 'co-attention' model to associate key words in questions with key objects in images is central to VQA performance. So far, most successful attempts at co-attention learning have been achieved by using shallow models, and deep co-attention models show little improvement over their shallow counterparts. In this paper, we propose a deep Modular Co-Attention Network (MCAN) that consists of Modular Co-Attention (MCA) layers cascaded in depth. Each MCA layer models the self-attention of questions and images, as well as the guided-attention of images jointly using a modular composition of two basic attention units. We quantitatively and qualitatively evaluate MCAN on the benchmark VQA-v2 dataset and conduct extensive ablation studies to explore the reasons behind MCAN's effectiveness.Experimental results demonstrate that MCAN significantly outperforms the previous state-ofthe-art. Our best single model delivers 70.63% overall accuracy on the test-dev set.Code is available at https://github.com/MILVLG/mcan-vqa.
translated by 谷歌翻译
视觉问题回答(VQA)本质上是从根本上组成的,许多问题仅通过将它们分解为模块化子问题就可以回答。最新提出的神经模块网络(NMN)采用此策略来问答案,而在现成的布局解析器或有关网络体系结构设计的其他专家政策中,而不是从数据中学习。这些策略导致对输入的语义复杂差异的适应性不令人满意,从而阻碍了模型的表示能力和概括性。为了解决这个问题,我们提出了一个语义吸引的模块化胶囊路由框架,称为Super,以更好地捕获特定实例的视觉 - 语义特征并完善预测的判别性表示。特别是,在超级网络的每一层中都定制了五个功能强大的专用模块以及动态路由器,并构造了紧凑的路由空间,使得可以充分利用各种可自定义的路由,并且可以明确校准视觉声称表示。我们相对证明,我们提出的超级方案在五个基准数据集以及参数效率优势上的有效性和概括能力合理。值得强调的是,这项工作不是在VQA中追求最先进的结果。取而代之的是,我们希望我们的模型有责任为VQA提供建筑学习和表示校准的新颖观点。
translated by 谷歌翻译
Artificial Intelligence (AI) and its applications have sparked extraordinary interest in recent years. This achievement can be ascribed in part to advances in AI subfields including Machine Learning (ML), Computer Vision (CV), and Natural Language Processing (NLP). Deep learning, a sub-field of machine learning that employs artificial neural network concepts, has enabled the most rapid growth in these domains. The integration of vision and language has sparked a lot of attention as a result of this. The tasks have been created in such a way that they properly exemplify the concepts of deep learning. In this review paper, we provide a thorough and an extensive review of the state of the arts approaches, key models design principles and discuss existing datasets, methods, their problem formulation and evaluation measures for VQA and Visual reasoning tasks to understand vision and language representation learning. We also present some potential future paths in this field of research, with the hope that our study may generate new ideas and novel approaches to handle existing difficulties and develop new applications.
translated by 谷歌翻译
视觉问题回答(VQA)通常需要对视觉概念和语言语义的理解,这取决于外部知识。大多数现有方法利用了预训练的语言模型或/和非结构化文本,但是这些资源中的知识通常不完整且嘈杂。有些方法更喜欢使用经常具有强化结构知识的知识图(kgs),但是研究仍然相当初步。在本文中,我们提出了Lako,这是一种知识驱动的VQA方法,通过后期的文本注射。为了有效地纳入外部kg,我们将三元三元转移到文本中,并提出一种晚期注射机制。最后,我们将VQA作为文本生成任务,并具有有效的编码器范式。在使用OKVQA数据集的评估中,我们的方法可实现最新的结果。
translated by 谷歌翻译
We present an effective method for fusing visual-and-language representations for several question answering tasks including visual question answering and visual entailment. In contrast to prior works that concatenate unimodal representations or use only cross-attention, we compose multimodal representations via channel fusion. By fusing on the channels, the model is able to more effectively align the tokens compared to standard methods. These multimodal representations, which we call compound tokens are generated with cross-attention transformer layers. First, vision tokens are used as queries to retrieve compatible text tokens through cross-attention. We then chain the vision tokens and the queried text tokens along the channel dimension. We call the resulting representations compound tokens. A second group of compound tokens are generated using an analogous process where the text tokens serve as queries to the cross-attention layer. We concatenate all the compound tokens for further processing with multimodal encoder. We demonstrate the effectiveness of compound tokens using an encoder-decoder vision-language model trained end-to-end in the open-vocabulary setting. Compound Tokens achieve highly competitive performance across a range of question answering tasks including GQA, VQA2.0, and SNLI-VE.
translated by 谷歌翻译
本文对过去二十年来对自然语言生成(NLG)的研究提供了全面的审查,特别是与数据到文本生成和文本到文本生成深度学习方法有关,以及NLG的新应用技术。该调查旨在(a)给出关于NLG核心任务的最新综合,以及该领域采用的建筑;(b)详细介绍各种NLG任务和数据集,并提请注意NLG评估中的挑战,专注于不同的评估方法及其关系;(c)强调一些未来的强调和相对近期的研究问题,因为NLG和其他人工智能领域的协同作用而增加,例如计算机视觉,文本和计算创造力。
translated by 谷歌翻译
自我监督的视觉和语言预处理(VLP)旨在从大规模的图像文本数据中学习可转移的多模式表示形式,并在填充后在广泛的视觉范围内实现强大的表现。以前的主流VLP方法通常采用依靠外部对象检测器来编码多模式变压器框架中的图像的两步策略,该框架遭受了限制性对象概念空间,有限的图像上下文和效率低下的计算。在本文中,我们提出了一个对象感知的端到端VLP框架,该框架将来自CNN的图像网格特征直接馈送到变压器中,并共同学习多模式表示。更重要的是,我们建议执行对象知识蒸馏,以促进在不同语义级别的学习跨模式对齐。为了实现这一目标,我们通过将对象特征及其来自外部检测器的语义标签作为监督来设计两个新颖的借口任务:1。)对象引导的蒙版视觉建模任务的重点是在多模式变压器中强制执行对象感知的表示的学习; 2.)短语区域对准任务旨在通过利用语言空间中名词短语和对象标签之间的相似性来改善跨模式对齐。对各种视觉语言任务进行的广泛实验证明了我们提出的框架的功效,并且我们在现有的预科策略中实现了竞争性或优越的表现。
translated by 谷歌翻译
Document Visual Question Answering (DocVQA) refers to the task of answering questions from document images. Existing work on DocVQA only considers single-page documents. However, in real scenarios documents are mostly composed of multiple pages that should be processed altogether. In this work we extend DocVQA to the multi-page scenario. For that, we first create a new dataset, MP-DocVQA, where questions are posed over multi-page documents instead of single pages. Second, we propose a new hierarchical method, Hi-VT5, based on the T5 architecture, that overcomes the limitations of current methods to process long multi-page documents. The proposed method is based on a hierarchical transformer architecture where the encoder summarizes the most relevant information of every page and then, the decoder takes this summarized information to generate the final answer. Through extensive experimentation, we demonstrate that our method is able, in a single stage, to answer the questions and provide the page that contains the relevant information to find the answer, which can be used as a kind of explainability measure.
translated by 谷歌翻译
自动数学问题解决最近引起了越来越多的关注作为长期的AI基准。在本文中,我们专注于解决几何问题,这需要全面了解文本描述,视觉图和定理知识。但是,现有方法高度依赖于手工规则,并且仅在小规模数据集上进行评估。因此,我们提出了一个几何问题应答DataSet GeoQA,其中包含4,998个几何问题,其中具有相应的注释程序,其说明了给定问题的解决过程。与另一个公开的数据集GEOS相比,GeoQA是25倍,程序注释可以为未来的明确和解释数值推理提供实际测试平台。此外,我们通过全面解析多媒体信息和产生可解释程序来引入神经几何求解器(NGS)来解决几何问题。我们进一步为NGS添加了多个自我监督的辅助任务,以增强跨模型语义表示。关于GeoQA的广泛实验验证了我们提出的NGS和辅助任务的有效性。然而,结果仍然明显低于人类性能,这为未来的研究留下了大型空间。我们的基准和代码在https://github.com/chen-judge/geoqa发布。
translated by 谷歌翻译
视频问题应答(VideoQA),旨在基于了解多模态视频内容正确回答给定的问题,由于视频内容丰富,这是具有挑战性的。从视频理解的角度来看,良好的视频仪框架需要了解不同语义级别的视频内容,并灵活地将不同的视频内容集成到蒸馏问题相关内容。为此,我们提出了一个名为Livlr的轻量级视觉语言推理框架。具体地,Livlr首先利用基于图形的视觉和语言编码器来获得多粒度的视觉和语言表示。随后,所获得的表示与设计的分集感知视觉语言推理模块(DAVL)集成。 DAVL考虑不同类型的表示之间的差异,并且在生成问题相关的联合表示时可以灵活地调整不同类型表示的重要性,这是一种有效和一般的表示集成方法。拟议的LIVLR轻量级,并在两个VideoQ基准,MRSVTT-QA和了解VQA上显示了其性能优势。广泛的消融研究证明了LIVLR关键部件的有效性。
translated by 谷歌翻译
在本报告中,我们展示了ICDAR 2021版文档视觉问题挑战的结果。此版本在单个文档VQA和Document Collection VQA上补充了以前的任务,并在Infographics VQA上进行了新引入的。信息图表VQA基于超过5,000个信息图表图像和30,000个问题答案对的新数据集。获胜者方法在Infographics VQA任务中获得了0.6120个ANL,0.7743 anlsl在文档集中的VQA任务和单个文档VQA中的0.8705 ANL中。我们展示了用于每个任务的数据集的摘要,每个提交的方法的描述以及它们的性能的结果和分析。由于还提出了自从第一版DocVQA 2020挑战以来在单个文档VQA上取得的摘要。
translated by 谷歌翻译
最近,在机器阅读理解(MRC)中广泛研究了注意力增强的多层编码器,例如变压器。为了预测答案,通常使用预测因子仅从最终编码层中汲取信息,该层生成源序列的粗粒表示,即段落和问题。分析表明,随着编码层的增加,源序列的表示会变得更粗糙。人们普遍认为,随着深度神经网络中越来越多的层数,编码过程将越来越多地为每个位置收集相关信息,从而导致更粗糙的表示形式,这增加了与其他位置相似的可能性(指均质性) 。这种现象会误导该模型做出错误的判断并降低表现。在本文中,我们认为,如果预测指标可以利用编码器不同粒度的表示形式,从而提供了源序列的不同视图,从而使模型的表达能力可以充分利用,那将是更好的。为此,我们提出了一种新型方法,称为自适应双向注意封闭网络(ABA-NET),该方法可自适应地利用不同级别的源代表向预测指标。此外,由于更好的表示是提高MRC性能的核心,因此胶囊网络和自我发项模块被仔细设计为我们编码器的构建块,该模块分别提供了探索本地和全球表示的能力。在三个基准数据集(即小队1.0,Squad 2.0和COQA)上进行的实验结果证明了我们方法的有效性。特别是,我们在小队1.0数据集上设置了新的最新性能
translated by 谷歌翻译
回答有关图像的复杂问题是机器智能的雄心勃勃的目标,这需要联合了解图像,文本和致料知识,以及强烈的推理能力。最近,多模式变压器通过联合了解视觉对象和文本令牌,通过跨模型关注的层次,通过跨模板的关注来实现了巨大的进展。然而,这些方法不利用现场的丰富结构和对象之间的相互作用,这在回答复杂的致辞问题方面至关重要。我们提出了一个场景图,增强了图像文本学习(SGEITL)框架,以在致辞中合并视觉场景图。为了利用场景图结构,在模型结构级别,我们提出了一个多彩色图形变压器,用于规范跳跃之间的注意力。至于预训练,提出了一种场景图感知的预训练方法,以利用在视觉场景图中提取的结构知识。此外,我们介绍一种以虚弱的方式使用文本注释训练和生成域相关视野图的方法。与最先进的方法相比,对VCR和其他任务的广泛实验表明了显着的性能提升,并证明了每个提出的组分的功效。
translated by 谷歌翻译
视觉问题应答(VQA)是一个具有挑战性的任务,在计算机视觉和自然语言处理领域中引起了越来越多的关注。然而,目前的视觉问题回答具有语言偏差问题,这减少了模型的稳健性,对视觉问题的实际应用产生了不利影响。在本文中,我们首次对该领域进行了全面的审查和分析,并根据三个类别对现有方法进行分类,包括增强视觉信息,弱化语言前瞻,数据增强和培训策略。与此同时,依次介绍相关的代表方法,依次汇总和分析。揭示和分类语言偏见的原因。其次,本文介绍了主要用于测试的数据集,并报告各种现有方法的实验结果。最后,我们讨论了该领域的可能的未来研究方向。
translated by 谷歌翻译
Image-text retrieval (ITR) is a challenging task in the field of multimodal information processing due to the semantic gap between different modalities. In recent years, researchers have made great progress in exploring the accurate alignment between image and text. However, existing works mainly focus on the fine-grained alignment between image regions and sentence fragments, which ignores the guiding significance of context background information. Actually, integrating the local fine-grained information and global context background information can provide more semantic clues for retrieval. In this paper, we propose a novel Hierarchical Graph Alignment Network (HGAN) for image-text retrieval. First, to capture the comprehensive multimodal features, we construct the feature graphs for the image and text modality respectively. Then, a multi-granularity shared space is established with a designed Multi-granularity Feature Aggregation and Rearrangement (MFAR) module, which enhances the semantic corresponding relations between the local and global information, and obtains more accurate feature representations for the image and text modalities. Finally, the ultimate image and text features are further refined through three-level similarity functions to achieve the hierarchical alignment. To justify the proposed model, we perform extensive experiments on MS-COCO and Flickr30K datasets. Experimental results show that the proposed HGAN outperforms the state-of-the-art methods on both datasets, which demonstrates the effectiveness and superiority of our model.
translated by 谷歌翻译