Multimodal named entity recognition (MNER) and multimodal relation extraction (MRE) are two fundamental subtasks in the multimodal knowledge graph construction task. However, the existing methods usually handle two tasks independently, which ignores the bidirectional interaction between them. This paper is the first to propose jointly performing MNER and MRE as a joint multimodal entity-relation extraction task (JMERE). Besides, the current MNER and MRE models only consider aligning the visual objects with textual entities in visual and textual graphs but ignore the entity-entity relationships and object-object relationships. To address the above challenges, we propose an edge-enhanced graph alignment network and a word-pair relation tagging (EEGA) for JMERE task. Specifically, we first design a word-pair relation tagging to exploit the bidirectional interaction between MNER and MRE and avoid the error propagation. Then, we propose an edge-enhanced graph alignment network to enhance the JMERE task by aligning nodes and edges in the cross-graph. Compared with previous methods, the proposed method can leverage the edge information to auxiliary alignment between objects and entities and find the correlations between entity-entity relationships and object-object relationships. Experiments are conducted to show the effectiveness of our model.
translated by 谷歌翻译
基于多模式方面的情感分类(MABSC)是一项新兴的分类任务,旨在将给定目标的情感分类,例如具有不同模式的数据中提到的实体。在带有文本和图像的典型多模式数据中,以前的方法不能充分利用图像的细颗粒语义,尤其是与文本的语义结合在一起,并且不完全考虑对细粒图像之间的关系进行建模信息和目标,这导致图像的使用不足和不足以识别细粒度的方面和意见。为了应对这些局限性,我们提出了一个新的框架SEQCSG,包括一种构建顺序跨模式语义图和编码器模型的方法。具体而言,我们从原始图像,图像标题和场景图中提取细粒度的信息,并将它们视为跨模式语义图的元素以及文本的令牌。跨模式语义图表示为具有多模式可见矩阵的序列,指示元素之间的关系。为了有效地利用跨模式语义图,我们建议使用目标提示模板的编码器解码器方法。实验结果表明,我们的方法优于现有方法,并在两个标准数据集MABSC上实现了最新方法。进一步的分析证明了每个组件的有效性,我们的模型可以隐含地学习图像的目标和细粒度信息之间的相关性。
translated by 谷歌翻译
Image-text retrieval (ITR) is a challenging task in the field of multimodal information processing due to the semantic gap between different modalities. In recent years, researchers have made great progress in exploring the accurate alignment between image and text. However, existing works mainly focus on the fine-grained alignment between image regions and sentence fragments, which ignores the guiding significance of context background information. Actually, integrating the local fine-grained information and global context background information can provide more semantic clues for retrieval. In this paper, we propose a novel Hierarchical Graph Alignment Network (HGAN) for image-text retrieval. First, to capture the comprehensive multimodal features, we construct the feature graphs for the image and text modality respectively. Then, a multi-granularity shared space is established with a designed Multi-granularity Feature Aggregation and Rearrangement (MFAR) module, which enhances the semantic corresponding relations between the local and global information, and obtains more accurate feature representations for the image and text modalities. Finally, the ultimate image and text features are further refined through three-level similarity functions to achieve the hierarchical alignment. To justify the proposed model, we perform extensive experiments on MS-COCO and Flickr30K datasets. Experimental results show that the proposed HGAN outperforms the state-of-the-art methods on both datasets, which demonstrates the effectiveness and superiority of our model.
translated by 谷歌翻译
多模式命名实体识别(MNER)旨在借助图像识别实体跨度并在社交媒体帖子中认识其类别。但是,在主要的MNER方法中,通常通过自我注意力和跨注意或对门控机的过度依赖的交替进行不同方式的相互作用,从而导致不精确和有偏见的对应关系。文字和图像。为了解决此问题,我们为MNER提出了一个平坦的多模式相互作用变压器(FMIT)。具体而言,我们首先在句子和通用域单词中使用名词短语来获得视觉提示。然后,我们将视觉和文本的细颗粒语义表示变成统一的晶格结构,并设计一种新颖的相对位置编码以匹配变压器中的不同方式。同时,我们建议利用实体边界检测作为减轻视觉偏见的辅助任务。实验表明,我们的方法在两个基准数据集上实现了新的最新性能。
translated by 谷歌翻译
多模式的细粒情感分析最近由于其广泛的应用而引起了人们的关注。但是,现有的多模式细颗粒情感数据集最关注注释文本中的细粒元素,但忽略图像中的元素,这导致视觉内容中的细粒度元素没有得到应有的全部关注。在本文中,我们提出了一个新的数据集,即多模式方面类别情感分析(MACSA)数据集,其中包含超过21k的文本图像对。该数据集为文本和视觉内容提供细粒度的注释,并首先将方面类别用作枢轴,以对齐两种模态之间的细粒元素。基于我们的数据集,我们提出了多模式ACSA任务和基于多模式的对齐模型(MGAM),该模型(MGAM)采用了细粒度的跨模式融合方法。实验结果表明,我们的方法可以促进基线比较,以实现该语料库的未来研究。我们将使数据集和代码公开可用。
translated by 谷歌翻译
Neural language representation models such as BERT pre-trained on large-scale corpora can well capture rich semantic patterns from plain text, and be fine-tuned to consistently improve the performance of various NLP tasks. However, the existing pre-trained language models rarely consider incorporating knowledge graphs (KGs), which can provide rich structured knowledge facts for better language understanding. We argue that informative entities in KGs can enhance language representation with external knowledge. In this paper, we utilize both large-scale textual corpora and KGs to train an enhanced language representation model (ERNIE), which can take full advantage of lexical, syntactic, and knowledge information simultaneously. The experimental results have demonstrated that ERNIE achieves significant improvements on various knowledge-driven tasks, and meanwhile is comparable with the state-of-the-art model BERT on other common NLP tasks. The source code and experiment details of this paper can be obtained from https:// github.com/thunlp/ERNIE.
translated by 谷歌翻译
基于文本的图像标题(TextCAP)需要同时对视觉内容的理解并读取图像文本以生成自然语言描述。虽然一项任务可以教导机器来了解复杂的人类环境进一步鉴于我们日常环境中的文本是全部的,但它在正常标题中提出了额外的挑战。基于文本的图像直观地包含丰富和复杂的多模式关系内容,即可以从多视图而不是单个字幕来扩散图像细节。当然,我们可以介绍额外的配对训练数据以显示图像描述的多样性,这一过程是具有额外文本的文本映射对注释的劳动密集型和耗时。基于上述洞察力,我们调查如何使用未配对的培训范例来生成专注于不同图像零件的不同标题。我们提出了多模式关系图对抗性推论(魔法)框架,用于多样化和未配对的Textcap。该框架可以自适应地构建图形之间的图像和模型复杂关系的多个多模式关系图来表示描述性分集。此外,从建模的图表中开发了一种级联的生成对抗性网络,以推断图像句子特征对齐和语言相干水平中的未配对字幕。我们验证了魔法在从图像的不同关系信息项目生成不同标题时的有效性。实验结果表明,魔法可以在不使用任何图像标题训练对的情况下产生非常有前途的结果。
translated by 谷歌翻译
考虑到RDF三元组的集合,RDF到文本生成任务旨在生成文本描述。最先前的方法使用序列到序列模型或使用基于图形的模型来求解此任务以编码RDF三维并生成文本序列。然而,这些方法未能明确模拟RDF三元组之间的本地和全球结构信息。此外,以前的方法也面临了生成文本的低信任问题的不可忽略的问题,这严重影响了这些模型的整体性能。为了解决这些问题,我们提出了一种组合两个新的图形增强结构神经编码器的模型,共同学习输入的RDF三元组中的本地和全局结构信息。为了进一步改进文本忠诚,我们创新地根据信息提取(即)引进了强化学习(RL)奖励。我们首先使用佩带的IE模型从所生成的文本中提取三元组,并将提取的三级的正确数量视为额外的RL奖励。两个基准数据集上的实验结果表明,我们所提出的模型优于最先进的基线,额外的加强学习奖励确实有助于改善所生成的文本的忠诚度。
translated by 谷歌翻译
与伯特(Bert)等语言模型相比,已证明知识增强语言表示的预培训模型在知识基础构建任务(即〜关系提取)中更有效。这些知识增强的语言模型将知识纳入预训练中,以生成实体或关系的表示。但是,现有方法通常用单独的嵌入表示每个实体。结果,这些方法难以代表播出的实体和大量参数,在其基础代币模型之上(即〜变压器),必须使用,并且可以处理的实体数量为由于内存限制,实践限制。此外,现有模型仍然难以同时代表实体和关系。为了解决这些问题,我们提出了一个新的预培训模型,该模型分别从图书中学习实体和关系的表示形式,并分别在文本中跨越跨度。通过使用SPAN模块有效地编码跨度,我们的模型可以代表实体及其关系,但所需的参数比现有模型更少。我们通过从Wikipedia中提取的知识图对我们的模型进行了预训练,并在广泛的监督和无监督的信息提取任务上进行了测试。结果表明,我们的模型比基线学习对实体和关系的表现更好,而在监督的设置中,微调我们的模型始终优于罗伯塔,并在信息提取任务上取得了竞争成果。
translated by 谷歌翻译
Video-Text检索(VTR)是多模式理解的一项有吸引力但具有挑战性的任务,该任务旨在在给定查询(视频)的情况下搜索相关的视频(文本)。现有方法通常采用完全异构的视觉文本信息来对齐视频和文本,同时缺乏对这两种模式中均匀的高级语义信息的认识。为了填补这一差距,在这项工作中,我们提出了一个新颖的视觉语言对准模型,名为VTR Hise,该模型通过合并显式高级语义来改善跨模式的表示。首先,我们探讨了显式高级语义的层次结构属性,并将其进一步分为两个级别,即离散的语义和整体语义。具体来说,对于视觉分支,我们利用了现成的语义实体预测器来生成离散的高级语义。同时,采用训练有素的视频字幕模型来输出整体高级语义。至于文本方式,我们将文本分为三个部分,包括发生,动作和实体。特别是,这种情况对应于整体高级语义,同时动作和实体代表离散的语义。然后,利用不同的图推理技术来促进整体和离散的高级语义之间的相互作用。广泛的实验表明,借助明确的高级语义,我们的方法在包括MSR-VTT,MSVD和DIDEMO在内的三个基准数据集上实现了优于最先进方法的卓越性能。
translated by 谷歌翻译
当代视觉标题模型通常是幻觉的对象,其实际上并不是一种场景,因为目视错误分类或过度依赖导致视觉信息与目标词汇词之间的语义不一致。最常见的方式是鼓励标题模型将生成的对象字或短语动态链接到图像的适当区域,即接地图像标题(GIC)。然而,GIC利用辅助任务(接地对象),这些任务(接地对象)没有解决对象幻觉的关键问题,即语义不一致。在本文中,我们对上面的问题进行了一种小说 - 利用视觉和语言模式之间的语义一致性。具体而言,我们提出了与GIC的共识RRAPH表示学习框架(CGRL),其纳入接地标题管道的共识表示。通过将可视图(例如,场景图)对准到图表中的节点和边的语言图来学习共识。通过对齐的共识,标题模型可以捕获正确的语言特征和视觉相关性,然后进一步接地适当的图像区域。我们验证了我们模型的有效性,对象幻觉(-9%主席)在Flickr30k实体数据集中显着下降。此外,我们的CGR还通过多种自动度量和人体评估评估,结果表明,该方法可以同时提高图像标题(+2.9苹果酒)和接地的性能(+2.3 f1loc)。
translated by 谷歌翻译
Simile recognition involves two subtasks: simile sentence classification that discriminates whether a sentence contains simile, and simile component extraction that locates the corresponding objects (i.e., tenors and vehicles). Recent work ignores features other than surface strings. In this paper, we explore expressive features for this task to achieve more effective data utilization. Particularly, we study two types of features: 1) input-side features that include POS tags, dependency trees and word definitions, and 2) decoding features that capture the interdependence among various decoding decisions. We further construct a model named HGSR, which merges the input-side features as a heterogeneous graph and leverages decoding features via distillation. Experiments show that HGSR significantly outperforms the current state-of-the-art systems and carefully designed baselines, verifying the effectiveness of introduced features. Our code is available at https://github.com/DeepLearnXMU/HGSR.
translated by 谷歌翻译
根据图像回答语义复杂的问题是在视觉问题应答(VQA)任务中的具有挑战性。虽然图像可以通过深度学习来良好代表,但是始终简单地嵌入问题,并且不能很好地表明它的含义。此外,视觉和文本特征具有不同模式的间隙,很难对齐和利用跨模块信息。在本文中,我们专注于这两个问题,并提出了一种匹配关注(GMA)网络的图表。首先,它不仅为图像构建图形,而且在句法和嵌入信息方面构建了该问题的图表。接下来,我们通过双级图形编码器探讨了模特内的关系,然后呈现双边跨模型图匹配注意力以推断图像与问题之间的关系。然后将更新的跨模式特征发送到答案预测模块中以进行最终答案预测。实验表明,我们的网络在GQA数据集和VQA 2.0数据集上达到了最先进的性能。消融研究验证了GMA网络中每个模块的有效性。
translated by 谷歌翻译
深度学习技术导致了通用对象检测领域的显着突破,近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解,场景图一直是研究的焦点。场景图生成(SGG)是指自动将图像映射到语义结构场景图中的任务,这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务,但社区已经提出了许多SGG方法并取得了良好的效果。在本文中,我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品,涵盖了不同的输入方式,并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法,概述和解释SGG的机制和策略。最后,我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。
translated by 谷歌翻译
在视觉上丰富的文件(VRD)上的结构化文本理解是文档智能的重要组成部分。由于VRD中的内容和布局的复杂性,结构化文本理解是一项有挑战性的任务。大多数现有的研究将此问题与两个子任务结尾:实体标记和实体链接,这需要整体地了解令牌和段级别的文档的上下文。但是,很少的工作已经关注有效地从不同层次提取结构化数据的解决方案。本文提出了一个名为structext的统一框架,它对于处理两个子任务是灵活的,有效的。具体地,基于变压器,我们引入了一个段令牌对齐的编码器,以处理不同粒度水平的实体标记和实体链接任务。此外,我们设计了一种具有三个自我监督任务的新型预训练策略,以学习更丰富的代表性。 Structext使用现有屏蔽的视觉语言建模任务和新句子长度预测和配对框方向任务,以跨文本,图像和布局结合多模态信息。我们评估我们在分段级别和令牌级别的结构化文本理解的方法,并表明它优于最先进的同行,在Funsd,Srie和Ephoie数据集中具有显着优越的性能。
translated by 谷歌翻译
文本和视频之间交叉模态检索的任务旨在了解视觉和语言之间的对应关系。现有研究遵循基于文本和视频嵌入的测量文本视频相似度的趋势。在常见的做法中,通过将视频帧馈送到用于全球视觉特征提取的视频帧或仅通过使用图形卷积网络使用本地细粒度的框架区域来实现简单的语义关系来构造视频表示。然而,这些视频表示在学习视频表示中的视觉组件之间没有充分利用时空关系,从而无法区分具有相同视觉组件但具有不同关系的视频。为了解决这个问题,我们提出了一种视觉时空关系增强的网络(VSR-Net),这是一种新的跨模型检索框架,其考虑组件之间的空间视觉关系,以增强桥接文本 - 视频模型中的全局视频表示。具体地,使用多层时空变压器来编码视觉时空关系,以学习视觉关系特征。我们将全局视觉和细粒度的关系功能与两个嵌入空格上的文本功能对齐,用于交叉模态文本 - 视频检索。在MSR-VTT和MSVD数据集中进行了广泛的实验。结果表明了我们提出的模型的有效性。我们将发布促进未来研究的代码。
translated by 谷歌翻译
来自文本的采矿因果关系是一种复杂的和至关重要的自然语言理解任务,对应于人类认知。其解决方案的现有研究可以分为两种主要类别:基于特征工程和基于神经模型的方法。在本文中,我们发现前者具有不完整的覆盖范围和固有的错误,但提供了先验知识;虽然后者利用上下文信息,但其因果推断不足。为了处理限制,我们提出了一个名为MCDN的新型因果关系检测模型,明确地模拟因果关系,而且,利用两种方法的优势。具体而言,我们采用多头自我关注在Word级别获得语义特征,并在段级别推断出来的SCRN。据我们所知,关于因果关系任务,这是第一次应用关系网络。实验结果表明:1)该方法对因果区检测进行了突出的性能; 2)进一步分析表现出MCDN的有效性和稳健性。
translated by 谷歌翻译
场景图是一种语义表示,表达场景中对象之间的对象,属性和关系。场景图在许多交叉模态任务中起着重要作用,因为它们能够捕获图像和文本之间的交互。在本文中,我们关注场景图修改(SGM),其中需要系统来学习如何基于自然语言查询更新现有场景图。与以前重建整个场景图的方法不同,我们通过引入增量结构扩展(ISE)来将SGM作为图形扩展任务。 ISE通过逐步扩展源图来构建目标图,而无需更改未修改的结构。基于ISE,我们进一步提出了一个模型,该模型在节点预测和边缘预测之间进行迭代,从而逐渐推断出更准确和和谐的扩展决策。此外,我们构建了一个具有挑战性的数据集,该数据集包含比现有数据集更复杂的查询和更大的场景图。四个基准测试的实验证明了我们的方法的有效性,该实验超过了以前的最新模型。
translated by 谷歌翻译
在文档级事件提取(DEE)任务中,事件参数始终散布在句子(串行问题)中,并且多个事件可能存在于一个文档(多事件问题)中。在本文中,我们认为事件参数的关系信息对于解决上述两个问题具有重要意义,并提出了一个新的DEE框架,该框架可以对关系依赖关系进行建模,称为关系授权的文档级事件提取(REDEE)。更具体地说,该框架具有一种新颖的量身定制的变压器,称为关系增强的注意变形金刚(RAAT)。 RAAT可扩展以捕获多尺度和多启动参数关系。为了进一步利用关系信息,我们介绍了一个单独的事件关系预测任务,并采用多任务学习方法来显式增强事件提取性能。广泛的实验证明了该方法的有效性,该方法可以在两个公共数据集上实现最新性能。我们的代码可在https:// github上找到。 com/tencentyouturesearch/raat。
translated by 谷歌翻译
捕获该段落中的单词中复杂语言结构和长期依赖性的能力对于话语级关系提取(DRE)任务是必不可少的。图形神经网络(GNNS)是编码依赖图的方法之一,它在先前的RE中有效地显示了。然而,对GNN的接受领域得到了相对较少的关注,这对于需要话语理解的非常长的文本的情况可能是至关重要的。在这项工作中,我们利用图形汇集的想法,并建议在DRE任务上使用汇集解凝框架。汇集分支减少了图形尺寸,使GNN能够在更少的层内获得更大的接收领域; UnoDooling分支将池化图恢复为其原始分辨率,以便可以提取实体提及的表示。我们提出子句匹配(cm),这是一个新的语言启发图形汇集方法,用于NLP任务。两个DE DATASET上的实验表明,我们的模型在需要建模长期依赖性时显着改善基线,这表明了汇集了解冻框架的有效性和我们的CM汇集方法。
translated by 谷歌翻译