关于时间知识图(TKGQA)的问题回答最近发现兴趣越来越大。 TKGQA需要时间推理技术来从时间知识库中提取相关信息。唯一现有的TKGQA数据集,即cronquestions,由基于固定时间段内的事实组成,其中跨越同一时期的时间知识图(TKG)可以完全使用用于答案推断,允许使用TKGQA模型。即将根据过去事实回答问题的未来知识。但是,在现实世界的情况下,鉴于到目前为止的知识也很常见,我们希望TKGQA系统回答询问未来的问题。随着人类不断寻求未来计划,建立用于回答此类预测问题的TKGQA系统很重要。然而,这在先前的研究中仍未得到探索。在本文中,我们提出了一个新的任务:关于时间知识图的预测问题。我们还为此任务提出了一个大规模的TKGQA基准数据集,即预测。它包括三种类型的问题,即实体预测,不是和事实推理问题。对于我们数据集中的每个预测问题,QA模型只能在给定问题中注释的时间戳以进行答案推理之前访问TKG信息。我们发现,最先进的TKGQA方法在预测问题上的表现较差,并且他们无法回答不是问题和事实推理问题。为此,我们提出了一种TKGQA模型预测,该模型采用TKG预测模块进行未来推断,以回答所有三种类型的问题。实验结果表明,预测到实体预测问题的最新方法优于最近的TKGQA方法,并且在回答其他两种类型的问题方面也显示出很大的有效性。
translated by 谷歌翻译
知识图形问题应答(kgqa)涉及使用自然语言查询从知识图(kg)中检索事实。 KG是由关系相关的实体组成的策划事实集。某些事实还包括形成时间kg(tkg)的时间信息。虽然许多自然问题涉及显式或隐含的时间限制,但TKGS上的问题应答(QA)是一个相对未开发的地区。现有解决方案主要是为简单的时间问题设计,可以通过单个TKG事实直接回答。本文提出了一种全面的嵌入式框架,用于回答TKGS的复杂问题。我们的方法被称为时间问题推理(TempoQR)利用TKG Embeddings将问题与其指的特定实体和时间范围进行地面。它通过使用三个专用模块增强与上下文,实体和时空信息的问题嵌入问题。第一个计算给定问题的文本表示,第二个将其与所涉及的实体的实体嵌入物组合,第三个生成特定于特定于问题的时间嵌入。最后,基于变换器的编码器学习用问题表示来融合生成的时间信息,该问题表示用于答案预测。广泛的实验表明,TempoQR在最先进的方法上通过25-45个百分点提高了25--45个百分点,并且它将更好地概括到未经说明的问题类型。
translated by 谷歌翻译
虽然知识图表包含各种实体的丰富语义知识和它们之间的关系信息,但时间知识图(TKG)进一步表明实体随时间的相互作用。为了研究如何更好地模范TKG,自动时间知识图完成(TKGC)已经获得了很大的兴趣。最近的TKGC方法旨在整合先进的深度学习技术,例如注意机制和变压器,提高模型性能。然而,我们发现与采用各种复杂模块相比,更有利的是更好地利用沿时间轴的全部时间信息。在本文中,我们为TKGC提出了一个简单但强大的图形编码器Targcn。 targcn是参数效率,它广泛利用了整个时间上下文的信息。我们在三个基准数据集执行实验。与最先进的模型相比,我们的模型可以在GDELT数据集中实现42%以上的相对改善。同时,它优于ICEWS05-15数据集的最强大的基线,参数减少约为18.5%。
translated by 谷歌翻译
使用从预先接受训练的语言模型(LMS)和知识图表(LMS)和知识图表(kgs)回答问题的问题提出了两个挑战:给定QA上下文(问答选择),方法需要(i)从大型千克识别相关知识,(ii)对QA上下文和kg进行联合推理。在这项工作中,我们提出了一种新的模型,QA-GNN,它通过两个关键创新解决了上述挑战:(i)相关评分,我们使用LMS来估计KG节点相对于给定的QA上下文的重要性,以及(ii)联合推理,我们将QA上下文和kg连接到联合图,并通过图形神经网络相互更新它们的表示。我们评估了QA基准的模型(CommanSeaseQA,OpenBookQA)和生物医学(MedQa-USMLE)域名。QA-GNN优于现有的LM和LM + kg模型,并表现出可解释和结构化推理的能力,例如,正确处理问题的否定。
translated by 谷歌翻译
语言模型(LMS)已被证明在各种下游应用程序中很有用,例如摘要,翻译,问答和文本分类。由于它们可以存储的大量信息,LMS正在成为人工智能中越来越重要的工具。在这项工作中,我们提出了道具(提示为探测),该道具利用GPT-3(最初由OpenAI在2020年提出的大型语言模型)来执行知识基础构建任务(KBC)。 Prop实施了一种多步骤方法,该方法结合了各种提示技术来实现这一目标。我们的结果表明,手动提示策划是必不可少的,必须鼓励LM给出可变长度的答案集,特别是包括空的答案集,True/False问题是提高LM生成的建议精度的有用设备。 LM的大小是至关重要的因素,并且实体字典别名提高了LM评分。我们的评估研究表明,这些提出的技术可以大大提高最终预测的质量:Prop赢得了LM-KBC竞争的轨道2,表现优于基线36.4个百分点。我们的实施可在https://github.com/hemile/iswc-challenge上获得。
translated by 谷歌翻译
在知识图上回答自然语言问题(KGQA)仍然是通过多跳推理理解复杂问题的巨大挑战。以前的努力通常利用与实体相关的文本语料库或知识图(kg)嵌入作为辅助信息来促进答案选择。但是,实体之间隐含的富裕语义远未得到很好的探索。本文提议通过利用关系路径的混合语义来改善多跳kgqa。具体而言,我们基于新颖的旋转和规模的实体链接链接预测框架,集成了关系路径的明确文本信息和隐式kg结构特征。在三个KGQA数据集上进行的广泛实验证明了我们方法的优势,尤其是在多跳场景中。进一步的调查证实了我们方法在问题和关系路径之间的系统协调,以识别答案实体。
translated by 谷歌翻译
Biomedical knowledge graphs (KG) are heterogenous networks consisting of biological entities as nodes and relations between them as edges. These entities and relations are extracted from millions of research papers and unified in a single resource. The goal of biomedical multi-hop question-answering over knowledge graph (KGQA) is to help biologist and scientist to get valuable insights by asking questions in natural language. Relevant answers can be found by first understanding the question and then querying the KG for right set of nodes and relationships to arrive at an answer. To model the question, language models such as RoBERTa and BioBERT are used to understand context from natural language question. One of the challenges in KGQA is missing links in the KG. Knowledge graph embeddings (KGE) help to overcome this problem by encoding nodes and edges in a dense and more efficient way. In this paper, we use a publicly available KG called Hetionet which is an integrative network of biomedical knowledge assembled from 29 different databases of genes, compounds, diseases, and more. We have enriched this KG dataset by creating a multi-hop biomedical question-answering dataset in natural language for testing the biomedical multi-hop question-answering system and this dataset will be made available to the research community. The major contribution of this research is an integrated system that combines language models with KG embeddings to give highly relevant answers to free-form questions asked by biologists in an intuitive interface. Biomedical multi-hop question-answering system is tested on this data and results are highly encouraging.
translated by 谷歌翻译
知识库问题的最现有的方法接听(KBQA)关注特定的基础知识库,原因是该方法的固有假设,或者因为在不同的知识库上评估它需要非琐碎的变化。然而,许多流行知识库在其潜在模式中的相似性份额可以利用,以便于跨知识库的概括。为了实现这一概念化,我们基于2级架构介绍了一个KBQA框架,该架构明确地将语义解析与知识库交互分开,促进了数据集和知识图中的转移学习。我们表明,具有不同潜在知识库的数据集预先灌注可以提供显着的性能增益并降低样本复杂性。我们的方法可实现LC-Quad(DBPedia),WEDQSP(FreeBase),简单问话(Wikidata)和MetaQA(WikiMovies-KG)的可比性或最先进的性能。
translated by 谷歌翻译
Existing question answering (QA) datasets fail to train QA systems to perform complex reasoning and provide explanations for answers. We introduce HOTPOTQA, a new dataset with 113k Wikipedia-based question-answer pairs with four key features: (1) the questions require finding and reasoning over multiple supporting documents to answer; (2) the questions are diverse and not constrained to any pre-existing knowledge bases or knowledge schemas; (3) we provide sentence-level supporting facts required for reasoning, allowing QA systems to reason with strong supervision and explain the predictions; (4) we offer a new type of factoid comparison questions to test QA systems' ability to extract relevant facts and perform necessary comparison. We show that HOTPOTQA is challenging for the latest QA systems, and the supporting facts enable models to improve performance and make explainable predictions.
translated by 谷歌翻译
现有的kg增强模型用于问题回答主要专注于设计精心图形神经网络(GNN)以模拟知识图(KG)。但是,它们忽略了(i)有效地融合和推理过问题上下文表示和kg表示,并且(ii)在推理期间自动从嘈杂的KG中选择相关节点。在本文中,我们提出了一种新颖的型号,其通过LMS和GNN的联合推理和动态KGS修剪机制解决了上述限制。具体而言,ConntLK通过新的密集双向注意模块在LMS和GNN之间执行联合推理,其中每个问题令牌参加KG节点,每个KG节点都会参加问题令牌,并且两个模态表示熔断和通过多次熔断和更新。步互动。然后,动态修剪模块使用通过联合推理产生的注意重量来递归修剪无关的kg节点。我们在CommanSENSEQA和OpenBookQA数据集上的结果表明,我们的模态融合和知识修剪方法可以更好地利用相关知识来推理。
translated by 谷歌翻译
从自然语言问题中构建查询图是在知识图上回答复杂问题(复杂KGQA)的重要一步。通常,如果正确构建其查询图,可以正确回答问题,然后通过针对kg发出查询图来检索正确的答案。因此,本文着重于自然语言问题的查询图生成。查询图生成的现有方法忽略了问题的语义结构,从而导致大量破坏预测准确性的嘈杂的查询图候选者。在本文中,我们从kgqa中的常见问题定义了六个语义结构,并开发了一种新颖的结构,以预测问题的语义结构。通过这样做,我们可以首先过滤嘈杂的候选查询图,然后使用基于BERT的排名模型对剩余的候选人进行排名。与最先进的艺术相比,对两个流行的基准metaqa和WebQuestionsSP(WSP)进行了广泛的实验,证明了我们方法的有效性。
translated by 谷歌翻译
学术知识图(KGS)提供了代表科学出版物编码的知识的丰富的结构化信息来源。随着出版的科学文学的庞大,包括描述科学概念的过多的非均匀实体和关系,这些公斤本质上是不完整的。我们呈现Exbert,一种利用预先训练的变压器语言模型来执行学术知识图形完成的方法。我们将知识图形的三元组模型为文本并执行三重分类(即,属于KG或不属于KG)。评估表明,在三重分类,链路预测和关系预测的任务中,Exbert在三个学术kg完成数据集中表现出其他基线。此外,我们将两个学术数据集作为研究界的资源,从公共公共公报和在线资源中收集。
translated by 谷歌翻译
预训练的语言模型(PTLM)已显示出在自然语言任务上表现良好。许多先前的作品都以通过知识图(KGS)标记的关系链接的实体的形式利用结构性常识来协助PTLM。检索方法使用kg作为单独的静态模块,该模块限制了覆盖范围,因为kgs包含有限的知识。生成方法训练PTLMS kg三倍以提高获得知识的规模。但是,对符号KG实体的培训限制了其在涉及自然语言文本的任务中的适用性,在这些任务中,它们忽略了整体上下文。为了减轻这种情况,我们提出了一个以句子为条件的常识性上下文化器(COSE-CO)作为输入,以使其在生成与输入文本的整体上下文相关的任务中通常可用。为了训练Cose-Co,我们提出了一个新的数据集,其中包括句子和常识知识对。 COSE-CO推断出的知识是多种多样的,并且包含了基础KG中不存在的新实体。我们增强了在多选质量质量检查和开放式常识性推理任务中产生的知识,从而改善了CSQA,ARC,QASC和OBQA数据集的当前最佳方法。我们还展示了其在改善释义生成任务的基线模型方面的适用性。
translated by 谷歌翻译
Recent research shows synthetic data as a source of supervision helps pretrained language models (PLM) transfer learning to new target tasks/domains. However, this idea is less explored for spatial language. We provide two new data resources on multiple spatial language processing tasks. The first dataset is synthesized for transfer learning on spatial question answering (SQA) and spatial role labeling (SpRL). Compared to previous SQA datasets, we include a larger variety of spatial relation types and spatial expressions. Our data generation process is easily extendable with new spatial expression lexicons. The second one is a real-world SQA dataset with human-generated questions built on an existing corpus with SPRL annotations. This dataset can be used to evaluate spatial language processing models in realistic situations. We show pretraining with automatically generated data significantly improves the SOTA results on several SQA and SPRL benchmarks, particularly when the training data in the target domain is small.
translated by 谷歌翻译
本文介绍了$ \ mu \ text {kg} $,一个开源python库,用于在知识图上进行表示。 $ \ mu \ text {kg} $支持通过多源知识图(以及单个知识图),多个深度学习库(Pytorch和Tensorflow2),多个嵌入任务(链接预​​测,实体对准,实体键入,实体键入),支持联合表示。 ,以及多源链接预测)以及多个并行计算模式(多进程和多GPU计算)。它目前实现26个流行知识图嵌入模型,并支持16个基准数据集。 $ \ mu \ text {kg} $提供了具有不同任务的简化管道的嵌入技术的高级实现。它还带有高质量的文档,以易于使用。 $ \ mu \ text {kg} $比现有的知识图嵌入库更全面。它对于对各种嵌入模型和任务进行彻底比较和分析非常有用。我们表明,共同学习的嵌入可以极大地帮助知识驱动的下游任务,例如多跳知识图形答案。我们将与相关字段中的最新发展保持一致,并将其纳入$ \ mu \ text {kg} $中。
translated by 谷歌翻译
知识图表(kg)作为从大型自然语言文本语料库中举行蒸馏信息的伟大工具。查询知识图表的自然语言问题对于这些信息的人类消费至关重要。通常通过将自然语言查询转换为结构化查询,然后在kg上触发结构化查询来解决此问题。在文献中的知识图中直接回答模型很少。查询转换模型和直接模型都需要与知识图表的域有关的特定培训数据。在这项工作中,我们将通过知识图表的自然语言问题转换为前提假设对的推理问题。使用培训的深度学习模型进行转换后的代理推理问题,我们为原始自然语言查询问题提供了解决方案。我们的方法在MetaQA数据集中实现了超过90%的准确性,击败现有的最先进。我们还提出了一种推论称为分层复发路径编码器(HRPE)的模型。可以微调推断模型以跨越跨越培训数据的域使用。我们的方法不需要大型域特定的培训数据来查询来自不同域的新知识图表。
translated by 谷歌翻译
Temporal knowledge graph, serving as an effective way to store and model dynamic relations, shows promising prospects in event forecasting. However, most temporal knowledge graph reasoning methods are highly dependent on the recurrence or periodicity of events, which brings challenges to inferring future events related to entities that lack historical interaction. In fact, the current moment is often the combined effect of a small part of historical information and those unobserved underlying factors. To this end, we propose a new event forecasting model called Contrastive Event Network (CENET), based on a novel training framework of historical contrastive learning. CENET learns both the historical and non-historical dependency to distinguish the most potential entities that can best match the given query. Simultaneously, it trains representations of queries to investigate whether the current moment depends more on historical or non-historical events by launching contrastive learning. The representations further help train a binary classifier whose output is a boolean mask to indicate related entities in the search space. During the inference process, CENET employs a mask-based strategy to generate the final results. We evaluate our proposed model on five benchmark graphs. The results demonstrate that CENET significantly outperforms all existing methods in most metrics, achieving at least $8.3\%$ relative improvement of Hits@1 over previous state-of-the-art baselines on event-based datasets.
translated by 谷歌翻译
这项工作调查了以知识图(kg)形式的外部知识来源的理解问题的学习和推理的挑战。我们提出了一种新型的图形神经网络体系结构,称为动态相关图形网络(DRGN)。 DRGN根据问题和答案实体在给定的KG子图上运行,并使用节点之间的相关得分来动态建立新的边缘,以在图形网络中学习节点表示。相关性的这种显式用法作为图表具有以下优点,a)模型可以利用现有关系,重新缩放节点权重,并影响邻里节点的表示方式在kg子图中汇总的方式,b)恢复推理所需的千克中缺失的边缘。此外,作为副产品,由于考虑了问题节点与图形实体之间的相关性,我们的模型改善了处理负面问题。与最新发布的结果相比,我们提出的方法在两个质量检查基准CommonSenseQA和OpenBookQA上显示了竞争性能。
translated by 谷歌翻译
完成知识三胞胎的任务具有广泛的下游应用程序。结构和语义信息在知识图完成中起着重要作用。与以前依靠知识图的结构或语义的方法不同,我们建议将语义共同嵌入知识三胞胎的自然语言描述及其结构信息。我们的方法通过对概率结构化损失进行微调预训练的语言模型来嵌入完成任务的知识图,其中语言模型的正向通过捕获语义和损失重建结构。我们对各种知识图基准的广泛实验证明了我们方法的最新性能。我们还表明,由于语义的更好使用,我们的方法可以显着提高低资源制度的性能。代码和数据集可在https://github.com/pkusjh/lass上找到。
translated by 谷歌翻译
Multi-hop Question Answering over Knowledge Graph~(KGQA) aims to find the answer entities that are multiple hops away from the topic entities mentioned in a natural language question on a large-scale Knowledge Graph (KG). To cope with the vast search space, existing work usually adopts a two-stage approach: it firstly retrieves a relatively small subgraph related to the question and then performs the reasoning on the subgraph to accurately find the answer entities. Although these two stages are highly related, previous work employs very different technical solutions for developing the retrieval and reasoning models, neglecting their relatedness in task essence. In this paper, we propose UniKGQA, a novel approach for multi-hop KGQA task, by unifying retrieval and reasoning in both model architecture and parameter learning. For model architecture, UniKGQA consists of a semantic matching module based on a pre-trained language model~(PLM) for question-relation semantic matching, and a matching information propagation module to propagate the matching information along the edges on KGs. For parameter learning, we design a shared pre-training task based on question-relation matching for both retrieval and reasoning models, and then propose retrieval- and reasoning-oriented fine-tuning strategies. Compared with previous studies, our approach is more unified, tightly relating the retrieval and reasoning stages. Extensive experiments on three benchmark datasets have demonstrated the effectiveness of our method on the multi-hop KGQA task. Our codes and data are publicly available at https://github.com/RUCAIBox/UniKGQA.
translated by 谷歌翻译