知识库问题的最现有的方法接听(KBQA)关注特定的基础知识库,原因是该方法的固有假设,或者因为在不同的知识库上评估它需要非琐碎的变化。然而,许多流行知识库在其潜在模式中的相似性份额可以利用,以便于跨知识库的概括。为了实现这一概念化,我们基于2级架构介绍了一个KBQA框架,该架构明确地将语义解析与知识库交互分开,促进了数据集和知识图中的转移学习。我们表明,具有不同潜在知识库的数据集预先灌注可以提供显着的性能增益并降低样本复杂性。我们的方法可实现LC-Quad(DBPedia),WEDQSP(FreeBase),简单问话(Wikidata)和MetaQA(WikiMovies-KG)的可比性或最先进的性能。
translated by 谷歌翻译
从自然语言问题中构建查询图是在知识图上回答复杂问题(复杂KGQA)的重要一步。通常,如果正确构建其查询图,可以正确回答问题,然后通过针对kg发出查询图来检索正确的答案。因此,本文着重于自然语言问题的查询图生成。查询图生成的现有方法忽略了问题的语义结构,从而导致大量破坏预测准确性的嘈杂的查询图候选者。在本文中,我们从kgqa中的常见问题定义了六个语义结构,并开发了一种新颖的结构,以预测问题的语义结构。通过这样做,我们可以首先过滤嘈杂的候选查询图,然后使用基于BERT的排名模型对剩余的候选人进行排名。与最先进的艺术相比,对两个流行的基准metaqa和WebQuestionsSP(WSP)进行了广泛的实验,证明了我们方法的有效性。
translated by 谷歌翻译
在知识图上回答自然语言问题(KGQA)仍然是通过多跳推理理解复杂问题的巨大挑战。以前的努力通常利用与实体相关的文本语料库或知识图(kg)嵌入作为辅助信息来促进答案选择。但是,实体之间隐含的富裕语义远未得到很好的探索。本文提议通过利用关系路径的混合语义来改善多跳kgqa。具体而言,我们基于新颖的旋转和规模的实体链接链接预测框架,集成了关系路径的明确文本信息和隐式kg结构特征。在三个KGQA数据集上进行的广泛实验证明了我们方法的优势,尤其是在多跳场景中。进一步的调查证实了我们方法在问题和关系路径之间的系统协调,以识别答案实体。
translated by 谷歌翻译
我们提出了一种基于转换的系统来转换摘要意义代表(AMR)进入SPARQL,了解知识库问题应答(KBQA)。这允许将抽象问题的一部分委派给强训练的语义解析器,同时使用少量配对数据学习转换。我们从最近的工作相关的AMR和SPARQL构造,而不是应用一套规则,我们教导BART模型选择性地使用这些关系。此外,在最近的语义解析作品之后,我们避免在BART的注意机制中进行了显式编码AMR,而是编码解析器状态。结果模型很简单,为其决策提供支持文本,并且优于LC-Quad(F1 53.4)中的基于AMR的KBQA中的最新进展,在QAL(F1 30.8)中匹配,同时利用相同的归纳偏差。
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译
预训练的语言模型(PTLM)已显示出在自然语言任务上表现良好。许多先前的作品都以通过知识图(KGS)标记的关系链接的实体的形式利用结构性常识来协助PTLM。检索方法使用kg作为单独的静态模块,该模块限制了覆盖范围,因为kgs包含有限的知识。生成方法训练PTLMS kg三倍以提高获得知识的规模。但是,对符号KG实体的培训限制了其在涉及自然语言文本的任务中的适用性,在这些任务中,它们忽略了整体上下文。为了减轻这种情况,我们提出了一个以句子为条件的常识性上下文化器(COSE-CO)作为输入,以使其在生成与输入文本的整体上下文相关的任务中通常可用。为了训练Cose-Co,我们提出了一个新的数据集,其中包括句子和常识知识对。 COSE-CO推断出的知识是多种多样的,并且包含了基础KG中不存在的新实体。我们增强了在多选质量质量检查和开放式常识性推理任务中产生的知识,从而改善了CSQA,ARC,QASC和OBQA数据集的当前最佳方法。我们还展示了其在改善释义生成任务的基线模型方面的适用性。
translated by 谷歌翻译
从头开始解决复杂问题通常是有挑战性的,但如果我们可以访问其解决方案的其他类似问题,则更容易 - 一种称为基于案例的推理(CBR)的范式。我们提出了一种神经象征性的CBR方法(CBR-KBQA),用于在大知识库上应答。 CBR-KBQA由非参数内存组成,该内存存储案例(问题和逻辑表单)和参数模型,该参数模型可以通过检索与其相关的案例来为新问题生成逻辑表单。在包含复杂问题的几个KBQA数据集上,CBR-KBQA实现了竞争性能。例如,在ComplexWebQuestions数据集上,CBR-KBQA以11 \%的准确度优于当前最新状态。此外,我们表明CBR-KBQA能够使用新案例\ EMPH {没有}任何进一步的培训:通过在案例存储器中纳入一些人类标记的示例,CBR-KBQA能够成功地生成包含未经看线KB实体的逻辑表格以及关系。
translated by 谷歌翻译
知识基础问题回答(KBQA)旨在通过知识库(KB)回答问题。早期研究主要集中于回答有关KB的简单问题,并取得了巨大的成功。但是,他们在复杂问题上的表现远非令人满意。因此,近年来,研究人员提出了许多新颖的方法,研究了回答复杂问题的挑战。在这项调查中,我们回顾了KBQA的最新进展,重点是解决复杂问题,这些问题通常包含多个主题,表达复合关系或涉及数值操作。详细说明,我们从介绍复杂的KBQA任务和相关背景开始。然后,我们描述用于复杂KBQA任务的基准数据集,并介绍这些数据集的构建过程。接下来,我们提出两个复杂KBQA方法的主流类别,即基于语义解析的方法(基于SP)的方法和基于信息检索的方法(基于IR)。具体而言,我们通过流程设计说明了他们的程序,并讨论了它们的主要差异和相似性。之后,我们总结了这两类方法在回答复杂问题时会遇到的挑战,并解释了现有工作中使用的高级解决方案和技术。最后,我们结论并讨论了与复杂的KBQA有关的几个有希望的方向,以进行未来的研究。
translated by 谷歌翻译
When answering natural language questions over knowledge bases (KBs), incompleteness in the KB can naturally lead to many questions being unanswerable. While answerability has been explored in other QA settings, it has not been studied for QA over knowledge bases (KBQA). We first identify various forms of KB incompleteness that can result in a question being unanswerable. We then propose GrailQAbility, a new benchmark dataset, which systematically modifies GrailQA (a popular KBQA dataset) to represent all these incompleteness issues. Testing two state-of-the-art KBQA models (trained on original GrailQA as well as our GrailQAbility), we find that both models struggle to detect unanswerable questions, or sometimes detect them for the wrong reasons. Consequently, both models suffer significant loss in performance, underscoring the need for further research in making KBQA systems robust to unanswerability.
translated by 谷歌翻译
在这项工作中,我们专注于从自然语言问题中生成SPARQL查询的任务,然后可以在知识图(kgs)上执行。我们假设已经提供了黄金实体和关系,其余的任务是与Sparql词汇一起以正确的顺序排列它们,并输入令牌以产生正确的SPARQL查询。到目前为止,尚未对此任务进行深入探索,因此我们使用BERT嵌入的BART,T5和PGN(指针发电机网络)进行了深入探讨,因此,请在PLM ERA中寻找此任务的新基础,在dbpedia和wikidata kgs上。我们表明T5需要特殊的输入令牌化,但是在LC-Quad 1.0和LC-Quad 2.0数据集上产生最先进的性能,并且从以前的工作中优于特定于任务的模型。此外,这些方法可以为问题进行语义解析,以使输入的一部分需要复制到输出查询,从而在KG语义解析中启用新的范式。
translated by 谷歌翻译
Multi-hop Question Answering over Knowledge Graph~(KGQA) aims to find the answer entities that are multiple hops away from the topic entities mentioned in a natural language question on a large-scale Knowledge Graph (KG). To cope with the vast search space, existing work usually adopts a two-stage approach: it firstly retrieves a relatively small subgraph related to the question and then performs the reasoning on the subgraph to accurately find the answer entities. Although these two stages are highly related, previous work employs very different technical solutions for developing the retrieval and reasoning models, neglecting their relatedness in task essence. In this paper, we propose UniKGQA, a novel approach for multi-hop KGQA task, by unifying retrieval and reasoning in both model architecture and parameter learning. For model architecture, UniKGQA consists of a semantic matching module based on a pre-trained language model~(PLM) for question-relation semantic matching, and a matching information propagation module to propagate the matching information along the edges on KGs. For parameter learning, we design a shared pre-training task based on question-relation matching for both retrieval and reasoning models, and then propose retrieval- and reasoning-oriented fine-tuning strategies. Compared with previous studies, our approach is more unified, tightly relating the retrieval and reasoning stages. Extensive experiments on three benchmark datasets have demonstrated the effectiveness of our method on the multi-hop KGQA task. Our codes and data are publicly available at https://github.com/RUCAIBox/UniKGQA.
translated by 谷歌翻译
Complex knowledge base question answering can be achieved by converting questions into sequences of predefined actions. However, there is a significant semantic and structural gap between natural language and action sequences, which makes this conversion difficult. In this paper, we introduce an alignment-enhanced complex question answering framework, called ALCQA, which mitigates this gap through question-to-action alignment and question-to-question alignment. We train a question rewriting model to align the question and each action, and utilize a pretrained language model to implicitly align the question and KG artifacts. Moreover, considering that similar questions correspond to similar action sequences, we retrieve top-k similar question-answer pairs at the inference stage through question-to-question alignment and propose a novel reward-guided action sequence selection strategy to select from candidate action sequences. We conduct experiments on CQA and WQSP datasets, and the results show that our approach outperforms state-of-the-art methods and obtains a 9.88\% improvements in the F1 metric on CQA dataset. Our source code is available at https://github.com/TTTTTTTTy/ALCQA.
translated by 谷歌翻译
知识图表问题基于信息检索旨在通过从大型知识图表中检索答案来回答问题来回答(即,kgqa)。大多数现有方法首先粗略地检索可能包含候选答案的知识子图(KSG),然后搜索子图中的确切答案。然而,粗略检索的KSG可以包含数千个候选节点,因为查询中涉及的知识图通常是大规模的。为了解决这个问题,我们首先建议通过新的子图分区算法将检索到的ksg分区为几个较小的子ksgs,然后呈现一个图形增强学习,以便测量模型以从中选择排名的子ksgs。我们所提出的模型结合了新的子图匹配网络,以捕获问题和子图中的全局交互以及增强的双边多视角匹配模型,以捕获局部交互。最后,我们分别在全KSG和排名级分ksg上应用答案选择模型,以验证我们提出的图形增强学习的效果。多个基准数据集的实验结果表明了我们方法的有效性。
translated by 谷歌翻译
知识图完成(KGC)最近已扩展到多个知识图(kg)结构,启动了新的研究方向,例如静态kgc,颞kgc和少数kgc。以前的作品通常设计了KGC模型与特定的图形结构紧密结合,这不可避免地会导致两个缺点:1)结构特异性KGC模型是互不兼容的; 2)现有的KGC方法不适合新兴KG。在本文中,我们提出了KG-S2S,即SEQ2SEQ生成框架,可以通过将KG事实的表示形式统一为“平坦”文本,无论其原始形式如何,可以通过将KG事实的表示来解决不同的语言图形结构。为了纠正“平面”文本的KG结构信息损失,我们进一步改善了实体和关系的输入表示,以及KG-S2中的推理算法。五个基准测试的实验表明,KG-S2S的表现优于许多竞争基线,从而创造了新的最新性能。最后,我们分析了KG-S2S在不同关系和非实体世代上的能力。
translated by 谷歌翻译
Knowledge graph (KG) link prediction aims to infer new facts based on existing facts in the KG. Recent studies have shown that using the graph neighborhood of a node via graph neural networks (GNNs) provides more useful information compared to just using the query information. Conventional GNNs for KG link prediction follow the standard message-passing paradigm on the entire KG, which leads to over-smoothing of representations and also limits their scalability. On a large scale, it becomes computationally expensive to aggregate useful information from the entire KG for inference. To address the limitations of existing KG link prediction frameworks, we propose a novel retrieve-and-read framework, which first retrieves a relevant subgraph context for the query and then jointly reasons over the context and the query with a high-capacity reader. As part of our exemplar instantiation for the new framework, we propose a novel Transformer-based GNN as the reader, which incorporates graph-based attention structure and cross-attention between query and context for deep fusion. This design enables the model to focus on salient context information relevant to the query. Empirical results on two standard KG link prediction datasets demonstrate the competitive performance of the proposed method.
translated by 谷歌翻译
深度学习的最新进展极大地推动了语义解析的研究。此后,在许多下游任务中进行了改进,包括Web API的自然语言接口,文本到SQL的生成等。但是,尽管与这些任务有着密切的联系,但有关知识库的问题的研究(KBQA)的进展相对缓慢。我们将其确定并归因于KBQA的两个独特挑战,模式级的复杂性和事实级别的复杂性。在这项调查中,我们将KBQA放置在更广泛的语义解析文献中,并全面说明了现有的KBQA方法如何试图应对独特的挑战。无论面临什么独特的挑战,我们都认为我们仍然可以从语义解析的文献中汲取太大的灵感,这被现有的KBQA研究所忽略了。基于我们的讨论,我们可以更好地了解当前KBQA研究的瓶颈,并阐明KBQA的有希望的方向,以跟上语义解析的文献,尤其是在预训练的语言模型时代。
translated by 谷歌翻译
复杂知识库问题回答是过去十年的一个流行的研究领域。最近的公共数据集导致这一领域的令人鼓舞的结果,但主要涉及英语,只涉及少数问题类型和关系,在更现实的环境和英语以外的语言中妨碍研究。此外,很少有最先进的KBQA模型在Wikidata上培训,是最受欢迎的真实知识库之一。我们提出了CLC-Quad,这是Wikidata的第一个大规模复杂的中文语义解析数据集,以解决这些挑战。我们与数据集一起介绍了一个文本到SPARQL基线模型,可以有效地应答多种类型的复杂问题,例如事实上的问题,双重意图问题,布尔问题和计数问题,以及Wikidata作为背景知识。我们终于分析了SOTA KBQA模型在此数据集中的表现,并确定了中国KBQA面临的挑战。
translated by 谷歌翻译
问题回答(QA)对知识库(KBS)的挑战是充满挑战的,因为所需的推理模式多样化,本质上是无限的,类型的推理模式。但是,我们假设以大型KB为基础,以回答各自子图中各个实体的查询类型所需的推理模式。利用不同子图的本地社区之间的这种结构相似性,我们引入了一个半参数模型(cbr-subg),(i)一个非参数组件,每个查询,每个查询,都会动态检索其他类似的$ k $ - $ - $ - $ - near-neart-tebrienk(KNN)培训查询以及查询特定的子图和(ii)训练的参数组件,该参数分量可以从KNN查询的子图中识别(潜在的)推理模式,然后将其应用于目标查询的子图。我们还提出了一种自适应子图收集策略,以选择特定于查询的compact子图,从而使我们可以扩展到包含数十亿个事实的完整freebase kb。我们表明,CBR-SUBG可以回答需要子图推理模式的查询,并在几个KBQA基准上的最佳模型竞争性能。我们的子图收集策略还会产生更多紧凑的子图(例如,webQSP的尺寸减小55 \%,而将答案召回的召回率增加4.85 \%)\ footNote {代码,模型和子码头可在\ url {https://github.com上获得。 /rajarshd/cbr-subg}}。
translated by 谷歌翻译
关于时间知识图(TKGQA)的问题回答最近发现兴趣越来越大。 TKGQA需要时间推理技术来从时间知识库中提取相关信息。唯一现有的TKGQA数据集,即cronquestions,由基于固定时间段内的事实组成,其中跨越同一时期的时间知识图(TKG)可以完全使用用于答案推断,允许使用TKGQA模型。即将根据过去事实回答问题的未来知识。但是,在现实世界的情况下,鉴于到目前为止的知识也很常见,我们希望TKGQA系统回答询问未来的问题。随着人类不断寻求未来计划,建立用于回答此类预测问题的TKGQA系统很重要。然而,这在先前的研究中仍未得到探索。在本文中,我们提出了一个新的任务:关于时间知识图的预测问题。我们还为此任务提出了一个大规模的TKGQA基准数据集,即预测。它包括三种类型的问题,即实体预测,不是和事实推理问题。对于我们数据集中的每个预测问题,QA模型只能在给定问题中注释的时间戳以进行答案推理之前访问TKG信息。我们发现,最先进的TKGQA方法在预测问题上的表现较差,并且他们无法回答不是问题和事实推理问题。为此,我们提出了一种TKGQA模型预测,该模型采用TKG预测模块进行未来推断,以回答所有三种类型的问题。实验结果表明,预测到实体预测问题的最新方法优于最近的TKGQA方法,并且在回答其他两种类型的问题方面也显示出很大的有效性。
translated by 谷歌翻译
Parsing natural language questions into executable logical forms is a useful and interpretable way to perform question answering on structured data such as knowledge bases (KB) or databases (DB). However, existing approaches on semantic parsing cannot adapt to both modalities, as they suffer from the exponential growth of the logical form candidates and can hardly generalize to unseen data. In this work, we propose Uni-Parser, a unified semantic parser for question answering (QA) on both KB and DB. We introduce the primitive (relation and entity in KB, and table name, column name and cell value in DB) as an essential element in our framework. The number of primitives grows linearly with the number of retrieved relations in KB and DB, preventing us from dealing with exponential logic form candidates. We leverage the generator to predict final logical forms by altering and composing topranked primitives with different operations (e.g. select, where, count). With sufficiently pruned search space by a contrastive primitive ranker, the generator is empowered to capture the composition of primitives enhancing its generalization ability. We achieve competitive results on multiple KB and DB QA benchmarks more efficiently, especially in the compositional and zero-shot settings.
translated by 谷歌翻译