讨论的现有账户强调了事先经验在解决新问题方面的作用。然而,大多数用于多跳文本推理的当代模型构建解释,考虑每个测试用例的隔离。众所周知,这种范式遭受语义漂移,这导致伪装解释的构建导致错误的结论。相比之下,我们研究了解释的多跳推断的绑架框架,该框架采用了在基于案例的推理中主要研究的检索重新使用修正范例。具体地,我们通过检索和调整来自类似训练示例的先前自然语言解释,提出了一种地址和解释了不均义推理问题的新颖框架。我们在下游致辞和科学推理任务上统一地评估了基于案例的绑架框架。我们的实验表明,与现有可说明的方法相比,所提出的框架可以有效地与稀疏和密集的预训练编码机制或下游变压器集成。此外,我们研究了检索重新使用 - 修改范例对可解释性和语义漂移的影响,表明它提高了构造解释的质量,从而提高了下游推理性能。
translated by 谷歌翻译
已经提出了在科学域中再生自然语言解释作为评估复杂的多跳和可解释的推理的基准。在这种情况下,当使用作为跨编码器架构并进行微调的解释时,大型语言模型可以实现最先进的性能。然而,虽然对解释的质量很多,但有效地研究了推理的问题在很大程度上。事实上,交叉编码器本质上不是可扩展的,对需要推断的大规模事实库的实际情况具有有限的适用性。为了在规模上实现复杂的多跳推理,本文重点介绍了双编码器架构,调查了密集和稀疏模型交叉口的科学解释再生问题。具体地,我们呈现瘢痕(用于可扩展的自回归推断),一种混合​​框架,其迭代地结合了基于变压器的双编码器,其具有稀疏模型的解释性模型,旨在利用说明中的显式推理模式。我们的实验表明,混合框架显着优于先前的稀疏模型,实现了与最先进的交叉编码器相当的性能,同时大约为数百万个事实的Corpora的速度快50倍和可扩展。进一步分析了语义漂移和多跳问题的回答,揭示了所提出的杂交提高了最具挑战性解释的质量,有助于提高下游推理任务的性能。
translated by 谷歌翻译
本文介绍了DIFF解释器,这是可解释的多跳推断的第一个混合框架,该框架通过可区分的凸优化将明确的约束与神经体系结构集成在一起。具体而言,DIFF解释器允许在受限的优化框架内微调神经表示,以回答和解释自然语言的多跳问题。为了证明混合框架的功效,我们将现有的基于ILP的求解器与基于变压器的表示相结合。对科学和常识性质量检查任务的广泛经验评估表明,在端到端可区分框架中明确约束的整合可以显着改善非不同可差异ILP求解器的性能(8.91%-13.3%)。此外,其他分析表明,与独立的变压器和以前的多跳方法相比,DIFF解释器能够实现强大的性能,同时仍提供结构化解释以支持其预测。
translated by 谷歌翻译
整数线性编程(ILP)提供了一种可行的机制,可以用自然语言编码有关可解释的多跳推断的明确和可控制的假设。但是,ILP公式是不可差异的,不能集成到更广泛的深度学习体系结构中。最近,Thayaparan等人。 (2021a)提出了一种新的方法,将ILP与变压器整合在一起,以实现复杂多跳推断的端到端的可不同性。尽管已证明该混合动力框架可以提供更好的答案和解释选择,而不是基于变压器和现有的ILP求解器,但神经符号的整合仍然依赖于ILP配方的凸松弛,这可以产生亚最佳溶液。为了改善这些局限性,我们提出了DIFF-BOMP解释器,这是一种基于可区分的黑框组合求解器(DBCS)的新型神经符号结构(Pogan \ V {C} I \'C等,2019)。与现有的可区分求解器不同,提出的模型不需要对明确的语义约束的转换和放松,从而可以直接,更有效地整合ILP公式。 DIFF-COMBLEXER证明了与非差异性求解器,变压器和现有的基于可区分约束的多跳推理框架相比的准确性和解释性的提高。
translated by 谷歌翻译
我们提出了一种系统推理的方法,该方法生产了基于事实基础的人类可解释的证明树。我们的解决方案类似于经典的基于序言的推理引擎的风格,在该引擎中,我们通过神经语言建模,指导生成和半磁头密集检索的结合来代替手工制作的规则。这款新颖的推理引擎Nellie动态实例化了可解释的推理规则,这些规则捕获和分数构成(DE)在自然语言陈述上。内莉(Nellie)在科学质量检查数据集上提供竞争性能,需要对多个事实进行结构化解释。
translated by 谷歌翻译
Despite the success of large language models (LLMs) in various natural language processing (NLP) tasks, the stored knowledge in these models may inevitably be incomplete, out-of-date, or incorrect. This motivates the need to utilize external knowledge to assist LLMs. Unfortunately, current methods for incorporating external knowledge often require additional training or fine-tuning, which can be costly and may not be feasible for LLMs. To address this issue, we propose a novel post-processing approach, rethinking with retrieval (RR), which retrieves relevant external knowledge based on the decomposed reasoning steps obtained from the chain-of-thought (CoT) prompting. This lightweight approach does not require additional training or fine-tuning and is not limited by the input length of LLMs. We evaluate the effectiveness of RR through extensive experiments with GPT-3 on three complex reasoning tasks: commonsense reasoning, temporal reasoning, and tabular reasoning. Our results show that RR can produce more faithful explanations and improve the performance of LLMs.
translated by 谷歌翻译
大型语言模型在各种问题答案(QA)基准测试方面取得了高度的性能,但其产出的解释性仍然难以捉摸。最近建议将结构化的解释称为“综合树”,以解释和检查质量检查系统的答案。为了更好地生成此类树木,我们提出了一种称为迭代检索生成推理​​器(IRGR)的架构。我们的模型能够通过系统地生成文本前提的分步解释来解释给定的假设。 IRGR模型迭代地搜索合适的场所,一次构建单个零件步骤。与以前的方法相反,我们的方法结合了生成步骤和房屋的检索,允许模型利用中间结论,并减轻基线编码器模型的输入大小限制。我们使用IntailmentBank数据集进行实验,在该数据集中,我们在前提检索和索引树上的现有基准优于现有的基准,总体正确性增长了约300%。
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译
知识基础问题回答(KBQA)旨在通过知识库(KB)回答问题。早期研究主要集中于回答有关KB的简单问题,并取得了巨大的成功。但是,他们在复杂问题上的表现远非令人满意。因此,近年来,研究人员提出了许多新颖的方法,研究了回答复杂问题的挑战。在这项调查中,我们回顾了KBQA的最新进展,重点是解决复杂问题,这些问题通常包含多个主题,表达复合关系或涉及数值操作。详细说明,我们从介绍复杂的KBQA任务和相关背景开始。然后,我们描述用于复杂KBQA任务的基准数据集,并介绍这些数据集的构建过程。接下来,我们提出两个复杂KBQA方法的主流类别,即基于语义解析的方法(基于SP)的方法和基于信息检索的方法(基于IR)。具体而言,我们通过流程设计说明了他们的程序,并讨论了它们的主要差异和相似性。之后,我们总结了这两类方法在回答复杂问题时会遇到的挑战,并解释了现有工作中使用的高级解决方案和技术。最后,我们结论并讨论了与复杂的KBQA有关的几个有希望的方向,以进行未来的研究。
translated by 谷歌翻译
深度学习模型在各种自然语言处理任务中设置了基准。然而,这些模型需要巨大的培训数据,这在许多实际问题中是不可行的。虽然各种技术如域适应,但是几个学习技术解决了这个问题,我们介绍了一种积极地将外部知识的新技术引入学习以解决低数据制度问题。我们提出了一种称为Actknow的技术,它基于知识图(KG)的“按需”在学习中,激发了知识图表(KG)的知识(QA)。通过从概念网络中注入世界知识,我们对基于文本的基于文本的变压器模型的临时挑战 - 在低数据制度中的变压器模型上显示了显着的改进。例如,通过仅使用20%的训练示例,我们分别证明了弧形挑战和OpenBookQA的准确性提高了4%。
translated by 谷歌翻译
多跳的推理(即跨两个或多个文档的推理)是NLP模型的关键要素,该模型利用大型语料库表现出广泛的知识。为了检索证据段落,多跳模型必须与整个啤酒花的快速增长的搜索空间抗衡,代表结合多个信息需求的复杂查询,并解决有关在训练段落之间跳出的最佳顺序的歧义。我们通过Baleen解决了这些问题,Baleen可以提高多跳检索的准确性,同时从多跳的训练信号中学习强大的训练信号的准确性。为了驯服搜索空间,我们提出了凝结的检索,该管道总结了每个跃点后检索到单个紧凑型上下文的管道。为了建模复杂的查询,我们引入了一个重点的后期相互作用检索器,该检索器允许同一查询表示的不同部分匹配不同的相关段落。最后,为了推断无序的训练段落中的跳跃依赖性,我们设计了潜在的跳跃订购,这是一种弱者的策略,在该策略中,受过训练的检索员本身选择了啤酒花的顺序。我们在检索中评估Baleen的两跳问答和多跳的要求验证,并确定最先进的绩效。
translated by 谷歌翻译
已经提出了需要树木,以模拟在开放域的文本问题答案的背景下进行解释产生的人类推理过程。但是,实际上,手动构建这些解释树是一个艰苦的过程,需要积极的人类参与。鉴于捕获从问题到答案的推理线的复杂性,或者从索赔中捕获了前提,因此出现了如何帮助用户有效地构建多个级别的树木,并给定大量可用事实。在本文中,我们将需要树的构造作为一系列主动的前提选择步骤,即,对于说明树中的每个中间节点,专家需要注释大型候选人列表中的前提事实的正面和负面示例。然后,我们迭代地进行精细 - 训练前训练的变压器模型,并产生了正面和紧密控制的负面样本,并旨在平衡语义关系和解释性的关系关系的编码。实验评估证实了拟议的主动精细研究方法的可测量效率提高,以促进累积树的构建:与几种替代方案相比,解释性前提选择的提高了20 \%。
translated by 谷歌翻译
今天的大部分AI系统都专注于使用自我关注机制和变压器架构在大量多样化的数据中实现令人印象深刻的性能收益。在本文中,我们建议使用外部注意机制增强变压器架构,以带来外部知识和背景。通过将外部信息集成到预测过程中,我们希望减少对更大的模型的需求,并增加AI系统的民主化。我们发现所提出的外部注意机制可以显着提高现有AI系统的性能,使从业者可以轻松地将基础AI模型自定义到许多不同的下游应用程序。特别是,我们专注于勤杂朗语推理的任务,展示所提出的外部注意机制可以增加现有的变压器模型,并显着提高模型的推理能力。拟议的系统,知识外部关注推理(Kear),达到了开放的铜商QA研究基准的人类奇偶校验,其准确性为89.4 \%,与人类准确性为88.9 \%。
translated by 谷歌翻译
预训练的语言模型(PTLM)已显示出在自然语言任务上表现良好。许多先前的作品都以通过知识图(KGS)标记的关系链接的实体的形式利用结构性常识来协助PTLM。检索方法使用kg作为单独的静态模块,该模块限制了覆盖范围,因为kgs包含有限的知识。生成方法训练PTLMS kg三倍以提高获得知识的规模。但是,对符号KG实体的培训限制了其在涉及自然语言文本的任务中的适用性,在这些任务中,它们忽略了整体上下文。为了减轻这种情况,我们提出了一个以句子为条件的常识性上下文化器(COSE-CO)作为输入,以使其在生成与输入文本的整体上下文相关的任务中通常可用。为了训练Cose-Co,我们提出了一个新的数据集,其中包括句子和常识知识对。 COSE-CO推断出的知识是多种多样的,并且包含了基础KG中不存在的新实体。我们增强了在多选质量质量检查和开放式常识性推理任务中产生的知识,从而改善了CSQA,ARC,QASC和OBQA数据集的当前最佳方法。我们还展示了其在改善释义生成任务的基线模型方面的适用性。
translated by 谷歌翻译
从头开始解决复杂问题通常是有挑战性的,但如果我们可以访问其解决方案的其他类似问题,则更容易 - 一种称为基于案例的推理(CBR)的范式。我们提出了一种神经象征性的CBR方法(CBR-KBQA),用于在大知识库上应答。 CBR-KBQA由非参数内存组成,该内存存储案例(问题和逻辑表单)和参数模型,该参数模型可以通过检索与其相关的案例来为新问题生成逻辑表单。在包含复杂问题的几个KBQA数据集上,CBR-KBQA实现了竞争性能。例如,在ComplexWebQuestions数据集上,CBR-KBQA以11 \%的准确度优于当前最新状态。此外,我们表明CBR-KBQA能够使用新案例\ EMPH {没有}任何进一步的培训:通过在案例存储器中纳入一些人类标记的示例,CBR-KBQA能够成功地生成包含未经看线KB实体的逻辑表格以及关系。
translated by 谷歌翻译
Recent progress in pretraining language models on large textual corpora led to a surge of improvements for downstream NLP tasks. Whilst learning linguistic knowledge, these models may also be storing relational knowledge present in the training data, and may be able to answer queries structured as "fillin-the-blank" cloze statements. Language models have many advantages over structured knowledge bases: they require no schema engineering, allow practitioners to query about an open class of relations, are easy to extend to more data, and require no human supervision to train. We present an in-depth analysis of the relational knowledge already present (without fine-tuning) in a wide range of state-of-theart pretrained language models. We find that (i) without fine-tuning, BERT contains relational knowledge competitive with traditional NLP methods that have some access to oracle knowledge, (ii) BERT also does remarkably well on open-domain question answering against a supervised baseline, and (iii) certain types of factual knowledge are learned much more readily than others by standard language model pretraining approaches. The surprisingly strong ability of these models to recall factual knowledge without any fine-tuning demonstrates their potential as unsupervised open-domain QA systems. The code to reproduce our analysis is available at https: //github.com/facebookresearch/LAMA.
translated by 谷歌翻译
Machine reading comprehension (MRC) is a long-standing topic in natural language processing (NLP). The MRC task aims to answer a question based on the given context. Recently studies focus on multi-hop MRC which is a more challenging extension of MRC, which to answer a question some disjoint pieces of information across the context are required. Due to the complexity and importance of multi-hop MRC, a large number of studies have been focused on this topic in recent years, therefore, it is necessary and worth reviewing the related literature. This study aims to investigate recent advances in the multi-hop MRC approaches based on 31 studies from 2018 to 2022. In this regard, first, the multi-hop MRC problem definition will be introduced, then 31 models will be reviewed in detail with a strong focus on their multi-hop aspects. They also will be categorized based on their main techniques. Finally, a fine-grain comprehensive comparison of the models and techniques will be presented.
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译
The emergence of large pretrained models has enabled language models to achieve superior performance in common NLP tasks, including language modeling and question answering, compared to previous static word representation methods. Augmenting these models with a retriever to retrieve the related text and documents as supporting information has shown promise in effectively solving NLP problems in a more interpretable way given that the additional knowledge is injected explicitly rather than being captured in the models' parameters. In spite of the recent progress, our analysis on retriever-augmented language models shows that this class of language models still lack reasoning over the retrieved documents. In this paper, we study the strengths and weaknesses of different retriever-augmented language models such as REALM, kNN-LM, FiD, ATLAS, and Flan-T5 in reasoning over the selected documents in different tasks. In particular, we analyze the reasoning failures of each of these models and study how the models' failures in reasoning are rooted in the retriever module as well as the language model.
translated by 谷歌翻译
有效的多跳问答(QA)需要在多个分散的段落上进行推理,并提供答案的解释。大多数现有方法无法提供可解释的推理过程,以说明这些模型如何得出答案。在本文中,我们提出了一种基于多跳QA的抽象含义表示形式(QDAMR)的问题分解方法,该方法通过将多跳问题分解为更简单的子问题并按顺序回答它们来实现可解释的推理。由于注释分解很昂贵,因此我们首先将理解多跳问题的复杂性委托给AMR解析器。然后,我们通过基于所需的推理类型对相应的AMR图进行分割实现多跳问题的分解。最后,我们使用AMR到文本生成模型生成子问题,并使用现成的QA模型回答它们。 HOTPOTQA的实验结果表明,我们的方法在可解释的推理方面具有竞争力,并且QDAMR产生的子问题是良好的,表现优于现有的基于问题分解的多跳质量质量检查方法。
translated by 谷歌翻译