整数线性编程(ILP)提供了一种可行的机制,可以用自然语言编码有关可解释的多跳推断的明确和可控制的假设。但是,ILP公式是不可差异的,不能集成到更广泛的深度学习体系结构中。最近,Thayaparan等人。 (2021a)提出了一种新的方法,将ILP与变压器整合在一起,以实现复杂多跳推断的端到端的可不同性。尽管已证明该混合动力框架可以提供更好的答案和解释选择,而不是基于变压器和现有的ILP求解器,但神经符号的整合仍然依赖于ILP配方的凸松弛,这可以产生亚最佳溶液。为了改善这些局限性,我们提出了DIFF-BOMP解释器,这是一种基于可区分的黑框组合求解器(DBCS)的新型神经符号结构(Pogan \ V {C} I \'C等,2019)。与现有的可区分求解器不同,提出的模型不需要对明确的语义约束的转换和放松,从而可以直接,更有效地整合ILP公式。 DIFF-COMBLEXER证明了与非差异性求解器,变压器和现有的基于可区分约束的多跳推理框架相比的准确性和解释性的提高。
translated by 谷歌翻译
本文介绍了DIFF解释器,这是可解释的多跳推断的第一个混合框架,该框架通过可区分的凸优化将明确的约束与神经体系结构集成在一起。具体而言,DIFF解释器允许在受限的优化框架内微调神经表示,以回答和解释自然语言的多跳问题。为了证明混合框架的功效,我们将现有的基于ILP的求解器与基于变压器的表示相结合。对科学和常识性质量检查任务的广泛经验评估表明,在端到端可区分框架中明确约束的整合可以显着改善非不同可差异ILP求解器的性能(8.91%-13.3%)。此外,其他分析表明,与独立的变压器和以前的多跳方法相比,DIFF解释器能够实现强大的性能,同时仍提供结构化解释以支持其预测。
translated by 谷歌翻译
讨论的现有账户强调了事先经验在解决新问题方面的作用。然而,大多数用于多跳文本推理的当代模型构建解释,考虑每个测试用例的隔离。众所周知,这种范式遭受语义漂移,这导致伪装解释的构建导致错误的结论。相比之下,我们研究了解释的多跳推断的绑架框架,该框架采用了在基于案例的推理中主要研究的检索重新使用修正范例。具体地,我们通过检索和调整来自类似训练示例的先前自然语言解释,提出了一种地址和解释了不均义推理问题的新颖框架。我们在下游致辞和科学推理任务上统一地评估了基于案例的绑架框架。我们的实验表明,与现有可说明的方法相比,所提出的框架可以有效地与稀疏和密集的预训练编码机制或下游变压器集成。此外,我们研究了检索重新使用 - 修改范例对可解释性和语义漂移的影响,表明它提高了构造解释的质量,从而提高了下游推理性能。
translated by 谷歌翻译
已经提出了在科学域中再生自然语言解释作为评估复杂的多跳和可解释的推理的基准。在这种情况下,当使用作为跨编码器架构并进行微调的解释时,大型语言模型可以实现最先进的性能。然而,虽然对解释的质量很多,但有效地研究了推理的问题在很大程度上。事实上,交叉编码器本质上不是可扩展的,对需要推断的大规模事实库的实际情况具有有限的适用性。为了在规模上实现复杂的多跳推理,本文重点介绍了双编码器架构,调查了密集和稀疏模型交叉口的科学解释再生问题。具体地,我们呈现瘢痕(用于可扩展的自回归推断),一种混合​​框架,其迭代地结合了基于变压器的双编码器,其具有稀疏模型的解释性模型,旨在利用说明中的显式推理模式。我们的实验表明,混合框架显着优于先前的稀疏模型,实现了与最先进的交叉编码器相当的性能,同时大约为数百万个事实的Corpora的速度快50倍和可扩展。进一步分析了语义漂移和多跳问题的回答,揭示了所提出的杂交提高了最具挑战性解释的质量,有助于提高下游推理任务的性能。
translated by 谷歌翻译
我们提出了一种系统推理的方法,该方法生产了基于事实基础的人类可解释的证明树。我们的解决方案类似于经典的基于序言的推理引擎的风格,在该引擎中,我们通过神经语言建模,指导生成和半磁头密集检索的结合来代替手工制作的规则。这款新颖的推理引擎Nellie动态实例化了可解释的推理规则,这些规则捕获和分数构成(DE)在自然语言陈述上。内莉(Nellie)在科学质量检查数据集上提供竞争性能,需要对多个事实进行结构化解释。
translated by 谷歌翻译
大型语言模型在各种问题答案(QA)基准测试方面取得了高度的性能,但其产出的解释性仍然难以捉摸。最近建议将结构化的解释称为“综合树”,以解释和检查质量检查系统的答案。为了更好地生成此类树木,我们提出了一种称为迭代检索生成推理​​器(IRGR)的架构。我们的模型能够通过系统地生成文本前提的分步解释来解释给定的假设。 IRGR模型迭代地搜索合适的场所,一次构建单个零件步骤。与以前的方法相反,我们的方法结合了生成步骤和房屋的检索,允许模型利用中间结论,并减轻基线编码器模型的输入大小限制。我们使用IntailmentBank数据集进行实验,在该数据集中,我们在前提检索和索引树上的现有基准优于现有的基准,总体正确性增长了约300%。
translated by 谷歌翻译
多跳的推理需要汇总多个文档来回答一个复杂的问题。现有方法通常将多跳问题分解为更简单的单跳问题,以解决说明可解释的推理过程的问题。但是,他们忽略了每个推理步骤的支持事实的基础,这往往会产生不准确的分解。在本文中,我们提出了一个可解释的逐步推理框架,以在每个中间步骤中同时合并单跳支持句子识别和单跳问题生成,并利用当前跳跃的推断,直到推理最终结果。我们采用统一的读者模型来进行中级跳跃推理和最终的跳跃推理,并采用关节优化,以更准确,强大的多跳上推理。我们在两个基准数据集HOTPOTQA和2WIKIMULTIHOPQA上进行实验。结果表明,我们的方法可以有效地提高性能,并在不分解监督的情况下产生更好的解释推理过程。
translated by 谷歌翻译
有效的多跳问答(QA)需要在多个分散的段落上进行推理,并提供答案的解释。大多数现有方法无法提供可解释的推理过程,以说明这些模型如何得出答案。在本文中,我们提出了一种基于多跳QA的抽象含义表示形式(QDAMR)的问题分解方法,该方法通过将多跳问题分解为更简单的子问题并按顺序回答它们来实现可解释的推理。由于注释分解很昂贵,因此我们首先将理解多跳问题的复杂性委托给AMR解析器。然后,我们通过基于所需的推理类型对相应的AMR图进行分割实现多跳问题的分解。最后,我们使用AMR到文本生成模型生成子问题,并使用现成的QA模型回答它们。 HOTPOTQA的实验结果表明,我们的方法在可解释的推理方面具有竞争力,并且QDAMR产生的子问题是良好的,表现优于现有的基于问题分解的多跳质量质量检查方法。
translated by 谷歌翻译
深度学习模型在各种自然语言处理任务中设置了基准。然而,这些模型需要巨大的培训数据,这在许多实际问题中是不可行的。虽然各种技术如域适应,但是几个学习技术解决了这个问题,我们介绍了一种积极地将外部知识的新技术引入学习以解决低数据制度问题。我们提出了一种称为Actknow的技术,它基于知识图(KG)的“按需”在学习中,激发了知识图表(KG)的知识(QA)。通过从概念网络中注入世界知识,我们对基于文本的基于文本的变压器模型的临时挑战 - 在低数据制度中的变压器模型上显示了显着的改进。例如,通过仅使用20%的训练示例,我们分别证明了弧形挑战和OpenBookQA的准确性提高了4%。
translated by 谷歌翻译
Existing question answering (QA) datasets fail to train QA systems to perform complex reasoning and provide explanations for answers. We introduce HOTPOTQA, a new dataset with 113k Wikipedia-based question-answer pairs with four key features: (1) the questions require finding and reasoning over multiple supporting documents to answer; (2) the questions are diverse and not constrained to any pre-existing knowledge bases or knowledge schemas; (3) we provide sentence-level supporting facts required for reasoning, allowing QA systems to reason with strong supervision and explain the predictions; (4) we offer a new type of factoid comparison questions to test QA systems' ability to extract relevant facts and perform necessary comparison. We show that HOTPOTQA is challenging for the latest QA systems, and the supporting facts enable models to improve performance and make explainable predictions.
translated by 谷歌翻译
已经提出了需要树木,以模拟在开放域的文本问题答案的背景下进行解释产生的人类推理过程。但是,实际上,手动构建这些解释树是一个艰苦的过程,需要积极的人类参与。鉴于捕获从问题到答案的推理线的复杂性,或者从索赔中捕获了前提,因此出现了如何帮助用户有效地构建多个级别的树木,并给定大量可用事实。在本文中,我们将需要树的构造作为一系列主动的前提选择步骤,即,对于说明树中的每个中间节点,专家需要注释大型候选人列表中的前提事实的正面和负面示例。然后,我们迭代地进行精细 - 训练前训练的变压器模型,并产生了正面和紧密控制的负面样本,并旨在平衡语义关系和解释性的关系关系的编码。实验评估证实了拟议的主动精细研究方法的可测量效率提高,以促进累积树的构建:与几种替代方案相比,解释性前提选择的提高了20 \%。
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译
Despite the success of large language models (LLMs) in various natural language processing (NLP) tasks, the stored knowledge in these models may inevitably be incomplete, out-of-date, or incorrect. This motivates the need to utilize external knowledge to assist LLMs. Unfortunately, current methods for incorporating external knowledge often require additional training or fine-tuning, which can be costly and may not be feasible for LLMs. To address this issue, we propose a novel post-processing approach, rethinking with retrieval (RR), which retrieves relevant external knowledge based on the decomposed reasoning steps obtained from the chain-of-thought (CoT) prompting. This lightweight approach does not require additional training or fine-tuning and is not limited by the input length of LLMs. We evaluate the effectiveness of RR through extensive experiments with GPT-3 on three complex reasoning tasks: commonsense reasoning, temporal reasoning, and tabular reasoning. Our results show that RR can produce more faithful explanations and improve the performance of LLMs.
translated by 谷歌翻译
多跳问题回答(QA)需要对多个文档进行推理,以回答一个复杂的问题并提供可解释的支持证据。但是,提供支持证据不足以证明模型已经执行了所需的推理来达到正确的答案。大多数现有的多跳质量检查方法也无法回答大部分子问题,即使他们的父母问题得到了正确的回答。在本文中,我们为多跳QA提出了基于及时的保护学习(PCL)框架,该框架从多跳QA任务中获取了新知识,同时保留了在单跳QA任务上学习的旧知识,从而减轻了遗忘。具体来说,我们首先在现有的单跳质量检查任务上训练模型,然后冻结该模型,并通过为多跳质量检查任务分配其他子网络来扩展它。此外,为了调整预训练的语言模型以刺激特定多跳问题所需的推理类型,我们学习了新型子网络的软提示,以执行特定于类型的推理。 HOTPOTQA基准测试的实验结果表明,PCL具有多跳质量质量质量检查的竞争力,并且在相应的单跳子问题上保留了良好的性能,这表明PCL通过忘记通过忘记来减轻知识丧失的功效。
translated by 谷歌翻译
Machine reading comprehension (MRC) is a long-standing topic in natural language processing (NLP). The MRC task aims to answer a question based on the given context. Recently studies focus on multi-hop MRC which is a more challenging extension of MRC, which to answer a question some disjoint pieces of information across the context are required. Due to the complexity and importance of multi-hop MRC, a large number of studies have been focused on this topic in recent years, therefore, it is necessary and worth reviewing the related literature. This study aims to investigate recent advances in the multi-hop MRC approaches based on 31 studies from 2018 to 2022. In this regard, first, the multi-hop MRC problem definition will be introduced, then 31 models will be reviewed in detail with a strong focus on their multi-hop aspects. They also will be categorized based on their main techniques. Finally, a fine-grain comprehensive comparison of the models and techniques will be presented.
translated by 谷歌翻译
今天的大部分AI系统都专注于使用自我关注机制和变压器架构在大量多样化的数据中实现令人印象深刻的性能收益。在本文中,我们建议使用外部注意机制增强变压器架构,以带来外部知识和背景。通过将外部信息集成到预测过程中,我们希望减少对更大的模型的需求,并增加AI系统的民主化。我们发现所提出的外部注意机制可以显着提高现有AI系统的性能,使从业者可以轻松地将基础AI模型自定义到许多不同的下游应用程序。特别是,我们专注于勤杂朗语推理的任务,展示所提出的外部注意机制可以增加现有的变压器模型,并显着提高模型的推理能力。拟议的系统,知识外部关注推理(Kear),达到了开放的铜商QA研究基准的人类奇偶校验,其准确性为89.4 \%,与人类准确性为88.9 \%。
translated by 谷歌翻译
使用来自表格(TableQA)的信息回答自然语言问题是最近的兴趣。在许多应用程序中,表未孤立,但嵌入到非结构化文本中。通常,通过将其部分与表格单元格内容或非结构化文本跨度匹配,并从任一源中提取答案来最佳地回答问题。这导致了HybridQA数据集引入的TextableQA问题的新空间。现有的表格表示对基于变换器的阅读理解(RC)架构的适应性未通过单个系统解决两个表示的不同模式。培训此类系统因对遥远监督的需求而进一步挑战。为了降低认知负担,培训实例通常包括问题和答案,后者匹配多个表行和文本段。这导致嘈杂的多实例培训制度不仅涉及表的行,而且涵盖了链接文本的跨度。我们通过提出Mitqa来回应这些挑战,这是一个新的TextableQA系统,明确地模拟了表行选择和文本跨度选择的不同但密切相关的概率空间。与最近的基线相比,我们的实验表明了我们的方法的优越性。该方法目前在HybridQA排行榜的顶部,并进行了一个试验集,在以前公布的结果上实现了对em和f1的21%的绝对改善。
translated by 谷歌翻译
使用从预先接受训练的语言模型(LMS)和知识图表(LMS)和知识图表(kgs)回答问题的问题提出了两个挑战:给定QA上下文(问答选择),方法需要(i)从大型千克识别相关知识,(ii)对QA上下文和kg进行联合推理。在这项工作中,我们提出了一种新的模型,QA-GNN,它通过两个关键创新解决了上述挑战:(i)相关评分,我们使用LMS来估计KG节点相对于给定的QA上下文的重要性,以及(ii)联合推理,我们将QA上下文和kg连接到联合图,并通过图形神经网络相互更新它们的表示。我们评估了QA基准的模型(CommanSeaseQA,OpenBookQA)和生物医学(MedQa-USMLE)域名。QA-GNN优于现有的LM和LM + kg模型,并表现出可解释和结构化推理的能力,例如,正确处理问题的否定。
translated by 谷歌翻译
多跳的推理(即跨两个或多个文档的推理)是NLP模型的关键要素,该模型利用大型语料库表现出广泛的知识。为了检索证据段落,多跳模型必须与整个啤酒花的快速增长的搜索空间抗衡,代表结合多个信息需求的复杂查询,并解决有关在训练段落之间跳出的最佳顺序的歧义。我们通过Baleen解决了这些问题,Baleen可以提高多跳检索的准确性,同时从多跳的训练信号中学习强大的训练信号的准确性。为了驯服搜索空间,我们提出了凝结的检索,该管道总结了每个跃点后检索到单个紧凑型上下文的管道。为了建模复杂的查询,我们引入了一个重点的后期相互作用检索器,该检索器允许同一查询表示的不同部分匹配不同的相关段落。最后,为了推断无序的训练段落中的跳跃依赖性,我们设计了潜在的跳跃订购,这是一种弱者的策略,在该策略中,受过训练的检索员本身选择了啤酒花的顺序。我们在检索中评估Baleen的两跳问答和多跳的要求验证,并确定最先进的绩效。
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译