多跳的推理需要汇总多个文档来回答一个复杂的问题。现有方法通常将多跳问题分解为更简单的单跳问题,以解决说明可解释的推理过程的问题。但是,他们忽略了每个推理步骤的支持事实的基础,这往往会产生不准确的分解。在本文中,我们提出了一个可解释的逐步推理框架,以在每个中间步骤中同时合并单跳支持句子识别和单跳问题生成,并利用当前跳跃的推断,直到推理最终结果。我们采用统一的读者模型来进行中级跳跃推理和最终的跳跃推理,并采用关节优化,以更准确,强大的多跳上推理。我们在两个基准数据集HOTPOTQA和2WIKIMULTIHOPQA上进行实验。结果表明,我们的方法可以有效地提高性能,并在不分解监督的情况下产生更好的解释推理过程。
translated by 谷歌翻译
近年来,在挑战的多跳QA任务方面有令人印象深刻的进步。然而,当面对输入文本中的一些干扰时,这些QA模型可能会失败,并且它们进行多跳推理的可解释性仍然不确定。以前的逆势攻击作品通常编辑整个问题句,这对测试基于实体的多跳推理能力有限。在本文中,我们提出了一种基于多跳推理链的逆势攻击方法。我们将从查询实体开始的多跳推理链与构造的图表中的答案实体一起制定,这使我们能够将问题对齐到每个推理跳跃,从而攻击任何跃点。我们将问题分类为不同的推理类型和对应于所选推理跳的部分问题,以产生分散注意力的句子。我们在HotpotQA DataSet上的三个QA模型上测试我们的对抗方案。结果表明,对答案和支持事实预测的显着性能降低,验证了我们推理基于链条推理模型的攻击方法的有效性以及它们的脆弱性。我们的对抗重新培训进一步提高了这些模型的性能和鲁棒性。
translated by 谷歌翻译
多跳问题回答(QA)需要对多个文档进行推理,以回答一个复杂的问题并提供可解释的支持证据。但是,提供支持证据不足以证明模型已经执行了所需的推理来达到正确的答案。大多数现有的多跳质量检查方法也无法回答大部分子问题,即使他们的父母问题得到了正确的回答。在本文中,我们为多跳QA提出了基于及时的保护学习(PCL)框架,该框架从多跳QA任务中获取了新知识,同时保留了在单跳QA任务上学习的旧知识,从而减轻了遗忘。具体来说,我们首先在现有的单跳质量检查任务上训练模型,然后冻结该模型,并通过为多跳质量检查任务分配其他子网络来扩展它。此外,为了调整预训练的语言模型以刺激特定多跳问题所需的推理类型,我们学习了新型子网络的软提示,以执行特定于类型的推理。 HOTPOTQA基准测试的实验结果表明,PCL具有多跳质量质量质量检查的竞争力,并且在相应的单跳子问题上保留了良好的性能,这表明PCL通过忘记通过忘记来减轻知识丧失的功效。
translated by 谷歌翻译
Existing question answering (QA) datasets fail to train QA systems to perform complex reasoning and provide explanations for answers. We introduce HOTPOTQA, a new dataset with 113k Wikipedia-based question-answer pairs with four key features: (1) the questions require finding and reasoning over multiple supporting documents to answer; (2) the questions are diverse and not constrained to any pre-existing knowledge bases or knowledge schemas; (3) we provide sentence-level supporting facts required for reasoning, allowing QA systems to reason with strong supervision and explain the predictions; (4) we offer a new type of factoid comparison questions to test QA systems' ability to extract relevant facts and perform necessary comparison. We show that HOTPOTQA is challenging for the latest QA systems, and the supporting facts enable models to improve performance and make explainable predictions.
translated by 谷歌翻译
Machine reading comprehension (MRC) is a long-standing topic in natural language processing (NLP). The MRC task aims to answer a question based on the given context. Recently studies focus on multi-hop MRC which is a more challenging extension of MRC, which to answer a question some disjoint pieces of information across the context are required. Due to the complexity and importance of multi-hop MRC, a large number of studies have been focused on this topic in recent years, therefore, it is necessary and worth reviewing the related literature. This study aims to investigate recent advances in the multi-hop MRC approaches based on 31 studies from 2018 to 2022. In this regard, first, the multi-hop MRC problem definition will be introduced, then 31 models will be reviewed in detail with a strong focus on their multi-hop aspects. They also will be categorized based on their main techniques. Finally, a fine-grain comprehensive comparison of the models and techniques will be presented.
translated by 谷歌翻译
在本文中,我们提出了多跳问题回答的两个阶段模型。第一阶段是一个层次图网络,该网络用于对多跳问题进行推理,并能够使用文档的自然结构(即段落,问题,句子和实体)捕获不同级别的粒度。推理过程是转换为节点分类任务(即,段落节点和句子节点)。第二阶段是语言模型微调任务。在一句话中,第一阶段使用图形神经网络选择和连接支持句子作为一个段落,第二阶段在语言模型微调范式中找到答案跨度。
translated by 谷歌翻译
有效的多跳问答(QA)需要在多个分散的段落上进行推理,并提供答案的解释。大多数现有方法无法提供可解释的推理过程,以说明这些模型如何得出答案。在本文中,我们提出了一种基于多跳QA的抽象含义表示形式(QDAMR)的问题分解方法,该方法通过将多跳问题分解为更简单的子问题并按顺序回答它们来实现可解释的推理。由于注释分解很昂贵,因此我们首先将理解多跳问题的复杂性委托给AMR解析器。然后,我们通过基于所需的推理类型对相应的AMR图进行分割实现多跳问题的分解。最后,我们使用AMR到文本生成模型生成子问题,并使用现成的QA模型回答它们。 HOTPOTQA的实验结果表明,我们的方法在可解释的推理方面具有竞争力,并且QDAMR产生的子问题是良好的,表现优于现有的基于问题分解的多跳质量质量检查方法。
translated by 谷歌翻译
多跳质量有注释的支持事实,这是考虑到答案的可解释性的阅读理解(RC)的任务,已被广泛研究。在这项研究中,我们将可解释的阅读理解(IRC)模型定义为管道模型,其具有预测未签发的查询的能力。 IRC模型通过在预测的支持事实和可解释性的实际理由之间建立一致性来证明答案预测。 IRC模型检测不可批售的问题,而不是基于不足的信息强制输出答案,以确保答案的可靠性。我们还提出了一种管道RC模型的端到端培训方法。为了评估可解释性和可靠性,我们在给定段落中考虑了在多跳问题中考虑不答复性的实验。我们表明,我们的端到端培训管道模型在我们修改的热浦问题数据集中表现出不可解释的模型。实验结果还表明,尽管预测性能与解释性之间的权衡,IRC模型尽管有折衷,但IRC模型仍然可以对先前的不可解释模型实现了可比的结果。
translated by 谷歌翻译
Label smoothing is a regularization technique widely used in supervised learning to improve the generalization of models on various tasks, such as image classification and machine translation. However, the effectiveness of label smoothing in multi-hop question answering (MHQA) has yet to be well studied. In this paper, we systematically analyze the role of label smoothing on various modules of MHQA and propose F1 smoothing, a novel label smoothing technique specifically designed for machine reading comprehension (MRC) tasks. We evaluate our method on the HotpotQA dataset and demonstrate its superiority over several strong baselines, including models that utilize complex attention mechanisms. Our results suggest that label smoothing can be effective in MHQA, but the choice of smoothing strategy can significantly affect performance.
translated by 谷歌翻译
Multi-modal and multi-hop question answering aims to answer a question based on multiple input sources from different modalities. Previous methods retrieve the evidence separately and feed the retrieved evidence to a language model to generate the corresponding answer. However, these methods fail to build connections between candidates and thus cannot model the inter-dependent relation during retrieval. Moreover, the reasoning process over multi-modality candidates can be unbalanced without building alignments between different modalities. To address this limitation, we propose a Structured Knowledge and Unified Retrieval Generation based method (SKURG). We align the sources from different modalities via the shared entities and map them into a shared semantic space via structured knowledge. Then, we utilize a unified retrieval-generation decoder to integrate intermediate retrieval results for answer generation and adaptively determine the number of retrieval steps. We perform experiments on two multi-modal and multi-hop datasets: WebQA and MultimodalQA. The results demonstrate that SKURG achieves state-of-the-art performance on both retrieval and answer generation.
translated by 谷歌翻译
Multi-hop Machine reading comprehension is a challenging task with aim of answering a question based on disjoint pieces of information across the different passages. The evaluation metrics and datasets are a vital part of multi-hop MRC because it is not possible to train and evaluate models without them, also, the proposed challenges by datasets often are an important motivation for improving the existing models. Due to increasing attention to this field, it is necessary and worth reviewing them in detail. This study aims to present a comprehensive survey on recent advances in multi-hop MRC evaluation metrics and datasets. In this regard, first, the multi-hop MRC problem definition will be presented, then the evaluation metrics based on their multi-hop aspect will be investigated. Also, 15 multi-hop datasets have been reviewed in detail from 2017 to 2022, and a comprehensive analysis has been prepared at the end. Finally, open issues in this field have been discussed.
translated by 谷歌翻译
远程变压器模型取得了令人鼓舞的令人鼓舞的结果,即长上下文问题应答(QA)任务。这些任务通常需要超过一个长文件的推理,并且他们受益于识别一组证据跨度(例如,句子),为解决问题提供支持证据。在这项工作中,我们提出了一种用于装备远程变压器的新方法,其具有额外的序列级目标,以便更好地识别支持证据跨度。我们通过提出FineTuning的额外对比监督信号来实现这一目标,鼓励模型通过最大化问题证据相似性来明确歧视来自消极的证据句。拟议的额外损失表现出三种不同强大的长情绪变压器模型的一致改进,跨两个具有挑战性的问题回答基准 - 热杆菌和Qasper。
translated by 谷歌翻译
在开放的书本回答(OBQA)任务中,从分散注意力的信息中选择相关段落和句子对于推理问题的答案至关重要。 HOTPOTQA数据集旨在教授和评估系统以进行段落排名和句子选择。许多现有框架使用单独的模型分别选择相关段落和句子。这样的系统不仅在模型的参数方面具有很高的复杂性,而且还无法将训练这两个任务训练在一起的优势,因为一项任务可能对另一个任务有益。在这项工作中,我们提出了一个简单而有效的框架,可以通过共同排名段落和选择句子来解决这些限制。此外,我们提出一致性和相似性约束,以促进段落排名和句子选择之间的相关性和相互作用。实验表明,我们的框架可以与以前的系统实现竞争性结果,并就相关句子的确切匹配而优于28 \%在HOTPOTQA数据集上。
translated by 谷歌翻译
多跳的推理(即跨两个或多个文档的推理)是NLP模型的关键要素,该模型利用大型语料库表现出广泛的知识。为了检索证据段落,多跳模型必须与整个啤酒花的快速增长的搜索空间抗衡,代表结合多个信息需求的复杂查询,并解决有关在训练段落之间跳出的最佳顺序的歧义。我们通过Baleen解决了这些问题,Baleen可以提高多跳检索的准确性,同时从多跳的训练信号中学习强大的训练信号的准确性。为了驯服搜索空间,我们提出了凝结的检索,该管道总结了每个跃点后检索到单个紧凑型上下文的管道。为了建模复杂的查询,我们引入了一个重点的后期相互作用检索器,该检索器允许同一查询表示的不同部分匹配不同的相关段落。最后,为了推断无序的训练段落中的跳跃依赖性,我们设计了潜在的跳跃订购,这是一种弱者的策略,在该策略中,受过训练的检索员本身选择了啤酒花的顺序。我们在检索中评估Baleen的两跳问答和多跳的要求验证,并确定最先进的绩效。
translated by 谷歌翻译
关于时间知识图(TKGQA)的问题回答最近发现兴趣越来越大。 TKGQA需要时间推理技术来从时间知识库中提取相关信息。唯一现有的TKGQA数据集,即cronquestions,由基于固定时间段内的事实组成,其中跨越同一时期的时间知识图(TKG)可以完全使用用于答案推断,允许使用TKGQA模型。即将根据过去事实回答问题的未来知识。但是,在现实世界的情况下,鉴于到目前为止的知识也很常见,我们希望TKGQA系统回答询问未来的问题。随着人类不断寻求未来计划,建立用于回答此类预测问题的TKGQA系统很重要。然而,这在先前的研究中仍未得到探索。在本文中,我们提出了一个新的任务:关于时间知识图的预测问题。我们还为此任务提出了一个大规模的TKGQA基准数据集,即预测。它包括三种类型的问题,即实体预测,不是和事实推理问题。对于我们数据集中的每个预测问题,QA模型只能在给定问题中注释的时间戳以进行答案推理之前访问TKG信息。我们发现,最先进的TKGQA方法在预测问题上的表现较差,并且他们无法回答不是问题和事实推理问题。为此,我们提出了一种TKGQA模型预测,该模型采用TKG预测模块进行未来推断,以回答所有三种类型的问题。实验结果表明,预测到实体预测问题的最新方法优于最近的TKGQA方法,并且在回答其他两种类型的问题方面也显示出很大的有效性。
translated by 谷歌翻译
预训练的语言模型(PTLM)已显示出在自然语言任务上表现良好。许多先前的作品都以通过知识图(KGS)标记的关系链接的实体的形式利用结构性常识来协助PTLM。检索方法使用kg作为单独的静态模块,该模块限制了覆盖范围,因为kgs包含有限的知识。生成方法训练PTLMS kg三倍以提高获得知识的规模。但是,对符号KG实体的培训限制了其在涉及自然语言文本的任务中的适用性,在这些任务中,它们忽略了整体上下文。为了减轻这种情况,我们提出了一个以句子为条件的常识性上下文化器(COSE-CO)作为输入,以使其在生成与输入文本的整体上下文相关的任务中通常可用。为了训练Cose-Co,我们提出了一个新的数据集,其中包括句子和常识知识对。 COSE-CO推断出的知识是多种多样的,并且包含了基础KG中不存在的新实体。我们增强了在多选质量质量检查和开放式常识性推理任务中产生的知识,从而改善了CSQA,ARC,QASC和OBQA数据集的当前最佳方法。我们还展示了其在改善释义生成任务的基线模型方面的适用性。
translated by 谷歌翻译
Despite the success of large language models (LLMs) in various natural language processing (NLP) tasks, the stored knowledge in these models may inevitably be incomplete, out-of-date, or incorrect. This motivates the need to utilize external knowledge to assist LLMs. Unfortunately, current methods for incorporating external knowledge often require additional training or fine-tuning, which can be costly and may not be feasible for LLMs. To address this issue, we propose a novel post-processing approach, rethinking with retrieval (RR), which retrieves relevant external knowledge based on the decomposed reasoning steps obtained from the chain-of-thought (CoT) prompting. This lightweight approach does not require additional training or fine-tuning and is not limited by the input length of LLMs. We evaluate the effectiveness of RR through extensive experiments with GPT-3 on three complex reasoning tasks: commonsense reasoning, temporal reasoning, and tabular reasoning. Our results show that RR can produce more faithful explanations and improve the performance of LLMs.
translated by 谷歌翻译
使用来自表格(TableQA)的信息回答自然语言问题是最近的兴趣。在许多应用程序中,表未孤立,但嵌入到非结构化文本中。通常,通过将其部分与表格单元格内容或非结构化文本跨度匹配,并从任一源中提取答案来最佳地回答问题。这导致了HybridQA数据集引入的TextableQA问题的新空间。现有的表格表示对基于变换器的阅读理解(RC)架构的适应性未通过单个系统解决两个表示的不同模式。培训此类系统因对遥远监督的需求而进一步挑战。为了降低认知负担,培训实例通常包括问题和答案,后者匹配多个表行和文本段。这导致嘈杂的多实例培训制度不仅涉及表的行,而且涵盖了链接文本的跨度。我们通过提出Mitqa来回应这些挑战,这是一个新的TextableQA系统,明确地模拟了表行选择和文本跨度选择的不同但密切相关的概率空间。与最近的基线相比,我们的实验表明了我们的方法的优越性。该方法目前在HybridQA排行榜的顶部,并进行了一个试验集,在以前公布的结果上实现了对em和f1的21%的绝对改善。
translated by 谷歌翻译
本文介绍了DIFF解释器,这是可解释的多跳推断的第一个混合框架,该框架通过可区分的凸优化将明确的约束与神经体系结构集成在一起。具体而言,DIFF解释器允许在受限的优化框架内微调神经表示,以回答和解释自然语言的多跳问题。为了证明混合框架的功效,我们将现有的基于ILP的求解器与基于变压器的表示相结合。对科学和常识性质量检查任务的广泛经验评估表明,在端到端可区分框架中明确约束的整合可以显着改善非不同可差异ILP求解器的性能(8.91%-13.3%)。此外,其他分析表明,与独立的变压器和以前的多跳方法相比,DIFF解释器能够实现强大的性能,同时仍提供结构化解释以支持其预测。
translated by 谷歌翻译
Multi-hop reading comprehension requires not only the ability to reason over raw text but also the ability to combine multiple evidence. We propose a novel learning approach that helps language models better understand difficult multi-hop questions and perform "complex, compositional" reasoning. Our model first learns to decompose each multi-hop question into several sub-questions by a trainable question decomposer. Instead of answering these sub-questions, we directly concatenate them with the original question and context, and leverage a reading comprehension model to predict the answer in a sequence-to-sequence manner. By using the same language model for these two components, our best seperate/unified t5-base variants outperform the baseline by 7.2/6.1 absolute F1 points on a hard subset of DROP dataset.
translated by 谷歌翻译