In this paper we introduce a new publicly available dataset for verification against textual sources, FEVER: Fact Extraction and VERification. It consists of 185,445 claims generated by altering sentences extracted from Wikipedia and subsequently verified without knowledge of the sentence they were derived from.The claims are classified as SUPPORTED, RE-FUTED or NOTENOUGHINFO by annotators achieving 0.6841 in Fleiss κ. For the first two classes, the annotators also recorded the sentence(s) forming the necessary evidence for their judgment. To characterize the challenge of the dataset presented, we develop a pipeline approach and compare it to suitably designed oracles. The best accuracy we achieve on labeling a claim accompanied by the correct evidence is 31.87%, while if we ignore the evidence we achieve 50.91%. Thus we believe that FEVER is a challenging testbed that will help stimulate progress on claim verification against textual sources.
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译
由于信息和错误信息都可以在现代媒体生态系统中传播的速度,事实检查变得越来越重要。因此,研究人员一直在探索如何自动检查,使用基于自然语言处理,机器学习,知识表示以及数据库来自动检查的技术,以自动预测所称的索赔的真实性。在本文中,我们从自然语言处理中调查了自动检查源,并讨论其与相关任务和学科的联系。在此过程中,我们概述了现有数据集和模型,旨在统一给出的各种定义和识别共同概念。最后,我们突出了未来研究的挑战。
translated by 谷歌翻译
自动索赔检查是确定在值得信赖的事实知识库中发现的索赔的真实性的任务。虽然以前的工作已经使知识库进行了优化的索赔管道,但我们采取了相反的方法 - 浏览管道,我们探索知识库的选择。我们的第一洞察力是,可以将索赔管道转移到索赔的新域,该索赔具有访问来自新域的知识库。其次,我们找不到“普遍存在最好的”知识库 - 任务数据集的更高域重叠,并且知识库往往会产生更好的标签精度。第三,组合多个知识库不倾向于使用最近域知识库改善超出性能。最后,我们表明,即使在没有地面真理标签的情况下,也可以使用这些索赔管道的选择证据的置信度分数来评估知识库是否会对新的索赔进行良好。
translated by 谷歌翻译
A key component of fact verification is thevevidence retrieval, often from multiple documents. Recent approaches use dense representations and condition the retrieval of each document on the previously retrieved ones. The latter step is performed over all the documents in the collection, requiring storing their dense representations in an index, thus incurring a high memory footprint. An alternative paradigm is retrieve-and-rerank, where documents are retrieved using methods such as BM25, their sentences are reranked, and further documents are retrieved conditioned on these sentences, reducing the memory requirements. However, such approaches can be brittle as they rely on heuristics and assume hyperlinks between documents. We propose a novel retrieve-and-rerank method for multi-hop retrieval, that consists of a retriever that jointly scores documents in the knowledge source and sentences from previously retrieved documents using an autoregressive formulation and is guided by a proof system based on natural logic that dynamically terminates the retrieval process if the evidence is deemed sufficient. This method is competitive with current state-of-the-art methods on FEVER, HoVer and FEVEROUS-S, while using $5$ to $10$ times less memory than competing systems. Evaluation on an adversarial dataset indicates improved stability of our approach compared to commonly deployed threshold-based methods. Finally, the proof system helps humans predict model decisions correctly more often than using the evidence alone.
translated by 谷歌翻译
我们介绍了用于科学索赔核查的龙头克切者系统。鉴于科学索赔和含证据的研究摘要,Longchecker预测了一种可靠的标签,并根据索赔和摘要的共享编码,以多任务方式识别支持的基本原理。我们在SCIFact DataSet上执行实验,并发现Longchecker实现了最先进的性能。我们进行分析以了解这种改进的来源,并发现识别声明与报告科学发现之间的关系往往需要了解出现理由的背景。通过根据所有可用上下文进行标记决策,Longchecker在需要这种类型理解的情况下实现更好的性能。此外,我们表明LongChecker能够利用弱域内数据来利用弱势域数据,以方便为科学索赔核查的少量域适应。
translated by 谷歌翻译
We present TriviaQA, a challenging reading comprehension dataset containing over 650K question-answer-evidence triples. TriviaQA includes 95K questionanswer pairs authored by trivia enthusiasts and independently gathered evidence documents, six per question on average, that provide high quality distant supervision for answering the questions. We show that, in comparison to other recently introduced large-scale datasets, TriviaQA (1) has relatively complex, compositional questions, (2) has considerable syntactic and lexical variability between questions and corresponding answer-evidence sentences, and (3) requires more cross sentence reasoning to find answers. We also present two baseline algorithms: a featurebased classifier and a state-of-the-art neural network, that performs well on SQuAD reading comprehension. Neither approach comes close to human performance (23% and 40% vs. 80%), suggesting that Trivi-aQA is a challenging testbed that is worth significant future study. 1
translated by 谷歌翻译
随着近期自然语言生成(NLG)模型的各种应用程序的改进,它变得必须具有识别和评估NLG输出是否仅共享关于外部世界的可验证信息的手段。在这项工作中,我们提出了一个归属于识别的来源(AIS)的新评估框架,用于评估自然语言生成模型的输出,当这种输出涉及外部世界时。我们首先定义AIS,并引入两级注释管道,用于允许注释器根据AIS指南适当地评估模型输出。通过人为评估研究,我们在三个代数据集(会话QA域中的两个中和总结一下,概括地验证了这种方法,表明AIS可以作为测量模型生成的语句是否支持基础来源的常见框架。我们释放人类评估研究指南。
translated by 谷歌翻译
事实验证系统通常依靠神经网络分类器来实现缺乏解释性的准确性预测。本文提出了验证器,该证明器使用SEQ2SEQ模型来生成基于自然逻辑的推论作为证明。这些证明包括声明中的跨度和检索的证据之间的词汇突变,每个突变都标有自然逻辑操作员。声称准确性仅基于这些操作员的序列确定。因此,这些证明是忠实的解释,这使验证者忠实于构造。目前,Proofver具有最高的标签精度,并且是发烧排行榜中第二高的得分。此外,它在具有反事实实例的数据集上的下一个最佳模型中提高了13.21%的积分,证明了其稳健性。作为解释,与基于注意的重点相比,证明与人类理由的重叠更好,并且证明可以帮助人类正确预测模型决策,而不是直接使用证据。
translated by 谷歌翻译
维基百科等文本知识库需要相当大的努力来保持最新和一致。虽然自动写作助手可能会缓解这一负担,但探讨了建议在外部知识基础上的建议的问题。在本文中,我们介绍了*忠实地反映了文本*(水果)中的更新信息的新颖一代任务是举办新证据的目标是更新现有文章。我们释放了Fruit-Wiki DataSet,一系列超过170k的远端监督数据,以及我们的数据生成管道和914个实例的金色评估集,其编辑被证据支持。我们为流行的发电系统以及编辑方法提供基准结果 - 根据编辑的基于T5的方法,我们介绍了确定现有技术的。我们的分析表明,开发可以忠实更新文章的开发模型需要新的神经发电模型的新功能,并打开更多新应用程序。
translated by 谷歌翻译
我们提出了索赔动物:事实检验和事实分析的新型潜在变量模型,该模型给出了索赔和一组检索的证据,可以共同学习:(i)该主张的相关证明是什么(ii)这一说法的真实性。我们建议以可解释的方式删除提供的全部相关性概率及其对最终准确性概率的贡献 - 最终的准确性概率与单位相关性概率的线性集合成正比。这样,可以清楚地识别出哪些来源的相关性在何种程度上朝着最终概率方面的范围。我们表明,我们的系统在发烧数据集上实现了最先进的结果,可与通常在传统事实检查管道中使用的两阶段系统相当,而通常使用的参数和计算较少。我们的分析表明,提出的方法进一步允许不仅了解哪些证明是相关的,而且还可以在没有直接监督的情况下获得支持和拒绝索赔的哪些证明。这不仅增加了解释性,而且还允许自动检测出与证据相互冲突的索赔。此外,我们研究模型在使用粗粒监督时是否可以学习细粒度的相关性线索。我们表明,我们的模型只能使用段落级相关性监督,可以实现竞争性的句子回顾。最后,朝着最优质的相关性跨度,我们表明我们的框架能够在令牌级别上识别相关性。为此,我们提出了一个专注于令牌级别的解释性的新基准 - 人类在相关证明中注释令牌,他们在做出判断时认为必不可少。然后,我们衡量这些注释与代币的相似之处是我们的模型的重点。我们的代码和数据集将在线发布。
translated by 谷歌翻译
Existing question answering (QA) datasets fail to train QA systems to perform complex reasoning and provide explanations for answers. We introduce HOTPOTQA, a new dataset with 113k Wikipedia-based question-answer pairs with four key features: (1) the questions require finding and reasoning over multiple supporting documents to answer; (2) the questions are diverse and not constrained to any pre-existing knowledge bases or knowledge schemas; (3) we provide sentence-level supporting facts required for reasoning, allowing QA systems to reason with strong supervision and explain the predictions; (4) we offer a new type of factoid comparison questions to test QA systems' ability to extract relevant facts and perform necessary comparison. We show that HOTPOTQA is challenging for the latest QA systems, and the supporting facts enable models to improve performance and make explainable predictions.
translated by 谷歌翻译
自动问题应答(QA)系统的目的是以时间有效的方式向用户查询提供答案。通常在数据库(或知识库)或通常被称为语料库的文件集合中找到答案。在过去的几十年里,收购知识的扩散,因此生物医学领域的新科学文章一直是指数增长。因此,即使对于领域专家,也难以跟踪域中的所有信息。随着商业搜索引擎的改进,用户可以在某些情况下键入其查询并获得最相关的一小组文档,以及在某些情况下从文档中的相关片段。但是,手动查找所需信息或答案可能仍然令人疑惑和耗时。这需要开发高效的QA系统,该系统旨在为用户提供精确和精确的答案提供了生物医学领域的自然语言问题。在本文中,我们介绍了用于开发普通域QA系统的基本方法,然后彻底调查生物医学QA系统的不同方面,包括使用结构化数据库和文本集合的基准数据集和几种提出的方​​法。我们还探讨了当前系统的局限性,并探索潜在的途径以获得进一步的进步。
translated by 谷歌翻译
包含布尔问题的现有数据集(如Booolq和Tydi QA)为用户提供对问题的是/否响应。然而,一个单词响应不足以可说明的系统。我们通过释放一组标记现有TYDI QA和Booolq数据集的证据的新辅助来促进解释性。我们表明,与依赖现有资源的模型相比,我们的注释可用于培训提取改进证据跨度的模型。我们通过用户学习确认我们的调查结果表明我们提取的证据涵盖了增强用户体验。我们还提供进一步了解回答布尔问题的挑战,例如包含冲突的是和无答案的段落,以及预测证据的不同程度。
translated by 谷歌翻译
Language models (LMs) now excel at many tasks such as few-shot learning, question answering, reasoning, and dialog. However, they sometimes generate unsupported or misleading content. A user cannot easily determine whether their outputs are trustworthy or not, because most LMs do not have any built-in mechanism for attribution to external evidence. To enable attribution while still preserving all the powerful advantages of recent generation models, we propose RARR (Retrofit Attribution using Research and Revision), a system that 1) automatically finds attribution for the output of any text generation model and 2) post-edits the output to fix unsupported content while preserving the original output as much as possible. When applied to the output of several state-of-the-art LMs on a diverse set of generation tasks, we find that RARR significantly improves attribution while otherwise preserving the original input to a much greater degree than previously explored edit models. Furthermore, the implementation of RARR requires only a handful of training examples, a large language model, and standard web search.
translated by 谷歌翻译
为了实现长文档理解的构建和测试模型,我们引入质量,具有中文段的多项选择QA DataSet,具有约5,000个令牌的平均长度,比典型的当前模型更长。与经过段落的事先工作不同,我们的问题是由阅读整个段落的贡献者编写和验证的,而不是依赖摘要或摘录。此外,只有一半的问题是通过在紧缩时间限制下工作的注释器来应答,表明略读和简单的搜索不足以一直表现良好。目前的模型在此任务上表现不佳(55.4%),并且落后于人类性能(93.5%)。
translated by 谷歌翻译
To effectively train accurate Relation Extraction models, sufficient and properly labeled data is required. Adequately labeled data is difficult to obtain and annotating such data is a tricky undertaking. Previous works have shown that either accuracy has to be sacrificed or the task is extremely time-consuming, if done accurately. We are proposing an approach in order to produce high-quality datasets for the task of Relation Extraction quickly. Neural models, trained to do Relation Extraction on the created datasets, achieve very good results and generalize well to other datasets. In our study, we were able to annotate 10,022 sentences for 19 relations in a reasonable amount of time, and trained a commonly used baseline model for each relation.
translated by 谷歌翻译
关于社交媒体的虚假医疗信息对人们的健康构成伤害。尽管近年来已经认识到对生物医学事实检查的需求,但用户生成的医疗内容受到了相当少的关注。同时,其他文本类型的模型可能不可重复使用,因为他们接受过培训的说法大不相同。例如,Scifact数据集中的主张是简短而专注的:“与抗抑郁药相关的副作用会增加中风的风险”。相比之下,社交媒体持有自然存在的主张,经常嵌入其他背景下:``如果您服用像SSRI这样的抗抑郁药,您可能会有一种称为5-羟色胺综合征'5-羟色胺'5-羟色胺'的风险。2010年几乎杀死了我。和癫痫发作。”这展示了现实世界中医学主张与现有事实检查系统所期望的输入之间的不匹配。为了使用户生成的内容可通过现有模型来检查,我们建议以这样的方式对社交媒体的输入进行重新重新制定,以使所产生的索赔模仿已建立的数据集中的索赔特征。为此,我们的方法借助关系实体信息将主张凝结,并将索赔从实体关联 - 实体三重汇编中汇编,或者提取包含这些元素的最短短语。我们表明,重新计算的输入改善了各种事实检查模型的性能,而不是整体检查推文文本。
translated by 谷歌翻译
现在,错误和虚假信息已成为我们安全和安全的全球威胁。为了应对在线错误信息的规模,一个可行的解决方案是通过检索和验证相关证据来自动对索赔进行事实检查。尽管在推动自动事实验证方面取得了最新进展,但仍缺乏对可能针对此类系统的攻击向量的全面评估。特别是,自动化事实验证过程可能容易受到其试图打击的确切虚假信息。在这项工作中,我们假设一个对手可以自动使用在线证据擦洗,以通过伪装相关证据或种植误导性的证据来破坏事实检查模型。我们首先提出了探索性分类法,该分类法涵盖了这两个目标和不同的威胁模型维度。在此指导下,我们设计并提出了几种潜在的攻击方法。我们表明,除了产生多样化和索赔一致的证据之外,还可以在证据中巧妙地修改索赔空位段。结果,我们在分类法的许多不同排列中高度降低了事实检查的表现。这些攻击也对索赔后的事后修改也很强大。我们的分析进一步暗示了在面对矛盾的证据时,模型推断的潜在局限性。我们强调,这些攻击可能会对此类模型的可检查和人类使用情况产生有害的影响,我们通过讨论未来防御的挑战和方向来得出结论。
translated by 谷歌翻译
多跳的推理(即跨两个或多个文档的推理)是NLP模型的关键要素,该模型利用大型语料库表现出广泛的知识。为了检索证据段落,多跳模型必须与整个啤酒花的快速增长的搜索空间抗衡,代表结合多个信息需求的复杂查询,并解决有关在训练段落之间跳出的最佳顺序的歧义。我们通过Baleen解决了这些问题,Baleen可以提高多跳检索的准确性,同时从多跳的训练信号中学习强大的训练信号的准确性。为了驯服搜索空间,我们提出了凝结的检索,该管道总结了每个跃点后检索到单个紧凑型上下文的管道。为了建模复杂的查询,我们引入了一个重点的后期相互作用检索器,该检索器允许同一查询表示的不同部分匹配不同的相关段落。最后,为了推断无序的训练段落中的跳跃依赖性,我们设计了潜在的跳跃订购,这是一种弱者的策略,在该策略中,受过训练的检索员本身选择了啤酒花的顺序。我们在检索中评估Baleen的两跳问答和多跳的要求验证,并确定最先进的绩效。
translated by 谷歌翻译