我们介绍了用于科学索赔核查的龙头克切者系统。鉴于科学索赔和含证据的研究摘要,Longchecker预测了一种可靠的标签,并根据索赔和摘要的共享编码,以多任务方式识别支持的基本原理。我们在SCIFact DataSet上执行实验,并发现Longchecker实现了最先进的性能。我们进行分析以了解这种改进的来源,并发现识别声明与报告科学发现之间的关系往往需要了解出现理由的背景。通过根据所有可用上下文进行标记决策,Longchecker在需要这种类型理解的情况下实现更好的性能。此外,我们表明LongChecker能够利用弱域内数据来利用弱势域数据,以方便为科学索赔核查的少量域适应。
translated by 谷歌翻译
关于社交媒体的虚假医疗信息对人们的健康构成伤害。尽管近年来已经认识到对生物医学事实检查的需求,但用户生成的医疗内容受到了相当少的关注。同时,其他文本类型的模型可能不可重复使用,因为他们接受过培训的说法大不相同。例如,Scifact数据集中的主张是简短而专注的:“与抗抑郁药相关的副作用会增加中风的风险”。相比之下,社交媒体持有自然存在的主张,经常嵌入其他背景下:``如果您服用像SSRI这样的抗抑郁药,您可能会有一种称为5-羟色胺综合征'5-羟色胺'5-羟色胺'的风险。2010年几乎杀死了我。和癫痫发作。”这展示了现实世界中医学主张与现有事实检查系统所期望的输入之间的不匹配。为了使用户生成的内容可通过现有模型来检查,我们建议以这样的方式对社交媒体的输入进行重新重新制定,以使所产生的索赔模仿已建立的数据集中的索赔特征。为此,我们的方法借助关系实体信息将主张凝结,并将索赔从实体关联 - 实体三重汇编中汇编,或者提取包含这些元素的最短短语。我们表明,重新计算的输入改善了各种事实检查模型的性能,而不是整体检查推文文本。
translated by 谷歌翻译
In this paper we introduce a new publicly available dataset for verification against textual sources, FEVER: Fact Extraction and VERification. It consists of 185,445 claims generated by altering sentences extracted from Wikipedia and subsequently verified without knowledge of the sentence they were derived from.The claims are classified as SUPPORTED, RE-FUTED or NOTENOUGHINFO by annotators achieving 0.6841 in Fleiss κ. For the first two classes, the annotators also recorded the sentence(s) forming the necessary evidence for their judgment. To characterize the challenge of the dataset presented, we develop a pipeline approach and compare it to suitably designed oracles. The best accuracy we achieve on labeling a claim accompanied by the correct evidence is 31.87%, while if we ignore the evidence we achieve 50.91%. Thus we believe that FEVER is a challenging testbed that will help stimulate progress on claim verification against textual sources.
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译
自动索赔检查是确定在值得信赖的事实知识库中发现的索赔的真实性的任务。虽然以前的工作已经使知识库进行了优化的索赔管道,但我们采取了相反的方法 - 浏览管道,我们探索知识库的选择。我们的第一洞察力是,可以将索赔管道转移到索赔的新域,该索赔具有访问来自新域的知识库。其次,我们找不到“普遍存在最好的”知识库 - 任务数据集的更高域重叠,并且知识库往往会产生更好的标签精度。第三,组合多个知识库不倾向于使用最近域知识库改善超出性能。最后,我们表明,即使在没有地面真理标签的情况下,也可以使用这些索赔管道的选择证据的置信度分数来评估知识库是否会对新的索赔进行良好。
translated by 谷歌翻译
索赔检测和验证对于新闻认识至关重要,并且已成为有前途的技术,以减轻新闻中的错误信息。然而,大多数现有的工作侧重于索赔句子的分析,同时俯瞰关键背景属性,例如索引者,声称对象和连接到索赔的其他知识。在这项工作中,我们提供了新闻本,新的基准,了解新闻领域的知识意识索赔检测。我们重新定义了索赔探测问题,包括提取与索赔相关的附加背景属性,并发布529索赔由103个新闻文章提示。此外,报讯人旨在在新兴场景中索取索赔检测系统,包括不少培训数据的看不见的主题。最后,我们对这款新基准测试提供了对各种零射和及时的基础基准的全面评估。
translated by 谷歌翻译
关于比较治疗效果的最佳证据来自临床试验,其结果在非结构化的文章中据报道。医疗专家必须手动提取文章中的信息以告知决策,这是耗时和昂贵的。在这里,我们考虑(a)从描述临床试验(实体识别)的全文物品中提取治疗和结果的端到端任务,(b)推断前者的报告结果(关系萃取)。我们为此任务介绍了新数据,并评估最近在自然语言处理中获得类似任务的最先进结果的模型。然后,我们提出了一种新的方法,激励了通常介绍了如何呈现这些纯粹数据驱动的基线的试验结果。最后,我们对该模型进行了一定的评估,并具有非营利性寻求鉴定可能重新用癌症的现有药物,显示出端到端证据提取系统的潜在效用。
translated by 谷歌翻译
A key component of fact verification is thevevidence retrieval, often from multiple documents. Recent approaches use dense representations and condition the retrieval of each document on the previously retrieved ones. The latter step is performed over all the documents in the collection, requiring storing their dense representations in an index, thus incurring a high memory footprint. An alternative paradigm is retrieve-and-rerank, where documents are retrieved using methods such as BM25, their sentences are reranked, and further documents are retrieved conditioned on these sentences, reducing the memory requirements. However, such approaches can be brittle as they rely on heuristics and assume hyperlinks between documents. We propose a novel retrieve-and-rerank method for multi-hop retrieval, that consists of a retriever that jointly scores documents in the knowledge source and sentences from previously retrieved documents using an autoregressive formulation and is guided by a proof system based on natural logic that dynamically terminates the retrieval process if the evidence is deemed sufficient. This method is competitive with current state-of-the-art methods on FEVER, HoVer and FEVEROUS-S, while using $5$ to $10$ times less memory than competing systems. Evaluation on an adversarial dataset indicates improved stability of our approach compared to commonly deployed threshold-based methods. Finally, the proof system helps humans predict model decisions correctly more often than using the evidence alone.
translated by 谷歌翻译
例如,查询是一个众所周知的信息检索任务,其中由用户选择文档作为搜索查询,目标是从大集合中检索相关文档。但是,文档通常涵盖主题的多个方面。要解决此方案,我们将通过示例介绍面位查询的任务,其中用户还可以指定除输入查询文档之外的更精细的粗体方面。我们专注于在科学文献搜索中的应用。我们设想能够沿着专门选择的修辞结构元素作为对此问题的一种解决方案来检索类似于查询科学纸的科学论文。在这项工作中,我们称之为方面的修辞结构元素,表明了科学论文的目标,方法或结果。我们介绍并描述了一个专家注释的测试集合,以评估培训的型号以执行此任务。我们的测试收集包括一个不同的50套英文查询文件,从计算语言学和机器学习场所绘制。我们仔细遵循TREC用于深度-K池(k = 100或250)使用的注释指南,结果数据收集包括具有高注释协议的分级相关性分数。在我们的数据集中评估的最先进模型显示出进一步的工作中的显着差距。可以在此处访问我们的数据集:https://github.com/iesl/csfcube
translated by 谷歌翻译
大型语言模型在各种任务上显示出令人印象深刻的几次结果。但是,当知识是此类结果的关键时,就像问题回答和事实检查之类的任务一样,似乎需要存储知识的大量参数计数。众所周知,检索增强模型可以在不需要多个参数的情况下在知识密集的任务上表现出色,但是目前尚不清楚它们是否在几个弹药设置中工作。在这项工作中,我们介绍了地图集,这是一个经过精心设计和预先训练的增强语言模型,能够通过很少的培训示例学习知识密集型任务。我们对包括MMLU,苏格兰短裙和归类等各种任务进行评估,并研究文档索引内容的影响,表明它可以很容易地进行更新。值得注意的是,在自然问题上仅使用64个示例在自然问题上达到超过42 \%的准确性,尽管参数少了50倍,但比540B参数模型的表现优于540b参数模型。
translated by 谷歌翻译
我们提出了索赔动物:事实检验和事实分析的新型潜在变量模型,该模型给出了索赔和一组检索的证据,可以共同学习:(i)该主张的相关证明是什么(ii)这一说法的真实性。我们建议以可解释的方式删除提供的全部相关性概率及其对最终准确性概率的贡献 - 最终的准确性概率与单位相关性概率的线性集合成正比。这样,可以清楚地识别出哪些来源的相关性在何种程度上朝着最终概率方面的范围。我们表明,我们的系统在发烧数据集上实现了最先进的结果,可与通常在传统事实检查管道中使用的两阶段系统相当,而通常使用的参数和计算较少。我们的分析表明,提出的方法进一步允许不仅了解哪些证明是相关的,而且还可以在没有直接监督的情况下获得支持和拒绝索赔的哪些证明。这不仅增加了解释性,而且还允许自动检测出与证据相互冲突的索赔。此外,我们研究模型在使用粗粒监督时是否可以学习细粒度的相关性线索。我们表明,我们的模型只能使用段落级相关性监督,可以实现竞争性的句子回顾。最后,朝着最优质的相关性跨度,我们表明我们的框架能够在令牌级别上识别相关性。为此,我们提出了一个专注于令牌级别的解释性的新基准 - 人类在相关证明中注释令牌,他们在做出判断时认为必不可少。然后,我们衡量这些注释与代币的相似之处是我们的模型的重点。我们的代码和数据集将在线发布。
translated by 谷歌翻译
We study the problem of retrieval with instructions, where users of a retrieval system explicitly describe their intent along with their queries. We aim to develop a general-purpose task-aware retrieval system using multi-task instruction tuning, which can follow human-written instructions to find the best documents for a given query. We introduce the first large-scale collection of approximately 40 retrieval datasets with instructions, BERRI, and present TART, a multi-task retrieval system trained on BERRI with instructions. TART shows strong capabilities to adapt to a new retrieval task via instructions and advances the state of the art on two zero-shot retrieval benchmarks, BEIR and LOTTE, outperforming models up to three times larger. We further introduce a new evaluation setup, X^2-Retrieval to better reflect real-world scenarios, where diverse domains and tasks are pooled and a system needs to find documents aligning users' intents. In this setup, TART significantly outperforms competitive baselines, further demonstrating the effectiveness of guiding retrieval with instructions.
translated by 谷歌翻译
多跳的推理(即跨两个或多个文档的推理)是NLP模型的关键要素,该模型利用大型语料库表现出广泛的知识。为了检索证据段落,多跳模型必须与整个啤酒花的快速增长的搜索空间抗衡,代表结合多个信息需求的复杂查询,并解决有关在训练段落之间跳出的最佳顺序的歧义。我们通过Baleen解决了这些问题,Baleen可以提高多跳检索的准确性,同时从多跳的训练信号中学习强大的训练信号的准确性。为了驯服搜索空间,我们提出了凝结的检索,该管道总结了每个跃点后检索到单个紧凑型上下文的管道。为了建模复杂的查询,我们引入了一个重点的后期相互作用检索器,该检索器允许同一查询表示的不同部分匹配不同的相关段落。最后,为了推断无序的训练段落中的跳跃依赖性,我们设计了潜在的跳跃订购,这是一种弱者的策略,在该策略中,受过训练的检索员本身选择了啤酒花的顺序。我们在检索中评估Baleen的两跳问答和多跳的要求验证,并确定最先进的绩效。
translated by 谷歌翻译
Recent lay language generation systems have used Transformer models trained on a parallel corpus to increase health information accessibility. However, the applicability of these models is constrained by the limited size and topical breadth of available corpora. We introduce CELLS, the largest (63k pairs) and broadest-ranging (12 journals) parallel corpus for lay language generation. The abstract and the corresponding lay language summary are written by domain experts, assuring the quality of our dataset. Furthermore, qualitative evaluation of expert-authored plain language summaries has revealed background explanation as a key strategy to increase accessibility. Such explanation is challenging for neural models to generate because it goes beyond simplification by adding content absent from the source. We derive two specialized paired corpora from CELLS to address key challenges in lay language generation: generating background explanations and simplifying the original abstract. We adopt retrieval-augmented models as an intuitive fit for the task of background explanation generation, and show improvements in summary quality and simplicity while maintaining factual correctness. Taken together, this work presents the first comprehensive study of background explanation for lay language generation, paving the path for disseminating scientific knowledge to a broader audience. CELLS is publicly available at: https://github.com/LinguisticAnomalies/pls_retrieval.
translated by 谷歌翻译
为了评估任何医疗干预的有效性,研究人员必须进行时间 - 密集和高度手动的文献综述。NLP系统可以帮助自动或协助实现这一昂贵的过程。为了支持这一目标,我们发布MS ^ 2(医学研究的多文件摘要),一个超过470K文档的数据集和来自科学文献的20k摘要。此数据集促进了可以在多项研究中评估和聚合矛盾证据的系统的开发,并且是生物医学领域的第一个大型公开可用的多文件摘要数据集。我们试验基于BART的摘要系统,具有前景的早期结果。我们以自由文本和结构形式制定我们的摘要输入和目标,并修改最近提出的指标,以评估我们系统生成的摘要的质量。数据和模型可在https://github.com/allenai/ms2上获得
translated by 谷歌翻译
由于信息和错误信息都可以在现代媒体生态系统中传播的速度,事实检查变得越来越重要。因此,研究人员一直在探索如何自动检查,使用基于自然语言处理,机器学习,知识表示以及数据库来自动检查的技术,以自动预测所称的索赔的真实性。在本文中,我们从自然语言处理中调查了自动检查源,并讨论其与相关任务和学科的联系。在此过程中,我们概述了现有数据集和模型,旨在统一给出的各种定义和识别共同概念。最后,我们突出了未来研究的挑战。
translated by 谷歌翻译
Researchers produce thousands of scholarly documents containing valuable technical knowledge. The community faces the laborious task of reading these documents to identify, extract, and synthesize information. To automate information gathering, document-level question answering (QA) offers a flexible framework where human-posed questions can be adapted to extract diverse knowledge. Finetuning QA systems requires access to labeled data (tuples of context, question and answer). However, data curation for document QA is uniquely challenging because the context (i.e. answer evidence passage) needs to be retrieved from potentially long, ill-formatted documents. Existing QA datasets sidestep this challenge by providing short, well-defined contexts that are unrealistic in real-world applications. We present a three-stage document QA approach: (1) text extraction from PDF; (2) evidence retrieval from extracted texts to form well-posed contexts; (3) QA to extract knowledge from contexts to return high-quality answers -- extractive, abstractive, or Boolean. Using QASPER for evaluation, our detect-retrieve-comprehend (DRC) system achieves a +7.19 improvement in Answer-F1 over existing baselines while delivering superior context selection. Our results demonstrate that DRC holds tremendous promise as a flexible framework for practical scientific document QA.
translated by 谷歌翻译
Multi-document summarization (MDS) has traditionally been studied assuming a set of ground-truth topic-related input documents is provided. In practice, the input document set is unlikely to be available a priori and would need to be retrieved based on an information need, a setting we call open-domain MDS. We experiment with current state-of-the-art retrieval and summarization models on several popular MDS datasets extended to the open-domain setting. We find that existing summarizers suffer large reductions in performance when applied as-is to this more realistic task, though training summarizers with retrieved inputs can reduce their sensitivity retrieval errors. To further probe these findings, we conduct perturbation experiments on summarizer inputs to study the impact of different types of document retrieval errors. Based on our results, we provide practical guidelines to help facilitate a shift to open-domain MDS. We release our code and experimental results alongside all data or model artifacts created during our investigation.
translated by 谷歌翻译
密集的检索方法可以克服词汇差距并导致显着改善的搜索结果。但是,它们需要大量的培训数据,这些数据不适用于大多数域。如前面的工作所示(Thakur等,2021b),密集检索的性能在域移位下严重降低。这限制了密集检索方法的使用,只有几个具有大型训练数据集的域。在本文中,我们提出了一种新颖的无监督域适配方法生成伪标签(GPL),其将查询发生器与来自跨编码器的伪标记相结合。在六种代表性域专用数据集中,我们发现所提出的GPL可以优于箱子外的最先进的密集检索方法,最高可达8.9点NDCG @ 10。 GPL需要来自目标域的少(未标记)数据,并且在其培训中比以前的方法更强大。我们进一步调查了六种最近训练方法在检索任务的域改编方案中的作用,其中只有三种可能会产生改善的结果。最好的方法,Tsdae(Wang等,2021)可以与GPL结合,在六个任务中产生了1.0点NDCG @ 10的另一个平均改善。
translated by 谷歌翻译
由于伪造的信息广泛,事实检查引起了人们的关注。大多数事实核对方法仅仅是由于其他语言中的数据稀缺问题而侧重于英语的主张。缺乏低资源语言的事实检查数据集要求采用有效的跨语义转移技术来进行事实检查。此外,以不同语言的可信赖信息可以互补,有助于验证事实。为此,我们介绍了第一个以跨语性检索为增强的事实检查框架,该框架通过跨语言检索器汇总了从多种语言中获取的证据。鉴于缺乏具有索赔式查询的跨语性信息检索数据集,我们使用拟议的跨语性倒数式紧固任务(X-ICT)来训练检索器,这是一种自我监督的算法,该算法通过翻译一个标题来创建训练实例通道。 XICT的目标是学习跨语性检索,其中模型学会确定与给定翻译标题相对应的段落。在X-FACT数据集上,我们的方法在零击跨语言设置中比先前的系统实现了2.23%的绝对F1改进。源代码和数据可在https://github.com/khuangaf/concrete上公开获取。
translated by 谷歌翻译