常识性知识和常识推理是机器智能的主要瓶颈。在NLP社区中,已经创建了许多基准数据集和任务来解决语言理解的常识推理。这些任务旨在评估机器获取和学习常识知识的能力,以便推理和理解自然语言文本。由于这些任务成为工具和常识研究的推动力,本文旨在概述现有的任务和基准,知识资源,以及对自然语言理解的常识推理的学习和推理方法。通过这一点,我们的目标是支持更好的理解theart的状态,它的局限性和未来的挑战。
translated by 谷歌翻译
对于自然语言理解(NLU)技术而言,无论是实际上还是作为科学研究对象,它都必须是通用的:它必须能够以不是专门针对任何特定任务或数据集的方式处理语言。为了实现这一目标,我们引入了通用语言理解评估基准(GLUE),这是一种在各种现有NLU任务中评估和分析模型性能的工具。 GLUE与模型无关,但它可以激励跨任务共享知识,因为某些任务的训练数据非常有限。我们还提供了一个手工制作的诊断测试套件,可以对NLU模型进行详细的语言分析。我们基于多任务和转移学习的当前方法评估基线,并发现它们不会立即对每个任务训练单独模型的总体性能进行实质性改进,这表明改进了一般性和强大的NLU系统的改进空间。
translated by 谷歌翻译
This paper introduces the Multi-Genre Natural Language Inference (MultiNLI) corpus, a dataset designed for use in the development and evaluation of machine learning models for sentence understanding. At 433k examples, this resource is one of the largest corpora available for natural language inference (a.k.a. recognizing textual entailment), improving upon available resources in both its coverage and difficulty. MultiNLI accomplishes this by offering data from ten distinct genres of written and spoken English, making it possible to evaluate systems on nearly the full complexity of the language, while supplying an explicit setting for evaluating cross-genre domain adaptation. In addition, an evaluation using existing machine learning models designed for the Stanford NLI corpus shows that it represents a substantially more difficult task than does that corpus, despite the two showing similar levels of inter-annotator agreement.
translated by 谷歌翻译
We present a reading comprehension challenge in which questions can only be answered by taking into account information from multiple sentences. We solicit and verify questions and answers for this challenge through a 4-step crowdsourcing experiment. Our challenge dataset contains ∼6k questions for +800 paragraphs across 7 different domains (ele-mentary school science, news, travel guides, fiction stories, etc) bringing in linguistic diversity to the texts and to the questions wordings. On a subset of our dataset, we found human solvers to achieve an F1-score of 86.4%. We analyze a range of baselines, including a recent state-of-art reading comprehension system , and demonstrate the difficulty of this challenge, despite a high human performance. The dataset is the first to study multi-sentence inference at scale, with an open-ended set of question types that requires reasoning skills.
translated by 谷歌翻译
视觉理解远远超出了对象识别。只需一瞥图像,我们就可以毫不费力地想象超出像素的世界:例如,我们可以推断人们的行为,目标和心理状态。虽然这个任务对于人类来说很容易,但对于今天的视觉系统来说,这是非常困难的,需要更高阶的认知和关于世界的常识推理。在本文中,我们将此任务形式化为Visual Commonsense Reasoning。除了回答用自然语言表达的具有挑战性的视觉问题之外,模型还必须提供解释为什么其答案为真的理论基础。我们引入一个新的数据集VCR,包含290k多项选择QA问题源于110k电影场景。大规模生成非平凡和高质量问题的关键方法是对抗性匹配,这种新方法将丰富的注释转换为具有最小偏差的多项选择题。 Tomove对认知水平的图像理解,我们提出了一个新的理由,称为识别网络识别(R2C),模拟必要的分层推理,用于基础,情境化和推理。实验结果表明,人类发现VCR很容易(准确率超过90%) ),最先进的模型挣扎(约45%)。我们的R2C有助于缩小这一差距(约65%);但是,挑战远未解决,我们提供的分析表明了未来工作的原因。
translated by 谷歌翻译
This paper describes the PASCAL Network of Excellence Recognising Textual Entailment (RTE) Challenge benchmark 1. The RTE task is defined as recognizing, given two text fragments, whether the meaning of one text can be inferred (en-tailed) from the other. This application-independent task is suggested as capturing major inferences about the variability of semantic expression which are commonly needed across multiple applications. The Challenge has raised noticeable attention in the research community, attracting 17 submissions from diverse groups, suggesting the generic relevance of the task.
translated by 谷歌翻译
机器阅读中的大多数工作都集中在问题回答问题上,其中的问题直接表达在要阅读的文本中。然而,许多回答问题的现实问题需要阅读文本,而不是因为它包含文字答案,而是因为它包含了一个与读者的背景知识共同得到答案的方法。一个例子是解释法规的任务,回答“我能......?”或“我必须......?”问题如“我在加拿大工作。我是否必须继续支付英国国民保险?”在阅读了英国政府网站关于这个主题之后。这项任务既需要对规则的解释,也需要背景知识的应用。由于实际上大多数问题都没有明确规定,而且人工助理经常要问诸如“你在国外工作多久了?”这样的问题,实在是太复杂了。当答案不能直接来自问题和文本时。在本文中,我们正式确定了这项任务,并制定了一个众包策略,根据现实世界的规则和人群生成的问题和方案收集32k任务实例。我们通过评估基于规则和机器学习基线的性能来分析此任务的挑战并评估其难度。当不需要背景知识时,我们会保留有希望的结果,并且只要需要背景知识,就有很大的改进空间。
translated by 谷歌翻译
现有的问答(QA)数据集无法训练QA系统执行复杂的推理并提供答案的解释。我们介绍HotpotQA,这是一个新的数据集,包含113k基于维基百科的问答对,有四个关键特征:(1)问题需要查找和推理多个支持文档才能回答; (2)问题多种多样,不受任何先前存在的知识库或知识模式的约束; (3)我们提供推理所需的句子级支持事实,允许QAsystems在强有力的监督下进行推理并解释预测; (4)我们提供了一种新型的事实比较问题来测试QA系统提取相关事实和进行必要比较的能力。我们证明HotpotQA对最新的QA系统具有挑战性,支持事实使模型能够提高性能并做出可解释的预测。
translated by 谷歌翻译
我们提出了DuoRC,一种新的阅读理解数据集(RC),它超越了现有RC数据集提供的语言理解中神经方法的几个新挑战。 DuoRC包含186,089个独特的问答配对,这些配对由7680对电影情节集合创建,其中集合中的每一对反映了两个版本的相同电影 - 一个来自维基百科,另一个来自IMDb - 由两个不同的作者写成。我们要求众包工人从一个版本的情节和一组不同的工人创建问题,以从另一个版本中提取或综合答案。 DuoRC的这一独特特征,其中问题和答案是从描述相同底层故事的文档的不同版本创建的,通过设计确保从一个版本创建的问题与包含另一个版本中的问题的段之间几乎没有词汇重叠。此外,由于两个版本具有不同的情节细节,叙述风格,词汇等,从第二版回答问题需要更深入的语言理解和包含外部背景知识。另外,电影情节产生的段落的叙事风格(与现有数据集中的典型描述性传递相反)表明需要跨多个句子执行复杂的推理事件。实际上,我们观察到在SQuADdataset上取得了近乎人类表现的最先进的RC模型,即使与传统的NLP技术结合以解决DuoRC中出现的挑战,也表现出非常差的表现(DuoRC v的F1得分为37.42%) / s在SQuAD数据集上的86%)。这开辟了几个有趣的研究,其中DuoRC可以补充其他RC数据集,以探索用于研究语言理解的新颖方法。
translated by 谷歌翻译
We present NewsQA, a challenging machine comprehension dataset of over100,000 human-generated question-answer pairs. Crowdworkers supply questionsand answers based on a set of over 10,000 news articles from CNN, with answersconsisting of spans of text from the corresponding articles. We collect thisdataset through a four-stage process designed to solicit exploratory questionsthat require reasoning. A thorough analysis confirms that NewsQA demandsabilities beyond simple word matching and recognizing textual entailment. Wemeasure human performance on the dataset and compare it to several strongneural models. The performance gap between humans and machines (0.198 in F1)indicates that significant progress can be made on NewsQA through futureresearch. The dataset is freely available athttps://datasets.maluuba.com/NewsQA.
translated by 谷歌翻译
阅读理解最近取得了迅速的进展,系统在最受欢迎的任务数据集上匹配人类。然而,大量的工作突出了这些系统的脆弱性,表明还有很多工作要做。我们引入了一个新的英语阅读理解基准,DROP,它需要离散推理超过图的内容。在这个众包,对话创建的96k-questionbenchmark中,系统必须解决问题中的引用,可能是多个输入位置,并对它们执行离散操作(例如添加,计数或排序)。这些操作需要对段落内容进行更全面的理解,而不是对priordatasets所必需的内容。我们从该数据集的阅读理解和语义分析文献中应用了最先进的方法,并表明最佳系统在我们的广义精度度量上仅达到32.7%F1,而专家人类绩效为96.0%。我们还提出了一种新的模型,将阅读理解方法与简单的数值推理相结合,实现了47.0%的F1。
translated by 谷歌翻译
我们提出了一个大型数据集ReCoRD,用于机器阅读理解需要常识推理。该数据集的实验表明,最先进的MRC系统的性能远远落后于人类表现。 ReCoRD代表了未来研究的挑战,以弥合人类和机器常识阅读理解之间的差距。 ReCoRD可在http://nlp.jhu.edu/record上找到。
translated by 谷歌翻译
我们介绍了一组九个挑战任务,测试理解功能词。这些任务是通过结构化突变数据集的句子来创建的,以便能够理解特定类型的功能词(例如,介词,wh-words)。使用这些探测任务,我们探索了各种预训练目标对句子编码器(例如,语言建模,CCG超级标准和自然语言推理(NLI))对学习代表的影响。我们的结果表明,对CCG进行预训练 - 我们最常用的语法 - 在我们的探究任务中平均表现最佳,这表明句法知识有助于词汇理解。语言建模也显示出强大的性能,支持其广泛用于预训练最先进的NLP模型。总的来说,没有预训练目标支配董事会,我们的功能词探测任务突出了预训练目标之间的几个直观差异,例如,NLI有助于理解否定。
translated by 谷歌翻译
提取阅读理解系统通常可以在上下文文档中找到正确的问题,但是它们也倾向于对在上下文中没有说明正确答案的问题做出不可靠的猜测。现有数据集或者专注于可回答的问题,或者使用自动生成的无法回答的难以辨认的问题。为了解决这些弱点,我们提供了SQuad 2.0,这是斯坦福问答数据集(SQuAD)的最新版本。 SQuAD 2.0将现有的SQuADdata与超过50,000个无法回答的问题结合起来,这些问题由对话者写成,看起来类似于可回答的问题。为了在SQuAD 2.0上做得好,系统不仅要在可能的情况下回答问题,还要确定何时段落不支持答案并且不回答问题。对于现有模型,SQuAD 2.0是一项具有挑战性的自然语言理解任务:在SQUAD 1.1上获得86%F1的强大神经系统在SQUAD 2.0上仅获得66%的F1。
translated by 谷歌翻译
In this paper we give an introduction to using Amazon's Mechanical Turk crowdsourc-ing platform for the purpose of collecting data for human language technologies. We survey the papers published in the NAACL-2010 Workshop. 24 researchers participated in the workshop's shared task to create data for speech and language applications with $100.
translated by 谷歌翻译
鉴于“她打开汽车引擎盖”这样的部分描述,人们可以对情况进行调查,并预测下一步会发生什么(“那时,她检查了发动机”)。在本文中,我们介绍了groundedcommonsense推理的任务,统一自然语言推理和共同推理。我们提出SWAG,这是一个新的数据集,包含113k关于基础情况的arich频谱的多项选择题。为了解决许多现有数据集中发现的注释工件和人类偏见的反复出现的挑战,我们提出了一种新颖的过程,它通过迭代训练一组风格分类器来构建有偏见的数据集,并使用它们来过滤数据。为了解释激进的对抗性过滤,我们使用最先进的语言模型来大量过滤一组潜在的反事实。实证结果表明,虽然人类可以高精度地解决由此产生的推理问题(88%),但各种竞争模型仍在努力完成我们的任务。我们提供综合分析,为未来的研究提供重要机会。
translated by 谷歌翻译
We present MCTest, a freely available set of stories and associated questions intended for research on the machine comprehension of text. Previous work on machine comprehension (e.g., semantic modeling) has made great strides, but primarily focuses either on limited domain datasets, or on solving a more restricted goal (e.g., open-domain relation extraction). In contrast, MCTest requires machines to answer multiple-choice reading comprehension questions about fictional stories , directly tackling the high-level goal of open-domain machine comprehension. Reading comprehension can test advanced abilities such as causal reasoning and understanding the world, yet, by being multiple-choice, still provide a clear metric. By being fictional, the answer typically can be found only in the story itself. The stories and questions are also carefully limited to those a young child would understand, reducing the world knowledge that is required for the task. We present the scalable crowd-sourcing methods that allow us to cheaply construct a dataset of 500 stories and 2000 questions. By screening workers (with grammar tests) and stories (with grading), we have ensured that the data is the same quality as another set that we manually edited, but at one tenth the editing cost. By being open-domain, yet carefully restricted, we hope MCTest will serve to encourage research and provide a clear metric for advancement on the machine comprehension of text.
translated by 谷歌翻译
理解蕴涵和矛盾是理解自然语言的基础,对蕴涵和矛盾的推理是语义表征发展的有力试验。然而,由于缺乏大规模资源,该领域的机器学习研究受到了极大的限制。为了解决这个问题,我们引入了斯坦福自然语言推理语料库,这是一个新的,免费提供的标记句子对集合,由人类根据图像标题进行新的基础任务。在570K对,它比其他类型的其他资源大两个数量级。这种规模的增加使得词汇化分类器能够胜过一些复杂的现有蕴涵模型,并且它允许基于神经网络的模型首次在自然语言推理基准上进行竞争。
translated by 谷歌翻译