我们介绍了一组九个挑战任务,测试理解功能词。这些任务是通过结构化突变数据集的句子来创建的,以便能够理解特定类型的功能词(例如,介词,wh-words)。使用这些探测任务,我们探索了各种预训练目标对句子编码器(例如,语言建模,CCG超级标准和自然语言推理(NLI))对学习代表的影响。我们的结果表明,对CCG进行预训练 - 我们最常用的语法 - 在我们的探究任务中平均表现最佳,这表明句法知识有助于词汇理解。语言建模也显示出强大的性能,支持其广泛用于预训练最先进的NLP模型。总的来说,没有预训练目标支配董事会,我们的功能词探测任务突出了预训练目标之间的几个直观差异,例如,NLI有助于理解否定。
translated by 谷歌翻译
我们提出了一种新颖的语义框架,用于对泛化的语言表达式进行建模 - 通用语句,习惯语句和情节语句 - 作为谓词和语言的简单,实值引用属性的组合。我们使用此框架构建一个涵盖Universal Dependencies English Web Treebank整体的数据集。我们使用这个数据集来探讨类型级和令牌级信息的功效 - 包括手工设计的特征以及上下文和非上下文词嵌入 - 用于预测泛化的表达式。数据和代码可在atcompcomp.io获得。
translated by 谷歌翻译
我们提出了ParaBank,这是一个大规模的英语复述数据集,在数量和质量上都超过了前所未有的工作量。按照ParaNMT的方法,使用捷克语 - 英语神经机器翻译(NMT)系统来生成英语参考语句的新颖翻译。然而,通过在NMT解码过程中添加词汇约束,我们能够为每个源句产生多个高质量的句子释义,产生一个英语词汇表资源,其中包含超过40亿个生成的令牌并表现出更大的词汇多样性。利用人类的判断,我们还证明了帕拉班克的释义在语义相似性和流畅性方面都优于ParaNMT。最后,我们使用ParaBank来训练单语NMT模型,同时支持用于句子重写任务的词法约束解码。
translated by 谷歌翻译
关于语境化词语表示问题的研究 - 用于句子理解的可重用神经网络组件的发展 - 最近出现了一系列进展,其中心是使用ELMo等方法进行语言建模的无监督预训练任务。本文提供了第一个大规模的系统研究,比较了该语境中不同的预训练任务,既作为语言建模的补充,也作为潜在的替代。该研究的主要结果支持使用语言模型作为预训练任务,并使用语言模型的多任务学习在可比模型中设置新的技术水平。然而,仔细观察这些结果可以发现令人担忧的强大基线和跨越目标任务的惊人变化的结果,这表明广泛使用的预训练和冻结句子编码器的范例可能不是进一步工作的理想平台。
translated by 谷歌翻译
我们提出了一个大型数据集ReCoRD,用于机器阅读理解需要常识推理。该数据集的实验表明,最先进的MRC系统的性能远远落后于人类表现。 ReCoRD代表了未来研究的挑战,以弥合人类和机器常识阅读理解之间的差距。 ReCoRD可在http://nlp.jhu.edu/record上找到。
translated by 谷歌翻译
区分动词的核心和非核心依赖(即,论证和参数)是一个长期存在的,非常重要的问题。在自然语言处理中,参数信息在诸如语义标记(SRL)和介词短语(PP)附件消歧等任务中很重要。在理论语言学中,存在许多用于论证的诊断测试,但它们产生了冲突和潜在的梯度结果。对于诸如PP的语法倾斜项目尤其如此。我们提出了两个PPargumenthood预测任务,分别来自这两个动机:(1)VerbNet中PPs的二元论证/辅助分类,以及(2)使用人类判断作为黄金标准的梯度假设预测,以及使用预训练词汇嵌入和其他语言学知识的预测模型的报告结果特征。我们对每项任务的最佳结果是(1)$ acc。= 0.955 $,$ F_1 = 0.954 $(ELMo + BiLSTM)和(2)Pearson的$ r = 0.624 $(word2vec + MLP)。此外,我们通过一个句子编码器预先训练我们的任务,证明了论证预测在通过性能增益改善句子表示方面的效用。
translated by 谷歌翻译
我们研究了神经模型捕获词汇句法推理的能力:由词汇和句法信息的相互作用引发的推论。我们将事件事实预测的任务作为案例研究,并在各种句法语境中为所有英语子句嵌入动词建立一个事实判断数据集。我们使用我们公开提供的这个数据集,对当前最先进的神经系统的行为进行了探讨,表明这些系统通过事实性预测的镜头产生了一些清晰可见的系统误差。
translated by 谷歌翻译
We propose a hypothesis only baseline for diagnosing Natural LanguageInference (NLI). Especially when an NLI dataset assumes inference is occurringbased purely on the relationship between a context and a hypothesis, it followsthat assessing entailment relations while ignoring the provided context is adegenerate solution. Yet, through experiments on ten distinct NLI datasets, wefind that this approach, which we refer to as a hypothesis-only model, is ableto significantly outperform a majority class baseline across a number of NLIdatasets. Our analysis suggests that statistical irregularities may allow amodel to perform NLI in some datasets beyond what should be achievable withoutaccess to the context.
translated by 谷歌翻译
我们提供了大量不同的自然语言推理(NLI)数据集,有助于深入了解句子表示如何捕获不同类型的推理。该收集结果是将来自7个语义现象的13个现有数据集重新组合成共同的NLI结构,从而导致超过50万个标记的上下文假设对。我们将我们的系列称为DNC:Diverse Natural LanguageInference Collection。 DNC可以通过https://www.decomp.net在线获得,随着时间的推移,随着额外的资源被重铸并从novelsources添加,它将随着时间的推移而增长。
translated by 谷歌翻译
我们使用我们称之为“Neural-Davidsonian”的自适应双向LSTM编码策略来呈现语义原型角色标记(SPRL)模型:谓词 - 参数结构表示为对应于输入序列的谓词和参数头部令牌的隐藏状态对。 Wedemonstrate:(1)SPRL中最先进的结果,以及(2)我们的网络自然地在属性之间共享参数,允许学习具有有限附加监督的新属性类型。
translated by 谷歌翻译