我们介绍了一组九个挑战任务,测试理解功能词。这些任务是通过结构化突变数据集的句子来创建的,以便能够理解特定类型的功能词(例如,介词,wh-words)。使用这些探测任务,我们探索了各种预训练目标对句子编码器(例如,语言建模,CCG超级标准和自然语言推理(NLI))对学习代表的影响。我们的结果表明,对CCG进行预训练 - 我们最常用的语法 - 在我们的探究任务中平均表现最佳,这表明句法知识有助于词汇理解。语言建模也显示出强大的性能,支持其广泛用于预训练最先进的NLP模型。总的来说,没有预训练目标支配董事会,我们的功能词探测任务突出了预训练目标之间的几个直观差异,例如,NLI有助于理解否定。
translated by 谷歌翻译
机器学习系统通常可以通过依赖于对常见示例类型有效但在更具挑战性的情况下崩溃的启发式方法在测试集上实现高性能。我们在自然语言推理(NLI)中研究这个问题,这是确定一个句子是否需要另一个句子的任务。基于对任务的分析,我们假设NLI模型可能采用的三种易错的语法:词汇重叠启发式,子序列启发式和成分启发式。为了确定模型是否采用了这些启发式方法,我们引入了一个名为HANS(NLI系统的启发式分析)的受控评估集,其中包含启发式失败的许多示例。我们发现在MNLI上训练的模型,包括最先进的模型BERT,对HANS的表现非常差,这表明他们确实采用了这些启发式方法。我们得出结论,NLI系统有很大的改进空间,HANS数据集可以激励和衡量这一领域的进展。
translated by 谷歌翻译
关于语境化词语表示问题的研究 - 用于句子理解的可重用神经网络组件的发展 - 最近出现了一系列进展,其中心是使用ELMo等方法进行语言建模的无监督预训练任务。本文提供了第一个大规模的系统研究,比较了该语境中不同的预训练任务,既作为语言建模的补充,也作为潜在的替代。该研究的主要结果支持使用语言模型作为预训练任务,并使用语言模型的多任务学习在可比模型中设置新的技术水平。然而,仔细观察这些结果可以发现令人担忧的强大基线和跨越目标任务的惊人变化的结果,这表明广泛使用的预训练和冻结句子编码器的范例可能不是进一步工作的理想平台。
translated by 谷歌翻译
我们发布了涵盖8种语言的4300万次原子编辑的语料库。这些编辑是从维基百科编辑历史中挖掘而来的,其中包括一个人类编辑将一个连续的短语插入现有句子或从现有句子中删除单个词组的实例。我们使用收集的数据来表明编辑期间生成的语言与标准语料库中的语言不同,并且训练编辑的模型编码语义和语篇的不同方面,而不是在原始的非结构化文本上训练的模型。我们发布完整的语料库作为资源,以帮助正在进行的研究语义学,话语和表征学习。
translated by 谷歌翻译
我们提供了大量不同的自然语言推理(NLI)数据集,有助于深入了解句子表示如何捕获不同类型的推理。该收集结果是将来自7个语义现象的13个现有数据集重新组合成共同的NLI结构,从而导致超过50万个标记的上下文假设对。我们将我们的系列称为DNC:Diverse Natural LanguageInference Collection。 DNC可以通过https://www.decomp.net在线获得,随着时间的推移,随着额外的资源被重铸并从novelsources添加,它将随着时间的推移而增长。
translated by 谷歌翻译