在过去的一年中,用于预训练和转学习的新模型和方法在各种语言理解任务中带来了显着的性能提升。一年前推出的GLUE基准提供了一个单数量度量标准,总结了各种此类任务的进展情况,但最近基准测试的表现接近非专家人员的水平,表明进一步研究的空间有限。本文回顾了从GLUE基准测试中汲取的经验教训,并介绍了SuperGLUE,这是一款以GLUE为基础的新标记,具有一系列更加困难的语言理解任务,改进的资源以及新的公共排行榜.SuperGLUE将很快在super.gluebenchmark.com上发布。
translated by 谷歌翻译
我们介绍了一组九个挑战任务,测试理解功能词。这些任务是通过结构化突变数据集的句子来创建的,以便能够理解特定类型的功能词(例如,介词,wh-words)。使用这些探测任务,我们探索了各种预训练目标对句子编码器(例如,语言建模,CCG超级标准和自然语言推理(NLI))对学习代表的影响。我们的结果表明,对CCG进行预训练 - 我们最常用的语法 - 在我们的探究任务中平均表现最佳,这表明句法知识有助于词汇理解。语言建模也显示出强大的性能,支持其广泛用于预训练最先进的NLP模型。总的来说,没有预训练目标支配董事会,我们的功能词探测任务突出了预训练目标之间的几个直观差异,例如,NLI有助于理解否定。
translated by 谷歌翻译
最近的预训练句子编码器实现了语言理解任务的最新结果,但这是否意味着他们具有句法结构的隐含知识?我们引入语法可接受语料库(CoLA; Warstadt等,2018)的语法注释开发集,用于研究三种预训练编码器的语法知识,包括流行的OpenAI Transformer(Radford等,2018)和BERT。 (Devlin等,2018)。我们微调这些编码器以对CoLA进行可接受性分类,并比较模型在注释分析集上的性能。一些现象,例如通过附件修改,对于所有模型都易于学习,而其他模型,例如,长距离运动只能通过具有强大整体性能的模型才能有效地学习,而其他人仍然可以,例如。形态协议,任何模型都难以学习。
translated by 谷歌翻译
关于语境化词语表示问题的研究 - 用于句子理解的可重用神经网络组件的发展 - 最近出现了一系列进展,其中心是使用ELMo等方法进行语言建模的无监督预训练任务。本文提供了第一个大规模的系统研究,比较了该语境中不同的预训练任务,既作为语言建模的补充,也作为潜在的替代。该研究的主要结果支持使用语言模型作为预训练任务,并使用语言模型的多任务学习在可比模型中设置新的技术水平。然而,仔细观察这些结果可以发现令人担忧的强大基线和跨越目标任务的惊人变化的结果,这表明广泛使用的预训练和冻结句子编码器的范例可能不是进一步工作的理想平台。
translated by 谷歌翻译
动词出现在不同的句法环境或框架中。我们研究了人工神经网络是否编码了推断动词的特殊帧选择属性所必需的语法区别。我们引入了五个数据集,统称为FAVA,总共包含大约10k个用于语法可接受性标记的句子,说明了不同的语言参数结构变更。然后,我们测试模型是否可以使用单独嵌入的句子来区分可接受的英语动词框架组合与不可接受的组合。为了汇总证据,我们进一步构建了相应的词级数据集LaVA,并研究是否可以从词嵌入中提取相同的句法特征。我们的模型对某些口头变化进行了可靠的分类,但没有对其他变体进行分类,这表明虽然这些表示确实编码了细粒度的词汇信息,但它不完整或难以提取。此外,单词和句子级模型之间的差异表明,在单词嵌入中出现的一些信息不会传递给下游句子嵌入。
translated by 谷歌翻译
Recent work using auxiliary prediction task classifiers to investigate the properties of LSTM representations has begun to shed light on why pretrained representations , like ELMo (Peters et al., 2018) and CoVe (McCann et al., 2017), are so beneficial for neural language understanding models. We still, though, do not yet have a clear understanding of how the choice of pretraining objective affects the type of linguistic information that models learn. With this in mind, we compare four objectives-language modeling, translation, skip-thought, and autoencoding-on their ability to induce syntactic and part-of-speech information. We make a fair comparison between the tasks by holding constant the quantity and genre of the training data, as well as the LSTM architecture. We find that representations from language models consistently perform best on our syntactic auxiliary prediction tasks, even when trained on relatively small amounts of data. These results suggest that language modeling may be the best data-rich pretraining task for transfer learning applications requiring syntactic information. We also find that the representations from randomly-initialized, frozen LSTMs perform strikingly well on our syntactic auxiliary tasks, but this effect disappears when the amount of training data for the auxiliary tasks is reduced.
translated by 谷歌翻译
最先进的自然语言处理系统依赖于注释数据形式的监督来学习有能力的模型。这些模型通常使用单一语言(通常是英语)对数据进行训练,并且不能在该语言之外直接使用。由于收集每种语言的数据都不现实,因此人们越来越关注跨语言语言理解(XLU)和低资源的跨语言转移。在这项工作中,我们通过将多类型自然语言推理语料库(MultiNLI)的开发和测试集扩展到15种语言(包括斯瓦希里语和乌尔都语等低资源语言)来构建XLU的评估集。我们希望我们的数据集(称为XNLI)将通过提供信息性的标准评估任务来促进跨语言句子理解的研究。此外,我们为多语言句子理解提供了几个基线,其中两个基于机器翻译系统,两个使用paralleldata训练对齐的多语言词袋和LSTM编码器。我们发现XNLI代表了一个实用且具有挑战性的评估套件,直接翻译测试数据可以在可用基线之间产生最佳性能。
translated by 谷歌翻译
最近关于潜在树学习的工作的一个重要主题是尝试用解析值潜在变量开发神经网络模型并训练非解析任务,以期让它们发现可解释的树结构。在最近的一篇论文中,Shen等人。 (2018)引入了这样一个模型,并在语言建模的目标任务上报告了近乎最先进的结果,以及关于选区解析的第一个强潜在树学习结果。为了重现这些结果,我们发现了使原始结果难以信任的问题,包括调整甚至培训有效的测试集。在这里,我们尝试在fairexperiment中重现这些结果,并将它们扩展到两个新的数据集。我们发现这项工作的结果是稳健的:所研究的模型的所有变体都优于所有树学习基线,并且与符号语法诱导系统竞争性地执行。我们发现这个模型代表了潜在树学习的第一个经验成功,并且神经网络语言建模需要进一步研究作为语法归纳的设置。
translated by 谷歌翻译
在这项工作中,我们探索了人工神经网络判断一个句子的语法可接受性的能力。通过对刺激论证的贫困进行检验,本机的机器学习研究可以很好地回答关于先前语言偏见在语言习得中的作用的重要开放性问题。为了实现这一目标,我们引入了语言可接受性语料库(CoLA),这是一组由专家语言学家标记为语法或非语法的10,657个英语句子。我们训练几个重复的神经网络进行二元可接受性分类。这些模型为任务设置了基线。对特定语法现象模型进行错误分析测试表明,他们学习了一些系统的语法概括,如主语 - 动词 - 宾语单词顺序,没有任何语法监督。我们发现神经序列模型对可接受性分类任务有希望。然而,在各种语法结构中,类似人类的表现仍然遥不可及。
translated by 谷歌翻译
波束搜索是神经网络编码器的一种广泛使用的近似搜索策略,它通常优于简单的贪婪解码,如机器翻译等任务。然而,这种改进带来了巨大的计算成本。在本文中,我们提出了一种灵活的新方法,它几乎不需要额外的计算成本,几乎可以获得光束搜索的全部优势。该方法围绕一个小的神经网络行为,该训练被训练以观察和操纵先前训练的解码器的隐藏状态。为了训练这个演员网络,我们介绍了在基本模型上使用波束搜索输出构建的伪平行语料库的使用,按照像BLEU这样的目标质量度量进行排序。我们的方法受到早期关于这个问题的工作的启发,但不需要强化学习,并且可以在一系列模型上可靠地训练。在三个平行的语料库和三个体系结构上的实验表明,该方法产生了相对于每个基础系统的翻译质量和速度的显着改善。
translated by 谷歌翻译