我们介绍了一组九个挑战任务,测试理解功能词。这些任务是通过结构化突变数据集的句子来创建的,以便能够理解特定类型的功能词(例如,介词,wh-words)。使用这些探测任务,我们探索了各种预训练目标对句子编码器(例如,语言建模,CCG超级标准和自然语言推理(NLI))对学习代表的影响。我们的结果表明,对CCG进行预训练 - 我们最常用的语法 - 在我们的探究任务中平均表现最佳,这表明句法知识有助于词汇理解。语言建模也显示出强大的性能,支持其广泛用于预训练最先进的NLP模型。总的来说,没有预训练目标支配董事会,我们的功能词探测任务突出了预训练目标之间的几个直观差异,例如,NLI有助于理解否定。
translated by 谷歌翻译
我们引入了一种名为BERT的新语言表示模型,它代表变形金刚的双向编码器表示。与最近的语言表示模型不同,BERT旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。因此,预训练的BERT表示可以仅使用一个额外的输出层进行精细调整,以创建适用于广泛任务的最先进模型,例如问答和语言参考,而无需实质性的任务特定的体系结构修改。 BERT在概念上简单且经验丰富。它在11项自然语言处理任务中获得了最新的结果,包括将GLUE基准提升至80.4%(绝对改进率7.6%),MultiNLIac​​curacy降至86.7(绝对改进率5.6%)和SQuAD v1.1问题转向测试F1 93.2(绝对改进率为1.5%),表现优于人类表现2.0%。
translated by 谷歌翻译
计算机视觉已经受益于初始化多个深层,其中权重在像ImageNet这样的大型监督训练集上预先训练。自然语言处理(NLP)通常仅使用预训练的单词向量来初始化具有最低层的深度模型。在本文中,我们使用了一个deepLSTM编码器,该编码器来自针对机器翻译(MT)训练的注意序列到序列模型,以对词向量进行语境化。我们表明,添加这些上下文向量(CoVe)比在各种常见的NLP任务中仅使用无监督的单词和字符向量提高了性能:情感分析(SST,IMDb),问题分类(TREC),蕴涵(SNLI)和问答(SQUAD) )。对于细粒度的情感分析和蕴涵,CoVei改进我们的基线模型的性能与现有技术水平。
translated by 谷歌翻译
对于自然语言理解(NLU)技术而言,无论是实际上还是作为科学研究对象,它都必须是通用的:它必须能够以不是专门针对任何特定任务或数据集的方式处理语言。为了实现这一目标,我们引入了通用语言理解评估基准(GLUE),这是一种在各种现有NLU任务中评估和分析模型性能的工具。 GLUE与模型无关,但它可以激励跨任务共享知识,因为某些任务的训练数据非常有限。我们还提供了一个手工制作的诊断测试套件,可以对NLU模型进行详细的语言分析。我们基于多任务和转移学习的当前方法评估基线,并发现它们不会立即对每个任务训练单独模型的总体性能进行实质性改进,这表明改进了一般性和强大的NLU系统的改进空间。
translated by 谷歌翻译
我们引入了一种新型的深层语境化词语表示,它模拟了(1)词语使用的复杂特征(例如,语法和语义),以及(2)这些用途如何在语言上下文中变化(即,tomodel多义词)。我们的单词向量是深度双向语言模型(biLM)的内部状态的学习函数,它是在大文本语料库上预先训练的。我们表明,这些表示可以很容易地添加到现有模型中,并显着改善六个具有挑战性的NLP问题的技术状态,包括问题回答,文本蕴涵和情感分析。我们还提供了一个分析,表明暴露预训练网络的深层内部是至关重要的,允许下游模型混合不同类型的半监督信号。
translated by 谷歌翻译
Recent work using auxiliary prediction task classifiers to investigate the properties of LSTM representations has begun to shed light on why pretrained representations , like ELMo (Peters et al., 2018) and CoVe (McCann et al., 2017), are so beneficial for neural language understanding models. We still, though, do not yet have a clear understanding of how the choice of pretraining objective affects the type of linguistic information that models learn. With this in mind, we compare four objectives-language modeling, translation, skip-thought, and autoencoding-on their ability to induce syntactic and part-of-speech information. We make a fair comparison between the tasks by holding constant the quantity and genre of the training data, as well as the LSTM architecture. We find that representations from language models consistently perform best on our syntactic auxiliary prediction tasks, even when trained on relatively small amounts of data. These results suggest that language modeling may be the best data-rich pretraining task for transfer learning applications requiring syntactic information. We also find that the representations from randomly-initialized, frozen LSTMs perform strikingly well on our syntactic auxiliary tasks, but this effect disappears when the amount of training data for the auxiliary tasks is reduced.
translated by 谷歌翻译
最先进的自然语言处理系统依赖于注释数据形式的监督来学习有能力的模型。这些模型通常使用单一语言(通常是英语)对数据进行训练,并且不能在该语言之外直接使用。由于收集每种语言的数据都不现实,因此人们越来越关注跨语言语言理解(XLU)和低资源的跨语言转移。在这项工作中,我们通过将多类型自然语言推理语料库(MultiNLI)的开发和测试集扩展到15种语言(包括斯瓦希里语和乌尔都语等低资源语言)来构建XLU的评估集。我们希望我们的数据集(称为XNLI)将通过提供信息性的标准评估任务来促进跨语言句子理解的研究。此外,我们为多语言句子理解提供了几个基线,其中两个基于机器翻译系统,两个使用paralleldata训练对齐的多语言词袋和LSTM编码器。我们发现XNLI代表了一个实用且具有挑战性的评估套件,直接翻译测试数据可以在可用基线之间产生最佳性能。
translated by 谷歌翻译
在这项工作中,我们探索了人工神经网络判断一个句子的语法可接受性的能力。通过对刺激论证的贫困进行检验,本机的机器学习研究可以很好地回答关于先前语言偏见在语言习得中的作用的重要开放性问题。为了实现这一目标,我们引入了语言可接受性语料库(CoLA),这是一组由专家语言学家标记为语法或非语法的10,657个英语句子。我们训练几个重复的神经网络进行二元可接受性分类。这些模型为任务设置了基线。对特定语法现象模型进行错误分析测试表明,他们学习了一些系统的语法概括,如主语 - 动词 - 宾语单词顺序,没有任何语法监督。我们发现神经序列模型对可接受性分类任务有希望。然而,在各种语法结构中,类似人类的表现仍然遥不可及。
translated by 谷歌翻译
A lot of the recent success in natural language processing (NLP) has been driven by distributed vector representations of words trained on large amounts of text in an unsupervised manner. These representations are typically used as general purpose features for words across a range of NLP problems. However, extending this success to learning representations of sequences of words, such as sentences , remains an open problem. Recent work has explored unsupervised as well as supervised learning techniques with different training objectives to learn general purpose fixed-length sentence representations. In this work, we present a simple, effective multi-task learning framework for sentence representations that combines the inductive biases of diverse training objectives in a single model. We train this model on several data sources with multiple training objectives on over 100 million sentences. Extensive experiments demonstrate that sharing a single recurrent sentence encoder across weakly related tasks leads to consistent improvements over previous methods. We present substantial improvements in the context of transfer learning and low-resource settings using our learned general-purpose representations. 1
translated by 谷歌翻译
尽管深度递归神经网络(RNN)在文本分类中表现出强大的性能,但训练RNN模型通常很昂贵并且需要大量收集可能无法获得的注释数据。为了克服数据限制问题,现有方法利用预先训练的wordembedding或句子表示来解除训练RNN的负担。在本文中,我们展示了联合学习来自多个文本分类任务的句子表示,并将它们与预训练的词级和句子级编码器相结合,产生了对转移学习有用的强大的句子表示。使用广泛的转移和语言任务进行广泛的实验和分析,支持我们的方法的有效性。
translated by 谷歌翻译
我们介绍了一种架构,用于学习93种语言的联合多语言句子表示,属于30多种不同的语言家族,并用28种不同的脚本编写。我们的系统使用单个BiLSTMencoder,其中包含所有语言的共享BPE词汇表,它与辅助解码器耦合并在公共可用的并行语料库上进行训练。这使得我们能够在仅使用英语注释数据的句子嵌入之上学习分类器,并将其转换为93种语言中的任何一种而无需任何修改。我们的方法为XNLIdataset中的所有14种语言设置了一种新的最先进的语言自然语言推理方法。我们还在跨语言文档分类(MLDoc数据集)中取得了非常有竞争力的结果。我们的句子嵌入在并行语料库挖掘中是相似的,在4个语言对中的3个语言对中为BUCC共享任务建立了一个新的最新技术。最后,我们基于Tatoeba语料库引入了122种语言的最新一组对齐句子,并且表明我们的句子嵌入在多语言相似性搜索中获得了强有力的结果,即使对于低资源语言也是如此。我们的PyTorch实现,预先训练的编码器和多语言测试装置将免费提供。
translated by 谷歌翻译
在过去几年中,自然语言处理领域受到深度学习模型使用爆炸式推进的推动。本调查简要介绍了该领域,并简要介绍了深度学习架构和方法。然后,它通过大量的研究进行筛选,并总结了大量相关的贡献。经过分析的研究领域包括几个核心语言处理问题,以及计算语言学的许多应用。然后提供对现有技术的讨论以及该领域中的未来研究的建议。
translated by 谷歌翻译
We present a novel approach to learn representations for sentence-level semantic similarity using conversational data. Our method trains an unsupervised model to predict conversational input-response pairs. The resulting sentence embed-dings perform well on the semantic tex-tual similarity (STS) benchmark and Se-mEval 2017's Community Question Answering (CQA) question similarity sub-task. Performance is further improved by introducing multitask training combining the conversational input-response prediction task and a natural language inference task. Extensive experiments show the proposed model achieves the best performance among all neural models on the STS benchmark and is competitive with the state-of-the-art feature engineered and mixed systems in both tasks.
translated by 谷歌翻译
Inductive transfer learning has greatly im-pacted computer vision, but existing approaches in NLP still require task-specific modifications and training from scratch. We propose Universal Language Model Fine-tuning (ULMFiT), an effective transfer learning method that can be applied to any task in NLP, and introduce techniques that are key for fine-tuning a language model. Our method significantly outper-forms the state-of-the-art on six text classification tasks, reducing the error by 18-24% on the majority of datasets. Furthermore , with only 100 labeled examples, it matches the performance of training from scratch on 100× more data. We open-source our pretrained models and code 1 .
translated by 谷歌翻译
学习分布式句子表示是自然语言处理的关键挑战之一。先前的工作表明,基于递归神经网络(RNN)的句子编码器在大量注释的自然语言推断数据上训练,在转移学习中是有效的,以促进其他相关任务。在本文中,我们通过进行广泛的实验和分析比较多任务和单任务学习句编码器,表明多个任务的联合学习导致更好的可推广的句子代表。使用辅助任务的定量分析表明,与单任务学习相比,多任务学习有助于在句子表示中嵌入更好的语义信息。此外,我们将多任务语句编码器与语境化词语表示进行比较,并表明将它们结合起来可以进一步提高传递学习的性能。
translated by 谷歌翻译
虽然最近已经投入大量精力来培训高质量的嵌入,但我们仍然对他们正在捕获的内容缺乏了解。通常基于句子分类的“下游”任务通常用于评估句子表示的质量。然而,任务的复杂性使得难以推断表示中存在何种类型的信息。我们在这里介绍10个旨在捕获句子简单语言特征的探测器,我们用它们来研究由八种不同编码器生成的嵌入,这些编码器以八种不同的方式训练,揭示了编码器和训练方法的有趣特性。
translated by 谷歌翻译
源自大规模神经语言模型的上下文词表示在各种NLP任务中是成功的,这表明它们编码语言的有用和可转换特征。为了阐明他们捕获的语言知识,我们研究了几个最近的预训练语境化器(ELMo,OpenAItransformer LM和BERT的变体)所产生的表示,其中包含16个不同的探测任务。我们发现,在冻结的上下文表示之上训练的线性模型在许多情况下与最先进的任务特定模型竞争,但是需要细粒度语言知识的失败任务(例如,结合识别)。为了研究上下文单词表示的可转移性,我们量化了上下文中单个层中单个层的可转移性的差异,特别是在RNN和变换器之间。例如,更高层的RNN更具有任务特定性,而变压器层则没有表现出相同的单调趋势。此外,为了更好地理解使上下文词表示可转移的内容,我们将预训练模型与11个有监督的预训练任务进行比较。对于任何给定的任务,预先训练一个密切相关的任务会产生比修复预训练数据集时语言模型预训练(平均效果更好)更好的性能。但是,预先训练更多数据的语言模型可以获得最佳结果。
translated by 谷歌翻译
最近的研究已经证明了生成预训练对于英语自然语言理解的效率。在这项工作中,我们将这种方法扩展到多种语言,并展示了跨语言预训练的有效性。我们提出了两种学习跨语言语言模型的方法:一种是仅依赖于单语数据的监督模式,另一种是监督使用并行数据的方法。一种新的跨语言语言模型目标。我们在跨语言分类,无监督和监督机器翻译方面取得了最先进的成果。在XNLI上,我们的方法以绝对增益4.9%的精度推动了现有技术。在无人监督的机器翻译中,我们在WMT'16德语 - 英语上获得了34.3 BLEU,提高了超过9个BLEU的先前技术水平。在有监督的机器翻译中,我们在WMT'16罗马尼亚语 - 英语上获得了38.5 BLEU的最新技术水平,超过了以前的最佳方法超过4个BLEU。我们的代码和预训练模型将公开发布。
translated by 谷歌翻译
We describe PARANMT-50M, a dataset of more than 50 million English-English sentential paraphrase pairs. We generated the pairs automatically by using neural machine translation to translate the non-English side of a large parallel corpus, following Wieting et al. (2017). Our hope is that PARANMT-50M can be a valuable resource for paraphrase generation and can provide a rich source of semantic knowledge to improve downstream natural language understanding tasks. To show its utility, we use PARANMT-50M to train paraphrastic sentence embeddings that outperform all supervised systems on every SemEval semantic textual similarity competition, in addition to showing how it can be used for paraphrase generation. 1
translated by 谷歌翻译
We consider the problem of learning general-purpose, paraphrastic sentence embeddings in the setting of Wieting et al. (2016b). We use neural machine translation to generate sentential paraphrases via back-translation of bilingual sentence pairs. We evaluate the paraphrase pairs by their ability to serve as training data for learning paraphrastic sentence embed-dings. We find that the data quality is stronger than prior work based on bitext and on par with manually-written English paraphrase pairs, with the advantage that our approach can scale up to generate large training sets for many languages and domains. We experiment with several language pairs and data sources, and develop a variety of data filtering techniques. In the process, we explore how neural machine translation output differs from human-written sentences, finding clear differences in length, the amount of repetition, and the use of rare words. 1
translated by 谷歌翻译