将目标词嵌入的权重与神经机器翻译模型的目标词分类器相结合,可以加快训练速度,提高翻译质量。鉴于此参数共享的成功,我们调查了参与之间没有共享和硬度的其他形式的共享。特别地,我们提出了一种结构感知输出层,它利用联合输入 - 输出嵌入来捕获单词输出空间的语义结构。该模型是权重绑定的一种通用形式,其共享参数但允许学习更灵活的关系,在输入字嵌入中并且允许输出层的有效容量被控制。此外,该模型在输出分类器和翻译上下文之间共享权重,这使其能够更好地利用先验知识。我们对英语到芬兰语和英语到德语数据集的评估表明该方法对强编码器 - 解码器基线的有效性,无论是否有重量绑定。
translated by 谷歌翻译
神经文本分类方法通常将输出类视为缺少描述和语义的类别标签。这导致无法在大型标签集上很好地训练它们或者推广到不可见标签并使速度和参数化取决于标签集的大小。联合输入标签空间方法通过利用标签文本或描述来改善上述问题,但通常以在培训期间经常看到的标签上的弱性能为代价。在本文中,我们提出了一种标签识别文本分类模型,该模型解决了这些问题,而不会影响所看到的标签上的性能。该模型由联合输入标签乘法空间和标签集大小独立分类单元组成,并通过交叉熵损失进行训练以优化准确性。我们在多语言新闻的文本分类和具有大标签集的生物医学文本上评估我们的模型。标签感知模型始终优于单语和多语言分类模型,它们不利用标签语义和先前的联合输入标签空间模型。
translated by 谷歌翻译
由于并行化状态计算的内在困难,常见的复现神经架构规模很小。在这项工作中,我们提出了简单循环单元(SRU),这是一种轻微的循环单元,可以平衡模型容量和可扩展性。 SRU旨在提供表达性重现,实现高度并行化的实现,并且需要仔细初始化以促进深度模型的培训。我们证明了SRU在多个NLP任务上的有效性。 SRU在分类和问答数据集上实现了5--9倍加速overcuDNN优化的LSTM,并且提供了比LSTM和卷积模型更强的结果。通过将SRU结合到架构中,我们还通过Transformer模型获得了比BLEU改进0.7 BLEU的平均值。
translated by 谷歌翻译
The prevalent approach to neural machine translation relies on bi-directionalLSTMs to encode the source sentence. In this paper we present a faster andsimpler architecture based on a succession of convolutional layers. This allowsto encode the entire source sentence simultaneously compared to recurrentnetworks for which computation is constrained by temporal dependencies. OnWMT'16 English-Romanian translation we achieve competitive accuracy to thestate-of-the-art and we outperform several recently published results on theWMT'15 English-German task. Our models obtain almost the same accuracy as avery deep LSTM setup on WMT'14 English-French translation. Our convolutionalencoder speeds up CPU decoding by more than two times at the same or higheraccuracy as a strong bi-directional LSTM baseline.
translated by 谷歌翻译
本文提出了一种先进的递归神经网络(RNN)语言模型,该模型结合了不仅从afinal RNN层而且从中间层计算的概率分布。我们提出的方法基于Yang等人引入的语言建模的矩阵因子分解,提高了语言模型的表达能力。 (2018)。所提出的方法改进了当前最先进的语言模型,并在Penn Treebank和WikiText-2上获得了最佳分数,这是标准的基准数据集。此外,我们指出我们提出的方法有助于两个应用任务:机器翻译和标题生成。我们的代码公开于:https://github.com/nttcslab-nlp/doc_lm。
translated by 谷歌翻译
序列到序列学习的普遍方法通过递归神经网络将输入序列映射到可变长度输出序列。我们引入了一个完全基于卷积神经网络的体系结构。与循环模型相比,所有元素的计算可以在训练期间完全并行化,并且优化更容易,因为非线性的数量是固定的并且与输入长度无关。我们使用门控线性单元简化了梯度传播,我们为每个解码器层配备了一个独立的注意模块。我们的表现优于Wu等人的深LSTM设置的准确性。 (2016)关于WMT'14英语 - 德语和WMT'14英语 - 法语翻译,在GPU和CPU上的速度都快了一个数量级。
translated by 谷歌翻译
We formulate language modeling as a matrix factorization problem, and show that the expressiveness of Softmax-based models (including the majority of neu-ral language models) is limited by a Softmax bottleneck. Given that natural language is highly context-dependent, this further implies that in practice Softmax with distributed word embeddings does not have enough capacity to model natural language. We propose a simple and effective method to address this issue, and improve the state-of-the-art perplexities on Penn Treebank and WikiText-2 to 47.69 and 40.68 respectively. The proposed method also excels on the large-scale 1B Word dataset, outperforming the baseline by over 5.6 points in perplexity. 1
translated by 谷歌翻译
Hierarchical attention networks have recently achieved remarkable performance for document classification in a given language. However, when multilingual document collections are considered, training such models separately for each language entails linear parameter growth and lack of cross-language transfer. Learning a single multilingual model with fewer parameters is therefore a challenging but potentially beneficial objective. To this end, we propose multilingual hierarchical attention networks for learning document structures, with shared encoders and/or shared attention mechanisms across languages , using multi-task learning and an aligned semantic space as input. We evaluate the proposed models on multilingual document classification with disjoint label sets, on a large dataset which we provide , with 600k news documents in 8 languages , and 5k labels. The multilingual models outperform monolingual ones in low-resource as well as full-resource settings , and use fewer parameters, thus confirming their computational efficiency and the utility of cross-language transfer.
translated by 谷歌翻译
我们在语音识别的语言建模中探索多层自回归变换器模型。我们关注两个方面。首先,我们重新访问专门用于语言建模的Transformermodel配置。我们表明,基于LSTM递归神经网络层的低堆栈,配置良好的Transformer模型的性能优于我们的基线模型。我们在开源LibriSpeech 960hr任务中进行实验,用于200K词汇词 - leveland 10K字节对编码子词级语言建模。我们通过格式标记将我们的字级模型应用于传统的混合语音识别,并通过浅层融合将子字级模型应用于基于注意力的编码器 - 解码器模型。其次,我们表明深度Transformer语言模型不需要位置编码。位置编码是自我关注机制的必要条件,其对序列排序是不变的。然而,在自回归设置中,与语言建模的情况一样,信息量沿着位置维度增加,这是位置信号本身。对注意力分析的分析表明,深度自回归自我关注模型可以自动利用这种位置信息。我们发现去除位置编码会略微改善这些模型的性能。
translated by 谷歌翻译
我们引入了一种新型的深层语境化词语表示,它模拟了(1)词语使用的复杂特征(例如,语法和语义),以及(2)这些用途如何在语言上下文中变化(即,tomodel多义词)。我们的单词向量是深度双向语言模型(biLM)的内部状态的学习函数,它是在大文本语料库上预先训练的。我们表明,这些表示可以很容易地添加到现有模型中,并显着改善六个具有挑战性的NLP问题的技术状态,包括问题回答,文本蕴涵和情感分析。我们还提供了一个分析,表明暴露预训练网络的深层内部是至关重要的,允许下游模型混合不同类型的半监督信号。
translated by 谷歌翻译
We propose BlackOut, an approximation algorithm to efficiently train massive recurrent neural network language models (RNNLMs) with million word vocabularies. BlackOut is motivated by using a discriminative loss, and we describe a weighted sampling strategy which significantly reduces computation while improving stability, sample efficiency, and rate of convergence. One way to understand BlackOut is to view it as an extension of the DropOut strategy to the output layer, wherein we use a discriminative training loss and a weighted sampling scheme. We also establish close connections between BlackOut, importance sampling , and noise contrastive estimation (NCE). Our experiments, on the recently released one billion word language modeling benchmark, demonstrate scalabil-ity and accuracy of BlackOut; we outperform the state-of-the art, and achieve the lowest perplexity scores on this dataset. Moreover, unlike other established methods which typically require GPUs or CPU clusters, we show that a carefully implemented version of BlackOut requires only 1-10 days on a single machine to train a RNNLM with a million word vocabulary and billions of parameters on one billion words. Although we describe BlackOut in the context of RNNLM training, it can be used to any networks with large softmax output layers.
translated by 谷歌翻译
Transformer架构在计算效率方面优于基于RNN的模型。最近,GPT和BERT使用大型scalecorpora上的预训练语言模型证明了变形金刚模型在各种NLP任务上的功效。令人惊讶的是,这些Transformer架构本身并不是语言模型本身。 Transformer中的自我关注和位置编码都无法有效地整合对语言建模至关重要的单词级顺序语言。在本文中,我们将探索用于语言模型的有效Transformer体系结构,包括添加额外的LSTM层以更好地捕获顺序上下文,同时仍保持计算效率。我们建议使用CoordinateArchitecture Search(CAS)通过迭代修改模型来找到有效的架构。 PTB,WikiText-2和WikiText-103的实验结果表明CAS在所有问题上实现了20.42和34.11之间的困惑,即与现有技术的LSTM相比平均提高了12.0的困难单位。
translated by 谷歌翻译
最近已经显示从预训练的双向语言模型(biLM)导出的上下文词表示为广泛的NLP任务提供了对现有技术的显着改进。但是,关于这些模型如何以及为何如此有效,仍然存在许多问题。在本文中,我们提供了一个详细的实证研究,探讨了神经结构(例如LSTM,CNN或自我关注)的选择如何影响所学习的表征的最终任务准确性和定性属性。 Weshow在速度和准确度之间存在权衡,但所有架构都需要高质量的上下文表示,这些表示优于四个具有挑战性的NLP任务的字嵌入。此外,所有体系结构都学习随网络深度而变化的表示,从单词嵌入层的基于形态学的理论到基于较低文本层的本地语法,再到较高范围的语义,如上层的共同参照。总之,这些结果表明,独立于体系结构的无监督biLM正在学习更多关于语言结构的知识,而不是以前所理解的。
translated by 谷歌翻译
当前最先进的机器翻译系统基于编码器 - 解码器架构,其首先编码输入序列,并基于输入编码来创建输出序列。两者都与注意机制接口,该注意机制基于解码器状态重新组合源码的固定编码。我们提出了一种替代方法,它不依赖于跨越两个序列的单个2D卷积神经网络。我们网络的每一层都根据到目前为止产生的输出序列重新编码源令牌。因此,类似注意的属性在整个网络中是普遍存在的。我们的模型产生了出色的结果,优于最先进的编码器 - 解码器系统,同时在概念上更简单,参数更少。
translated by 谷歌翻译
The past year has witnessed rapid advances in sequence-to-sequence (seq2seq) modeling for Machine Translation (MT). The classic RNN-based approaches to MT were first out-performed by the convolu-tional seq2seq model, which was then out-performed by the more recent Transformer model. Each of these new approaches consists of a fundamental architecture accompanied by a set of modeling and training techniques that are in principle applicable to other seq2seq architectures. In this paper , we tease apart the new architectures and their accompanying techniques in two ways. First, we identify several key mod-eling and training techniques, and apply them to the RNN architecture, yielding a new RNMT+ model that outperforms all of the three fundamental architectures on the benchmark WMT'14 English→French and English→German tasks. Second, we analyze the properties of each fundamental seq2seq architecture and devise new hybrid architectures intended to combine their strengths. Our hybrid models obtain further improvements, outperforming the RNMT+ model on both benchmark datasets.
translated by 谷歌翻译
机器翻译正在转向基于深度网络的端到端方法。对于流行语言对,例如英语 - 法语或英语 - 中文,现有技术取得了令人瞩目的成果。然而对于英语 - 越南语并行语料库的缺乏和昂贵的超参数搜索对基于神经的方法提出了实际挑战。本文强调了我们在两个方向上改进英语 - 越南语翻译的努力:(1)建立最大的开放越南语 - 英语语料库, (2)用最新的神经模型进行广泛的实验,以达到最高的BLEU分数。我们的实验提供了有效地采用具有低资源语言对的不同神经机器翻译模型的实际例子。
translated by 谷歌翻译
我们研究神经网络语言模型的最顶层权重矩阵。我们证明了这个矩阵构成了有效的单词嵌入。在训练语言模型时,我们建议绑定输入嵌入和此输出嵌入。我们分析了生成的更新规则,并表明绑定嵌入的演化方式与输出嵌入的演化方式比输入嵌入在双模型中的方式更为相似。我们还提供了一种使输出嵌入正规化的新方法。我们的方法可以显着减少困惑,因为我们能够了解各种神经网络语言模型。最后,我们表明,重量绑定可以将神经翻译模型的大小减小到不到原始大小的一半,而不会损害其性能。
translated by 谷歌翻译
在本文中,我们提出了一个加减法双门反复网络(ATR)来简化神经机器翻译。 ATR的重复单元被简化为在所有现有门控RNN的单元中具有最小数量的权重矩阵。通过简单的加法和减法操作,我们引入了一个双门机制来构建输入和忘记高度相关的门。尽管有这种简化,但仍然保留了对长距离依赖性建模的基本非线性和能力。此外,由于简化,所提出的ATR比LSTM / GRU更透明。可以在ATR中容易地建立前向自我关注,这使得所提出的网络可解释。 WMT14 translationtasks的实验表明,基于ATR的神经机器翻译可以在英语 - 德语和英语 - 法语语言对上产生竞争性的翻译质量和速度。 NIST中英翻译,自然语言推理和中文分词的进一步实验验证了ATR在不同自然语言处理任务中的普遍性和适用性。
translated by 谷歌翻译
具有注意力的神经序列到序列网络已经实现了机器翻译的显着性能。其有效性的原因之一是它们能够通过注意机制在每次步骤预测中捕获相关的源侧上下文信息。然而,目标 - 侧面上下文仅基于序列模型,在实践中,序列模型易于产生偏见,并且缺乏有效捕获单词之间非顺序依赖性的能力。为了解决这个限制,我们提出了用于解码的atarget-side-attentive残余循环网络,其中注意力先前的单词直接有助于预测下一个单词。残留学习促进了来自遥远的过去的信息流并且能够强调任何以前翻译的单词,因此它可以获得更广泛的背景。所提出的模型优于神经MT基线以及三种语言对上的记忆和自我关注网络。对解码器学到的关注的分析证实它强调了awider上下文,并且它捕获了类似句法的结构。
translated by 谷歌翻译
主要序列转导模型基于编码器 - 解码器配置中的复杂递归或卷积神经网络。性能最佳的模型还通过注意机制连接编码器和解码器。我们提出了一种新的简单网络架构,变形金刚,基于注意机制,完全免除重复和卷积。两个机器翻译任务的实验表明,这些模型质量上乘,而且可以更加并行化,并且需要大量的时间进行训练。我们的模型在WMT 2014英语 - 德语翻译任务中达到了28.4 BLEU,改善了现有的最佳成绩,包括超过2个BLEU的合奏。在WMT 2014英语到法语翻译任务中,我们的模型在8个GPU上训练3.5天后,建立了一个新的单模型最新设备,得分为41.8,这是来自最佳模型的最佳模型的培训成本的一小部分。文献。我们通过将成功应用于英语选区解析大型和有限的训练数据,表明变换器可以很好地概括到其他任务。
translated by 谷歌翻译