解密潜在空间中的内容和风格是普通的文本风格转移。然而,在大多数当前神经模型中存在两个主要问题。 1)很难从句子的语义中完全剥离样式信息。 2)基于递归神经网络(RNN)的编码器和解码器,由潜在表示介导,不能解决长期依赖问题,导致非风格语义内容的保存。本文提出了风格变换器,它没有对潜在句子的潜在表现做出任何假设,并且配备了变形金刚注意机制的力量,以实现更好的风格转移和更好的内容保存。
translated by 谷歌翻译
事实证明,语言模型预训练对于学习通用语言表示非常有用。作为最先进的语言模型预训练模型,BERT(变形金刚的双向编码器表示)在许多语言理解任务中取得了惊人的成果。在本文中,我们进行了详尽的实验,以研究BERT在文本分类任务上的不同微调方法,并为BERTfine调整提供一般解决方案。最后,所提出的解决方案在八个广泛研究的文本分类数据集上获得了新的最新结果。
translated by 谷歌翻译
中文分词和依赖解析是中文自然语言处理的两个基本任务。依赖性解析是在字级上定义的,因此字分割是依赖性分析的前提条件,这使得依赖性解析受到错误传播的影响。在本文中,我们提出了一个统一的模型来集成中文分词和依赖解析。与以前的联合模型不同,我们提出的模型是基于图形的模型,更简洁,从而减少了特征工程的工作量。我们的联合模型比以前的联合模型具有更好的性能。我们的联合模型在中文字分割和依赖解析中实现了最先进的结果。
translated by 谷歌翻译
多标准中文分词是一项很有前景但具有挑战性的任务,它利用了几种不同的分割标准,挖掘了它们共同的基础知识。在本文中,我们提出了一个灵活的多标准学习中文分词。通常,分段标准可以分解为多个子标准,这些子标准可与其他分段标准共享。分词过程是这些子标准之间的路由。从这个角度来看,我们将Switch-LSTM呈现给分段字,分段字包括几个长短期记忆神经网络(LSTM),以及一个自动切换这些LSTM之间路由的切换器。通过这些自动切换LSTM,我们的模型为多标准CWS提供了更灵活的解决方案,这也很容易将学到的知识传递给新标准。实验表明,与以前的方法和单一标准学习相比,我们的模型在异构分割标准下获得了显着的改进。
translated by 谷歌翻译
我们提出了两种用于神经序列模型的多任务学习的架构。我们的方法允许动态地学习不同任务之间的关系,而不是像以前的工作那样使用特定的预定义结构。我们采用消息传递图神经网络的思想,提出了一个通用的\ textbf {图形多任务学习}框架,其中不同的任务可以以有效和可解释的方式相互通信。我们在文本分类和序列标记方面进行了大量实验,以评估我们在多任务学习和转移学习方面的方法。实证结果表明,我们的模型不仅优于竞争基线,而且还可以学习跨任务的可解释和可转移模式。
translated by 谷歌翻译
具有无法回答的问题的机器阅读理解是自然语言处理的一项新的挑战性任务。一个关键的子任务是可靠地预测问题是否无法回答。在本文中,我们提出了一个名为U-Net的统一模型,它有三个重要的组成部分:答案指针,无答案指针和答案验证器。我们引入了一个通用节点,因此将问题及其上下文通道作为单个连续的序列进行处理。通用节点对来自问题和段落的融合信息进行编码,对于预测问题是否可以解决并且也极大地提高了U-Net的简洁性起着重要作用。与最先进的管道模型不同,U-Net可以以端到端的方式学习。 SQUAD 2.0数据集的实验结果表明,U-Net可以有效地预测问题的不可用性,并在SQuAD 2.0上获得71.7的F1分数。
translated by 谷歌翻译
用于命名实体识别的神经结构在自然语言处理领域取得了巨大成功。目前,主导体系结构包括作为编码器的双向递归神经网络(RNN)和作为解码器的条件随机场(CRF)。在本文中,我们提出了一种用于命名实体识别的可变形堆叠结构,其中两个相邻层之间的连接是动态建立的。我们通过使其适应不同的层来评估可变形堆叠结构。我们的模型在OntoNotes数据集上实现了最先进的性能。
translated by 谷歌翻译
本文提出了一种用于算术表达式计算(AEC)问题的纯神经解算器。以前的工作利用了深度神经网络的强大功能,并尝试构建端到端模型来解决这个问题。然而,这些方法中的大多数只能处理添加剂操作。解决复杂表达式计算问题仍然是一个具有挑战性的问题,包括加法,减法,乘法,除法和包围操作。在这项工作中,我们将arithmeticexpression计算视为一个分层强化学习问题。算术运算被分解为一系列子任务,每个子任务由技能模块处理。技能模块可以是执行基本操作的基本模块,或者是通过调用其他技能模型来执行复杂操作的交互模块。通过课程学习,我们的模型可以处理复杂的算术表达式计算与技能模型的深层次结构。实验表明,我们的模型显着优于以前的算术表达式计算模型。
translated by 谷歌翻译
设计共享神经架构在多任务学习中起着重要作用。挑战在于找到最佳共享方案严重依赖于专家知识,并且不能扩展到大量的多样化任务。受到神经架构搜索(NAS)的有前途的工作的启发,我们应用强化学习来自动找到可用于多任务学习的共享架构。具体来说,我们使用控制器从一组可共享模块中进行选择,并组装一个特定于任务的体系结构,并为其他任务重复相同的过程。控制器通过强化学习进行培训,以最大限度地提高所有任务的预期精度。我们对两种类型的任务进行了大量的实验,即文本分类和序列标记,这些实验证明了我们的方法的好处。
translated by 谷歌翻译
与基于点表示的单词嵌入相比,基于分布的单词嵌入在表达不确定性方面表现出更大的灵活性,因此在表示单词时嵌入更丰富的语义信息。 Wasserstein距离提供了与概率测量不相似的自然概念,并且在测量两个高斯分布之间的距离时具有闭合形式的解。因此,为了以高效的方式表示字,我们建议基于Wasserstein距离操作具有损失函数的高斯wordembedding模型。此外,来自ConceptNet的外部信息将用于半监督高斯字嵌入的结果。来自单词interacttask的十三个数据集,以及来自单词entailment任务的一个数据集,以及来自下游文档分类任务的六个数据集将在本文中用我们的假设进行评估。
translated by 谷歌翻译