解密潜在空间中的内容和风格是普通的文本风格转移。然而,在大多数当前神经模型中存在两个主要问题。 1)很难从句子的语义中完全剥离样式信息。 2)基于递归神经网络(RNN)的编码器和解码器,由潜在表示介导,不能解决长期依赖问题,导致非风格语义内容的保存。本文提出了风格变换器,它没有对潜在句子的潜在表现做出任何假设,并且配备了变形金刚注意机制的力量,以实现更好的风格转移和更好的内容保存。
translated by 谷歌翻译
事实证明,语言模型预训练对于学习通用语言表示非常有用。作为最先进的语言模型预训练模型,BERT(变形金刚的双向编码器表示)在许多语言理解任务中取得了惊人的成果。在本文中,我们进行了详尽的实验,以研究BERT在文本分类任务上的不同微调方法,并为BERTfine调整提供一般解决方案。最后,所提出的解决方案在八个广泛研究的文本分类数据集上获得了新的最新结果。
translated by 谷歌翻译
中文分词和依赖解析是中文自然语言处理的两个基本任务。依赖性解析是在字级上定义的,因此字分割是依赖性分析的前提条件,这使得依赖性解析受到错误传播的影响。在本文中,我们提出了一个统一的模型来集成中文分词和依赖解析。与以前的联合模型不同,我们提出的模型是基于图形的模型,更简洁,从而减少了特征工程的工作量。我们的联合模型比以前的联合模型具有更好的性能。我们的联合模型在中文字分割和依赖解析中实现了最先进的结果。
translated by 谷歌翻译
最近,已经提出了大量用于序列学习的神经机制和模型,其中自我关注(例如,变换器模型和图形神经网络(GNN))已经引起了人们的关注。在本文中,我们提出了一种结合并利用这两种方法的互补优势的方法。具体来说,我们提出了语境化的非局部神经网络(CN $ ^ {\ textbf {3}} $),它既可以动态地构建一个特定于任务的句子结构,又可以利用特定邻域内的丰富的本地依赖关系。在文本分类,语义匹配和序列标记中的10个NLP任务的实验结果表明,我们提出的模型优于竞争基线并发现任务特定的依赖结构,从而为用户提供更好的可解释性。
translated by 谷歌翻译
近年来,长期短期记忆(LSTM)已经成功地使用了可变长度的tomodel序列数据。但是,LSTM仍然难以捕获长期依赖关系。在这项工作中,我们试图通过引入动态跳过连接来减轻这个问题,它可以直接连接两个相关的单词。由于训练数据中没有依赖信息,我们提出了一种新的基于强化学习的方法来模拟依赖关系和连接依赖词。所提出的模型计算基于跳过连接的循环转换函数,其提供超过RNN的动态跳过优势,其总是顺序地处理整个句子。我们在三个自然语言处理任务中的实验结果表明,所提出的方法可以实现比现有方法更好的性能。在数字预测实验中,所提出的模型在准确度方面优于LSTM大约20%。
translated by 谷歌翻译
在本文中,我们描述了一个通用框架:参数Read-WriteNetworks(PRaWNs)系统地分析当前神经模型构成多任务学习,其中我们发现现有模型期望将todisentangle特征放入不同的空间,而在实践中学习的特征仍然纠缠在共享空间,为其他任务或其他任务留下潜在的危险。我们建议通过在多任务学习过程中引入归纳偏差来缓解这个问题,即每个任务可以不仅知道存储在其他任务中的知识,而且知道其他任务如何维护他们的知识。在实践中,我们通过明确地传递隐藏变量和梯度来允许不同的任务进行通信,从而实现上述归纳偏差。在实验上,我们评估了三组任务和两种设置的提议方法(\ textsc {in-task}和\ textsc {out-of-task})。定量和定性结果显示了它们的有效性。
translated by 谷歌翻译
用于命名实体识别的神经结构在自然语言处理领域取得了巨大成功。目前,主导体系结构包括作为编码器的双向递归神经网络(RNN)和作为解码器的条件随机场(CRF)。在本文中,我们提出了一种用于命名实体识别的可变形堆叠结构,其中两个相邻层之间的连接是动态建立的。我们通过使其适应不同的层来评估可变形堆叠结构。我们的模型在OntoNotes数据集上实现了最先进的性能。
translated by 谷歌翻译
设计共享神经架构在多任务学习中起着重要作用。挑战在于找到最佳共享方案严重依赖于专家知识,并且不能扩展到大量的多样化任务。受到神经架构搜索(NAS)的有前途的工作的启发,我们应用强化学习来自动找到可用于多任务学习的共享架构。具体来说,我们使用控制器从一组可共享模块中进行选择,并组装一个特定于任务的体系结构,并为其他任务重复相同的过程。控制器通过强化学习进行培训,以最大限度地提高所有任务的预期精度。我们对两种类型的任务进行了大量的实验,即文本分类和序列标记,这些实验证明了我们的方法的好处。
translated by 谷歌翻译
与基于点表示的单词嵌入相比,基于分布的单词嵌入在表达不确定性方面表现出更大的灵活性,因此在表示单词时嵌入更丰富的语义信息。 Wasserstein距离提供了与概率测量不相似的自然概念,并且在测量两个高斯分布之间的距离时具有闭合形式的解。因此,为了以高效的方式表示字,我们建议基于Wasserstein距离操作具有损失函数的高斯wordembedding模型。此外,来自ConceptNet的外部信息将用于半监督高斯字嵌入的结果。来自单词interacttask的十三个数据集,以及来自单词entailment任务的一个数据集,以及来自下游文档分类任务的六个数据集将在本文中用我们的假设进行评估。
translated by 谷歌翻译
风格转移一直是计算机视觉和图形学中的一个重要课题。加蒂等人。首先证明由预先训练的VGG网络提取的深度特征代表图像的内容和样式特征,因此,可以通过特征空间中的优化来实现样式转移。黄等人。然后通过简单地对齐每个特征通道的均值和方差,表明实时任意样式转移可以发生变化。然而,在本文中,我们认为仅仅调整深度特征的全局统计数据并不总能保证良好的风格转移。相反,我们建议联合分析输入图像对并提取两者之间的共同/可交换的样式特征。此外,还开发了一种新的融合模式,用于在特征空间中结合内容和样式信息。定性和定量实验证明了我们的方法的优势。
translated by 谷歌翻译