Hierarchical attention networks have recently achieved remarkable performance for document classification in a given language. However, when multilingual document collections are considered, training such models separately for each language entails linear parameter growth and lack of cross-language transfer. Learning a single multilingual model with fewer parameters is therefore a challenging but potentially beneficial objective. To this end, we propose multilingual hierarchical attention networks for learning document structures, with shared encoders and/or shared attention mechanisms across languages , using multi-task learning and an aligned semantic space as input. We evaluate the proposed models on multilingual document classification with disjoint label sets, on a large dataset which we provide , with 600k news documents in 8 languages , and 5k labels. The multilingual models outperform monolingual ones in low-resource as well as full-resource settings , and use fewer parameters, thus confirming their computational efficiency and the utility of cross-language transfer.
translated by 谷歌翻译
将目标词嵌入的权重与神经机器翻译模型的目标词分类器相结合,可以加快训练速度,提高翻译质量。鉴于此参数共享的成功,我们调查了参与之间没有共享和硬度的其他形式的共享。特别地,我们提出了一种结构感知输出层,它利用联合输入 - 输出嵌入来捕获单词输出空间的语义结构。该模型是权重绑定的一种通用形式,其共享参数但允许学习更灵活的关系,在输入字嵌入中并且允许输出层的有效容量被控制。此外,该模型在输出分类器和翻译上下文之间共享权重,这使其能够更好地利用先验知识。我们对英语到芬兰语和英语到德语数据集的评估表明该方法对强编码器 - 解码器基线的有效性,无论是否有重量绑定。
translated by 谷歌翻译
许多任务(包括语言生成)都受益于学习输出空间的结构,特别是当输出标签的空间很大且数据稀疏时。最先进的神经语言模型直接捕获分类器权重中的输出空间结构,因为它们缺少输出标签之间的参数共享。学习共享输出标签映射有所帮助,但现有方法的表达能力有限,容易过度拟合。在本文中,我们研究了更强大的共享映射对输出标签的有用性,并提出了一种深层残差输出映射,层间丢失以更好地捕获输出空间的结构并避免过度拟合。对三种语言生成任务的评估表明,输出标签映射可以匹配或改进最先进的循环和自我关注架构,并建议分类器不一定需要高级别才能更好地模拟自然语言,如果它更好捕获输出空间的结构。
translated by 谷歌翻译
A recent ''third wave'' of neural network (NN) approaches now delivers state-of-the-art performance in many machine learning tasks, spanning speech recognition, computer vision, and natural language processing. Because these modern NNs often comprise multiple interconnected layers, work in this area is often referred to as deep learning. Recent years have witnessed an explosive growth of research into NN-based approaches to information retrieval (IR). A significant body of work has now been created. In this paper, Kezban Dilek Onal and Ye Zhang contributed equally. Maarten de Rijke and Matthew Lease contributed equally. we survey the current landscape of Neural IR research, paying special attention to the use of learned distributed representations of textual units. We highlight the successes of neural IR thus far, catalog obstacles to its wider adoption, and suggest potentially promising directions for future research.
translated by 谷歌翻译
我们介绍了一种架构,用于学习93种语言的联合多语言句子表示,属于30多种不同的语言家族,并用28种不同的脚本编写。我们的系统使用单个BiLSTMencoder,其中包含所有语言的共享BPE词汇表,它与辅助解码器耦合并在公共可用的并行语料库上进行训练。这使得我们能够在仅使用英语注释数据的句子嵌入之上学习分类器,并将其转换为93种语言中的任何一种而无需任何修改。我们的方法为XNLIdataset中的所有14种语言设置了一种新的最先进的语言自然语言推理方法。我们还在跨语言文档分类(MLDoc数据集)中取得了非常有竞争力的结果。我们的句子嵌入在并行语料库挖掘中是相似的,在4个语言对中的3个语言对中为BUCC共享任务建立了一个新的最新技术。最后,我们基于Tatoeba语料库引入了122种语言的最新一组对齐句子,并且表明我们的句子嵌入在多语言相似性搜索中获得了强有力的结果,即使对于低资源语言也是如此。我们的PyTorch实现,预先训练的编码器和多语言测试装置将免费提供。
translated by 谷歌翻译
在过去几年中,神经网络重新成为强大的机器学习模型,在图像识别和语音处理等领域产生了最先进的结果。最近,神经网络模型开始应用于文本自然语言信号,同样具有非常有希望的结果。本教程从自然语言处理研究的角度对神经网络模型进行了调查,试图通过神经技术使自然语言研究人员加快速度。本教程介绍了自然语言任务,前馈网络,卷积网络,循环网络和递归网络的输入编码,以及自动梯度计算的计算图形抽象。
translated by 谷歌翻译
在自然语言处理(NLP)中,重要的是检测两个序列之间的关系或者在给定其他观察序列的情况下生成一系列标记。我们将建模序列对的问题类型称为序列到序列(seq2seq)映射问题。许多研究致力于寻找解决这些问题的方法,传统方法依赖于手工制作的特征,对齐模型,分割启发式和外部语言资源的组合。虽然取得了很大进展,但这些传统方法还存在各种缺陷,如复杂的流水线,繁琐的特征工程,以及领域适应的困难。最近,神经网络成为NLP,语音识别和计算机视觉中许多问题的解决方案。神经模型是强大的,因为它们可以端到端地进行训练,很好地概括为看不见的例子,同样的框架可以很容易地适应新的领域。本论文的目的是通过神经网络推进seq2seq映射问题的最新技术。我们从三个主要方面探索解决方案:研究用于表示序列的神经模型,建模序列之间的相互作用,以及使用不成对数据来提高神经模型的性能。对于每个方面,我们提出新模型并评估它们对seq2seq映射的各种任务的功效。
translated by 谷歌翻译
自然语言处理是以盎格鲁为中心的,而以英语以外的语言工作的需求模型比以往任何时候都要大。然而,将模型从一种语言转移到另一种语言的任务可能是注释成本,工程时间和工作的昂贵内容。在本文中,我们提出了一个简单有效地将神经模型从英语转移到其他语言的一般框架。该框架依赖于任务表示作为弱监督的一种形式,是模型和任务不可知的,这意味着许多现有的神经架构可以用最小的努力移植到其他语言。唯一的要求是未标记的并行数据,以及在任务表示中定义的损失。我们通过将英语情绪分类器转换为三种不同的语言来评估我们的框架。在测试的基础上,我们发现我们的模型优于许多强基线并且可以与最先进的结果相媲美,这些结果依赖于更复杂的方法和更多的资源和数据。此外,我们发现本文提出的框架能够捕获跨语言的语义richand有意义的表示,尽管缺乏directsupervision。
translated by 谷歌翻译
将大型监督任务中的表示转移到下游任务已经在诸如计算机视觉和自然语言处理(NLP)之类的AI领域中显示出有希望的结果。同时,MachineTranslation(MT)的最新进展使人们能够训练多语言神经MT(NMT)系统,该系统可以在多种语言之间进行转换,并且还能够执行零射击转换。然而,很少有人关注多语言NMT系统学习的表示,以便在其他NLP任务中实现零弹性多语言。在本文中,我们通过重复使用多语言NMT系统中的编码器并将其与特定于任务的分类器组件拼接来演示用于跨语言转移学习的简单框架,多语言编码器 - 分类器。我们提出的模型在三个基准测试任务中实现了英语设置的显着改进 - AmazonReviews,SST和SNLI。此外,我们的系统可以在训练期间没有看到分类数据的新语言中进行分类,表明零射击分类是可能的并且具有显着的竞争性。为了理解导致这一发现的潜在因素,我们对共享词汇的影响,NMT的训练数据类型,分类器复杂性,编码器表示能力以及模型广义化对零射击性能进行了一系列分析。我们的结果提供了强有力的证据,表明从多语言NMT系统中学到的表示可以广泛应用于语言和任务。
translated by 谷歌翻译
Extreme多标签分类(XML)是一项重要且具有挑战性的机器学习任务,它为每个实例分配一个极其庞大的标签集合中最相关的候选标签,其中标签,功能和实例的数量可能是数千或数百万。随着业务规模/范围和数据积累的增加,XML在互联网行业越来越受欢迎。极大的标签收集产生诸如计算复杂性,标签间依赖性和噪声标记之类的挑战。基于不同的数学公式,已经提出了许多方法来解决这些挑战。在本文中,我们提出了一种深度学习XML方法,其中包含基于字向量的自我关注,然后是基于排名的AutoEncoder架构。所提出的方法具有以下主要优点:1)自动编码器通过将标签和特征投影到公共嵌入空间上,同时考虑标签间依赖性和特征标签依赖性; 2)排名损失不仅可以提高训练效率和准确性,还可以扩展到处理噪声标记数据; 3)有效的注意机制通过突出特征重要性来改进特征表示。基准数据集的实验结果表明,所提出的方法是具有竞争力的先进方法。
translated by 谷歌翻译
在这项工作中,我们专注于有效地利用和整合来自概念层面和词汇层面的信息,通过将概念和文字投影到较低维空间,同时保留最关键的语义。在舆论理解系统的广泛背景下,我们研究了融合嵌入在若干核心NLP任务中的使用:命名实体检测和分类,自动语音识别重新排名和有针对性的情感分析。
translated by 谷歌翻译
深度学习方法采用多个处理层来学习数据的层次表示,并在manydomains中产生了最先进的结果。最近,各种模型设计和方法在自然语言处理(NLP)的背景下蓬勃发展。在本文中,我们回顾了已经用于大量NLP任务的重要深度学习相关模型和方法,并提供了他们演变的演练。我们对各种模型进行了比较,比较和对比,并对NLP深度学习的过去,现在和未来进行了详细的理解。
translated by 谷歌翻译
多语言知识图(KG)嵌入提供实体和结构化知识的潜在语义表示和跨语言推理,这有利于各种知识驱动的跨语言NLP任务。然而,精确学习这种跨语言推理通常受到实体对齐的低覆盖率的阻碍在许多幼稚园。由于许多多语言工作组也提供实体的文字描述,因此在本文中,我们介绍了一种基于嵌入的方法,该方法利用弱对齐的多语言KG,使用实体描述进行半监督的跨语言学习。 Ourapproach执行两种嵌入模型的协同训练,即多语言KGembedding模型和多语言文字描述嵌入模型。这些模型是在一个基于维基百科的大型三语数据集上进行培训的,其中对于训练来说,不确定性是否对齐。实验结果表明,所提出的方法在实体对齐任务中的性能提高了共同训练的迭代次数,并最终达到了显着超过以往方法的阶段。我们还表明,我们的方法具有提升零射击实体对齐能力和跨语言KGcompletion的能力。
translated by 谷歌翻译
假冒新闻现在成为一个迫切关注的问题,因为他们最近的崛起对高质量的新闻和知情的公共话语构成了潜在的威胁。假冒新闻挑战赛(FNC-1)于2017年举办,旨在鼓励开发基于机器学习的分类系统,以进行立场检测(即,确定特定新闻文章是否同意,不同意,讨论或与特定新闻标题无关)从而有助于检测和分析假新闻的可能实例。本文提出了一种解决这种姿态检测问题的新方法,它基于字符串相似性特征与深层神经结构的结合,利用先前在学习有效文本表示,文档分类和自然语言推理的背景下提出的思想。具体来说,我们使用双向递归神经网络,以及时间/顺序维度和内在关注的最大汇集,来表示(i)标题,(ii)新闻文章的第一个两个,以及(iii)整个新闻文章。然后将这些表示进行组合/比较,并辅以受其他FNC-1方法启发的相似特征,并传递到最终层,以预测文章对标题的立场。我们还探索了外部信息源的使用,特别是最初提出用于训练和评估自然语言推理方法的大型句子对数据集,以便预先训练神经网络架构的特定组件(例如,用于编码句子的RNN)。所获得的结果证明了所提出的想法的有效性,并且表明我们的模型,特别是在考虑预训练和神经表示与相似特征的组合时,略微优于先前的现有技术。
translated by 谷歌翻译
双语词汇嵌入已被广泛用于捕捉不同人类语言中的双语语义的相似性。然而,许多应用,如跨语言搜索和问答,可以在很大程度上受益于句子和词汇之间的跨语言对应。为弥合这一差距,我们提出了一种利用双语词典的神经嵌入模型。训练所提出的模型将字面词定义映射到跨语言目标词,我们用不同的句子编码技术进行探索。为了加强对有限资源的学习过程,我们的模型采用了几种批判性学习策略,包括不同语言桥梁的多任务学习,以及词典模型与双语词汇嵌入模型的联合学习。实验评估侧重于两个应用。跨语言反向字典检索任务的结果表明我们的模型基于描述理解双语概念的可能性,并且突出了所提出的学习策略在提高性能方面的有效性。同时,我们的模型有效地解决了双语词汇识别问题,并且明显优于以前的方法。
translated by 谷歌翻译
在本文中,我们报告了我们对文本数据密集分布表示的研究结果。我们提出了两种新颖的神经模型来学习这种表征。第一个模型学习文档级别的表示,而第二个模型学习单词级表示。对于文档级表示,我们提出二进制段落向量:用于学习文本文档的二进制表示的神经网络模型,其可用于快速文档检索。我们对这些模型进行了全面评估,并证明它们在信息检索任务中的表现优于该领域的开创性方法。我们还报告了强有力的结果转换学习设置,其中我们的模型在通用textcorpus上训练,然后用于从特定于域的数据集推断文档的代码。与先前提出的方法相反,二进制段落矢量模型直接从原始文本数据学习嵌入。对于词级表示,我们提出消歧Skip-gram:用于学习多义词嵌入的神经网络模型。通过该模型学习的表示可以用于下游任务,例如词性标记或语义关系的识别。在单词意义上感应任务Disambiguated Skip-gram在三个基准测试数据集上优于最先进的模型。我们的模型具有优雅的概率解释。此外,与以前的这种模型不同,它在所有参数方面都是不同的,并且可以用反向传播进行训练。除了定量结果,我们还提出消除歧义的Skip-gram的定性评估,包括选定的词义嵌入的二维可视化。
translated by 谷歌翻译
Cross-lingual representations of words enable us to reason about word meaning in multilingual contexts and are a key facilitator of cross-lingual transfer when developing natural language processing models for low-resource languages. In this survey, we provide a comprehensive typology of cross-lingual word embedding models. We compare their data requirements and objective functions. The recurring theme of the survey is that many of the models presented in the literature optimize for the same objectives, and that seemingly different models are often equivalent modulo optimization strategies, hyper-parameters, and such. We also discuss the different ways cross-lingual word embeddings are evaluated, as well as future challenges and research horizons.
translated by 谷歌翻译
We present a novel technique for learning semantic representations, whichextends the distributional hypothesis to multilingual data and joint-spaceembeddings. Our models leverage parallel data and learn to strongly align theembeddings of semantically equivalent sentences, while maintaining sufficientdistance between those of dissimilar sentences. The models do not rely on wordalignments or any syntactic information and are successfully applied to anumber of diverse languages. We extend our approach to learn semanticrepresentations at the document level, too. We evaluate these models on twocross-lingual document classification tasks, outperforming the prior state ofthe art. Through qualitative analysis and the study of pivoting effects wedemonstrate that our representations are semantically plausible and can capturesemantic relationships across languages without parallel data.
translated by 谷歌翻译
多任务学习最近成为深度学习研究中非常活跃的领域。与单独学习单个任务相比,同时学习多个任务,从而利用相关任务的训练信号来提高各个机器学习任务的性能。相关工作在应用这个范例和本论文时表现出不同领域的各种成功。通过评估四种不同情景下的多任务学习来扩展现有的实证结果:论证挖掘,认知分割,论证成分分割和图形到音素转换。我们表明,与所有这些方案中的单任务学习相比,多任务学习确实可以提高性能,但也可能会损害性能。因此,我们研究了这种范式的成功和不太成功应用的原因,并发现数据集属性(如熵或标签清单的大小)是潜在的多任务学习成功的良好指标,并且多任务学习在以下任务特别有用。手受到数据稀疏性的影响,即缺乏训练数据。此外,在我们的实验中,多任务学习对于长输入序列特别有效。我们在所有评估的情景中都观察到了这种趋势。最后,我们开发了一个高度可配置和可扩展的序列标记框架,支持多任务学习,以进行我们的实证实验,并有助于未来研究多任务学习范例和自然语言处理。
translated by 谷歌翻译
命名实体识别(NER)是识别命名实体的文本跨度的任务,并将它们分类为预定义的类别,例如人员,位置,组织等.NER用作各种自然语言应用的基础,例如问答,文本摘要。和机器翻译。虽然早期的NER系统能够成功地产生出色的识别精度,但它们在精心设计规则或特征时往往需要大量人力。近年来,通过非线性处理的连续实值向量表示和语义组合赋予的深度学习已经被用于NER系统,产生了最先进的性能。在本文中,我们对现有的NER深度学习技术进行了全面的回顾。我们首先介绍NER资源,包括标记的NER语料库和现成的NER工具。然后,基于沿三个轴的分类法对现有作品进行系统分类:输入,上下文编码器和标签解码器的分布式表示。接下来,我们调查了最新的NER问题设置和应用中最近应用的深度学习技术的最有代表性的方法。最后,我们向读者介绍了NER系统面临的挑战,并概述了该领域的未来发展方向。
translated by 谷歌翻译