本文介绍了一种新的开放式域名问答框架,其中猎犬和读者互相迭代地互动。框架与机器读取模型的体系结构无关,只需要访问读取器的令牌级隐藏表示。 Theretriever使用快速最近邻搜索来缩放到包含数百万个段落的语料库。门控循环单元在读取器状态的每个步进条件下更新查询,并且重新构造的查询用于通过检索器对段落进行排序。我们进行分析并显示有用的互动有助于从信息中检索信息性段落。最后,我们展示了我们的多步推理框架在应用于各种大型开放域数据集的两个广泛使用的读者架构Dr.DrQA和BiDAF时带来了一致的改进 - TriviaQA-unfiltered,QuasarT,SearchQA和SQuAD-Open。
translated by 谷歌翻译
序列到序列模型是NLP的强大主力。大多数变体在其注意机制和输出层中都采用softmax变换,导致密集对齐和严格正输出概率。这种密度是浪费的,使得模型可解释性较差,并为许多难以置信的输出分配概率质量。在本文中,我们提出了sparsese序列到序列模型,植根于$ \ alpha $ -entmaxtransformations的新系列,其中包括softmax和sparsemax作为特定情况,并且对于任何$ \ alpha> 1 $都是稀疏的。我们提供快速算法来评估这些变换及其渐变,这些算法可以很好地扩展到大型词汇表。我们的模型能够生成稀疏对齐并将非非可置性分配给可能输出的简短列表,有时会使波束搜索精确。形态学变形和机器平移的实验揭示了密集模型的一致增益。
translated by 谷歌翻译
我们根据修辞结构理论(RST)提出了一种有效的句子级语篇分析的神经框架。我们的框架包括一个话语分段器,用于识别文本中的基本话语单元(EDU),以及一个以低调的方式构建话语树的话语分析器。分段器和解析器都基于PointerNetworks并在线性时间内运行。我们的分段器得出$ F_1 $得分为95.4,我们的解析器在累计标签(关系)指标上获得了$ F_1 $ 81.7分,超过以前的方法,并且在两项任务上都达成了人类协议(98.3和83.0 $) F_1 $)。
translated by 谷歌翻译
在本文中,我们通过利用同义词,上位词和上下词之类的感官之间的语义关系来解决有限数量的手动注释语料库用于词义消歧任务的问题,以便压缩PrincetonWordNet的感知词汇,从而减少必须被观察到的不同感知标签的数量,以消除词汇数据库的所有单词的歧义。我们提出了两种不同的方法,大大减少了神经WSD模型的大小,有利于在没有额外训练数据的情况下提高其覆盖范围,并且不会影响它们的精度。除了我们的方法,我们提出了一个新的WSD系统,它依赖于预先训练的BERT单词向量,以便在所有WSDevaluation任务中获得明显优于现有技术水平的结果。
translated by 谷歌翻译
自然语言生成(NLG)是面向任务的对话系统的重要组成部分。尽管近来NLG的神经方法取得了成功,但它们通常是针对具有丰富注释训练样本的特定域开发的。在本文中,我们在资源匮乏的环境中研究NLG,以便通过少量训练示例在新场景中生成句子。我们从元学习的角度阐述问题,并基于公认的模型不可知元学习(MAML)算法提出基于广义优化的方法(Meta-NLG)。 Meta-NLG定义了一组元代码,并直接将适应新的低资源NLG任务的目标纳入元学习优化过程。对具有多样性变化的大型多域数据集(MultiWoz)进行了广泛的实验。我们表明,Meta-NLG在各种低资源配置中明显优于其他方法。我们分析结果,并证明Meta-NLG适应极快和良好的资源情况。
translated by 谷歌翻译
解密潜在空间中的内容和风格是普通的文本风格转移。然而,在大多数当前神经模型中存在两个主要问题。 1)很难从句子的语义中完全剥离样式信息。 2)基于递归神经网络(RNN)的编码器和解码器,由潜在表示介导,不能解决长期依赖问题,导致非风格语义内容的保存。本文提出了风格变换器,它没有对潜在句子的潜在表现做出任何假设,并且配备了变形金刚注意机制的力量,以实现更好的风格转移和更好的内容保存。
translated by 谷歌翻译
事实证明,语言模型预训练对于学习通用语言表示非常有用。作为最先进的语言模型预训练模型,BERT(变形金刚的双向编码器表示)在许多语言理解任务中取得了惊人的成果。在本文中,我们进行了详尽的实验,以研究BERT在文本分类任务上的不同微调方法,并为BERTfine调整提供一般解决方案。最后,所提出的解决方案在八个广泛研究的文本分类数据集上获得了新的最新结果。
translated by 谷歌翻译
Given the collection of timestamped web documents related to the evolving topic, timeline summarization (TS) highlights its most important events in the form of relevant summaries to represent the development of a topic over time. Most of the previous work focuses on fully-observable ranking models and depends on hand-designed features or complex mechanisms that may not generalize well. We present a novel dynamic framework for evolutionary timeline generation leveraging distributed representations, which dynamically finds the most likely sequence of evolutionary summaries in the timeline, called the Viterbi timeline, and reduces the impact of events that irrelevant or repeated to the topic. The assumptions of the coherence and the global view run through our model. We explore adjacent relevance to constrain timeline coherence and make sure the events evolve on the same topic with a global view. Experimental results demonstrate that our framework is feasible to extract summaries for timeline generation, outperforms various competitive baselines, and achieves the state-of-the-art performance as an unsupervised approach.
translated by 谷歌翻译
在这项工作中,我们通过将生成潜在变量模型拟合到多语言字典来实现以离线方式学习多语言单词表示的任务。我们将不同语言中的等价单词建模为由表示其潜在词汇意义的共同潜在变量生成的同一单词的不同视图。我们通过查询拟合的多语言嵌入模型来探索对齐任务,从而在各种任务中实现竞争结果。所提出的模型在嵌入空间中具有鲁棒性,使其成为从嘈杂语料库中学习的分布式表示的合适方法。
translated by 谷歌翻译
互联网的非索引部分(Darknet)已成为合法和非法匿名活动的避风港。鉴于这些网络的规模,可靠地监控其活动必然依赖于自动工具,尤其是NLP工具。然而,人们对通过Darknet传达的特征文本以及这个领域的NLP工具如何做得很少知之甚少。本文解决了这一差距,并对暗网中合法和非法文本的特征进行了深入调查,并将其与具有类似内容的清晰网站进行比较,作为控制条件。以药物相关网站为测试案例,我们发现销售合法和非法药物的文本具有多种语言特征,可以区分彼此,以及控制条件,其中包括POS标签的分布,以及其命名实体的覆盖范围。在维基百科。
translated by 谷歌翻译