本文介绍了一种新的开放式域名问答框架,其中猎犬和读者互相迭代地互动。框架与机器读取模型的体系结构无关,只需要访问读取器的令牌级隐藏表示。 Theretriever使用快速最近邻搜索来缩放到包含数百万个段落的语料库。门控循环单元在读取器状态的每个步进条件下更新查询,并且重新构造的查询用于通过检索器对段落进行排序。我们进行分析并显示有用的互动有助于从信息中检索信息性段落。最后,我们展示了我们的多步推理框架在应用于各种大型开放域数据集的两个广泛使用的读者架构Dr.DrQA和BiDAF时带来了一致的改进 - TriviaQA-unfiltered,QuasarT,SearchQA和SQuAD-Open。
translated by 谷歌翻译
利用新数据源是加快材料设计和发现步伐的关键一步。为了补充由历史,实验和计算数据驱动的综合计划的进步,我们提出了一种将科学文献与综合见解联系起来的自动化方法。从自然语言文本开始,我们应用来自语言模型的单词嵌入,这些嵌入被输入到命名实体识别模型中,在该模型上训练条件变分自动编码器以生成任意材料的合成。我们通过预测两种钙钛矿材料的前体来展示这种技术的潜力,仅使用他们首次报道的合成之前十年内发表的训练数据。我们证明该模型学习了与合成相关的属性相对应的材料的表示,并且该模型的行为补充了现有的热力学知识。最后,我们应用该模型对所提出的钙钛矿化合物进行合成性筛选。
translated by 谷歌翻译
在结构化输出预测任务中,标记地面实况训练输出通常很昂贵。然而,对于许多任务,即使真正的输出未知,我们也可以使用标量奖励函数来评估预测,这些函数可以很容易地从人类知识或不可微分的管道汇集而来。但是通过整个输出空间进行搜索以找到关于该奖励函数的最佳输出通常是难以处理的。在本文中,我们改为在这个奖励函数中使用有效的截断随机搜索来训练结构化预测能量网络(SPEN),这些网络使用基于梯度的搜索对得分景观的平滑,学习的表示提供有效的测试时间推断,并且之前已经产生了状态。现有技术导致结构化预测。特别是,在奖励函数中的这种截断的随机搜索产生了先前未知的本地改进,为SPEN提供了有效的监督,避免了对标记的训练数据的传统需求。
translated by 谷歌翻译
用于学习丰富的,情境化的代表性表示的无监督方法是否消除了在语义角色标记(SRL)的神经网络模型中对语言结构进行显式建模的需要?我们通过将大量成功的ELMo嵌入(Peters etal。,2018)纳入LISA(Strubell等,2018)来解决这个问题,LISA是一种强大的,语言上知情的神经网络架构。在关于CoNLL-2005共享任务的实验中,我们发现虽然ELMo优于典型的字嵌入,但是开始缩小LISA与预测和金句法解析之间的差距,语法通知模型在使用ELMo时仍然优于无语法模型,尤其是域外数据。我们的研究结果表明,语言学结构确实在这个深度学习的黄金时代仍然具有相关性。
translated by 谷歌翻译
我们提出了一种神经机器读取模型,它从程序文本构建动态知识图。它针对所描述的过程的每个步骤循环地构建这些图,并使用它们来跟踪参与实体的演变状态。我们利用并扩展最近提出的机器阅读理解(MRC)模型来查询实体状态,因为这些状态通常在文本的跨度中传递,并且MRC模型执行良好的不提取的以实体为中心的跨度。正如我们经验证明的那样,我们的模型构造的显式,结构化和不断发展的知识图表示可以用于下行问题回答任务,以提高文本的机器理解能力。在最近提出的PROPARA数据集(Dalvi et al。,2018)的两个理解任务中,我们的模型实现了最先进的结果。我们进一步表明,我们的模型在RECIPES数据集上具有竞争力(Kiddon等,2015),表明它可能是普遍适用的。我们提供了一些证据,证明模型的知识图有助于它对其预测施加常识约束。
translated by 谷歌翻译
复杂的文本信息提取任务通常被设置为序列标记或\ emph {浅解析},其中使用局部标记提取字段,所述局部标记通过具有约束转换的图形模型中的概率推断而一致。最近,使用由递归神经网络(例如LSTM)提取的丰富特征在局部参数化这些模型已经变得很普遍,同时通过简单的线性链模型实施一致的输出,表示连续标记之间的马尔可夫依赖性。然而,简单的图形模型结构掩盖了输出标签之间通常复杂的非局部约束。例如,许多字段(例如名字)只能发生固定次数,或者存在其他字段。虽然RNN为序列标记提供了越来越强大的上下文感知本地特征,但它们尚未与输出分布中具有相似表现力的全局图形模型集成。我们的模型超越了线性链CRF,结合了多个隐藏的stateper输出标签,但是用低级别的log-potential评分矩阵对它们的转换进行了简单的参数化,有效地学习了隐藏状态的嵌入空间。这种增强的推理变量潜在空间实现了RNN的丰富特征表示,并允许精确的全局参考服从复杂的,学习的非局部输出约束。我们用几个数据集进行实验,结果表明,当在推理时需要全局输出约束时,模型优于基线CRF + RNN模型,并探索可解释的潜在结构。
translated by 谷歌翻译
从原始文本到实体和细粒度类型的知识库的提取通常被预测为一组实体和类型标签的预测,忽略了对策展中包含的类型和实体的丰富层次结构。以前尝试合并分层结构的效果很小,仅限于浅层本体。本文介绍了使用实数和复数双线性映射来整合层次信息的新方法,在实体链接和细粒度实体类型中实现了对平面预测的实质性改进,并在基准FIGER上实现了端到端模型的最新结果。数据集。我们还提出了两个新的人类注释数据集,包含广泛和深层次结构,我们将向社区发布以鼓励进一步研究这个方向:MedMentions,PubMed摘要的集合,其中246k提到的映射到大规模的UMLS本体;和TypeNet,它将Freebase类型与WordNet层次结构对齐,以获得近2种类型。在对所有三个数据集的实验中,我们从层次感知培训中获得了实质性收益。
translated by 谷歌翻译
The recent work of Clark et al. (2018) introduces the AI2 Reasoning Challenge (ARC) and the associated ARC dataset that partitions open domain, complex science questions into an Easy Set and a Challenge Set. That paper includes an analysis of 100 questions with respect to the types of knowledge and reasoning required to answer them; however, it does not include clear definitions of these types, nor does it offer information about the quality of the labels. We propose a comprehensive set of definitions of knowledge and reasoning types necessary for answering the questions in the ARC dataset. Using ten annotators and a sophisticated annotation interface, we analyze the distribution of labels across the Challenge Set and statistics related to them. Additionally , we demonstrate that although naive information retrieval methods return sentences that are irrelevant to answering the query, sufficient supporting text is often present in the (ARC) corpus. Evaluating with human-selected relevant sentences improves the performance of a neu-ral machine comprehension model by 42 points.
translated by 谷歌翻译
当前最先进的语义角色标记(SRL)使用深度神经网络,没有明确的语言特征。但是,之前的工作已经表明,黄金语法树可以显着改善SRL解码,这表明通过显式语法建模可以提高准确性。在这项工作中,我们提出了语言知情的自我关注(LISA):一种神经网络模型,它将多头自我关注与多任务学习相结合,包括依赖性解析,词性标注,谓词检测和SRL。与以前的模型不同需要对准备语言特征进行大量预处理,LISA可以仅使用原始令牌作为输入来合并语法,仅对序列编码一次以同时对所有谓词执行解析,谓词检测和角色标记。语法是通过训练一个注意力头来参加语法父母foreach令牌而加入的。此外,如果已经有高质量的语法解析,则可以在测试时进行有益的注入,而无需重新训练我们的SRL模型。在CoNLL-2005 SRL的实验中,LISA实现了模型的新的最佳性能使用预测谓词和标准wordembeddings,获得2.5 F1绝对高于之前的最新技术新闻专线和超过3.5 F1的域外数据,近10%的减少恐惧。在ConLL-2012 English SRL上,我们也显示出超过2.5F1的改进。 LISA还通过上下文编码(ELMo)单词表示超越了最新技术,在新闻上播放了近1.0 F1,在域外文本上播出了超过2.0 F1。
translated by 谷歌翻译
Today when many practitioners run basic NLP on the entire web andlarge-volume traffic, faster methods are paramount to saving time and energycosts. Recent advances in GPU hardware have led to the emergence ofbi-directional LSTMs as a standard method for obtaining per-token vectorrepresentations serving as input to labeling tasks such as NER (often followedby prediction in a linear-chain CRF). Though expressive and accurate, thesemodels fail to fully exploit GPU parallelism, limiting their computationalefficiency. This paper proposes a faster alternative to Bi-LSTMs for NER:Iterated Dilated Convolutional Neural Networks (ID-CNNs), which have bettercapacity than traditional CNNs for large context and structured prediction.Unlike LSTMs whose sequential processing on sentences of length N requires O(N)time even in the face of parallelism, ID-CNNs permit fixed-depth convolutionsto run in parallel across entire documents. We describe a distinct combinationof network structure, parameter sharing and training procedures that enabledramatic 14-20x test-time speedups while retaining accuracy comparable to theBi-LSTM-CRF. Moreover, ID-CNNs trained to aggregate context from the entiredocument are even more accurate while maintaining 8x faster test time speeds.
translated by 谷歌翻译