我们介绍了GQA,这是一个用于实际视觉推理和组合问题解答的新数据集,旨在解决以前的VQA数据集的关键缺点。我们已经开发了一个强大而强大的问题引擎,它利用场景图结构来创建22M多种推理问题,所有推理都带有代表其语义的功能程序。我们使用这些程序来严格控制答案分布,并提出一种新的可调平滑技术来减轻语言偏差。伴随数据集是一套新的指标,用于评估基本质量,如一致性,基础和合理性。对基线和最先进的模型进行了广泛的分析,为不同的问题类型和拓扑提供了细粒度的结果。盲目LSTM仅获得42.1%,强VQA模型达到54.1%,人类表现达到89.3%,为新研究提供了充分的机会。我们强烈希望GQA将为下一代模型提供支持资源,增强稳健性,提高一致性,并对图像和语言进行更深入的语义理解。
translated by 谷歌翻译
本文描述了斯坦福在CoNLL 2018 UD共享任务中的系统。我们引入了一个完整的神经管道系统,它将原始文本作为输入,并执行共享任务所需的所有任务,从标记化和权限分割到POS标记和依赖性解析。我们的单一系统提交在大型树库上实现了极具竞争力的性能。此外,在修复了一个不幸的错误之后,我们的纠正系统将把第二,第一和第三个放在官方评估指标LAS,MLAS和BLEX上,并且在所有指标上的所有指标上的所有提交系统都将大大超过所有指标系统。我们通过广泛的消融研究进一步证明了不同模型组件的有效性。
translated by 谷歌翻译
现有的问答(QA)数据集无法训练QA系统执行复杂的推理并提供答案的解释。我们介绍HotpotQA,这是一个新的数据集,包含113k基于维基百科的问答对,有四个关键特征:(1)问题需要查找和推理多个支持文档才能回答; (2)问题多种多样,不受任何先前存在的知识库或知识模式的约束; (3)我们提供推理所需的句子级支持事实,允许QAsystems在强有力的监督下进行推理并解释预测; (4)我们提供了一种新型的事实比较问题来测试QA系统提取相关事实和进行必要比较的能力。我们证明HotpotQA对最新的QA系统具有挑战性,支持事实使模型能够提高性能并做出可解释的预测。
translated by 谷歌翻译
无监督的表示学习算法,如word2vec和ELM,提高了许多有监督的NLP模型的准确性,主要是因为它们有利于大量未标记的文本。但是,受监督的模型仅在主要训练阶段期间从任务特定的标记数据中学习。因此,我们提出了跨视图训练(CVT),这是一种半监督学习算法,使用标记和未标记数据的混合来改进Bi-LSTM句子编码器的表示。在标记的示例中,使用标准监督学习。在未标记的示例中,CVT教导了辅助预测模块,其看到输入的受限视图(例如,仅一部分句子)以匹配看到整个输入的完整模型的预测。由于辅助模块和完整模型共享中间表示,这反过来改进了完整模型。此外,我们表明,当与多任务学习相结合时,CVT特别有效。我们对五个序列标记任务,机器翻译和依赖性解析进行CVT评估,从而实现最先进的结果。
translated by 谷歌翻译
放射学报告的“印象”部分总结了自然语言中的关键放射学研究,并在向医生传达这些研究中起着核心作用。然而,通过总结发现来产生印象的过程对于放射科医师来说是耗时的并且容易出错。我们建议通过神经序列到序列学习自动生成放射学印象。我们进一步提出了一种定制的神经模型,该任务学习编码研究背景信息并使用该信息来指导解码过程。在从实际医院研究中收集的大型放射学报告数据集中,我们的模型在ROUGE指标下优于现有的非神经和神经基线。在盲人实验中,由董事会认证的放射科医师表示,67%的抽样系统摘要至少与相应的人工书写摘要一样好,这表明临床有效性显着。据我们所知,我们的工作代表了这方面的第一次尝试。
translated by 谷歌翻译
要理解像“只有10%的美国白人生活在贫困线以下,28%的非洲裔美国人”这样的句子,不仅要识别个别事实,例如不同人口群体的贫困率,还要识别高阶它们之间的关系,例如它们之间的差异。在本文中,我们提出了文本类比分析(TAP)的任务来模拟这个高阶意义。 TAP的输出是一种框架式的代表性,它明确地指明了它的组成事实之间共享的内容(例如,贫困)和比较的内容(例如,美国白人与非裔美国人,10%对28%)。这种意义表示可以使依赖于话语理解的新应用成为可能,例如来自定量文本的自动图表生成。我们提出了一个新的TAP数据集,基线和一个成功使用ILP来强制解决问题的结构约束的模型。
translated by 谷歌翻译
虽然句法依赖注释集中在句子的表面或功能结构上,但语义依赖注释的目的是使用图形结构表示来捕捉与句子含义更紧密相关的词间关系。我们扩展了Dozat和Manning(2017)的基于LSTM的语法分析器,以训练和生成这些图结构。由此产生的系统本身实现了最先进的性能,超过了之前的,实质上更复杂的艺术系统,标记为F1的0.6%。添加语言更丰富的输入表示会使边距更高,使我们能够将其击败标记为F1的1.9%。
translated by 谷歌翻译
We present the MAC network, a novel fully differentiable neural networkarchitecture, designed to facilitate explicit and expressive reasoning. MACmoves away from monolithic black-box neural architectures towards a design thatencourages both transparency and versatility. The model approaches problems bydecomposing them into a series of attention-based reasoning steps, eachperformed by a novel recurrent Memory, Attention, and Composition (MAC) cellthat maintains a separation between control and memory. By stringing the cellstogether and imposing structural constraints that regulate their interaction,MAC effectively learns to perform iterative reasoning processes that aredirectly inferred from the data in an end-to-end approach. We demonstrate themodel's strength, robustness and interpretability on the challenging CLEVRdataset for visual reasoning, achieving a new state-of-the-art 98.9% accuracy,halving the error rate of the previous best model. More importantly, we showthat the model is computationally-efficient and data-efficient, in particularrequiring 5x less data than existing models to achieve strong results.
translated by 谷歌翻译
This paper builds off recent work from Kiperwasser & Goldberg (2016) usingneural attention in a simple graph-based dependency parser. We use a larger butmore thoroughly regularized parser than other recent BiLSTM-based approaches,with biaffine classifiers to predict arcs and labels. Our parser gets state ofthe art or near state of the art performance on standard treebanks for sixdifferent languages, achieving 95.7% UAS and 94.1% LAS on the most popularEnglish PTB dataset. This makes it the highest-performing graph-based parser onthis benchmark---outperforming Kiperwasser Goldberg (2016) by 1.8% and2.2%---and comparable to the highest performing transition-based parser(Kuncoro et al., 2016), which achieves 95.8% UAS and 94.6% LAS. We also showwhich hyperparameter choices had a significant effect on parsing accuracy,allowing us to achieve large gains over other graph-based approaches.
translated by 谷歌翻译
使计算机能够理解文档以便它能够回答理解问题是NLP的一个核心但未解决的目标。机器学习系统阻碍其解决方案的关键因素是人类注释数据的有限可用性。赫尔曼等人。 (2015)通过将CNN和每日邮报新闻文章与他们的总结要点配对来创建超过一百万个训练样例来寻求解决这个问题,并且表明可以训练神经网络以在该任务上提供良好的表现。在本文中,我们对这种新的阅读理解任务进行了彻底的检查。我们的主要目标是了解在这项任务中需要多大的语言理解深度。我们从一方面对一小部分问题进行仔细分析,另一方面通过显示简单,精心设计的系统可以在这两个数据集上获得73.6%和76.6%的精度,超过当前状态。最先进的结果是7-10%,接近我们认为是这个任务的性能上限。
translated by 谷歌翻译