Joint extraction of entities and relations is an important task in information extraction. To tackle this problem, we firstly propose a novel tagging scheme that can convert the joint extraction task to a tagging problem. Then, based on our tagging scheme, we study different end-to-end models to extract entities and their relations directly, without identifying entities and relations separately. We conduct experiments on a public dataset produced by distant supervision method and the experimental results show that the tagging based methods are better than most of the existing pipelined and joint learning methods. What's more, the end-to-end model proposed in this paper, achieves the best results on the public dataset.
translated by 谷歌翻译
我们比较了BiLSTM-CRF模型中基于LSTM和基于CNN的字符级wordembeddings在化学和疾病命名实体识别(NER)任务中的使用。 BioCreative V CDR corpu的实证结果表明,使用任何类型的字符级字嵌入与BiLSTM-CRF模型相结合,可以获得可比较的最佳性能。然而,使用基于CNN的字符级蠕虫嵌入的模型具有计算性能优势,将基于字的模型的训练时间增加了25%,而基于LSTM的字符级工作量则增加了所需训练时间的两倍以上。
translated by 谷歌翻译
This paper demonstrates neural network-based toolkit namely NNVLP for essential Vietnamese language processing tasks including part-of-speech (POS) tagging , chunking, named entity recognition (NER). Our toolkit is a combination of bidirectional Long Short-Term Memory (Bi-LSTM), Convolutional Neural Network (CNN), Conditional Random Field (CRF), using pre-trained word embed-dings as input, which achieves state-of-the-art results on these three tasks. We provide both API and web demo 1 for this toolkit.
translated by 谷歌翻译
在MOOC讨论论坛上进行的讨论中,对在线学习资源的引用通常是至关重要的。他们将讨论置于语境中,将讨论参与者对问题的陈述及其理解进行了固定。但是,它们通常在自由文本中提及,没有适当的超链接到其关联的资源。自动学习资源提及超链接和分类将有助于在MOOC论坛中进行讨论和搜索,并且还有利于跨不同视图的这些资源的语境化。我们提出了MOOC论坛中学习资源提及识别的问题。 Asthis是一项没有公开数据的新任务,我们首先提供大规模标记数据集,称为论坛资源提取(FoRM)数据集,以促进我们当前的研究和未来对此任务的研究。然后,我们将此任务表示为序列标记问题,并调查解决方案架构以解决问题。重要的是,我们确定了阻碍序列标记模型应用于任务的两个主要挑战:(1)资源提及表达的多样性,以及(2)远程上下文依赖性。我们通过将字符级和线程上下文信息合并到LSTM-CRF模型中来解决这些挑战。首先,我们结合了字符编码器来解决由提及表达式的多样性引起的词汇外问题。其次,为了解决上下文依赖性挑战,我们使用基于RNN的上下文编码器对线程上下文进行编码,并应用注意机制以在序列标记期间选择性地利用有用的上下文信息。在FoRM上的实验表明,所提出的方法显着改善了基线深度序列标记模型,显着改善了例证两个挑战的实例的性能。
translated by 谷歌翻译
我们为越南的命名实体识别任务提出了一个细心的神经网络。所提出的细心神经模型利用基于字符的语言模型和单词嵌入来将单词编码为向量表示。然后利用编码器,注意力和解码器层的神经网络架构来编码输入句子和标签实体标签的知识。实验结果表明,与基于手工制作的模型和神经模型相比,拟议的神经网络在越南的基准名称识别数据集上实现了最先进的结果。
translated by 谷歌翻译
This paper presents a state-of-the-art system for Vietnamese Named Entity Recognition (NER). By incorporating automatic syntactic features with word embeddings as input for bidirectional Long Short-Term Memory (Bi-LSTM), our system, although simpler than some deep learning architectures, achieves a much better result for Vietnamese NER. The proposed method achieves an overall F 1 score of 92.05% on the test set of an evaluation campaign, organized in late 2016 by the Vietnamese Language and Speech Processing (VLSP) community. Our named entity recognition system outperforms the best previous systems for Vietnamese NER by a large margin .
translated by 谷歌翻译
在生物医学文献中,实体边界通常不与字边界对齐。因此,有效识别实体跨度需要能够考虑小于单词的标记的方法。我们引入了一种新颖的子字方法,用于命名实体识别(NER),它将字节对编码(BPE)与卷积和重复神经网络结合使用来产生字节实体的级别标签。我们提出了几个标准生物医学数据集的实验结果,即BioCreative VIBio-ID,JNLPBA和GENETAG数据集。我们展示了竞争性能,同时绕过了创建生物医学文本标记化规则所需的专业领域专业知识。
translated by 谷歌翻译
命名实体识别(NER)是识别命名实体的文本跨度的任务,并将它们分类为预定义的类别,例如人员,位置,组织等.NER用作各种自然语言应用的基础,例如问答,文本摘要。和机器翻译。虽然早期的NER系统能够成功地产生出色的识别精度,但它们在精心设计规则或特征时往往需要大量人力。近年来,通过非线性处理的连续实值向量表示和语义组合赋予的深度学习已经被用于NER系统,产生了最先进的性能。在本文中,我们对现有的NER深度学习技术进行了全面的回顾。我们首先介绍NER资源,包括标记的NER语料库和现成的NER工具。然后,基于沿三个轴的分类法对现有作品进行系统分类:输入,上下文编码器和标签解码器的分布式表示。接下来,我们调查了最新的NER问题设置和应用中最近应用的深度学习技术的最有代表性的方法。最后,我们向读者介绍了NER系统面临的挑战,并概述了该领域的未来发展方向。
translated by 谷歌翻译
用于联合实体识别和关系提取的最先进模型完全依赖于外部自然语言处理(NLP)工具,例如POS(词性)标记器和依赖性解析器。因此,这种联合模型的性能取决于从这些NLP工具获得的特征的质量。但是,对于各种语言和上下文,这些功能并不总是准确的。在本文中,我们提出了一种联合神经模型,它同时进行表现识别和关系提取,无需任何手动提取的特征或使用任何外部工具。具体地,我们使用CRF(条件随机场)层和关系提取任务将实体识别任务建模为多头选择问题(即,潜在地识别每个实体的多个关系)。我们提供了一个广泛的实验设置,以使用来自各种环境(即新闻,生物医学,房地产)和语言(即英语,荷兰语)的数据集来证明我们方法的有效性。我们的模型优于以前使用自动提取特征的神经模型,同时它在基于特征的神经模型的合理边缘内执行,甚至胜过它们。
translated by 谷歌翻译
大多数先前的研究将命名实体提取和分类视为端到端任务。我们认为应该分别解决这两个子任务。实体提取处于句法分析的层面,实体分类处于语义分析的层面。根据NoamChomsky的“Syntactic Structures”,第93-94页(Chomsky,1957),语法没有出现在语义上,语义也不会影响语法。我们分析了两个标记数据集的命名实体的特征,发现不常见的单词可以区分命名实体和普通文本;其中不常见的词是几乎不出现在普通文本中的词,而且它们主要是正确的名词。实验验证了词法和句法特征在实体提取方面实现了最先进的性能,并且语义特征在我们的模型和最先进的基线中都没有进一步提高提取性能。根据乔姆斯基的观点,我们还解释了其他作品中的句法语法和语义分析的失败。
translated by 谷歌翻译
Named entity recognition is a challenging task that has traditionally required large amounts of knowledge in the form of feature engineering and lexicons to achieve high performance. In this paper, we present a novel neural network architecture that automatically detects word-and character-level features using a hybrid bidirectional LSTM and CNN architecture , eliminating the need for most feature engineering. We also propose a novel method of encoding partial lexicon matches in neu-ral networks and compare it to existing approaches. Extensive evaluation shows that, given only tokenized text and publicly available word embeddings, our system is competitive on the CoNLL-2003 dataset and surpasses the previously reported state of the art performance on the OntoNotes 5.0 dataset by 2.13 F1 points. By using two lexicons constructed from publicly-available sources, we establish new state of the art performance with an F1 score of 91.62 on CoNLL-2003 and 86.28 on OntoNotes, surpassing systems that employ heavy feature engineering, proprietary lexicons, and rich entity linking information.
translated by 谷歌翻译
传统观点认为手工制作的功能对于深度学习模型来说是多余的,因为他们已经从语料库中自学了足够的表达。在这项工作中,我们通过提出一种利用手工制作功能的新方法来测试这一主张,这种新方法是一种新颖的混合学习方法的一部分,其中包含一个功能自动编码器丢失组件。我们评估命名实体识别(NER)的任务,其中我们表明包括词性,字形和地名词典的手动特征可以改善神经CRF模型的性能。我们为CoNLL-2003英语共享任务获得了$ F_1 $ 91.89,该任务明显优于一系列竞争激烈的基线模型。我们还提供了一个消融研究,显示了自动编码的重要性,而不仅仅是使用输入或输出功能,而且,显示包括自动编码器组件将测量要求降低到60%,同时保持相同的预测精度。
translated by 谷歌翻译
We present an easy-to-use and fast toolkit, namely VnCoreNLP-a Java NLP annotation pipeline for Vietnamese. Our VnCoreNLP supports key natural language processing (NLP) tasks including word segmentation, part-of-speech (POS) tagging, named entity recognition (NER) and dependency parsing, and obtains state-of-the-art (SOTA) results for these tasks. We release VnCoreNLP to provide rich linguistic annotations to facilitate research work on Vietnamese NLP. Our VnCoreNLP is open-source and available at: https:// github.com/vncorenlp/VnCoreNLP.
translated by 谷歌翻译
Different languages contain complementary cues about entities, which can be used to improve Named Entity Recognition (NER) systems. We propose a method that formulates the problem of exploring such signals on unannotated bilingual text as a simple Integer Linear Program, which encourages entity tags to agree via bilingual constraints. Bilingual NER experiments on the large OntoNotes 4.0 Chinese-English corpus show that the proposed method can improve strong baselines for both Chinese and English. In particular, Chinese performance improves by over 5% absolute F 1 score. We can then annotate a large amount of bilingual text (80k sentence pairs) using our method, and add it as up-training data to the original monolingual NER training corpus. The Chinese model retrained on this new combined dataset outperforms the strong baseline by over 3% F 1 score.
translated by 谷歌翻译
开放关系提取(ORE)仍然是通过从非结构化文本中发现任意关系元组来获得语义表示的挑战。然而,也许由于数据有限,以前的提取器使用基于模式匹配的无监督或半监督方法,这些方法很大程度上取决于手工工作或语法分析器,并且是低效的错误级联。他们的发展遇到了瓶颈。虽然有些人最近尝试使用基于神经网络的模型来改进ORE任务性能,但是ORE基于各种神经架构生成监督系统总是难以处理的。我们分析和审查神经传递方法。此外,我们构建了一个大规模自动标记训练集,并设计了一个标记方案,将ORE作为一个监督序列标记任务。提出了一种混合神经序列标记模型(NST),它结合了BiSTM,CNN和CRF,通过使用单词和词性嵌入来捕获序列的上下文时间信息,局部空间信息和句子级标签信息。在多个数据集上的实验表明,我们的方法优于大多数现有的基于模式的方法和其他基于神经网络的模型。
translated by 谷歌翻译
We present a novel attention-based recurrent neural network for joint extraction of entity mentions and relations. We show that attention along with long short term memory (LSTM) network can extract semantic relations between entity mentions without having access to dependency trees. Experiments on Automatic Content Extraction (ACE) corpora show that our model significantly outperforms feature-based joint model by Li and Ji (2014). We also compare our model with an end-to-end tree-based LSTM model (SPTree) by Miwa and Bansal (2016) and show that our model performs within 1% on entity mentions and 2% on relations. Our fine-grained analysis also shows that our model performs significantly better on AGENT-ARTIFACT relations, while SPTree performs better on PHYSICAL and PART-WHOLE relations.
translated by 谷歌翻译
Many named entities contain other named entities inside them. Despite this fact, the field of named entity recognition has almost entirely ignored nested named entity recognition, but due to technological, rather than ideological reasons. In this paper , we present a new technique for recognizing nested named entities, by using a discriminative constituency parser. To train the model, we transform each sentence into a tree, with constituents for each named entity (and no other syntactic structure). We present results on both newspaper and biomedical corpora which contain nested named entities. In three out of four sets of experiments, our model outperforms a standard semi-CRF on the more traditional top-level entities. At the same time, we improve the overall F-score by up to 30% over the flat model, which is unable to recover any nested entities.
translated by 谷歌翻译
词法分析被认为是迈向自然语言理解的关键步骤,并且已被广泛研究。近年来,具有递归神经网络的端到端病毒分析模型越来越受到关注。在本报告中,我们引入了一个深层的Bi-GRU-CRF网络,该网络共同模拟了分词,词性标注和命名实体识别任务。我们使用我们最好的中文词法分析工具预先标记的几个大型语料库,以及一个小而高质量的人类注释语料库来训练模型。我们在不同语料库之间进行了平衡采样,以保证人类注释的影响,并在训练过程中定期微调CRF解码层。正如linguisticexperts所评估的那样,该模型在测试集上达到了95.5%的准确率,相对于我们(之前)最好的中文词法分析曲目,相对误差降低了大约13%。该模型具有计算效率,通过一个线程实现每秒2.3K字符的速度。
translated by 谷歌翻译
尽管在自然语言处理社区中命名实体识别(NER)任务的历史很长,但以前的工作很少研究对话文本的任务。这些文本具有挑战性,因为它们包含许多词汇变体,这些变体会增加词汇外(OOV)词的数量。大量的OOV词对基于词的神经模型提出了困难。同时,有充分的证据证明基于角色的神经模型在减轻这种OOV问题方面的有效性。我们报告了神经序列标记模型的实证评估,其中包含字符嵌入以解决印尼语会话文本中的NER任务。我们的实验表明:(1)字符模型优于单词嵌入模型最多4 $ F_1 $点,(2)字符模型在OOV情况下表现更好,提升高达15 $ F_1 $点,以及(3)字符模型对于非常高的OOVrate非常强大。
translated by 谷歌翻译
随着数字时代的兴起,新闻,文章,社交媒体等形式的信息爆炸式增长。这些数据大部分在于非结构化形式,人工管理和有效利用它是繁琐,乏味和劳动密集型的。信息爆炸以及对更复杂和有效的信息处理工具的需求促成了信息提取(IE)和信息检索(IR)技术。信息提取系统将自然语言文本作为输入并产生由特定标准指定的结构化信息,这与特定的相关。应用。 IE的各种子任务,如命名实体识别,共指解析,命名实体链接,关系提取,知识库推理,形成各种高端自然语言处理(NLP)任务的构建块,如机器翻译,问答系统,自然语言理解,Text Summarization和DigitalAssistants,如Siri,Cortana和Google Now。本文介绍了InformationExtraction技术及其各种子任务,重点介绍了各种IE子任务中的最新研究,当前的挑战和未来的研究方向。
translated by 谷歌翻译