我们比较了BiLSTM-CRF模型中基于LSTM和基于CNN的字符级wordembeddings在化学和疾病命名实体识别(NER)任务中的使用。 BioCreative V CDR corpu的实证结果表明,使用任何类型的字符级字嵌入与BiLSTM-CRF模型相结合,可以获得可比较的最佳性能。然而,使用基于CNN的字符级蠕虫嵌入的模型具有计算性能优势,将基于字的模型的训练时间增加了25%,而基于LSTM的字符级工作量则增加了所需训练时间的两倍以上。
translated by 谷歌翻译
This paper presents a state-of-the-art system for Vietnamese Named Entity Recognition (NER). By incorporating automatic syntactic features with word embeddings as input for bidirectional Long Short-Term Memory (Bi-LSTM), our system, although simpler than some deep learning architectures, achieves a much better result for Vietnamese NER. The proposed method achieves an overall F 1 score of 92.05% on the test set of an evaluation campaign, organized in late 2016 by the Vietnamese Language and Speech Processing (VLSP) community. Our named entity recognition system outperforms the best previous systems for Vietnamese NER by a large margin .
translated by 谷歌翻译
This paper demonstrates neural network-based toolkit namely NNVLP for essential Vietnamese language processing tasks including part-of-speech (POS) tagging , chunking, named entity recognition (NER). Our toolkit is a combination of bidirectional Long Short-Term Memory (Bi-LSTM), Convolutional Neural Network (CNN), Conditional Random Field (CRF), using pre-trained word embed-dings as input, which achieves state-of-the-art results on these three tasks. We provide both API and web demo 1 for this toolkit.
translated by 谷歌翻译
由于缺乏自然分隔符,中文命名实体识别(NER)是必不可少的,但很难。因此,中文分词(CWS)通常被认为是中国NER的第一步。然而,基于词级嵌入和词典特征的模型经常遭受分段错误和词典外(OOV)词。在本文中,我们研究了一个名为CAN的中国NER卷积注意网络,它包括基于特征的卷积神经网络(CNN)和局部注意力窗口以及带有全局自注意层的门控循环单元(GRU),用于捕获来自邻近的信息。字符和句子上下文。此外,与其他模型相比,不依赖于任何外部资源,如词典,采用小尺寸的嵌入物使我们的模型更加实用。大量的实验结果表明,我们的方法优于最先进的方法,没有字嵌入和外部词典资源在不同的领域数据集包括微博,MSRA和中文简历NERdataset。
translated by 谷歌翻译
在MOOC讨论论坛上进行的讨论中,对在线学习资源的引用通常是至关重要的。他们将讨论置于语境中,将讨论参与者对问题的陈述及其理解进行了固定。但是,它们通常在自由文本中提及,没有适当的超链接到其关联的资源。自动学习资源提及超链接和分类将有助于在MOOC论坛中进行讨论和搜索,并且还有利于跨不同视图的这些资源的语境化。我们提出了MOOC论坛中学习资源提及识别的问题。 Asthis是一项没有公开数据的新任务,我们首先提供大规模标记数据集,称为论坛资源提取(FoRM)数据集,以促进我们当前的研究和未来对此任务的研究。然后,我们将此任务表示为序列标记问题,并调查解决方案架构以解决问题。重要的是,我们确定了阻碍序列标记模型应用于任务的两个主要挑战:(1)资源提及表达的多样性,以及(2)远程上下文依赖性。我们通过将字符级和线程上下文信息合并到LSTM-CRF模型中来解决这些挑战。首先,我们结合了字符编码器来解决由提及表达式的多样性引起的词汇外问题。其次,为了解决上下文依赖性挑战,我们使用基于RNN的上下文编码器对线程上下文进行编码,并应用注意机制以在序列标记期间选择性地利用有用的上下文信息。在FoRM上的实验表明,所提出的方法显着改善了基线深度序列标记模型,显着改善了例证两个挑战的实例的性能。
translated by 谷歌翻译
我们为越南的命名实体识别任务提出了一个细心的神经网络。所提出的细心神经模型利用基于字符的语言模型和单词嵌入来将单词编码为向量表示。然后利用编码器,注意力和解码器层的神经网络架构来编码输入句子和标签实体标签的知识。实验结果表明,与基于手工制作的模型和神经模型相比,拟议的神经网络在越南的基准名称识别数据集上实现了最先进的结果。
translated by 谷歌翻译
中文命名实体识别(CNER)是中国自然语言处理领域的一项重要任务。然而,CNER非常具有挑战性,因为中国实体名称具有高度依赖于环境的特征。此外,中文文本分隔词分隔单词,使得难以识别实体的边界。此外,许多领域的CNER培训数据通常不够,为CNER注释足够的培训数据非常昂贵且耗时。在本文中,我们提出了一种用于CNER的神经方法。首先,我们引入了CNN-LSTM-CRF神经结构来捕获CNER的局域和远距离上下文。其次,我们提出了一个统一的框架来联合训练CNER和分词模型,以增强CNER模型识别实体边界的能力。第三,我们引入了一种自动方法,从现有的标记数据生成伪标记样本,可以丰富训练数据。对两个基准数据集的实验表明,我们的方法可以有效地提高中文名称识别的性能,特别是在训练数据不足时。
translated by 谷歌翻译
Joint extraction of entities and relations is an important task in information extraction. To tackle this problem, we firstly propose a novel tagging scheme that can convert the joint extraction task to a tagging problem. Then, based on our tagging scheme, we study different end-to-end models to extract entities and their relations directly, without identifying entities and relations separately. We conduct experiments on a public dataset produced by distant supervision method and the experimental results show that the tagging based methods are better than most of the existing pipelined and joint learning methods. What's more, the end-to-end model proposed in this paper, achieves the best results on the public dataset.
translated by 谷歌翻译
Named entity recognition is a challenging task that has traditionally required large amounts of knowledge in the form of feature engineering and lexicons to achieve high performance. In this paper, we present a novel neural network architecture that automatically detects word-and character-level features using a hybrid bidirectional LSTM and CNN architecture , eliminating the need for most feature engineering. We also propose a novel method of encoding partial lexicon matches in neu-ral networks and compare it to existing approaches. Extensive evaluation shows that, given only tokenized text and publicly available word embeddings, our system is competitive on the CoNLL-2003 dataset and surpasses the previously reported state of the art performance on the OntoNotes 5.0 dataset by 2.13 F1 points. By using two lexicons constructed from publicly-available sources, we establish new state of the art performance with an F1 score of 91.62 on CoNLL-2003 and 86.28 on OntoNotes, surpassing systems that employ heavy feature engineering, proprietary lexicons, and rich entity linking information.
translated by 谷歌翻译
在生物医学文献中,实体边界通常不与字边界对齐。因此,有效识别实体跨度需要能够考虑小于单词的标记的方法。我们引入了一种新颖的子字方法,用于命名实体识别(NER),它将字节对编码(BPE)与卷积和重复神经网络结合使用来产生字节实体的级别标签。我们提出了几个标准生物医学数据集的实验结果,即BioCreative VIBio-ID,JNLPBA和GENETAG数据集。我们展示了竞争性能,同时绕过了创建生物医学文本标记化规则所需的专业领域专业知识。
translated by 谷歌翻译
命名实体识别(NER)是识别命名实体的文本跨度的任务,并将它们分类为预定义的类别,例如人员,位置,组织等.NER用作各种自然语言应用的基础,例如问答,文本摘要。和机器翻译。虽然早期的NER系统能够成功地产生出色的识别精度,但它们在精心设计规则或特征时往往需要大量人力。近年来,通过非线性处理的连续实值向量表示和语义组合赋予的深度学习已经被用于NER系统,产生了最先进的性能。在本文中,我们对现有的NER深度学习技术进行了全面的回顾。我们首先介绍NER资源,包括标记的NER语料库和现成的NER工具。然后,基于沿三个轴的分类法对现有作品进行系统分类:输入,上下文编码器和标签解码器的分布式表示。接下来,我们调查了最新的NER问题设置和应用中最近应用的深度学习技术的最有代表性的方法。最后,我们向读者介绍了NER系统面临的挑战,并概述了该领域的未来发展方向。
translated by 谷歌翻译
用于联合实体识别和关系提取的最先进模型完全依赖于外部自然语言处理(NLP)工具,例如POS(词性)标记器和依赖性解析器。因此,这种联合模型的性能取决于从这些NLP工具获得的特征的质量。但是,对于各种语言和上下文,这些功能并不总是准确的。在本文中,我们提出了一种联合神经模型,它同时进行表现识别和关系提取,无需任何手动提取的特征或使用任何外部工具。具体地,我们使用CRF(条件随机场)层和关系提取任务将实体识别任务建模为多头选择问题(即,潜在地识别每个实体的多个关系)。我们提供了一个广泛的实验设置,以使用来自各种环境(即新闻,生物医学,房地产)和语言(即英语,荷兰语)的数据集来证明我们方法的有效性。我们的模型优于以前使用自动提取特征的神经模型,同时它在基于特征的神经模型的合理边缘内执行,甚至胜过它们。
translated by 谷歌翻译
We present an easy-to-use and fast toolkit, namely VnCoreNLP-a Java NLP annotation pipeline for Vietnamese. Our VnCoreNLP supports key natural language processing (NLP) tasks including word segmentation, part-of-speech (POS) tagging, named entity recognition (NER) and dependency parsing, and obtains state-of-the-art (SOTA) results for these tasks. We release VnCoreNLP to provide rich linguistic annotations to facilitate research work on Vietnamese NLP. Our VnCoreNLP is open-source and available at: https:// github.com/vncorenlp/VnCoreNLP.
translated by 谷歌翻译
传统观点认为手工制作的功能对于深度学习模型来说是多余的,因为他们已经从语料库中自学了足够的表达。在这项工作中,我们通过提出一种利用手工制作功能的新方法来测试这一主张,这种新方法是一种新颖的混合学习方法的一部分,其中包含一个功能自动编码器丢失组件。我们评估命名实体识别(NER)的任务,其中我们表明包括词性,字形和地名词典的手动特征可以改善神经CRF模型的性能。我们为CoNLL-2003英语共享任务获得了$ F_1 $ 91.89,该任务明显优于一系列竞争激烈的基线模型。我们还提供了一个消融研究,显示了自动编码的重要性,而不仅仅是使用输入或输出功能,而且,显示包括自动编码器组件将测量要求降低到60%,同时保持相同的预测精度。
translated by 谷歌翻译
Different languages contain complementary cues about entities, which can be used to improve Named Entity Recognition (NER) systems. We propose a method that formulates the problem of exploring such signals on unannotated bilingual text as a simple Integer Linear Program, which encourages entity tags to agree via bilingual constraints. Bilingual NER experiments on the large OntoNotes 4.0 Chinese-English corpus show that the proposed method can improve strong baselines for both Chinese and English. In particular, Chinese performance improves by over 5% absolute F 1 score. We can then annotate a large amount of bilingual text (80k sentence pairs) using our method, and add it as up-training data to the original monolingual NER training corpus. The Chinese model retrained on this new combined dataset outperforms the strong baseline by over 3% F 1 score.
translated by 谷歌翻译
大多数先前的研究将命名实体提取和分类视为端到端任务。我们认为应该分别解决这两个子任务。实体提取处于句法分析的层面,实体分类处于语义分析的层面。根据NoamChomsky的“Syntactic Structures”,第93-94页(Chomsky,1957),语法没有出现在语义上,语义也不会影响语法。我们分析了两个标记数据集的命名实体的特征,发现不常见的单词可以区分命名实体和普通文本;其中不常见的词是几乎不出现在普通文本中的词,而且它们主要是正确的名词。实验验证了词法和句法特征在实体提取方面实现了最先进的性能,并且语义特征在我们的模型和最先进的基线中都没有进一步提高提取性能。根据乔姆斯基的观点,我们还解释了其他作品中的句法语法和语义分析的失败。
translated by 谷歌翻译
In this paper, we propose an approach to automatically learning feature embeddings to address the feature sparseness problem for dependency parsing. Inspired by word embeddings, feature embeddings are distributed representations of features that are learned from large amounts of auto-parsed data. Our target is to learn feature embeddings that can not only make full use of well-established hand-designed features but also benefit from the hidden-class representations of features. Based on feature embeddings, we present a set of new features for graph-based dependency parsing models. Experiments on the standard Chinese and English data sets show that the new parser achieves significant performance improvements over a strong baseline.
translated by 谷歌翻译
开放关系提取(ORE)仍然是通过从非结构化文本中发现任意关系元组来获得语义表示的挑战。然而,也许由于数据有限,以前的提取器使用基于模式匹配的无监督或半监督方法,这些方法很大程度上取决于手工工作或语法分析器,并且是低效的错误级联。他们的发展遇到了瓶颈。虽然有些人最近尝试使用基于神经网络的模型来改进ORE任务性能,但是ORE基于各种神经架构生成监督系统总是难以处理的。我们分析和审查神经传递方法。此外,我们构建了一个大规模自动标记训练集,并设计了一个标记方案,将ORE作为一个监督序列标记任务。提出了一种混合神经序列标记模型(NST),它结合了BiSTM,CNN和CRF,通过使用单词和词性嵌入来捕获序列的上下文时间信息,局部空间信息和句子级标签信息。在多个数据集上的实验表明,我们的方法优于大多数现有的基于模式的方法和其他基于神经网络的模型。
translated by 谷歌翻译
词法分析被认为是迈向自然语言理解的关键步骤,并且已被广泛研究。近年来,具有递归神经网络的端到端病毒分析模型越来越受到关注。在本报告中,我们引入了一个深层的Bi-GRU-CRF网络,该网络共同模拟了分词,词性标注和命名实体识别任务。我们使用我们最好的中文词法分析工具预先标记的几个大型语料库,以及一个小而高质量的人类注释语料库来训练模型。我们在不同语料库之间进行了平衡采样,以保证人类注释的影响,并在训练过程中定期微调CRF解码层。正如linguisticexperts所评估的那样,该模型在测试集上达到了95.5%的准确率,相对于我们(之前)最好的中文词法分析曲目,相对误差降低了大约13%。该模型具有计算效率,通过一个线程实现每秒2.3K字符的速度。
translated by 谷歌翻译
Relation classification is an important research arena in the field of natural language processing (NLP). In this paper, we present SDP-LSTM, a novel neural network to classify the relation of two entities in a sentence. Our neural architecture leverages the shortest dependency path (SDP) between two entities; multichan-nel recurrent neural networks, with long short term memory (LSTM) units, pick up heterogeneous information along the SDP. Our proposed model has several distinct features: (1) The shortest dependency paths retain most relevant information (to relation classification), while eliminating irrelevant words in the sentence. (2) The multichannel LSTM networks allow effective information integration from heterogeneous sources over the dependency paths. (3) A customized dropout strategy regularizes the neural network to alleviate overfitting. We test our model on the SemEval 2010 relation classification task, and achieve an F 1-score of 83.7%, higher than competing methods in the literature.
translated by 谷歌翻译