本文描述了针对机器翻译(MT),实体发现和链接(EDL)以及文本和语音中的情景帧(SF文本和语音)的检测的低资源人类语言技术(LoReHLT)2018评估的ARIEL-CMU提交。
translated by 谷歌翻译
在本文中,我们提出了一种能够识别重叠提及的新模型。我们引入一种新颖的提及分隔符的概念,可以有效地用于捕捉提及彼此之间的重叠。在我们介绍的新的多图表示的基础上,我们表明仍然可以执行高效和精确的推理。我们对我们的模型与最近提出的用于识别重叠提及的模型之间的差异进行了一些理论分析,并讨论了差异的可能影响。通过对标准数据集的广泛实证分析,我们证明了我们的方法的有效性。
translated by 谷歌翻译
本文侧重于识别不连续实体的研究。通过以前的工作,我们建议使用一种新颖的超图表示来联合编码无限长度的不连续实体,这些实体可以相互重叠。为了与现有方法进行比较,我们首先正式引入模型模糊度的概念,该模型模糊度定义了解释模型输出的难度水平,然后正式分析了我们模型相对于以前基于线性链CRF的现有方法的理论优势。我们的实证结果还表明,当使用许多不连续的实体评估标准数据时,我们的模型能够获得明显更好的结果。
translated by 谷歌翻译
本文介绍了一种基于现有非正式文本语料库的新注释语料库:NUS SMS Corpus(Chen and Kan,2013)。新的语料库包括来自26,500条SMS消息的76,490个名词短语,由大学生注释。然后我们探索了几个图形模型,包括用于名词短语分块任务的这些mi-Markov条件随机场(半CRF)的新变体。我们通过对新数据集的经验评估证明,与传统的半CRF相比,新变体产生了相似的精度,但运行时间明显更短。
translated by 谷歌翻译
命名实体识别(NER)专注于从文本中提取具有语义意义的命名实体及其语义类,它是几个下游自然语言处理(NLP)任务(如关系提取和事件提取)不可或缺的组成部分。依赖树,另一方面,也传达了关键的语义层面信息。之前已经证明,这些信息可用于提高NER的性能(Sasano和Kurohashi 2008,Ling和Weld 2012)。在这项工作中,我们研究如何更好地利用依赖树传达的结构信息来改善性能。 NER。具体而言,与仅利用依赖信息来设计局部特征的现有方法不同,我们表明,当构建这样的信息可以提供引导式学习和推理的模型时,可以利用依赖树的某些全局结构化信息。通过大量实验,我们证明了我们的提出的新型依赖性引导NER模型与基于传统半马尔可夫条件随机场的模型竞争性地进行,同时要求显着减少运行时间。
translated by 谷歌翻译