自动言论(POS)标记是许多自然语言处理(NLP)任务的预处理步骤,例如名称实体识别(NER),语音处理,信息提取,单词sense sisse disampigation和Machine Translation。它已经在英语和欧洲语言方面取得了令人鼓舞的结果,但是使用印度语言,尤其是在Odia语言中,由于缺乏支持工具,资源和语言形态丰富性,因此尚未得到很好的探索。不幸的是,我们无法为ODIA找到一个开源POS标记,并且仅尝试为ODIA语言开发POS标记器的尝试。这项研究工作的主要贡献是介绍有条件的随机场(CRF)和基于深度学习的方法(CNN和双向长期短期记忆)来开发ODIA的语音部分。我们使用了一个公开访问的语料库,并用印度标准局(BIS)标签设定了数据集。但是,全球的大多数语言都使用了带有通用依赖项(UD)标签集注释的数据集。因此,要保持统一性,odia数据集应使用相同的标签集。因此,我们已经构建了一个从BIS标签集到UD标签集的简单映射。我们对CRF模型进行了各种特征集输入,观察到构造特征集的影响。基于深度学习的模型包括BI-LSTM网络,CNN网络,CRF层,角色序列信息和预训练的单词向量。通过使用卷积神经网络(CNN)和BI-LSTM网络提取角色序列信息。实施了神经序列标记模型的六种不同组合,并研究了其性能指标。已经观察到具有字符序列特征和预训练的单词矢量的BI-LSTM模型取得了显着的最新结果。
translated by 谷歌翻译