智能论文笔记

Part-of-Speech Tagging of Odia Language Using statistical and Deep Learning-Based Approaches

Tusarkanta Dalai , Tapas Kumar Mishra , Pankaj K Sa

分类：自然语言处理

2022-07-07

自动言论（POS）标记是许多自然语言处理（NLP）任务的预处理步骤，例如名称实体识别（NER），语音处理，信息提取，单词sense sisse disampigation和Machine Translation。它已经在英语和欧洲语言方面取得了令人鼓舞的结果，但是使用印度语言，尤其是在Odia语言中，由于缺乏支持工具，资源和语言形态丰富性，因此尚未得到很好的探索。不幸的是，我们无法为ODIA找到一个开源POS标记，并且仅尝试为ODIA语言开发POS标记器的尝试。这项研究工作的主要贡献是介绍有条件的随机场（CRF）和基于深度学习的方法（CNN和双向长期短期记忆）来开发ODIA的语音部分。我们使用了一个公开访问的语料库，并用印度标准局（BIS）标签设定了数据集。但是，全球的大多数语言都使用了带有通用依赖项（UD）标签集注释的数据集。因此，要保持统一性，odia数据集应使用相同的标签集。因此，我们已经构建了一个从BIS标签集到UD标签集的简单映射。我们对CRF模型进行了各种特征集输入，观察到构造特征集的影响。基于深度学习的模型包括BI-LSTM网络，CNN网络，CRF层，角色序列信息和预训练的单词向量。通过使用卷积神经网络（CNN）和BI-LSTM网络提取角色序列信息。实施了神经序列标记模型的六种不同组合，并研究了其性能指标。已经观察到具有字符序列特征和预训练的单词矢量的BI-LSTM模型取得了显着的最新结果。

translated by 谷歌翻译