本文介绍了称为“文本历史工具”的数字工具的其他方面。我们描述了其各种突出特征,特别参考其特征,可能有助于理智学家在文本上数字化评论和子评论。该工具通过各种时间级捕获文本的历史演进,以及从各种类型的相关文本中剔除的相互关联数据。我们使用k \ = a \'sik \ = avrtti(kv)的文本作为示例文本,并且在照相专家的帮助下,我们将评论数字化为我们提供的评论。我们将NY \ = ASA(NY)数字化,Padama \〜njar \ = i(PM)和子注释称为Tantraprad \ = IPA(TP)和Makaranda(MK)。我们将每次评论和子评论划分为功能单位,并描述了功能单元划分背后的方法和动机。基于使用在工具中输入的数据的距离方法,我们的功能单元部门有助于为文本生成更准确的系统发育树。
translated by 谷歌翻译
自动检测同源有助于机器翻译的下游NLP任务,交叉语言信息检索,计算系统发育和交叉命名实体识别。先前的同源检测任务方法使用正射,语音和语义相似度的特征集。在本文中,我们提出了一种富集特征集的新方法,从人类读者的凝视行为中提取了认知功能。我们收集凝视行为数据,了解一个同源的小样本,并表明提取的认知功能有助于证实检测的任务。但是,凝视数据收集和注释是一个昂贵的任务。我们使用收集的凝视行为数据来预测更大样本的认知功能,并显示预测的认知功能,也显着提高了任务性能。通过先前提出的方法,我们报告了收集的凝视特征的10%,12%使用预测的凝视特征。此外,我们与我们的代码和交叉语言模型一起释放收集的凝视行为数据。
translated by 谷歌翻译