在本文中,我们介绍了第一个链接冰岛语料库的实体。我们描述了使用多语言实体链接模型(MGENRE)与Wikipedia API搜索(WAPIS)结合使用的方法来标记我们的数据并将其与仅使用WAPIS进行比较。我们发现,我们的组合方法在我们的语料库上达到53.9%的覆盖范围,而仅使用WAPIS的覆盖率为30.9%。我们分析我们的结果并解释使用冰岛时使用多语言系统的价值。此外,我们分析了仍然没有标记的数据,识别模式并讨论为什么它们可能很难注释。
translated by 谷歌翻译
临床文本注释(CTN)包含医生的推理过程,以非结构化的自由文本格式编写,他们检查和采访患者。近年来,已经发表了几项研究,这些研究为机器学习的实用性提供了证据,以预测CTN的医生诊断,这是一项称为ICD编码的任务。数据注释很耗时,尤其是在需要一定程度的专业化时,就像医疗数据一样。本文提出了一种以半自我监督的方式增强冰岛CTN的稀疏注释数据集的方法。我们在一小部分带注释的CTN上训练神经网络,并使用它从一组未通畅的CTN中提取临床特征。这些临床特征包括对医生可能会在患者咨询期间找到答案的大约一千个潜在问题的答案。然后,这些功能用于训练分类器以诊断某些类型的疾病。我们报告了对医生的三个数据可用性评估该数据增强方法的评估结果。我们的数据增强方法显示出显着的积极作用,当检查患者和诊断的临床特征时,这会减少。我们建议使用基于不包括考试或测试的临床特征做出决策的系统增强稀缺数据集的方法。
translated by 谷歌翻译