表格是一种广泛类型的基于模板的文档,用于各种各样的领域,包括,等等,管理,医学,金融或保险。由于日常生成的形式增加,这些文件中包括的信息的自动提取大大要求。然而,由于具有不同形式实体位置的模板的巨大分集以及扫描文档的质量,因此在使用扫描形式时,这不是一项直接的任务,以及扫描文档的质量。在此上下文中,存在一个功能由所有形式共享:它们包含作为键值(或标签值)对构建的互连实体的集合以及其他实体,例如标题或图像。在这项工作中,我们通过基于BERT架构组合图像处理技术和文本分类模型来了解以形式的实体链接问题。这种方法实现了最先进的结果,在Funsd DataSet上的F1分数为0.80,关于最佳方法的提高5%。此项目的代码可在https://github.com/mavillot/funsd-entity-linking中获得。
translated by 谷歌翻译