在手写文件中指定实体执行的相关信息的提取仍然是一个具有挑战性的任务。与通常将文本转录和命名实体识别的传统信息提取方法与单独的后续任务不同,我们提出了基于端到端的变换器的方法,共同执行这两个任务。拟议的方法在段落水平上运作,带来了两个主要福利。首先,它允许模型避免由于线分割而无法恢复的早期误差。其次,它允许模型利用更大的双维上下文信息来识别语义类别,达到更高的最终预测精度。我们还探讨了不同的培训方案,以表明他们对性能的影响,我们证明了两级学习策略可以使模型达到更高的最终预测精度。据我们所知,这项工作提出了一种采用传感器网络,用于在手写文档中指定实体识别的变压器网络。我们在ICDAR 2017信息提取竞争中实现了新的最先进的性能,即使建议的技术不使用任何词典,语言建模或后处理,即使完整的任务也可以实现新的最先进的表现。
translated by 谷歌翻译