表提取是一个重要但仍未解决的问题。在本文中,我们介绍了一种柔性和模块化的台式提取系统。我们开发了两个基于规则的算法,执行完整的表识别过程,包括表检测和分割,并支持最常见的表格格式。此外,为了纳入语义信息的提取,我们开发了一种基于图形的表解释方法。我们对挑战表识别基准ICDAR 2013和ICDAR 2019进行了广泛的实验,实现了与最先进的方法竞争的结果。我们完整的信息提取系统展出了0.7380的高F1得分。为了支持未来的信息提取研究,我们将来自我们的表解释实验,使资源(地面诠释,评估脚本,算法参数)公开可用。
translated by 谷歌翻译
我们介绍了一种名为RobustAbnet的新表检测和结构识别方法,以检测表的边界并从异质文档图像中重建每个表的细胞结构。为了进行表检测,我们建议将Cornernet用作新的区域建议网络来生成更高质量的表建议,以更快的R-CNN,这显着提高了更快的R-CNN的定位准确性以进行表检测。因此,我们的表检测方法仅使用轻巧的RESNET-18骨干网络,在三个公共表检测基准(即CTDAR TRACKA,PUBLAYNET和IIIT-AR-13K)上实现最新性能。此外,我们提出了一种新的基于分裂和合并的表结构识别方法,其中提出了一个新型的基于CNN的新空间CNN分离线预测模块将每个检测到的表分为单元格,并且基于网格CNN的CNN合并模块是应用用于恢复生成细胞。由于空间CNN模块可以有效地在整个表图像上传播上下文信息,因此我们的表结构识别器可以坚固地识别具有较大的空白空间和几何扭曲(甚至弯曲)表的表。得益于这两种技术,我们的表结构识别方法在包括SCITSR,PubTabnet和CTDAR TrackB2-Modern在内的三个公共基准上实现了最先进的性能。此外,我们进一步证明了我们方法在识别具有复杂结构,大空间以及几何扭曲甚至弯曲形状的表上的表格上的优势。
translated by 谷歌翻译
尽管将发票内容作为元数据存储以避免纸质文档处理可能是未来的趋势,但几乎所有每日发行的发票仍在纸上打印或以PDF等数字格式生成。在本文中,我们介绍了从扫描文档图像中提取信息的OCRMiner系统,该系统基于文本分析技术与布局功能结合使用(半)结构化文档的索引元数据。该系统旨在以人类读者使用的类似方式处理文档,即在协调决策中采用不同的布局和文本属性。该系统由一组互连模块组成,该模块以(可能是错误的)基于字符的输出从标准OCR系统开始,并允许应用不同的技术并在每个步骤中扩展提取的知识。使用开源OCR,该系统能够以90%的英语恢复发票数据,而捷克设置的发票数据为88%。
translated by 谷歌翻译
本文介绍了用于文档图像分析的图像数据集的系统文献综述,重点是历史文档,例如手写手稿和早期印刷品。寻找适当的数据集进行历史文档分析是促进使用不同机器学习算法进行研究的关键先决条件。但是,由于实际数据非常多(例如,脚本,任务,日期,支持系统和劣化量),数据和标签表示的不同格式以及不同的评估过程和基准,因此找到适当的数据集是一项艰巨的任务。这项工作填补了这一空白,并在现有数据集中介绍了元研究。经过系统的选择过程(根据PRISMA指南),我们选择了56项根据不同因素选择的研究,例如出版年份,文章中实施的方法数量,所选算法的可靠性,数据集大小和期刊的可靠性出口。我们通过将其分配给三个预定义的任务之一来总结每个研究:文档分类,布局结构或语义分析。我们为每个数据集提供统计,文档类型,语言,任务,输入视觉方面和地面真实信息。此外,我们还提供了这些论文或最近竞争的基准任务和结果。我们进一步讨论了该领域的差距和挑战。我们倡导将转换工具提供到通用格式(例如,用于计算机视觉任务的可可格式),并始终提供一组评估指标,而不仅仅是一种评估指标,以使整个研究的结果可比性。
translated by 谷歌翻译
表结构识别对于全面了解文档是必要的。由于布局的高度多样化,内容的变化和空细胞的存在,非结构化业务文档中的表格很难解析。由于使用视觉或语言环境或两者既是识别单个小区的挑战,问题是特别困难的。准确地检测表格单元(包括空单元)简化了结构提取,因此,它成为我们工作的主要重点。我们提出了一种新的基于对象检测的深层模型,可以捕获表中单元格的固有对齐,并进行微调以快速优化。尽管对细胞准确地检测,但识别致密表的结构仍可能具有挑战性,因为在存在多行/列跨越单元的存在下捕获远程行/列依赖性的困难。因此,我们还旨在通过推导新的直线图的基础制剂来改善结构识别。从语义角度来看,我们突出了桌子中空细胞的重要性。要考虑这些细胞,我们建议对流行的评估标准提升。最后,我们介绍了一个适度大小的评估数据集,其引人注目的风格灵感来自人类认知,以鼓励对问题的新方法进行启发。我们的框架在基准数据集中通过2.7%的平均F1分数提高了先前的最先进的性能。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
translated by 谷歌翻译
Furigana是日语写作中使用的发音笔记。能够检测到这些可以帮助提高光学特征识别(OCR)性能,或通过正确显示Furigana来制作日本书面媒体的更准确的数字副本。该项目的重点是在日本书籍和漫画中检测Furigana。尽管已经研究了日本文本的检测,但目前尚无提议检测Furigana的方法。我们构建了一个包含日本书面媒体和Furigana注释的新数据集。我们建议对此类数据的评估度量,该度量与对象检测中使用的评估协议类似,除非它允许对象组通过一个注释标记。我们提出了一种基于数学形态和连接组件分析的Furigana检测方法。我们评估数据集的检测,并比较文本提取的不同方法。我们还分别评估了不同类型的图像,例如书籍和漫画,并讨论每种图像的挑战。所提出的方法在数据集上达到76 \%的F1得分。该方法在常规书籍上表现良好,但在漫画和不规则格式的书籍上的表现较少。最后,我们证明所提出的方法可以在漫画109数据集上提高OCR的性能5 \%。源代码可通过\ texttt {\ url {https://github.com/nikolajkb/furiganadetection}}}
translated by 谷歌翻译
我们提出了一种新的表结构识别方法(TSR)方法,称为TSRFormer,以稳健地识别来自各种表图像的几何变形的复杂表的结构。与以前的方法不同,我们将表分离线预测作为线回归问题,而不是图像分割问题,并提出了一种新的两阶段基于基于DETR的分离器预测方法,称为\ textbf {sep} arator \ textbf {re} re} tr} ansformer(sepretr),直接预测与表图像的分离线。为了使两阶段的DETR框架有效地有效地在分离线预测任务上工作,我们提出了两个改进:1)一种先前增强的匹配策略,以解决慢速收敛问题的detr; 2)直接来自高分辨率卷积特征图的样本特征的新的交叉注意模块,以便以低计算成本实现高定位精度。在分离线预测之后,使用简单的基于关系网络的单元格合并模块来恢复跨越单元。借助这些新技术,我们的TSRFormer在包括SCITSR,PubTabnet和WTW在内的多个基准数据集上实现了最先进的性能。此外,我们已经验证了使用复杂的结构,无边界的单元,大空间,空的或跨越的单元格以及在更具挑战性的现实世界内部数据集中扭曲甚至弯曲的形状的桌子的鲁棒性。
translated by 谷歌翻译
本文讨论了如何通过通过预处理和后处理方法增强光学特征识别(OCR)发动机来成功数字化大规模的历史微数据。尽管由于机器学习的改善,近年来OCR软件已大大改善,但现成的OCR应用程序仍然显示高错误率,这限制了其应用程序以准确提取结构化信息。但是,补充OCR可以大大提高其成功率,使其成为经济史学家的强大且具有成本效益的工具。本文展示了这些方法,并解释了为什么它们有用。我们将它们应用于两个大型资产负债表数据集,并引入Quipucamayoc,Quipucamayoc是一个统一框架中包含这些方法的Python软件包。
translated by 谷歌翻译
在本文中,我们提出了Dexter,这是一个端到端系统,以从医疗保健文件中存在的表中提取信息,例如电子健康记录(EHR)和福利解释(EOB)。 Dexter由四个子系统阶段组成:i)表检测ii)表类型分类iii)细胞检测;和iv)细胞含量提取。我们建议使用CDEC-NET体系结构以及用于表检测的非最大程度抑制作用,提出一种基于两阶段的转移学习方法。我们根据图像大小来检测行和列设计一种常规的基于计算机视觉的方法,用于使用参数化内核进行表类型分类和单元格检测。最后,我们使用现有的OCR发动机Tessaract从检测到的单元中提取文本。为了评估我们的系统,我们手动注释了现实世界中医学数据集(称为Meddata)的样本,该样本由各种文档(在外观上)组成,涵盖了不同的表结构,例如,诸如边界,部分边框,无边界或无边界,或彩色桌子。我们在实验上表明,Dexter在注释的现实世界医学数据集上优于市售的Amazon swark和Microsoft Azure形式识别器系统
translated by 谷歌翻译
表被广泛用于几种类型的文档,因为它们可以以结构化的方式带来重要信息。在科学论文中,表可以概括新颖的发现并总结实验结果,从而使研究可以与学者相提并论。几种方法执行了在文档图像上使用的表分析,从PDF文件转换期间丢失了有用的信息,因为OCR工具可能容易出现识别错误,尤其是在表中的文本。这项工作的主要贡献是解决桌子提取问题,利用图形神经网络。节点特征富含适当设计的表示形式嵌入。这些表示形式不仅有助于更好地区分纸张的其他部分,还可以将表单元与桌子标题区分开。我们通过合并PublayNet和PubTables-1M数据集中提供的信息,在获得的新数据集上实验评估了所提出的方法。
translated by 谷歌翻译
表是存储数据的永远存在的结构。现在存在不同的方法来物理地存储表格数据。PDF,图像,电子表格和CSV是领先的例子。能够解析由这些结构界限的表结构和提取内容在许多应用中具有很高的重要性。在本文中,我们设计了Diallagarser,一个系统能够在天然PDF和具有高精度的扫描图像中解析表的系统。我们已经进行了广泛的实验,以展示领域适应在开发这种工具方面的功效。此外,我们创建了TableAnnotator和Excelannotator,构成了基于电子表格的弱监督机制和管道,以实现表解析。我们与研究界共享这些资源,以促进这种有趣方向的进一步研究。
translated by 谷歌翻译
文档AI或Document Intelligence是一个相对较新的研究主题,指的是自动阅读,理解和分析业务文档的技术。它是自然语言处理和计算机视觉的重要研究方向。近年来,深度学习技术的普及已经大大提高了文档AI的发展,如文件布局分析,视觉信息提取,文档视觉问题应答,文档图像分类等。本文简要评论了一些代表性模型,任务和基准数据集。此外,我们还介绍了早期的启发式规则的文档分析,统计机器学习算法,深度学习方法,尤其是预训练方法。最后,我们展望未来的Document AI研究方向。
translated by 谷歌翻译
档案馆,文本学者和历史学家经常生产历史文件的数字版本。使用MARKUP方案(如文本编码计划和EPIDoC)的标记方案,这些数字版本通常会记录文档的语义区域(如票据和数字)和物理特征(例如页面和换行符)以及转录其文本内容。我们描述了利用这种语义标记的方法,作为培训和评估布局分析模型的远程监督。在实验中,在Deutsches TextArchiv(DTA)的半百万页上有几百万页的模型架构中,我们发现这些区域级评估方法具有像素级和单词级度量的高相关。我们讨论了提高自我培训准确性的可能性,以及在DTA上培训的模型培训的能力概括到其他历史印刷书籍。
translated by 谷歌翻译
最近,已经取得了重大进展,将机器学习应用于表结构推理和从非结构化文件提取的问题。然而,一个最大的挑战之一仍然是在规模上创建数据集,以规模完整,明确的地面真理。要解决此问题,我们为表提取开发了一个新的更全面的数据集,称为Pubtables-1M。 Pubtables-1M包含来自科学文章的近100万表,支持多个输入方式,并包含表结构的详细标题和位置信息,使其可用于各种建模方法。它还通过新颖的规范化程序在先前数据集中观察到的,在先前数据集中观察到了一个重要的地面真理源代理。我们证明,这些改进导致培训表现的显着增加和对表结构识别评估时的模型性能更可靠的估计。此外,我们表明,基于转换器的对象检测模型培训 - 1M对检测,结构识别和功能分析的所有三个任务产生了优异的结果,而无需对这些任务的任何特殊定制。数据和代码将在https://github.com/microsoft/table-transformer发布。
translated by 谷歌翻译
分析文档的布局以识别标题,部分,表,数字等对理解其内容至关重要。基于深度学习的检测文档图像布局结构的方法一直很有前途。然而,这些方法在训练期间需要大量注释的例子,这既昂贵又耗时。我们在这里描述了一个合成文档生成器,它自动产生具有用于空间位置,范围和布局元素类别的标签的现实文档。所提出的生成过程将文档的每个物理组件视为随机变量,并使用贝叶斯网络图模拟其内在依赖项。我们使用随机模板的分层制定允许在保留广泛主题之间的文档之间的参数共享,并且分布特性产生视觉上独特的样本,从而捕获复杂和不同的布局。我们经常说明纯粹在合成文档上培训的深层布局检测模型可以匹配使用真实文档的模型的性能。
translated by 谷歌翻译
无约束的手写文本识别是一项具有挑战性的计算机视觉任务。传统上,它是通过两步方法来处理的,结合了线细分,然后是文本线识别。我们第一次为手写文档识别任务提出了无端到端的无分段体系结构:文档注意网络。除文本识别外,该模型还接受了使用类似XML的方式使用开始和结束标签标记文本零件的训练。该模型由用于特征提取的FCN编码器和用于复发令牌预测过程的变压器解码器层组成。它将整个文本文档作为输入和顺序输出字符以及逻辑布局令牌。与现有基于分割的方法相反,该模型是在不使用任何分割标签的情况下进行训练的。我们在页面级别的Read 2016数据集以及CER分别为3.43%和3.70%的双页级别上获得了竞争成果。我们还为Rimes 2009数据集提供了页面级别的结果,达到CER的4.54%。我们在https://github.com/factodeeplearning/dan上提供所有源代码和预训练的模型权重。
translated by 谷歌翻译
食品药物中的额外标签药物使用由美国动物药用药物使用澄清法(AMDUCA)授权,估计的戒断间隔基于已发表的科学药代动力学数据。偶尔会有一种缺乏基于戒断间隔或正在处理的大量动物的科学数据的缺乏,驱动需要测试药物残留物的需要。快速测定商业农场侧测试对于监测动物产品中的药物残留物来保护人类健康至关重要。已经在制造商的网站上报告了用于商业快速测定测试的活性成分,灵敏度,矩阵和物种,或者在消费者可用的PDF文件中,但可能需要特殊访问请求。此外,该信息并不总是与FDA批准的公差相关联。此外,这些测试的参数变化可能非常具有挑战性,以定期识别,特别是网站上列出的那些或未公开可用的文件。因此,人工智能在有效地提取数据并确保当前信息时发挥着关键作用。通过学术界和商业工具建设者研究了从PDF和HTML文件中提取表。在实施自然语言规划方面,这些文件的文本挖掘研究已成为一个广泛但挑战的竞技场。然而,提取表的技术仍在他们的初期,并由研究人员调查和改进。在本研究中,我们开发并评估了数据挖掘方法,用于自动从电子文档中提取快速测定数据。我们的自动电子数据提取方法包括软件包模块,开发的模式识别工具和数据挖掘发动机。测定细节由几个生产这些快速药物残留测定的商业实体提供
translated by 谷歌翻译
尽管自动图像分析的重要性不断增加,但最近的元研究揭示了有关算法验证的主要缺陷。性能指标对于使用的自动算法的有意义,客观和透明的性能评估和验证尤其是关键,但是在使用特定的指标进行给定的图像分析任务时,对实际陷阱的关注相对较少。这些通常与(1)无视固有的度量属性,例如在存在类不平衡或小目标结构的情况下的行为,(2)无视固有的数据集属性,例如测试的非独立性案例和(3)无视指标应反映的实际生物医学领域的兴趣。该动态文档的目的是说明图像分析领域通常应用的性能指标的重要局限性。在这种情况下,它重点介绍了可以用作图像级分类,语义分割,实例分割或对象检测任务的生物医学图像分析问题。当前版本是基于由全球60多家机构的国际图像分析专家进行的关于指标的Delphi流程。
translated by 谷歌翻译