本文介绍了用于文档图像分析的图像数据集的系统文献综述,重点是历史文档,例如手写手稿和早期印刷品。寻找适当的数据集进行历史文档分析是促进使用不同机器学习算法进行研究的关键先决条件。但是,由于实际数据非常多(例如,脚本,任务,日期,支持系统和劣化量),数据和标签表示的不同格式以及不同的评估过程和基准,因此找到适当的数据集是一项艰巨的任务。这项工作填补了这一空白,并在现有数据集中介绍了元研究。经过系统的选择过程(根据PRISMA指南),我们选择了56项根据不同因素选择的研究,例如出版年份,文章中实施的方法数量,所选算法的可靠性,数据集大小和期刊的可靠性出口。我们通过将其分配给三个预定义的任务之一来总结每个研究:文档分类,布局结构或语义分析。我们为每个数据集提供统计,文档类型,语言,任务,输入视觉方面和地面真实信息。此外,我们还提供了这些论文或最近竞争的基准任务和结果。我们进一步讨论了该领域的差距和挑战。我们倡导将转换工具提供到通用格式(例如,用于计算机视觉任务的可可格式),并始终提供一组评估指标,而不仅仅是一种评估指标,以使整个研究的结果可比性。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
无约束的手写文本识别是一项具有挑战性的计算机视觉任务。传统上,它是通过两步方法来处理的,结合了线细分,然后是文本线识别。我们第一次为手写文档识别任务提出了无端到端的无分段体系结构:文档注意网络。除文本识别外,该模型还接受了使用类似XML的方式使用开始和结束标签标记文本零件的训练。该模型由用于特征提取的FCN编码器和用于复发令牌预测过程的变压器解码器层组成。它将整个文本文档作为输入和顺序输出字符以及逻辑布局令牌。与现有基于分割的方法相反,该模型是在不使用任何分割标签的情况下进行训练的。我们在页面级别的Read 2016数据集以及CER分别为3.43%和3.70%的双页级别上获得了竞争成果。我们还为Rimes 2009数据集提供了页面级别的结果,达到CER的4.54%。我们在https://github.com/factodeeplearning/dan上提供所有源代码和预训练的模型权重。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
translated by 谷歌翻译
档案馆,文本学者和历史学家经常生产历史文件的数字版本。使用MARKUP方案(如文本编码计划和EPIDoC)的标记方案,这些数字版本通常会记录文档的语义区域(如票据和数字)和物理特征(例如页面和换行符)以及转录其文本内容。我们描述了利用这种语义标记的方法,作为培训和评估布局分析模型的远程监督。在实验中,在Deutsches TextArchiv(DTA)的半百万页上有几百万页的模型架构中,我们发现这些区域级评估方法具有像素级和单词级度量的高相关。我们讨论了提高自我培训准确性的可能性,以及在DTA上培训的模型培训的能力概括到其他历史印刷书籍。
translated by 谷歌翻译
尽管将发票内容作为元数据存储以避免纸质文档处理可能是未来的趋势,但几乎所有每日发行的发票仍在纸上打印或以PDF等数字格式生成。在本文中,我们介绍了从扫描文档图像中提取信息的OCRMiner系统,该系统基于文本分析技术与布局功能结合使用(半)结构化文档的索引元数据。该系统旨在以人类读者使用的类似方式处理文档,即在协调决策中采用不同的布局和文本属性。该系统由一组互连模块组成,该模块以(可能是错误的)基于字符的输出从标准OCR系统开始,并允许应用不同的技术并在每个步骤中扩展提取的知识。使用开源OCR,该系统能够以90%的英语恢复发票数据,而捷克设置的发票数据为88%。
translated by 谷歌翻译
无约束的手写文本识别仍然具有挑战性的计算机视觉系统。段落识别传统上由两个模型实现:第一个用于线分割和用于文本线路识别的第二个。我们提出了一个统一的端到端模型,使用混合注意力来解决这项任务。该模型旨在迭代地通过线路进行段落图像线。它可以分为三个模块。编码器从整个段落图像生成特征映射。然后,注意力模块循环生成垂直加权掩模,使能专注于当前的文本线特征。这样,它执行一种隐式线分割。对于每个文本线特征,解码器模块识别关联的字符序列,导致整个段落的识别。我们在三个流行的数据集赛中达到最先进的字符错误率:ribs的1.91%,IAM 4.45%,读取2016年3.59%。我们的代码和培训的模型重量可在HTTPS:// GitHub上获得.com / fefodeeplearning / watermentattentocroc。
translated by 谷歌翻译
手写文本识别(HTR)是计算机视觉和自然语言处理的交集的一个开放问题。当处理历史手稿时,主要挑战是由于保存纸张支撑,手写的可变性 - 甚至在广泛的时间内的同一作者的变异性 - 以及来自古代,代表不良的数据稀缺语言。为了促进有关该主题的研究,在本文中,我们介绍了Ludovico Antonio Muratori(LAM)数据集,这是一家大型线条级的HTR HTR数据集,该数据集是由单个作者编辑的60年来编辑的意大利古代手稿。该数据集有两种配置:基本分裂和基于日期的分裂,该分裂考虑了作者的年龄。第一个设置旨在研究意大利语的古代文档中的HTR,而第二个设置则侧重于HTR系统在无法获得培训数据的时期内识别同一作者编写的文本的能力。对于这两种配置,我们都在其他线路级别的HTR基准方面分析了定量和定性特征,并介绍了最先进的HTR架构的识别性能。该数据集可在\ url {https://aimagelab.ing.unimore.it/go/lam}下载。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
Furigana是日语写作中使用的发音笔记。能够检测到这些可以帮助提高光学特征识别(OCR)性能,或通过正确显示Furigana来制作日本书面媒体的更准确的数字副本。该项目的重点是在日本书籍和漫画中检测Furigana。尽管已经研究了日本文本的检测,但目前尚无提议检测Furigana的方法。我们构建了一个包含日本书面媒体和Furigana注释的新数据集。我们建议对此类数据的评估度量,该度量与对象检测中使用的评估协议类似,除非它允许对象组通过一个注释标记。我们提出了一种基于数学形态和连接组件分析的Furigana检测方法。我们评估数据集的检测,并比较文本提取的不同方法。我们还分别评估了不同类型的图像,例如书籍和漫画,并讨论每种图像的挑战。所提出的方法在数据集上达到76 \%的F1得分。该方法在常规书籍上表现良好,但在漫画和不规则格式的书籍上的表现较少。最后,我们证明所提出的方法可以在漫画109数据集上提高OCR的性能5 \%。源代码可通过\ texttt {\ url {https://github.com/nikolajkb/furiganadetection}}}
translated by 谷歌翻译
我们介绍了Dessurt,这是一个相对简单的文档理解变压器,能够在各种文档任务上进行微调,而不是先前的方法。它接收文档映像和任务字符串作为输入,并作为输出以任意文本自动添加。由于Dessurt是端到端体系结构,除了文档理解外,还可以执行文本识别,因此它不需要像先前方法那样需要外部识别模型。Dessurt比先前的方法更灵活,并且能够处理各种文档域和任务。我们表明,该模型可在9种不同的数据集任务组合中有效。
translated by 谷歌翻译
分析文档的布局以识别标题,部分,表,数字等对理解其内容至关重要。基于深度学习的检测文档图像布局结构的方法一直很有前途。然而,这些方法在训练期间需要大量注释的例子,这既昂贵又耗时。我们在这里描述了一个合成文档生成器,它自动产生具有用于空间位置,范围和布局元素类别的标签的现实文档。所提出的生成过程将文档的每个物理组件视为随机变量,并使用贝叶斯网络图模拟其内在依赖项。我们使用随机模板的分层制定允许在保留广泛主题之间的文档之间的参数共享,并且分布特性产生视觉上独特的样本,从而捕获复杂和不同的布局。我们经常说明纯粹在合成文档上培训的深层布局检测模型可以匹配使用真实文档的模型的性能。
translated by 谷歌翻译
我们介绍了两个数据增强技术,它与Reset-Bilstm-CTC网络一起使用,显着降低了在手写文本识别(HTR)任务上的最佳报告结果之外的字错误率(WER)和字符错误率(CER)。我们应用了一种基于打印文本(StackMix)的删除文本(手写污染)和手写文本生成方法的新型增强,这被证明在HTR任务中非常有效。StackMix使用弱监督框架来获得字符边界。因为这些数据增强技术与所使用的网络无关,所以也可以应用于增强其他网络的性能和HTR的方法。十个手写文本数据集的广泛实验表明,手写墨水增强和StackMix显着提高了HTR模型的质量
translated by 谷歌翻译
文档AI或Document Intelligence是一个相对较新的研究主题,指的是自动阅读,理解和分析业务文档的技术。它是自然语言处理和计算机视觉的重要研究方向。近年来,深度学习技术的普及已经大大提高了文档AI的发展,如文件布局分析,视觉信息提取,文档视觉问题应答,文档图像分类等。本文简要评论了一些代表性模型,任务和基准数据集。此外,我们还介绍了早期的启发式规则的文档分析,统计机器学习算法,深度学习方法,尤其是预训练方法。最后,我们展望未来的Document AI研究方向。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
我们介绍了一种名为RobustAbnet的新表检测和结构识别方法,以检测表的边界并从异质文档图像中重建每个表的细胞结构。为了进行表检测,我们建议将Cornernet用作新的区域建议网络来生成更高质量的表建议,以更快的R-CNN,这显着提高了更快的R-CNN的定位准确性以进行表检测。因此,我们的表检测方法仅使用轻巧的RESNET-18骨干网络,在三个公共表检测基准(即CTDAR TRACKA,PUBLAYNET和IIIT-AR-13K)上实现最新性能。此外,我们提出了一种新的基于分裂和合并的表结构识别方法,其中提出了一个新型的基于CNN的新空间CNN分离线预测模块将每个检测到的表分为单元格,并且基于网格CNN的CNN合并模块是应用用于恢复生成细胞。由于空间CNN模块可以有效地在整个表图像上传播上下文信息,因此我们的表结构识别器可以坚固地识别具有较大的空白空间和几何扭曲(甚至弯曲)表的表。得益于这两种技术,我们的表结构识别方法在包括SCITSR,PubTabnet和CTDAR TrackB2-Modern在内的三个公共基准上实现了最先进的性能。此外,我们进一步证明了我们方法在识别具有复杂结构,大空间以及几何扭曲甚至弯曲形状的表上的表格上的优势。
translated by 谷歌翻译
This study focuses on improving the optical character recognition (OCR) data for panels in the COMICS dataset, the largest dataset containing text and images from comic books. To do this, we developed a pipeline for OCR processing and labeling of comic books and created the first text detection and recognition datasets for western comics, called "COMICS Text+: Detection" and "COMICS Text+: Recognition". We evaluated the performance of state-of-the-art text detection and recognition models on these datasets and found significant improvement in word accuracy and normalized edit distance compared to the text in COMICS. We also created a new dataset called "COMICS Text+", which contains the extracted text from the textboxes in the COMICS dataset. Using the improved text data of COMICS Text+ in the comics processing model from resulted in state-of-the-art performance on cloze-style tasks without changing the model architecture. The COMICS Text+ dataset can be a valuable resource for researchers working on tasks including text detection, recognition, and high-level processing of comics, such as narrative understanding, character relations, and story generation. All the data and inference instructions can be accessed in https://github.com/gsoykan/comics_text_plus.
translated by 谷歌翻译
如今,元数据信息通常由提交后由作者自己提供。然而,已经存在的研究论文的重要部分缺失或不完整的元数据信息。德国科学论文有很大种类的布局,使得元数据提取一个非琐碎的任务,这需要一个精确的方法来对文档中提取的元数据进行分类。在本文中,我们提出了德语科学论文的元数据提取多模式深度学习方法。通过组合自然语言处理和图像视觉处理,我们考虑多种类型的输入数据。与其他最先进的方法相比,该模型旨在提高元数据提取的整体准确性。它能够利用空间和上下文特征,以实现更可靠的提取。我们的这种方法的模型受到约会,包括大约8800个文件的数据集,并且能够获得0.923的总体F1分数。
translated by 谷歌翻译
机器学习方法实现文本识别的高精度,因此越来越多地用于手写历史来源的转录。然而,在生产中使用机器学习需要简化的端到端管道,该流程将扩展到数据集大小和模型,该模型具有几个手动转录的高精度。还必须验证模型结果的正确性。本文介绍了我们的经验教训,从挪威1950年人口普查中译码了开发,调整和使用互联端到端机器学习管道。我们为自动转录的代码达到97%的准确性,我们向3%的码发送了手动验证。我们核实我们的结果中发现的职业码分布与我们的培训数据中发现的分布相匹配,这应该是整个人口普查的代表。我们相信我们的方法和经验教训可能对计划在生产中使用机器学习的其他转录项目有用。源代码可用于:https://github.com/uit-hdl/rhd-codes
translated by 谷歌翻译
布局分析(LA)阶段对光学音乐识别(OMR)系统的正确性能至关重要。它标识了感兴趣的区域,例如Staves或歌词,然后必须处理,以便转录它们的内容。尽管存在基于深度学习的现代方法,但在不同模型的精度,它们对不同领域的概括或更重要的是,它们尚未开展对OMR的详尽研究,或者更重要的是,它们对后续阶段的影响管道。这项工作侧重于通过对不同神经结构,音乐文档类型和评估方案的实验研究填补文献中的这种差距。培训数据的需求也导致了一种新的半合成数据生成技术的提议,这使得LA方法在真实情况下能够有效适用性。我们的结果表明:(i)该模型的选择及其性能对于整个转录过程至关重要; (ii)(ii)常用于评估LA阶段的指标并不总是与OMR系统的最终性能相关,并且(iii)所提出的数据生成技术使最先进的结果能够以有限的限制实现标记数据集。
translated by 谷歌翻译