自由图页中的手写文本识别(HTR)是一项艰巨的图像理解任务,可以为手写文档的数字化和重复使用其内容提供相关的增强。由于写作风格的变化和页面质量降解的变化,该任务在处理历史文档时变得更加具有挑战性。最先进的HTR方法通常将序列建模的复发结构与卷积神经网络进行视觉特征提取。由于卷积内核是在固定网格上定义的,并专注于所有输入像素时在输入映像时独立地独立于所有输入像素,因此该策略无视手写字符在形状,比例和规模和方向上,即使在同一文档中,并且墨水像素为比背景更相关。为了应对这些特定的HTR困难,我们建议采用可变形的卷积,这可能会根据手头的输入而变形,并更好地适应文本的几何变化。我们设计了两个可变形的架构,并在现代和历史数据集上进行了广泛的实验。实验结果证实了可变形卷积对HTR任务的适用性。
translated by 谷歌翻译
手写文本识别(HTR)是计算机视觉和自然语言处理的交集的一个开放问题。当处理历史手稿时,主要挑战是由于保存纸张支撑,手写的可变性 - 甚至在广泛的时间内的同一作者的变异性 - 以及来自古代,代表不良的数据稀缺语言。为了促进有关该主题的研究,在本文中,我们介绍了Ludovico Antonio Muratori(LAM)数据集,这是一家大型线条级的HTR HTR数据集,该数据集是由单个作者编辑的60年来编辑的意大利古代手稿。该数据集有两种配置:基本分裂和基于日期的分裂,该分裂考虑了作者的年龄。第一个设置旨在研究意大利语的古代文档中的HTR,而第二个设置则侧重于HTR系统在无法获得培训数据的时期内识别同一作者编写的文本的能力。对于这两种配置,我们都在其他线路级别的HTR基准方面分析了定量和定性特征,并介绍了最先进的HTR架构的识别性能。该数据集可在\ url {https://aimagelab.ing.unimore.it/go/lam}下载。
translated by 谷歌翻译
无约束的手写文本识别仍然具有挑战性的计算机视觉系统。段落识别传统上由两个模型实现:第一个用于线分割和用于文本线路识别的第二个。我们提出了一个统一的端到端模型,使用混合注意力来解决这项任务。该模型旨在迭代地通过线路进行段落图像线。它可以分为三个模块。编码器从整个段落图像生成特征映射。然后,注意力模块循环生成垂直加权掩模,使能专注于当前的文本线特征。这样,它执行一种隐式线分割。对于每个文本线特征,解码器模块识别关联的字符序列,导致整个段落的识别。我们在三个流行的数据集赛中达到最先进的字符错误率:ribs的1.91%,IAM 4.45%,读取2016年3.59%。我们的代码和培训的模型重量可在HTTPS:// GitHub上获得.com / fefodeeplearning / watermentattentocroc。
translated by 谷歌翻译
深度卷积神经网络(CNN)最近已达到最先进的手写文本识别(HTR)性能。但是,最近的研究表明,典型的CNN的学习性能是有限的,因为它们是具有简单(线性)神经元模型的同质网络。由于它们的异质网络结构结合了非线性神经元,最近提出了操作神经网络(ONNS)来解决这一缺点。自我结合是具有生成神经元模型的ONN的自组织变化,可以使用泰勒近似来生成任何非线性函数。在这项研究中,为了提高HTR的最新性能水平,提出了新型网络模型核心中的2D自组织(自我强调)。此外,本研究中使用了可变形的卷积,最近被证明可以更好地解决写作风格的变化。 IAM英语数据集和Hadara80p阿拉伯数据集中的结果表明,具有自我影响的操作层的拟议模型显着提高了字符错误率(CER)和单词错误率(WER)。与同行CNN相比,Hadara80p中的自我强调将CER和3.4%降低,在IAM数据集中,自我强调将CER降低1.2%和3.4%,为0.199%和1.244%。基准IAM上的结果表明,与自相互紧缩的操作层的拟议模型通过显着的边缘优于最近的深CNN模型,而使用具有可变形卷积的自我冲突表明了出色的结果。
translated by 谷歌翻译
手写的文本识别问题是由计算机视觉社区的研究人员广泛研究的,因为它的改进和适用于日常生活的范围,它是模式识别的子域。自从过去几十年以来,基于神经网络的系统的计算能力提高了计算能力,因此有助于提供最新的手写文本识别器。在同一方向上,我们采用了两个最先进的神经网络系统,并将注意力机制合并在一起。注意技术已被广泛用于神经机器翻译和自动语音识别的领域,现在正在文本识别域中实现。在这项研究中,我们能够在IAM数据集上达到4.15%的字符错误率和9.72%的单词错误率,7.07%的字符错误率和GW数据集的16.14%单词错误率与现有的Flor合并后,GW数据集的单词错误率等。建筑学。为了进一步分析,我们还使用了类似于Shi等人的系统。具有贪婪解码器的神经网络系统,观察到基本模型的字符错误率提高了23.27%。
translated by 谷歌翻译
草书手写文本识别是模式识别领域中一个具有挑战性的研究问题。当前的最新方法包括基于卷积复发性神经网络和多维长期记忆复发性神经网络技术的模型。这些方法在高度计算上是广泛的模型,在设计级别上也很复杂。在最近的研究中,与基于卷积的复发性神经网络相比,基于卷积神经网络和票面卷积神经网络模型的组合显示出较少的参数。在减少要训练的参数总数的方向上,在这项工作中,我们使用了深度卷积代替标准卷积,结合了封闭式跨跨跨性神经网络和双向封闭式复发单元来减少参数总数接受训练。此外,我们还在测试步骤中包括了基于词典的单词梁搜索解码器。它还有助于提高模型的整体准确性。我们在IAM数据集上获得了3.84%的字符错误率和9.40%的单词错误率;乔治·华盛顿数据集的字符错误率和14.56%的字符错误率和14.56%的单词错误率。
translated by 谷歌翻译
无约束的手写文本识别是一项具有挑战性的计算机视觉任务。传统上,它是通过两步方法来处理的,结合了线细分,然后是文本线识别。我们第一次为手写文档识别任务提出了无端到端的无分段体系结构:文档注意网络。除文本识别外,该模型还接受了使用类似XML的方式使用开始和结束标签标记文本零件的训练。该模型由用于特征提取的FCN编码器和用于复发令牌预测过程的变压器解码器层组成。它将整个文本文档作为输入和顺序输出字符以及逻辑布局令牌。与现有基于分割的方法相反,该模型是在不使用任何分割标签的情况下进行训练的。我们在页面级别的Read 2016数据集以及CER分别为3.43%和3.70%的双页级别上获得了竞争成果。我们还为Rimes 2009数据集提供了页面级别的结果,达到CER的4.54%。我们在https://github.com/factodeeplearning/dan上提供所有源代码和预训练的模型权重。
translated by 谷歌翻译
使用深度学习的图像的手写词识别是一个有希望性能的活跃研究区域。IT实际情况,由于安全原因,可能需要在压缩域中处理手写图像。然而,对于压缩图像的处理仍然非常有限的深度学习的利用。通过在深度学习中的最新进展中,在压缩域中处理文档图像的需要,我们提出了一个HWRCNET模型,用于JPEG压缩域中的手写字识别。所提出的模型结合了基于卷积神经网络(CNN)和双向长短期存储器(BILSTM)的经常性神经网络(RNN)。基本上,我们使用压缩域图像训练模型,并遵守89.05%字识别精度和13.37%的字符错误率非常有吸引力的性能。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
这项工作提出了一个基于注意力的序列到序列模型,用于手写单词识别,并探讨了用于HTR系统数据有效培训的转移学习。为了克服培训数据稀缺性,这项工作利用了在场景文本图像上预先训练的模型,作为调整手写识别模型的起点。Resnet特征提取和基于双向LSTM的序列建模阶段一起形成编码器。预测阶段由解码器和基于内容的注意机制组成。拟议的端到端HTR系统的有效性已在新型的多作用数据集IMGUR5K和IAM数据集上进行了经验评估。实验结果评估了HTR框架的性能,并通过对误差案例的深入分析进一步支持。源代码和预培训模型可在https://github.com/dmitrijsk/attentionhtr上找到。
translated by 谷歌翻译
Handwritten Text Recognition (HTR) is more interesting and challenging than printed text due to uneven variations in the handwriting style of the writers, content, and time. HTR becomes more challenging for the Indic languages because of (i) multiple characters combined to form conjuncts which increase the number of characters of respective languages, and (ii) near to 100 unique basic Unicode characters in each Indic script. Recently, many recognition methods based on the encoder-decoder framework have been proposed to handle such problems. They still face many challenges, such as image blur and incomplete characters due to varying writing styles and ink density. We argue that most encoder-decoder methods are based on local visual features without explicit global semantic information. In this work, we enhance the performance of Indic handwritten text recognizers using global semantic information. We use a semantic module in an encoder-decoder framework for extracting global semantic information to recognize the Indic handwritten texts. The semantic information is used in both the encoder for supervision and the decoder for initialization. The semantic information is predicted from the word embedding of a pre-trained language model. Extensive experiments demonstrate that the proposed framework achieves state-of-the-art results on handwritten texts of ten Indic languages.
translated by 谷歌翻译
连接视觉和语言在生成智能中起着重要作用。因此,已经致力于图像标题的大型研究工作,即用句法和语义有意义的句子描述图像。从2015年开始,该任务通常通过由Visual Encoder组成的管道和文本生成的语言模型来解决任务。在这些年来,两种组件通过对象区域,属性,介绍多模态连接,完全关注方法和伯特早期融合策略的利用而显着发展。但是,无论令人印象深刻的结果,图像标题的研究还没有达到结论性答案。这项工作旨在提供图像标题方法的全面概述,从视觉编码和文本生成到培训策略,数据集和评估度量。在这方面,我们量化地比较了许多相关的最先进的方法来确定架构和培训策略中最有影响力的技术创新。此外,讨论了问题的许多变体及其开放挑战。这项工作的最终目标是作为理解现有文献的工具,并突出显示计算机视觉和自然语言处理的研究领域的未来方向可以找到最佳的协同作用。
translated by 谷歌翻译
功能提取器在文本识别(TR)中起着至关重要的作用,但是由于昂贵的手动调整,自定义其体系结构的探索相对较少。在这项工作中,受神经体系结构搜索(NAS)的成功启发,我们建议搜索合适的功能提取器。我们通过探索具有良好功能提取器的原理来设计特定于域的搜索空间。该空间包括用于空间模型的3D结构空间和顺序模型的基于转换的空间。由于该空间是巨大且结构复杂的,因此无法应用现有的NAS算法。我们提出了一种两阶段算法,以有效地在空间中进行搜索。在第一阶段,我们将空间切成几个块,并借助辅助头逐步训练每个块。我们将延迟约束引入第二阶段,并通过自然梯度下降从受过训练的超级网络搜索子网络。在实验中,进行了一系列消融研究,以更好地了解设计的空间,搜索算法和搜索架构。我们还将所提出的方法与手写和场景TR任务上的各种最新方法进行了比较。广泛的结果表明,我们的方法可以以较小的延迟获得更好的识别性能。
translated by 谷歌翻译
本文介绍了用于文档图像分析的图像数据集的系统文献综述,重点是历史文档,例如手写手稿和早期印刷品。寻找适当的数据集进行历史文档分析是促进使用不同机器学习算法进行研究的关键先决条件。但是,由于实际数据非常多(例如,脚本,任务,日期,支持系统和劣化量),数据和标签表示的不同格式以及不同的评估过程和基准,因此找到适当的数据集是一项艰巨的任务。这项工作填补了这一空白,并在现有数据集中介绍了元研究。经过系统的选择过程(根据PRISMA指南),我们选择了56项根据不同因素选择的研究,例如出版年份,文章中实施的方法数量,所选算法的可靠性,数据集大小和期刊的可靠性出口。我们通过将其分配给三个预定义的任务之一来总结每个研究:文档分类,布局结构或语义分析。我们为每个数据集提供统计,文档类型,语言,任务,输入视觉方面和地面真实信息。此外,我们还提供了这些论文或最近竞争的基准任务和结果。我们进一步讨论了该领域的差距和挑战。我们倡导将转换工具提供到通用格式(例如,用于计算机视觉任务的可可格式),并始终提供一组评估指标,而不仅仅是一种评估指标,以使整个研究的结果可比性。
translated by 谷歌翻译
我们提出了一种自我监督的预培训方法,用于学习手写和印刷历史文档转录的丰富视觉语言表示。监督我们预先调整我们预先培训的编码器表示两种语言的低资源文件转录后,(1)异构手写伊斯兰制稿件图像和(2)早期现代英语印刷文件,我们展现了有意义的认可改善从划痕培训的同一监督模型的准确性,只需30个线图像转录即可训练。我们屏蔽的语言模型式预培训策略,其中模型训练,以便能够识别从同一行中采样的患者的真正蒙面的视觉表示,鼓励学习强大的上下文化语言表示不变于抄写方式和打印噪声横跨文件。
translated by 谷歌翻译
利用卷积层的特征,神经网络对于模式识别任务非常有效。然而,在某些情况下,他们的决定基于意外信息,导致标准基准的高性能,而且还缺乏挑战测试条件和不行性失败的普遍性。最近的工作已被称为“快捷方式学习”并解决了它在多个域中的存在。在文本识别中,我们揭示了另一个这样的快捷方式,从而识别员依赖于本地图像统计信息。由此激励,我们建议一种方法来规范依赖于局限性统计的依赖,提高文本识别性能。我们称为TextAdain的方法在特征映射中创建了本地扭曲,这阻止网络从局部统计到局部统计。它通过将每个特征映射视为一个元素序列,并且故意在迷你批处理中的元素之间故意不匹配的细粒度特征统计信息。尽管TextAdain的简单性,但与其他更复杂的方法相比,广泛的实验表明其有效性。 TextAdain在标准手写文本识别基准上实现最先进的结果。此外,它概括为多个架构和场景文本识别域。此外,我们证明整合TextAdain改善了更具挑战性测试条件的鲁棒性。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
translated by 谷歌翻译
这项研究是有关阿拉伯历史文档的光学特征识别(OCR)的一系列研究的第二阶段,并研究了不同的建模程序如何与问题相互作用。第一项研究研究了变压器对我们定制的阿拉伯数据集的影响。首次研究的弊端之一是训练数据的规模,由于缺乏资源,我们的3000万张图像中仅15000张图像。另外,我们添加了一个图像增强层,时间和空间优化和后校正层,以帮助该模型预测正确的上下文。值得注意的是,我们提出了一种使用视觉变压器作为编码器的端到端文本识别方法,即BEIT和Vanilla Transformer作为解码器,消除了CNNs以进行特征提取并降低模型的复杂性。实验表明,我们的端到端模型优于卷积骨架。该模型的CER为4.46%。
translated by 谷歌翻译
在手写文件中指定实体执行的相关信息的提取仍然是一个具有挑战性的任务。与通常将文本转录和命名实体识别的传统信息提取方法与单独的后续任务不同,我们提出了基于端到端的变换器的方法,共同执行这两个任务。拟议的方法在段落水平上运作,带来了两个主要福利。首先,它允许模型避免由于线分割而无法恢复的早期误差。其次,它允许模型利用更大的双维上下文信息来识别语义类别,达到更高的最终预测精度。我们还探讨了不同的培训方案,以表明他们对性能的影响,我们证明了两级学习策略可以使模型达到更高的最终预测精度。据我们所知,这项工作提出了一种采用传感器网络,用于在手写文档中指定实体识别的变压器网络。我们在ICDAR 2017信息提取竞争中实现了新的最先进的性能,即使建议的技术不使用任何词典,语言建模或后处理,即使完整的任务也可以实现新的最先进的表现。
translated by 谷歌翻译
我们介绍了两个数据增强技术,它与Reset-Bilstm-CTC网络一起使用,显着降低了在手写文本识别(HTR)任务上的最佳报告结果之外的字错误率(WER)和字符错误率(CER)。我们应用了一种基于打印文本(StackMix)的删除文本(手写污染)和手写文本生成方法的新型增强,这被证明在HTR任务中非常有效。StackMix使用弱监督框架来获得字符边界。因为这些数据增强技术与所使用的网络无关,所以也可以应用于增强其他网络的性能和HTR的方法。十个手写文本数据集的广泛实验表明,手写墨水增强和StackMix显着提高了HTR模型的质量
translated by 谷歌翻译