Handwritten Text Recognition (HTR) is more interesting and challenging than printed text due to uneven variations in the handwriting style of the writers, content, and time. HTR becomes more challenging for the Indic languages because of (i) multiple characters combined to form conjuncts which increase the number of characters of respective languages, and (ii) near to 100 unique basic Unicode characters in each Indic script. Recently, many recognition methods based on the encoder-decoder framework have been proposed to handle such problems. They still face many challenges, such as image blur and incomplete characters due to varying writing styles and ink density. We argue that most encoder-decoder methods are based on local visual features without explicit global semantic information. In this work, we enhance the performance of Indic handwritten text recognizers using global semantic information. We use a semantic module in an encoder-decoder framework for extracting global semantic information to recognize the Indic handwritten texts. The semantic information is used in both the encoder for supervision and the decoder for initialization. The semantic information is predicted from the word embedding of a pre-trained language model. Extensive experiments demonstrate that the proposed framework achieves state-of-the-art results on handwritten texts of ten Indic languages.
translated by 谷歌翻译
在现场文本识别中已经证明了语义信息。大多数现有方法倾向于将视觉和语义信息耦合到基于关注的解码器中。结果,语义特征的学习易于在训练集的有限词汇上具有偏差,这被称为词汇关系。在本文中,我们提出了一种新颖的视觉语义解耦网络(VSDN)来解决问题。我们的VSDN包含一个可视解码器(VD)和语义解码器(SD),以分别学习更纯度的视觉和语义特征表示。此外,语义编码器(SE)设计用于匹配SD,可以通过简单的单词校正任务通过额外的廉价大型词汇进行预先培训。因此,语义特征更加不偏并且精确地引导视觉特征对准并丰富最终字符表示。实验表明,我们的方法在标准基准上实现了最先进的或竞争力的结果,并且在培训集具有小尺寸的词汇量的情况下,在较大的余量下优于流行的基线。
translated by 谷歌翻译
手写的文本识别问题是由计算机视觉社区的研究人员广泛研究的,因为它的改进和适用于日常生活的范围,它是模式识别的子域。自从过去几十年以来,基于神经网络的系统的计算能力提高了计算能力,因此有助于提供最新的手写文本识别器。在同一方向上,我们采用了两个最先进的神经网络系统,并将注意力机制合并在一起。注意技术已被广泛用于神经机器翻译和自动语音识别的领域,现在正在文本识别域中实现。在这项研究中,我们能够在IAM数据集上达到4.15%的字符错误率和9.72%的单词错误率,7.07%的字符错误率和GW数据集的16.14%单词错误率与现有的Flor合并后,GW数据集的单词错误率等。建筑学。为了进一步分析,我们还使用了类似于Shi等人的系统。具有贪婪解码器的神经网络系统,观察到基本模型的字符错误率提高了23.27%。
translated by 谷歌翻译
这项工作提出了一个基于注意力的序列到序列模型,用于手写单词识别,并探讨了用于HTR系统数据有效培训的转移学习。为了克服培训数据稀缺性,这项工作利用了在场景文本图像上预先训练的模型,作为调整手写识别模型的起点。Resnet特征提取和基于双向LSTM的序列建模阶段一起形成编码器。预测阶段由解码器和基于内容的注意机制组成。拟议的端到端HTR系统的有效性已在新型的多作用数据集IMGUR5K和IAM数据集上进行了经验评估。实验结果评估了HTR框架的性能,并通过对误差案例的深入分析进一步支持。源代码和预培训模型可在https://github.com/dmitrijsk/attentionhtr上找到。
translated by 谷歌翻译
Long-term OCR services aim to provide high-quality output to their users at competitive costs. It is essential to upgrade the models because of the complex data loaded by the users. The service providers encourage the users who provide data where the OCR model fails by rewarding them based on data complexity, readability, and available budget. Hitherto, the OCR works include preparing the models on standard datasets without considering the end-users. We propose a strategy of consistently upgrading an existing Handwritten Hindi OCR model three times on the dataset of 15 users. We fix the budget of 4 users for each iteration. For the first iteration, the model directly trains on the dataset from the first four users. For the rest iteration, all remaining users write a page each, which service providers later analyze to select the 4 (new) best users based on the quality of predictions on the human-readable words. Selected users write 23 more pages for upgrading the model. We upgrade the model with Curriculum Learning (CL) on the data available in the current iteration and compare the subset from previous iterations. The upgraded model is tested on a held-out set of one page each from all 23 users. We provide insights into our investigations on the effect of CL, user selection, and especially the data from unseen writing styles. Our work can be used for long-term OCR services in crowd-sourcing scenarios for the service providers and end users.
translated by 谷歌翻译
识别类似于波斯语和Urdu等阿拉伯语的脚本比拉丁语的脚本更具挑战性。这是由于存在二维结构,依赖性字符形状,空间和重叠,以及凹陷的放置。离线手写乌尔通脚本的研究并不多,这是世界上第10个最口语的核心脚本。我们提出了一种基于的编码器 - 解码器模型,用于在上下文中读取URDU。引入了一个新的本地化惩罚,以鼓励模型在识别下一个字符时一次只参加一个位置。此外,我们全面地在地面真实注释方面完善了唯一的完整和公开的手写Urdu数据集。我们评估乌尔都语和阿拉伯语数据集的模型,并显示上下文的注意本地化优于简单的关注和多向LSTM模型。
translated by 谷歌翻译
草书手写文本识别是模式识别领域中一个具有挑战性的研究问题。当前的最新方法包括基于卷积复发性神经网络和多维长期记忆复发性神经网络技术的模型。这些方法在高度计算上是广泛的模型,在设计级别上也很复杂。在最近的研究中,与基于卷积的复发性神经网络相比,基于卷积神经网络和票面卷积神经网络模型的组合显示出较少的参数。在减少要训练的参数总数的方向上,在这项工作中,我们使用了深度卷积代替标准卷积,结合了封闭式跨跨跨性神经网络和双向封闭式复发单元来减少参数总数接受训练。此外,我们还在测试步骤中包括了基于词典的单词梁搜索解码器。它还有助于提高模型的整体准确性。我们在IAM数据集上获得了3.84%的字符错误率和9.40%的单词错误率;乔治·华盛顿数据集的字符错误率和14.56%的字符错误率和14.56%的单词错误率。
translated by 谷歌翻译
使用深度学习的图像的手写词识别是一个有希望性能的活跃研究区域。IT实际情况,由于安全原因,可能需要在压缩域中处理手写图像。然而,对于压缩图像的处理仍然非常有限的深度学习的利用。通过在深度学习中的最新进展中,在压缩域中处理文档图像的需要,我们提出了一个HWRCNET模型,用于JPEG压缩域中的手写字识别。所提出的模型结合了基于卷积神经网络(CNN)和双向长短期存储器(BILSTM)的经常性神经网络(RNN)。基本上,我们使用压缩域图像训练模型,并遵守89.05%字识别精度和13.37%的字符错误率非常有吸引力的性能。
translated by 谷歌翻译
文本识别是文档数字化的长期研究问题。现有的方法通常是基于CNN构建的,以用于图像理解,并为Char-Level文本生成而建立RNN。此外,通常需要另一种语言模型来提高整体准确性作为后处理步骤。在本文中,我们提出了一种使用预训练的图像变压器和文本变压器模型(即Trocr)提出的端到端文本识别方法,该模型利用了变压器体系结构,以实现图像理解和文字级级文本生成。TROR模型很简单,但有效,可以通过大规模合成数据进行预训练,并通过人体标记的数据集进行微调。实验表明,TROR模型的表现优于印刷,手写和场景文本识别任务上的当前最新模型。Trocr模型和代码可在\ url {https://aka.ms/trocr}上公开获得。
translated by 谷歌翻译
无约束的手写文本识别仍然具有挑战性的计算机视觉系统。段落识别传统上由两个模型实现:第一个用于线分割和用于文本线路识别的第二个。我们提出了一个统一的端到端模型,使用混合注意力来解决这项任务。该模型旨在迭代地通过线路进行段落图像线。它可以分为三个模块。编码器从整个段落图像生成特征映射。然后,注意力模块循环生成垂直加权掩模,使能专注于当前的文本线特征。这样,它执行一种隐式线分割。对于每个文本线特征,解码器模块识别关联的字符序列,导致整个段落的识别。我们在三个流行的数据集赛中达到最先进的字符错误率:ribs的1.91%,IAM 4.45%,读取2016年3.59%。我们的代码和培训的模型重量可在HTTPS:// GitHub上获得.com / fefodeeplearning / watermentattentocroc。
translated by 谷歌翻译
无约束的手写文本识别是一项具有挑战性的计算机视觉任务。传统上,它是通过两步方法来处理的,结合了线细分,然后是文本线识别。我们第一次为手写文档识别任务提出了无端到端的无分段体系结构:文档注意网络。除文本识别外,该模型还接受了使用类似XML的方式使用开始和结束标签标记文本零件的训练。该模型由用于特征提取的FCN编码器和用于复发令牌预测过程的变压器解码器层组成。它将整个文本文档作为输入和顺序输出字符以及逻辑布局令牌。与现有基于分割的方法相反,该模型是在不使用任何分割标签的情况下进行训练的。我们在页面级别的Read 2016数据集以及CER分别为3.43%和3.70%的双页级别上获得了竞争成果。我们还为Rimes 2009数据集提供了页面级别的结果,达到CER的4.54%。我们在https://github.com/factodeeplearning/dan上提供所有源代码和预训练的模型权重。
translated by 谷歌翻译
提取手写文本是数字化信息的最重要组成部分之一,并使其可用于大规模设置。手写光学角色读取器(OCR)是计算机视觉和自然语言处理计算的研究问题,对于英语,已经完成了许多工作,但是不幸的是,对于乌尔都语(例如乌尔都语)的低资源语言,几乎没有完成工作。乌尔都语语言脚本非常困难,因为它具有基于其相对位置的角色形状的草书性质和变化,因此,需要提出一个模型,该模型可以理解复杂的特征并将其推广到各种手写样式。在这项工作中,我们提出了一个基于变压器的乌尔都语手写文本提取模型。由于变压器在自然语言理解任务中非常成功,因此我们进一步探索它们以了解复杂的乌尔都语手写。
translated by 谷歌翻译
基于关注的编码器解码器框架广泛用于场景文本识别任务。然而,对于当前的最先进的(SOTA)方法,就输入文本图像的本地视觉和全局上下文信息的有效使用而言,存在改进的余地,以及场景之间的鲁棒相关性处理模块(编码器)和文本处理模块(解码器)。在本文中,我们提出了一种表示和相关性增强的编码器解码器框架(Rceed)来解决这些缺陷和断裂性能瓶颈。在编码器模块中,将本地视觉功能,全局上下文特征和位置信息进行对齐并融合以生成小型综合特征图。在解码器模块中,使用两种方法来增强场景和文本特征空间之间的相关性。 1)解码器初始化由从编码器导出的整体特征和全局瞥觉矢量引导。 2)通过多头一般注意力产生的富集瞥见载体的特征来帮助RNN迭代和每个时间步骤的字符预测。同时,我们还设计了一个LABRAMORM-DROPOUT LSTM单元,以改善模型的可变文本的概括。基准的广泛实验展示了在现场文本识别任务中的有利性能,尤其是不规则的性能。
translated by 谷歌翻译
西里尔和传统蒙古人是蒙古写作系统的两个主要成员。西里尔传统的蒙古双向转换(CTMBC)任务包括两个转换过程,包括西里尔蒙古人到传统的蒙古人(C2T)和传统的蒙古人到西里尔蒙古人转换(T2C)。以前的研究人员采用了传统的联合序列模型,因为CTMBC任务是自然序列到序列(SEQ2SEQ)建模问题。最近的研究表明,基于反复的神经网络(RNN)和自我注意力(或变压器)的编码器模型模型已显示一些主要语言之间的机器翻译任务有了显着改善,例如普通话,英语,法语等。但是,对于是否可以利用RNN和变压器模型可以改善CTMBC质量,仍然存在开放问题。为了回答这个问题,本文研究了这两种强大的CTMBC任务技术的实用性,并结合了蒙古语的凝集特征。我们分别基于RNN和Transformer构建基于编码器的CTMBC模型,并深入比较不同的网络配置。实验结果表明,RNN和Transformer模型都优于传统的关节序列模型,其中变压器可以达到最佳性能。与关节序列基线相比,C2T和T2C的变压器的单词错误率(WER)分别降低了5.72 \%和5.06 \%。
translated by 谷歌翻译
许多在世界上的许多语言的语言现有数据的非数字化书籍和文件锁定了。光学字符识别(OCR)可以用来产生数字化的文字,和以前的工作已经证明的是提高认识,精心资源较少语言的通用OCR系统的结果神经后校正方法的实用程序。然而,这些方法依赖于手工辅助校正后的数据,相对于非注释原始图像需要被数字化,其是相对稀少。在本文中,我们提出了一种半监督学习方法,使得它可以利用这些原始图像,以提高性能,特别是通过运用自我训练,其中模型迭代自身输出训练有素的技术。此外,为了执行在识别词汇的一致性,我们引入一个词法感知解码方法,该方法增强了神经后修正模型与从所识别的文本构成的基于计数的语言模型,使用加权有限状态自动机中实现(WFSA)对于高效和有效的解码。四种濒危语言的结果证明了该方法的效用,具有15-29%的相对误差减少,我们在哪里找到的自我培训和实现持续改善词法感知解码所必需的组合。数据和代码可在https://shrutirij.github.io/ocr-el/。
translated by 谷歌翻译
Leveraging the advances of natural language processing, most recent scene text recognizers adopt an encoder-decoder architecture where text images are first converted to representative features and then a sequence of characters via `sequential decoding'. However, scene text images suffer from rich noises of different sources such as complex background and geometric distortions which often confuse the decoder and lead to incorrect alignment of visual features at noisy decoding time steps. This paper presents I2C2W, a novel scene text recognition technique that is tolerant to geometric and photometric degradation by decomposing scene text recognition into two inter-connected tasks. The first task focuses on image-to-character (I2C) mapping which detects a set of character candidates from images based on different alignments of visual features in an non-sequential way. The second task tackles character-to-word (C2W) mapping which recognizes scene text by decoding words from the detected character candidates. The direct learning from character semantics (instead of noisy image features) corrects falsely detected character candidates effectively which improves the final text recognition accuracy greatly. Extensive experiments over nine public datasets show that the proposed I2C2W outperforms the state-of-the-art by large margins for challenging scene text datasets with various curvature and perspective distortions. It also achieves very competitive recognition performance over multiple normal scene text datasets.
translated by 谷歌翻译
场景文本识别(str)是图像和文本之间的重要桥梁,吸引了丰富的研究关注。虽然卷积神经网络(CNNS)在此任务中取得了显着的进展,但大多数现有工作都需要额外的模块(上下文建模模块)来帮助CNN捕获全局依赖项来解决归纳偏差并加强文本特征之间的关系。最近,该变压器已被提出作为通过自我关注机制的全球背景建模的有希望的网络,但在应用于识别时主要缺点是效率。我们提出了一个1-D拆分来解决复杂性的挑战,并用变压器编码器替换CNN,以减少对上下文建模模块的需求。此外,最近的方法使用冻结的初始嵌入来指导解码器对文本进行解码,导致精度损失。我们建议使用从变压器编码器中学到的学习学习的可读初始嵌入,使其自适应不同的输入图像。最重要的是,我们介绍了一个新颖的文本识别架构,名为基于变压器的文本识别器,其中包含三个阶段(转换,特征提取和预测)组成的初始嵌入指导(TRIG)。广泛的实验表明,我们的方法可以在文本识别基准上实现最先进的。
translated by 谷歌翻译
近年来,基于注意力的场景文本识别方法非常受欢迎,并吸引了许多研究人员的兴趣。基于注意力的方法可以将注意力集中在解码过程中的小区域甚至单点上,其中注意矩阵几乎是一个旋转分布。此外,在推断过程中,所有注意力矩阵都将加权整个特征地图,从而导致巨大的冗余计算。在本文中,我们提出了一个用于场景文本识别的有效无注意的单点解码网络(称为SPDN),该网络可以取代传统的基于注意力的解码网络。具体而言,我们建议单点采样模块(SPSM)有效地在特征映射上为解码一个字符的一个关键点采样。这样,我们的方法不仅可以精确地找到每个字符的关键点,还可以删除冗余计算。基于SPSM,我们设计了一个高效且新颖的单点解码网络,以替代基于注意力的解码网络。对公开基准测试的广泛实验证明,我们的SPDN可以大大提高解码效率而不牺牲性能。
translated by 谷歌翻译
汉字带有大量的形态和语义信息;因此,汉字形态的语义增强引起了极大的关注。先前的方法旨在直接从整个汉字图像中提取信息,这些图像通常无法同时捕获全球和本地信息。在本文中,我们开发了一种基于中风的自动编码器(SAE),以用自我监督的方法对汉字的复杂形态进行建模。按照其规范写作顺序,我们首先将汉字作为一系列带有固定写作顺序的中风图像,然后我们的SAE模型经过训练以重建此中风图像序列。只要训练集中出现这种预训练的SAE模型,只要它们的中风或激进分出现在看不见的字符中。我们在不同形式的中风图像上设计了两个对比的SAE架构。一种是对现有基于中风的方法进行微调的,用于零拍识别手写的汉字,另一个用于从其形态特征中富含中文单词的嵌入。实验结果证明,在预训练之后,我们的SAE架构以零拍的识别优于其他现有方法,并以其丰富的形态和语义信息增强了汉字的表示。
translated by 谷歌翻译
由于复杂的背景和文本实例的不同变化,场景文本识别是一项具有挑战性的任务。在本文中,我们提出了一个新颖的语义gan和平衡的注意网络(SGBANET),以识别场景图像中的文本。提出的方法首先使用语义gan生成简单的语义功能,然后使用平衡的注意模块识别场景文本。语义GAN旨在使支持域和目标域之间的语义特征分布对齐。与在图像级别执行的传统图像到图像翻译方法不同,语义GAN通过语义生成器模块(SGM)和语义歧视器模块(SDM)在语义级别执行生成和歧视。对于目标图像(场景文本图像),语义生成器模块生成简单的语义特征,这些功能与支持图像(清晰的文本图像)共享相同的特征分布。语义鉴别器模块用于区分支​​持域和目标域之间的语义特征。此外,平衡的注意模块旨在减轻注意力漂移的问题。平衡注意模块首先根据视觉瞥见向量和语义瞥见向量学习平衡参数,然后执行平衡操作以获得平衡的瞥见向量。在六个基准测试的实验,包括常规数据集,即IIIT5K,SVT,ICDAR2013和不规则数据集,即ICDAR2015,SVTP,cute80,验证我们提出的方法的有效性。
translated by 谷歌翻译