注意机制已成为场景文本识别方法(STR)方法中的事实上的模块,因为它有能力提取字符级表示。可以将这些方法汇总到基于隐性注意力的基于隐性的注意力和受监督的注意力中,取决于如何计算注意力,即分别从序列级别的文本注释和字符级别的边界框注释中学到隐性注意和监督注意力。隐含的注意力可能会提取出粗略甚至不正确的空间区域作为性格的注意,这很容易受到对齐拖延问题的困扰。受到监督的注意力可以减轻上述问题,但它是特定于类别的问题,它需要额外费力的角色级边界框注释,并且当角色类别的数量较大时,将是记忆密集的。为了解决上述问题,我们提出了一种新型的关注机制,用于STR,自我保护的隐式字形注意力(SIGA)。 Siga通过共同自我监督的文本分割和隐性注意对准来描述文本图像的字形结构,这些文本分割和隐性注意对准可以作为监督,以提高注意力正确性,而无需额外的角色级注释。实验结果表明,就注意力正确性和最终识别性能而言,SIGA的性能始终如一地比以前的基于注意力的STR方法更好,并且在公开可用的上下文基准上以及我们的无上下文基准。
translated by 谷歌翻译
Scene text spotting is of great importance to the computer vision community due to its wide variety of applications. Recent methods attempt to introduce linguistic knowledge for challenging recognition rather than pure visual classification. However, how to effectively model the linguistic rules in end-to-end deep networks remains a research challenge. In this paper, we argue that the limited capacity of language models comes from 1) implicit language modeling; 2) unidirectional feature representation; and 3) language model with noise input. Correspondingly, we propose an autonomous, bidirectional and iterative ABINet++ for scene text spotting. Firstly, the autonomous suggests enforcing explicitly language modeling by decoupling the recognizer into vision model and language model and blocking gradient flow between both models. Secondly, a novel bidirectional cloze network (BCN) as the language model is proposed based on bidirectional feature representation. Thirdly, we propose an execution manner of iterative correction for the language model which can effectively alleviate the impact of noise input. Finally, to polish ABINet++ in long text recognition, we propose to aggregate horizontal features by embedding Transformer units inside a U-Net, and design a position and content attention module which integrates character order and content to attend to character features precisely. ABINet++ achieves state-of-the-art performance on both scene text recognition and scene text spotting benchmarks, which consistently demonstrates the superiority of our method in various environments especially on low-quality images. Besides, extensive experiments including in English and Chinese also prove that, a text spotter that incorporates our language modeling method can significantly improve its performance both in accuracy and speed compared with commonly used attention-based recognizers.
translated by 谷歌翻译
在现场文本识别中已经证明了语义信息。大多数现有方法倾向于将视觉和语义信息耦合到基于关注的解码器中。结果,语义特征的学习易于在训练集的有限词汇上具有偏差,这被称为词汇关系。在本文中,我们提出了一种新颖的视觉语义解耦网络(VSDN)来解决问题。我们的VSDN包含一个可视解码器(VD)和语义解码器(SD),以分别学习更纯度的视觉和语义特征表示。此外,语义编码器(SE)设计用于匹配SD,可以通过简单的单词校正任务通过额外的廉价大型词汇进行预先培训。因此,语义特征更加不偏并且精确地引导视觉特征对准并丰富最终字符表示。实验表明,我们的方法在标准基准上实现了最先进的或竞争力的结果,并且在培训集具有小尺寸的词汇量的情况下,在较大的余量下优于流行的基线。
translated by 谷歌翻译
建模语义信息对于场景文本识别有用。在这项工作中,我们建议与视觉语义变压器(VST)共同模拟语义和视觉信息。 VST首先从具有变压器模块和主视觉语义对齐模块中的视觉特征映射明确地提取主语义信息。然后将语义信息与视觉特征映射(被视为序列)连接以形成伪多域序列,该伪多域序列组合视觉和语义信息,随后将其馈入基于变压器的交互模块,以便能够在视觉和视觉之间学习相互作用语义特征。以这种方式,可以通过语义信息和反之亦然可以增强视觉特征。可视特征的增强版本通过辅助视觉 - 语义对准模块进一步解码,其与主要一个共享权重。最后,通过获得最终文本预测的第三变压器模块共同处理解码的视觉特征和增强的语义特征。在包括常规/不规则文本识别数据集的七个公共基准测试中的实验验证了我们所提出的模型,在七个基准中的四个基准中达到最先进的效果。
translated by 谷歌翻译
基于关注的编码器 - 解码器框架在现场文本识别中变得流行,主要是由于其在从视觉和语义域集成识别线索方面的优越性。然而,最近的研究表明,这两个线索可能在困难的文本中错位(例如,具有稀有文本形状)并引入诸如角色位置的约束来缓解问题。尽管有一定的成功,但无内容的位置嵌入稳定地与有意义的本地图像区域嵌入。在本文中,我们提出了一种名为多域字符距离感知(MDCDP)的新型模块,以建立视觉和语义相关位置编码。 MDCDP使用位置嵌入在注意机制后查询视觉和语义功能。它自然地编码了位置线索,其描述了字符之间的视觉和语义距离。我们开发一个名为CDISTNET的新型架构,堆叠MDCDP几次以指导精确的距离建模。因此,即使呈现的各种困难,视觉语义对准也很好地建造。我们将CDISTNET应用于两个增强的数据集和六个公共基准。实验表明,CDISTNET实现了最先进的识别准确性。虽然可视化也表明CDISTNET在视觉和语义域中实现了适当的注意本地化。我们将在验收时发布我们的代码。
translated by 谷歌翻译
现有场景文本识别(str)方法通常使用语言模型来优化通过视觉识别(VR)模型预测的1D字符序列的联合概率,该模型忽略了字符实例内和之间的视觉语义的2D空间上下文不概括为任意形状的场景文本。要解决此问题,我们首次尝试根据本文的视觉语义进行文本推理。从技术上讲,给定VR模型预测的字符分割映射,我们为每个实例构造一个子图,其中节点表示基于它们的空间相似度之间的节点中的像素和边缘。然后,这些子图通过其根节点顺序连接并合并到完整的图表中。基于此图,我们通过通过跨熵损失监督它来设计图表卷积网络以进行文本推理(GTR)。 GTR可以轻松插入代表性的STR模型,以提高其性能,因为较好的文本推理。具体而言,我们通过将GTR并将GTR与基于分段的STR基线中的语言模型并联的语言模型进行了构建模型,即,通过相互学习可以有效利用视觉语言互补性。 S-GTR在六个挑战性的STR基准上套装新的最先进的基准,并概括为多语言数据集。代码可用于https://github.com/adeline-cs/gtr。
translated by 谷歌翻译
近年来,基于注意力的场景文本识别方法非常受欢迎,并吸引了许多研究人员的兴趣。基于注意力的方法可以将注意力集中在解码过程中的小区域甚至单点上,其中注意矩阵几乎是一个旋转分布。此外,在推断过程中,所有注意力矩阵都将加权整个特征地图,从而导致巨大的冗余计算。在本文中,我们提出了一个用于场景文本识别的有效无注意的单点解码网络(称为SPDN),该网络可以取代传统的基于注意力的解码网络。具体而言,我们建议单点采样模块(SPSM)有效地在特征映射上为解码一个字符的一个关键点采样。这样,我们的方法不仅可以精确地找到每个字符的关键点,还可以删除冗余计算。基于SPSM,我们设计了一个高效且新颖的单点解码网络,以替代基于注意力的解码网络。对公开基准测试的广泛实验证明,我们的SPDN可以大大提高解码效率而不牺牲性能。
translated by 谷歌翻译
由于复杂的背景和文本实例的不同变化,场景文本识别是一项具有挑战性的任务。在本文中,我们提出了一个新颖的语义gan和平衡的注意网络(SGBANET),以识别场景图像中的文本。提出的方法首先使用语义gan生成简单的语义功能,然后使用平衡的注意模块识别场景文本。语义GAN旨在使支持域和目标域之间的语义特征分布对齐。与在图像级别执行的传统图像到图像翻译方法不同,语义GAN通过语义生成器模块(SGM)和语义歧视器模块(SDM)在语义级别执行生成和歧视。对于目标图像(场景文本图像),语义生成器模块生成简单的语义特征,这些功能与支持图像(清晰的文本图像)共享相同的特征分布。语义鉴别器模块用于区分支​​持域和目标域之间的语义特征。此外,平衡的注意模块旨在减轻注意力漂移的问题。平衡注意模块首先根据视觉瞥见向量和语义瞥见向量学习平衡参数,然后执行平衡操作以获得平衡的瞥见向量。在六个基准测试的实验,包括常规数据集,即IIIT5K,SVT,ICDAR2013和不规则数据集,即ICDAR2015,SVTP,cute80,验证我们提出的方法的有效性。
translated by 谷歌翻译
几十年来,手写的中文文本识别(HCTR)一直是一个活跃的研究主题。但是,大多数以前的研究仅关注裁剪文本图像的识别,而忽略了实际应用程序中文本线检测引起的错误。尽管近年来已经提出了一些针对页面文本识别的方法,但它们要么仅限于简单布局,要么需要非常详细的注释,包括昂贵的线条级别甚至角色级边界框。为此,我们建议Pagenet端到端弱监督的页面级HCTR。 Pagenet检测并识别角色并预测其之间的阅读顺序,在处理复杂的布局(包括多方向和弯曲的文本线路)时,这更健壮和灵活。利用所提出的弱监督学习框架,Pagenet只需要对真实数据进行注释。但是,它仍然可以在字符和线级别上输出检测和识别结果,从而避免标记字符和文本线条的界限框的劳动和成本。在五个数据集上进行的广泛实验证明了Pagenet优于现有的弱监督和完全监督的页面级方法。这些实验结果可能会引发进一步的研究,而不是基于连接主义时间分类或注意力的现有方法的领域。源代码可在https://github.com/shannanyinxiang/pagenet上获得。
translated by 谷歌翻译
典型的文本检测器遵循两阶段的发现策略:首先检测文本实例的精确边界,然后在定期的文本区域内执行文本识别。尽管这种策略取得了实质性进展,但有两个基本的局限性。 1)文本识别的性能在很大程度上取决于文本检测的精度,从而导致从检测到识别的潜在误差传播。 2)桥接检测和识别的ROI种植会带来背景的噪音,并在合并或从特征地图中插值时导致信息丢失。在这项工作中,我们提出了单个镜头自力更生的场景文本sottter(SRSTS),该场景通过将识别解除识别来规避这些限制。具体而言,我们并行进行文本检测和识别,并通过共享的积极锚点架起它们。因此,即使确切的文本边界要检测到具有挑战性,我们的方法也能够正确识别文本实例。此外,我们的方法可大大降低文本检测的注释成本。在常规基准和任意形状的基准上进行了广泛的实验表明,就准确性和效率而言,我们的SRST与以前的最先进的观察者相比有利。
translated by 谷歌翻译
基于关注的编码器解码器框架广泛用于场景文本识别任务。然而,对于当前的最先进的(SOTA)方法,就输入文本图像的本地视觉和全局上下文信息的有效使用而言,存在改进的余地,以及场景之间的鲁棒相关性处理模块(编码器)和文本处理模块(解码器)。在本文中,我们提出了一种表示和相关性增强的编码器解码器框架(Rceed)来解决这些缺陷和断裂性能瓶颈。在编码器模块中,将本地视觉功能,全局上下文特征和位置信息进行对齐并融合以生成小型综合特征图。在解码器模块中,使用两种方法来增强场景和文本特征空间之间的相关性。 1)解码器初始化由从编码器导出的整体特征和全局瞥觉矢量引导。 2)通过多头一般注意力产生的富集瞥见载体的特征来帮助RNN迭代和每个时间步骤的字符预测。同时,我们还设计了一个LABRAMORM-DROPOUT LSTM单元,以改善模型的可变文本的概括。基准的广泛实验展示了在现场文本识别任务中的有利性能,尤其是不规则的性能。
translated by 谷歌翻译
在线和离线手写的中文文本识别(HTCR)已经研究了数十年。早期方法采用了基于过度裂段的策略,但遭受低速,准确性不足和角色分割注释的高成本。最近,基于连接主义者时间分类(CTC)和注意机制的无分割方法主导了HCTR的领域。但是,人们实际上是按字符读取文本的,尤其是对于中文等意识形态图。这就提出了一个问题:无细分策略真的是HCTR的最佳解决方案吗?为了探索此问题,我们提出了一种基于细分的新方法,用于识别使用简单但有效的完全卷积网络实现的手写中文文本。提出了一种新型的弱监督学习方法,以使网络仅使用笔录注释进行训练。因此,可以避免以前基于细分的方法所需的昂贵字符分割注释。由于缺乏完全卷积网络中的上下文建模,我们提出了一种上下文正则化方法,以在培训阶段将上下文信息集成到网络中,这可以进一步改善识别性能。在四个广泛使用的基准测试中进行的广泛实验,即Casia-HWDB,Casia-Olhwdb,ICDAR2013和Scut-HCCDOC,表明我们的方法在线和离线HCTR上都显着超过了现有方法,并且表现出比CTC/ CTC/ CTC/ CTC/ CTC/速度高得多的方法。基于注意力的方法。
translated by 谷歌翻译
Leveraging the advances of natural language processing, most recent scene text recognizers adopt an encoder-decoder architecture where text images are first converted to representative features and then a sequence of characters via `sequential decoding'. However, scene text images suffer from rich noises of different sources such as complex background and geometric distortions which often confuse the decoder and lead to incorrect alignment of visual features at noisy decoding time steps. This paper presents I2C2W, a novel scene text recognition technique that is tolerant to geometric and photometric degradation by decomposing scene text recognition into two inter-connected tasks. The first task focuses on image-to-character (I2C) mapping which detects a set of character candidates from images based on different alignments of visual features in an non-sequential way. The second task tackles character-to-word (C2W) mapping which recognizes scene text by decoding words from the detected character candidates. The direct learning from character semantics (instead of noisy image features) corrects falsely detected character candidates effectively which improves the final text recognition accuracy greatly. Extensive experiments over nine public datasets show that the proposed I2C2W outperforms the state-of-the-art by large margins for challenging scene text datasets with various curvature and perspective distortions. It also achieves very competitive recognition performance over multiple normal scene text datasets.
translated by 谷歌翻译
在过去的几十年中,由于其在广泛的应用中,现场文本认可从学术界和实际用户获得了全世界的关注。尽管在光学字符识别方面取得了成就,但由于诸如扭曲或不规则布局等固有问题,现场文本识别仍然具有挑战性。大多数现有方法主要利用基于复发或卷积的神经网络。然而,虽然经常性的神经网络(RNN)通常由于顺序计算而遭受慢的训练速度,并且遇到消失的梯度或瓶颈,但CNN在复杂性和性能之间衡量折衷。在本文中,我们介绍了SAFL,一种基于自我关注的神经网络模型,具有场景文本识别的焦点损失,克服现有方法的限制。使用焦损而不是负值对数似然有助于模型更多地关注低频样本训练。此外,为应对扭曲和不规则文本,我们在传递到识别网络之前,我们利用空间变换(STN)来纠正文本。我们执行实验以比较拟议模型的性能与七个基准。数值结果表明,我们的模型实现了最佳性能。
translated by 谷歌翻译
最近,由于其广泛的商业价值,从视觉丰富的文档(例如门票和简历)中自动提取信息已成为一个热门而重要的研究主题。大多数现有方法将此任务分为两个小节:用于从原始文档图像中获取纯文本的文本阅读部分以及用于提取密钥内容的信息提取部分。这些方法主要集中于改进第二个方法,同时忽略了这两个部分高度相关。本文提出了一个统一的端到端信息提取框架,从视觉上富含文档中提出,文本阅读和信息提取可以通过精心设计的多模式上下文块相互加强。具体而言,文本阅读部分提供了多模式功能,例如视觉,文本和布局功能。开发了多模式上下文块,以融合生成的多模式特征,甚至是从预训练的语言模型中获得的先验知识,以提供更好的语义表示。信息提取部分负责使用融合上下文功能生成密钥内容。该框架可以以端到端的可训练方式进行培训,从而实现全球优化。更重要的是,我们将视觉丰富的文档定义为跨两个维度的四个类别,即布局和文本类型。对于每个文档类别,我们提供或推荐相应的基准,实验设置和强大的基准,以弥补该研究领域缺乏统一评估标准的问题。报告了对四种基准测试的广泛实验(从固定布局到可变布局,从完整的文本到半未结构化的文本),证明了所提出的方法的有效性。数据,源代码和模型可用。
translated by 谷歌翻译
In contrast to fully supervised methods using pixel-wise mask labels, box-supervised instance segmentation takes advantage of simple box annotations, which has recently attracted increasing research attention. This paper presents a novel single-shot instance segmentation approach, namely Box2Mask, which integrates the classical level-set evolution model into deep neural network learning to achieve accurate mask prediction with only bounding box supervision. Specifically, both the input image and its deep features are employed to evolve the level-set curves implicitly, and a local consistency module based on a pixel affinity kernel is used to mine the local context and spatial relations. Two types of single-stage frameworks, i.e., CNN-based and transformer-based frameworks, are developed to empower the level-set evolution for box-supervised instance segmentation, and each framework consists of three essential components: instance-aware decoder, box-level matching assignment and level-set evolution. By minimizing the level-set energy function, the mask map of each instance can be iteratively optimized within its bounding box annotation. The experimental results on five challenging testbeds, covering general scenes, remote sensing, medical and scene text images, demonstrate the outstanding performance of our proposed Box2Mask approach for box-supervised instance segmentation. In particular, with the Swin-Transformer large backbone, our Box2Mask obtains 42.4% mask AP on COCO, which is on par with the recently developed fully mask-supervised methods. The code is available at: https://github.com/LiWentomng/boxlevelset.
translated by 谷歌翻译
艺术文本识别是一项极具挑战性的任务,具有广泛的应用程序。但是,当前场景文本识别方法主要集中于不规则文本,而未专门探讨艺术文本。艺术文本识别的挑战包括具有特殊设计的字体和效果的各种外观,字符之间的复杂连接和重叠以及背景模式的严重干扰。为了减轻这些问题,我们建议在三个层面上识别艺术文本。首先,考虑到角结构对外观和形状的稳健性,使用角点指导角色内部特征的提取。通过这种方式,角点的离散性切断了字符之间的连接,它们的稀疏性改善了背景干扰的稳健性。其次,我们设计了一个字符对比损失,以模拟字符级别的特征,从而改善了字符分类的特征表示。第三,我们利用变形金刚在图像级别上学习全局功能,并在角落跨注意机制的帮助下对角点的全球关系进行建模。此外,我们提供了一个艺术文本数据集来基准表演。实验结果验证了我们提出的方法在艺术文本识别方面的显着优势,并在几个模糊和透视数据集上实现了最先进的性能。
translated by 谷歌翻译
在过去十年中,深度学习的开花目睹了现场文本识别的快速发展。然而,识别低分辨率场景文本图像仍然是一个挑战。尽管已经提出了一些超分辨率的方法来解决这个问题,但它们通常将文本图像视为一般图像,同时忽略了中风的视觉质量(文本原子单位)的事实扮演文本识别的重要作用。根据Gestalt心理学,人类能够将部分细节构成为先前知识所指导的最相似的物体。同样,当人类观察低分辨率文本图像时,它们将本质上使用部分笔划级细节来恢复整体字符的外观。灵感来自Gestalt心理学,我们提出了一个中风感知的场景文本图像超分辨率方法,其中包含带有冲程的模块(SFM),专注于文本图像中的字符的行程级内部结构。具体而言,我们尝试设计用于在笔划级别分解英语字符和数字的规则,然后预先列车文本识别器以提供笔划级注意映射作为位置线索,目的是控制所生成的超分辨率图像之间的一致性和高分辨率的地面真相。广泛的实验结果验证了所提出的方法确实可以在Textoom和手动构建中文字符数据集DegraDed-IC13上生成更可区分的图像。此外,由于所提出的SFM仅用于在训练时提供笔划级别指导,因此在测试阶段不会带来任何时间开销。代码可在https://github.com/fudanvi/fudanocr/tree/main/text -GETALT中获得。
translated by 谷歌翻译
场景文本识别(str)是图像和文本之间的重要桥梁,吸引了丰富的研究关注。虽然卷积神经网络(CNNS)在此任务中取得了显着的进展,但大多数现有工作都需要额外的模块(上下文建模模块)来帮助CNN捕获全局依赖项来解决归纳偏差并加强文本特征之间的关系。最近,该变压器已被提出作为通过自我关注机制的全球背景建模的有希望的网络,但在应用于识别时主要缺点是效率。我们提出了一个1-D拆分来解决复杂性的挑战,并用变压器编码器替换CNN,以减少对上下文建模模块的需求。此外,最近的方法使用冻结的初始嵌入来指导解码器对文本进行解码,导致精度损失。我们建议使用从变压器编码器中学到的学习学习的可读初始嵌入,使其自适应不同的输入图像。最重要的是,我们介绍了一个新颖的文本识别架构,名为基于变压器的文本识别器,其中包含三个阶段(转换,特征提取和预测)组成的初始嵌入指导(TRIG)。广泛的实验表明,我们的方法可以在文本识别基准上实现最先进的。
translated by 谷歌翻译
多年来,场景文本识别(STR)一直是计算机视觉的积极研究主题。为了解决这个具有挑战性的问题,已经提出了许多创新的方法,并将语言知识纳入STR模型最近已成为一个显着的趋势。在这项工作中,我们首先从视觉变压器(VIT)的最新进展中汲取灵感来构建一个概念上简单而强大的视觉str模型,该模型建立在VIT和胜过以前的现场文本识别的先前最新模型,包括纯视觉模型和语言增强方法。为了整合语言知识,我们进一步提出了一种多粒性预测策略,以隐式方式将信息从语言模式注入模型,即NLP中广泛使用的子字表示(BPE和Wordpiece)被引入输出空间,除了传统的字符级别表示外,不采用独立语言模型(LM)。所得的算法(称为MGP-STR)能够将Str的性能包络提高到更高的水平。具体而言,它的平均识别精度在标准基准上达到93.35%。代码将很快发布。
translated by 谷歌翻译