基于关注的编码器 - 解码器框架在现场文本识别中变得流行,主要是由于其在从视觉和语义域集成识别线索方面的优越性。然而,最近的研究表明,这两个线索可能在困难的文本中错位(例如,具有稀有文本形状)并引入诸如角色位置的约束来缓解问题。尽管有一定的成功,但无内容的位置嵌入稳定地与有意义的本地图像区域嵌入。在本文中,我们提出了一种名为多域字符距离感知(MDCDP)的新型模块,以建立视觉和语义相关位置编码。 MDCDP使用位置嵌入在注意机制后查询视觉和语义功能。它自然地编码了位置线索,其描述了字符之间的视觉和语义距离。我们开发一个名为CDISTNET的新型架构,堆叠MDCDP几次以指导精确的距离建模。因此,即使呈现的各种困难,视觉语义对准也很好地建造。我们将CDISTNET应用于两个增强的数据集和六个公共基准。实验表明,CDISTNET实现了最先进的识别准确性。虽然可视化也表明CDISTNET在视觉和语义域中实现了适当的注意本地化。我们将在验收时发布我们的代码。
translated by 谷歌翻译
Scene text spotting is of great importance to the computer vision community due to its wide variety of applications. Recent methods attempt to introduce linguistic knowledge for challenging recognition rather than pure visual classification. However, how to effectively model the linguistic rules in end-to-end deep networks remains a research challenge. In this paper, we argue that the limited capacity of language models comes from 1) implicit language modeling; 2) unidirectional feature representation; and 3) language model with noise input. Correspondingly, we propose an autonomous, bidirectional and iterative ABINet++ for scene text spotting. Firstly, the autonomous suggests enforcing explicitly language modeling by decoupling the recognizer into vision model and language model and blocking gradient flow between both models. Secondly, a novel bidirectional cloze network (BCN) as the language model is proposed based on bidirectional feature representation. Thirdly, we propose an execution manner of iterative correction for the language model which can effectively alleviate the impact of noise input. Finally, to polish ABINet++ in long text recognition, we propose to aggregate horizontal features by embedding Transformer units inside a U-Net, and design a position and content attention module which integrates character order and content to attend to character features precisely. ABINet++ achieves state-of-the-art performance on both scene text recognition and scene text spotting benchmarks, which consistently demonstrates the superiority of our method in various environments especially on low-quality images. Besides, extensive experiments including in English and Chinese also prove that, a text spotter that incorporates our language modeling method can significantly improve its performance both in accuracy and speed compared with commonly used attention-based recognizers.
translated by 谷歌翻译
建模语义信息对于场景文本识别有用。在这项工作中,我们建议与视觉语义变压器(VST)共同模拟语义和视觉信息。 VST首先从具有变压器模块和主视觉语义对齐模块中的视觉特征映射明确地提取主语义信息。然后将语义信息与视觉特征映射(被视为序列)连接以形成伪多域序列,该伪多域序列组合视觉和语义信息,随后将其馈入基于变压器的交互模块,以便能够在视觉和视觉之间学习相互作用语义特征。以这种方式,可以通过语义信息和反之亦然可以增强视觉特征。可视特征的增强版本通过辅助视觉 - 语义对准模块进一步解码,其与主要一个共享权重。最后,通过获得最终文本预测的第三变压器模块共同处理解码的视觉特征和增强的语义特征。在包括常规/不规则文本识别数据集的七个公共基准测试中的实验验证了我们所提出的模型,在七个基准中的四个基准中达到最先进的效果。
translated by 谷歌翻译
基于关注的编码器解码器框架广泛用于场景文本识别任务。然而,对于当前的最先进的(SOTA)方法,就输入文本图像的本地视觉和全局上下文信息的有效使用而言,存在改进的余地,以及场景之间的鲁棒相关性处理模块(编码器)和文本处理模块(解码器)。在本文中,我们提出了一种表示和相关性增强的编码器解码器框架(Rceed)来解决这些缺陷和断裂性能瓶颈。在编码器模块中,将本地视觉功能,全局上下文特征和位置信息进行对齐并融合以生成小型综合特征图。在解码器模块中,使用两种方法来增强场景和文本特征空间之间的相关性。 1)解码器初始化由从编码器导出的整体特征和全局瞥觉矢量引导。 2)通过多头一般注意力产生的富集瞥见载体的特征来帮助RNN迭代和每个时间步骤的字符预测。同时,我们还设计了一个LABRAMORM-DROPOUT LSTM单元,以改善模型的可变文本的概括。基准的广泛实验展示了在现场文本识别任务中的有利性能,尤其是不规则的性能。
translated by 谷歌翻译
Leveraging the advances of natural language processing, most recent scene text recognizers adopt an encoder-decoder architecture where text images are first converted to representative features and then a sequence of characters via `sequential decoding'. However, scene text images suffer from rich noises of different sources such as complex background and geometric distortions which often confuse the decoder and lead to incorrect alignment of visual features at noisy decoding time steps. This paper presents I2C2W, a novel scene text recognition technique that is tolerant to geometric and photometric degradation by decomposing scene text recognition into two inter-connected tasks. The first task focuses on image-to-character (I2C) mapping which detects a set of character candidates from images based on different alignments of visual features in an non-sequential way. The second task tackles character-to-word (C2W) mapping which recognizes scene text by decoding words from the detected character candidates. The direct learning from character semantics (instead of noisy image features) corrects falsely detected character candidates effectively which improves the final text recognition accuracy greatly. Extensive experiments over nine public datasets show that the proposed I2C2W outperforms the state-of-the-art by large margins for challenging scene text datasets with various curvature and perspective distortions. It also achieves very competitive recognition performance over multiple normal scene text datasets.
translated by 谷歌翻译
艺术文本识别是一项极具挑战性的任务,具有广泛的应用程序。但是,当前场景文本识别方法主要集中于不规则文本,而未专门探讨艺术文本。艺术文本识别的挑战包括具有特殊设计的字体和效果的各种外观,字符之间的复杂连接和重叠以及背景模式的严重干扰。为了减轻这些问题,我们建议在三个层面上识别艺术文本。首先,考虑到角结构对外观和形状的稳健性,使用角点指导角色内部特征的提取。通过这种方式,角点的离散性切断了字符之间的连接,它们的稀疏性改善了背景干扰的稳健性。其次,我们设计了一个字符对比损失,以模拟字符级别的特征,从而改善了字符分类的特征表示。第三,我们利用变形金刚在图像级别上学习全局功能,并在角落跨注意机制的帮助下对角点的全球关系进行建模。此外,我们提供了一个艺术文本数据集来基准表演。实验结果验证了我们提出的方法在艺术文本识别方面的显着优势,并在几个模糊和透视数据集上实现了最先进的性能。
translated by 谷歌翻译
注意机制已成为场景文本识别方法(STR)方法中的事实上的模块,因为它有能力提取字符级表示。可以将这些方法汇总到基于隐性注意力的基于隐性的注意力和受监督的注意力中,取决于如何计算注意力,即分别从序列级别的文本注释和字符级别的边界框注释中学到隐性注意和监督注意力。隐含的注意力可能会提取出粗略甚至不正确的空间区域作为性格的注意,这很容易受到对齐拖延问题的困扰。受到监督的注意力可以减轻上述问题,但它是特定于类别的问题,它需要额外费力的角色级边界框注释,并且当角色类别的数量较大时,将是记忆密集的。为了解决上述问题,我们提出了一种新型的关注机制,用于STR,自我保护的隐式字形注意力(SIGA)。 Siga通过共同自我监督的文本分割和隐性注意对准来描述文本图像的字形结构,这些文本分割和隐性注意对准可以作为监督,以提高注意力正确性,而无需额外的角色级注释。实验结果表明,就注意力正确性和最终识别性能而言,SIGA的性能始终如一地比以前的基于注意力的STR方法更好,并且在公开可用的上下文基准上以及我们的无上下文基准。
translated by 谷歌翻译
提出了基于视觉变压器(VLT)的新型场景文本识别器。受NLP领域的Levenshtein Transformer的启发,提出的方法(命名为Levenshtein OCR和Short Levocr)探索了一种自动从裁剪自然图像中自动转录文本内容的替代方法。具体而言,我们将场景文本识别的问题视为迭代序列完善过程。由纯视觉模型产生的初始预测序列被编码并馈送到跨模式变压器中,以与视觉特征相互作用并融合,以逐渐近似地面真理。改进过程是通过两个基本字符级操作完成的:删除和插入,它们是通过模仿学习来学习的,并允许并行解码,动态长度变化和良好的解释性。定量实验清楚地表明,Levocr在标准基准上实现最新性能,定性分析验证了拟议的Levocr算法的有效性和优势。代码将很快发布。
translated by 谷歌翻译
在现场文本识别中已经证明了语义信息。大多数现有方法倾向于将视觉和语义信息耦合到基于关注的解码器中。结果,语义特征的学习易于在训练集的有限词汇上具有偏差,这被称为词汇关系。在本文中,我们提出了一种新颖的视觉语义解耦网络(VSDN)来解决问题。我们的VSDN包含一个可视解码器(VD)和语义解码器(SD),以分别学习更纯度的视觉和语义特征表示。此外,语义编码器(SE)设计用于匹配SD,可以通过简单的单词校正任务通过额外的廉价大型词汇进行预先培训。因此,语义特征更加不偏并且精确地引导视觉特征对准并丰富最终字符表示。实验表明,我们的方法在标准基准上实现了最先进的或竞争力的结果,并且在培训集具有小尺寸的词汇量的情况下,在较大的余量下优于流行的基线。
translated by 谷歌翻译
大多数现有的RGB-D突出物体检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模型信息集成。卷积操作的固有局部连接将基于卷积的方法的性能进行了限制到天花板的性能。在这项工作中,我们从全球信息对齐和转换的角度重新思考此任务。具体地,所提出的方法(Transcmd)级联几个跨模型集成单元来构造基于自上而下的变换器的信息传播路径(TIPP)。 Transcmd将多尺度和多模态特征集成作为序列到序列上下文传播和内置于变压器上的更新过程。此外,考虑到二次复杂性W.R.T.输入令牌的数量,我们设计了具有可接受的计算成本的修补程序令牌重新嵌入策略(Ptre)。七个RGB-D SOD基准数据集上的实验结果表明,在配备TIPP时,简单的两流编码器 - 解码器框架可以超越最先进的基于CNN的方法。
translated by 谷歌翻译
场景文本识别(str)是图像和文本之间的重要桥梁,吸引了丰富的研究关注。虽然卷积神经网络(CNNS)在此任务中取得了显着的进展,但大多数现有工作都需要额外的模块(上下文建模模块)来帮助CNN捕获全局依赖项来解决归纳偏差并加强文本特征之间的关系。最近,该变压器已被提出作为通过自我关注机制的全球背景建模的有希望的网络,但在应用于识别时主要缺点是效率。我们提出了一个1-D拆分来解决复杂性的挑战,并用变压器编码器替换CNN,以减少对上下文建模模块的需求。此外,最近的方法使用冻结的初始嵌入来指导解码器对文本进行解码,导致精度损失。我们建议使用从变压器编码器中学到的学习学习的可读初始嵌入,使其自适应不同的输入图像。最重要的是,我们介绍了一个新颖的文本识别架构,名为基于变压器的文本识别器,其中包含三个阶段(转换,特征提取和预测)组成的初始嵌入指导(TRIG)。广泛的实验表明,我们的方法可以在文本识别基准上实现最先进的。
translated by 谷歌翻译
由于复杂的背景和文本实例的不同变化,场景文本识别是一项具有挑战性的任务。在本文中,我们提出了一个新颖的语义gan和平衡的注意网络(SGBANET),以识别场景图像中的文本。提出的方法首先使用语义gan生成简单的语义功能,然后使用平衡的注意模块识别场景文本。语义GAN旨在使支持域和目标域之间的语义特征分布对齐。与在图像级别执行的传统图像到图像翻译方法不同,语义GAN通过语义生成器模块(SGM)和语义歧视器模块(SDM)在语义级别执行生成和歧视。对于目标图像(场景文本图像),语义生成器模块生成简单的语义特征,这些功能与支持图像(清晰的文本图像)共享相同的特征分布。语义鉴别器模块用于区分支​​持域和目标域之间的语义特征。此外,平衡的注意模块旨在减轻注意力漂移的问题。平衡注意模块首先根据视觉瞥见向量和语义瞥见向量学习平衡参数,然后执行平衡操作以获得平衡的瞥见向量。在六个基准测试的实验,包括常规数据集,即IIIT5K,SVT,ICDAR2013和不规则数据集,即ICDAR2015,SVTP,cute80,验证我们提出的方法的有效性。
translated by 谷歌翻译
通过提供语义来改进字符序列,语言知识对现场文本识别带来了很大的好处。然而,由于语言知识已经单独应用于输出序列,因此之前的方法没有充分利用语义来理解文本识别的视觉线索。本文介绍了一种名为多模态文本识别网络(MITRN)的新方法,其能够实现视觉和语义特征之间的相互作用以获得更好的识别性能。具体地,Matrn识别视觉和语义特征对并将空间信息进行编码为语义特征。基于空间编码,通过参考其他模态的相关特征提高了视觉和语义特征。此外,通过隐藏与训练阶段中的角色相关的视觉线程来刺激基质特征将语义特征组合成视觉特征。我们的实验表明,在具有大边缘的七个基准上实现了最先进的表演,而两个方式的天真组合显示了边缘改善。进一步消融研究证明了我们所提出的组件的有效性。我们的实施将公开提供。
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
在过去的几十年中,由于其在广泛的应用中,现场文本认可从学术界和实际用户获得了全世界的关注。尽管在光学字符识别方面取得了成就,但由于诸如扭曲或不规则布局等固有问题,现场文本识别仍然具有挑战性。大多数现有方法主要利用基于复发或卷积的神经网络。然而,虽然经常性的神经网络(RNN)通常由于顺序计算而遭受慢的训练速度,并且遇到消失的梯度或瓶颈,但CNN在复杂性和性能之间衡量折衷。在本文中,我们介绍了SAFL,一种基于自我关注的神经网络模型,具有场景文本识别的焦点损失,克服现有方法的限制。使用焦损而不是负值对数似然有助于模型更多地关注低频样本训练。此外,为应对扭曲和不规则文本,我们在传递到识别网络之前,我们利用空间变换(STN)来纠正文本。我们执行实验以比较拟议模型的性能与七个基准。数值结果表明,我们的模型实现了最佳性能。
translated by 谷歌翻译
近年来,基于注意力的场景文本识别方法非常受欢迎,并吸引了许多研究人员的兴趣。基于注意力的方法可以将注意力集中在解码过程中的小区域甚至单点上,其中注意矩阵几乎是一个旋转分布。此外,在推断过程中,所有注意力矩阵都将加权整个特征地图,从而导致巨大的冗余计算。在本文中,我们提出了一个用于场景文本识别的有效无注意的单点解码网络(称为SPDN),该网络可以取代传统的基于注意力的解码网络。具体而言,我们建议单点采样模块(SPSM)有效地在特征映射上为解码一个字符的一个关键点采样。这样,我们的方法不仅可以精确地找到每个字符的关键点,还可以删除冗余计算。基于SPSM,我们设计了一个高效且新颖的单点解码网络,以替代基于注意力的解码网络。对公开基准测试的广泛实验证明,我们的SPDN可以大大提高解码效率而不牺牲性能。
translated by 谷歌翻译
多年来,场景文本识别(STR)一直是计算机视觉的积极研究主题。为了解决这个具有挑战性的问题,已经提出了许多创新的方法,并将语言知识纳入STR模型最近已成为一个显着的趋势。在这项工作中,我们首先从视觉变压器(VIT)的最新进展中汲取灵感来构建一个概念上简单而强大的视觉str模型,该模型建立在VIT和胜过以前的现场文本识别的先前最新模型,包括纯视觉模型和语言增强方法。为了整合语言知识,我们进一步提出了一种多粒性预测策略,以隐式方式将信息从语言模式注入模型,即NLP中广泛使用的子字表示(BPE和Wordpiece)被引入输出空间,除了传统的字符级别表示外,不采用独立语言模型(LM)。所得的算法(称为MGP-STR)能够将Str的性能包络提高到更高的水平。具体而言,它的平均识别精度在标准基准上达到93.35%。代码将很快发布。
translated by 谷歌翻译
最近,由于其广泛的商业价值,从视觉丰富的文档(例如门票和简历)中自动提取信息已成为一个热门而重要的研究主题。大多数现有方法将此任务分为两个小节:用于从原始文档图像中获取纯文本的文本阅读部分以及用于提取密钥内容的信息提取部分。这些方法主要集中于改进第二个方法,同时忽略了这两个部分高度相关。本文提出了一个统一的端到端信息提取框架,从视觉上富含文档中提出,文本阅读和信息提取可以通过精心设计的多模式上下文块相互加强。具体而言,文本阅读部分提供了多模式功能,例如视觉,文本和布局功能。开发了多模式上下文块,以融合生成的多模式特征,甚至是从预训练的语言模型中获得的先验知识,以提供更好的语义表示。信息提取部分负责使用融合上下文功能生成密钥内容。该框架可以以端到端的可训练方式进行培训,从而实现全球优化。更重要的是,我们将视觉丰富的文档定义为跨两个维度的四个类别,即布局和文本类型。对于每个文档类别,我们提供或推荐相应的基准,实验设置和强大的基准,以弥补该研究领域缺乏统一评估标准的问题。报告了对四种基准测试的广泛实验(从固定布局到可变布局,从完整的文本到半未结构化的文本),证明了所提出的方法的有效性。数据,源代码和模型可用。
translated by 谷歌翻译
变压器是一种基于关注的编码器解码器架构,彻底改变了自然语言处理领域。灵感来自这一重大成就,最近在将变形式架构调整到计算机视觉(CV)领域的一些开创性作品,这已经证明了他们对各种简历任务的有效性。依靠竞争力的建模能力,与现代卷积神经网络相比在本文中,我们已经为三百不同的视觉变压器进行了全面的审查,用于三个基本的CV任务(分类,检测和分割),提出了根据其动机,结构和使用情况组织这些方法的分类。 。由于培训设置和面向任务的差异,我们还在不同的配置上进行了评估了这些方法,以便于易于和直观的比较而不是各种基准。此外,我们已经揭示了一系列必不可少的,但可能使变压器能够从众多架构中脱颖而出,例如松弛的高级语义嵌入,以弥合视觉和顺序变压器之间的差距。最后,提出了三个未来的未来研究方向进行进一步投资。
translated by 谷歌翻译
我们提出Osformer,这是伪装实例分割(CIS)的第一个单阶段变压器框架。Osformer基于两个关键设计。首先,我们设计了一个位置传感变压器(LST),以通过引入位置引导查询和混合通风volvolution feedforward网络来获得位置标签和实例感知参数。其次,我们开发了一个粗到细节的融合(CFF),以合并LST编码器和CNN骨架的各种上下文信息。结合这两个组件使Osformer能够有效地融合本地特征和远程上下文依赖关系,以预测伪装的实例。与两阶段的框架相比,我们的OSFORMER达到41%的AP并达到良好的收敛效率,而无需大量的训练数据,即仅3040个以下的样本以下60个时代。代码链接:https://github.com/pjlallen/osformer。
translated by 谷歌翻译