表结构识别是文档图像分析域的关键部分。它的困难在于需要同时解析每个单元的物理坐标和逻辑指标。但是,现有的方法很难实现这两个目标,尤其是当表分裂线被模糊或倾斜时。在本文中,我们提出了一种基于端到端变压器的表面结构识别方法,称为信任。变压器由于其全局计算,完美的内存和并行计算而适合表结构识别。通过引入基于新型变压器基于查询的新型分裂模块和基于顶点的合并模块,表结构识别问题被脱钩到两个关节优化子任务中:多面向的表行/列分拆分和表格格里合并。基于查询的拆分模块通过变压器网络从长期依赖项中学习了强烈的上下文信息,准确预测了多个面向的表行/列分离器,并相应地获得了表的基本网格。基于顶点的合并模块能够在相邻的基本网格之间汇总局部上下文信息,从而能够合并准确属于同一跨越单元的基本束。我们对包括PubTabnet和Connthtable在内的几个流行基准进行实验,我们的方法实现了新的最新结果。特别是,信任在PubTabnet上以10 fps的速度运行,超过了先前的方法。
translated by 谷歌翻译
我们提出了一种新的表结构识别方法(TSR)方法,称为TSRFormer,以稳健地识别来自各种表图像的几何变形的复杂表的结构。与以前的方法不同,我们将表分离线预测作为线回归问题,而不是图像分割问题,并提出了一种新的两阶段基于基于DETR的分离器预测方法,称为\ textbf {sep} arator \ textbf {re} re} tr} ansformer(sepretr),直接预测与表图像的分离线。为了使两阶段的DETR框架有效地有效地在分离线预测任务上工作,我们提出了两个改进:1)一种先前增强的匹配策略,以解决慢速收敛问题的detr; 2)直接来自高分辨率卷积特征图的样本特征的新的交叉注意模块,以便以低计算成本实现高定位精度。在分离线预测之后,使用简单的基于关系网络的单元格合并模块来恢复跨越单元。借助这些新技术,我们的TSRFormer在包括SCITSR,PubTabnet和WTW在内的多个基准数据集上实现了最先进的性能。此外,我们已经验证了使用复杂的结构,无边界的单元,大空间,空的或跨越的单元格以及在更具挑战性的现实世界内部数据集中扭曲甚至弯曲的形状的桌子的鲁棒性。
translated by 谷歌翻译
我们介绍了一种名为RobustAbnet的新表检测和结构识别方法,以检测表的边界并从异质文档图像中重建每个表的细胞结构。为了进行表检测,我们建议将Cornernet用作新的区域建议网络来生成更高质量的表建议,以更快的R-CNN,这显着提高了更快的R-CNN的定位准确性以进行表检测。因此,我们的表检测方法仅使用轻巧的RESNET-18骨干网络,在三个公共表检测基准(即CTDAR TRACKA,PUBLAYNET和IIIT-AR-13K)上实现最新性能。此外,我们提出了一种新的基于分裂和合并的表结构识别方法,其中提出了一个新型的基于CNN的新空间CNN分离线预测模块将每个检测到的表分为单元格,并且基于网格CNN的CNN合并模块是应用用于恢复生成细胞。由于空间CNN模块可以有效地在整个表图像上传播上下文信息,因此我们的表结构识别器可以坚固地识别具有较大的空白空间和几何扭曲(甚至弯曲)表的表。得益于这两种技术,我们的表结构识别方法在包括SCITSR,PubTabnet和CTDAR TrackB2-Modern在内的三个公共基准上实现了最先进的性能。此外,我们进一步证明了我们方法在识别具有复杂结构,大空间以及几何扭曲甚至弯曲形状的表上的表格上的优势。
translated by 谷歌翻译
最近,在深图模型的帮助下,表结构识别取得了令人印象深刻的进展。其中大多数利用表格元素的单个视觉线索或通过早期融合来利用其他方式与其他方式结合起来,以推理其图形关系。然而,在多种模式方面既不是早期融合也不是单独的推理,可以适用于具有巨大多样性的表结构。相反,预计不同的方式将以不同的表案例的不同模式相互协作。在社区中,表层结构推理的跨性模特间交互的重要性仍未开发。在本文中,我们将其定义为异构表结构识别(异质-TSR)问题。旨在填补这种差距,我们提出了一种配备有堆叠的协作块的新型神经协作图机(NCGM),其替代地提取了模态上下文并以分层方式模拟了模范间交互。它可以代表表格元件的帧内模特关系更加强大,这显着提高了识别性能。我们还表明,所提出的NCGM可以调制在模态线索的背景下调节不同方式的不同方式的协同模式,这对于多元化表案例至关重要。基准测试的实验结果证明了我们所提出的NCGM实现最先进的性能,并通过较大的余量击败其他当代方法,特别是在挑战性的情况下。
translated by 谷歌翻译
表结构识别对于全面了解文档是必要的。由于布局的高度多样化,内容的变化和空细胞的存在,非结构化业务文档中的表格很难解析。由于使用视觉或语言环境或两者既是识别单个小区的挑战,问题是特别困难的。准确地检测表格单元(包括空单元)简化了结构提取,因此,它成为我们工作的主要重点。我们提出了一种新的基于对象检测的深层模型,可以捕获表中单元格的固有对齐,并进行微调以快速优化。尽管对细胞准确地检测,但识别致密表的结构仍可能具有挑战性,因为在存在多行/列跨越单元的存在下捕获远程行/列依赖性的困难。因此,我们还旨在通过推导新的直线图的基础制剂来改善结构识别。从语义角度来看,我们突出了桌子中空细胞的重要性。要考虑这些细胞,我们建议对流行的评估标准提升。最后,我们介绍了一个适度大小的评估数据集,其引人注目的风格灵感来自人类认知,以鼓励对问题的新方法进行启发。我们的框架在基准数据集中通过2.7%的平均F1分数提高了先前的最先进的性能。
translated by 谷歌翻译
Previous approaches for scene text detection have already achieved promising performances across various benchmarks. However, they usually fall short when dealing with challenging scenarios, even when equipped with deep neural network models, because the overall performance is determined by the interplay of multiple stages and components in the pipelines. In this work, we propose a simple yet powerful pipeline that yields fast and accurate text detection in natural scenes. The pipeline directly predicts words or text lines of arbitrary orientations and quadrilateral shapes in full images, eliminating unnecessary intermediate steps (e.g., candidate aggregation and word partitioning), with a single neural network. The simplicity of our pipeline allows concentrating efforts on designing loss functions and neural network architecture. Experiments on standard datasets including ICDAR 2015, COCO-Text and MSRA-TD500 demonstrate that the proposed algorithm significantly outperforms state-of-the-art methods in terms of both accuracy and efficiency. On the ICDAR 2015 dataset, the proposed algorithm achieves an F-score of 0.7820 at 13.2fps at 720p resolution.
translated by 谷歌翻译
Recently, segmentation-based methods are quite popular in scene text detection, which mainly contain two steps: text kernel segmentation and expansion. However, the segmentation process only considers each pixel independently, and the expansion process is difficult to achieve a favorable accuracy-speed trade-off. In this paper, we propose a Context-aware and Boundary-guided Network (CBN) to tackle these problems. In CBN, a basic text detector is firstly used to predict initial segmentation results. Then, we propose a context-aware module to enhance text kernel feature representations, which considers both global and local contexts. Finally, we introduce a boundary-guided module to expand enhanced text kernels adaptively with only the pixels on the contours, which not only obtains accurate text boundaries but also keeps high speed, especially on high-resolution output maps. In particular, with a lightweight backbone, the basic detector equipped with our proposed CBN achieves state-of-the-art results on several popular benchmarks, and our proposed CBN can be plugged into several segmentation-based methods. Code will be available on https://github.com/XiiZhao/cbn.pytorch.
translated by 谷歌翻译
由于信息和通信技术(ICT)产品的特征,ICT设备的关键信息通常以跨供应链共享的大型表格数据进行总结。因此,至关重要的是,用电子资产的飙升量自动解释表格结构。为了将电子文档中的表格数据转换为机器解释格式,并提供有关信息提取和解释的布局和语义信息,我们定义了表结构识别(TSR)任务和表单元格类型分类(CTC)任务。我们使用图表代表TSR任务的复杂表结构。同时,根据CTC任务(即标头,属性和数据)的功能角色,将表单元格分为三组。随后,我们提出了一个多任务模型,以使用文本模态和图像模态特征同时解决定义的两个任务。我们的实验结果表明,我们提出的方法可以超过ICDAR2013和UNLV数据集的最先进方法。
translated by 谷歌翻译
在任意形状的文本检测中,定位准确的文本边界具有挑战性且不平淡。现有方法通常会遭受间接的文本边界建模或复杂的后处理。在本文中,我们通过边界学习进行系统地呈现一个统一的粗到精细的框架,以进行任意形状的文本检测,该框架可以准确有效地定位文本边界而无需后处理。在我们的方法中,我们通过创新的文本边界明确地对文本边界进行了明确模拟迭代边界变压器以粗到十的方式。这样,我们的方法可以直接获得准确的文本边界并放弃复杂的后处理以提高效率。具体而言,我们的方法主要由特征提取主链,边界建议模块和迭代优化的边界变压器模块组成。由多层扩张卷积组成的边界提案模块将计算重要的先验信息(包括分类图,距离场和方向场),以生成粗边界建议,同时指导边界变压器的优化。边界变压器模块采用编码器模块结构,其中编码器由具有残差连接的多层变压器块构造,而解码器是一个简单的多层perceptron网络(MLP)。在先验信息的指导下,边界变压器模块将通过迭代边界变形逐渐完善粗边界建议。此外,我们提出了一种新型的边界能量损失(BEL),该损失引入了能量最小化约束和单调减少约束的能量,以进一步优化和稳定边界细化的学习。关于公开可用和挑战数据集的广泛实验证明了我们方法的最先进性能和有希望的效率。
translated by 谷歌翻译
最近,由于其广泛的商业价值,从视觉丰富的文档(例如门票和简历)中自动提取信息已成为一个热门而重要的研究主题。大多数现有方法将此任务分为两个小节:用于从原始文档图像中获取纯文本的文本阅读部分以及用于提取密钥内容的信息提取部分。这些方法主要集中于改进第二个方法,同时忽略了这两个部分高度相关。本文提出了一个统一的端到端信息提取框架,从视觉上富含文档中提出,文本阅读和信息提取可以通过精心设计的多模式上下文块相互加强。具体而言,文本阅读部分提供了多模式功能,例如视觉,文本和布局功能。开发了多模式上下文块,以融合生成的多模式特征,甚至是从预训练的语言模型中获得的先验知识,以提供更好的语义表示。信息提取部分负责使用融合上下文功能生成密钥内容。该框架可以以端到端的可训练方式进行培训,从而实现全球优化。更重要的是,我们将视觉丰富的文档定义为跨两个维度的四个类别,即布局和文本类型。对于每个文档类别,我们提供或推荐相应的基准,实验设置和强大的基准,以弥补该研究领域缺乏统一评估标准的问题。报告了对四种基准测试的广泛实验(从固定布局到可变布局,从完整的文本到半未结构化的文本),证明了所提出的方法的有效性。数据,源代码和模型可用。
translated by 谷歌翻译
了解具有丰富布局的文档是迈向信息提取的重要一步。商业智能过程通常需要大规模从文档中提取有用的语义内容,以进行后续决策任务。在这种情况下,不同文档对象(标题,部分,图形等)的实例级分割已成为文档分析和理解社区的有趣问题。为了朝这个方向推进研究,我们提出了一个基于变压器的模型,称为\ emph {docsegtr},用于文档图像中复杂布局的端到端实例分割。该方法适应了一个双重注意模块,用于语义推理,这有助于与最先进相比,有助于高度计算效率。据我们所知,这是基于变压器的文档细分的第一部作品。对竞争性基准等广泛的实验,例如PublayNet,Prima,“历史日语”和Tablebank,表明我们的模型比现有的最先进的方法具有可比较或更好的细分性能,平均精度为89.4、40.4、40.3、83.4和93.33 。这个简单而灵活的框架可以作为文档图像中实例级识别任务的有前途的基线。
translated by 谷歌翻译
基于关注的编码器 - 解码器框架在现场文本识别中变得流行,主要是由于其在从视觉和语义域集成识别线索方面的优越性。然而,最近的研究表明,这两个线索可能在困难的文本中错位(例如,具有稀有文本形状)并引入诸如角色位置的约束来缓解问题。尽管有一定的成功,但无内容的位置嵌入稳定地与有意义的本地图像区域嵌入。在本文中,我们提出了一种名为多域字符距离感知(MDCDP)的新型模块,以建立视觉和语义相关位置编码。 MDCDP使用位置嵌入在注意机制后查询视觉和语义功能。它自然地编码了位置线索,其描述了字符之间的视觉和语义距离。我们开发一个名为CDISTNET的新型架构,堆叠MDCDP几次以指导精确的距离建模。因此,即使呈现的各种困难,视觉语义对准也很好地建造。我们将CDISTNET应用于两个增强的数据集和六个公共基准。实验表明,CDISTNET实现了最先进的识别准确性。虽然可视化也表明CDISTNET在视觉和语义域中实现了适当的注意本地化。我们将在验收时发布我们的代码。
translated by 谷歌翻译
Scene text spotting is of great importance to the computer vision community due to its wide variety of applications. Recent methods attempt to introduce linguistic knowledge for challenging recognition rather than pure visual classification. However, how to effectively model the linguistic rules in end-to-end deep networks remains a research challenge. In this paper, we argue that the limited capacity of language models comes from 1) implicit language modeling; 2) unidirectional feature representation; and 3) language model with noise input. Correspondingly, we propose an autonomous, bidirectional and iterative ABINet++ for scene text spotting. Firstly, the autonomous suggests enforcing explicitly language modeling by decoupling the recognizer into vision model and language model and blocking gradient flow between both models. Secondly, a novel bidirectional cloze network (BCN) as the language model is proposed based on bidirectional feature representation. Thirdly, we propose an execution manner of iterative correction for the language model which can effectively alleviate the impact of noise input. Finally, to polish ABINet++ in long text recognition, we propose to aggregate horizontal features by embedding Transformer units inside a U-Net, and design a position and content attention module which integrates character order and content to attend to character features precisely. ABINet++ achieves state-of-the-art performance on both scene text recognition and scene text spotting benchmarks, which consistently demonstrates the superiority of our method in various environments especially on low-quality images. Besides, extensive experiments including in English and Chinese also prove that, a text spotter that incorporates our language modeling method can significantly improve its performance both in accuracy and speed compared with commonly used attention-based recognizers.
translated by 谷歌翻译
基于关注的编码器解码器框架广泛用于场景文本识别任务。然而,对于当前的最先进的(SOTA)方法,就输入文本图像的本地视觉和全局上下文信息的有效使用而言,存在改进的余地,以及场景之间的鲁棒相关性处理模块(编码器)和文本处理模块(解码器)。在本文中,我们提出了一种表示和相关性增强的编码器解码器框架(Rceed)来解决这些缺陷和断裂性能瓶颈。在编码器模块中,将本地视觉功能,全局上下文特征和位置信息进行对齐并融合以生成小型综合特征图。在解码器模块中,使用两种方法来增强场景和文本特征空间之间的相关性。 1)解码器初始化由从编码器导出的整体特征和全局瞥觉矢量引导。 2)通过多头一般注意力产生的富集瞥见载体的特征来帮助RNN迭代和每个时间步骤的字符预测。同时,我们还设计了一个LABRAMORM-DROPOUT LSTM单元,以改善模型的可变文本的概括。基准的广泛实验展示了在现场文本识别任务中的有利性能,尤其是不规则的性能。
translated by 谷歌翻译
近年来,人群计数研究取得了重大进展。然而,随着人群中存在具有挑战性的规模变化和复杂的场景,传统的卷积网络和最近具有固定大小的变压器架构都不能良好地处理任务。为了解决这个问题,本文提出了一个场景 - 自适应关注网络,称为Saanet。首先,我们设计了可变形的变压器骨干内的可变形关注,从而了解具有可变形采样位置和动态注意力的自适应特征表示。然后,我们提出了多级特征融合和计数专注特征增强模块,以加强全局图像上下文下的特征表示。学习的陈述可以参加前景,并适应不同的人群。我们对四个具有挑战性的人群计数基准进行广泛的实验,表明我们的方法实现了最先进的性能。特别是,我们的方法目前在NWPU-Crowd基准的公共排行榜上排名第一。我们希望我们的方法可能是一个强大的基线,以支持人群计数的未来研究。源代码将被释放到社区。
translated by 谷歌翻译
定向对象检测是在空中图像中的具有挑战性的任务,因为航空图像中的物体以任意的方向显示并且经常密集包装。主流探测器使用五个参数或八个主角表示描述了旋转对象,这遭受了定向对象定义的表示模糊性。在本文中,我们提出了一种基于平行四边形的面积比的新型表示方法,称为ARP。具体地,ARP回归定向对象的最小边界矩形和三个面积比。三个面积比包括指向物体与最小的外接矩形的面积比和两个平行四边形到最小的矩形。它简化了偏移学习,消除了面向对象的角度周期性或标签点序列的问题。为了进一步弥补近横向物体的混淆问题,采用对象和其最小的外缘矩形的面积比来指导每个物体的水平或定向检测的选择。此外,使用水平边界盒和三个面积比的旋转高效交叉点(R-EIOU)丢失和三个面积比旨在优化用于旋转对象的边界盒回归。遥感数据集的实验结果,包括HRSC2016,DOTA和UCAS-AOD,表明我们的方法达到了卓越的检测性能,而不是许多最先进的方法。
translated by 谷歌翻译
文档AI或Document Intelligence是一个相对较新的研究主题,指的是自动阅读,理解和分析业务文档的技术。它是自然语言处理和计算机视觉的重要研究方向。近年来,深度学习技术的普及已经大大提高了文档AI的发展,如文件布局分析,视觉信息提取,文档视觉问题应答,文档图像分类等。本文简要评论了一些代表性模型,任务和基准数据集。此外,我们还介绍了早期的启发式规则的文档分析,统计机器学习算法,深度学习方法,尤其是预训练方法。最后,我们展望未来的Document AI研究方向。
translated by 谷歌翻译
视觉问题应答(VQA)任务利用视觉图像和语言分析来回回答图像的文本问题。它是一个流行的研究课题,在过去十年中越来越多的现实应用。本文介绍了我们最近对AliceMind-MMU的研究(阿里巴巴的编码器 - 解码器来自Damo Academy - 多媒体理解的机器智能实验室),其比人类在VQA上获得相似甚至略微更好的结果。这是通过系统地改善VQA流水线来实现的,包括:(1)具有全面的视觉和文本特征表示的预培训; (2)与学习参加的有效跨模型互动; (3)一个新颖的知识挖掘框架,具有专门的专业专家模块,适用于复杂的VQA任务。处理不同类型的视觉问题,需要具有相应的专业知识在提高我们的VQA架构的表现方面发挥着重要作用,这取决于人力水平。进行了广泛的实验和分析,以证明新的研究工作的有效性。
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
Point cloud learning has lately attracted increasing attention due to its wide applications in many areas, such as computer vision, autonomous driving, and robotics. As a dominating technique in AI, deep learning has been successfully used to solve various 2D vision problems. However, deep learning on point clouds is still in its infancy due to the unique challenges faced by the processing of point clouds with deep neural networks. Recently, deep learning on point clouds has become even thriving, with numerous methods being proposed to address different problems in this area. To stimulate future research, this paper presents a comprehensive review of recent progress in deep learning methods for point clouds. It covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. It also presents comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions.
translated by 谷歌翻译