智能论文笔记

Handling big tabular data of ICT supply chains: a multi-task, machine-interpretable approach

Bin Xiao , Murat Simsek , Burak Kantarci , Ala Abu Alkheir

分类：计算机视觉

2022-08-11

由于信息和通信技术（ICT）产品的特征，ICT设备的关键信息通常以跨供应链共享的大型表格数据进行总结。因此，至关重要的是，用电子资产的飙升量自动解释表格结构。为了将电子文档中的表格数据转换为机器解释格式，并提供有关信息提取和解释的布局和语义信息，我们定义了表结构识别（TSR）任务和表单元格类型分类（CTC）任务。我们使用图表代表TSR任务的复杂表结构。同时，根据CTC任务（即标头，属性和数据）的功能角色，将表单元格分为三组。随后，我们提出了一个多任务模型，以使用文本模态和图像模态特征同时解决定义的两个任务。我们的实验结果表明，我们提出的方法可以超过ICDAR2013和UNLV数据集的最先进方法。

translated by 谷歌翻译

Efficient Information Sharing in ICT Supply Chain Social Network via Table Structure Recognition

Bin Xiao , Yakup Akkaya , Murat Simsek , Burak Kantarci , Ala Abu Alkheir

分类：计算机视觉

2022-11-03

The global Information and Communications Technology (ICT) supply chain is a complex network consisting of all types of participants. It is often formulated as a Social Network to discuss the supply chain network's relations, properties, and development in supply chain management. Information sharing plays a crucial role in improving the efficiency of the supply chain, and datasheets are the most common data format to describe e-component commodities in the ICT supply chain because of human readability. However, with the surging number of electronic documents, it has been far beyond the capacity of human readers, and it is also challenging to process tabular data automatically because of the complex table structures and heterogeneous layouts. Table Structure Recognition (TSR) aims to represent tables with complex structures in a machine-interpretable format so that the tabular data can be processed automatically. In this paper, we formulate TSR as an object detection problem and propose to generate an intuitive representation of a complex table structure to enable structuring of the tabular data related to the commodities. To cope with border-less and small layouts, we propose a cost-sensitive loss function by considering the detection difficulty of each class. Besides, we propose a novel anchor generation method using the character of tables that columns in a table should share an identical height, and rows in a table should share the same width. We implement our proposed method based on Faster-RCNN and achieve 94.79% on mean Average Precision (AP), and consistently improve more than 1.5% AP for different benchmark models.

translated by 谷歌翻译

Visual Understanding of Complex Table Structures from Document Images

Sachin Raja , Ajoy Mondal , C V Jawahar

分类：计算机视觉 | 人工智能

2021-11-13

表结构识别对于全面了解文档是必要的。由于布局的高度多样化，内容的变化和空细胞的存在，非结构化业务文档中的表格很难解析。由于使用视觉或语言环境或两者既是识别单个小区的挑战，问题是特别困难的。准确地检测表格单元（包括空单元）简化了结构提取，因此，它成为我们工作的主要重点。我们提出了一种新的基于对象检测的深层模型，可以捕获表中单元格的固有对齐，并进行微调以快速优化。尽管对细胞准确地检测，但识别致密表的结构仍可能具有挑战性，因为在存在多行/列跨越单元的存在下捕获远程行/列依赖性的困难。因此，我们还旨在通过推导新的直线图的基础制剂来改善结构识别。从语义角度来看，我们突出了桌子中空细胞的重要性。要考虑这些细胞，我们建议对流行的评估标准提升。最后，我们介绍了一个适度大小的评估数据集，其引人注目的风格灵感来自人类认知，以鼓励对问题的新方法进行启发。我们的框架在基准数据集中通过2.7％的平均F1分数提高了先前的最先进的性能。

translated by 谷歌翻译

Robust Table Detection and Structure Recognition from Heterogeneous Document Images

Chixiang Ma , Weihong Lin , Lei Sun , Qiang Huo

分类：计算机视觉

2022-03-17

我们介绍了一种名为RobustAbnet的新表检测和结构识别方法，以检测表的边界并从异质文档图像中重建每个表的细胞结构。为了进行表检测，我们建议将Cornernet用作新的区域建议网络来生成更高质量的表建议，以更快的R-CNN，这显着提高了更快的R-CNN的定位准确性以进行表检测。因此，我们的表检测方法仅使用轻巧的RESNET-18骨干网络，在三个公共表检测基准（即CTDAR TRACKA，PUBLAYNET和IIIT-AR-13K）上实现最新性能。此外，我们提出了一种新的基于分裂和合并的表结构识别方法，其中提出了一个新型的基于CNN的新空间CNN分离线预测模块将每个检测到的表分为单元格，并且基于网格CNN的CNN合并模块是应用用于恢复生成细胞。由于空间CNN模块可以有效地在整个表图像上传播上下文信息，因此我们的表结构识别器可以坚固地识别具有较大的空白空间和几何扭曲（甚至弯曲）表的表。得益于这两种技术，我们的表结构识别方法在包括SCITSR，PubTabnet和CTDAR TrackB2-Modern在内的三个公共基准上实现了最先进的性能。此外，我们进一步证明了我们方法在识别具有复杂结构，大空间以及几何扭曲甚至弯曲形状的表上的表格上的优势。

translated by 谷歌翻译

StrucTexT: Structured Text Understanding with Multi-Modal Transformers

Yulin Li , Yuxi Qian , Yuchen Yu , Xiameng Qin , Chengquan Zhang , Yan Liu , Kun Yao , Junyu Han , Jingtuo Liu , Errui Ding

分类：计算机视觉 | 自然语言处理

2021-08-06

在视觉上丰富的文件（VRD）上的结构化文本理解是文档智能的重要组成部分。由于VRD中的内容和布局的复杂性，结构化文本理解是一项有挑战性的任务。大多数现有的研究将此问题与两个子任务结尾：实体标记和实体链接，这需要整体地了解令牌和段级别的文档的上下文。但是，很少的工作已经关注有效地从不同层次提取结构化数据的解决方案。本文提出了一个名为structext的统一框架，它对于处理两个子任务是灵活的，有效的。具体地，基于变压器，我们引入了一个段令牌对齐的编码器，以处理不同粒度水平的实体标记和实体链接任务。此外，我们设计了一种具有三个自我监督任务的新型预训练策略，以学习更丰富的代表性。 Structext使用现有屏蔽的视觉语言建模任务和新句子长度预测和配对框方向任务，以跨文本，图像和布局结合多模态信息。我们评估我们在分段级别和令牌级别的结构化文本理解的方法，并表明它优于最先进的同行，在Funsd，Srie和Ephoie数据集中具有显着优越的性能。

translated by 谷歌翻译

TRUST: An Accurate and End-to-End Table structure Recognizer Using Splitting-based Transformers

Zengyuan Guo , Yuechen Yu , Pengyuan Lv , Chengquan Zhang , Haojie Li , Zhihui Wang , Kun Yao , Jingtuo Liu , Jingdong Wang

分类：计算机视觉

2022-08-31

表结构识别是文档图像分析域的关键部分。它的困难在于需要同时解析每个单元的物理坐标和逻辑指标。但是，现有的方法很难实现这两个目标，尤其是当表分裂线被模糊或倾斜时。在本文中，我们提出了一种基于端到端变压器的表面结构识别方法，称为信任。变压器由于其全局计算，完美的内存和并行计算而适合表结构识别。通过引入基于新型变压器基于查询的新型分裂模块和基于顶点的合并模块，表结构识别问题被脱钩到两个关节优化子任务中：多面向的表行/列分拆分和表格格里合并。基于查询的拆分模块通过变压器网络从长期依赖项中学习了强烈的上下文信息，准确预测了多个面向的表行/列分离器，并相应地获得了表的基本网格。基于顶点的合并模块能够在相邻的基本网格之间汇总局部上下文信息，从而能够合并准确属于同一跨越单元的基本束。我们对包括PubTabnet和Connthtable在内的几个流行基准进行实验，我们的方法实现了新的最新结果。特别是，信任在PubTabnet上以10 fps的速度运行，超过了先前的方法。

translated by 谷歌翻译

HTML版本

Graph Neural Networks and Representation Embedding for Table Extraction in PDF Documents

Andrea Gemelli , Emanuele Vivoli , Simone Marinai

分类：计算机视觉

2022-08-23

表被广泛用于几种类型的文档，因为它们可以以结构化的方式带来重要信息。在科学论文中，表可以概括新颖的发现并总结实验结果，从而使研究可以与学者相提并论。几种方法执行了在文档图像上使用的表分析，从PDF文件转换期间丢失了有用的信息，因为OCR工具可能容易出现识别错误，尤其是在表中的文本。这项工作的主要贡献是解决桌子提取问题，利用图形神经网络。节点特征富含适当设计的表示形式嵌入。这些表示形式不仅有助于更好地区分纸张的其他部分，还可以将表单元与桌子标题区分开。我们通过合并PublayNet和PubTables-1M数据集中提供的信息，在获得的新数据集上实验评估了所提出的方法。

translated by 谷歌翻译

Proceedings of the 3rd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.

translated by 谷歌翻译

Neural Collaborative Graph Machines for Table Structure Recognition

Hao Liu , Xin Li , Bing Liu , Deqiang Jiang , Yinsong Liu , Bo Ren

分类：计算机视觉

2021-11-26

最近，在深图模型的帮助下，表结构识别取得了令人印象深刻的进展。其中大多数利用表格元素的单个视觉线索或通过早期融合来利用其他方式与其他方式结合起来，以推理其图形关系。然而，在多种模式方面既不是早期融合也不是单独的推理，可以适用于具有巨大多样性的表结构。相反，预计不同的方式将以不同的表案例的不同模式相互协作。在社区中，表层结构推理的跨性模特间交互的重要性仍未开发。在本文中，我们将其定义为异构表结构识别（异质-TSR）问题。旨在填补这种差距，我们提出了一种配备有堆叠的协作块的新型神经协作图机（NCGM），其替代地提取了模态上下文并以分层方式模拟了模范间交互。它可以代表表格元件的帧内模特关系更加强大，这显着提高了识别性能。我们还表明，所提出的NCGM可以调制在模态线索的背景下调节不同方式的不同方式的协同模式，这对于多元化表案例至关重要。基准测试的实验结果证明了我们所提出的NCGM实现最先进的性能，并通过较大的余量击败其他当代方法，特别是在挑战性的情况下。

translated by 谷歌翻译

DEXTER: An end-to-end system to extract table contents from electronic medical health documents

Nandhinee PR , Harinath Krishnamoorthy , Anil Goyal , Sudarsun Santhiappan

分类：计算机视觉

2022-07-14

在本文中，我们提出了Dexter，这是一个端到端系统，以从医疗保健文件中存在的表中提取信息，例如电子健康记录（EHR）和福利解释（EOB）。 Dexter由四个子系统阶段组成：i）表检测ii）表类型分类iii）细胞检测；和iv）细胞含量提取。我们建议使用CDEC-NET体系结构以及用于表检测的非最大程度抑制作用，提出一种基于两阶段的转移学习方法。我们根据图像大小来检测行和列设计一种常规的基于计算机视觉的方法，用于使用参数化内核进行表类型分类和单元格检测。最后，我们使用现有的OCR发动机Tessaract从检测到的单元中提取文本。为了评估我们的系统，我们手动注释了现实世界中医学数据集（称为Meddata）的样本，该样本由各种文档（在外观上）组成，涵盖了不同的表结构，例如，诸如边界，部分边框，无边界或无边界，或彩色桌子。我们在实验上表明，Dexter在注释的现实世界医学数据集上优于市售的Amazon swark和Microsoft Azure形式识别器系统

translated by 谷歌翻译

TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents

Zhanzhan Cheng , Peng Zhang , Can Li , Qiao Liang , Yunlu Xu , Pengfei Li , Shiliang Pu , Yi Niu , Fei Wu

分类：计算机视觉

2022-07-14

最近，由于其广泛的商业价值，从视觉丰富的文档（例如门票和简历）中自动提取信息已成为一个热门而重要的研究主题。大多数现有方法将此任务分为两个小节：用于从原始文档图像中获取纯文本的文本阅读部分以及用于提取密钥内容的信息提取部分。这些方法主要集中于改进第二个方法，同时忽略了这两个部分高度相关。本文提出了一个统一的端到端信息提取框架，从视觉上富含文档中提出，文本阅读和信息提取可以通过精心设计的多模式上下文块相互加强。具体而言，文本阅读部分提供了多模式功能，例如视觉，文本和布局功能。开发了多模式上下文块，以融合生成的多模式特征，甚至是从预训练的语言模型中获得的先验知识，以提供更好的语义表示。信息提取部分负责使用融合上下文功能生成密钥内容。该框架可以以端到端的可训练方式进行培训，从而实现全球优化。更重要的是，我们将视觉丰富的文档定义为跨两个维度的四个类别，即布局和文本类型。对于每个文档类别，我们提供或推荐相应的基准，实验设置和强大的基准，以弥补该研究领域缺乏统一评估标准的问题。报告了对四种基准测试的广泛实验（从固定布局到可变布局，从完整的文本到半未结构化的文本），证明了所提出的方法的有效性。数据，源代码和模型可用。

translated by 谷歌翻译

Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding

Chuwei Luo , Guozhi Tang , Qi Zheng , Cong Yao , Lianwen Jin , Chenliang Li , Yang Xue , Luo Si

分类：计算机视觉 | 自然语言处理

2022-06-27

事实证明，多模式文档预训练的模型在各种视觉上富裕的文档理解（VRDU）任务中非常有效。尽管现有的文档预先培训模型在VRDU的标准基准上取得了出色的性能，但它们建模和利用文档上的视觉和语言之间的互动的方式阻碍了他们无法获得更好的概括能力和更高的准确性。在这项工作中，我们主要从监督信号的角度研究了VRDU视觉联合表示学习的问题。具体而言，提出了一种称为BI-VLDOC的预训练范式，其中设计了双向视觉监督策略和视觉性混合注意机制，以完全探索并利用这两种方式之间的相互作用，以学习更强的交叉交叉方式 - 具有更丰富语义的模式文档表示。 Bi-Vldoc受益于学习丰富的跨模式文档表示形式，显着提高了三个广泛使用文档的最新性能，理解基准，包括形式的理解（从85.14％到93.44％），收据信息提取（从96.01％到97.84％）和文档分类（从96.08％到97.12％）。在文档视觉质量检查中，BI-VLDOC与以前的单个模型方法相比，实现了最先进的性能。

translated by 谷歌翻译

Multimodal E-Commerce Product Classification Using Hierarchical Fusion

Tsegaye Misikir Tashu , Sara Fattouh , Peter Kiss , Tomas Horvath

分类：人工智能

2022-07-07

在这项工作中，我们提出了用于商业产品分类的多模式模型，该模型结合了使用简单的融合技术从Textual（Camembert和Flaubert）和视觉数据（SE-Resnext-50）中提取的功能。所提出的方法显着优于单峰模型的性能以及在我们的特定任务上报告的类似模型的报告。我们进行了多种融合技术的实验，并发现，结合单峰网络的单个嵌入的最佳性能技术是基于结合串联和平均特征向量的方法。每种模式都补充了其他方式的缺点，表明增加模态的数量可能是改善多标签和多模式分类问题的有效方法。

translated by 谷歌翻译

Document AI: Benchmarks, Models and Applications

Lei Cui , Yiheng Xu , Tengchao Lv , Furu Wei

分类：自然语言处理

2021-11-16

文档AI或Document Intelligence是一个相对较新的研究主题，指的是自动阅读，理解和分析业务文档的技术。它是自然语言处理和计算机视觉的重要研究方向。近年来，深度学习技术的普及已经大大提高了文档AI的发展，如文件布局分析，视觉信息提取，文档视觉问题应答，文档图像分类等。本文简要评论了一些代表性模型，任务和基准数据集。此外，我们还介绍了早期的启发式规则的文档分析，统计机器学习算法，深度学习方法，尤其是预训练方法。最后，我们展望未来的Document AI研究方向。

translated by 谷歌翻译

Information Extraction from Visually Rich Documents with Font Style Embeddings

Ismail Oussaid , William Vanhuffel , Pirashanth Ratnamogan , Mhamed Hajaiej , Alexis Mathey , Thomas Gilles

分类：自然语言处理 | 计算机视觉

2021-11-07

来自文件的信息提取（即）是一大集工业应用的密集研究领域。目前最先进的方法专注于扫描文档，其中包含计算机视觉，自然语言处理和布局表示的方法。我们建议在可获得令牌风格和视觉表示的情况下挑战计算机愿景的使用（即本机PDF文件）。我们在三个现实世界复杂数据集上的实验表明，使用基于令牌的嵌入属性而不是Layoutlm模型中的原始视觉嵌入是有益的。根据数据集，这种嵌入在加权F1分数中提高0.18％至2.29％，在模型的最终培训参数中减少30.7％，从而提高了效率和有效性。

translated by 谷歌翻译

Data augmentation on graphs for table type classification

Davide del Bimbo , Andrea Gemelli , Simone Marinai

分类：计算机视觉

2022-08-23

由于信息的紧凑而结构化的信息表示，表被广泛用于文档中。特别是，在科学论文中，表可以概括新颖的发现并总结实验结果，从而使研究可以与学者相提并论。由于表的布局高度可变，因此将其内容解释并将其分类为类别是有用的。这可能有助于直接从科学论文中提取信息，例如，鉴于其论文结果表比较某些模型的性能。在这项工作中，我们使用图神经网络解决了表格的分类，从而利用表格传递算法的表结构。我们在TAB2KKEY数据集的子集上评估了模型。由于它包含几乎没有手动注释的示例，因此我们直接在表图结构上提出了数据增强技术。我们获得了有希望的初步结果，提出了一种适用于基于图表的表表示的数据增强方法。

translated by 谷歌翻译

TSRFormer: Table Structure Recognition with Transformers

Weihong Lin , Zheng Sun , Chixiang Ma , Mingze Li , Jiawei Wang , Lei Sun , Qiang Huo

分类：计算机视觉

2022-08-09

我们提出了一种新的表结构识别方法（TSR）方法，称为TSRFormer，以稳健地识别来自各种表图像的几何变形的复杂表的结构。与以前的方法不同，我们将表分离线预测作为线回归问题，而不是图像分割问题，并提出了一种新的两阶段基于基于DETR的分离器预测方法，称为\ textbf {sep} arator \ textbf {re} re} tr} ansformer（sepretr），直接预测与表图像的分离线。为了使两阶段的DETR框架有效地有效地在分离线预测任务上工作，我们提出了两个改进：1）一种先前增强的匹配策略，以解决慢速收敛问题的detr； 2）直接来自高分辨率卷积特征图的样本特征的新的交叉注意模块，以便以低计算成本实现高定位精度。在分离线预测之后，使用简单的基于关系网络的单元格合并模块来恢复跨越单元。借助这些新技术，我们的TSRFormer在包括SCITSR，PubTabnet和WTW在内的多个基准数据集上实现了最先进的性能。此外，我们已经验证了使用复杂的结构，无边界的单元，大空间，空的或跨越的单元格以及在更具挑战性的现实世界内部数据集中扭曲甚至弯曲的形状的桌子的鲁棒性。

translated by 谷歌翻译

Flexible Table Recognition and Semantic Interpretation System

Marcin Namysl , Alexander M. Esser , Sven Behnke , Joachim Köhler

分类：计算机视觉

2021-05-25

表提取是一个重要但仍未解决的问题。在本文中，我们介绍了一种柔性和模块化的台式提取系统。我们开发了两个基于规则的算法，执行完整的表识别过程，包括表检测和分割，并支持最常见的表格格式。此外，为了纳入语义信息的提取，我们开发了一种基于图形的表解释方法。我们对挑战表识别基准ICDAR 2013和ICDAR 2019进行了广泛的实验，实现了与最先进的方法竞争的结果。我们完整的信息提取系统展出了0.7380的高F1得分。为了支持未来的信息提取研究，我们将来自我们的表解释实验，使资源（地面诠释，评估脚本，算法参数）公开可用。

translated by 谷歌翻译

Doc-GCN: Heterogeneous Graph Convolutional Networks for Document Layout Analysis

Siwen Luo , Yihao Ding , Siqu Long , Soyeon Caren Han , Josiah Poon

分类：计算机视觉 | 机器学习

2022-08-22

在将文档解析为下游应用程序的结构化，机器可读格式时，识别非结构化数字文档的布局至关重要。文档布局分析中的最新研究通常依靠计算机视觉模型来理解文档，同时忽略其他信息，例如上下文信息或文档组件的关系，这对于捕获至关重要。我们的DOC-GCN提出了一种有效的方法，可以协调和整合异质方面以进行文档布局分析。我们首先构造图形以明确描述四个主要方面，包括句法，语义，密度和外观/视觉信息。然后，我们应用图形卷积网络来表示信息的各个方面，并使用池进行集成。最后，我们将各个方面汇总，并将它们送入2层MLP，以进行文档布局组件分类。我们的DOC-GCN实现了新的最先进的结果，从而获得了三个广泛使用的DLA数据集。

translated by 谷歌翻译

GMN: Generative Multi-modal Network for Practical Document Information Extraction

Haoyu Cao , Jiefeng Ma , Antai Guo , Yiqing Hu , Hao Liu , Deqiang Jiang , Yinsong Liu , Bo Ren

分类：自然语言处理

2022-07-11

文档信息提取（DIE）由于其在现实世界中的各种高级应用而引起了越来越多的关注。尽管最近的文献已经取得了竞争成果，但在处理具有嘈杂的OCR结果或突变布局的复杂文档时，这些方法通常会失败。本文提出了用于现实世界情景的生成多模式网络（GMN），以解决这些问题，这是一种强大的多模式生成方法，没有预定义的标签类别。借助精心设计的空间编码器和模态感知的蒙版模块，GMN可以处理复杂的文档，这些文档很难序列化为顺序。此外，GMN可以容忍OCR结果中的错误，并且不需要字符级注释，这是至关重要的，因为对众多文档的细粒注释很费力，甚至需要具有专门域知识的注释者。广泛的实验表明，GMN在几个公共模具数据集上实现了新的最新性能，并超过了其他方法，尤其是在现实的场景中。

translated by 谷歌翻译