智能论文笔记

Graph Neural Networks and Representation Embedding for Table Extraction in PDF Documents

Andrea Gemelli , Emanuele Vivoli , Simone Marinai

分类：计算机视觉

2022-08-23

表被广泛用于几种类型的文档，因为它们可以以结构化的方式带来重要信息。在科学论文中，表可以概括新颖的发现并总结实验结果，从而使研究可以与学者相提并论。几种方法执行了在文档图像上使用的表分析，从PDF文件转换期间丢失了有用的信息，因为OCR工具可能容易出现识别错误，尤其是在表中的文本。这项工作的主要贡献是解决桌子提取问题，利用图形神经网络。节点特征富含适当设计的表示形式嵌入。这些表示形式不仅有助于更好地区分纸张的其他部分，还可以将表单元与桌子标题区分开。我们通过合并PublayNet和PubTables-1M数据集中提供的信息，在获得的新数据集上实验评估了所提出的方法。

translated by 谷歌翻译

Data augmentation on graphs for table type classification

Davide del Bimbo , Andrea Gemelli , Simone Marinai

分类：计算机视觉

2022-08-23

由于信息的紧凑而结构化的信息表示，表被广泛用于文档中。特别是，在科学论文中，表可以概括新颖的发现并总结实验结果，从而使研究可以与学者相提并论。由于表的布局高度可变，因此将其内容解释并将其分类为类别是有用的。这可能有助于直接从科学论文中提取信息，例如，鉴于其论文结果表比较某些模型的性能。在这项工作中，我们使用图神经网络解决了表格的分类，从而利用表格传递算法的表结构。我们在TAB2KKEY数据集的子集上评估了模型。由于它包含几乎没有手动注释的示例，因此我们直接在表图结构上提出了数据增强技术。我们获得了有希望的初步结果，提出了一种适用于基于图表的表表示的数据增强方法。

translated by 谷歌翻译

Doc2Graph: a Task Agnostic Document Understanding Framework based on Graph Neural Networks

Andrea Gemelli , Sanket Biswas , Enrico Civitelli , Josep Lladós , Simone Marinai

分类：计算机视觉

2022-08-23

几何深度学习最近对包括文档分析在内的广泛的机器学习领域引起了极大的兴趣。图形神经网络（GNN）的应用在各种与文档有关的任务中变得至关重要，因为它们可以揭示重要的结构模式，这是关键信息提取过程的基础。文献中的先前作品提出了任务驱动的模型，并且没有考虑到图形的全部功能。我们建议Doc2Graph是一种基于GNN模型的任务无关文档理解框架，以解决给定不同类型文档的不同任务。我们在两个具有挑战性的数据集上评估了我们的方法，以在形式理解，发票布局分析和表检测中进行关键信息提取。我们的代码可以在https://github.com/andreagemelli/doc2graph上自由访问。

translated by 谷歌翻译

Doc-GCN: Heterogeneous Graph Convolutional Networks for Document Layout Analysis

Siwen Luo , Yihao Ding , Siqu Long , Soyeon Caren Han , Josiah Poon

分类：计算机视觉 | 机器学习

2022-08-22

在将文档解析为下游应用程序的结构化，机器可读格式时，识别非结构化数字文档的布局至关重要。文档布局分析中的最新研究通常依靠计算机视觉模型来理解文档，同时忽略其他信息，例如上下文信息或文档组件的关系，这对于捕获至关重要。我们的DOC-GCN提出了一种有效的方法，可以协调和整合异质方面以进行文档布局分析。我们首先构造图形以明确描述四个主要方面，包括句法，语义，密度和外观/视觉信息。然后，我们应用图形卷积网络来表示信息的各个方面，并使用池进行集成。最后，我们将各个方面汇总，并将它们送入2层MLP，以进行文档布局组件分类。我们的DOC-GCN实现了新的最先进的结果，从而获得了三个广泛使用的DLA数据集。

translated by 谷歌翻译

Information Extraction from Visually Rich Documents with Font Style Embeddings

Ismail Oussaid , William Vanhuffel , Pirashanth Ratnamogan , Mhamed Hajaiej , Alexis Mathey , Thomas Gilles

分类：自然语言处理 | 计算机视觉

2021-11-07

来自文件的信息提取（即）是一大集工业应用的密集研究领域。目前最先进的方法专注于扫描文档，其中包含计算机视觉，自然语言处理和布局表示的方法。我们建议在可获得令牌风格和视觉表示的情况下挑战计算机愿景的使用（即本机PDF文件）。我们在三个现实世界复杂数据集上的实验表明，使用基于令牌的嵌入属性而不是Layoutlm模型中的原始视觉嵌入是有益的。根据数据集，这种嵌入在加权F1分数中提高0.18％至2.29％，在模型的最终培训参数中减少30.7％，从而提高了效率和有效性。

translated by 谷歌翻译

Information Extraction from Scanned Invoice Images using Text Analysis and Layout Features

Hien Thi Ha , Aleš Horák

分类：自然语言处理

2022-08-08

尽管将发票内容作为元数据存储以避免纸质文档处理可能是未来的趋势，但几乎所有每日发行的发票仍在纸上打印或以PDF等数字格式生成。在本文中，我们介绍了从扫描文档图像中提取信息的OCRMiner系统，该系统基于文本分析技术与布局功能结合使用（半）结构化文档的索引元数据。该系统旨在以人类读者使用的类似方式处理文档，即在协调决策中采用不同的布局和文本属性。该系统由一组互连模块组成，该模块以（可能是错误的）基于字符的输出从标准OCR系统开始，并允许应用不同的技术并在每个步骤中扩展提取的知识。使用开源OCR，该系统能够以90％的英语恢复发票数据，而捷克设置的发票数据为88％。

translated by 谷歌翻译

Document AI: Benchmarks, Models and Applications

Lei Cui , Yiheng Xu , Tengchao Lv , Furu Wei

分类：自然语言处理

2021-11-16

文档AI或Document Intelligence是一个相对较新的研究主题，指的是自动阅读，理解和分析业务文档的技术。它是自然语言处理和计算机视觉的重要研究方向。近年来，深度学习技术的普及已经大大提高了文档AI的发展，如文件布局分析，视觉信息提取，文档视觉问题应答，文档图像分类等。本文简要评论了一些代表性模型，任务和基准数据集。此外，我们还介绍了早期的启发式规则的文档分析，统计机器学习算法，深度学习方法，尤其是预训练方法。最后，我们展望未来的Document AI研究方向。

translated by 谷歌翻译

Robust Table Detection and Structure Recognition from Heterogeneous Document Images

Chixiang Ma , Weihong Lin , Lei Sun , Qiang Huo

分类：计算机视觉

2022-03-17

我们介绍了一种名为RobustAbnet的新表检测和结构识别方法，以检测表的边界并从异质文档图像中重建每个表的细胞结构。为了进行表检测，我们建议将Cornernet用作新的区域建议网络来生成更高质量的表建议，以更快的R-CNN，这显着提高了更快的R-CNN的定位准确性以进行表检测。因此，我们的表检测方法仅使用轻巧的RESNET-18骨干网络，在三个公共表检测基准（即CTDAR TRACKA，PUBLAYNET和IIIT-AR-13K）上实现最新性能。此外，我们提出了一种新的基于分裂和合并的表结构识别方法，其中提出了一个新型的基于CNN的新空间CNN分离线预测模块将每个检测到的表分为单元格，并且基于网格CNN的CNN合并模块是应用用于恢复生成细胞。由于空间CNN模块可以有效地在整个表图像上传播上下文信息，因此我们的表结构识别器可以坚固地识别具有较大的空白空间和几何扭曲（甚至弯曲）表的表。得益于这两种技术，我们的表结构识别方法在包括SCITSR，PubTabnet和CTDAR TrackB2-Modern在内的三个公共基准上实现了最先进的性能。此外，我们进一步证明了我们方法在识别具有复杂结构，大空间以及几何扭曲甚至弯曲形状的表上的表格上的优势。

translated by 谷歌翻译

A Survey of Historical Document Image Datasets

Konstantina Nikolaidou , Mathias Seuret , Hamam Mokayed , Marcus Liwicki

分类：计算机视觉

2022-03-16

本文介绍了用于文档图像分析的图像数据集的系统文献综述，重点是历史文档，例如手写手稿和早期印刷品。寻找适当的数据集进行历史文档分析是促进使用不同机器学习算法进行研究的关键先决条件。但是，由于实际数据非常多（例如，脚本，任务，日期，支持系统和劣化量），数据和标签表示的不同格式以及不同的评估过程和基准，因此找到适当的数据集是一项艰巨的任务。这项工作填补了这一空白，并在现有数据集中介绍了元研究。经过系统的选择过程（根据PRISMA指南），我们选择了56项根据不同因素选择的研究，例如出版年份，文章中实施的方法数量，所选算法的可靠性，数据集大小和期刊的可靠性出口。我们通过将其分配给三个预定义的任务之一来总结每个研究：文档分类，布局结构或语义分析。我们为每个数据集提供统计，文档类型，语言，任务，输入视觉方面和地面真实信息。此外，我们还提供了这些论文或最近竞争的基准任务和结果。我们进一步讨论了该领域的差距和挑战。我们倡导将转换工具提供到通用格式（例如，用于计算机视觉任务的可可格式），并始终提供一组评估指标，而不仅仅是一种评估指标，以使整个研究的结果可比性。

translated by 谷歌翻译

Learning Context-Aware Representations of Subtrees

Cedric Cook

分类：机器学习

2021-11-08

本文通过自然应用程序对网页和元素分类来解决复杂结构数据的高效表示的问题。我们假设网页内部元素周围的上下文对问题的价值很高，目前正在被利用。本文旨在通过考虑到其上下文来解决将Web元素分类为DOM树的子树的问题。为实现这一目标，首先讨论当前在结构上工作的专家知识系统，如树 - LSTM。然后，我们向该模型提出上下文感知扩展。我们表明，在多级Web分类任务中，新模型实现了0.7973的平均F1分数。该模型为各种子树生成更好的表示，并且可以用于应用此类元素分类，钢筋在网上学习中的状态估计等。

translated by 谷歌翻译

Proceedings of the 3rd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.

translated by 谷歌翻译

Visual Understanding of Complex Table Structures from Document Images

Sachin Raja , Ajoy Mondal , C V Jawahar

分类：计算机视觉 | 人工智能

2021-11-13

表结构识别对于全面了解文档是必要的。由于布局的高度多样化，内容的变化和空细胞的存在，非结构化业务文档中的表格很难解析。由于使用视觉或语言环境或两者既是识别单个小区的挑战，问题是特别困难的。准确地检测表格单元（包括空单元）简化了结构提取，因此，它成为我们工作的主要重点。我们提出了一种新的基于对象检测的深层模型，可以捕获表中单元格的固有对齐，并进行微调以快速优化。尽管对细胞准确地检测，但识别致密表的结构仍可能具有挑战性，因为在存在多行/列跨越单元的存在下捕获远程行/列依赖性的困难。因此，我们还旨在通过推导新的直线图的基础制剂来改善结构识别。从语义角度来看，我们突出了桌子中空细胞的重要性。要考虑这些细胞，我们建议对流行的评估标准提升。最后，我们介绍了一个适度大小的评估数据集，其引人注目的风格灵感来自人类认知，以鼓励对问题的新方法进行启发。我们的框架在基准数据集中通过2.7％的平均F1分数提高了先前的最先进的性能。

translated by 谷歌翻译

VILA: Improving Structured Content Extraction from Scientific PDFs Using Visual Layout Groups

Zejiang Shen , Kyle Lo , Lucy Lu Wang , Bailey Kuehl , Daniel S. Weld , Doug Downey

分类：自然语言处理 | 计算机视觉

2021-06-01

从PDFS中准确提取结构化内容是NLP在科学论文中的关键第一步。最近的工作通过纳入基本布局信息，例如在页面上的每个令牌的2D位置，进入语言模型预先润廓来提高提取精度。我们介绍了明确地模拟视觉布局（VILA）组，即文本行或文本块的新方法，以进一步提高性能。在我们的I-VILA方法中，我们表明，只需将特殊令牌插入模型输入的布局组边界即可导致令牌分类的1.9％的宏F1改进。在H-VILA方法中，我们表明布局组的分层编码可能导致宏F1损耗小于0.8％的高达47％的推理时间。与先前的布局感知方法不同，我们的方法不需要昂贵的额外预制，只有微调，我们显示的速度可以降低培训成本高达95％。实验在新策划的评估套件S2-Vlue上进行，该S2-VLUE统一现有的自动标记的数据集，包括从19个科学学科的不同论文的手动注释的新数据集。预先训练的权重，基准数据集和源代码可在https://github.com/allenai/vila获得。

translated by 谷歌翻译

Flexible Table Recognition and Semantic Interpretation System

Marcin Namysl , Alexander M. Esser , Sven Behnke , Joachim Köhler

分类：计算机视觉

2021-05-25

表提取是一个重要但仍未解决的问题。在本文中，我们介绍了一种柔性和模块化的台式提取系统。我们开发了两个基于规则的算法，执行完整的表识别过程，包括表检测和分割，并支持最常见的表格格式。此外，为了纳入语义信息的提取，我们开发了一种基于图形的表解释方法。我们对挑战表识别基准ICDAR 2013和ICDAR 2019进行了广泛的实验，实现了与最先进的方法竞争的结果。我们完整的信息提取系统展出了0.7380的高F1得分。为了支持未来的信息提取研究，我们将来自我们的表解释实验，使资源（地面诠释，评估脚本，算法参数）公开可用。

translated by 谷歌翻译

DAN: a Segmentation-free Document Attention Network for Handwritten Document Recognition

Denis Coquenet , Clément Chatelain , Thierry Paquet

分类：计算机视觉

2022-03-23

无约束的手写文本识别是一项具有挑战性的计算机视觉任务。传统上，它是通过两步方法来处理的，结合了线细分，然后是文本线识别。我们第一次为手写文档识别任务提出了无端到端的无分段体系结构：文档注意网络。除文本识别外，该模型还接受了使用类似XML的方式使用开始和结束标签标记文本零件的训练。该模型由用于特征提取的FCN编码器和用于复发令牌预测过程的变压器解码器层组成。它将整个文本文档作为输入和顺序输出字符以及逻辑布局令牌。与现有基于分割的方法相反，该模型是在不使用任何分割标签的情况下进行训练的。我们在页面级别的Read 2016数据集以及CER分别为3.43％和3.70％的双页级别上获得了竞争成果。我们还为Rimes 2009数据集提供了页面级别的结果，达到CER的4.54％。我们在https://github.com/factodeeplearning/dan上提供所有源代码和预训练的模型权重。

translated by 谷歌翻译

PubTables-1M: Towards comprehensive table extraction from unstructured documents

Brandon Smock , Rohith Pesala , Robin Abraham

分类：机器学习 | 计算机视觉

2021-09-30

最近，已经取得了重大进展，将机器学习应用于表结构推理和从非结构化文件提取的问题。然而，一个最大的挑战之一仍然是在规模上创建数据集，以规模完整，明确的地面真理。要解决此问题，我们为表提取开发了一个新的更全面的数据集，称为Pubtables-1M。 Pubtables-1M包含来自科学文章的近100万表，支持多个输入方式，并包含表结构的详细标题和位置信息，使其可用于各种建模方法。它还通过新颖的规范化程序在先前数据集中观察到的，在先前数据集中观察到了一个重要的地面真理源代理。我们证明，这些改进导致培训表现的显着增加和对表结构识别评估时的模型性能更可靠的估计。此外，我们表明，基于转换器的对象检测模型培训 - 1M对检测，结构识别和功能分析的所有三个任务产生了优异的结果，而无需对这些任务的任何特殊定制。数据和代码将在https://github.com/microsoft/table-transformer发布。

translated by 谷歌翻译

TeKo: Text-Rich Graph Neural Networks with External Knowledge

Zhizhi Yu , Di Jin , Jianguo Wei , Ziyang Liu , Yue Shang , Yun Xiao , Jiawei Han , Lingfei Wu

分类：自然语言处理 | 机器学习

2022-06-15

图形神经网络（GNN）在解决图形结构数据（即网络）方面的各种分析任务方面已广受欢迎。典型的gnns及其变体遵循一种消息的方式，该方式通过网络拓扑沿网络拓扑的特征传播过程获得网络表示，然而，它们忽略了许多现实世界网络中存在的丰富文本语义（例如，局部单词序列）。现有的文本丰富网络方法通过主要利用内部信息（例如主题或短语/单词）来整合文本语义，这些信息通常无法全面地挖掘文本语义，从而限制了网络结构和文本语义之间的相互指导。为了解决这些问题，我们提出了一个具有外部知识（TEKO）的新型文本富裕的图形神经网络，以充分利用文本丰富的网络中的结构和文本信息。具体而言，我们首先提出一个灵活的异质语义网络，该网络结合了文档和实体之间的高质量实体和互动。然后，我们介绍两种类型的外部知识，即结构化的三胞胎和非结构化实体描述，以更深入地了解文本语义。我们进一步为构建的异质语义网络设计了互惠卷积机制，使网络结构和文本语义能够相互协作并学习高级网络表示。在四个公共文本丰富的网络以及一个大规模的电子商务搜索数据集上进行了广泛的实验结果，这说明了Teko优于最先进的基线。

translated by 谷歌翻译

Graph Neural Network for Cell Tracking in Microscopy Videos

Tal Ben-Haim , Tammy Riklin Raviv

分类：计算机视觉

2022-02-09

我们提出了一种新型的图形神经网络（GNN）方法，用于高通量显微镜视频中的细胞跟踪。通过将整个延时序列建模为直接图，其中细胞实例由其节点及其边缘表示，我们通过查找图中的最大路径来提取整个细胞轨迹。这是由纳入端到端深度学习框架中的几个关键贡献来完成的。我们利用深度度量学习算法来提取细胞特征向量，以区分不同生物细胞的实例并组装相同的细胞实例。我们引入了一种新的GNN块类型，该类型可以对节点和边缘特征向量进行相互更新，从而促进基础消息传递过程。消息传递概念的范围由GNN块的数量确定，这是至关重要的，因为它可以在连续的框架中实现节点和边缘之间的“节点和边缘”之间的“流动”。最后，我们解决了边缘分类问题，并使用已确定的活动边缘来构建单元格的轨道和谱系树。我们通过将其应用于不同细胞类型，成像设置和实验条件的2D和3D数据集，来证明所提出的细胞跟踪方法的强度。我们表明，我们的框架在大多数评估的数据集上都优于当前最新方法。该代码可在我们的存储库中获得：https：//github.com/talbenha/cell-tracker-gnn。

translated by 谷歌翻译

A Heterogeneous Graph Attention Network for Multi-hop Machine Reading Comprehension

Peng Gao , Feng Gao , Jian-Cheng Ni , Hamido Fujita

分类：自然语言处理

2021-07-02

Multi-hop machine reading comprehension is a challenging task in natural language processing, which requires more reasoning ability across multiple documents. Spectral models based on graph convolutional networks grant inferring abilities and lead to competitive results. However, part of them still faces the challenge of analyzing the reasoning in a human-understandable way. Inspired by the concept of the Grandmother Cells in cognitive neuroscience, a spatial graph attention framework named ClueReader was proposed in this paper, imitating the procedure. This model is designed to assemble the semantic features in multi-level representations and automatically concentrate or alleviate information for reasoning via the attention mechanism. The name ClueReader is a metaphor for the pattern of the model: regard the subjects of queries as the start points of clues, take the reasoning entities as bridge points, consider the latent candidate entities as the grandmother cells, and the clues end up in candidate entities. The proposed model allows us to visualize the reasoning graph, then analyze the importance of edges connecting two entities and the selectivity in the mention and candidate nodes, which can be easier to be comprehended empirically. The official evaluations in the open-domain multi-hop reading dataset WikiHop and the Drug-drug Interactions dataset MedHop prove the validity of our approach and show the probability of the application of the model in the molecular biology domain.

translated by 谷歌翻译

Towards a Multi-modal, Multi-task Learning based Pre-training Framework for Document Representation Learning

Subhojeet Pramanik , Shashank Mujumdar , Hima Patel

分类：自然语言处理 | 人工智能 | 机器学习

2020-09-30

文献中最近的方法已经利用了文档中的多模态信息（文本，布局，图像）来服务于特定的下游文档任务。但是，它们受到 - （i）无法学习文档的文本，布局和图像尺寸的跨模型表示，并且（ii）无法处理多页文件。已经在自然语言处理（NLP）域中显示了预训练技术，以了解来自大型未标记数据集的通用文本表示，适用于各种下游NLP任务。在本文中，我们提出了一种基于多任务学习的框架，该框架利用自我监督和监督的预训练任务的组合来学习适用于各种下游文档任务的通用文档表示。具体而言，我们将文档主题建模和文档Shuffle预测作为新的预训练任务，以便学习丰富的图像表示以及文档的文本和布局表示。我们利用啰覆网络架构作为骨干，以以端到端的方式从多页文件中编码多模态信息。我们展示我们在各种不同现实文档任务的培训框架的适用性，例如文档分类，文档信息提取和文件检索。我们在不同的标准文件数据集中评估我们的框架，并进行详尽的实验，以比较符合我们框架的各种消融和最先进的基线的绩效。

translated by 谷歌翻译