Business documents come in a variety of structures, formats and information needs which makes information extraction a challenging task. Due to these variations, having a document generic model which can work well across all types of documents and for all the use cases seems far-fetched. For document-specific models, we would need customized document-specific labels. We introduce DoSA (Document Specific Automated Annotations), which helps annotators in generating initial annotations automatically using our novel bootstrap approach by leveraging document generic datasets and models. These initial annotations can further be reviewed by a human for correctness. An initial document-specific model can be trained and its inference can be used as feedback for generating more automated annotations. These automated annotations can be reviewed by human-in-the-loop for the correctness and a new improved model can be trained using the current model as pre-trained model before going for the next iteration. In this paper, our scope is limited to Form like documents due to limited availability of generic annotated datasets, but this idea can be extended to a variety of other documents as more datasets are built. An open-source ready-to-use implementation is made available on GitHub https://github.com/neeleshkshukla/DoSA.
translated by 谷歌翻译
从半结构化文件中提取信息对于无摩擦企业对企业(B2B)通信至关重要。尽管已经研究了与文档信息提取(IE)有关的机器学习问题数十年来,但许多常见的问题定义和基准并不能反映针对域特定方面和自动化B2B文档通信的实际需求。我们回顾文档的景观IE问题,数据集和基准。我们重点介绍了共同定义中缺少的实际方面,并定义了关键信息本地化和提取(KILE)和行项目识别(LIR)问题。由于其内容通常受到法律保护或敏感,因此缺乏用于半结构化业务文档的文档IE的相关数据集和基准。我们讨论了包括合成数据在内的可用文档的潜在来源。
translated by 谷歌翻译
文档AI或Document Intelligence是一个相对较新的研究主题,指的是自动阅读,理解和分析业务文档的技术。它是自然语言处理和计算机视觉的重要研究方向。近年来,深度学习技术的普及已经大大提高了文档AI的发展,如文件布局分析,视觉信息提取,文档视觉问题应答,文档图像分类等。本文简要评论了一些代表性模型,任务和基准数据集。此外,我们还介绍了早期的启发式规则的文档分析,统计机器学习算法,深度学习方法,尤其是预训练方法。最后,我们展望未来的Document AI研究方向。
translated by 谷歌翻译
尽管将发票内容作为元数据存储以避免纸质文档处理可能是未来的趋势,但几乎所有每日发行的发票仍在纸上打印或以PDF等数字格式生成。在本文中,我们介绍了从扫描文档图像中提取信息的OCRMiner系统,该系统基于文本分析技术与布局功能结合使用(半)结构化文档的索引元数据。该系统旨在以人类读者使用的类似方式处理文档,即在协调决策中采用不同的布局和文本属性。该系统由一组互连模块组成,该模块以(可能是错误的)基于字符的输出从标准OCR系统开始,并允许应用不同的技术并在每个步骤中扩展提取的知识。使用开源OCR,该系统能够以90%的英语恢复发票数据,而捷克设置的发票数据为88%。
translated by 谷歌翻译
表格是一种广泛类型的基于模板的文档,用于各种各样的领域,包括,等等,管理,医学,金融或保险。由于日常生成的形式增加,这些文件中包括的信息的自动提取大大要求。然而,由于具有不同形式实体位置的模板的巨大分集以及扫描文档的质量,因此在使用扫描形式时,这不是一项直接的任务,以及扫描文档的质量。在此上下文中,存在一个功能由所有形式共享:它们包含作为键值(或标签值)对构建的互连实体的集合以及其他实体,例如标题或图像。在这项工作中,我们通过基于BERT架构组合图像处理技术和文本分类模型来了解以形式的实体链接问题。这种方法实现了最先进的结果,在Funsd DataSet上的F1分数为0.80,关于最佳方法的提高5%。此项目的代码可在https://github.com/mavillot/funsd-entity-linking中获得。
translated by 谷歌翻译
露天矿山留下了许多全世界地区,不管怎样或无法居住。要将这些地区送回使用,整个土地必须转向化。对于可持续的随后使用或转移到新的主要用途,必须永久管理许多受污染的地点和土壤信息。在大多数情况下,此信息以非结构化数据集合或文件文件夹中的专家报告的形式提供,在最佳情况下是数字化的。由于数据的大小和复杂性,一个人难以概述该数据,以便能够进行可靠的陈述。这是将这些地区快速转移到使用后最重要的障碍之一。基于信息的方法支持本问题支持履行有关环境问题,健康和气候行动的几个可持续发展目标。我们使用一堆光学字符识别,文本分类,主动学习和地理信息系统可视化,以有效地挖掘并可视化这些信息。随后,我们将提取的信息链接到地理坐标并使用地理信息系统可视化它们。主动学习发挥着重要作用,因为我们的数据集不提供培训数据。总共,我们处理九个类别,并积极学习其数据集中的表示。我们分别评估OCR,主动学习和文本分类,以报告系统的性能。主动学习和文本分类结果是双重的:而我们关于限制的类别足够的工作($> $。85 F1),为人类编码人员复杂化了七个主题类别,因此取得了平庸的评价分数($ <$。70 F1)。
translated by 谷歌翻译
由于文件传达了丰富的人类知识,并且通常存在于企业中,因此建筑文档的对话系统已经越来越兴趣。其中,如何理解和从文档中检索信息是一个具有挑战性的研究问题。先前的工作忽略了文档的视觉属性,并将其视为纯文本,从而导致不完整的方式。在本文中,我们提出了一个布局感知文档级信息提取数据集,以促进从视觉上丰富文档(VRD)中提取结构和语义知识的研究,以在对话系统中产生准确的响应。 Lie包含来自4,061页的产品和官方文件的三个提取任务的62K注释,成为我们最大的知识,成为最大的基于VRD的信息提取数据集。我们还开发了扩展基于令牌的语言模型的基准方法,以考虑像人类这样的布局功能。经验结果表明,布局对于基于VRD的提取至关重要,系统演示还验证了提取的知识可以帮助找到用户关心的答案。
translated by 谷歌翻译
来自文件的信息提取(即)是一大集工业应用的密集研究领域。目前最先进的方法专注于扫描文档,其中包含计算机视觉,自然语言处理和布局表示的方法。我们建议在可获得令牌风格和视觉表示的情况下挑战计算机愿景的使用(即本机PDF文件)。我们在三个现实世界复杂数据集上的实验表明,使用基于令牌的嵌入属性而不是Layoutlm模型中的原始视觉嵌入是有益的。根据数据集,这种嵌入在加权F1分数中提高0.18%至2.29%,在模型的最终培训参数中减少30.7%,从而提高了效率和有效性。
translated by 谷歌翻译
Multimodal integration of text, layout and visual information has achieved SOTA results in visually rich document understanding (VrDU) tasks, including relation extraction (RE). However, despite its importance, evaluation of the relative predictive capacity of these modalities is less prevalent. Here, we demonstrate the value of shared representations for RE tasks by conducting experiments in which each data type is iteratively excluded during training. In addition, text and layout data are evaluated in isolation. While a bimodal text and layout approach performs best (F1=0.684), we show that text is the most important single predictor of entity relations. Additionally, layout geometry is highly predictive and may even be a feasible unimodal approach. Despite being less effective, we highlight circumstances where visual information can bolster performance. In total, our results demonstrate the efficacy of training joint representations for RE.
translated by 谷歌翻译
表是存储数据的永远存在的结构。现在存在不同的方法来物理地存储表格数据。PDF,图像,电子表格和CSV是领先的例子。能够解析由这些结构界限的表结构和提取内容在许多应用中具有很高的重要性。在本文中,我们设计了Diallagarser,一个系统能够在天然PDF和具有高精度的扫描图像中解析表的系统。我们已经进行了广泛的实验,以展示领域适应在开发这种工具方面的功效。此外,我们创建了TableAnnotator和Excelannotator,构成了基于电子表格的弱监督机制和管道,以实现表解析。我们与研究界共享这些资源,以促进这种有趣方向的进一步研究。
translated by 谷歌翻译
临床编码是将患者健康记录中的医疗信息转换为结构化代码的任务,以便它们可用于统计分析。这是一项认知且耗时的任务,遵循标准过程,以达到高水平的一致性。自动化系统可以支持临床编码,以提高该过程的效率和准确性。我们介绍了自动临床编码的想法,并从人工智能(AI)和自然语言处理(NLP)(NLP)的角度总结了挑战,该文献是根据文献,我们在过去两年半(2019年末 - 2022年初)的项目经验),以及与苏格兰和英国的临床编码专家的讨论。我们的研究揭示了应用于临床编码的当前基于深度学习的方法与现实世界实践中的解释性和一致性之间的差距。基于知识的方法代表和推理了标准,可以解释的任务过程,可能需要将其纳入基于深度学习的临床编码方法中。尽管面临技术和组织的挑战,但自动化的临床编码是AI的一项有前途的任务。编码人员需要参与开发过程。在未来五年及以后,开发和部署基于AI的自动化系统需要实现很多目标。
translated by 谷歌翻译
对于盲人,低视觉和其他印刷(BLV)个人而言,印刷文档仍然是一个挑战。在本文中,我们关注(内部引用,脚注,图形,表格和方程式)的(内部参考)的特定问题。虽然视力用户可以翻转参考内容并在几秒钟内翻转,但BLV个人所依赖的线性音频叙事使这些参考文献非常困难。我们提出了一种基于视觉的技术,以找到引用的内容,并提取(在后续工作中)将内容汇总到音频叙事中所需的元数据。我们将技术应用于科学文档中的引用,并发现它在出生数字和扫描文件上都很好地效果。
translated by 谷歌翻译
由于其有效的模型架构以及大规模未标记的扫描/数字出生的文件的优势,在各种视觉上丰富的文档理解任务中已经证明了文本和布局的预先培训。我们提出了具有新的预培训任务的Layoutlmv2架构,以在单个多模态框架中模拟文本,布局和图像之间的交互。具体地,对于双流多模态变压器编码器,LayOutLMV2不仅使用现有屏蔽的视觉语言建模任务,还使用新的文本图像对齐和文本图像匹配任务,这使得它更好地捕获跨模块交互在预训练阶段。同时,它还将空间感知的自我注意机制集成到变压器架构中,以便模型可以完全理解不同文本块之间的相对位置关系。实验结果表明,LayoutLMV2优于大幅度的LayOutlm,并在大量下游的下游富有的文件理解任务中实现了新的最先进的结果,包括Funsd(0.7895 $ \至0.8420美元),电源线(0.9493 $ \至0.9601美元),Srie(0.9524 $ \至0.9781美元),Kleister-NDA(0.8340 $ \ 0.8520美元),RVL-CDIP(0.9443 $ \至0.9564美元),DOCVQA(0.7295 $ \至0.8672美元) 。我们使我们的模型和代码公开可用于\ url {https://aka.ms/layoutlmv2}。
translated by 谷歌翻译
The internet has had a dramatic effect on the healthcare industry, allowing documents to be saved, shared, and managed digitally. This has made it easier to locate and share important data, improving patient care and providing more opportunities for medical studies. As there is so much data accessible to doctors and patients alike, summarizing it has become increasingly necessary - this has been supported through the introduction of deep learning and transformer-based networks, which have boosted the sector significantly in recent years. This paper gives a comprehensive survey of the current techniques and trends in medical summarization
translated by 谷歌翻译
最近,由于其广泛的商业价值,从视觉丰富的文档(例如门票和简历)中自动提取信息已成为一个热门而重要的研究主题。大多数现有方法将此任务分为两个小节:用于从原始文档图像中获取纯文本的文本阅读部分以及用于提取密钥内容的信息提取部分。这些方法主要集中于改进第二个方法,同时忽略了这两个部分高度相关。本文提出了一个统一的端到端信息提取框架,从视觉上富含文档中提出,文本阅读和信息提取可以通过精心设计的多模式上下文块相互加强。具体而言,文本阅读部分提供了多模式功能,例如视觉,文本和布局功能。开发了多模式上下文块,以融合生成的多模式特征,甚至是从预训练的语言模型中获得的先验知识,以提供更好的语义表示。信息提取部分负责使用融合上下文功能生成密钥内容。该框架可以以端到端的可训练方式进行培训,从而实现全球优化。更重要的是,我们将视觉丰富的文档定义为跨两个维度的四个类别,即布局和文本类型。对于每个文档类别,我们提供或推荐相应的基准,实验设置和强大的基准,以弥补该研究领域缺乏统一评估标准的问题。报告了对四种基准测试的广泛实验(从固定布局到可变布局,从完整的文本到半未结构化的文本),证明了所提出的方法的有效性。数据,源代码和模型可用。
translated by 谷歌翻译
文献中最近的方法已经利用了文档中的多模态信息(文本,布局,图像)来服务于特定的下游文档任务。但是,它们受到 - (i)无法学习文档的文本,布局和图像尺寸的跨模型表示,并且(ii)无法处理多页文件。已经在自然语言处理(NLP)域中显示了预训练技术,以了解来自大型未标记数据集的通用文本表示,适用于各种下游NLP任务。在本文中,我们提出了一种基于多任务学习的框架,该框架利用自我监督和监督的预训练任务的组合来学习适用于各种下游文档任务的通用文档表示。具体而言,我们将文档主题建模和文档Shuffle预测作为新的预训练任务,以便学习丰富的图像表示以及文档的文本和布局表示。我们利用啰覆网络架构作为骨干,以以端到端的方式从多页文件中编码多模态信息。我们展示我们在各种不同现实文档任务的培训框架的适用性,例如文档分类,文档信息提取和文件检索。我们在不同的标准文件数据集中评估我们的框架,并进行详尽的实验,以比较符合我们框架的各种消融和最先进的基线的绩效。
translated by 谷歌翻译
We present a dataset generator engine named Web-based Visual Corpus Builder (Webvicob). Webvicob can readily construct a large-scale visual corpus (i.e., images with text annotations) from a raw Wikipedia HTML dump. In this report, we validate that Webvicob-generated data can cover a wide range of context and knowledge and helps practitioners to build a powerful Visual Document Understanding (VDU) backbone. The proposed engine is publicly available at https://github.com/clovaai/webvicob.
translated by 谷歌翻译
文档布局分析(DLA)在信息提取和文档理解中起重要作用。目前,文件布局分析已达到里程碑成果,但是非曼哈顿的文件布局分析仍然是一项挑战。在本文中,我们提出了一种图像层建模方法来解决这一挑战。为了测量所提出的图像层建模方法,我们提出了一个名为FPD的手动标记的非曼哈顿布局细粒细分分段数据集。据我们所知,FPD是第一个手动标记的非曼哈顿布局细粒细分分段数据集。为了有效提取文档的细粒度特征,我们提出了一个名为L-E ^ 3Net的边缘嵌入网络。实验结果证明,我们提出的图像层建模方法可以更好地处理非曼哈顿布局的细粒度分段文件。
translated by 谷歌翻译
如今,元数据信息通常由提交后由作者自己提供。然而,已经存在的研究论文的重要部分缺失或不完整的元数据信息。德国科学论文有很大种类的布局,使得元数据提取一个非琐碎的任务,这需要一个精确的方法来对文档中提取的元数据进行分类。在本文中,我们提出了德语科学论文的元数据提取多模式深度学习方法。通过组合自然语言处理和图像视觉处理,我们考虑多种类型的输入数据。与其他最先进的方法相比,该模型旨在提高元数据提取的整体准确性。它能够利用空间和上下文特征,以实现更可靠的提取。我们的这种方法的模型受到约会,包括大约8800个文件的数据集,并且能够获得0.923的总体F1分数。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译