We propose Universal Document Processing (UDOP), a foundation Document AI model which unifies text, image, and layout modalities together with varied task formats, including document understanding and generation. UDOP leverages the spatial correlation between textual content and document image to model image, text, and layout modalities with one uniform representation. With a novel Vision-Text-Layout Transformer, UDOP unifies pretraining and multi-domain downstream tasks into a prompt-based sequence generation scheme. UDOP is pretrained on both large-scale unlabeled document corpora using innovative self-supervised objectives and diverse labeled data. UDOP also learns to generate document images from text and layout modalities via masked image reconstruction. To the best of our knowledge, this is the first time in the field of document AI that one model simultaneously achieves high-quality neural document editing and content customization. Our method sets the state-of-the-art on 9 Document AI tasks, e.g., document understanding and QA, across diverse data domains like finance reports, academic papers, and websites. UDOP ranks first on the leaderboard of the Document Understanding Benchmark (DUE).
translated by 谷歌翻译
自我监督的预训练技术在文档AI中取得了显着进步。大多数多模式的预训练模型都使用蒙版的语言建模目标来学习文本模式的双向表示,但是它们在图像模式的预训练目标方面有所不同。这种差异增加了多模式表示学习的困难。在本文中,我们建议\ textbf {layoutlmv3}为文档AI预训练多模式变压器,并具有统一的文本和图像掩蔽。此外,LayoutLMV3通过单词斑点对齐目标进行了预训练,可以通过预测是否掩盖文本的相应图像贴片来学习交叉模式对齐。简单的统一体系结构和培训目标使Layoutlmv3成为以文本为中心和以图像为中心的文档AI任务的通用预培训模型。实验结果表明,LayoutLMV3不仅在以文本为中心的任务中实现最先进的绩效,包括形式的理解,收据理解和文档视觉问题回答,而且在以图像为中心的任务(例如文档图像分类和文档布局)中分析。代码和模型可在\ url {https://aka.ms/layoutlmv3}上公开获得。
translated by 谷歌翻译
Unsupervised pre-training on millions of digital-born or scanned documents has shown promising advances in visual document understanding~(VDU). While various vision-language pre-training objectives are studied in existing solutions, the document textline, as an intrinsic granularity in VDU, has seldom been explored so far. A document textline usually contains words that are spatially and semantically correlated, which can be easily obtained from OCR engines. In this paper, we propose Wukong-Reader, trained with new pre-training objectives to leverage the structural knowledge nested in document textlines. We introduce textline-region contrastive learning to achieve fine-grained alignment between the visual regions and texts of document textlines. Furthermore, masked region modeling and textline-grid matching are also designed to enhance the visual and layout representations of textlines. Experiments show that our Wukong-Reader has superior performance on various VDU tasks such as information extraction. The fine-grained alignment over textlines also empowers Wukong-Reader with promising localization ability.
translated by 谷歌翻译
由于文档的复杂布局,提取文档的信息是一项挑战。大多数以前的研究以一种自我监督的方式开发了多模式预训练的模型。在本文中,我们专注于包含文本和布局信息的单词块的嵌入学习,并提出UTEL,这是具有统一文本和布局预训练的语言模型。具体而言,我们提出了两个预训练任务:布局学习的周围单词预测(SWP),以及对识别不同单词块的单词嵌入(CWE)的对比度学习。此外,我们用1D剪裁的相对位置嵌入了常用的一维位置。这样,掩盖布局语言建模(MLLM)的联合训练和两个新提出的任务可以以统一的方式在语义和空间特征之间进行相互作用。此外,提议的UTEL可以通过删除1D位置嵌入,同时保持竞争性能来处理任意长度的序列。广泛的实验结果表明,UTEL学会了比以前在各种下游任务上的方法更好的联合表示形式,尽管不需要图像模式。代码可在\ url {https://github.com/taosong2019/utel}中获得。
translated by 谷歌翻译
由于其有效的模型架构以及大规模未标记的扫描/数字出生的文件的优势,在各种视觉上丰富的文档理解任务中已经证明了文本和布局的预先培训。我们提出了具有新的预培训任务的Layoutlmv2架构,以在单个多模态框架中模拟文本,布局和图像之间的交互。具体地,对于双流多模态变压器编码器,LayOutLMV2不仅使用现有屏蔽的视觉语言建模任务,还使用新的文本图像对齐和文本图像匹配任务,这使得它更好地捕获跨模块交互在预训练阶段。同时,它还将空间感知的自我注意机制集成到变压器架构中,以便模型可以完全理解不同文本块之间的相对位置关系。实验结果表明,LayoutLMV2优于大幅度的LayOutlm,并在大量下游的下游富有的文件理解任务中实现了新的最先进的结果,包括Funsd(0.7895 $ \至0.8420美元),电源线(0.9493 $ \至0.9601美元),Srie(0.9524 $ \至0.9781美元),Kleister-NDA(0.8340 $ \ 0.8520美元),RVL-CDIP(0.9443 $ \至0.9564美元),DOCVQA(0.7295 $ \至0.8672美元) 。我们使我们的模型和代码公开可用于\ url {https://aka.ms/layoutlmv2}。
translated by 谷歌翻译
事实证明,多模式文档预训练的模型在各种视觉上富裕的文档理解(VRDU)任务中非常有效。尽管现有的文档预先培训模型在VRDU的标准基准上取得了出色的性能,但它们建模和利用文档上的视觉和语言之间的互动的方式阻碍了他们无法获得更好的概括能力和更高的准确性。在这项工作中,我们主要从监督信号的角度研究了VRDU视觉联合表示学习的问题。具体而言,提出了一种称为BI-VLDOC的预训练范式,其中设计了双向视觉监督策略和视觉性混合注意机制,以完全探索并利用这两种方式之间的相互作用,以学习更强的交叉交叉方式 - 具有更丰富语义的模式文档表示。 Bi-Vldoc受益于学习丰富的跨模式文档表示形式,显着提高了三个广泛使用文档的最新性能,理解基准,包括形式的理解(从85.14%到93.44%),收据信息提取(从96.01%到97.84%)和文档分类(从96.08%到97.12%)。在文档视觉质量检查中,BI-VLDOC与以前的单个模型方法相比,实现了最先进的性能。
translated by 谷歌翻译
图像变压器最近使用监督(VIT,DEIT等)或自我监督(BEIT,MAE等)预训练技术取得了显着的自然图像理解进展。在本文中,我们提出了\ textbf {dit},一种自我保护的预训练\ textbf {d} ocument \ textbf {i} mage \ textbf {t} ransformer模型,使用大规模的不尺度的文本图像用于文档AI任务,这是必不可少的,因为由于缺乏人类标记的文档图像,因此没有受到监督的同行。我们将DIT作为骨干网络在各种基于视觉的文档AI任务中,包括文档图像分类,文档布局分析,表检测以及OCR的文本检测。实验结果表明,自我监管的预训练的DIT模型可在这些下游任务上实现新的最新结果,例如文档图像分类(91.11 $ \ rightarrow $ 92.69),文档布局分析(91.0 $ \ rightArow $ 94.9),表检测(94.23 $ \ rightArrow $ 96.55)和OCR的文本检测(93.07 $ \ rightarrow $ 94.29)。代码和预培训模型可在\ url {https://aka.ms/msdit}上公开获得。
translated by 谷歌翻译
在视觉上丰富的文件(VRD)上的结构化文本理解是文档智能的重要组成部分。由于VRD中的内容和布局的复杂性,结构化文本理解是一项有挑战性的任务。大多数现有的研究将此问题与两个子任务结尾:实体标记和实体链接,这需要整体地了解令牌和段级别的文档的上下文。但是,很少的工作已经关注有效地从不同层次提取结构化数据的解决方案。本文提出了一个名为structext的统一框架,它对于处理两个子任务是灵活的,有效的。具体地,基于变压器,我们引入了一个段令牌对齐的编码器,以处理不同粒度水平的实体标记和实体链接任务。此外,我们设计了一种具有三个自我监督任务的新型预训练策略,以学习更丰富的代表性。 Structext使用现有屏蔽的视觉语言建模任务和新句子长度预测和配对框方向任务,以跨文本,图像和布局结合多模态信息。我们评估我们在分段级别和令牌级别的结构化文本理解的方法,并表明它优于最先进的同行,在Funsd,Srie和Ephoie数据集中具有显着优越的性能。
translated by 谷歌翻译
我们介绍了一个名为VL-BEIT的视觉基础模型,这是一种双向多模式变压器,通过生成预处理学习。我们的极简主义解决方案通过共享变压器对单接和多模式数据进行掩盖的预测。具体而言,我们对图像文本对,文本上的掩盖语言建模以及图像上的掩盖图像建模进行了掩盖视觉模型。VL-从头开始学习,其中一项统一的预处理任务,一个共用的骨干和一阶段的训练。我们的方法在概念上是简单的,并且在经验上有效。实验结果表明,VL-BEIT在各种视觉语言基准(例如视觉问题回答,视觉推理和图像文本检索)上获得了强大的结果。此外,我们的方法学习可转移的视觉特征,在图像分类方面实现竞争性能以及语义分割。
translated by 谷歌翻译
在过去的几年中,训练前模型的出现将单峰领域(例如计算机视觉(CV)和自然语言处理(NLP))带到了一个新时代。实质性的作品表明它们对下游大学任务有益,并避免从头开始训练新的模型。那么,此类预训练的模型可以应用于多模式任务吗?研究人员探索了这个问题并取得了重大进展。本文调查了视觉预训练(VLP)的最新进展和新的前沿,包括图像文本和视频文本预训练。为了使读者更好地掌握VLP,我们首先从五个方面回顾了其最新进展:功能提取,模型体系结构,培训预训练目标,预训练数据集和下游任务。然后,我们详细概述了特定的VLP模型。最后,我们讨论了VLP中的新边界。据我们所知,这是对VLP的首次调查。我们希望这项调查能够阐明VLP领域的未来研究。
translated by 谷歌翻译
文档AI或Document Intelligence是一个相对较新的研究主题,指的是自动阅读,理解和分析业务文档的技术。它是自然语言处理和计算机视觉的重要研究方向。近年来,深度学习技术的普及已经大大提高了文档AI的发展,如文件布局分析,视觉信息提取,文档视觉问题应答,文档图像分类等。本文简要评论了一些代表性模型,任务和基准数据集。此外,我们还介绍了早期的启发式规则的文档分析,统计机器学习算法,深度学习方法,尤其是预训练方法。最后,我们展望未来的Document AI研究方向。
translated by 谷歌翻译
Document images are a ubiquitous source of data where the text is organized in a complex hierarchical structure ranging from fine granularity (e.g., words), medium granularity (e.g., regions such as paragraphs or figures), to coarse granularity (e.g., the whole page). The spatial hierarchical relationships between content at different levels of granularity are crucial for document image understanding tasks. Existing methods learn features from either word-level or region-level but fail to consider both simultaneously. Word-level models are restricted by the fact that they originate from pure-text language models, which only encode the word-level context. In contrast, region-level models attempt to encode regions corresponding to paragraphs or text blocks into a single embedding, but they perform worse with additional word-level features. To deal with these issues, we propose MGDoc, a new multi-modal multi-granular pre-training framework that encodes page-level, region-level, and word-level information at the same time. MGDoc uses a unified text-visual encoder to obtain multi-modal features across different granularities, which makes it possible to project the multi-granular features into the same hyperspace. To model the region-word correlation, we design a cross-granular attention mechanism and specific pre-training tasks for our model to reinforce the model of learning the hierarchy between regions and words. Experiments demonstrate that our proposed model can learn better features that perform well across granularities and lead to improvements in downstream tasks.
translated by 谷歌翻译
探索大规模预处理的基础模型对计算机视觉具有重大兴趣,因为这些模型可以快速转移到许多下游任务中。本文介绍了对比字幕(COCA),这是一种极简主义的设计,旨在为图像文本编码器编码器基础模型预算与对比度损失和字幕损失,从而从剪辑和诸如simvlm之类的生成方法之类的对比方法中包含模型能力。与所有解码器层都参与编码器输出的标准编码器 - 模块变压器相反,可口可乐省略了解码器层的上半部分的交叉注意,以编码单峰文本表示,并串联到剩余的解码器层,这些解码器与图像编码器相交的解码器层多模式图像文本表示。除了对多模态解码器输出的字幕损失外,我们还应用了单峰图像和文本嵌入之间的对比损失,该输出可以预测文本令牌自动加压。通过共享相同的计算图,可以用最小的开销有效地计算两个培训目标。可口可乐是端到端和从头开始的网络尺度alt-text数据和带注释的图像,通过将所有标签视为文本,无缝地统一自然语言监督以进行表示。从经验上讲,可口可乐通过零拍传输或在广泛的下游任务上进行零摄像转移或最少的特定任务适应,跨越视觉识别(Imagenet,Kinetics-400/600/700,瞬间, ),交叉模式检索(MSCOCO,FLICKR30K,MSR-VTT),多模式理解(VQA,SNLI-VE,NLVR2)和图像字幕(MSCOCO,NOCAPS)。值得注意的是,在Imagenet分类方面,COCA获得了86.3%的TOP-1准确性,带有冷冻编码器和学习的分类头90.6%,以及带有填充编码器的Imagenet上的新最先进的91.0%Top-1 Top-1精度。
translated by 谷歌翻译
Vision-Language Transformers can be learned without human labels (e.g. class labels, bounding boxes, etc). Existing work, whether explicitly utilizing bounding boxes or patches, assumes that the visual backbone must first be trained on ImageNet class prediction before being integrated into a multimodal linguistic pipeline. We show that this is not necessary and introduce a new model Vision-Language from Captions (VLC) built on top of Masked Auto-Encoders that does not require this supervision. In fact, in a head-to-head comparison between ViLT, the current state-of-the-art patch-based vision-language transformer which is pretrained with supervised object classification, and our model, VLC, we find that our approach 1. outperforms ViLT on standard benchmarks, 2. provides more interpretable and intuitive patch visualizations, and 3. is competitive with many larger models that utilize ROIs trained on annotated bounding-boxes.
translated by 谷歌翻译
最先进的愿景和愿景和语言模型依靠大规模的Visio-linguisting预借鉴,以获得各种下游任务的良好性能。通常,这种模型通常是跨模态(对比)或多模态(具有早期融合)但不是两者;它们通常只针对特定的方式或任务。有希望的方向将是使用单一整体普遍模型,作为“基础”,目标是一次性的所有方式 - 真正的视觉和语言基础模型应该擅长视力任务,语言任务和交叉和多数模态视觉和语言任务。我们将Flava介绍在这样的模型中,并在跨越这些目标模式的广泛的35个任务上展示令人印象深刻的性能。
translated by 谷歌翻译
随着图像文本对的大量数据以及视觉和语言(V&L)任务的多样性,学者在该研究领域引入了大量的深度学习模型。此外,近年来,转移学习还显示出在计算机愿景中的巨大成功,例如图像分类,对象检测等以及在自然语言处理中以进行问答,机器翻译等的自然语言处理。继承转移学习的精神, V&L的研究工作已经在大规模数据集上设计了多种预训练技术,以增强下游任务的性能。本文的目的是提供当代V&L预审前模型的全面修订。特别是,我们对预处理的方法进行了分类和描述,以及最先进的视觉和语言预训练模型的摘要。此外,还提供了培训数据集和下游任务的列表,以进一步提高V&L预处理的观点。最后,我们决定采取进一步的一步,讨论众多未来研究的方向。
translated by 谷歌翻译
我们提出了一种用于场景文本视觉问题的新型多模式架构(STVQA),命名为布局感知变压器(LatR)。 STVQA的任务需要模型以推理不同的方式。因此,我们首先调查每种方式的影响,并揭示语言模块的重要性,尤其是在丰富布局信息时。考虑到这一点,我们提出了一种客观预培训计划,只需要文本和空间线索。我们表明,尽管域间隙差距,但仍然对扫描文件进行了对扫描文件的培训方案具有某些优点。扫描的文档易于采购,文本密集并具有各种布局,帮助模型通过捆绑语言和布局信息来学习各种空间线索(例如,下面等等)。与现有方法相比,我们的方法执行无词汇解码,如图所示,概括到超出培训词汇。我们进一步证明Latr改善了对OCR错误的鲁棒性,在STVQA失败的常见原因。另外,通过利用视觉变压器,我们消除了对外部物体检测器的需求。 Latr在多个数据集上赢得最先进的STVQA方法。特别是+ 7.6%的TextVQA,ST-VQA上的10.8%,+ 4.0%在OCR-VQA(所有绝对精度数字)。
translated by 谷歌翻译
基础模型由于在广泛的下游应用中的有效性而受到了很多关注。尽管在体系结构方面存在很大的融合,但大多数审慎的模型通常仍用于特定任务或模式。在这项工作中,我们建议将语言模型用作各种基础模型的通用接口。一系列预处理的编码者感知到了多种方式(例如视觉和语言),并与扮演通用任务层角色的语言模型对接。我们提出了一个半伴侣的语言建模目标,以共同确定界面和模块化编码器。我们从因果关系和非因果建模中涵盖了优势和能力,从而结合了两个世界的最佳状态。具体而言,所提出的方法不仅从因果语言建模中继承了内在学习和开放式生成的能力,而且由于双向编码器而有利于填补。更重要的是,我们的方法无缝地解锁了上述功能的组合,例如,通过填充编码器启用了文本学习或指导。各种仅语言和视觉语言基准的实验结果表明,我们的模型表现优于或与鉴定,零弹性概括和几乎没有的学习的专业模型竞争。
translated by 谷歌翻译
随着变压器的发展,近年来预先训练的模型已经以突破性的步伐发展。他们在自然语言处理(NLP)和计算机视觉(CV)中主导了主流技术。如何将预训练适应视觉和语言(V-L)学习和改善下游任务绩效成为多模式学习的重点。在本文中,我们回顾了视力语言预训练模型(VL-PTMS)的最新进展。作为核心内容,我们首先简要介绍了几种方法,将原始图像和文本编码为单模式嵌入在预训练之前。然后,我们在建模文本和图像表示之间的相互作用时深入研究VL-PTM的主流体系结构。我们进一步提出了广泛使用的预训练任务,然后我们介绍了一些常见的下游任务。我们终于结束了本文,并提出了一些有前途的研究方向。我们的调查旨在为研究人员提供合成和指向相关研究的指针。
translated by 谷歌翻译
Alignment between image and text has shown promising improvements on patch-level pre-trained document image models. However, investigating more effective or finer-grained alignment techniques during pre-training requires a large amount of computation cost and time. Thus, a question naturally arises: Could we fine-tune the pre-trained models adaptive to downstream tasks with alignment objectives and achieve comparable or better performance? In this paper, we propose a new model architecture with alignment-enriched tuning (dubbed AETNet) upon pre-trained document image models, to adapt downstream tasks with the joint task-specific supervised and alignment-aware contrastive objective. Specifically, we introduce an extra visual transformer as the alignment-ware image encoder and an extra text transformer as the alignment-ware text encoder before multimodal fusion. We consider alignment in the following three aspects: 1) document-level alignment by leveraging the cross-modal and intra-modal contrastive loss; 2) global-local alignment for modeling localized and structural information in document images; and 3) local-level alignment for more accurate patch-level information. Experiments on various downstream tasks show that AETNet can achieve state-of-the-art performance on various downstream tasks. Notably, AETNet consistently outperforms state-of-the-art pre-trained models, such as LayoutLMv3 with fine-tuning techniques, on three different downstream tasks.
translated by 谷歌翻译