如今,元数据信息通常由提交后由作者自己提供。然而,已经存在的研究论文的重要部分缺失或不完整的元数据信息。德国科学论文有很大种类的布局,使得元数据提取一个非琐碎的任务,这需要一个精确的方法来对文档中提取的元数据进行分类。在本文中,我们提出了德语科学论文的元数据提取多模式深度学习方法。通过组合自然语言处理和图像视觉处理,我们考虑多种类型的输入数据。与其他最先进的方法相比,该模型旨在提高元数据提取的整体准确性。它能够利用空间和上下文特征,以实现更可靠的提取。我们的这种方法的模型受到约会,包括大约8800个文件的数据集,并且能够获得0.923的总体F1分数。
translated by 谷歌翻译
尽管将发票内容作为元数据存储以避免纸质文档处理可能是未来的趋势,但几乎所有每日发行的发票仍在纸上打印或以PDF等数字格式生成。在本文中,我们介绍了从扫描文档图像中提取信息的OCRMiner系统,该系统基于文本分析技术与布局功能结合使用(半)结构化文档的索引元数据。该系统旨在以人类读者使用的类似方式处理文档,即在协调决策中采用不同的布局和文本属性。该系统由一组互连模块组成,该模块以(可能是错误的)基于字符的输出从标准OCR系统开始,并允许应用不同的技术并在每个步骤中扩展提取的知识。使用开源OCR,该系统能够以90%的英语恢复发票数据,而捷克设置的发票数据为88%。
translated by 谷歌翻译
学术文学的数量,如学术会议论文和期刊,全世界迅速增加,持续研究元数据提取。然而,由于期刊出版商的不同布局格式,高性能的元数据提取仍然具有挑战性。为了适应学术期刊布局的多样性,我们提出了一种具有三种特征的新型布局感知元数据提取(LAME)框架(例如,自动布局分析的设计,施工大型元数据训练集,以及建设布局 - 元签名。我们使用PDFminer设计了自动布局分析。基于布局分析,自动提取大量的元数据分离训练数据,包括标题,摘要,作者姓名,作者附属组织和关键字。此外,我们构建了Layout-Metabert以从具有不同布局格式的学术期刊中提取元数据。具有不同布局格式的未经布局格式的USADATA提取中的稳健性能(MACRO-F1,93.27%)的实验结果表现出鲁棒性能(MACRO-F1,93.27%)。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
文档AI或Document Intelligence是一个相对较新的研究主题,指的是自动阅读,理解和分析业务文档的技术。它是自然语言处理和计算机视觉的重要研究方向。近年来,深度学习技术的普及已经大大提高了文档AI的发展,如文件布局分析,视觉信息提取,文档视觉问题应答,文档图像分类等。本文简要评论了一些代表性模型,任务和基准数据集。此外,我们还介绍了早期的启发式规则的文档分析,统计机器学习算法,深度学习方法,尤其是预训练方法。最后,我们展望未来的Document AI研究方向。
translated by 谷歌翻译
本文介绍了用于文档图像分析的图像数据集的系统文献综述,重点是历史文档,例如手写手稿和早期印刷品。寻找适当的数据集进行历史文档分析是促进使用不同机器学习算法进行研究的关键先决条件。但是,由于实际数据非常多(例如,脚本,任务,日期,支持系统和劣化量),数据和标签表示的不同格式以及不同的评估过程和基准,因此找到适当的数据集是一项艰巨的任务。这项工作填补了这一空白,并在现有数据集中介绍了元研究。经过系统的选择过程(根据PRISMA指南),我们选择了56项根据不同因素选择的研究,例如出版年份,文章中实施的方法数量,所选算法的可靠性,数据集大小和期刊的可靠性出口。我们通过将其分配给三个预定义的任务之一来总结每个研究:文档分类,布局结构或语义分析。我们为每个数据集提供统计,文档类型,语言,任务,输入视觉方面和地面真实信息。此外,我们还提供了这些论文或最近竞争的基准任务和结果。我们进一步讨论了该领域的差距和挑战。我们倡导将转换工具提供到通用格式(例如,用于计算机视觉任务的可可格式),并始终提供一组评估指标,而不仅仅是一种评估指标,以使整个研究的结果可比性。
translated by 谷歌翻译
同行评审是一项广泛接受的研究评估机制,在学术出版中发挥关键作用。然而,批评已经长期升级了这种机制,主要是因为它的低效率和主体性。近年来已经看到人工智能(AI)在协助同行评审过程中的应用。尽管如此,随着人类的参与,这种限制仍然是不可避免的。在本文中,我们提出了自动化学术纸质审查(ASPR)的概念,并审查了相关的文献和技术,讨论实现全面的计算机化审查流程的可能性。我们进一步研究了现有技术ASPR的挑战。在审查和讨论的基础上,我们得出结论,ASPR的每个阶段都有相应的研究和技术。这验证了随着相关技术继续发展的长期可以实现ASPR。其实现中的主要困难在于不完美的文献解析和表示,数据不足,数据缺陷,人机互动和有缺陷的深度逻辑推理。在可预见的未来,ASPR和同行评审将在ASPR能够充分承担从人类的审查工作量之前以加强方式共存。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
来自文件的信息提取(即)是一大集工业应用的密集研究领域。目前最先进的方法专注于扫描文档,其中包含计算机视觉,自然语言处理和布局表示的方法。我们建议在可获得令牌风格和视觉表示的情况下挑战计算机愿景的使用(即本机PDF文件)。我们在三个现实世界复杂数据集上的实验表明,使用基于令牌的嵌入属性而不是Layoutlm模型中的原始视觉嵌入是有益的。根据数据集,这种嵌入在加权F1分数中提高0.18%至2.29%,在模型的最终培训参数中减少30.7%,从而提高了效率和有效性。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
translated by 谷歌翻译
文献中最近的方法已经利用了文档中的多模态信息(文本,布局,图像)来服务于特定的下游文档任务。但是,它们受到 - (i)无法学习文档的文本,布局和图像尺寸的跨模型表示,并且(ii)无法处理多页文件。已经在自然语言处理(NLP)域中显示了预训练技术,以了解来自大型未标记数据集的通用文本表示,适用于各种下游NLP任务。在本文中,我们提出了一种基于多任务学习的框架,该框架利用自我监督和监督的预训练任务的组合来学习适用于各种下游文档任务的通用文档表示。具体而言,我们将文档主题建模和文档Shuffle预测作为新的预训练任务,以便学习丰富的图像表示以及文档的文本和布局表示。我们利用啰覆网络架构作为骨干,以以端到端的方式从多页文件中编码多模态信息。我们展示我们在各种不同现实文档任务的培训框架的适用性,例如文档分类,文档信息提取和文件检索。我们在不同的标准文件数据集中评估我们的框架,并进行详尽的实验,以比较符合我们框架的各种消融和最先进的基线的绩效。
translated by 谷歌翻译
命名实体识别是一项信息提取任务,可作为其他自然语言处理任务的预处理步骤,例如机器翻译,信息检索和问题答案。命名实体识别能够识别专有名称以及开放域文本中的时间和数字表达式。对于诸如阿拉伯语,阿姆哈拉语和希伯来语之类的闪族语言,由于这些语言的结构严重变化,指定的实体识别任务更具挑战性。在本文中,我们提出了一个基于双向长期记忆的Amharic命名实体识别系统,并带有条件随机字段层。我们注释了一种新的Amharic命名实体识别数据集(8,070个句子,具有182,691个令牌),并将合成少数群体过度采样技术应用于我们的数据集,以减轻不平衡的分类问题。我们命名的实体识别系统的F_1得分为93%,这是Amharic命名实体识别的新最新结果。
translated by 谷歌翻译
无约束的手写文本识别是一项具有挑战性的计算机视觉任务。传统上,它是通过两步方法来处理的,结合了线细分,然后是文本线识别。我们第一次为手写文档识别任务提出了无端到端的无分段体系结构:文档注意网络。除文本识别外,该模型还接受了使用类似XML的方式使用开始和结束标签标记文本零件的训练。该模型由用于特征提取的FCN编码器和用于复发令牌预测过程的变压器解码器层组成。它将整个文本文档作为输入和顺序输出字符以及逻辑布局令牌。与现有基于分割的方法相反,该模型是在不使用任何分割标签的情况下进行训练的。我们在页面级别的Read 2016数据集以及CER分别为3.43%和3.70%的双页级别上获得了竞争成果。我们还为Rimes 2009数据集提供了页面级别的结果,达到CER的4.54%。我们在https://github.com/factodeeplearning/dan上提供所有源代码和预训练的模型权重。
translated by 谷歌翻译
在将文档解析为下游应用程序的结构化,机器可读格式时,识别非结构化数字文档的布局至关重要。文档布局分析中的最新研究通常依靠计算机视觉模型来理解文档,同时忽略其他信息,例如上下文信息或文档组件的关系,这对于捕获至关重要。我们的DOC-GCN提出了一种有效的方法,可以协调和整合异质方面以进行文档布局分析。我们首先构造图形以明确描述四个主要方面,包括句法,语义,密度和外观/视觉信息。然后,我们应用图形卷积网络来表示信息的各个方面,并使用池进行集成。最后,我们将各个方面汇总,并将它们送入2层MLP,以进行文档布局组件分类。我们的DOC-GCN实现了新的最先进的结果,从而获得了三个广泛使用的DLA数据集。
translated by 谷歌翻译
最近,由于其广泛的商业价值,从视觉丰富的文档(例如门票和简历)中自动提取信息已成为一个热门而重要的研究主题。大多数现有方法将此任务分为两个小节:用于从原始文档图像中获取纯文本的文本阅读部分以及用于提取密钥内容的信息提取部分。这些方法主要集中于改进第二个方法,同时忽略了这两个部分高度相关。本文提出了一个统一的端到端信息提取框架,从视觉上富含文档中提出,文本阅读和信息提取可以通过精心设计的多模式上下文块相互加强。具体而言,文本阅读部分提供了多模式功能,例如视觉,文本和布局功能。开发了多模式上下文块,以融合生成的多模式特征,甚至是从预训练的语言模型中获得的先验知识,以提供更好的语义表示。信息提取部分负责使用融合上下文功能生成密钥内容。该框架可以以端到端的可训练方式进行培训,从而实现全球优化。更重要的是,我们将视觉丰富的文档定义为跨两个维度的四个类别,即布局和文本类型。对于每个文档类别,我们提供或推荐相应的基准,实验设置和强大的基准,以弥补该研究领域缺乏统一评估标准的问题。报告了对四种基准测试的广泛实验(从固定布局到可变布局,从完整的文本到半未结构化的文本),证明了所提出的方法的有效性。数据,源代码和模型可用。
translated by 谷歌翻译
学术研究是解决以前从未解决过的问题的探索活动。通过这种性质,每个学术研究工作都需要进行文献审查,以区分其Novelties尚未通过事先作品解决。在自然语言处理中,该文献综述通常在“相关工作”部分下进行。鉴于研究文件的其余部分和引用的论文列表,自动相关工作生成的任务旨在自动生成“相关工作”部分。虽然这项任务是在10年前提出的,但直到最近,它被认为是作为科学多文件摘要问题的变种。然而,即使在今天,尚未标准化了自动相关工作和引用文本生成的问题。在这项调查中,我们进行了一个元研究,从问题制定,数据集收集,方法方法,绩效评估和未来前景的角度来比较相关工作的现有文献,以便为读者洞察到国家的进步 - 最内容的研究,以及如何进行未来的研究。我们还调查了我们建议未来工作要考虑整合的相关研究领域。
translated by 谷歌翻译
从PDFS中准确提取结构化内容是NLP在科学论文中的关键第一步。最近的工作通过纳入基本布局信息,例如在页面上的每个令牌的2D位置,进入语言模型预先润廓来提高提取精度。我们介绍了明确地模拟视觉布局(VILA)组,即文本行或文本块的新方法,以进一步提高性能。在我们的I-VILA方法中,我们表明,只需将特殊令牌插入模型输入的布局组边界即可导致令牌分类的1.9%的宏F1改进。在H-VILA方法中,我们表明布局组的分层编码可能导致宏F1损耗小于0.8%的高达47%的推理时间。与先前的布局感知方法不同,我们的方法不需要昂贵的额外预制,只有微调,我们显示的速度可以降低培训成本高达95%。实验在新策划的评估套件S2-Vlue上进行,该S2-VLUE统一现有的自动标记的数据集,包括从19个科学学科的不同论文的手动注释的新数据集。预先训练的权重,基准数据集和源代码可在https://github.com/allenai/vila获得。
translated by 谷歌翻译
非结构化的文本中存在大量的位置信息,例如社交媒体帖子,新闻报道,科学文章,网页,旅行博客和历史档案。地理学是指识别文本中的位置参考并识别其地理空间表示的过程。虽然地理标准可以使许多领域受益,但仍缺少特定应用程序的摘要。此外,缺乏对位置参考识别方法的现有方法的全面审查和比较,这是地理验证的第一个和核心步骤。为了填补这些研究空白,这篇综述首先总结了七个典型的地理应用程序域:地理信息检索,灾难管理,疾病监视,交通管理,空间人文,旅游管理和犯罪管理。然后,我们通过将这些方法分类为四个组,以基于规则的基于规则,基于统计学学习的基于统计学学习和混合方法将这些方法分类为四个组,从而回顾了现有的方法参考识别方法。接下来,我们彻底评估了27种最广泛使用的方法的正确性和计算效率,该方法基于26个公共数据集,其中包含不同类型的文本(例如,社交媒体帖子和新闻报道),包含39,736个位置参考。这项彻底评估的结果可以帮助未来的方法论发展以获取位置参考识别,并可以根据应用需求指导选择适当方法的选择。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译