近年来,薄弱的监督已应用于各种自然语言理解任务。由于技术挑战范围缩小了较弱的长期文档的监督,跨越了数百页,因此在文档理解空间中的应用程序受到限制。在Lexion,我们建立了一个针对长格式(长10-200页)PDF文档量身定制的基于监督的薄弱系统。我们使用此平台来构建数十种语言理解模型,并成功地应用于从商业协议到公司编队文件的各个领域。在本文中,我们在有限的时间,劳动力和培训数据的情况下,通过弱监督进行监督学习的有效性。我们在一周的时间内建立了8个高质量的机器学习模型,借助一小组组成的小组,只有3个注释者与300个文档的数据集一起工作。我们分享有关我们的整体体系结构,如何利用弱监督以及能够实现的结果的一些细节。我们还包括想要尝试替代方法或完善我们的研究人员的数据集。此外,我们阐明了使用PDF格式扫描不良的长格式文档时出现的其他复杂性,以及一些有助于我们在此类数据上实现最新性能的技术。
translated by 谷歌翻译
由于文件传达了丰富的人类知识,并且通常存在于企业中,因此建筑文档的对话系统已经越来越兴趣。其中,如何理解和从文档中检索信息是一个具有挑战性的研究问题。先前的工作忽略了文档的视觉属性,并将其视为纯文本,从而导致不完整的方式。在本文中,我们提出了一个布局感知文档级信息提取数据集,以促进从视觉上丰富文档(VRD)中提取结构和语义知识的研究,以在对话系统中产生准确的响应。 Lie包含来自4,061页的产品和官方文件的三个提取任务的62K注释,成为我们最大的知识,成为最大的基于VRD的信息提取数据集。我们还开发了扩展基于令牌的语言模型的基准方法,以考虑像人类这样的布局功能。经验结果表明,布局对于基于VRD的提取至关重要,系统演示还验证了提取的知识可以帮助找到用户关心的答案。
translated by 谷歌翻译
随着大型语言模型的出现,抽象性摘要的方法取得了长足的进步,从而在应用程序中使用了帮助知识工人处理笨拙的文档收集的潜力。一个这样的环境是民权诉讼交换所(CRLC)(https://clearinghouse.net),其中发布了有关大规模民权诉讼,服务律师,学者和公众的信息。如今,CRLC中的摘要需要对律师和法律专业的学生进行广泛的培训,这些律师和法律专业的学生花费数小时了解多个相关文件,以便产生重要事件和结果的高质量摘要。在这种持续的现实世界摘要工作的激励下,我们引入了Multi-iplesum,这是由正在进行的CRLC写作中绘制的9,280个专家作者的摘要集。鉴于源文档的长度,多文章介绍了一个具有挑战性的多文档摘要任务,通常每个情况超过200页。此外,多胎sum与其多个目标摘要中的其他数据集不同,每个数据集都处于不同的粒度(从一句“极端”摘要到超过五百个单词的多段落叙述)。我们提供了广泛的分析,表明,尽管培训数据(遵守严格的内容和样式准则)中的摘要很高,但最新的摘要模型在此任务上的表现较差。我们发布了多体式的摘要方法,以及促进应用程序的开发,以协助CRLC的任务https://multilexsum.github.io。
translated by 谷歌翻译
许多专业域都保留了深度学习,因为大型标记数据集需要昂贵的专家注释器。我们通过介绍合同理解Atticus DataSet(CUAD),法律合同审查的新数据集来解决法律领域内的这个瓶颈。CUAD由来自Atticus项目的数十名法律专家创建,包括超过13,000多个注释。该任务是突出对人类审查很重要的合同的突出部分。我们发现变压器模型具有新的性能,但这种性能受模型设计和培训数据集大小的强烈影响。尽管结果有很有希望的结果,但仍有实质性的改进空间。作为专家注释的唯一大型专业的NLP基准之一,CUAD可以作为更广泛的NLP社区担任具有挑战性的研究基准。
translated by 谷歌翻译
Labeling training data is increasingly the largest bottleneck in deploying machine learning systems. We present Snorkel, a first-of-its-kind system that enables users to train stateof-the-art models without hand labeling any training data. Instead, users write labeling functions that express arbitrary heuristics, which can have unknown accuracies and correlations. Snorkel denoises their outputs without access to ground truth by incorporating the first end-to-end implementation of our recently proposed machine learning paradigm, data programming. We present a flexible interface layer for writing labeling functions based on our experience over the past year collaborating with companies, agencies, and research labs. In a user study, subject matter experts build models 2.8× faster and increase predictive performance an average 45.5% versus seven hours of hand labeling. We study the modeling tradeoffs in this new setting and propose an optimizer for automating tradeoff decisions that gives up to 1.8× speedup per pipeline execution. In two collaborations, with the U.S. Department of Veterans Affairs and the U.S. Food and Drug Administration, and on four open-source text and image data sets representative of other deployments, Snorkel provides 132% average improvements to predictive performance over prior heuristic approaches and comes within an average 3.60% of the predictive performance of large hand-curated training sets.
translated by 谷歌翻译
尽管将发票内容作为元数据存储以避免纸质文档处理可能是未来的趋势,但几乎所有每日发行的发票仍在纸上打印或以PDF等数字格式生成。在本文中,我们介绍了从扫描文档图像中提取信息的OCRMiner系统,该系统基于文本分析技术与布局功能结合使用(半)结构化文档的索引元数据。该系统旨在以人类读者使用的类似方式处理文档,即在协调决策中采用不同的布局和文本属性。该系统由一组互连模块组成,该模块以(可能是错误的)基于字符的输出从标准OCR系统开始,并允许应用不同的技术并在每个步骤中扩展提取的知识。使用开源OCR,该系统能够以90%的英语恢复发票数据,而捷克设置的发票数据为88%。
translated by 谷歌翻译
在本文中,我们将概述SV形式共享任务,作为第三届学术文档处理(SDP)的一部分,在Coling 2022.中,在共同的任务中,为参与者提供了变量和变量的词汇,被要求确定全文学术文档中的单个句子中提到了哪些变量。两支球队总共向共享任务排行榜提交了9项意见。尽管所有团队都没有改进基线系统,但我们仍然从他们的意见书中获取见解。此外,我们提供了详细的评估。我们共享任务的数据和基线可在https://github.com/vadis-project/sv-inend上免费获得
translated by 谷歌翻译
In this paper we introduce a new publicly available dataset for verification against textual sources, FEVER: Fact Extraction and VERification. It consists of 185,445 claims generated by altering sentences extracted from Wikipedia and subsequently verified without knowledge of the sentence they were derived from.The claims are classified as SUPPORTED, RE-FUTED or NOTENOUGHINFO by annotators achieving 0.6841 in Fleiss κ. For the first two classes, the annotators also recorded the sentence(s) forming the necessary evidence for their judgment. To characterize the challenge of the dataset presented, we develop a pipeline approach and compare it to suitably designed oracles. The best accuracy we achieve on labeling a claim accompanied by the correct evidence is 31.87%, while if we ignore the evidence we achieve 50.91%. Thus we believe that FEVER is a challenging testbed that will help stimulate progress on claim verification against textual sources.
translated by 谷歌翻译
了解全文学术文章的关键见解至关重要,因为它使我们能够确定有趣的趋势,洞悉研究和发展,并构建知识图。但是,只有在考虑全文时才可用一些有趣的关键见解。尽管研究人员在简短文档中的信息提取方面取得了重大进展,但从全文学术文献中提取科学实体仍然是一个具有挑战性的问题。这项工作提出了一种称为ENEREX的自动端对端研究实体提取器,用于提取技术集,客观任务,全文学术学术研究文章等技术方面。此外,我们提取了三个新颖的方面,例如源代码,计算资源,编程语言/库中的链接。我们演示了Enerex如何从计算机科学领域的大规模数据集中提取关键见解和趋势。我们进一步测试了多个数据集上的管道,发现ENEREX在最新模型的状态下进行了改进。我们强调了现有数据集的能力如何受到限制,以及enerex如何适应现有知识图。我们还向未来研究的指针进行了详细的讨论。我们的代码和数据可在https://github.com/discoveryanalyticscenter/enerex上公开获取。
translated by 谷歌翻译
自论证挖掘领域成立以来,在法律话语中识别,分类和分析的论点一直是研究的重要领域。但是,自然语言处理(NLP)研究人员的模型模型与法院决策中的注释论点与法律专家理解和分析法律论证的方式之间存在重大差异。尽管计算方法通常将论点简化为通用的前提和主张,但法律研究中的论点通常表现出丰富的类型,对于获得一般法律的特定案例和应用很重要。我们解决了这个问题,并做出了一些实质性的贡献,以推动该领域的前进。首先,我们在欧洲人权法院(ECHR)诉讼中为法律论点设计了新的注释计划,该计划深深植根于法律论证研究的理论和实践中。其次,我们编译和注释了373项法院判决(230万令牌和15K注释的论点跨度)的大量语料库。最后,我们训练一个论证挖掘模型,该模型胜过法律NLP领域中最先进的模型,并提供了彻底的基于专家的评估。所有数据集和源代码均可在https://github.com/trusthlt/mining-legal-arguments的开放lincenses下获得。
translated by 谷歌翻译
虽然许多NLP管道采用RAW,清洁文本,但我们在野外遇到的许多文本,包括绝大多数法律文件,并不是那么干净,其中许多人在视觉上结构化文件(VSD),如PDF。用于VSD的传统预处理工具主要集中在字分割和粗布局分析上,而VSD的细粒度逻辑结构分析(例如识别段界限及其层次结构)是曝光的。为此,我们建议将任务作为预测“转换标签”在将片段映射到树的文本片段之间的预测,并开发了一种基于特征的机器学习系统,该系统保留了视觉,文本和语义线索。您的系统很容易可定制不同类型的VSD,并且它显着超越了识别VSD中不同结构的基线。例如,我们的系统获得了0.953的段落边界检测F1得分,这显着优于流行的PDF到文本工具,F1得分为0.739。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
Identification of named entities from legal texts is an essential building block for developing other legal Artificial Intelligence applications. Named Entities in legal texts are slightly different and more fine-grained than commonly used named entities like Person, Organization, Location etc. In this paper, we introduce a new corpus of 46545 annotated legal named entities mapped to 14 legal entity types. The Baseline model for extracting legal named entities from judgment text is also developed.
translated by 谷歌翻译
Laws and their interpretations, legal arguments and agreements\ are typically expressed in writing, leading to the production of vast corpora of legal text. Their analysis, which is at the center of legal practice, becomes increasingly elaborate as these collections grow in size. Natural language understanding (NLU) technologies can be a valuable tool to support legal practitioners in these endeavors. Their usefulness, however, largely depends on whether current state-of-the-art models can generalize across various tasks in the legal domain. To answer this currently open question, we introduce the Legal General Language Understanding Evaluation (LexGLUE) benchmark, a collection of datasets for evaluating model performance across a diverse set of legal NLU tasks in a standardized way. We also provide an evaluation and analysis of several generic and legal-oriented models demonstrating that the latter consistently offer performance improvements across multiple tasks.
translated by 谷歌翻译
In today's data-driven society, supervised machine learning is rapidly evolving, and the need for labeled data is increasing. However, the process of acquiring labels is often expensive and tedious. For this reason, we developed ALANNO, an open-source annotation system for NLP tasks powered by active learning. We focus on the practical challenges in deploying active learning systems and try to find solutions to make active learning effective in real-world applications. We support the system with a wealth of active learning methods and underlying machine learning models. In addition, we leave open the possibility to add new methods, which makes the platform useful for both high-quality data annotation and research purposes.
translated by 谷歌翻译
幻想运动让粉丝管理他们最喜欢的运动员团队并与朋友竞争。幻想平台对抗运动员的真实统计表现,幻想得分,稳步上升,估计每月有44亿球员的估计为910万名球员,2018 - 2019年的ESPN幻想足球平台。同时,体育媒体社区并行产生新闻报道,博客,论坛帖子,推文,视频,播客和幻想运动内外的曲目。然而,人类幻想足球运动员只能分析3.9个信息来源。我们的工作讨论了机器学习管道的结果来管理ESPN幻想足球队。每天使用训练有素的统计实体探测器和文档2Vector模型应用于超过100,000个新闻源和230万件文章,视频和播客使系统能够理解自然语言,这些自然语言具有100%和关键字测试精度为80%的类别。深度学习前馈神经网络提供了播放器分类,例如,如果玩家将是一个胸围,繁荣,用隐藏的伤害玩或玩有意义的触摸,累计72%的准确性。最后,多元回归集合使用深度学习输出和ESPN投影数据,为2018年为前500多个幻想足球运动员提供了一个点投影。点投影保持了6.78点的RMSE。选择来自一组24的最佳拟合概率密度函数以可视化分数扩展。在产品发布的前6周内,用户总数花了46年来观看我们的AI洞察力。我们模型的培训数据由2015年到2016年的Web档案提供,来自Webhose,ESPN统计和Rootowire损伤报告。我们使用2017年幻想足球数据作为测试集。
translated by 谷歌翻译
We present POTATO, the Portable text annotation tool, a free, fully open-sourced annotation system that 1) supports labeling many types of text and multimodal data; 2) offers easy-to-configure features to maximize the productivity of both deployers and annotators (convenient templates for common ML/NLP tasks, active learning, keypress shortcuts, keyword highlights, tooltips); and 3) supports a high degree of customization (editable UI, inserting pre-screening questions, attention and qualification tests). Experiments over two annotation tasks suggest that POTATO improves labeling speed through its specially-designed productivity features, especially for long documents and complex tasks. POTATO is available at https://github.com/davidjurgens/potato and will continue to be updated.
translated by 谷歌翻译
文本分类在许多真实世界的情况下可能很有用,为最终用户节省了很多时间。但是,构建自定义分类器通常需要编码技能和ML知识,这对许多潜在用户构成了重大障碍。为了提高此障碍,我们介绍了标签侦探,这是一种免费的开源系统,用于标记和创建文本分类器。该系统对于(a)是一个无代码系统是独一无二的分类器在几个小时内,(c)开发用于开发人员进行配置和扩展。通过开放采购标签侦探,我们希望建立一个用户和开发人员社区,以扩大NLP模型的利用率。
translated by 谷歌翻译
To effectively train accurate Relation Extraction models, sufficient and properly labeled data is required. Adequately labeled data is difficult to obtain and annotating such data is a tricky undertaking. Previous works have shown that either accuracy has to be sacrificed or the task is extremely time-consuming, if done accurately. We are proposing an approach in order to produce high-quality datasets for the task of Relation Extraction quickly. Neural models, trained to do Relation Extraction on the created datasets, achieve very good results and generalize well to other datasets. In our study, we were able to annotate 10,022 sentences for 19 relations in a reasonable amount of time, and trained a commonly used baseline model for each relation.
translated by 谷歌翻译
表是存储数据的永远存在的结构。现在存在不同的方法来物理地存储表格数据。PDF,图像,电子表格和CSV是领先的例子。能够解析由这些结构界限的表结构和提取内容在许多应用中具有很高的重要性。在本文中,我们设计了Diallagarser,一个系统能够在天然PDF和具有高精度的扫描图像中解析表的系统。我们已经进行了广泛的实验,以展示领域适应在开发这种工具方面的功效。此外,我们创建了TableAnnotator和Excelannotator,构成了基于电子表格的弱监督机制和管道,以实现表解析。我们与研究界共享这些资源,以促进这种有趣方向的进一步研究。
translated by 谷歌翻译