自然语言理解的关系提取使得创新和鼓励新颖的商业概念成为可能,并促进新的数字化决策过程。目前的方法允许提取与固定数量的实体的关系作为属性。提取与任意数量的属性的关系需要复杂的系统和昂贵的关系触发注释来帮助这些系统。我们将多属性关系提取(MARE)引入具有两种方法的假设问题,促进从业务用例到数据注释的显式映射。避免精细的注释约束简化了关系提取方法的应用。评估将我们的模型与当前最先进的事件提取和二进制关系提取方法进行了比较。与普通多属性关系的提取相比,我们的方法表现出改进。
translated by 谷歌翻译
放射学报告含有在其解释图像中被放射科学家记录的多样化和丰富的临床异常。放射发现的综合语义表示将使广泛的次要使用应用来支持诊断,分类,结果预测和临床研究。在本文中,我们提出了一种新的放射学报告语料库,注释了临床调查结果。我们的注释模式捕获了可观察到的病理发现的详细说明(“病变”)和其他类型的临床问题(“医学问题”)。该模式使用了基于事件的表示来捕获细粒细节,包括断言,解剖学,特征,大小,计数等。我们的黄金标准语料库包含总共500个注释的计算机断层扫描(CT)报告。我们利用两个最先进的深度学习架构提取了触发器和论证实体,包括伯特。然后,我们使用基于BERT的关系提取模型预测触发器和参数实体(称为参数角色)之间的连接。我们使用预先从我们的机构的300万放射学报告预先培训的BERT模型实现了最佳提取性能:90.9%-93.4%f1用于查找触发器的触发器72.0%-85.6%f1,用于参数角色。为了评估型号的概括性,我们使用了从模拟胸部X射线(MIMIC-CXR)数据库中随机采样的外部验证。该验证集的提取性能为95.6%,用于发现触发器和参数角色的79.1%-89.7%,表明模型与具有不同的成像模型的跨机构数据一致。我们从模拟CXR数据库中的所有放射学报告中提取了查找事件,并为研究界提供了提取。
translated by 谷歌翻译
随着信息技术的快速发展,在线平台已经产生了巨大的文本资源。作为一种特定形式的信息提取(即),事件提取(EE)由于其自动从人类语言提取事件的能力而增加了普及。但是,事件提取有限的文献调查。现有审查工作要么花费很多努力,用于描述各种方法的细节或专注于特定领域。本研究提供了全面概述了最先进的事件提取方法及其从文本的应用程序,包括闭域和开放式事件提取。这项调查的特点是它提供了适度复杂性的概要,避免涉及特定方法的太多细节。本研究侧重于讨论代表作品的常见角色,应用领域,优势和缺点,忽略各个方法的特殊性。最后,我们总结了常见问题,当前解决方案和未来的研究方向。我们希望这项工作能够帮助研究人员和从业者获得最近的事件提取的快速概述。
translated by 谷歌翻译
在文档级事件提取(DEE)任务中,事件参数始终散布在句子(串行问题)中,并且多个事件可能存在于一个文档(多事件问题)中。在本文中,我们认为事件参数的关系信息对于解决上述两个问题具有重要意义,并提出了一个新的DEE框架,该框架可以对关系依赖关系进行建模,称为关系授权的文档级事件提取(REDEE)。更具体地说,该框架具有一种新颖的量身定制的变压器,称为关系增强的注意变形金刚(RAAT)。 RAAT可扩展以捕获多尺度和多启动参数关系。为了进一步利用关系信息,我们介绍了一个单独的事件关系预测任务,并采用多任务学习方法来显式增强事件提取性能。广泛的实验证明了该方法的有效性,该方法可以在两个公共数据集上实现最新性能。我们的代码可在https:// github上找到。 com/tencentyouturesearch/raat。
translated by 谷歌翻译
当前的因果文本挖掘数据集在目标,数据覆盖率和注释方案中有所不同。这些不一致的努力阻止了建模能力和模型性能的公平比较。很少有数据集包含因果跨度注释,这是端到端因果提取所需的。因此,我们提出了Unicausal,这是跨三个任务的因果文本开采的统一基准:因果序列分类,因果效应跨度检测和因果对分类。我们合并了六个高质量人类注销语料库的注释和对齐注释,分别为每个任务分别为58,720、12,144和69,165个示例。由于因果关系的定义可以是主观的,因此我们的框架旨在允许研究人员处理某些或所有数据集和任务。作为初始基准,我们将BERT预培训模型调整为我们的任务并生成基线得分。对于序列分类,我们获得了70.10%的二进制F1得分,跨度检测获得了52.42%的宏F1得分,对成对分类获得了84.68%的二进制F1得分。
translated by 谷歌翻译
Objective. The impact of social determinants of health (SDoH) on patients' healthcare quality and the disparity is well-known. Many SDoH items are not coded in structured forms in electronic health records. These items are often captured in free-text clinical notes, but there are limited methods for automatically extracting them. We explore a multi-stage pipeline involving named entity recognition (NER), relation classification (RC), and text classification methods to extract SDoH information from clinical notes automatically. Materials and Methods. The study uses the N2C2 Shared Task data, which was collected from two sources of clinical notes: MIMIC-III and University of Washington Harborview Medical Centers. It contains 4480 social history sections with full annotation for twelve SDoHs. In order to handle the issue of overlapping entities, we developed a novel marker-based NER model. We used it in a multi-stage pipeline to extract SDoH information from clinical notes. Results. Our marker-based system outperformed the state-of-the-art span-based models at handling overlapping entities based on the overall Micro-F1 score performance. It also achieved state-of-the-art performance compared to the shared task methods. Conclusion. The major finding of this study is that the multi-stage pipeline effectively extracts SDoH information from clinical notes. This approach can potentially improve the understanding and tracking of SDoHs in clinical settings. However, error propagation may be an issue, and further research is needed to improve the extraction of entities with complex semantic meanings and low-resource entities using external knowledge.
translated by 谷歌翻译
背景:在信息提取和自然语言处理域中,可访问的数据集对于复制和比较结果至关重要。公开可用的实施和工具可以用作基准,并促进更复杂的应用程序的开发。但是,在临床文本处理的背景下,可访问数据集的数量很少 - 现有工具的数量也很少。主要原因之一是数据的敏感性。对于非英语语言,这个问题更为明显。方法:为了解决这种情况,我们介绍了一个工作台:德国临床文本处理模型的集合。这些模型接受了德国肾脏病报告的识别语料库的培训。结果:提出的模型为内域数据提供了有希望的结果。此外,我们表明我们的模型也可以成功应用于德语的其他生物医学文本。我们的工作台公开可用,因此可以开箱即用,或转移到相关问题上。
translated by 谷歌翻译
临床领域中的事件提取是一个探索较少的研究领域。除了大量的特定领域的行话外,缺乏培训数据,包括较长的实体,具有模糊的边界,使该任务尤其具有挑战性。在本文中,我们介绍了DICE,这是一种用于临床事件提取的强大而数据效率的生成模型。骰子框架事件提取作为有条件的生成问题,并利用域专家提供的描述来提高低资源设置下的性能。此外,DICE学会了与辅助提及的识别任务一起定位和约束生物医学提及,该任务与事件提取任务共同培训,以利用任务间的依赖性,并进一步纳入确定的提及作为其各自任务的触发和论证候选者。我们还介绍了MacCrobat-EE,这是第一个带有事件参数注释的临床事件提取数据集。我们的实验证明了在临床领域的低数据设置下骰子的鲁棒性,以及将柔性关节训练并提及标记纳入生成方法的好处。
translated by 谷歌翻译
我们提出了KPI-Bert,该系统采用新颖的实体识别方法(NER)和关系提取(RE)来提取和链接关键绩效指标(KPIS),例如来自现实世界中德国财务文件的公司的“收入”或“利息费用”。具体而言,我们引入了一种端到端可训练的体系结构,该体系结构基于来自变形金刚(BERT)的双向编码器表示,该架构将复发性神经网络(RNN)与条件标签屏蔽结合到依次标记实体之前,然后再对其关系进行分类。我们的模型还引入了一种可学习的基于RNN的合并机制,并通过明确过滤不可能的关系来结合域专家知识。我们在德国财务报告的新实用数据集上实现了更高的预测性能,表现优于几个强大的基础线,包括基于最新的跨度实体标签方法。
translated by 谷歌翻译
事件提取(EE)是信息提取的重要任务,该任务旨在从非结构化文本中提取结构化事件信息。大多数先前的工作都专注于提取平坦的事件,同时忽略重叠或嵌套的事件。多个重叠和嵌套EE的模型包括几个连续的阶段来提取事件触发器和参数,这些阶段患有错误传播。因此,我们设计了一种简单而有效的标记方案和模型,以将EE作为单词关系识别,称为oneee。触发器或参数单词之间的关系在一个阶段同时识别出并行网格标记,从而产生非常快的事件提取速度。该模型配备了自适应事件融合模块,以生成事件感知表示表示和距离感知的预测指标,以整合单词关系识别的相对距离信息,从经验上证明这是有效的机制。对3个重叠和嵌套的EE基准测试的实验,即少数FC,GENIA11和GENIA13,表明Oneee实现了最新的(SOTA)结果。此外,ONEEE的推理速度比相同条件下的基线的推理速度快,并且由于它支持平行推断,因此可以进一步改善。
translated by 谷歌翻译
本文概述了与CRAC 2022研讨会相关的多语言核心分辨率的共享任务。共同的任务参与者应该开发能够识别提及并根据身份核心重点聚集的训练系统。Corefud 1.0的公共版本包含10种语言的13个数据集,被用作培训和评估数据的来源。先前面向核心共享任务中使用的串联分数用作主要评估度量。5个参与团队提交了8个核心预测系统;此外,组织者在共享任务开始时提供了一个基于竞争变压器的基线系统。获胜者系统的表现优于基线12个百分点(就所有语言的所有数据集而言,在所有数据集中平均得分)。
translated by 谷歌翻译
除了以实体为中心的知识之外,通常组织为知识图(千克),事件也是世界上的必不可少的知识,这触发了活动以kg(ekg)等事件为中心的知识表示形式的春天。它在许多机器学习和人工智能应用中起着越来越重要的作用,例如智能搜索,问答,推荐和文本生成。本文提供了历史,本体实例和应用视图的ekg综合调查。具体而言,要彻底地表征EKG,我们专注于其历史,定义,架构归纳,获取,相关代表图形/系统和应用程序。其中研究了发展过程和趋势。我们进一步总结了透视方向,以促进对EKG的未来研究。
translated by 谷歌翻译
开放信息提取(OpenIE)促进了独立于域的大型语料库的关系事实的发现。该技术很好地适合许多开放世界的自然语言理解场景,例如自动知识基础构建,开放域问答和明确的推理。由于深度学习技术的快速发展,已经提出了许多神经开放式体系结构并取得了可观的性能。在这项调查中,我们提供了有关状态神经开放模型的广泛概述,其关键设计决策,优势和劣势。然后,我们讨论当前解决方案的局限性以及OpenIE问题本身的开放问题。最后,我们列出了最近的趋势,这些趋势可以帮助扩大其范围和适用性,从而为Openie的未来研究设定了有希望的方向。据我们所知,本文是有关此特定主题的第一篇评论。
translated by 谷歌翻译
我们提出了一种可解释的关系提取方法,通过共同训练这两个目标来减轻概括和解释性之间的张力。我们的方法使用多任务学习体系结构,该体系结构共同训练分类器以进行关系提取,并在解释关系分类器的决策的关系中标记单词的序列模型。我们还将模型输出转换为规则,以将全局解释带入这种方法。使用混合策略对此序列模型进行训练:有监督,当可获得预先存在的模式的监督时,另外还要半监督。在后一种情况下,我们将序列模型的标签视为潜在变量,并学习最大化关系分类器性能的最佳分配。我们评估了两个数据集中的提议方法,并表明序列模型提供了标签,可作为关系分类器决策的准确解释,并且重要的是,联合培训通常可以改善关系分类器的性能。我们还评估了生成的规则的性能,并表明新规则是手动规则的重要附加功能,并使基于规则的系统更接近神经模型。
translated by 谷歌翻译
对于指定的实体识别(NER),基于序列标签和基于跨度的范例大不相同。先前的研究表明,这两个范式具有明显的互补优势,但是据我们所知,很少有模型试图在单个NER模型中利用这些优势。在我们以前的工作中,我们提出了一种称为捆绑学习(BL)的范式来解决上述问题。 BL范式将两个NER范式捆绑在一起,从而使NER模型通过加权总结每个范式的训练损失来共同调整其参数。但是,三个关键问题仍未解决:BL何时起作用? BL为什么工作? BL可以增强现有的最新(SOTA)NER模型吗?为了解决前两个问题,我们实施了三个NER模型,涉及一个基于序列标签的模型-Seqner,Seqner,一个基于跨度的NER模型 - 机器人,以及将Seqner和Spanner捆绑在一起的BL-NER。我们根据来自五个域的11个NER数据集的实验结果得出两个关于这两个问题的结论。然后,我们将BL应用于现有的五个SOTA NER模型,以研究第三期,包括三个基于序列标签的模型和两个基于SPAN的模型。实验结果表明,BL始终提高其性能,表明可以通过将BL纳入当前的SOTA系统来构建新的SOTA NER系统。此外,我们发现BL降低了实体边界和类型预测错误。此外,我们比较了两种常用的标签标签方法以及三种类型的跨度语义表示。
translated by 谷歌翻译
我们提出了一个新的框架,在增强的自然语言(TANL)之间的翻译,解决了许多结构化预测语言任务,包括联合实体和关系提取,嵌套命名实体识别,关系分类,语义角色标记,事件提取,COREREFED分辨率和对话状态追踪。通过培训特定于特定于任务的鉴别分类器来说,我们将其作为一种在增强的自然语言之间的翻译任务,而不是通过培训问题,而不是解决问题,而是可以轻松提取任务相关信息。我们的方法可以匹配或优于所有任务的特定于任务特定模型,特别是在联合实体和关系提取(Conll04,Ade,NYT和ACE2005数据集)上实现了新的最先进的结果,与关系分类(偶尔和默示)和语义角色标签(Conll-2005和Conll-2012)。我们在使用相同的架构和超参数的同时为所有任务使用相同的架构和超级参数,甚至在培训单个模型时同时解决所有任务(多任务学习)。最后,我们表明,由于更好地利用标签语义,我们的框架也可以显着提高低资源制度的性能。
translated by 谷歌翻译
Contextualized representation models such as ELMo (Peters et al., 2018a) and BERT (Devlin et al., 2018) have recently achieved state-of-the-art results on a diverse array of downstream NLP tasks. Building on recent token-level probing work, we introduce a novel edge probing task design and construct a broad suite of sub-sentence tasks derived from the traditional structured NLP pipeline. We probe word-level contextual representations from four recent models and investigate how they encode sentence structure across a range of syntactic, semantic, local, and long-range phenomena. We find that existing models trained on language modeling and translation produce strong representations for syntactic phenomena, but only offer comparably small improvements on semantic tasks over a non-contextual baseline.
translated by 谷歌翻译
Objective: Social Determinants of Health (SDOH) influence personal health outcomes and health systems interactions. Health systems capture SDOH information through structured data and unstructured clinical notes; however, clinical notes often contain a more comprehensive representation of several key SDOH. The objective of this work is to assess the SDOH information gain achievable by extracting structured semantic representations of SDOH from the clinical narrative and combining these extracted representations with available structured data. Materials and Methods: We developed a natural language processing (NLP) information extraction model for SDOH that utilizes a deep learning entity and relation extraction architecture. In an electronic health record (EHR) case study, we applied the SDOH extractor to a large existing clinical data set with over 200,000 patients and 400,000 notes and compared the extracted information with available structured data. Results: The SDOH extractor achieved 0.86 F1 on a withheld test set. In the EHR case study, we found 19\% of current tobacco users, 10\% of drug users, and 32\% of homeless patients only include documentation of these risk factors in the clinical narrative. Conclusions: Patients who are at-risk for negative health outcomes due to SDOH may be better served if health systems are able to identify SDOH risk factors and associated social needs. Structured semantic representations of text-encoded SDOH information can augment existing structured, and this more comprehensive SDOH representation can assist health systems in identifying and addressing social needs.
translated by 谷歌翻译
我们提出了一种新颖的基准和相关的评估指标,用于评估文本匿名方法的性能。文本匿名化定义为编辑文本文档以防止个人信息披露的任务,目前遭受了面向隐私的带注释的文本资源的短缺,因此难以正确评估各种匿名方法提供的隐私保护水平。本文介绍了标签(文本匿名基准),这是一种新的开源注释语料库,以解决此短缺。该语料库包括欧洲人权法院(ECHR)的1,268个英语法院案件,并充满了有关每个文档中出现的个人信息的全面注释,包括其语义类别,标识符类型,机密属性和共同参考关系。与以前的工作相比,TAB语料库旨在超越传统的识别(仅限于检测预定义的语义类别),并且明确标记了这些文本跨越的标记,这些文本应该被掩盖,以掩盖该人的身份受到保护。除了介绍语料库及其注释层外,我们还提出了一套评估指标,这些指标是针对衡量文本匿名性的性能而定制的,无论是在隐私保护和公用事业保护方面。我们通过评估几个基线文本匿名模型的经验性能来说明基准和提议的指标的使用。完整的语料库及其面向隐私的注释准则,评估脚本和基线模型可在以下网址提供:
translated by 谷歌翻译
症状信息主要记录在自由文本临床笔记中,并且无法直接用于下游应用。为了应对这一挑战,需要采用可以处理不同机构和专业的临床语言变化的信息提取方法。在本文中,我们使用预处理和微调数据介绍了症状提取的领域概括,这些数据在机构和/或专业和患者人群方面与目标领域不同。我们使用基于变压器的联合实体和关系提取方法提取症状事件。为了减少对域特异性特征的依赖,我们提出了一种域的概括方法,该方法可以动态掩盖源域中的频繁症状单词。此外,我们将变压器语言模型(LM)预先限定在与任务相关的无标记文本上,以更好地表示。我们的实验表明,当源域与目标域更遥远时,掩盖和自适应预处理方法可以显着提高性能。
translated by 谷歌翻译