当实体提到可能是不连续的,命名实体识别(ner)仍然挑战。现有方法将识别过程分解为几个顺序步骤。在培训中,他们预测金色中间结果的条件,而推理依赖于前一步的模型输出,这引入了曝光偏差。为了解决这个问题,我们首先构造每个句子的段图,其中每个节点都表示段(其自己的连续实体,或者是不连续实体的一部分),并且边缘链接属于同一实体的两个节点。节点和边缘可以分别在一个阶段中产生网格标记方案,并使用名为MAC的新颖体系结构共同学习。然后,不连续的ner可以被重新重整为发现图中的最大批变并在每个集团中连接跨度的非参数过程。三个基准测试的实验表明,我们的方法优于最先进的(SOTA)结果,在F1上提高了高达3.5个百分点,并在SOTA模型上实现了5倍的加速。
translated by 谷歌翻译
到目前为止,命名实体识别(ner)已经参与了三种主要类型,包括平面,重叠(嵌套)和不连续的ner,主要是单独研究。最近,为统一的人员建立了一个日益增长的兴趣,并与一个单一模型同时解决上述三个工作。当前最佳性能的方法主要包括基于跨度和序列到序列的模型,不幸的是,前者仅关注边界识别,后者可能遭受暴露偏差。在这项工作中,我们通过将统一的ner建模为Word-Word关系分类来提出一种小说替代方案,即W ^ 2ner。通过有效地建模具有下面邻近字(NNW)和尾页字 - *(THW- *)关系的实体单词之间的邻近关系来解决统一网内的内核瓶颈。基于W ^ 2ner方案,我们开发了一个神经框架,其中统一的网格被建模为单词对的2D网格。然后,我们提出了多粒度的2D卷积,以便更好地精炼网格表示。最后,共同预测器用于足够原因的单词关系。我们对14个广泛使用的基准数据集进行了广泛的实验,用于平板,重叠和不连续的NER(8英语和6个中文数据集),我们的型号击败了所有当前的顶级表演基线,推动了最先进的表演统一的网。
translated by 谷歌翻译
对于指定的实体识别(NER),基于序列标签和基于跨度的范例大不相同。先前的研究表明,这两个范式具有明显的互补优势,但是据我们所知,很少有模型试图在单个NER模型中利用这些优势。在我们以前的工作中,我们提出了一种称为捆绑学习(BL)的范式来解决上述问题。 BL范式将两个NER范式捆绑在一起,从而使NER模型通过加权总结每个范式的训练损失来共同调整其参数。但是,三个关键问题仍未解决:BL何时起作用? BL为什么工作? BL可以增强现有的最新(SOTA)NER模型吗?为了解决前两个问题,我们实施了三个NER模型,涉及一个基于序列标签的模型-Seqner,Seqner,一个基于跨度的NER模型 - 机器人,以及将Seqner和Spanner捆绑在一起的BL-NER。我们根据来自五个域的11个NER数据集的实验结果得出两个关于这两个问题的结论。然后,我们将BL应用于现有的五个SOTA NER模型,以研究第三期,包括三个基于序列标签的模型和两个基于SPAN的模型。实验结果表明,BL始终提高其性能,表明可以通过将BL纳入当前的SOTA系统来构建新的SOTA NER系统。此外,我们发现BL降低了实体边界和类型预测错误。此外,我们比较了两种常用的标签标签方法以及三种类型的跨度语义表示。
translated by 谷歌翻译
事件提取(EE)是信息提取的重要任务,该任务旨在从非结构化文本中提取结构化事件信息。大多数先前的工作都专注于提取平坦的事件,同时忽略重叠或嵌套的事件。多个重叠和嵌套EE的模型包括几个连续的阶段来提取事件触发器和参数,这些阶段患有错误传播。因此,我们设计了一种简单而有效的标记方案和模型,以将EE作为单词关系识别,称为oneee。触发器或参数单词之间的关系在一个阶段同时识别出并行网格标记,从而产生非常快的事件提取速度。该模型配备了自适应事件融合模块,以生成事件感知表示表示和距离感知的预测指标,以整合单词关系识别的相对距离信息,从经验上证明这是有效的机制。对3个重叠和嵌套的EE基准测试的实验,即少数FC,GENIA11和GENIA13,表明Oneee实现了最新的(SOTA)结果。此外,ONEEE的推理速度比相同条件下的基线的推理速度快,并且由于它支持平行推断,因此可以进一步改善。
translated by 谷歌翻译
Open Information Extraction (OpenIE) facilitates the open-domain discovery of textual facts. However, the prevailing solutions evaluate OpenIE models on in-domain test sets aside from the training corpus, which certainly violates the initial task principle of domain-independence. In this paper, we propose to advance OpenIE towards a more realistic scenario: generalizing over unseen target domains with different data distributions from the source training domains, termed Generalized OpenIE. For this purpose, we first introduce GLOBE, a large-scale human-annotated multi-domain OpenIE benchmark, to examine the robustness of recent OpenIE models to domain shifts, and the relative performance degradation of up to 70% implies the challenges of generalized OpenIE. Then, we propose DragonIE, which explores a minimalist graph expression of textual fact: directed acyclic graph, to improve the OpenIE generalization. Extensive experiments demonstrate that DragonIE beats the previous methods in both in-domain and out-of-domain settings by as much as 6.0% in F1 score absolutely, but there is still ample room for improvement.
translated by 谷歌翻译
联合医疗关系提取是指由单个模型从医学文本中提取由实体和关系组成的三元组。解决方案之一是将此任务转换为顺序标记任务。但是,在现有的作品中,以线性方式表示和标记三元组的方法失败了,而将三元组组织为图形的方法面临着大量计算工作的挑战。在本文中,受到医学文本中类似树状的关系结构的启发,我们提出了一个名为“双向树”标签(BITT)的新颖方案,将医疗关系三元组成两条两条二进制树,并将树转换为单词级别的标签序列。基于BITT方案,我们开发了一个联合关系提取模型,以预测BITT标签并进一步提取医疗三元三元。我们的模型在两个医疗数据集上的最佳基准在F1分中优于2.0 \%和2.5 \%。更重要的是,我们的BITT方案的模型还可以在其他域的三个公共数据集中获得有希望的结果。
translated by 谷歌翻译
命名实体识别(NER)任务旨在识别属于人,位置,组织等预定语义类型的文本中的实体。平面实体的最新解决方案NER通常因捕获捕获基础文本中的细粒语义信息。现有的基于跨度的方法克服了这一限制,但是计算时间仍然是一个问题。在这项工作中,我们提出了一个基于跨度的新型NER框架,即全球指针(GP),该框架通过乘法注意机制来利用相对位置。最终目标是实现一个全球观点,以考虑开始和最终位置以预测实体。为此,我们设计了两个模块来识别给定实体的头部和尾部,以使训练和推理过程之间的不一致。此外,我们引入了一种新型的分类损失函数,以解决不平衡标签问题。在参数方面,我们引入了一种简单但有效的近似方法来减少训练参数。我们在各种基准数据集上广泛评估GP。我们的广泛实验表明,GP可以胜过现有的解决方案。此外,实验结果表明,与软马克斯和熵替代方案相比,引入的损失函数的功效。
translated by 谷歌翻译
基于标记的关系三重提取方法最近引起了日益增长的研究。然而,大多数这些方法采用单向提取框架,首先提取所有受试者,然后基于提取的受试者同时提取物体和关系。该框架具有明显的缺陷,即对受试者的提取结果太敏感。为了克服这种缺陷,我们提出了一种基于双向提取框架的方法,该方法基于从两个互补方向提取的实体对提取三维。具体地,我们首先从两个平行方向提取所有可能的主题对象对。这两个提取方向通过共享编码器组件连接,因此从一个方向的提取特征可以流到另一个方向,反之亦然。通过这种方式,两个方向的提取可以促进和相互补充。接下来,我们通过双重模型分配每个实体对的所有可能的关系。在培训期间,我们观察到股份结构将导致融合率不一致问题,这是对绩效有害的。因此,我们提出了一个享有意识的学习机制来解决它。我们在多个基准数据集中评估所提出的模型。广泛的实验结果表明,所提出的模型非常有效,它在所有这些数据集中实现了最先进的结果。此外,实验表明,所提出的双向提取框架和股感的学习机制都具有良好的适应性,可用于改善基于标记的其他标记的方法的性能。我们工作的源代码可用于:https://github.com/neukg/birte。
translated by 谷歌翻译
基于跨度的关节提取同时进行文本跨度的指定实体识别(NER)和关系提取(RE)。最近的研究表明,令牌标签可以传达至关重要的任务特定信息并丰富令牌语义。但是,据我们所知,由于完全戒除序列标记机制,所有先前基于跨度的工作都无法使用令牌标签的形式。为了解决此问题,我们置于基于跨度的跨度网络(STSN)的序列序列标记,这是一个基于跨度的关节外推网络,该网络通过基于序列标记的NER得出的令牌生物标签信息增强。通过深入堆叠多个Atten-tion层,我们设计了一个深度的Neu-ral架构来构建STSN,每个阶层层都由三个基本注意力单元组成。深度神经体系结构首先学习了代币标签和基于SPAN的关节提取的Seman-TIC表示,然后在它们之间构建了形式的相互作用,这也实现了基于SPAN的NER和RE之间的双向信息相互关系。向热 - 我们扩展了生物标记方案,以使STSN可以提取重叠的联系。三个基准数据集的实验表明,我们的模型始终优于先前的最佳模型,从而创造了新的最新结果。
translated by 谷歌翻译
我们提出了文件的实体级关系联合模型。与其他方法形成鲜明对比 - 重点关注本地句子中的对,因此需要提及级别的注释 - 我们的模型在实体级别运行。为此,遵循多任务方法,它在Coreference分辨率上建立并通过多级别表示结合全局实体和本地提到信息来聚集相关信号。我们在积木数据集中实现最先进的关系提取结果,并报告了未来参考的第一个实体级端到端关系提取结果。最后,我们的实验结果表明,联合方法与特定于任务专用的学习相提并论,虽然由于共享参数和培训步骤而言更有效。
translated by 谷歌翻译
跨度提取,旨在从纯文本中提取文本跨度(如单词或短语),是信息提取中的基本过程。最近的作品介绍了通过将跨度提取任务正式化为问题(QA正式化)的跨度提取任务来提高文本表示,以实现最先进的表现。然而,QA正规化并没有充分利用标签知识并遭受培训/推理的低效率。为了解决这些问题,我们介绍了一种新的范例来整合标签知识,并进一步提出一个小说模型,明确有效地将标签知识集成到文本表示中。具体而言,它独立地编码文本和标签注释,然后将标签知识集成到文本表示中,并使用精心设计的语义融合模块进行文本表示。我们在三个典型的跨度提取任务中进行广泛的实验:扁平的网,嵌套网和事件检测。实证结果表明,我们的方法在四个基准测试中实现了最先进的性能,而且分别将培训时间和推理时间降低76%和77%,与QA形式化范例相比。我们的代码和数据可在https://github.com/apkepers/lear中获得。
translated by 谷歌翻译
命名实体识别(NER)是检测和对实体跨越文本的跨度的任务。当实体跨越彼此之间的重叠时,此问题被称为嵌套NER。基于跨度的方法已被广泛用于应对嵌套的NER。这些方法中的大多数都会获得分数$ n \ times n $矩阵,其中$ n $表示句子的长度,每个条目对应于跨度。但是,先前的工作忽略了分数矩阵中的空间关系。在本文中,我们建议使用卷积神经网络(CNN)对分数矩阵中的这些空间关系进行建模。尽管很简单,但在三个常用的嵌套NER数据集中进行的实验表明,我们的模型超过了几种具有相同预训练的编码器的最近提出的方法。进一步的分析表明,使用CNN可以帮助模型更准确地找到嵌套实体。此外,我们发现不同的论文对三个嵌套的NER数据集使用了不同的句子引导,这将影响比较。因此,我们发布了一个预处理脚本,以促进将来的比较。
translated by 谷歌翻译
Information Extraction (IE) aims to extract structured information from heterogeneous sources. IE from natural language texts include sub-tasks such as Named Entity Recognition (NER), Relation Extraction (RE), and Event Extraction (EE). Most IE systems require comprehensive understandings of sentence structure, implied semantics, and domain knowledge to perform well; thus, IE tasks always need adequate external resources and annotations. However, it takes time and effort to obtain more human annotations. Low-Resource Information Extraction (LRIE) strives to use unsupervised data, reducing the required resources and human annotation. In practice, existing systems either utilize self-training schemes to generate pseudo labels that will cause the gradual drift problem, or leverage consistency regularization methods which inevitably possess confirmation bias. To alleviate confirmation bias due to the lack of feedback loops in existing LRIE learning paradigms, we develop a Gradient Imitation Reinforcement Learning (GIRL) method to encourage pseudo-labeled data to imitate the gradient descent direction on labeled data, which can force pseudo-labeled data to achieve better optimization capabilities similar to labeled data. Based on how well the pseudo-labeled data imitates the instructive gradient descent direction obtained from labeled data, we design a reward to quantify the imitation process and bootstrap the optimization capability of pseudo-labeled data through trial and error. In addition to learning paradigms, GIRL is not limited to specific sub-tasks, and we leverage GIRL to solve all IE sub-tasks (named entity recognition, relation extraction, and event extraction) in low-resource settings (semi-supervised IE and few-shot IE).
translated by 谷歌翻译
我们为指定实体识别(NER)提出了一个有效的双重编码框架,该框架将对比度学习用于映射候选文本跨度,并将实体类型映射到同一矢量表示空间中。先前的工作主要将NER作为序列标记或跨度分类。相反,我们将NER视为一个度量学习问题,它最大程度地提高了实体提及的向量表示之间的相似性及其类型。这使得易于处理嵌套和平坦的ner,并且可以更好地利用嘈杂的自我诉讼信号。 NER对本双重编码器制定的主要挑战在于将非实体跨度与实体提及分开。我们没有明确标记所有非实体跨度为外部(O)与大多数先前方法相同的类别(O),而是引入了一种新型的动态阈值损失,这与标准的对比度损失一起学习。实验表明,我们的方法在受到监督和远处有监督的设置中的表现良好(例如,Genia,NCBI,BC5CDR,JNLPBA)。
translated by 谷歌翻译
与伯特(Bert)等语言模型相比,已证明知识增强语言表示的预培训模型在知识基础构建任务(即〜关系提取)中更有效。这些知识增强的语言模型将知识纳入预训练中,以生成实体或关系的表示。但是,现有方法通常用单独的嵌入表示每个实体。结果,这些方法难以代表播出的实体和大量参数,在其基础代币模型之上(即〜变压器),必须使用,并且可以处理的实体数量为由于内存限制,实践限制。此外,现有模型仍然难以同时代表实体和关系。为了解决这些问题,我们提出了一个新的预培训模型,该模型分别从图书中学习实体和关系的表示形式,并分别在文本中跨越跨度。通过使用SPAN模块有效地编码跨度,我们的模型可以代表实体及其关系,但所需的参数比现有模型更少。我们通过从Wikipedia中提取的知识图对我们的模型进行了预训练,并在广泛的监督和无监督的信息提取任务上进行了测试。结果表明,我们的模型比基线学习对实体和关系的表现更好,而在监督的设置中,微调我们的模型始终优于罗伯塔,并在信息提取任务上取得了竞争成果。
translated by 谷歌翻译
已经进行了一项详尽的研究,以研究基于跨度的联合实体和关系提取任务的模型。但是,这些模型在模型训练过程中采样了大量的负实体和负关系,这是必不可少的,但导致数据分布严重不平衡,进而导致次优模型性能。为了解决上述问题,我们为基于跨度的联合实体和关系提取提出了两个阶段范式,其中涉及在第一阶段对实体和关系进行分类,并预测第二阶段的这些实体和关系的类型阶段。两阶段范式使我们的模型能够显着缩小数据分布差距,包括负实体与其他实体之间的差距,以及负面关系与其他关系之间的差距。此外,我们首次尝试将实体类型和实体距离与全球特征相结合,这已被证明有效,尤其是对于关系提取而言。几个数据集的实验结果表明,基于两阶段范式的基于跨度的联合提取模型增强,全局功能始终优于先前用于联合提取任务的基于最新的跨度模型,并建立了新的标准基准。定性和定量分析进一步验证了提出的范式和全球特征的有效性。
translated by 谷歌翻译
方面情绪三重态提取(ASTE)旨在从句子中提取三胞胎,包括目标实体,相关情感极性,以及合理化极性的意见跨度。现有方法缺乏目标 - 意见对之间的构建相关性,并忽略不同情绪三联体之间的相互干扰。为了解决这些问题,我们利用了两阶段框架来增强目标和意见之间的相关性:在阶段,通过序列标记提取目标和意见;然后,我们附加了一组名为可感知对的人工标签,其指示特定目标意义元组的跨度,输入句子以获得更接近相关的目标意见对表示。同时,我们通过限制令牌的注意力领域来降低三态层之间的负干扰。最后,根据可感知对的表示来识别极性。我们对四个数据集进行实验,实验结果表明了我们模型的有效性。
translated by 谷歌翻译
Aspect Sentiment Triplet Extraction (ASTE) has become an emerging task in sentiment analysis research, aiming to extract triplets of the aspect term, its corresponding opinion term, and its associated sentiment polarity from a given sentence. Recently, many neural networks based models with different tagging schemes have been proposed, but almost all of them have their limitations: heavily relying on 1) prior assumption that each word is only associated with a single role (e.g., aspect term, or opinion term, etc. ) and 2) word-level interactions and treating each opinion/aspect as a set of independent words. Hence, they perform poorly on the complex ASTE task, such as a word associated with multiple roles or an aspect/opinion term with multiple words. Hence, we propose a novel approach, Span TAgging and Greedy infErence (STAGE), to extract sentiment triplets in span-level, where each span may consist of multiple words and play different roles simultaneously. To this end, this paper formulates the ASTE task as a multi-class span classification problem. Specifically, STAGE generates more accurate aspect sentiment triplet extractions via exploring span-level information and constraints, which consists of two components, namely, span tagging scheme and greedy inference strategy. The former tag all possible candidate spans based on a newly-defined tagging set. The latter retrieves the aspect/opinion term with the maximum length from the candidate sentiment snippet to output sentiment triplets. Furthermore, we propose a simple but effective model based on the STAGE, which outperforms the state-of-the-arts by a large margin on four widely-used datasets. Moreover, our STAGE can be easily generalized to other pair/triplet extraction tasks, which also demonstrates the superiority of the proposed scheme STAGE.
translated by 谷歌翻译
在视觉上丰富的文件(VRD)上的结构化文本理解是文档智能的重要组成部分。由于VRD中的内容和布局的复杂性,结构化文本理解是一项有挑战性的任务。大多数现有的研究将此问题与两个子任务结尾:实体标记和实体链接,这需要整体地了解令牌和段级别的文档的上下文。但是,很少的工作已经关注有效地从不同层次提取结构化数据的解决方案。本文提出了一个名为structext的统一框架,它对于处理两个子任务是灵活的,有效的。具体地,基于变压器,我们引入了一个段令牌对齐的编码器,以处理不同粒度水平的实体标记和实体链接任务。此外,我们设计了一种具有三个自我监督任务的新型预训练策略,以学习更丰富的代表性。 Structext使用现有屏蔽的视觉语言建模任务和新句子长度预测和配对框方向任务,以跨文本,图像和布局结合多模态信息。我们评估我们在分段级别和令牌级别的结构化文本理解的方法,并表明它优于最先进的同行,在Funsd,Srie和Ephoie数据集中具有显着优越的性能。
translated by 谷歌翻译
我们提出了KPI-Bert,该系统采用新颖的实体识别方法(NER)和关系提取(RE)来提取和链接关键绩效指标(KPIS),例如来自现实世界中德国财务文件的公司的“收入”或“利息费用”。具体而言,我们引入了一种端到端可训练的体系结构,该体系结构基于来自变形金刚(BERT)的双向编码器表示,该架构将复发性神经网络(RNN)与条件标签屏蔽结合到依次标记实体之前,然后再对其关系进行分类。我们的模型还引入了一种可学习的基于RNN的合并机制,并通过明确过滤不可能的关系来结合域专家知识。我们在德国财务报告的新实用数据集上实现了更高的预测性能,表现优于几个强大的基础线,包括基于最新的跨度实体标签方法。
translated by 谷歌翻译