事件提取,旨在自动获取文档结构信息的技术,在许多领域中吸引了越来越多的关注。大多数现有工作通过将令牌视为不同的角色,令牌级多标签分类框架讨论此问题,同时忽略文档的编写方式。写作风格是一个特殊的内容,用于组织文件,它是相对固定在具有特殊领域的文档中(例如,财务,医疗文件等)。我们认为写作风格包含重要的线索来判断令牌的角色,这种模式的无知可能导致现有工作的性能下降。为此,我们将文档中的写作风格模拟作为参数角色的分布,即角色排名分配,并提出了一种基于角色排名分布的监督机制的事件提取模型,通过监督培训过程来捕获这种模式事件提取任务。我们将模型与在几个真实世界数据集上的最先进的方法进行比较。经验结果表明,我们的方法优于捕获模式的其他替代品。这验证了写入风格包含可以提高事件提取任务性能的有价值的信息。
translated by 谷歌翻译
在文档级事件提取(DEE)任务中,事件参数始终散布在句子(串行问题)中,并且多个事件可能存在于一个文档(多事件问题)中。在本文中,我们认为事件参数的关系信息对于解决上述两个问题具有重要意义,并提出了一个新的DEE框架,该框架可以对关系依赖关系进行建模,称为关系授权的文档级事件提取(REDEE)。更具体地说,该框架具有一种新颖的量身定制的变压器,称为关系增强的注意变形金刚(RAAT)。 RAAT可扩展以捕获多尺度和多启动参数关系。为了进一步利用关系信息,我们介绍了一个单独的事件关系预测任务,并采用多任务学习方法来显式增强事件提取性能。广泛的实验证明了该方法的有效性,该方法可以在两个公共数据集上实现最新性能。我们的代码可在https:// github上找到。 com/tencentyouturesearch/raat。
translated by 谷歌翻译
从文本中获取结构事件知识的事件提取(EE)可以分为两个子任务:事件类型分类和元素提取(即在不同的角色模式下识别触发器和参数)。由于不同的事件类型始终拥有独特的提取模式(即角色模式),因此EE先前的工作通常遵循孤立的学习范式,对不同的事件类型独立执行元素提取。它忽略了事件类型和参数角色之间有意义的关联,导致频繁类型/角色的性能相对较差。本文提出了一个新型的EE任务神经关联框架。给定文档,它首先通过构造文档级别的图形来执行类型分类,以关联不同类型的句子节点,并采用图形注意网络来学习句子嵌入。然后,通过构建一个通用参数角色模式来实现元素提取,并具有参数遗传机制,以增强提取元素的角色偏好。因此,我们的模型考虑了EE期间的类型和角色关联,从而使它们之间的隐式信息共享。实验结果表明,我们的方法始终优于两个子任务中大多数最新的EE方法。特别是,对于具有较少培训数据的类型/角色,该性能优于现有方法。
translated by 谷歌翻译
为了减轻从头开始构建知识图(kg)的挑战,更一般的任务是使用开放式语料库中的三元组丰富一个kg,那里获得的三元组包含嘈杂的实体和关系。在保持知识代表的质量的同时,以新收获的三元组丰富一个公园,这是一项挑战。本文建议使用从附加语料库中收集的信息来完善kg的系统。为此,我们将任务制定为两个耦合子任务,即加入事件提取(JEE)和知识图融合(KGF)。然后,我们提出了一个协作知识图融合框架,以允许我们的子任务以交替的方式相互协助。更具体地说,探险家执行了由地面注释和主管提供的现有KG监督的JEE。然后,主管评估了探险家提取的三元组,并用高度排名的人来丰富KG。为了实施此评估,我们进一步提出了一种翻译的关系一致性评分机制,以对齐并将提取的三元组对齐为先前的kg。实验验证了这种合作既可以提高JEE和KGF的表现。
translated by 谷歌翻译
随着信息技术的快速发展,在线平台已经产生了巨大的文本资源。作为一种特定形式的信息提取(即),事件提取(EE)由于其自动从人类语言提取事件的能力而增加了普及。但是,事件提取有限的文献调查。现有审查工作要么花费很多努力,用于描述各种方法的细节或专注于特定领域。本研究提供了全面概述了最先进的事件提取方法及其从文本的应用程序,包括闭域和开放式事件提取。这项调查的特点是它提供了适度复杂性的概要,避免涉及特定方法的太多细节。本研究侧重于讨论代表作品的常见角色,应用领域,优势和缺点,忽略各个方法的特殊性。最后,我们总结了常见问题,当前解决方案和未来的研究方向。我们希望这项工作能够帮助研究人员和从业者获得最近的事件提取的快速概述。
translated by 谷歌翻译
事件提取(EE)是信息提取的重要任务,该任务旨在从非结构化文本中提取结构化事件信息。大多数先前的工作都专注于提取平坦的事件,同时忽略重叠或嵌套的事件。多个重叠和嵌套EE的模型包括几个连续的阶段来提取事件触发器和参数,这些阶段患有错误传播。因此,我们设计了一种简单而有效的标记方案和模型,以将EE作为单词关系识别,称为oneee。触发器或参数单词之间的关系在一个阶段同时识别出并行网格标记,从而产生非常快的事件提取速度。该模型配备了自适应事件融合模块,以生成事件感知表示表示和距离感知的预测指标,以整合单词关系识别的相对距离信息,从经验上证明这是有效的机制。对3个重叠和嵌套的EE基准测试的实验,即少数FC,GENIA11和GENIA13,表明Oneee实现了最新的(SOTA)结果。此外,ONEEE的推理速度比相同条件下的基线的推理速度快,并且由于它支持平行推断,因此可以进一步改善。
translated by 谷歌翻译
临床领域中的事件提取是一个探索较少的研究领域。除了大量的特定领域的行话外,缺乏培训数据,包括较长的实体,具有模糊的边界,使该任务尤其具有挑战性。在本文中,我们介绍了DICE,这是一种用于临床事件提取的强大而数据效率的生成模型。骰子框架事件提取作为有条件的生成问题,并利用域专家提供的描述来提高低资源设置下的性能。此外,DICE学会了与辅助提及的识别任务一起定位和约束生物医学提及,该任务与事件提取任务共同培训,以利用任务间的依赖性,并进一步纳入确定的提及作为其各自任务的触发和论证候选者。我们还介绍了MacCrobat-EE,这是第一个带有事件参数注释的临床事件提取数据集。我们的实验证明了在临床领域的低数据设置下骰子的鲁棒性,以及将柔性关节训练并提及标记纳入生成方法的好处。
translated by 谷歌翻译
文档级事件提取中有两个主要挑战:1)参数实体分散在不同的句子中,2)事件触发器通常不可用。为了解决这些挑战,最先前的研究主要关注以自回归方式建立参数链,这在培训和推论方面效率低下。与以前的研究相比,我们提出了一种快速轻量级的模型,名为PTPCG。我们设计非自动评级解码算法,以执行修剪的完整图表的事件参数组合提取,这在自动选择的伪触发器的引导下构造。与以前的系统相比,我们的系统实现了资源消耗较低的竞争结果,只需要3.6%的GPU时间(PFS-Days),推断速度快8.5倍。此外,我们的方法显示了具有(或没有)触发器的数据集的卓越兼容性,并且伪触发器可以是注释触发器的补充剂,以进一步改进。
translated by 谷歌翻译
除了以实体为中心的知识之外,通常组织为知识图(千克),事件也是世界上的必不可少的知识,这触发了活动以kg(ekg)等事件为中心的知识表示形式的春天。它在许多机器学习和人工智能应用中起着越来越重要的作用,例如智能搜索,问答,推荐和文本生成。本文提供了历史,本体实例和应用视图的ekg综合调查。具体而言,要彻底地表征EKG,我们专注于其历史,定义,架构归纳,获取,相关代表图形/系统和应用程序。其中研究了发展过程和趋势。我们进一步总结了透视方向,以促进对EKG的未来研究。
translated by 谷歌翻译
事件参数提取(EAE)在句子级别进行了很好的研究,但在文档级别进行了探索。在本文中,我们研究以捕获实际上分布在文档中的句子的事件论点。先前的工作主要假设对丰富的文档监督的完全访问,而忽略了该论点监督在文档中受到限制的事实。为了填补这一空白,我们基于最大的文档级事件提取数据集DOCEE提出了几个示波的文档级事件参数提取基准。我们首先定义了新问题,并通过新颖的N-Way-D-Doc采样而不是传统的NWay-K-shot策略来重建语料库。然后,我们将高级文档级神经模型调整为几个弹出设置,以在内部和跨域设置下提供基线结果。由于参数提取取决于多个句子的上下文,并且学习过程仅限于很少的示例,因此我们发现该任务在实质上较低的性能中非常具有挑战性。考虑到很少有Docae与低资源制度下的实际使用密切相关,我们希望这种基准能够朝着这一方向发展进行更多的研究。我们的数据和代码将在线提供。
translated by 谷歌翻译
从新闻文章中提取事件的信息论点是信息提取的一个具有挑战性的问题,这需要对每个文档的全球上下文理解。尽管有关文档级提取的最新工作已经超越了单句子,并提高了端到端模型的跨句子推理能力,但它们仍然受到某些输入序列长度约束的限制,通常忽略事件之间的全局上下文。为了解决此问题,我们通过构建文档存储器存储来记录上下文事件信息,并利用它隐含,明确地帮助解码以后事件的参数,从而引入了一个新的基于全局神经生成的框架,以用于文档级事件参数提取提取文档级别的事件参数提取。经验结果表明,我们的框架的表现要优于先验方法,并且使用约束的解码设计对对抗注释的示例更为强大。 (我们的代码和资源可在https://github.com/xinyadu/memory_docie上获得研究目的。)
translated by 谷歌翻译
自然语言理解的关系提取使得创新和鼓励新颖的商业概念成为可能,并促进新的数字化决策过程。目前的方法允许提取与固定数量的实体的关系作为属性。提取与任意数量的属性的关系需要复杂的系统和昂贵的关系触发注释来帮助这些系统。我们将多属性关系提取(MARE)引入具有两种方法的假设问题,促进从业务用例到数据注释的显式映射。避免精细的注释约束简化了关系提取方法的应用。评估将我们的模型与当前最先进的事件提取和二进制关系提取方法进行了比较。与普通多属性关系的提取相比,我们的方法表现出改进。
translated by 谷歌翻译
Information Extraction (IE) aims to extract structured information from heterogeneous sources. IE from natural language texts include sub-tasks such as Named Entity Recognition (NER), Relation Extraction (RE), and Event Extraction (EE). Most IE systems require comprehensive understandings of sentence structure, implied semantics, and domain knowledge to perform well; thus, IE tasks always need adequate external resources and annotations. However, it takes time and effort to obtain more human annotations. Low-Resource Information Extraction (LRIE) strives to use unsupervised data, reducing the required resources and human annotation. In practice, existing systems either utilize self-training schemes to generate pseudo labels that will cause the gradual drift problem, or leverage consistency regularization methods which inevitably possess confirmation bias. To alleviate confirmation bias due to the lack of feedback loops in existing LRIE learning paradigms, we develop a Gradient Imitation Reinforcement Learning (GIRL) method to encourage pseudo-labeled data to imitate the gradient descent direction on labeled data, which can force pseudo-labeled data to achieve better optimization capabilities similar to labeled data. Based on how well the pseudo-labeled data imitates the instructive gradient descent direction obtained from labeled data, we design a reward to quantify the imitation process and bootstrap the optimization capability of pseudo-labeled data through trial and error. In addition to learning paradigms, GIRL is not limited to specific sub-tasks, and we leverage GIRL to solve all IE sub-tasks (named entity recognition, relation extraction, and event extraction) in low-resource settings (semi-supervised IE and few-shot IE).
translated by 谷歌翻译
在线新闻建议的一个关键挑战是帮助用户找到他们感兴趣的文章。传统新闻推荐方法通常使用单一新闻信息,这不足以编码新闻和用户表示。最近的研究使用多个频道新闻信息,例如标题,类别和机构,增强新闻和用户表示。然而,这些方法仅使用各种注意机制来熔化多视图嵌入,而不考虑上下文中包含的深度挖掘更高级别的信息。这些方法编码了在Word级别的新闻内容并共同培训了推荐网络中的注意参数,导致培训模型所需的更多Coreas。我们提出了一个事件提取的新闻推荐(EENR)框架,以克服这些缺点,利用事件提取到抽象的更高级别信息。 Eenr还使用两级策略来减少推荐网络后续部分的参数。我们在第一阶段通过外部语料库训练事件提取模块,并将训练型模型应用于新闻推荐数据集,以预测第二阶段的事件级信息,包括事件类型,角色和参数,包括事件类型,角色和参数。然后我们保险熔断多个频道信息,包括活动信息,新闻标题和类别,以编码新闻和用户。对现实世界数据集的广泛实验表明,我们的EENR方法可以有效地提高新闻建议的性能。最后,我们还探讨了利用更高抽象级别信息来替代新闻身体内容的合理性。
translated by 谷歌翻译
跨度提取,旨在从纯文本中提取文本跨度(如单词或短语),是信息提取中的基本过程。最近的作品介绍了通过将跨度提取任务正式化为问题(QA正式化)的跨度提取任务来提高文本表示,以实现最先进的表现。然而,QA正规化并没有充分利用标签知识并遭受培训/推理的低效率。为了解决这些问题,我们介绍了一种新的范例来整合标签知识,并进一步提出一个小说模型,明确有效地将标签知识集成到文本表示中。具体而言,它独立地编码文本和标签注释,然后将标签知识集成到文本表示中,并使用精心设计的语义融合模块进行文本表示。我们在三个典型的跨度提取任务中进行广泛的实验:扁平的网,嵌套网和事件检测。实证结果表明,我们的方法在四个基准测试中实现了最先进的性能,而且分别将培训时间和推理时间降低76%和77%,与QA形式化范例相比。我们的代码和数据可在https://github.com/apkepers/lear中获得。
translated by 谷歌翻译
在人口稠密的国家中,悬而未决的法律案件呈指数增长。需要开发处理和组织法律文件的技术。在本文中,我们引入了一个新的语料库来构建法律文件。特别是,我们介绍了用英语的法律判断文件进行的,这些文件被分割为局部和连贯的部分。这些零件中的每一个都有注释,标签来自预定义角色的列表。我们开发基线模型,以根据注释语料库自动预测法律文档中的修辞角色。此外,我们展示了修辞角色在提高总结和法律判断预测任务的绩效方面的应用。我们发布了语料库和基线模型代码以及纸张。
translated by 谷歌翻译
Nowadays, time-stamped web documents related to a general news query floods spread throughout the Internet, and timeline summarization targets concisely summarizing the evolution trajectory of events along the timeline. Unlike traditional document summarization, timeline summarization needs to model the time series information of the input events and summarize important events in chronological order. To tackle this challenge, in this paper, we propose a Unified Timeline Summarizer (UTS) that can generate abstractive and extractive timeline summaries in time order. Concretely, in the encoder part, we propose a graph-based event encoder that relates multiple events according to their content dependency and learns a global representation of each event. In the decoder part, to ensure the chronological order of the abstractive summary, we propose to extract the feature of event-level attention in its generation process with sequential information remained and use it to simulate the evolutionary attention of the ground truth summary. The event-level attention can also be used to assist in extracting summary, where the extracted summary also comes in time sequence. We augment the previous Chinese large-scale timeline summarization dataset and collect a new English timeline dataset. Extensive experiments conducted on these datasets and on the out-of-domain Timeline 17 dataset show that UTS achieves state-of-the-art performance in terms of both automatic and human evaluations.
translated by 谷歌翻译
名人认可是品牌交流中最重要的策略之一。如今,越来越多的公司试图为自己建立生动的特征。因此,他们的品牌身份交流应符合人类和法规的某些特征。但是,以前的作品主要是通过假设停止的,而不是提出一种特定的品牌和名人之间匹配的方式。在本文中,我们建议基于自然语言处理(NLP)技术的品牌名人匹配模型(BCM)。鉴于品牌和名人,我们首先从互联网上获得了一些描述性文档,然后总结了这些文档,最后计算品牌和名人之间的匹配程度,以确定它们是否匹配。根据实验结果,我们提出的模型以0.362 F1得分和精度的6.3%优于最佳基线,这表明我们模型在现实世界中的有效性和应用值。更重要的是,据我们所知,拟议的BCM模型是使用NLP解决认可问题的第一项工作,因此它可以为以下工作提供一些新颖的研究思想和方法。
translated by 谷歌翻译
旨在从文本中检测事件并对其进行分类的事件检测(ED)对于理解现实生活中的实际情况至关重要。但是,主流事件检测模型需要触发器的高质量专家人类注释,这通常是昂贵的,因此阻止了ED在新领域的应用。因此,在本文中,我们专注于无触发器的低资源,并旨在应对以下艰巨的挑战:多标签分类,线索不足和事件分布不平衡。我们通过机器阅读理解(DRC)框架提出了一种新颖的无触发ED方法。更具体地说,我们将输入文本视为上下文,并将其与所有事件类型的令牌相连,后者被视为答案,并忽略了默认问题。因此,我们可以利用预训练的语言模型中的自我发作来吸收输入文本和事件类型之间的语义关系。此外,我们设计了一个简单而有效的事件毁灭模块(EDM),以防止大型事件过度学习,从而产生更平衡的训练过程。实验结果表明,我们提出的无触发ED模型与基于主流触发器的模型非常有竞争力,显示了其在低源事件检测上的强劲性能。
translated by 谷歌翻译
作为人类认知的重要组成部分,造成效果关系频繁出现在文本中,从文本策划原因关系有助于建立预测任务的因果网络。现有的因果关系提取技术包括基于知识的,统计机器学习(ML)和基于深度学习的方法。每种方法都具有其优点和缺点。例如,基于知识的方法是可以理解的,但需要广泛的手动域知识并具有较差的跨域适用性。由于自然语言处理(NLP)工具包,统计机器学习方法更加自动化。但是,功能工程是劳动密集型的,工具包可能导致错误传播。在过去的几年里,由于其强大的代表学习能力和计算资源的快速增加,深入学习技术吸引了NLP研究人员的大量关注。它们的局限包括高计算成本和缺乏足够的注释培训数据。在本文中,我们对因果关系提取进行了综合调查。我们最初介绍了因果关系提取中存在的主要形式:显式的内部管制因果关系,隐含因果关系和间情态因果关系。接下来,我们列出了代理关系提取的基准数据集和建模评估方法。然后,我们介绍了三种技术的结构化概述了与他们的代表系统。最后,我们突出了潜在的方向存在现有的开放挑战。
translated by 谷歌翻译