在本文中,我们描述了Case-2022中的子任务2(与休闲新闻语料库的事件因果关系识别)中的共享任务提交。挑战的重点是自动检测新闻媒体中句子中存在的所有因果信号跨度。我们使用T5(一种预先训练的自回归语言模型)检测句子中的因果信号跨度。我们迭代地识别所有原因效应信号跨度三重态,始终在先前预测的三胞胎上预测下一个三重态。为了预测三胞胎本身,我们考虑了不同的因果关系,例如$ \ rightarrow $效果$ \ rightarrow $信号。每个三重态组件都是通过在句子上,当前三重态的前部以及先前预测的三胞胎的语言模型生成的。尽管在一个非常小的160个样本数据集上进行了培训,但我们的方法仍取得了竞争性能,并在比赛中排名第二。此外,我们表明,假设$ \ rightarrow $效果或效果$ \ rightarrow $导致订单实现相似的结果。我们的代码和模型预测将在线发布。
translated by 谷歌翻译
当前的因果文本挖掘数据集在目标,数据覆盖率和注释方案中有所不同。这些不一致的努力阻止了建模能力和模型性能的公平比较。很少有数据集包含因果跨度注释,这是端到端因果提取所需的。因此,我们提出了Unicausal,这是跨三个任务的因果文本开采的统一基准:因果序列分类,因果效应跨度检测和因果对分类。我们合并了六个高质量人类注销语料库的注释和对齐注释,分别为每个任务分别为58,720、12,144和69,165个示例。由于因果关系的定义可以是主观的,因此我们的框架旨在允许研究人员处理某些或所有数据集和任务。作为初始基准,我们将BERT预培训模型调整为我们的任务并生成基线得分。对于序列分类,我们获得了70.10%的二进制F1得分,跨度检测获得了52.42%的宏F1得分,对成对分类获得了84.68%的二进制F1得分。
translated by 谷歌翻译
Triplet extraction aims to extract entities and their corresponding relations in unstructured text. Most existing methods train an extraction model on high-quality training data, and hence are incapable of extracting relations that were not observed during training. Generalizing the model to unseen relations typically requires fine-tuning on synthetic training data which is often noisy and unreliable. In this paper, we argue that reducing triplet extraction to a template filling task over a pre-trained language model can equip the model with zero-shot learning capabilities and enable it to leverage the implicit knowledge in the language model. Embodying these ideas, we propose a novel framework, ZETT (ZEro-shot Triplet extraction by Template infilling), that is based on end-to-end generative transformers. Our experiments show that without any data augmentation or pipeline systems, ZETT can outperform previous state-of-the-art models with 25% less parameters. We further show that ZETT is more robust in detecting entities and can be incorporated with automatically generated templates for relations.
translated by 谷歌翻译
在本文中,我们描述了我们参与Case-2022的子任务1,即与休闲新闻语料库的事件因果关系识别。我们通过在少数带注释的示例(即几次配置)上利用一组简单但互补的技术来解决因果关系识别(CRI)任务。我们遵循一种基于迅速的预测方法,用于微调LMS,其中CRI任务被视为掩盖语言建模问题(MLM)。这种方法允许LMS在MLM问题上进行本地预先训练,可以直接生成对CRI特异性提示的文本响应。我们将此方法的性能与在整个数据集中训练的集合技术进行比较。我们表现​​最佳的提交仅接受了每班256个实例,整个数据集的一小部分培训,但能够获得第二好的精度(0.82),第三好的精度(0.82)和F1得分。 (0.85)非常接近获胜者团队(0.86)的报道。
translated by 谷歌翻译
作为人类认知的重要组成部分,造成效果关系频繁出现在文本中,从文本策划原因关系有助于建立预测任务的因果网络。现有的因果关系提取技术包括基于知识的,统计机器学习(ML)和基于深度学习的方法。每种方法都具有其优点和缺点。例如,基于知识的方法是可以理解的,但需要广泛的手动域知识并具有较差的跨域适用性。由于自然语言处理(NLP)工具包,统计机器学习方法更加自动化。但是,功能工程是劳动密集型的,工具包可能导致错误传播。在过去的几年里,由于其强大的代表学习能力和计算资源的快速增加,深入学习技术吸引了NLP研究人员的大量关注。它们的局限包括高计算成本和缺乏足够的注释培训数据。在本文中,我们对因果关系提取进行了综合调查。我们最初介绍了因果关系提取中存在的主要形式:显式的内部管制因果关系,隐含因果关系和间情态因果关系。接下来,我们列出了代理关系提取的基准数据集和建模评估方法。然后,我们介绍了三种技术的结构化概述了与他们的代表系统。最后,我们突出了潜在的方向存在现有的开放挑战。
translated by 谷歌翻译
三重提取是自然语言处理和知识图构建信息提取的重要任务。在本文中,我们重新审视了序列生成的端到端三重提取任务。由于生成三重提取可能难以捕获长期依赖性并产生不忠的三元组,因此我们引入了一种新型模型,即与生成变压器的对比度三重提取。具体而言,我们为基于编码器的生成引入了一个共享的变压器模块。为了产生忠实的结果,我们提出了一个新颖的三胞胎对比训练对象。此外,我们引入了两种机制,以进一步提高模型性能(即,批处理动态注意力掩盖和三个方面的校准)。在三个数据集(即NYT,WebNLG和MIE)上进行的实验结果表明,我们的方法比基线的方法更好。
translated by 谷歌翻译
开放信息提取(OpenIE)的最先进的神经方法通常以自回旋或基于谓词的方式迭代地提取三重态(或元组),以免产生重复。在这项工作中,我们提出了一种可以平等或更成功的问题的不同方法。也就是说,我们提出了一种新型的单通道方法,用于开放式启发,该方法受到计算机视觉的对象检测算法的启发。我们使用基于双方匹配的订单不足损失,迫使独特的预测和用于序列标签的仅基于变压器的纯编码体系结构。与质量指标和推理时间相比,与标准基准的最新模型相比,提出的方法更快,并且表现出卓越或类似的性能。我们的模型在CARB上的新最新性能为OIE2016评估,而推断的速度比以前的最新状态更快。我们还在两种语言的零弹奏设置中评估了模型的多语言版本,并引入了一种生成合成多语言数据的策略,以微调每个特定语言的模型。在这种情况下,我们在多语言Re-OIE2016上显示了15%的性能提高,葡萄牙语和西班牙语的F1达到75%。代码和型号可在https://github.com/sberbank-ai/detie上找到。
translated by 谷歌翻译
预训练的语言模型(PTLM)已显示出在自然语言任务上表现良好。许多先前的作品都以通过知识图(KGS)标记的关系链接的实体的形式利用结构性常识来协助PTLM。检索方法使用kg作为单独的静态模块,该模块限制了覆盖范围,因为kgs包含有限的知识。生成方法训练PTLMS kg三倍以提高获得知识的规模。但是,对符号KG实体的培训限制了其在涉及自然语言文本的任务中的适用性,在这些任务中,它们忽略了整体上下文。为了减轻这种情况,我们提出了一个以句子为条件的常识性上下文化器(COSE-CO)作为输入,以使其在生成与输入文本的整体上下文相关的任务中通常可用。为了训练Cose-Co,我们提出了一个新的数据集,其中包括句子和常识知识对。 COSE-CO推断出的知识是多种多样的,并且包含了基础KG中不存在的新实体。我们增强了在多选质量质量检查和开放式常识性推理任务中产生的知识,从而改善了CSQA,ARC,QASC和OBQA数据集的当前最佳方法。我们还展示了其在改善释义生成任务的基线模型方面的适用性。
translated by 谷歌翻译
基于方面的情感分析(ABSA)是一项精细的情感分析任务,它的重点是检测句子中的情感极性。但是,它始终对多方面的挑战敏感,在句子中,多个方面的特征将相互影响。为了减轻此问题,我们设计了一个新颖的培训框架,称为对比度跨通道数据增强(C3 DA),该框架利用了一个内域的发电机来构建更多的多种相应样本,然后通过对比度模型通过对比度学习的稳健性,从而通过对比度学习的稳健性这些生成的数据。实际上,鉴于生成预审预测的语言模型和一些有限的ABSA标记数据,我们首先采用一些参数效率的方法来执行内域微调。然后,所获得的内域发生器用于从两个通道(即方面增强通道和极性增强通道)生成合成句子,该句子分别在给定的方面和极性上生成句子条件。具体而言,我们的C3 DA以跨渠道的方式执行句子生成以获取更多句子,并提出了熵最小化过滤器以滤除低质量生成的样品。广泛的实验表明,我们的C3 DA可以在准确性和宏观上胜过约1%的基准,而不会增加1%。代码和数据在https://github.com/wangbing1416/c3da中发布。
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译
在这项工作中,我们探索如何学习专用的语言模型,旨在学习从文本文件中学习关键词的丰富表示。我们在判别和生成设置中进行预训练变压器语言模型(LMS)的不同掩蔽策略。在歧视性设定中,我们引入了一种新的预训练目标 - 关键边界,用替换(kbir)infifiling,在使用Kbir预先训练的LM进行微调时显示出在Sota上的性能(F1中高达9.26点)的大量增益关键酶提取的任务。在生成设置中,我们为BART - 键盘介绍了一个新的预训练设置,可再现与CATSeq格式中的输入文本相关的关键字,而不是Denoised原始输入。这也导致在关键词中的性能(F1 @ M)中的性能(高达4.33点),用于关键正版生成。此外,我们还微调了在命名实体识别(ner),问题应答(qa),关系提取(重新),抽象摘要和达到与SOTA的可比性表现的预训练的语言模型,表明学习丰富的代表关键词确实有利于许多其他基本的NLP任务。
translated by 谷歌翻译
We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models (Peters et al., 2018a;Radford et al., 2018), BERT is designed to pretrain deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers. As a result, the pre-trained BERT model can be finetuned with just one additional output layer to create state-of-the-art models for a wide range of tasks, such as question answering and language inference, without substantial taskspecific architecture modifications.BERT is conceptually simple and empirically powerful. It obtains new state-of-the-art results on eleven natural language processing tasks, including pushing the GLUE score to 80.5% (7.7% point absolute improvement), MultiNLI accuracy to 86.7% (4.6% absolute improvement), SQuAD v1.1 question answering Test F1 to 93.2 (1.5 point absolute improvement) and SQuAD v2.0 Test F1 to 83.1 (5.1 point absolute improvement).
translated by 谷歌翻译
方面情感三胞胎提取(ASTE)旨在提取方面,意见及其情感关系作为情感三胞胎的跨度。现有的作品通常将跨度检测作为1D令牌标记问题制定,并使用令牌对的2D标记矩阵对情感识别进行建模。此外,通过利用诸如伯特(Bert)之类的审计语言编码器(PLES)的代表形式,它们可以实现更好的性能。但是,他们只是利用将功能提取器作为提取器来构建其模块,但从未深入了解特定知识所包含的内容。在本文中,我们争辩说,与其进一步设计模块以捕获ASTE的电感偏见,不如包含“足够”的“足够”功能,用于1D和2D标记:(1)令牌表示包含令牌本身的上下文含义,因此此级别,因此此级别功能带有必要的信息以进行1D标记。 (2)不同PLE层的注意力矩阵可以进一步捕获令牌对中存在的多层次语言知识,从而使2D标记受益。 (3)此外,对于简单的转换,这两个功能也可以很容易地转换为2D标记矩阵和1D标记序列。这将进一步提高标签结果。通过这样做,PLE可以是自然的标记框架并实现新的最新状态,通过广泛的实验和深入分析来验证。
translated by 谷歌翻译
关系提取是一项重要但具有挑战性的任务,旨在从文本中提取所有隐藏的关系事实。随着深层语言模型的发展,关系提取方法在各种基准上都取得了良好的性能。但是,我们观察到以前方法的两个缺点:首先,在各种关系提取设置下没有统一的框架可以很好地工作;其次,有效利用外部知识作为背景信息。在这项工作中,我们提出了一种知识增强的生成模型来减轻这两个问题。我们的生成模型是一个统一的框架,可在各种关系提取设置下依次生成关系三胞胎,并明确利用来自知识图(KG)的相关知识来解决歧义。我们的模型在包括WebNLG,NYT10和Tacred在内的多个基准和设置上实现了卓越的性能。
translated by 谷歌翻译
最近的工作表明,(1)增加输入长度或(2)增加模型大小可以提高基于变压器的神经模型的性能。在本文中,我们提出了一个名为Longt5的新模型,我们探讨了同时缩放输入长度和模型大小的效果。具体而言,我们综合了从长输入变压器(ETC)的关注思路,并采用了从摘要预训练(PEGASU)的预训练策略进入可扩展的T5架构。结果是我们称之为{\ EM瞬态全球}(TGLOBAL)的新关注机制,这些机制是模仿等本地/全球注意力机制,但不需要额外的侧面输入。我们能够实现最先进的结果,以若干摘要任务,优于问题应答任务的原始T5模型。
translated by 谷歌翻译
大型基于变压器的预训练的语言模型在各种知识密集的任务上取得了令人印象深刻的表现,并可以在其参数中捕获事实知识。我们认为,考虑到不断增长的知识和资源需求,在模型参数中存储大量知识是亚最佳选择。我们认为,更有效的替代方法是向模型提供对上下文相关的结构化知识的明确访问,并训练它以使用该知识。我们提出了LM核 - 实现这一目标的一般框架 - 允许从外部知识源对语言模型培训的\ textit {解耦},并允许后者更新而不会影响已经训练的模型。实验结果表明,LM核心获得外部知识,在知识探索任务上的最先进的知识增强语言模型中实现了重要而强大的优于性能。可以有效处理知识更新;并在两个下游任务上表现良好。我们还提出了一个彻底的错误分析,突出了LM核的成功和失败。
translated by 谷歌翻译
The widely studied task of Natural Language Inference (NLI) requires a system to recognize whether one piece of text is textually entailed by another, i.e. whether the entirety of its meaning can be inferred from the other. In current NLI datasets and models, textual entailment relations are typically defined on the sentence- or paragraph-level. However, even a simple sentence often contains multiple propositions, i.e. distinct units of meaning conveyed by the sentence. As these propositions can carry different truth values in the context of a given premise, we argue for the need to recognize the textual entailment relation of each proposition in a sentence individually. We propose PropSegmEnt, a corpus of over 35K propositions annotated by expert human raters. Our dataset structure resembles the tasks of (1) segmenting sentences within a document to the set of propositions, and (2) classifying the entailment relation of each proposition with respect to a different yet topically-aligned document, i.e. documents describing the same event or entity. We establish strong baselines for the segmentation and entailment tasks. Through case studies on summary hallucination detection and document-level NLI, we demonstrate that our conceptual framework is potentially useful for understanding and explaining the compositionality of NLI labels.
translated by 谷歌翻译
时间和因果关系在确定事件之间的依赖关系方面发挥着重要作用。对事件之间的时间和因果关系进行分类有许多应用程序,例如生成事件时间表,事件摘要,文本征集和问题应答。时间和因果关系与彼此密切相关。因此,我们提出了一个联合模型,该模型包含时间和因果特征来执行因果关系分类。我们使用文本的句法结构来识别文本中的两个事件之间的时间和因果关系。我们从文本中提取语音标签序列,依赖关系标签序列和单词序列。我们提出了一个基于LSTM的模型,用于时间和因果关系分类,捕获三个编码特征之间的相互关系。对四个流行数据集的模型的评估产生了对时间和因果关系分类的有希望的结果。
translated by 谷歌翻译
使用诸如BERT,ELMO和FLAIR等模型建模上下文信息的成立具有显着改善了文字的表示学习。它还给出了几乎每个NLP任务机器翻译,文本摘要和命名实体识别的Sota结果,以命名为少。在这项工作中,除了使用这些主导的上下文感知的表示之外,我们还提出了一种用于命名实体识别(NER)的知识意识表示学习(KARL)网络。我们讨论了利用现有方法在纳入世界知识方面的挑战,并展示了如何利用我们所提出的方法来克服这些挑战。 KARL基于变压器编码器,该变压器编码器利用表示为事实三元组的大知识库,将它们转换为图形上下文,并提取驻留在内部的基本实体信息以生成用于特征增强的上下文化三联表示。实验结果表明,使用卡尔的增强可以大大提升我们的内部系统的性能,并在三个公共网络数据集中的文献中的现有方法,即Conll 2003,Conll ++和Ontonotes V5实现了比文献中现有方法的显着更好的结果。我们还观察到更好的概括和应用于从Karl上看不见的实体的真实环境。
translated by 谷歌翻译
Much of named entity recognition (NER) research focuses on developing dataset-specific models based on data from the domain of interest, and a limited set of related entity types. This is frustrating as each new dataset requires a new model to be trained and stored. In this work, we present a ``versatile'' model -- the Prompting-based Unified NER system (PUnifiedNER) -- that works with data from different domains and can recognise up to 37 entity types simultaneously, and theoretically it could be as many as possible. By using prompt learning, PUnifiedNER is a novel approach that is able to jointly train across multiple corpora, implementing intelligent on-demand entity recognition. Experimental results show that PUnifiedNER leads to significant prediction benefits compared to dataset-specific models with impressively reduced model deployment costs. Furthermore, the performance of PUnifiedNER can achieve competitive or even better performance than state-of-the-art domain-specific methods for some datasets. We also perform comprehensive pilot and ablation studies to support in-depth analysis of each component in PUnifiedNER.
translated by 谷歌翻译