新闻库中的自动事件检测是开采快速发展的结构化知识的至关重要的任务。由于现实世界事件具有不同的粒度,从顶级主题到关键事件,然后再提及与具体行动相对应的事件,因此通常有两条研究:(1)主题检测从新闻语料库的主要主题中标识(例如,。 ,“ 2019年香港抗议活动”与“ 2020年美国总统大选”),具有非常不同的语义; (2)从一份文件提取的行动提取提取级别的行动(例如,“警察击中抗议者的左臂”),无法理解该事件。在本文中,我们提出了一项新任务,即在中间级别的关键事件检测,目的是从新闻语料库的关键事件(例如,“ 8月12日至14日的HK机场抗议”)中进行检测,每一次都发生在特定时间/位置并专注于同一主题。由于新闻文章的快速发展性质,这项任务可以弥合事件的理解和结构,并且由于关键事件的主题和时间紧密以及标记的数据的稀缺而具有固有的挑战。为了应对这些挑战,我们开发了一个无监督的关键事件检测框架Evmine,(1)使用新颖的TTF-ITF分数提取时间频繁的峰值短语,(2)将峰值短语合并为事件 - 指示特征集,通过从我们的我们检测我们的社区中。设计的峰短语图可以捕获文档的共发生,语义相似性和时间亲密信号,以及(3)迭代地检索与每个关键事件相关的文档,通过训练具有从事件指标特征集中自动生成的伪标签的分类器,并完善该分类器使用检索的文档检测到关键事件。广泛的实验和案例研究表明,Evmine的表现优于所有基线方法及其在两个现实世界新闻机构上的消融。
translated by 谷歌翻译
时间是文档的重要方面,用于一系列NLP和IR任务。在这项工作中,我们研究了在预训练期间合并时间信息的方法,以进一步提高与时间相关的任务的性能。与Bert相比,使用同步文档收集(BooksCorpus和English Wikipedia)作为培训语料库相比,我们使用长跨度的时间新闻文章集合来构建单词表示。我们介绍了Timebert,这是一种新颖的语言表示模型,该模型通过两项新的预训练任务培训了新闻文章的临时收集,这些任务利用了两个不同的时间信号来构建时间认识的语言表示。实验结果表明,TimeBert始终胜过BERT和其他现有的预训练模型,在不同的下游NLP任务或应用程序上,时间很高的时间很重要。
translated by 谷歌翻译
学术研究是解决以前从未解决过的问题的探索活动。通过这种性质,每个学术研究工作都需要进行文献审查,以区分其Novelties尚未通过事先作品解决。在自然语言处理中,该文献综述通常在“相关工作”部分下进行。鉴于研究文件的其余部分和引用的论文列表,自动相关工作生成的任务旨在自动生成“相关工作”部分。虽然这项任务是在10年前提出的,但直到最近,它被认为是作为科学多文件摘要问题的变种。然而,即使在今天,尚未标准化了自动相关工作和引用文本生成的问题。在这项调查中,我们进行了一个元研究,从问题制定,数据集收集,方法方法,绩效评估和未来前景的角度来比较相关工作的现有文献,以便为读者洞察到国家的进步 - 最内容的研究,以及如何进行未来的研究。我们还调查了我们建议未来工作要考虑整合的相关研究领域。
translated by 谷歌翻译
使用Twitter进行事件检测的小调查。这项工作首先定义了问题陈述,然后总结并整理了解决问题的不同研究工作。
translated by 谷歌翻译
关键词提取是在文本文档中查找几个有趣的短语的任务,它提供了文档中的主要主题列表。大多数现有的基于图形的模型使用共同发生链接作为凝聚指示器来模拟语法元素的关系。但是,单词可能在文档中具有不同形式的表达式,也可能有几个同义词。只需使用共同发生信息无法捕获此信息。在本文中,我们通过利用Word Embeddings作为背景知识来增强基于图形的排名模型,以将语义信息添加到词语图。我们的方法是在既定的基准数据集和经验结果上评估的,表明嵌入邻域信息的单词提高了模型性能。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
The coverage of different stakeholders mentioned in the news articles significantly impacts the slant or polarity detection of the concerned news publishers. For instance, the pro-government media outlets would give more coverage to the government stakeholders to increase their accessibility to the news audiences. In contrast, the anti-government news agencies would focus more on the views of the opponent stakeholders to inform the readers about the shortcomings of government policies. In this paper, we address the problem of stakeholder extraction from news articles and thereby determine the inherent bias present in news reporting. Identifying potential stakeholders in multi-topic news scenarios is challenging because each news topic has different stakeholders. The research presented in this paper utilizes both contextual information and external knowledge to identify the topic-specific stakeholders from news articles. We also apply a sequential incremental clustering algorithm to group the entities with similar stakeholder types. We carried out all our experiments on news articles on four Indian government policies published by numerous national and international news agencies. We also further generalize our system, and the experimental results show that the proposed model can be extended to other news topics.
translated by 谷歌翻译
新闻文章修订历史为新闻文章中的叙事和事实演变提供了线索。为了促进对这一进化的分析,我们介绍了新闻修订历史记录的第一个公开可用的数据集。我们的数据集是大规模和多语言的;它包含120万篇文章,其中有460万款来自三个国家 /地区的英语和法语报纸来源,涵盖了15年的报道(2006 - 2021年)。我们定义文章级的编辑操作:加法,删除,编辑和重构,并开发高准确性提取算法以识别这些动作。为了强调许多编辑操作的事实性质,我们进行的分析表明,添加和删除的句子更可能包含更新事件,主要内容和报价,而不是不变的句子。最后,为了探索编辑操作是否可以预测,我们介绍了三个旨在预测版本更新过程中执行的动作的新任务。我们表明,这些任务对于人类专业而言是可能的,但对于大型NLP模型而言,这些任务具有挑战性。我们希望这可以刺激叙事框架的研究,并为追逐突发新闻的记者提供预测工具。
translated by 谷歌翻译
Instead of mining coherent topics from a given text corpus in a completely unsupervised manner, seed-guided topic discovery methods leverage user-provided seed words to extract distinctive and coherent topics so that the mined topics can better cater to the user's interest. To model the semantic correlation between words and seeds for discovering topic-indicative terms, existing seed-guided approaches utilize different types of context signals, such as document-level word co-occurrences, sliding window-based local contexts, and generic linguistic knowledge brought by pre-trained language models. In this work, we analyze and show empirically that each type of context information has its value and limitation in modeling word semantics under seed guidance, but combining three types of contexts (i.e., word embeddings learned from local contexts, pre-trained language model representations obtained from general-domain training, and topic-indicative sentences retrieved based on seed information) allows them to complement each other for discovering quality topics. We propose an iterative framework, SeedTopicMine, which jointly learns from the three types of contexts and gradually fuses their context signals via an ensemble ranking process. Under various sets of seeds and on multiple datasets, SeedTopicMine consistently yields more coherent and accurate topics than existing seed-guided topic discovery approaches.
translated by 谷歌翻译
多文件摘要(MDS)是信息聚合的有效工具,它从与主题相关文档集群生成信息和简洁的摘要。我们的调查是,首先,系统地概述了最近的基于深度学习的MDS模型。我们提出了一种新的分类学,总结神经网络的设计策略,并进行全面的最先进的概要。我们突出了在现有文献中很少讨论的各种客观函数之间的差异。最后,我们提出了与这个新的和令人兴奋的领域有关的几个方向。
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译
传送消息的时间是许多实际自然语言处理任务的重要元数据,例如主题检测和跟踪(TDT)。 TDT系统旨在通过事件培养新闻文章的语料库,并且在这种情况下,描述相同事件的故事可能在同一时间写入。对TDT的时间建模之前的工作将其考虑在内,但并不能很好地捕获时间与事件的语义性质相互作用。例如,关于热带风暴的故事可能在短时间内写入短时间内,而关于电影发布的故事可能出现超过数周或数月。在我们的工作中,我们设计了一种神经方法,可以将时间和文本信息融入到事件检测的新闻文档的单个表示中。我们微调这些时间感知文件嵌入具有三态损耗架构,将模型集成到下游TDT系统中,并在英语中评估两个基准TDT数据集的系统。在回顾性设置中,我们将聚类算法应用于时间感知嵌入物,并在新闻2013数据集上显示基本电池的大量改进。在线流设置中,我们将文档编码器添加到现有的最先进的TDT管道,并证明它可以使整体性能有益。我们对时代表示和融合算法策略进行消融研究,表明我们所提出的模型优于替代策略。最后,我们探讨模型以检查它如何比以前的TDT系统更有效地处理重复事件。
translated by 谷歌翻译
随着信息技术的快速发展,在线平台已经产生了巨大的文本资源。作为一种特定形式的信息提取(即),事件提取(EE)由于其自动从人类语言提取事件的能力而增加了普及。但是,事件提取有限的文献调查。现有审查工作要么花费很多努力,用于描述各种方法的细节或专注于特定领域。本研究提供了全面概述了最先进的事件提取方法及其从文本的应用程序,包括闭域和开放式事件提取。这项调查的特点是它提供了适度复杂性的概要,避免涉及特定方法的太多细节。本研究侧重于讨论代表作品的常见角色,应用领域,优势和缺点,忽略各个方法的特殊性。最后,我们总结了常见问题,当前解决方案和未来的研究方向。我们希望这项工作能够帮助研究人员和从业者获得最近的事件提取的快速概述。
translated by 谷歌翻译
关于概念及其属性的常识知识(CSK)有助于AI应用程序。诸如ConceptNet之类的先前作品已经编译了大型CSK集合。但是,它们的表现力限制在主题性 - 预处理(SPO)的三联元中,对p和o的s和字符串的简单概念。与先前的作品相比,CSK断言具有精致的表现力和更好的精度和回忆。 Ascent ++通过用子组和方面捕获复合概念,以及用语义方面的主张来捕获复合概念。后者对于表达断言和进一步预选赛的时间和空间有效性至关重要。此外,Ascent ++将开放信息提取(OpenIE)与典型性和显着性分数的明智清洁和排名相结合。对于高覆盖范围,我们的方法挖掘到具有广泛的Web内容的大规模爬网C4中。通过人类判断的评估显示了上升++ Kb的卓越质量,以及对QA支持任务的外部评估强调了Ascent ++的好处。可以在https://ascentpp.mpi-inf.mpg.de/上访问Web界面,数据和代码。
translated by 谷歌翻译
随着越来越多的可用文本数据,能够自动分析,分类和摘要这些数据的算法的开发已成为必需品。在本研究中,我们提出了一种用于关键字识别的新颖算法,即表示给定文档的关键方面的一个或多字短语的提取,称为基于变压器的神经标记器,用于关键字识别(TNT-KID)。通过将变压器架构适用于手头的特定任务并利用域特定语料库上的预先磨损的语言模型,该模型能够通过提供竞争和强大的方式克服监督和无监督的最先进方法的缺陷在各种不同的数据集中的性能,同时仅需要最佳执行系统所需的手动标记的数据。本研究还提供了彻底的错误分析,具有对模型内部运作的有价值的见解和一种消融研究,测量关键字识别工作流程的特定组分对整体性能的影响。
translated by 谷歌翻译
确定多个文档的概念提及的练习是自然语言理解中的基本任务。以前关于跨文档Coreference解析(CDCR)的工作通常会考虑新闻中的事件提到,这很少涉及普遍存在的科学和技术的技术概念。这些复杂的概念采用不同的形式或含糊不清的形式,并且具有许多分层级别的粒度(例如,任务和子组织),构成了CDCR的挑战。我们呈现了分层CDCR(H-CDCR)的新任务,其目标是在它们之间联合推断COREREFER集群和层次结构。我们在科学论文中创建SciCo,一个专家注释的H-CDCR数据集,比突出的欧洲ecb +资源大3倍。我们研究了我们为H-CDCR定制的强大基线模型,并突出了未来工作的挑战。
translated by 谷歌翻译
我们研究了弱监督的文本分类问题,旨在将文本文档分类为只有类别曲面名称的一组预定义类,而没有提供任何注释的培训文件。大多数现有方法利用每个文档中的文本信息。然而,在许多领域中,文件伴随着各种类型的元数据(例如,作者,场地和研究文件的年份)。除了文本内容之外,这些元数据及其组合可以作为强大的类别指标。在本文中,我们探讨了使用元数据来帮助弱监督文本分类的潜力。具体而言,我们通过异构信息网络模拟文档和元数据之间的关系。为了有效地捕获网络中的高阶结构,我们使用图案来描述元数据组合。我们提出了一个名为Motifclass的新颖框架,(1)选择类别 - 指示性主题实例,(2)根据类别名称和指示性主题实例检索并生成伪标记的训练样本,并且(3)使用文本分类器培训伪培训数据。关于现实世界数据集的广泛实验证明了Motifclass对现有弱监督的文本分类方法的卓越表现。进一步的分析显示了考虑我们框架中的高阶元数据信息的益处。
translated by 谷歌翻译
除了以实体为中心的知识之外,通常组织为知识图(千克),事件也是世界上的必不可少的知识,这触发了活动以kg(ekg)等事件为中心的知识表示形式的春天。它在许多机器学习和人工智能应用中起着越来越重要的作用,例如智能搜索,问答,推荐和文本生成。本文提供了历史,本体实例和应用视图的ekg综合调查。具体而言,要彻底地表征EKG,我们专注于其历史,定义,架构归纳,获取,相关代表图形/系统和应用程序。其中研究了发展过程和趋势。我们进一步总结了透视方向,以促进对EKG的未来研究。
translated by 谷歌翻译
科学出版物的产出成倍增长。因此,跟踪趋势和变化越来越具有挑战性。了解科学文档是下游任务的重要一步,例如知识图构建,文本挖掘和纪律分类。在这个研讨会中,我们从科学出版物的摘要中可以更好地理解关键字和键形酶提取。
translated by 谷歌翻译
Deep Learning and Machine Learning based models have become extremely popular in text processing and information retrieval. However, the non-linear structures present inside the networks make these models largely inscrutable. A significant body of research has focused on increasing the transparency of these models. This article provides a broad overview of research on the explainability and interpretability of natural language processing and information retrieval methods. More specifically, we survey approaches that have been applied to explain word embeddings, sequence modeling, attention modules, transformers, BERT, and document ranking. The concluding section suggests some possible directions for future research on this topic.
translated by 谷歌翻译