Instead of mining coherent topics from a given text corpus in a completely unsupervised manner, seed-guided topic discovery methods leverage user-provided seed words to extract distinctive and coherent topics so that the mined topics can better cater to the user's interest. To model the semantic correlation between words and seeds for discovering topic-indicative terms, existing seed-guided approaches utilize different types of context signals, such as document-level word co-occurrences, sliding window-based local contexts, and generic linguistic knowledge brought by pre-trained language models. In this work, we analyze and show empirically that each type of context information has its value and limitation in modeling word semantics under seed guidance, but combining three types of contexts (i.e., word embeddings learned from local contexts, pre-trained language model representations obtained from general-domain training, and topic-indicative sentences retrieved based on seed information) allows them to complement each other for discovering quality topics. We propose an iterative framework, SeedTopicMine, which jointly learns from the three types of contexts and gradually fuses their context signals via an ensemble ranking process. Under various sets of seeds and on multiple datasets, SeedTopicMine consistently yields more coherent and accurate topics than existing seed-guided topic discovery approaches.
translated by 谷歌翻译
我们研究了弱监督的文本分类问题,旨在将文本文档分类为只有类别曲面名称的一组预定义类,而没有提供任何注释的培训文件。大多数现有方法利用每个文档中的文本信息。然而,在许多领域中,文件伴随着各种类型的元数据(例如,作者,场地和研究文件的年份)。除了文本内容之外,这些元数据及其组合可以作为强大的类别指标。在本文中,我们探讨了使用元数据来帮助弱监督文本分类的潜力。具体而言,我们通过异构信息网络模拟文档和元数据之间的关系。为了有效地捕获网络中的高阶结构,我们使用图案来描述元数据组合。我们提出了一个名为Motifclass的新颖框架,(1)选择类别 - 指示性主题实例,(2)根据类别名称和指示性主题实例检索并生成伪标记的训练样本,并且(3)使用文本分类器培训伪培训数据。关于现实世界数据集的广泛实验证明了Motifclass对现有弱监督的文本分类方法的卓越表现。进一步的分析显示了考虑我们框架中的高阶元数据信息的益处。
translated by 谷歌翻译
Given a few seed entities of a certain type (e.g., Software or Programming Language), entity set expansion aims to discover an extensive set of entities that share the same type as the seeds. Entity set expansion in software-related domains such as StackOverflow can benefit many downstream tasks (e.g., software knowledge graph construction) and facilitate better IT operations and service management. Meanwhile, existing approaches are less concerned with two problems: (1) How to deal with multiple types of seed entities simultaneously? (2) How to leverage the power of pre-trained language models (PLMs)? Being aware of these two problems, in this paper, we study the entity set co-expansion task in StackOverflow, which extracts Library, OS, Application, and Language entities from StackOverflow question-answer threads. During the co-expansion process, we use PLMs to derive embeddings of candidate entities for calculating similarities between entities. Experimental results show that our proposed SECoExpan framework outperforms previous approaches significantly.
translated by 谷歌翻译
多标签文本分类是指从标签集中分配其最相关标签的问题。通常,在现实世界应用中提供给定文件的元数据和标签的层次结构。然而,大多数现有的研究专注于仅建模文本信息,几次尝试利用元数据或层次结构,而不是它们都是。在本文中,我们通过在大型标签层次结构中正式化Metadata感知文本分类问题来弥合差距(例如,数万个标签)。为了解决这个问题,我们介绍了匹配解决方案 - 一个端到端的框架,它利用元数据和层次结构。为了合并元数据,我们预先培训了同一空间中的文本和元数据的嵌入,并且还利用完全连接的关注来捕获它们之间的相互关系。要利用标签层次结构,我们提出了不同的方法来规范其父母每个子标签的参数和输出概率。在具有大规模标签层次结构的两个大规模文本数据集上的广泛实验证明了匹配最先进的深度学习基线的有效性。
translated by 谷歌翻译
新闻库中的自动事件检测是开采快速发展的结构化知识的至关重要的任务。由于现实世界事件具有不同的粒度,从顶级主题到关键事件,然后再提及与具体行动相对应的事件,因此通常有两条研究:(1)主题检测从新闻语料库的主要主题中标识(例如,。 ,“ 2019年香港抗议活动”与“ 2020年美国总统大选”),具有非常不同的语义; (2)从一份文件提取的行动提取提取级别的行动(例如,“警察击中抗议者的左臂”),无法理解该事件。在本文中,我们提出了一项新任务,即在中间级别的关键事件检测,目的是从新闻语料库的关键事件(例如,“ 8月12日至14日的HK机场抗议”)中进行检测,每一次都发生在特定时间/位置并专注于同一主题。由于新闻文章的快速发展性质,这项任务可以弥合事件的理解和结构,并且由于关键事件的主题和时间紧密以及标记的数据的稀缺而具有固有的挑战。为了应对这些挑战,我们开发了一个无监督的关键事件检测框架Evmine,(1)使用新颖的TTF-ITF分数提取时间频繁的峰值短语,(2)将峰值短语合并为事件 - 指示特征集,通过从我们的我们检测我们的社区中。设计的峰短语图可以捕获文档的共发生,语义相似性和时间亲密信号,以及(3)迭代地检索与每个关键事件相关的文档,通过训练具有从事件指标特征集中自动生成的伪标签的分类器,并完善该分类器使用检索的文档检测到关键事件。广泛的实验和案例研究表明,Evmine的表现优于所有基线方法及其在两个现实世界新闻机构上的消融。
translated by 谷歌翻译
旨在为每个文档分配主题标签的文档分类在各种应用程序中扮演基本作用。尽管在传统的监督文件分类中存在现有研究的成功,但它们不太关注两个真正的问题:(1)元数据的存在:在许多域中,文本伴随着作者和标签等各种附加信息。此类元数据充当令人信服的主题指标,应将其利用到分类框架中; (2)标签稀缺性:在某些情况下,标记的训练样本价格昂贵,只需要使用一小组注释数据来执行分类。为了认识到这两个挑战,我们提出了MetaCAT,是一个最小的监督框架,可以用元数据分类文本。具体地,我们开发了一个生成过程,描述了单词,文档,标签和元数据之间的关系。由生成模型引导,我们将文本和元数据嵌入到相同的语义空间中以编码异构信号。然后,基于相同的生成过程,我们综合训练样本来解决标签稀缺的瓶颈。我们对各种数据集进行了彻底的评估。实验结果证明了Metacat在许多竞争基础上的有效性。
translated by 谷歌翻译
实体集扩展(ESE)是一项有价值的任务,旨在找到给定种子实体描述的目标语义类别的实体。由于其发现知识的能力,各种NLP和下游应用程序都受益于ESE。尽管现有的引导方法取得了巨大进展,但其中大多数仍然依赖手动预定义的上下文模式。预定义的上下文模式的不可忽略的缺点是,它们不能灵活地推广到各种语义类别,我们将这种现象称为“语义敏感性”。为了解决这个问题,我们设计了一个上下文模式生成模块,该模块利用自回归语言模型(例如GPT-2)自动为实体生成高质量的上下文模式。此外,我们提出了GAPA,这是一种新型ESE框架,利用上述生成的模式扩展目标实体。对三个广泛使用的数据集进行了广泛的实验和详细分析,证明了我们方法的有效性。我们实验的所有代码都将用于可重复性。
translated by 谷歌翻译
播客已经出现在大量消耗的在线内容中,特别是由于生产手段的可访问性和通过大型流平台进行缩放分布。分类系统和信息访问技术通常使用主题作为组织或导航播客集合的主要方式。然而,用主题注释播客仍然是非常有问题的,因为分配的编辑类型是广泛的,异构或误导性的,或者因为数据挑战(例如,MetaData文本短,嘈杂的成绩单)。在这里,我们使用主题建模技术来评估从播客元数据,标题和描述中发现相关主题的可行性。我们还提出了一种新的策略来利用命名实体(NES),通常存在于播客元数据中,以非负矩阵分解(NMF)主题建模框架。我们在Spotify和iTunes和Deezer中的两个现有数据集的实验,该数据来自提供播客目录的新数据集,显示我们所提出的文档表示Neice,导致基于基线的主题连贯性。我们释放了结果的实验​​性再现性的代码。
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
关键词提取是在文本文档中查找几个有趣的短语的任务,它提供了文档中的主要主题列表。大多数现有的基于图形的模型使用共同发生链接作为凝聚指示器来模拟语法元素的关系。但是,单词可能在文档中具有不同形式的表达式,也可能有几个同义词。只需使用共同发生信息无法捕获此信息。在本文中,我们通过利用Word Embeddings作为背景知识来增强基于图形的排名模型,以将语义信息添加到词语图。我们的方法是在既定的基准数据集和经验结果上评估的,表明嵌入邻域信息的单词提高了模型性能。
translated by 谷歌翻译
Natural Language Understanding has seen an increasing number of publications in the last few years, especially after robust word embeddings models became prominent, when they proved themselves able to capture and represent semantic relationships from massive amounts of data. Nevertheless, traditional models often fall short in intrinsic issues of linguistics, such as polysemy and homonymy. Any expert system that makes use of natural language in its core, can be affected by a weak semantic representation of text, resulting in inaccurate outcomes based on poor decisions. To mitigate such issues, we propose a novel approach called Most Suitable Sense Annotation (MSSA), that disambiguates and annotates each word by its specific sense, considering the semantic effects of its context. Our approach brings three main contributions to the semantic representation scenario: (i) an unsupervised technique that disambiguates and annotates words by their senses, (ii) a multi-sense embeddings model that can be extended to any traditional word embeddings algorithm, and (iii) a recurrent methodology that allows our models to be re-used and their representations refined. We test our approach on six different benchmarks for the word similarity task, showing that our approach can produce state-of-the-art results and outperforms several more complex state-of-the-art systems.
translated by 谷歌翻译
识别异常文档,其内容与语料库中的大多数文档不同,在管理大型文本集合中发挥了重要作用。但是,由于没有关于Inlier(或目标)分布的明确信息,现有的无监督异常探测器可能会根据语料库中的异常值的密度或多样性进行不可靠的结果。为了解决这一挑战,我们介绍了一项新的任务,称为类别无类别检测,该任务旨在通过使用类别名称作为弱监管来将文档与Inlier(或目标)类别的语义相关。在实践中,该任务可以广泛适用于,它可以灵活地根据用户的兴趣指定目标类别的范围,同时仅需要目标类别名称作为最小指导。在本文中,我们介绍了一个类别超类的检测框架,它有效地根据其特定于类别的相关性得分,有效地测量每个文档的一个目标类别之一。我们的框架采用两步方法; (i)它首先通过利用在文本嵌入空间中编码的单词文件相似度,然后(ii)通过使用伪标签来计算伪标签以计算置信度来生成所有未标记的文档的伪类别标签从其目标类别预测。真实世界数据集的实验表明,我们的框架在指定不同目标类别的各种场景中的所有基线方法中实现了最佳检测性能。
translated by 谷歌翻译
分布式文档表示是自然语言处理中的基本问题之一。目前分布式文档表示方法主要考虑单词或句子的上下文信息。这些方法不考虑文件作为整体的一致性,例如文档之间的关系,文档中的纸张标题和抽象,标题和描述或相邻机构之间的关系。一致性显示文档是否有意义,逻辑和句法,尤其是科学文档(论文或专利等)。在本文中,我们提出了一个耦合文本对嵌入(CTPE)模型来学习科学文档的表示,其通过分割文档来维护文档与耦合文本对的相干性。首先,我们将文档划分为构造耦合文本对的两个部分(例如,标题和抽象等)。然后,我们采用负面采样来构建两个部分来自不同文档的未耦合文本对。最后,我们训练模型以判断文本对是否被耦合或解耦并使用所获得的耦合文本对的嵌入作为嵌入文档。我们在三个数据集上执行实验,以获得一个信息检索任务和两个推荐任务。实验结果验证了所提出的CTPE模型的有效性。
translated by 谷歌翻译
GitHub已成为代码共享和科学交流的重要平台。使用大量的存储库可用,需要基于主题的搜索需求。即使介绍了主题标签功能,大多数GitHub存储库都没有任何标签,阻碍了搜索和基于主题的分析。这项工作将自动存储库分类问题定位为关键字驱动的分层分类。具体而言,用户只需要提供具有关键字的标签层次结构以作为监控提供。此设置灵活,适用于用户的需求,占主题标签的不同粒度,需要最小的人力努力。我们确定了这个问题的三个关键挑战,即(1)多模态信号的存在; (2)监督稀缺和偏见; (3)监督格式不匹配。为了认识到这些挑战,我们提出了一种HIGITCLASS框架,包括三个模块:异构信息网络嵌入;关键词富集;主题建模和伪文档生成。在两个GitHub存储库集合上的实验结果证实,HIGITCLASS优于现有的弱监督和DATALESS分层分类方法,尤其是集成了用于存储库分类的结构化和非结构化数据的能力。
translated by 谷歌翻译
当医学研究人员进行系统审查(SR)时,筛查研究是最耗时的过程:研究人员阅读了数千个医学文献,手动标记它们相关或无关紧要。筛选优先级排序(即,文件排名)是通过提供相关文件的排名来协助研究人员的方法,其中相关文件的排名高于无关。种子驱动的文档排名(SDR)使用已知的相关文档(即,种子)作为查询并生成这些排名。以前的SDR工作试图在查询文档中识别不同术语权重,并在检索模型中使用它们来计算排名分数。或者,我们将SDR任务制定为查询文档的类似文档,并根据相似度得分生成排名。我们提出了一个名为Mirror匹配的文件匹配度量,通过结合常见的书写模式来计算医疗摘要文本之间的匹配分数,例如背景,方法,结果和结论。我们对2019年克利夫氏素母电子邮件进行实验2 TAR数据集,并且经验结果表明这种简单的方法比平均精度和精密的度量标准的传统和神经检索模型实现了更高的性能。
translated by 谷歌翻译
The relationship between words in a sentence often tells us more about the underlying semantic content of a document than its actual words, individually. In this work, we propose two novel algorithms, called Flexible Lexical Chain II and Fixed Lexical Chain II. These algorithms combine the semantic relations derived from lexical chains, prior knowledge from lexical databases, and the robustness of the distributional hypothesis in word embeddings as building blocks forming a single system. In short, our approach has three main contributions: (i) a set of techniques that fully integrate word embeddings and lexical chains; (ii) a more robust semantic representation that considers the latent relation between words in a document; and (iii) lightweight word embeddings models that can be extended to any natural language task. We intend to assess the knowledge of pre-trained models to evaluate their robustness in the document classification task. The proposed techniques are tested against seven word embeddings algorithms using five different machine learning classifiers over six scenarios in the document classification task. Our results show the integration between lexical chains and word embeddings representations sustain state-of-the-art results, even against more complex systems.
translated by 谷歌翻译
近年来,人们对开发自然语言处理(NLP)中可解释模型的利益越来越多。大多数现有模型旨在识别输入功能,例如对于模型预测而言重要的单词或短语。然而,在NLP中开发的神经模型通常以层次结构的方式构成单词语义,文本分类需要层次建模来汇总本地信息,以便处理主题和标签更有效地转移。因此,单词或短语的解释不能忠实地解释文本分类中的模型决策。本文提出了一种新型的层次解释性神经文本分类器,称为提示,该分类器可以自动以层次结构方式以标记相关主题的形式生成模型预测的解释。模型解释不再处于单词级别,而是基于主题作为基本语义单元。评论数据集和新闻数据集的实验结果表明,我们所提出的方法与现有最新的文本分类器相当地达到文本分类结果,并比其他可解释的神经文本更忠实于模型的预测和更好地理解人类的解释分类器。
translated by 谷歌翻译
学术研究是解决以前从未解决过的问题的探索活动。通过这种性质,每个学术研究工作都需要进行文献审查,以区分其Novelties尚未通过事先作品解决。在自然语言处理中,该文献综述通常在“相关工作”部分下进行。鉴于研究文件的其余部分和引用的论文列表,自动相关工作生成的任务旨在自动生成“相关工作”部分。虽然这项任务是在10年前提出的,但直到最近,它被认为是作为科学多文件摘要问题的变种。然而,即使在今天,尚未标准化了自动相关工作和引用文本生成的问题。在这项调查中,我们进行了一个元研究,从问题制定,数据集收集,方法方法,绩效评估和未来前景的角度来比较相关工作的现有文献,以便为读者洞察到国家的进步 - 最内容的研究,以及如何进行未来的研究。我们还调查了我们建议未来工作要考虑整合的相关研究领域。
translated by 谷歌翻译
长篇小说(LSG)是自然语言处理中的垂灾目标之一。与大多数文本生成任务不同,LSG要求基于更短的文本输入输出丰富的内容的长话,并且通常存在信息稀疏性。在本文中,我们提出了\ emph {topnet}来缓解这个问题,通过利用神经主题建模的最新进步来获得高质量的骨架词来补充短输入。特别是,而不是直接生成故事,首先学会将简短的文本输入映射到低维主题分布(由主题模型预先分配)。基于此潜在主题分布,我们可以使用主题模型的重建解码器来对与故事的骨骼相互相关的单词序列。两个基准数据集的实验表明,我们的框架在骨架词选择中非常有效,在自动评估和人类评估中显着优于最先进的模型。
translated by 谷歌翻译
建模法检索和检索作为预测问题最近被出现为法律智能的主要方法。专注于法律文章检索任务,我们展示了一个名为Lamberta的深度学习框架,该框架被设计用于民法代码,并在意大利民法典上专门培训。为了我们的知识,这是第一项研究提出了基于伯特(来自变压器的双向编码器表示)学习框架的意大利法律制度对意大利法律制度的高级法律文章预测的研究,最近引起了深度学习方法的增加,呈现出色的有效性在几种自然语言处理和学习任务中。我们通过微调意大利文章或其部分的意大利预先训练的意大利预先训练的伯爵来定义Lamberta模型,因为法律文章作为分类任务检索。我们Lamberta框架的一个关键方面是我们构思它以解决极端的分类方案,其特征在于课程数量大,少量学习问题,以及意大利法律预测任务的缺乏测试查询基准。为了解决这些问题,我们为法律文章的无监督标签定义了不同的方法,原则上可以应用于任何法律制度。我们提供了深入了解我们Lamberta模型的解释性和可解释性,并且我们对单一标签以及多标签评估任务进行了广泛的查询模板实验分析。经验证据表明了Lamberta的有效性,以及对广泛使用的深度学习文本分类器和一些构思的几次学习者来说,其优越性是对属性感知预测任务的优势。
translated by 谷歌翻译