从许多科目中,从一系列文本中提取频繁的单词都在很大程度上进行。另一方面,提取短语通常是由于提取短语时固有的并发症而进行的,最重要的并发症是双计数的并发症,当单词或短语出现在较长的短语中时,它们也被计算在内。已经写了几篇关于这一问题解决方案的短语挖掘的论文。但是,他们要么需要一个所谓的质量短语列表,要么可以用于提取过程,要么需要人类的互动来在此过程中识别这些质量短语。我们提出了一种消除双重计数的方法,而无需识别质量短语列表。在一组文本的上下文中,我们将主短语定义为不交叉标点标记的短语,不以停止词开头用停止单词,在这些文本中经常出现,而无需双重计数,并且对用户有意义。我们的方法可以独立地识别这种主短语而无需人类投入,并可以从任何文本中提取。已经开发了一个称为PHM的R软件包,以实现此方法。
translated by 谷歌翻译
复杂的工程系统的设计是一个漫长而明确的过程,高度依赖于工程师的专业知识和专业判断。因此,涉及人类因素的活动的典型陷阱通常是由于缺乏分析的完整性或详尽性,设计选择或文档之间的不一致性以及隐性主观性而表现出来。提出了一种方法,以帮助系统工程师从非结构化的自然语言文本中自动生成系统图。自然语言处理(NLP)技术用于从组织中提供的文本资源(例如规格,手册,技术报告,维护报告)从组织中提取实体及其关系,并将其转换为系统建模语言(SYSML)图表,并具有特定的图表专注于结构和需求图。目的是为用户提供一个更具标准化,全面和自动化的起点,随后根据其需求改进并调整图表。所提出的方法是灵活和开放域。它由六个步骤组成,这些步骤利用开放式工具,并导致自动生成的SYSML图,而无需中间建模要求,但通过用户对一组参数的规范。拟议方法的适用性和好处是通过六个案例研究显示的,其文本源为输入,并根据手动定义的图表元素进行了标准。
translated by 谷歌翻译
除了文献计量学之外,还有兴趣表征科学论文中思想数量的演变。调查此问题的一种常见方法是分析出版物的标题,以检测随着时间的推移词汇变化。以这样的概念,即短语或更具体的键形酶代表概念,将词汇多样性指标应用于标题的短语版本。因此,词汇多样性的变化被视为研究的指标,甚至可能扩展研究。因此,优化键形检测是该过程的重要方面。我们建议使用多个短语检测模型的目标,而不是仅一个,而是从源代码语料库中生产出更全面的钥匙串。这种方法的另一个潜在优势是,这些集合的联合和差异可能会提供自动化技术,以识别和省略非特异性短语。我们比较了几个短语检测模型的性能,分析每个短语集的输出,并使用四个通用的词汇多样性指标计算包含每个模型的键形的Corpora变体的词汇多样性。
translated by 谷歌翻译
新闻库中的自动事件检测是开采快速发展的结构化知识的至关重要的任务。由于现实世界事件具有不同的粒度,从顶级主题到关键事件,然后再提及与具体行动相对应的事件,因此通常有两条研究:(1)主题检测从新闻语料库的主要主题中标识(例如,。 ,“ 2019年香港抗议活动”与“ 2020年美国总统大选”),具有非常不同的语义; (2)从一份文件提取的行动提取提取级别的行动(例如,“警察击中抗议者的左臂”),无法理解该事件。在本文中,我们提出了一项新任务,即在中间级别的关键事件检测,目的是从新闻语料库的关键事件(例如,“ 8月12日至14日的HK机场抗议”)中进行检测,每一次都发生在特定时间/位置并专注于同一主题。由于新闻文章的快速发展性质,这项任务可以弥合事件的理解和结构,并且由于关键事件的主题和时间紧密以及标记的数据的稀缺而具有固有的挑战。为了应对这些挑战,我们开发了一个无监督的关键事件检测框架Evmine,(1)使用新颖的TTF-ITF分数提取时间频繁的峰值短语,(2)将峰值短语合并为事件 - 指示特征集,通过从我们的我们检测我们的社区中。设计的峰短语图可以捕获文档的共发生,语义相似性和时间亲密信号,以及(3)迭代地检索与每个关键事件相关的文档,通过训练具有从事件指标特征集中自动生成的伪标签的分类器,并完善该分类器使用检索的文档检测到关键事件。广泛的实验和案例研究表明,Evmine的表现优于所有基线方法及其在两个现实世界新闻机构上的消融。
translated by 谷歌翻译
Merchants selling products on the Web often ask their customers to review the products that they have purchased and the associated services. As e-commerce is becoming more and more popular, the number of customer reviews that a product receives grows rapidly. For a popular product, the number of reviews can be in hundreds or even thousands. This makes it difficult for a potential customer to read them to make an informed decision on whether to purchase the product. It also makes it difficult for the manufacturer of the product to keep track and to manage customer opinions. For the manufacturer, there are additional difficulties because many merchant sites may sell the same product and the manufacturer normally produces many kinds of products. In this research, we aim to mine and to summarize all the customer reviews of a product. This summarization task is different from traditional text summarization because we only mine the features of the product on which the customers have expressed their opinions and whether the opinions are positive or negative. We do not summarize the reviews by selecting a subset or rewrite some of the original sentences from the reviews to capture the main points as in the classic text summarization. Our task is performed in three steps: (1) mining product features that have been commented on by customers; (2) identifying opinion sentences in each review and deciding whether each opinion sentence is positive or negative; (3) summarizing the results. This paper proposes several novel techniques to perform these tasks. Our experimental results using reviews of a number of products sold online demonstrate the effectiveness of the techniques.
translated by 谷歌翻译
随着互联网技术的发展,信息超载现象变得越来越明显。用户需要花费大量时间来获取所需的信息。但是,汇总文档信息的关键词非常有助于用户快速获取和理解文档。对于学术资源,大多数现有研究通过标题和摘要提取关键纸张。我们发现引用中的标题信息还包含作者分配的密钥次。因此,本文使用参考信息并应用两种典型的无监督的提取方法(TF * IDF和Textrank),两个代表传统监督学习算法(NA \“IVE贝叶斯和条件随机场)和监督的深度学习模型(Bilstm- CRF),分析参考信息对关键症提取的具体性能。从扩大源文本的角度来提高关键术识别的质量。实验结果表明,参考信息可以提高精度,召回和F1自动关键肾上腺瓶在一定程度上提取。这表明了参考信息关于学术论文的关键症提取的有用性,并为以下关于自动关键正萃取的研究提供了新的想法。
translated by 谷歌翻译
使用基于词典的方法将语言L1中的短语转换为语言L2的过去方法需要语法规则来重组初始翻译。本文引入了一种新颖的方法,而无需使用任何语法规则将L1中不存在的L1中的给定短语转换为L2。我们在L2中至少需要一个L1-L2双语词典和N-Gram数据。我们翻译的平均手动评估得分为4.29/5.00,这意味着非常高质量。
translated by 谷歌翻译
在这个数字时代,几乎在每个学科中,人们都在使用自动化系统,这些系统以不同的自然语言以文档格式表示信息。结果,人们对找到,组织和分析这些文件的更好解决方案越来越兴趣。在本文中,我们提出了一个系统,该系统将使用神经词嵌入的百科全书知识(EK)群簇。 EK启用相关概念和神经词嵌入的表示,使我们能够处理相关性的上下文。在聚类过程中,所有文本文档都通过预处理阶段。通过使用EK和Word Embedding模型映射,从每个文档中提取了丰富的文本文档功能。生成了富集特征的TF-IDF加权载体。最后,使用流行的球形K-均值算法聚类文本文档。提出的系统通过Amharic文本语料库和Amharic Wikipedia数据进行了测试。测试结果表明,将EK与单词嵌入文档聚类的使用可提高仅使用EK的平均准确性。此外,改变班级的大小对准确性有重大影响。
translated by 谷歌翻译
我们研究了从类别理论的数学字段中的英语文本中提取数学实体的不同系统,作为构建数学知识图的第一步。我们考虑四个不同的术语提取器,并比较它们的结果。这个小实验展示了从嘈杂域文本中提取的术语的构建和评估的一些问题。我们还提供了研究数学的两个开放语料库,尤其是类别理论:一小部分来自TAC期刊(3188个句子)的摘要,以及来自NLAB社区Wiki(15,000个句子)的较大语料库。
translated by 谷歌翻译
随着大数据挖掘和现代大量文本分析的出现和普及,自动化文本摘要在从文档中提取和检索重要信息而变得突出。这项研究从单个和多个文档的角度研究了自动文本摘要的各个方面。摘要是将庞大的文本文章凝结成简短的摘要版本的任务。为了摘要目的,该文本的大小减小,但保留了关键的重要信息并保留原始文档的含义。这项研究介绍了潜在的Dirichlet分配(LDA)方法,用于从具有与基因和疾病有关的主题进行摘要的医学科学期刊文章进行主题建模。在这项研究中,基于Pyldavis Web的交互式可视化工具用于可视化所选主题。可视化提供了主要主题的总体视图,同时允许并将深度含义归因于流行率单个主题。这项研究提出了一种新颖的方法来汇总单个文档和多个文档。结果表明,使用提取性摘要技术在处理后的文档中考虑其主题患病率的概率,纯粹是通过考虑其术语来排名的。 Pyldavis可视化描述了探索主题与拟合LDA模型的术语的灵活性。主题建模结果显示了主题1和2中的流行率。该关联表明,本研究中的主题1和2中的术语之间存在相似性。使用潜在语义分析(LSA)和面向召回的研究测量LDA和提取性摘要方法的功效,以评估模型的可靠性和有效性。
translated by 谷歌翻译
关键词提取是在文本文档中查找几个有趣的短语的任务,它提供了文档中的主要主题列表。大多数现有的基于图形的模型使用共同发生链接作为凝聚指示器来模拟语法元素的关系。但是,单词可能在文档中具有不同形式的表达式,也可能有几个同义词。只需使用共同发生信息无法捕获此信息。在本文中,我们通过利用Word Embeddings作为背景知识来增强基于图形的排名模型,以将语义信息添加到词语图。我们的方法是在既定的基准数据集和经验结果上评估的,表明嵌入邻域信息的单词提高了模型性能。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
近年来,由于通过网络的电子文件的高可用性,抄袭已成为一个严峻的挑战,特别是学者之间。已经开发出各种抄袭检测系统来防止文本重复使用和面对抄袭。虽然在学术手稿中检测重复文本几乎很容易,但发现已经语义改变的文本重复模式具有重要意义。另一个重要问题是处理较少的资源语言,这些语言有很多文本,用于训练目的,以及NLP应用程序的工具中的性能很低。在本文中,我们介绍了Hamtajoo,是学术稿件的波斯抄袭检测系统。此外,我们描述了系统的整体结构以及每个阶段中使用的算法。为了评估所提出的系统的性能,我们使用了抄袭检测语料库符合PAN标准。
translated by 谷歌翻译
Gender-inclusive language is important for achieving gender equality in languages with gender inflections, such as German. While stirring some controversy, it is increasingly adopted by companies and political institutions. A handful of tools have been developed to help people use gender-inclusive language by identifying instances of the generic masculine and providing suggestions for more inclusive reformulations. In this report, we define the underlying tasks in terms of natural language processing, and present a dataset and measures for benchmarking them. We also present a model that implements these tasks, by combining an inclusive language database with an elaborate sequence of processing steps via standard pre-trained models. Our model achieves a recall of 0.89 and a precision of 0.82 in our benchmark for identifying exclusive language; and one of its top five suggestions is chosen in real-world texts in 44% of cases. We sketch how the area could be further advanced by training end-to-end models and using large language models; and we urge the community to include more gender-inclusive texts in their training data in order to not present an obstacle to the adoption of gender-inclusive language. Through these efforts, we hope to contribute to restoring justice in language and, to a small extent, in reality.
translated by 谷歌翻译
学术研究是解决以前从未解决过的问题的探索活动。通过这种性质,每个学术研究工作都需要进行文献审查,以区分其Novelties尚未通过事先作品解决。在自然语言处理中,该文献综述通常在“相关工作”部分下进行。鉴于研究文件的其余部分和引用的论文列表,自动相关工作生成的任务旨在自动生成“相关工作”部分。虽然这项任务是在10年前提出的,但直到最近,它被认为是作为科学多文件摘要问题的变种。然而,即使在今天,尚未标准化了自动相关工作和引用文本生成的问题。在这项调查中,我们进行了一个元研究,从问题制定,数据集收集,方法方法,绩效评估和未来前景的角度来比较相关工作的现有文献,以便为读者洞察到国家的进步 - 最内容的研究,以及如何进行未来的研究。我们还调查了我们建议未来工作要考虑整合的相关研究领域。
translated by 谷歌翻译
在美国卡通系列的辛普森一家美国卡通系列中,真实世界事件对虚构媒体的影响尤为明显。虽然在表演的对话和视觉噱头中,通常存在非常直接的流行文化引用,但语气或情绪的微妙变化可能不那么明显。我们的目标是使用自然语言处理来试图在纽约举行9月11日恐怖袭击之前和之后搜索词频,主题和情绪的变化。没有看到明确的趋势变化,在2000年至2002年期间的相关期间随着时间的推移,稍微减少了平均情绪,但剧本仍然保持了整体积极价值,表明辛普森一家的喜剧性质并没有特别显着。需要探索其他社会问题,甚至特定的性格统计数据在此处都需要在此处加强调查结果。
translated by 谷歌翻译
科学出版物的产出成倍增长。因此,跟踪趋势和变化越来越具有挑战性。了解科学文档是下游任务的重要一步,例如知识图构建,文本挖掘和纪律分类。在这个研讨会中,我们从科学出版物的摘要中可以更好地理解关键字和键形酶提取。
translated by 谷歌翻译
从历史上看,该司法机构在使用人工智能方面一直是保守的,但是机器学习的最新进展促使学者重新考虑在句子预测等任务中的使用。本文通过实验调查了可解释的人工智能来预测新西兰法院袭击案件的监禁。我们提出了一个可解释的概念验证模型,并在实践中验证它适合目的,预测的句子准确至一年。我们进一步分析模型,以了解句子长度预测中最具影响力的短语。我们以评估性讨论在新西兰法院使用这种AI模型的不同方式的未来利益和风险进行了评估讨论。
translated by 谷歌翻译
停止单词对于信息检索和文本分析调查自然语言处理任务非常重要。当前的工作提出了一种评估旨在自动创建技术的停止单词列表质量的方法。尽管本文提出的方法是在乌兹别克语言的自动生成的停止单词列表上测试的,但通过一些修改,可以应用于同一家族的类似语言或具有凝聚力性质的语言。由于乌兹别克语的语言属于凝集性语言的家族,因此可以解释说,语言中停止单词的自动检测比在易转语中更复杂。此外,我们通过调查如何自动分析乌兹别克斯坦文本中的停止单词的检测,将以前的工作纳入了停止单词检测的示例。这项工作致力于回答是否有一种很好的方法来评估乌兹别克文本的可用停止单词,或者是否有可能通过研究乌兹别克斯坦句子的哪个部分包含大多数停止单词,来研究的数值特征独特的单词。结果显示停止单词列表的准确性可接受。
translated by 谷歌翻译
The recently introduced continuous Skip-gram model is an efficient method for learning high-quality distributed vector representations that capture a large number of precise syntactic and semantic word relationships. In this paper we present several extensions that improve both the quality of the vectors and the training speed. By subsampling of the frequent words we obtain significant speedup and also learn more regular word representations. We also describe a simple alternative to the hierarchical softmax called negative sampling. An inherent limitation of word representations is their indifference to word order and their inability to represent idiomatic phrases. For example, the meanings of "Canada" and "Air" cannot be easily combined to obtain "Air Canada". Motivated by this example, we present a simple method for finding phrases in text, and show that learning good vector representations for millions of phrases is possible.
translated by 谷歌翻译