在矿业行业中,在项目管理过程中产生了许多报告。这些过去的文件是未来成功的知识资源。但是,如果文件未经组织和非结构化,则可以是一个繁琐而挑战的任务是检索必要的信息。文档聚类是一种强大的方法来应对问题,并且在过去的研究中介绍了许多方法。尽管如此,没有银弹可以对任何类型的文件表现最佳。因此,需要探索性研究来应用新数据集的聚类方法。在本研究中,我们将研究多个主题建模(TM)方法。目标是使用昆士兰,资源部,昆士兰州政府部的地质调查的数据集找到采矿项目报告的适当方法,并了解内容,以了解如何组织它们。三种TM方法,潜在的Dirichlet分配(LDA),非负矩阵分解(NMF)和非负张量分解(NTF)在统计和定性地比较。评估后,我们得出结论,LDA对数据集执行最佳;然而,可以通过一些改进来采用其他方法的可能性仍然存在。
translated by 谷歌翻译
科学世界正在快速改变,新技术正在开发,新的趋势正在进行频率增加。本文介绍了对学术出版物进行科学分析的框架,这对监测研究趋势并确定潜在的创新至关重要。该框架采用并结合了各种自然语言处理技术,例如Word Embedding和主题建模。嵌入单词嵌入用于捕获特定于域的单词的语义含义。我们提出了两种新颖的科学出版物嵌入,即PUB-G和PUB-W,其能够在各种研究领域学习一般的语义含义以及特定于域的单词。此后,主题建模用于识别这些更大的研究领域内的研究主题集群。我们策划了一个出版物数据集,由两条会议组成,并从1995年到2020年的两项期刊从两个研究领域组成。实验结果表明,与其他基线嵌入式的基于主题连贯性,我们的PUB-G和PUB-W嵌入式与其他基线嵌入式相比优越。
translated by 谷歌翻译
信息检索方法的主要焦点是提供准确有效的结果,这也具有成本效益。 Lingo(标签感应分组算法)是一种聚类算法,旨在为质量集群的形式提供搜索结果,但也有一些限制。在本文中,我们的重点是基于实现更有意义和提高算法的整体性能的结果。灵戈在两个主要步骤上工作;使用潜在语义索引技术(LSI)和群集内容发现通过使用矢量空间模型(VSM)来群集标签诱导。由于Lingo使用群集内容发现中的VSM,我们的任务是用LSI替换VSM以进行群集内容发现,并分析使用LSI与OTHAPI BM25的可行性。下一个任务是将修改方法的结果与Lingo原始方法进行比较。该研究应用于五种不同的基于文本的数据集,以获得每个方法的更可靠的结果。研究结果表明,当使用LSI进行内容发现时,Lingo产生40-50%的结果。从使用OKAPI BM25的理论证据进行评分方法在LSI(LSI + OKAPI BM25)中用于群集内容发现而不是VSM,也导致更好的群集在缩放性和性能方面产生,当比较VSM和LSI的结果时。
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
加州无罪项目(CIP)是一个旨在获得自由被错误定罪的囚犯的临床法学学校计划,评估数千封邮件,其中包含了新请求的帮助和相应的案件文件。处理和解释这一大量信息对CIP官员提出了重大挑战,这可以通过主题建模技术成功地辅助。在本文中,我们应用非负矩阵分解(NMF)方法并实现重要的各种分支机构先前未捕获的数据集由CIP编译。我们识别现有案例文件的基础主题,并按犯罪类型和案例状态(判定类型)对请求文件进行分类。结果揭示了当前案例文件的语义结构,可以在进一步考试之前为新收到的案例文件提供CIP官员。我们还提供了对NMF的流行变体进行了实验结果,并通过现实世界应用探讨了每个变体的益处和缺点。
translated by 谷歌翻译
慢性疼痛被认为是一个重大的健康问题,不仅受到经济,而且在社会和个人层面的影响。作为私人和主观的经验,它不可能从外部和公正地体验,描述和解释慢性疼痛,作为纯粹的有害刺激,直接指向因果症,并促进其缓解,与急性疼痛相反,对其进行评估通常是直截了当的。因此,口头沟通是将相关信息传达给卫生专业人员的关键,否则外部实体无法访问,即关于痛苦经验和患者的内在质量。我们提出并讨论了一个主题建模方法,以识别慢性疼痛的口头描述中的模式,并使用这些模式量化和限定疼痛的经验。我们的方法允许提取关于所获得的主题模型和潜在空间的慢性疼痛经验的新洞察。我们认为我们的结果在临床上与慢性疼痛的评估和管理有关。
translated by 谷歌翻译
本文采用了两种主要的自然语言处理技术,即主题建模和聚类,以在民间故事中找到模式,并揭示区域之间的文化关系。特别是,我们使用潜在的Dirichlet分配和伯托式分配来提取反复出现的元素,以及将K-均值聚类提取到集体民间故事。我们的论文试图回答这个问题,民间故事之间有什么相似之处,以及他们对文化的看法。在这里,我们表明民间故事之间的共同趋势是家庭,食物,传统的性别角色,神话人物和动物。此外,民间主题的主题是根据地理位置而有所不同的,在具有不同动物和环境的不同地区发现的民间故事。我们并不感到惊讶的是,宗教人物和动物是所有文化中的一些共同主题。但是,我们感到惊讶的是,欧洲和亚洲的民间故事经常结合在一起。我们的结果表明,世界各地文化中某些元素的流行率。我们预计我们的工作将成为对民间故事的未来研究的资源,也是使用自然语言处理来分析特定领域中文档的一个例子。此外,由于我们仅根据文件进行分析,因此可以在分析这些民间故事的结构,情感和特征方面做更多的工作。
translated by 谷歌翻译
Most research studying social determinants of health (SDoH) has focused on physician notes or structured elements of the electronic medical record (EMR). We hypothesize that clinical notes from social workers, whose role is to ameliorate social and economic factors, might provide a richer source of data on SDoH. We sought to perform topic modeling to identify robust topics of discussion within a large cohort of social work notes. We retrieved a diverse, deidentified corpus of 0.95 million clinical social work notes from 181,644 patients at the University of California, San Francisco. We used word frequency analysis and Latent Dirichlet Allocation (LDA) topic modeling analysis to characterize this corpus and identify potential topics of discussion. Word frequency analysis identified both medical and non-medical terms associated with specific ICD10 chapters. The LDA topic modeling analysis extracted 11 topics related to social determinants of health risk factors including financial status, abuse history, social support, risk of death, and mental health. In addition, the topic modeling approach captured the variation between different types of social work notes and across patients with different types of diseases or conditions. We demonstrated that social work notes contain rich, unique, and otherwise unobtainable information on an individual's SDoH.
translated by 谷歌翻译
在过去几年中,学术数据的数量一直在急剧增加。对于特定科学领域的新人(例如,IR,物理学,NLP)往往难以解决更大的趋势,并在先前科学成就和突破的背景下定位最新研究。同样,科学史上的研究人员对允许他们分析和可视化特定科学域中的变化的工具感兴趣。时间摘要和相关方法应该是有用的,以使大量的科学话语数据随时间汇总。我们展示了一种新颖的分析研究论文收集的方法,在较长的时间内发布,以提供在时间进展情况上发生的重要语义变革的高级概述。我们的方法是基于比较单词语义表示随着​​时间的推移,并旨在支持用户更好地理解学术出版物的大型域名档案。作为一个示例数据集,我们使用从1979年到2015年的ACL原点参考语料库,并包含22,878篇学术文章。
translated by 谷歌翻译
Selecting the number of topics in LDA models is considered to be a difficult task, for which alternative approaches have been proposed. The performance of the recently developed singular Bayesian information criterion (sBIC) is evaluated and compared to the performance of alternative model selection criteria. The sBIC is a generalization of the standard BIC that can be implemented to singular statistical models. The comparison is based on Monte Carlo simulations and carried out for several alternative settings, varying with respect to the number of topics, the number of documents and the size of documents in the corpora. Performance is measured using different criteria which take into account the correct number of topics, but also whether the relevant topics from the DGPs are identified. Practical recommendations for LDA model selection in applications are derived.
translated by 谷歌翻译
大多数现有推荐系统仅基于评级数据,并且他们忽略了可能会增加建议质量的其他信息来源,例如文本评论或用户和项目特征。此外,这些系统的大多数仅适用于小型数据集(数千个观察)并且无法处理大型数据集(具有数百万观察结果)。我们提出了一种推荐人算法,该算法将评级建模技术(即潜在因子模型)与基于文本评论(即潜在Dirichlet分配)的主题建模方法组合,并且我们扩展了算法,使其允许添加额外的用户和项目 - 对系统的特定信息。我们使用具有不同大小的Amazon.com数据集来评估算法的性能,对应于23个产品类别。将建筑模型与四种其他型号进行比较后,我们发现将患有评级的文本评语相结合,导致更好的建议。此外,我们发现为模型添加额外的用户和项目功能会提高其预测精度,这对于中型和大数据集尤其如此。
translated by 谷歌翻译
随着大数据挖掘和现代大量文本分析的出现和普及,自动化文本摘要在从文档中提取和检索重要信息而变得突出。这项研究从单个和多个文档的角度研究了自动文本摘要的各个方面。摘要是将庞大的文本文章凝结成简短的摘要版本的任务。为了摘要目的,该文本的大小减小,但保留了关键的重要信息并保留原始文档的含义。这项研究介绍了潜在的Dirichlet分配(LDA)方法,用于从具有与基因和疾病有关的主题进行摘要的医学科学期刊文章进行主题建模。在这项研究中,基于Pyldavis Web的交互式可视化工具用于可视化所选主题。可视化提供了主要主题的总体视图,同时允许并将深度含义归因于流行率单个主题。这项研究提出了一种新颖的方法来汇总单个文档和多个文档。结果表明,使用提取性摘要技术在处理后的文档中考虑其主题患病率的概率,纯粹是通过考虑其术语来排名的。 Pyldavis可视化描述了探索主题与拟合LDA模型的术语的灵活性。主题建模结果显示了主题1和2中的流行率。该关联表明,本研究中的主题1和2中的术语之间存在相似性。使用潜在语义分析(LSA)和面向召回的研究测量LDA和提取性摘要方法的功效,以评估模型的可靠性和有效性。
translated by 谷歌翻译
科学出版物的产出成倍增长。因此,跟踪趋势和变化越来越具有挑战性。了解科学文档是下游任务的重要一步,例如知识图构建,文本挖掘和纪律分类。在这个研讨会中,我们从科学出版物的摘要中可以更好地理解关键字和键形酶提取。
translated by 谷歌翻译
由于由于电晕病毒而迅速开发了非面对面服务,因此通过互联网(例如销售和保留)的商业正在迅速增长。消费者还会在网站上发布有关商品或服务的评论,建议或判断。消费者直接使用的审查数据为消费者提供了积极的反馈和良好的影响,例如创造业务价值。因此,从营销的角度来看,分析审核数据非常重要。我们的研究提出了一种通过审核数据来找到客户满意度因素的新方法。我们采用了一种方法来通过混合和使用数据挖掘技术来找到客户满意度的因素,这是一种大数据分析方法,而自然语言处理技术(我们的研究中)是一种语言处理方法。与过去对客户满意度进行的许多研究不同,我们的研究通过使用各种技术来对论文的新颖性。由于分析,我们的实验结果非常准确。
translated by 谷歌翻译
在这个数字时代,几乎在每个学科中,人们都在使用自动化系统,这些系统以不同的自然语言以文档格式表示信息。结果,人们对找到,组织和分析这些文件的更好解决方案越来越兴趣。在本文中,我们提出了一个系统,该系统将使用神经词嵌入的百科全书知识(EK)群簇。 EK启用相关概念和神经词嵌入的表示,使我们能够处理相关性的上下文。在聚类过程中,所有文本文档都通过预处理阶段。通过使用EK和Word Embedding模型映射,从每个文档中提取了丰富的文本文档功能。生成了富集特征的TF-IDF加权载体。最后,使用流行的球形K-均值算法聚类文本文档。提出的系统通过Amharic文本语料库和Amharic Wikipedia数据进行了测试。测试结果表明,将EK与单词嵌入文档聚类的使用可提高仅使用EK的平均准确性。此外,改变班级的大小对准确性有重大影响。
translated by 谷歌翻译
In the past few decades, there has been an explosion in the amount of available data produced from various sources with different topics. The availability of this enormous data necessitates us to adopt effective computational tools to explore the data. This leads to an intense growing interest in the research community to develop computational methods focused on processing this text data. A line of study focused on condensing the text so that we are able to get a higher level of understanding in a shorter time. The two important tasks to do this are keyword extraction and text summarization. In keyword extraction, we are interested in finding the key important words from a text. This makes us familiar with the general topic of a text. In text summarization, we are interested in producing a short-length text which includes important information about the document. The TextRank algorithm, an unsupervised learning method that is an extension of the PageRank (algorithm which is the base algorithm of Google search engine for searching pages and ranking them) has shown its efficacy in large-scale text mining, especially for text summarization and keyword extraction. this algorithm can automatically extract the important parts of a text (keywords or sentences) and declare them as the result. However, this algorithm neglects the semantic similarity between the different parts. In this work, we improved the results of the TextRank algorithm by incorporating the semantic similarity between parts of the text. Aside from keyword extraction and text summarization, we develop a topic clustering algorithm based on our framework which can be used individually or as a part of generating the summary to overcome coverage problems.
translated by 谷歌翻译
我们为在不平衡的短文本数据集中发现稀缺主题提供了一个简单而通用的解决方案,即基于共同发生的网络模型CWIBTD,可以同时解决短文本主题的稀疏和不平衡的问题并减轻效果的效果。偶尔成对的单词出现,使模型更多地集中在发现稀缺主题上。与以前的方法不同,CWIBTD使用共发生的单词网络对每个单词的主题分布进行建模,从而改善了数据空间的语义密度,并确保其在识别稀有主题方面的敏感性,通过改善计算节点活动的方式和正常方式。在某种程度上,稀缺的话题和大主题。此外,使用与LDA相同的Gibbs采样使CWIBTD易于扩展到Viri-OUS应用程序方案。在不夸张的短文本数据集中进行的广泛实验验证证实了CWIBTD在发现稀有主题时的优越性。我们的模型可用于早期,准确地发现社交平台上新兴主题或意外事件。
translated by 谷歌翻译
播客已经出现在大量消耗的在线内容中,特别是由于生产手段的可访问性和通过大型流平台进行缩放分布。分类系统和信息访问技术通常使用主题作为组织或导航播客集合的主要方式。然而,用主题注释播客仍然是非常有问题的,因为分配的编辑类型是广泛的,异构或误导性的,或者因为数据挑战(例如,MetaData文本短,嘈杂的成绩单)。在这里,我们使用主题建模技术来评估从播客元数据,标题和描述中发现相关主题的可行性。我们还提出了一种新的策略来利用命名实体(NES),通常存在于播客元数据中,以非负矩阵分解(NMF)主题建模框架。我们在Spotify和iTunes和Deezer中的两个现有数据集的实验,该数据来自提供播客目录的新数据集,显示我们所提出的文档表示Neice,导致基于基线的主题连贯性。我们释放了结果的实验​​性再现性的代码。
translated by 谷歌翻译
近年来,超级人性药物的研究与发展取得了显着发展,各种军事和商业应用程序越来越多。几个国家的公共和私人组织一直在投资超人员,旨在超越其竞争对手并确保/提高战略优势和威慑。对于这些组织而言,能够及时可靠地识别新兴技术至关重要。信息技术的最新进展使得分析大量数据,提取隐藏的模式并为决策者提供新的见解。在这项研究中,我们专注于2000 - 2020年期间有关高人物的科学出版物,并采用自然语言处理和机器学习来通过识别12个主要潜在研究主题并分析其时间演变来表征研究格局。我们的出版物相似性分析揭示了在研究二十年中表明周期的模式。该研究对研究领域进行了全面的分析,以及研究主题是算法提取的事实,可以从练习中删除主观性,并可以在主题和时间间隔之间进行一致的比较。
translated by 谷歌翻译
应用于潜在的Dirichlet分配(LDA)的变异贝叶斯(VB)已成为方面建模最受欢迎的算法。尽管从大型语料库中提取文本主题方面取得了足够的成功,但VB在识别有限数据的情况下识别方面的成功较少。我们提出了通过应用于潜在的Dirichlet分配(LDA)的新型变分信息,并将其与金标准VB进行比较并崩溃的Gibbs采样。在边缘化导致非混合消息的情况下,我们使用采样的想法来得出近似更新方程。如果存在共轭,则使用Loopy信念更新(LBU)(也称为Lauritzen-Spiegelhalter)。我们的算法Albu(近似LBU)与变异消息传递(VMP)具有很强的相似性(这是VB的消息传递变体)。为了比较在有限数据的存在下算法的性能,我们使用由推文和新闻组组成的数据集。使用相干度量,我们表明ALBU比VB更准确地学习潜在分布,尤其是对于较小的数据集。
translated by 谷歌翻译