本文采用了两种主要的自然语言处理技术,即主题建模和聚类,以在民间故事中找到模式,并揭示区域之间的文化关系。特别是,我们使用潜在的Dirichlet分配和伯托式分配来提取反复出现的元素,以及将K-均值聚类提取到集体民间故事。我们的论文试图回答这个问题,民间故事之间有什么相似之处,以及他们对文化的看法。在这里,我们表明民间故事之间的共同趋势是家庭,食物,传统的性别角色,神话人物和动物。此外,民间主题的主题是根据地理位置而有所不同的,在具有不同动物和环境的不同地区发现的民间故事。我们并不感到惊讶的是,宗教人物和动物是所有文化中的一些共同主题。但是,我们感到惊讶的是,欧洲和亚洲的民间故事经常结合在一起。我们的结果表明,世界各地文化中某些元素的流行率。我们预计我们的工作将成为对民间故事的未来研究的资源,也是使用自然语言处理来分析特定领域中文档的一个例子。此外,由于我们仅根据文件进行分析,因此可以在分析这些民间故事的结构,情感和特征方面做更多的工作。
translated by 谷歌翻译
来自社交媒体的用户生成的内容是以多种语言产生的,在技术上挑战,将讨论的主题与不同文化和地区的一个域进行比较。它与全球化世界中的域名相关,例如市场研究,来自两个国家和市场的人可能对产品有不同的要求。我们提出了一种简单,现代化,有效的方法,用于建立一个具有情绪分析的单一主题模型,能够同时覆盖多种语言,基于预先接受的最先进的深度神经网络,用于自然语言理解。为了展示其可行性,我们将模型应用于报纸文章和用户评论,即有机食品和相关的消费行为。主题与语言相匹配。此外,我们获得了高比例的稳定和域名相关主题,主题与其各自的文本内容之间有意义的关系,以及社交媒体文档的可解释表示。营销可能会从我们的方法中受益,因为它提供了从全球各地的不同市场地区解决特定客户兴趣的易于使用手段。为了再现性,我们提供了我们研究的代码,数据和结果。
translated by 谷歌翻译
科学世界正在快速改变,新技术正在开发,新的趋势正在进行频率增加。本文介绍了对学术出版物进行科学分析的框架,这对监测研究趋势并确定潜在的创新至关重要。该框架采用并结合了各种自然语言处理技术,例如Word Embedding和主题建模。嵌入单词嵌入用于捕获特定于域的单词的语义含义。我们提出了两种新颖的科学出版物嵌入,即PUB-G和PUB-W,其能够在各种研究领域学习一般的语义含义以及特定于域的单词。此后,主题建模用于识别这些更大的研究领域内的研究主题集群。我们策划了一个出版物数据集,由两条会议组成,并从1995年到2020年的两项期刊从两个研究领域组成。实验结果表明,与其他基线嵌入式的基于主题连贯性,我们的PUB-G和PUB-W嵌入式与其他基线嵌入式相比优越。
translated by 谷歌翻译
在矿业行业中,在项目管理过程中产生了许多报告。这些过去的文件是未来成功的知识资源。但是,如果文件未经组织和非结构化,则可以是一个繁琐而挑战的任务是检索必要的信息。文档聚类是一种强大的方法来应对问题,并且在过去的研究中介绍了许多方法。尽管如此,没有银弹可以对任何类型的文件表现最佳。因此,需要探索性研究来应用新数据集的聚类方法。在本研究中,我们将研究多个主题建模(TM)方法。目标是使用昆士兰,资源部,昆士兰州政府部的地质调查的数据集找到采矿项目报告的适当方法,并了解内容,以了解如何组织它们。三种TM方法,潜在的Dirichlet分配(LDA),非负矩阵分解(NMF)和非负张量分解(NTF)在统计和定性地比较。评估后,我们得出结论,LDA对数据集执行最佳;然而,可以通过一些改进来采用其他方法的可能性仍然存在。
translated by 谷歌翻译
Most research studying social determinants of health (SDoH) has focused on physician notes or structured elements of the electronic medical record (EMR). We hypothesize that clinical notes from social workers, whose role is to ameliorate social and economic factors, might provide a richer source of data on SDoH. We sought to perform topic modeling to identify robust topics of discussion within a large cohort of social work notes. We retrieved a diverse, deidentified corpus of 0.95 million clinical social work notes from 181,644 patients at the University of California, San Francisco. We used word frequency analysis and Latent Dirichlet Allocation (LDA) topic modeling analysis to characterize this corpus and identify potential topics of discussion. Word frequency analysis identified both medical and non-medical terms associated with specific ICD10 chapters. The LDA topic modeling analysis extracted 11 topics related to social determinants of health risk factors including financial status, abuse history, social support, risk of death, and mental health. In addition, the topic modeling approach captured the variation between different types of social work notes and across patients with different types of diseases or conditions. We demonstrated that social work notes contain rich, unique, and otherwise unobtainable information on an individual's SDoH.
translated by 谷歌翻译
由于由于电晕病毒而迅速开发了非面对面服务,因此通过互联网(例如销售和保留)的商业正在迅速增长。消费者还会在网站上发布有关商品或服务的评论,建议或判断。消费者直接使用的审查数据为消费者提供了积极的反馈和良好的影响,例如创造业务价值。因此,从营销的角度来看,分析审核数据非常重要。我们的研究提出了一种通过审核数据来找到客户满意度因素的新方法。我们采用了一种方法来通过混合和使用数据挖掘技术来找到客户满意度的因素,这是一种大数据分析方法,而自然语言处理技术(我们的研究中)是一种语言处理方法。与过去对客户满意度进行的许多研究不同,我们的研究通过使用各种技术来对论文的新颖性。由于分析,我们的实验结果非常准确。
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
在美国卡通系列的辛普森一家美国卡通系列中,真实世界事件对虚构媒体的影响尤为明显。虽然在表演的对话和视觉噱头中,通常存在非常直接的流行文化引用,但语气或情绪的微妙变化可能不那么明显。我们的目标是使用自然语言处理来试图在纽约举行9月11日恐怖袭击之前和之后搜索词频,主题和情绪的变化。没有看到明确的趋势变化,在2000年至2002年期间的相关期间随着时间的推移,稍微减少了平均情绪,但剧本仍然保持了整体积极价值,表明辛普森一家的喜剧性质并没有特别显着。需要探索其他社会问题,甚至特定的性格统计数据在此处都需要在此处加强调查结果。
translated by 谷歌翻译
本研究审查了使用自然语言处理(NLP)模型来评估物品编写者在医疗许可考试中使用的语言模式是否可能包含偏见或陈规定型语言的证据。项目语言选择中的这种类型的偏差对于医疗许可评估中的物品可能对物品特别有影响,因为它可能对内容有效性构成威胁和测试分数有效性证据的可靠性。据我们所知,这是使用机器学习(ML)和NLP的第一次尝试探索大型物品银行的语言偏见。使用培训的预测算法在类似物品茎的集群上,我们证明我们的方法可用于审查大型物品银行,用于临床科学患者中的潜在偏见语言或陈规定型患者特征。该发现可以指导开发用于解决测试项目中发现的陈规定型语言模式的方法,并在需要时能够有效地更新这些项目,以反映当代规范,从而提高了支持测试评分的有效性的证据。
translated by 谷歌翻译
Text clustering and topic extraction are two important tasks in text mining. Usually, these two tasks are performed separately. For topic extraction to facilitate clustering, we can first project texts into a topic space and then perform a clustering algorithm to obtain clusters. To promote topic extraction by clustering, we can first obtain clusters with a clustering algorithm and then extract cluster-specific topics. However, this naive strategy ignores the fact that text clustering and topic extraction are strongly correlated and follow a chicken-and-egg relationship. Performing them separately fails to make them mutually benefit each other to achieve the best overall performance. In this paper, we propose an unsupervised text clustering and topic extraction framework (ClusTop) which integrates text clustering and topic extraction into a unified framework and can achieve high-quality clustering result and extract topics from each cluster simultaneously. Our framework includes four components: enhanced language model training, dimensionality reduction, clustering and topic extraction, where the enhanced language model can be viewed as a bridge between clustering and topic extraction. On one hand, it provides text embeddings with a strong cluster structure which facilitates effective text clustering; on the other hand, it pays high attention on the topic related words for topic extraction because of its self-attention architecture. Moreover, the training of enhanced language model is unsupervised. Experiments on two datasets demonstrate the effectiveness of our framework and provide benchmarks for different model combinations in this framework.
translated by 谷歌翻译
参数搜索旨在识别自然语言文本中的参数。过去,通过句子或文档级别的关键字搜索和参数标识的组合来解决此任务。但是,现有框架通常只解决参数搜索的特定组件,并且不会解决以下几个方面:(1)参数查询匹配:识别框架的参数,比实际搜索查询略有不同; (2)参数标识:识别由多个句子组成的参数; (3)参数群集:通过主题方面选择检索的参数。在本文中,我们提出了一个解决这些缺点的框架。我们建议(1)将关键字搜索组合使用预先计算的主题群集用于参数查询匹配,(2)基于句子级序列标记的新颖方法进行参数标识,(3)向用户呈现聚合参数基于主题感知的参数群集。我们对若干现实世界辩论数据集的实验表明,基于密度的聚类算法,例如HDBSCAN,特别适用于参数查询匹配。通过我们的句子级,基于Bilstm的序列标签方法,我们实现了0.71的宏F1得分。最后,评估我们的参数聚类方法表明,副主题的争论群体的细粒度群落仍然挑战,但值得探索。
translated by 谷歌翻译
应用于潜在的Dirichlet分配(LDA)的变异贝叶斯(VB)已成为方面建模最受欢迎的算法。尽管从大型语料库中提取文本主题方面取得了足够的成功,但VB在识别有限数据的情况下识别方面的成功较少。我们提出了通过应用于潜在的Dirichlet分配(LDA)的新型变分信息,并将其与金标准VB进行比较并崩溃的Gibbs采样。在边缘化导致非混合消息的情况下,我们使用采样的想法来得出近似更新方程。如果存在共轭,则使用Loopy信念更新(LBU)(也称为Lauritzen-Spiegelhalter)。我们的算法Albu(近似LBU)与变异消息传递(VMP)具有很强的相似性(这是VB的消息传递变体)。为了比较在有限数据的存在下算法的性能,我们使用由推文和新闻组组成的数据集。使用相干度量,我们表明ALBU比VB更准确地学习潜在分布,尤其是对于较小的数据集。
translated by 谷歌翻译
随着大数据挖掘和现代大量文本分析的出现和普及,自动化文本摘要在从文档中提取和检索重要信息而变得突出。这项研究从单个和多个文档的角度研究了自动文本摘要的各个方面。摘要是将庞大的文本文章凝结成简短的摘要版本的任务。为了摘要目的,该文本的大小减小,但保留了关键的重要信息并保留原始文档的含义。这项研究介绍了潜在的Dirichlet分配(LDA)方法,用于从具有与基因和疾病有关的主题进行摘要的医学科学期刊文章进行主题建模。在这项研究中,基于Pyldavis Web的交互式可视化工具用于可视化所选主题。可视化提供了主要主题的总体视图,同时允许并将深度含义归因于流行率单个主题。这项研究提出了一种新颖的方法来汇总单个文档和多个文档。结果表明,使用提取性摘要技术在处理后的文档中考虑其主题患病率的概率,纯粹是通过考虑其术语来排名的。 Pyldavis可视化描述了探索主题与拟合LDA模型的术语的灵活性。主题建模结果显示了主题1和2中的流行率。该关联表明,本研究中的主题1和2中的术语之间存在相似性。使用潜在语义分析(LSA)和面向召回的研究测量LDA和提取性摘要方法的功效,以评估模型的可靠性和有效性。
translated by 谷歌翻译
我们为在不平衡的短文本数据集中发现稀缺主题提供了一个简单而通用的解决方案,即基于共同发生的网络模型CWIBTD,可以同时解决短文本主题的稀疏和不平衡的问题并减轻效果的效果。偶尔成对的单词出现,使模型更多地集中在发现稀缺主题上。与以前的方法不同,CWIBTD使用共发生的单词网络对每个单词的主题分布进行建模,从而改善了数据空间的语义密度,并确保其在识别稀有主题方面的敏感性,通过改善计算节点活动的方式和正常方式。在某种程度上,稀缺的话题和大主题。此外,使用与LDA相同的Gibbs采样使CWIBTD易于扩展到Viri-OUS应用程序方案。在不夸张的短文本数据集中进行的广泛实验验证证实了CWIBTD在发现稀有主题时的优越性。我们的模型可用于早期,准确地发现社交平台上新兴主题或意外事件。
translated by 谷歌翻译
The relationship between words in a sentence often tells us more about the underlying semantic content of a document than its actual words, individually. In this work, we propose two novel algorithms, called Flexible Lexical Chain II and Fixed Lexical Chain II. These algorithms combine the semantic relations derived from lexical chains, prior knowledge from lexical databases, and the robustness of the distributional hypothesis in word embeddings as building blocks forming a single system. In short, our approach has three main contributions: (i) a set of techniques that fully integrate word embeddings and lexical chains; (ii) a more robust semantic representation that considers the latent relation between words in a document; and (iii) lightweight word embeddings models that can be extended to any natural language task. We intend to assess the knowledge of pre-trained models to evaluate their robustness in the document classification task. The proposed techniques are tested against seven word embeddings algorithms using five different machine learning classifiers over six scenarios in the document classification task. Our results show the integration between lexical chains and word embeddings representations sustain state-of-the-art results, even against more complex systems.
translated by 谷歌翻译
应用于潜在的Dirichlet分配(LDA)的变异贝叶斯(VB)已成为方面建模最受欢迎的算法。尽管从大型语料库中提取文本主题方面取得了足够的成功,但VB在识别有限数据的情况下识别方面的成功较少。我们提出了通过应用于潜在的Dirichlet分配(LDA)的新型变分信息,并将其与金标准VB进行比较并崩溃的Gibbs采样。在边缘化导致非混合消息的情况下,我们使用采样的想法来得出近似更新方程。如果存在共轭,则使用Loopy信念更新(LBU)(也称为Lauritzen-Spiegelhalter)。我们的算法Albu(近似LBU)与变异消息传递(VMP)具有很强的相似性(这是VB的消息传递变体)。为了比较在有限数据的存在下算法的性能,我们使用由推文和新闻组组成的数据集。此外,为了执行更多细性的评估和比较,我们使用模拟通过Kullback-Leibler Divergence(KLD)进行比较,以进行比较。使用文本语料库和KLD的相干度量与我们显示的模拟相比,Albu比VB更准确地学习潜在分布,尤其是对于较小的数据集。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
解释性学者通过手动采样文档,应用代码以及将代码精炼和整理成类别,直到出现有意义的主题,从而从文本语料库中产生知识。鉴于大量的语料库,机器学习可以帮助扩展此数据采样和分析,但先前的研究表明,专家通常关注算法可能破坏或推动解释性奖学金。我们采用以人为本的设计方法来解决围绕机器辅助解释性研究的关注,以构建学术研究,该研究将机器中的集群算法纳入了脚手架解释性文本分析。随着学者将代码应用于文档和完善它们,所得编码的模式用作结构化元数据,该元数据限制了从语料库推断出的层次文档和单词簇。这些集群的交互式可视化可以帮助学者们战略性地对文档进行进一步的洞察力进行洞察力。 Scholastic证明了采用熟悉隐喻的以人为中心的算法设计和可视化如何通过交互式主题建模和文档群集来支持归纳和解释性研究方法。
translated by 谷歌翻译
加州无罪项目(CIP)是一个旨在获得自由被错误定罪的囚犯的临床法学学校计划,评估数千封邮件,其中包含了新请求的帮助和相应的案件文件。处理和解释这一大量信息对CIP官员提出了重大挑战,这可以通过主题建模技术成功地辅助。在本文中,我们应用非负矩阵分解(NMF)方法并实现重要的各种分支机构先前未捕获的数据集由CIP编译。我们识别现有案例文件的基础主题,并按犯罪类型和案例状态(判定类型)对请求文件进行分类。结果揭示了当前案例文件的语义结构,可以在进一步考试之前为新收到的案例文件提供CIP官员。我们还提供了对NMF的流行变体进行了实验结果,并通过现实世界应用探讨了每个变体的益处和缺点。
translated by 谷歌翻译
世界各地的隐私法律和法规的景观是复杂而不断变化的。国家和超国家法律,协议,法令和其他政府发行的规则构成了公司必须遵循的拼凑而成才能在国际上进行运作。为了检查该拼凑而成的状态和演变,我们介绍了1,043条隐私法,法规和准则的政府隐私指示语料库或GPI语料库,涵盖了182个司法管辖区。该语料库可以对法律焦点进行大规模定量和定性检查。我们检查了创建GPI的时间分布,并说明了过去50年中隐私立法的急剧增加,尽管较细粒度的检查表明,增加的速度取决于GPIS所说的个人数据类型。我们的探索还表明,大多数隐私法分别解决了相对较少的个人数据类型,这表明全面的隐私立法仍然很少见。此外,主题建模结果显示了GPI中常见主题的普遍性,例如财务,医疗保健和电信。最后,我们将语料库释放到研究界,以促进进一步的研究。
translated by 谷歌翻译