通过物理群体概念的启发,提出了一种称为语义质量(SCOM)的延伸,并用于发现文档的抽象“主题”。该概念在一个名为Mep Map监督主题模型(UM-S-TM)的框架模型下。UM-S-TM的设计目标是让文档内容和语义网络 - 具体地,了解地图 - 在解释文档的含义时发挥作用。根据不同的理由,设计了三种可能的方法来发现文档的SCOM。进行了一些关于人工文件和理解地图的实验以测试其结果。此外,测试了其传感器和捕获顺序信息的矢量化能力。我们还将UM-S-TM与潜在的Dirichlet分配(LDA)和概率潜在语义分析(PLSA)等概率主题模型进行了比较了概率主题模型。
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
在过去几年中,学术数据的数量一直在急剧增加。对于特定科学领域的新人(例如,IR,物理学,NLP)往往难以解决更大的趋势,并在先前科学成就和突破的背景下定位最新研究。同样,科学史上的研究人员对允许他们分析和可视化特定科学域中的变化的工具感兴趣。时间摘要和相关方法应该是有用的,以使大量的科学话语数据随时间汇总。我们展示了一种新颖的分析研究论文收集的方法,在较长的时间内发布,以提供在时间进展情况上发生的重要语义变革的高级概述。我们的方法是基于比较单词语义表示随着​​时间的推移,并旨在支持用户更好地理解学术出版物的大型域名档案。作为一个示例数据集,我们使用从1979年到2015年的ACL原点参考语料库,并包含22,878篇学术文章。
translated by 谷歌翻译
寻找专家在推动成功的合作和加快高质量研究开发和创新方面起着至关重要的作用。但是,科学出版物和数字专业知识的快速增长使确定合适的专家是一个具有挑战性的问题。根据向量空间模型,文档语言模型和基于图形的模型,可以将寻找给定主题的专家的现有方法分类为信息检索技术。在本文中,我们建议$ \ textit {expfinder} $,一种用于专家发现的新合奏模型,该模型集成了一种新颖的$ n $ gram-gram vector空间模型,称为$ n $ vsm和基于图的模型,并表示作为$ \ textit {$ \ mu $ co-hits} $,这是共同算法的拟议变体。 $ n $ vsm的关键是利用$ n $ gram单词和$ \ textIt {expfinder} $ compriese $ n $ vsm的最新反向文档频率加权方法中的实现专家发现。与六个不同的专家发现模型相比,我们在四个不同的数据集上全面评估$ \ textit {expfinder} $。评估结果表明,$ \ textit {expfinder} $是专家发现的高效模型,显着优于19%至160.2%的所有比较模型。
translated by 谷歌翻译
We develop stochastic variational inference, a scalable algorithm for approximating posterior distributions. We develop this technique for a large class of probabilistic models and we demonstrate it with two probabilistic topic models, latent Dirichlet allocation and the hierarchical Dirichlet process topic model. Using stochastic variational inference, we analyze several large collections of documents: 300K articles from Nature, 1.8M articles from The New York Times, and 3.8M articles from Wikipedia. Stochastic inference can easily handle data sets of this size and outperforms traditional variational inference, which can only handle a smaller subset. (We also show that the Bayesian nonparametric topic model outperforms its parametric counterpart.) Stochastic variational inference lets us apply complex Bayesian models to massive data sets.
translated by 谷歌翻译
在矿业行业中,在项目管理过程中产生了许多报告。这些过去的文件是未来成功的知识资源。但是,如果文件未经组织和非结构化,则可以是一个繁琐而挑战的任务是检索必要的信息。文档聚类是一种强大的方法来应对问题,并且在过去的研究中介绍了许多方法。尽管如此,没有银弹可以对任何类型的文件表现最佳。因此,需要探索性研究来应用新数据集的聚类方法。在本研究中,我们将研究多个主题建模(TM)方法。目标是使用昆士兰,资源部,昆士兰州政府部的地质调查的数据集找到采矿项目报告的适当方法,并了解内容,以了解如何组织它们。三种TM方法,潜在的Dirichlet分配(LDA),非负矩阵分解(NMF)和非负张量分解(NTF)在统计和定性地比较。评估后,我们得出结论,LDA对数据集执行最佳;然而,可以通过一些改进来采用其他方法的可能性仍然存在。
translated by 谷歌翻译
Multilayer Neural Networks trained with the backpropagation algorithm constitute the best example of a successful Gradient-Based Learning technique. Given an appropriate network architecture, Gradient-Based Learning algorithms can be used to synthesize a complex decision surface that can classify high-dimensional patterns such as handwritten characters, with minimal preprocessing. This paper reviews various methods applied to handwritten character recognition and compares them on a standard handwritten digit recognition task. Convolutional Neural Networks, that are specifically designed to deal with the variability of 2D shapes, are shown to outperform all other techniques.Real-life document recognition systems are composed of multiple modules including eld extraction, segmentation, recognition, and language modeling. A new learning paradigm, called Graph Transformer Networks (GTN), allows such multi-module systems to be trained globally using Gradient-Based methods so as to minimize an overall performance measure.Two systems for on-line handwriting recognition are described. Experiments demonstrate the advantage of global training, and the exibility of Graph Transformer Networks.A Graph Transformer Network for reading bank check is also described. It uses Convolutional Neural Network character recognizers combined with global training techniques to provides record accuracy on business and personal checks. It is deployed commercially and reads several million checks per day.
translated by 谷歌翻译
Selecting the number of topics in LDA models is considered to be a difficult task, for which alternative approaches have been proposed. The performance of the recently developed singular Bayesian information criterion (sBIC) is evaluated and compared to the performance of alternative model selection criteria. The sBIC is a generalization of the standard BIC that can be implemented to singular statistical models. The comparison is based on Monte Carlo simulations and carried out for several alternative settings, varying with respect to the number of topics, the number of documents and the size of documents in the corpora. Performance is measured using different criteria which take into account the correct number of topics, but also whether the relevant topics from the DGPs are identified. Practical recommendations for LDA model selection in applications are derived.
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
加州无罪项目(CIP)是一个旨在获得自由被错误定罪的囚犯的临床法学学校计划,评估数千封邮件,其中包含了新请求的帮助和相应的案件文件。处理和解释这一大量信息对CIP官员提出了重大挑战,这可以通过主题建模技术成功地辅助。在本文中,我们应用非负矩阵分解(NMF)方法并实现重要的各种分支机构先前未捕获的数据集由CIP编译。我们识别现有案例文件的基础主题,并按犯罪类型和案例状态(判定类型)对请求文件进行分类。结果揭示了当前案例文件的语义结构,可以在进一步考试之前为新收到的案例文件提供CIP官员。我们还提供了对NMF的流行变体进行了实验结果,并通过现实世界应用探讨了每个变体的益处和缺点。
translated by 谷歌翻译
Latent semantic models, such as LSA, intend to map a query to its relevant documents at the semantic level where keyword-based matching often fails. In this study we strive to develop a series of new latent semantic models with a deep structure that project queries and documents into a common low-dimensional space where the relevance of a document given a query is readily computed as the distance between them. The proposed deep structured semantic models are discriminatively trained by maximizing the conditional likelihood of the clicked documents given a query using the clickthrough data. To make our models applicable to large-scale Web search applications, we also use a technique called word hashing, which is shown to effectively scale up our semantic models to handle large vocabularies which are common in such tasks. The new models are evaluated on a Web document ranking task using a real-world data set. Results show that our best model significantly outperforms other latent semantic models, which were considered state-of-the-art in the performance prior to the work presented in this paper.
translated by 谷歌翻译
引入了用于集群内部评估的新索引。该索引定义为两个子指标的混合物。第一个子指数$ i_a $称为模棱两可的索引;第二个子指数$ i_s $称为相似性索引。两个子指数的计算基于对数据分区的每个群集的密度估计。进行了一项实验以测试新指数的性能,并与三个流行的内部聚类评估指数(Calinski-Harabasz索引,Silhouette系数和Davies-Bouldin索引)相比,在145个数据集中进行了比较。结果表明,新指数将三个流行指数提高了59 \%,34 \%和74 \%。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
The central question in representation learning is what constitutes a good or meaningful representation. In this work we argue that if we consider data with inherent cluster structures, where clusters can be characterized through different means and covariances, those data structures should be represented in the embedding as well. While Autoencoders (AE) are widely used in practice for unsupervised representation learning, they do not fulfil the above condition on the embedding as they obtain a single representation of the data. To overcome this we propose a meta-algorithm that can be used to extend an arbitrary AE architecture to a tensorized version (TAE) that allows for learning cluster-specific embeddings while simultaneously learning the cluster assignment. For the linear setting we prove that TAE can recover the principle components of the different clusters in contrast to principle component of the entire data recovered by a standard AE. We validated this on planted models and for general, non-linear and convolutional AEs we empirically illustrate that tensorizing the AE is beneficial in clustering and de-noising tasks.
translated by 谷歌翻译
十年自2010年以来,人工智能成功一直处于计算机科学和技术的最前沿,传染媒介空间模型已经巩固了人工智能最前沿的位置。与此同时,量子计算机已经变得更加强大,主要进步的公告经常在新闻中。这些区域的基础的数学技术比有时意识到更多的共同之处。传染媒介空间在20世纪30年代的量子力学的公理心脏上采取了位置,这一采用是从矢量空间的线性几何形状推导逻辑和概率的关键动机。粒子之间的量子相互作用是使用张量产品进行建模的,其也用于表达人工神经网络中的物体和操作。本文介绍了这些常见的数学区域中的一些,包括如何在人工智能(AI)中使用的示例,特别是在自动推理和自然语言处理(NLP)中。讨论的技术包括矢量空间,标量产品,子空间和含义,正交投影和否定,双向矩阵,密度矩阵,正算子和张量产品。应用领域包括信息检索,分类和含义,建模字传感和歧义,知识库的推断和语义构成。其中一些方法可能会在量子硬件上实现。该实施中的许多实际步骤都处于早期阶段,其中一些已经实现了。解释一些常见的数学工具可以帮助AI和量子计算中的研究人员进一步利用这些重叠,识别和沿途探索新方向。
translated by 谷歌翻译
主题模型为学习,提取和发现大型文本语料库中的潜在结构提供了有用的文本挖掘工具。尽管已经为主题建模提出了大量方法,但文献缺乏是对潜在主题估计的统计识别性和准确性的正式理论研究。在本文中,我们提出了一个基于特定的集成可能性的潜在主题的最大似然估计量(MLE),该主题自然地与该概念相连,在计算几何学中,体积最小化。我们的理论介绍了主题模型可识别性的一组新几何条件,这些条件比常规的可分离性条件弱,这些条件通常依赖于纯主题文档或锚定词的存在。较弱的条件允许更广泛的调查,因此可能会更加富有成果的研究。我们对拟议的估计器进行有限样本误差分析,并讨论我们的结果与先前研究的结果之间的联系。我们以使用模拟和真实数据集的实证研究结论。
translated by 谷歌翻译
社会科学家经常将文本文档分类为使用结果标签作为实证研究的结果或预测指标。自动化文本分类已成为标准工具,因为它需要较少的人体编码。但是,学者们仍然需要许多人类标记的文件来培训自动分类器。为了降低标签成本,我们提出了一种新的文本分类算法,将概率模型与主动学习结合在一起。概率模型同时使用标记和未标记的数据,而主动学习集中在难以分类的文件上标记工作。我们的验证研究表明,我们的算法的分类性能与最先进的方法相当,而计算成本的一部分。此外,我们复制了两篇最近发表的文章,并得出相同的实质性结论,其中仅占这些研究中使用的原始标记数据的一小部分。我们提供ActiveText,一种开源软件来实现我们的方法。
translated by 谷歌翻译
本文采用了两种主要的自然语言处理技术,即主题建模和聚类,以在民间故事中找到模式,并揭示区域之间的文化关系。特别是,我们使用潜在的Dirichlet分配和伯托式分配来提取反复出现的元素,以及将K-均值聚类提取到集体民间故事。我们的论文试图回答这个问题,民间故事之间有什么相似之处,以及他们对文化的看法。在这里,我们表明民间故事之间的共同趋势是家庭,食物,传统的性别角色,神话人物和动物。此外,民间主题的主题是根据地理位置而有所不同的,在具有不同动物和环境的不同地区发现的民间故事。我们并不感到惊讶的是,宗教人物和动物是所有文化中的一些共同主题。但是,我们感到惊讶的是,欧洲和亚洲的民间故事经常结合在一起。我们的结果表明,世界各地文化中某些元素的流行率。我们预计我们的工作将成为对民间故事的未来研究的资源,也是使用自然语言处理来分析特定领域中文档的一个例子。此外,由于我们仅根据文件进行分析,因此可以在分析这些民间故事的结构,情感和特征方面做更多的工作。
translated by 谷歌翻译
Assigning qualified, unbiased and interested reviewers to paper submissions is vital for maintaining the integrity and quality of the academic publishing system and providing valuable reviews to authors. However, matching thousands of submissions with thousands of potential reviewers within a limited time is a daunting challenge for a conference program committee. Prior efforts based on topic modeling have suffered from losing the specific context that help define the topics in a publication or submission abstract. Moreover, in some cases, topics identified are difficult to interpret. We propose an approach that learns from each abstract published by a potential reviewer the topics studied and the explicit context in which the reviewer studied the topics. Furthermore, we contribute a new dataset for evaluating reviewer matching systems. Our experiments show a significant, consistent improvement in precision when compared with the existing methods. We also use examples to demonstrate why our recommendations are more explainable. The new approach has been deployed successfully at top-tier conferences in the last two years.
translated by 谷歌翻译