我们考虑如何在从流环境中学习贝叶斯模型时有效地使用先验知识,其中数据无限依次出现。这个问题在数据爆炸时代非常重要,富有培训的模型,本体,维基百科等珍贵外部知识的富裕来源非常重要。我们表明一些现有的方法可以忘记任何知识。然后,我们提出了一种新颖的框架,使能够将不同形式的先验知识纳入基础贝叶斯模型的数据流。我们的框架载有一些现有的时序/动态数据的流行模型。广泛的实验表明,我们的框架优于具有大边距的现有方法。特别是,我们的框架可以帮助贝叶斯模型在极短的文本上概括,而其他方法过度装备。我们的框架的实施是在https://github.com/bachtranxuan/tps.git上获得的。
translated by 谷歌翻译
从数据流学习隐藏的主题已经成为绝对必要的,但构成了挑战性问题,如概念漂移以及短而嘈杂的数据。使用先验知识来丰富主题模型是应对这些挑战的潜在解决方案之一。先前知识,其来自人类知识(例如Wordnet)或预先训练的模型(例如Word2Vec)是非常有价值的,并且有助于帮助主题模型更好地工作。然而,在数据到达不断且无限的流动环境中,现有研究仅限于有效利用这些资源。特别是,忽略了包含有意义的词关系的知识图形。在本文中,为了有效利用知识图,我们提出了一种新颖的图形卷积主题模型(GCTM),它将图形卷积网络(GCN)集成到一个主题模型和学习方法,它同时学习网络和主题模型数据流。在每个小纤维中,我们的方法不仅可以利用外部知识图,还可以平衡外部和旧知识,以便在新数据上表现良好。我们进行广泛的实验来评估我们的方法,以评估我们的知识图(WordNet)和由预先接受训练的Word Embeddings(Word2VEC)构建的图形的图表。实验结果表明,在概率预测措施和主题连贯性方面,我们的方法比最先进的基线达到更好的表现。特别是,在处理短文本以及概念漂移时,我们的方法可以很好地工作。 GCTM的实现可在\ URL {https://github.com/bachtranxuan/gctm.git}。
translated by 谷歌翻译
We develop stochastic variational inference, a scalable algorithm for approximating posterior distributions. We develop this technique for a large class of probabilistic models and we demonstrate it with two probabilistic topic models, latent Dirichlet allocation and the hierarchical Dirichlet process topic model. Using stochastic variational inference, we analyze several large collections of documents: 300K articles from Nature, 1.8M articles from The New York Times, and 3.8M articles from Wikipedia. Stochastic inference can easily handle data sets of this size and outperforms traditional variational inference, which can only handle a smaller subset. (We also show that the Bayesian nonparametric topic model outperforms its parametric counterpart.) Stochastic variational inference lets us apply complex Bayesian models to massive data sets.
translated by 谷歌翻译
分析短文(例如社交媒体帖子)由于其固有的简洁而非常困难。除了对此类帖子的主题进行分类之外,一个常见的下游任务是将这些文档的作者分组以进行后续分析。我们提出了一个新颖的模型,该模型通过对同一文档中的单词之间的强大依赖进行建模以及用户级主题分布来扩展潜在的Dirichlet分配。我们还同时群集用户,消除了对事后集群估计的需求,并通过将嘈杂的用户级主题分布缩小到典型值来改善主题估计。我们的方法的性能和比传统方法的性能(或更好),我们在美国参议员的推文数据集中证明了它的有用性,恢复了反映党派意识形态的有意义的主题和群集。我们还通过表征参议员群体讨论并提供不确定性量化的主题的遗产,从而在这些政治家中开发了一种新的回声室衡量标准。
translated by 谷歌翻译
We describe latent Dirichlet allocation (LDA), a generative probabilistic model for collections of discrete data such as text corpora. LDA is a three-level hierarchical Bayesian model, in which each item of a collection is modeled as a finite mixture over an underlying set of topics. Each topic is, in turn, modeled as an infinite mixture over an underlying set of topic probabilities. In the context of text modeling, the topic probabilities provide an explicit representation of a document. We present efficient approximate inference techniques based on variational methods and an EM algorithm for empirical Bayes parameter estimation. We report results in document modeling, text classification, and collaborative filtering, comparing to a mixture of unigrams model and the probabilistic LSI model.
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
主题进化建模近几十年来收到了重大关注。虽然已经提出了各种主题演进模型,但大多数研究都关注单一文件语料库。但是,在实践中,我们可以轻松访问来自多个来源的数据,并且还可以观察它们之间的关系。然后,识别多个文本语料库之间的关系并进一步利用这种关系来提高主题建模。在这项工作中,我们专注于两个文本语料库之间的特殊关系,我们将其定义为“滞后关系”。这种关系表征了一个文本语料库会影响未来在另一个文本语料库中讨论的主题的现象。要发现引导滞后关系,我们提出了一个共同动态的主题模型,并开发了嵌入扩展,以解决大规模文本语料库的建模问题。通过认可的引导关系,可以改善两个文本语料库的相似性,可以改善在两种语料中学习的主题质量。我们使用合成数据进行数值调查联合动态主题建模方法的性能。最后,我们在两个文本语料库上应用拟议的模型,包括统计文件和毕业论文。结果表明,拟议的模型可以很好地认识到两种语料库之间的引导滞后关系,也发现了两种语料库的具体和共享主题模式。
translated by 谷歌翻译
应用于潜在的Dirichlet分配(LDA)的变异贝叶斯(VB)已成为方面建模最受欢迎的算法。尽管从大型语料库中提取文本主题方面取得了足够的成功,但VB在识别有限数据的情况下识别方面的成功较少。我们提出了通过应用于潜在的Dirichlet分配(LDA)的新型变分信息,并将其与金标准VB进行比较并崩溃的Gibbs采样。在边缘化导致非混合消息的情况下,我们使用采样的想法来得出近似更新方程。如果存在共轭,则使用Loopy信念更新(LBU)(也称为Lauritzen-Spiegelhalter)。我们的算法Albu(近似LBU)与变异消息传递(VMP)具有很强的相似性(这是VB的消息传递变体)。为了比较在有限数据的存在下算法的性能,我们使用由推文和新闻组组成的数据集。此外,为了执行更多细性的评估和比较,我们使用模拟通过Kullback-Leibler Divergence(KLD)进行比较,以进行比较。使用文本语料库和KLD的相干度量与我们显示的模拟相比,Albu比VB更准确地学习潜在分布,尤其是对于较小的数据集。
translated by 谷歌翻译
基于嵌入的神经主题模型可以通过将它们嵌入均匀的特征空间来明确表示单词和主题,从而显示出更高的解释性。但是,嵌入训练没有明确的限制,从而导致更大的优化空间。此外,仍然缺乏对嵌入的变化以及对模型性能的影响的清晰描述。在本文中,我们提出了一个嵌入式化的神经主题模型,该模型应用于单词嵌入和主题嵌入的特殊设计的训练约束,以减少参数的优化空间。为了揭示嵌入的变化和角色,我们将\ textbf {均匀性}引入基于嵌入的神经主题模型中,作为嵌入空间的评估度量。在此基础上,我们描述了嵌入在训练过程中如何通过嵌入均匀性的变化而变化。此外,我们通过消融研究证明了基于嵌入的神经主题模型中嵌入的变化的影响。在两个主流数据集上实验的结果表明,我们的模型在主题质量和文档建模之间的和谐方面显着优于基线模型。这项工作是利用统一性来探索基于嵌入的神经主题模型嵌入的变化及其对模型性能的影响,从而获得了我们的最佳知识。
translated by 谷歌翻译
Concept drift primarily refers to an online supervised learning scenario when the relation between the input data and the target variable changes over time. Assuming a general knowledge of supervised learning in this paper we characterize adaptive learning process, categorize existing strategies for handling concept drift, overview the most representative, distinct and popular techniques and algorithms, discuss evaluation methodology of adaptive algorithms, and present a set of illustrative applications. The survey covers the different facets of concept drift in an integrated way to reflect on the existing scattered state-of-the-art. Thus, it aims at providing a comprehensive introduction to the concept drift adaptation for researchers, industry analysts and practitioners.
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
播客已经出现在大量消耗的在线内容中,特别是由于生产手段的可访问性和通过大型流平台进行缩放分布。分类系统和信息访问技术通常使用主题作为组织或导航播客集合的主要方式。然而,用主题注释播客仍然是非常有问题的,因为分配的编辑类型是广泛的,异构或误导性的,或者因为数据挑战(例如,MetaData文本短,嘈杂的成绩单)。在这里,我们使用主题建模技术来评估从播客元数据,标题和描述中发现相关主题的可行性。我们还提出了一种新的策略来利用命名实体(NES),通常存在于播客元数据中,以非负矩阵分解(NMF)主题建模框架。我们在Spotify和iTunes和Deezer中的两个现有数据集的实验,该数据来自提供播客目录的新数据集,显示我们所提出的文档表示Neice,导致基于基线的主题连贯性。我们释放了结果的实验​​性再现性的代码。
translated by 谷歌翻译
The relationship between words in a sentence often tells us more about the underlying semantic content of a document than its actual words, individually. In this work, we propose two novel algorithms, called Flexible Lexical Chain II and Fixed Lexical Chain II. These algorithms combine the semantic relations derived from lexical chains, prior knowledge from lexical databases, and the robustness of the distributional hypothesis in word embeddings as building blocks forming a single system. In short, our approach has three main contributions: (i) a set of techniques that fully integrate word embeddings and lexical chains; (ii) a more robust semantic representation that considers the latent relation between words in a document; and (iii) lightweight word embeddings models that can be extended to any natural language task. We intend to assess the knowledge of pre-trained models to evaluate their robustness in the document classification task. The proposed techniques are tested against seven word embeddings algorithms using five different machine learning classifiers over six scenarios in the document classification task. Our results show the integration between lexical chains and word embeddings representations sustain state-of-the-art results, even against more complex systems.
translated by 谷歌翻译
Graph learning is a popular approach for performing machine learning on graph-structured data. It has revolutionized the machine learning ability to model graph data to address downstream tasks. Its application is wide due to the availability of graph data ranging from all types of networks to information systems. Most graph learning methods assume that the graph is static and its complete structure is known during training. This limits their applicability since they cannot be applied to problems where the underlying graph grows over time and/or new tasks emerge incrementally. Such applications require a lifelong learning approach that can learn the graph continuously and accommodate new information whilst retaining previously learned knowledge. Lifelong learning methods that enable continuous learning in regular domains like images and text cannot be directly applied to continuously evolving graph data, due to its irregular structure. As a result, graph lifelong learning is gaining attention from the research community. This survey paper provides a comprehensive overview of recent advancements in graph lifelong learning, including the categorization of existing methods, and the discussions of potential applications and open research problems.
translated by 谷歌翻译
社会科学家经常将文本文档分类为使用结果标签作为实证研究的结果或预测指标。自动化文本分类已成为标准工具,因为它需要较少的人体编码。但是,学者们仍然需要许多人类标记的文件来培训自动分类器。为了降低标签成本,我们提出了一种新的文本分类算法,将概率模型与主动学习结合在一起。概率模型同时使用标记和未标记的数据,而主动学习集中在难以分类的文件上标记工作。我们的验证研究表明,我们的算法的分类性能与最先进的方法相当,而计算成本的一部分。此外,我们复制了两篇最近发表的文章,并得出相同的实质性结论,其中仅占这些研究中使用的原始标记数据的一小部分。我们提供ActiveText,一种开源软件来实现我们的方法。
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
近年来,在线增量学习中兴趣增长。然而,这方面存在三个主要挑战。第一个主要困难是概念漂移,即流数据中的概率分布会随着数据到达而改变。第二个重大困难是灾难性的遗忘,即忘记在学习新知识之前学到的东西。我们经常忽略的最后一个是学习潜在的代表。只有良好的潜在表示可以提高模型的预测准确性。我们的研究在此观察中建立并试图克服这些困难。为此,我们提出了一种适应性在线增量学习,用于不断发展数据流(AOL)。我们使用带内存模块的自动编码器,一方面,我们获得了输入的潜在功能,另一方面,根据自动编码器的重建丢失与内存模块,我们可以成功检测存在的存在概念漂移并触发更新机制,调整模型参数及时。此外,我们划分从隐藏层的激活导出的特征,分为两个部分,用于分别提取公共和私有特征。通过这种方法,该模型可以了解新的即将到来的实例的私有功能,但不要忘记我们在过去(共享功能)中学到的内容,这减少了灾难性遗忘的发生。同时,要获取融合特征向量,我们使用自我关注机制来有效地融合提取的特征,这进一步改善了潜在的代表学习。
translated by 谷歌翻译
人类每天产生的exabytes数据,导致越来越需要对大数据带来的多标签学习的大挑战的新努力。例如,极端多标签分类是一个有效且快速增长的研究区域,可以处理具有极大数量的类或标签的分类任务;利用具有有限监督的大规模数据构建一个多标签分类模型对实际应用变得有价值。除此之外,如何收获深度学习的强大学习能力,有巨大努力,以更好地捕获多标签的标签依赖性学习,这是深入学习解决现实世界分类任务的关键。然而,有人指出,缺乏缺乏系统性研究,明确关注分析大数据时代的多标签学习的新兴趋势和新挑战。呼吁综合调查旨在满足这项任务和描绘未来的研究方向和新应用。
translated by 谷歌翻译
One of the core problems of modern statistics is to approximate difficult-to-compute probability densities. This problem is especially important in Bayesian statistics, which frames all inference about unknown quantities as a calculation involving the posterior density. In this paper, we review variational inference (VI), a method from machine learning that approximates probability densities through optimization. VI has been used in many applications and tends to be faster than classical methods, such as Markov chain Monte Carlo sampling. The idea behind VI is to first posit a family of densities and then to find the member of that family which is close to the target. Closeness is measured by Kullback-Leibler divergence. We review the ideas behind mean-field variational inference, discuss the special case of VI applied to exponential family models, present a full example with a Bayesian mixture of Gaussians, and derive a variant that uses stochastic optimization to scale up to massive data. We discuss modern research in VI and highlight important open problems. VI is powerful, but it is not yet well understood. Our hope in writing this paper is to catalyze statistical research on this class of algorithms.
translated by 谷歌翻译
近年来,人们对开发自然语言处理(NLP)中可解释模型的利益越来越多。大多数现有模型旨在识别输入功能,例如对于模型预测而言重要的单词或短语。然而,在NLP中开发的神经模型通常以层次结构的方式构成单词语义,文本分类需要层次建模来汇总本地信息,以便处理主题和标签更有效地转移。因此,单词或短语的解释不能忠实地解释文本分类中的模型决策。本文提出了一种新型的层次解释性神经文本分类器,称为提示,该分类器可以自动以层次结构方式以标记相关主题的形式生成模型预测的解释。模型解释不再处于单词级别,而是基于主题作为基本语义单元。评论数据集和新闻数据集的实验结果表明,我们所提出的方法与现有最新的文本分类器相当地达到文本分类结果,并比其他可解释的神经文本更忠实于模型的预测和更好地理解人类的解释分类器。
translated by 谷歌翻译