The publication time of a document carries a relevant information about its semantic content. The Dirichlet-Hawkes process has been proposed to jointly model textual information and publication dynamics. This approach has been used with success in several recent works, and extended to tackle specific challenging problems --typically for short texts or entangled publication dynamics. However, the prior in its current form does not allow for complex publication dynamics. In particular, inferred topics are independent from each other --a publication about finance is assumed to have no influence on publications about politics, for instance. In this work, we develop the Multivariate Powered Dirichlet-Hawkes Process (MPDHP), that alleviates this assumption. Publications about various topics can now influence each other. We detail and overcome the technical challenges that arise from considering interacting topics. We conduct a systematic evaluation of MPDHP on a range of synthetic datasets to define its application domain and limitations. Finally, we develop a use case of the MPDHP on Reddit data. At the end of this article, the interested reader will know how and when to use MPDHP, and when not to.
translated by 谷歌翻译
大多数信息传播模型在线依赖于以下假设:信息彼此独立传播。但是,一些作品指出了研究相互作用在现实世界过程中的作用的必要性,并强调了这样做的可能困难:相互作用稀疏和简短。作为答案,最近的进步开发了模型来说明潜在出版物动态的相互作用。在本文中,我们建议扩展和应用一个这样的模型,以确定Reddit的新闻头条之间的互动是否在其基本出版机制中起重要作用。在对2019年的100,000个新闻标题进行了深入的案例研究之后,我们检索了有关互动的最新结论,并得出结论,它们在该数据集中扮演了较小的角色。
translated by 谷歌翻译
Information spread on networks can be efficiently modeled by considering three features: documents' content, time of publication relative to other publications, and position of the spreader in the network. Most previous works model up to two of those jointly, or rely on heavily parametric approaches. Building on recent Dirichlet-Point processes literature, we introduce the Houston (Hidden Online User-Topic Network) model, that jointly considers all those features in a non-parametric unsupervised framework. It infers dynamic topic-dependent underlying diffusion networks in a continuous-time setting along with said topics. It is unsupervised; it considers an unlabeled stream of triplets shaped as \textit{(time of publication, information's content, spreading entity)} as input data. Online inference is conducted using a sequential Monte-Carlo algorithm that scales linearly with the size of the dataset. Our approach yields consequent improvements over existing baselines on both cluster recovery and subnetworks inference tasks.
translated by 谷歌翻译
分析短文(例如社交媒体帖子)由于其固有的简洁而非常困难。除了对此类帖子的主题进行分类之外,一个常见的下游任务是将这些文档的作者分组以进行后续分析。我们提出了一个新颖的模型,该模型通过对同一文档中的单词之间的强大依赖进行建模以及用户级主题分布来扩展潜在的Dirichlet分配。我们还同时群集用户,消除了对事后集群估计的需求,并通过将嘈杂的用户级主题分布缩小到典型值来改善主题估计。我们的方法的性能和比传统方法的性能(或更好),我们在美国参议员的推文数据集中证明了它的有用性,恢复了反映党派意识形态的有意义的主题和群集。我们还通过表征参议员群体讨论并提供不确定性量化的主题的遗产,从而在这些政治家中开发了一种新的回声室衡量标准。
translated by 谷歌翻译
这项工作引入了一种新颖的多变量时间点过程,部分均值行为泊松(PMBP)过程,可以利用以将多变量霍克斯过程适合部分间隔删除的数据,该数据包括在尺寸和间隔子集上的事件时间戳的混合中组成的数据。 - 委员会互补尺寸的事件计数。首先,我们通过其条件强度定义PMBP过程,并导出子临界性的规律性条件。我们展示了鹰过程和MBP过程(Rizoiu等人)是PMBP过程的特殊情况。其次,我们提供了能够计算PMBP过程的条件强度和采样事件历史的数字方案。第三,我们通过使用合成和现实世界数据集来证明PMBP过程的适用性:我们测试PMBP过程的能力,以恢复多变量霍克参数给出鹰过程的样本事件历史。接下来,我们在YouTube流行预测任务上评估PMBP过程,并表明它优于当前最先进的鹰强度过程(Rizoiu等人。(2017b))。最后,在Covid19的策划数据集上,关于国家样本的Covid19每日案例计数和Covid19相关的新闻文章,我们展示了PMBP拟合参数上的聚类使各国的分类能够分类案件和新闻的国家级互动报告。
translated by 谷歌翻译
Neyman-Scott processes (NSPs) are point process models that generate clusters of points in time or space. They are natural models for a wide range of phenomena, ranging from neural spike trains to document streams. The clustering property is achieved via a doubly stochastic formulation: first, a set of latent events is drawn from a Poisson process; then, each latent event generates a set of observed data points according to another Poisson process. This construction is similar to Bayesian nonparametric mixture models like the Dirichlet process mixture model (DPMM) in that the number of latent events (i.e. clusters) is a random variable, but the point process formulation makes the NSP especially well suited to modeling spatiotemporal data. While many specialized algorithms have been developed for DPMMs, comparatively fewer works have focused on inference in NSPs. Here, we present novel connections between NSPs and DPMMs, with the key link being a third class of Bayesian mixture models called mixture of finite mixture models (MFMMs). Leveraging this connection, we adapt the standard collapsed Gibbs sampling algorithm for DPMMs to enable scalable Bayesian inference on NSP models. We demonstrate the potential of Neyman-Scott processes on a variety of applications including sequence detection in neural spike trains and event detection in document streams.
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
从各种平台收获的结构点处理数据对机器学习界产生了新的挑战。通过施加矩阵结构以重复观察标记点过程,我们提出了一种新的混合模型的多级标记点过程,用于识别观察到的数据中的潜在异质性。具体地,我们研究了一个矩阵,其条目被标记为Log-Gaussian Cox进程和这种矩阵的簇行。提出了一种有效的半参数期预期 - 解决方案与点流程的功能主成分分析(FPCA)进行了模型估计。通过仿真研究和实际数据分析证明了所提出的框架的有效性。
translated by 谷歌翻译
使用Twitter进行事件检测的小调查。这项工作首先定义了问题陈述,然后总结并整理了解决问题的不同研究工作。
translated by 谷歌翻译
网络欺骗是作为对攻击者和数据盗贼保卫网络和系统的有希望的方法。然而,尽管部署相对便宜,但由于丰富的互动欺骗技术在很大程度上被手动的事实,规模的现实内容的产生是非常昂贵的。随着最近的机器学习改进,我们现在有机会为创建逼真和诱惑模拟内容带来规模和自动化。在这项工作中,我们提出了一个框架,以便在规模上自动化电子邮件和即时消息风格组通信。组织内的这种消息传递平台包含私人通信和文档附件内的许多有价值的信息,使其成为对手的诱惑目标。我们解决了模拟此类系统的两个关键方面:与参与者进行沟通的何时何地和生成局部多方文本以填充模拟对话线程。我们将LognormMix-Net时间点流程作为一种方法,建立在Shchur等人的强度建模方法上。〜\ Cite {Shchur2019Ints}为单播和多铸造通信创建生成模型。我们展示了使用微调,预先训练的语言模型来生成令人信服的多方对话线程。通过将LognormMix-Net TPP(要生成通信时间戳,发件人和收件人)使用语言模型来模拟实时电子邮件服务器,该语言模型生成多方电子邮件线程的内容。我们对基于现实主义的数量的基于现实的属性评估生成的内容,这鼓励模型学会生成将引起对手的注意力来实现欺骗结果。
translated by 谷歌翻译
去年,在推荐系统中使用随机块建模(SBM)的兴趣恢复了。这些模型被视为能够处理标记数据的张量分解技术的灵活替代方法。最近提议通过将较大的上下文作为输入数据并在上下文相关元素之间添加二阶交互来解决通过SBM解决离散建议问题的最新作品。在这项工作中,我们表明这些模型都是单个全局框架的特殊情况:序列化的交互混合成员随机块模型(SIMSBM)。它允许建模任意较大的上下文以及任意高级的交互作用。我们证明了SIMSBM概括了一些最近基于SBM的基线。此外,我们证明我们的配方允许在六个现实世界数据集上增加预测能力。
translated by 谷歌翻译
我们考虑有限混合物(MFM)和Dirichlet工艺混合物(DPM)模型的贝叶斯混合物。最近的渐近理论已经确定,DPM高估了大型样本的聚类数量,并且两类模型的估计量对于不指定的群集的数量不一致,但是对有限样本分析的含义尚不清楚。拟合这些模型后的最终报告的估计通常是使用MCMC摘要技术获得的单个代表性聚类,但是尚不清楚这样的摘要估计簇的数量。在这里,我们通过模拟和对基因表达数据的应用进行了研究,发现(i)DPM甚至在有限样本中高估了簇数的数量,但仅在有限的程度上可以使用适当的摘要来纠正,并且(ii)(ii) )错误指定会导致对DPM和MFM中集群数量的高估,但是结果通常仍然可以解释。我们提供了有关MCMC摘要的建议,并建议尽管MFM的渐近性能更具吸引力,这提供了强大的动力来偏爱它们,但使用MFMS和DPMS获得的结果通常在实践中非常相似。
translated by 谷歌翻译
当分布生成数据变化时,ChangePoint分析处理时间序列数据中的时间点的无监督检测和/或估计。在本文中,我们在大规模文本数据的上下文中考虑\ emph {offline} ChangePoint检测。我们在主题比例分布的分布中构建了一个专门的时间主题模型。随着该模型的完全可能性推断是在计算上难以解决的,我们开发了一个计算易诊的近似推理过程。更具体地,我们使用样品分离来首先估计多个主题,然后将似然比统计与Fryzlewicz等人的野生二进制分割算法的修改版本一起应用。 (2014)。我们的方法促进了大公司的结构变化的自动检测,而无需通过域专家手动处理。随着我们模型下的变换点对应于主题结构的变化,估计的变化点通常是高度可解释的,因为标志着时尚主题的普及涌现或下降。我们在两个大型数据集上应用我们的程序:(i)从1800-1922期(Underweet Al,2015年)的英语文学语料库; (ii)来自高能物理arxiv存储库的摘要(Clementet al。,2019)。我们获得一些历史上众所周知的改变点,发现一些新的变化点。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
We develop stochastic variational inference, a scalable algorithm for approximating posterior distributions. We develop this technique for a large class of probabilistic models and we demonstrate it with two probabilistic topic models, latent Dirichlet allocation and the hierarchical Dirichlet process topic model. Using stochastic variational inference, we analyze several large collections of documents: 300K articles from Nature, 1.8M articles from The New York Times, and 3.8M articles from Wikipedia. Stochastic inference can easily handle data sets of this size and outperforms traditional variational inference, which can only handle a smaller subset. (We also show that the Bayesian nonparametric topic model outperforms its parametric counterpart.) Stochastic variational inference lets us apply complex Bayesian models to massive data sets.
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
引入了涉及高斯流程(GPS)的模型,以同时处理多个功能数据的多任务学习,聚类和预测。该过程充当了功能数据的基于模型的聚类方法,也是对新任务进行后续预测的学习步骤。该模型是将多任务GPS与常见平均过程的混合物实例化。得出了一种用于处理超参数的优化以及超构件对潜在变量和过程的估计的优化。我们建立了明确的公式,用于将平均过程和潜在聚类变量整合到预测分布中,这是两个方面的不确定性。该分布定义为集群特异性GP预测的混合物,在处理组结构数据时,可以增强性能。该模型处理观察的不规则网格,并提供了关于协方差结构的不同假设,用于在任务之间共享其他信息。聚类和预测任务上的性能将通过各种模拟方案和真实数据集进行评估。总体算法称为magmaclust,可公开作为R包。
translated by 谷歌翻译
高斯流程是许多灵活的统计和机器学习模型的关键组成部分。但是,由于需要倒转和存储完整的协方差矩阵,它们表现出立方计算的复杂性和高内存约束。为了解决这个问题,已经考虑了高斯流程专家的混合物,其中数据点被分配给独立专家,从而通过允许基于较小的局部协方差矩阵来降低复杂性。此外,高斯流程专家的混合物大大富含模型的灵活性,从而允许诸如非平稳性,异方差和不连续性等行为。在这项工作中,我们基于嵌套的蒙特卡洛采样器构建了一种新颖的推理方法,以同时推断门控网络和高斯工艺专家参数。与重要性采样相比,这大大改善了推断,尤其是在固定高斯流程不合适的情况下,同时仍然完全平行。
translated by 谷歌翻译
零售商的主要障碍之一是了解他们可以从合同需求响应(DR)客户期望的消费弹性。零售商提供的DR产品的目前的趋势不是消费者特定的,这对消费者在这些计划中的积极参与的额外障碍带来了额外的障碍。消费者需求行为的弹性因个人而异。该实用程序将从知识中获益,更准确地了解其价格的变化将如何修改其客户的消费模式。这项工作提出了博士签约消费者消费弹性的功能模型。该模型的目的是确定负载调整,消费者可以为不同的价格水平提供给零售商或公用事业。拟议的模型使用贝叶斯概率方法来识别实际的负载调整,单个合同的客户可以提供它可以体验的不同价格水平。发达的框架为零售商或公用事业提供了一个工具,以获得关于个人消费者如何应对不同价格水平的关键信息。这种方法能够量化消费者对DR信号作出反应的可能性,并识别各个合同的博士客户提供的实际负载调整提供他们可以体验的不同价格水平。该信息可用于最大限度地提高零售商或实用程序可以向系统运营商提供的服务的控制和可靠性。
translated by 谷歌翻译
我们为在不平衡的短文本数据集中发现稀缺主题提供了一个简单而通用的解决方案,即基于共同发生的网络模型CWIBTD,可以同时解决短文本主题的稀疏和不平衡的问题并减轻效果的效果。偶尔成对的单词出现,使模型更多地集中在发现稀缺主题上。与以前的方法不同,CWIBTD使用共发生的单词网络对每个单词的主题分布进行建模,从而改善了数据空间的语义密度,并确保其在识别稀有主题方面的敏感性,通过改善计算节点活动的方式和正常方式。在某种程度上,稀缺的话题和大主题。此外,使用与LDA相同的Gibbs采样使CWIBTD易于扩展到Viri-OUS应用程序方案。在不夸张的短文本数据集中进行的广泛实验验证证实了CWIBTD在发现稀有主题时的优越性。我们的模型可用于早期,准确地发现社交平台上新兴主题或意外事件。
translated by 谷歌翻译