大多数信息传播模型在线依赖于以下假设:信息彼此独立传播。但是,一些作品指出了研究相互作用在现实世界过程中的作用的必要性,并强调了这样做的可能困难:相互作用稀疏和简短。作为答案,最近的进步开发了模型来说明潜在出版物动态的相互作用。在本文中,我们建议扩展和应用一个这样的模型,以确定Reddit的新闻头条之间的互动是否在其基本出版机制中起重要作用。在对2019年的100,000个新闻标题进行了深入的案例研究之后,我们检索了有关互动的最新结论,并得出结论,它们在该数据集中扮演了较小的角色。
translated by 谷歌翻译
The publication time of a document carries a relevant information about its semantic content. The Dirichlet-Hawkes process has been proposed to jointly model textual information and publication dynamics. This approach has been used with success in several recent works, and extended to tackle specific challenging problems --typically for short texts or entangled publication dynamics. However, the prior in its current form does not allow for complex publication dynamics. In particular, inferred topics are independent from each other --a publication about finance is assumed to have no influence on publications about politics, for instance. In this work, we develop the Multivariate Powered Dirichlet-Hawkes Process (MPDHP), that alleviates this assumption. Publications about various topics can now influence each other. We detail and overcome the technical challenges that arise from considering interacting topics. We conduct a systematic evaluation of MPDHP on a range of synthetic datasets to define its application domain and limitations. Finally, we develop a use case of the MPDHP on Reddit data. At the end of this article, the interested reader will know how and when to use MPDHP, and when not to.
translated by 谷歌翻译
Information spread on networks can be efficiently modeled by considering three features: documents' content, time of publication relative to other publications, and position of the spreader in the network. Most previous works model up to two of those jointly, or rely on heavily parametric approaches. Building on recent Dirichlet-Point processes literature, we introduce the Houston (Hidden Online User-Topic Network) model, that jointly considers all those features in a non-parametric unsupervised framework. It infers dynamic topic-dependent underlying diffusion networks in a continuous-time setting along with said topics. It is unsupervised; it considers an unlabeled stream of triplets shaped as \textit{(time of publication, information's content, spreading entity)} as input data. Online inference is conducted using a sequential Monte-Carlo algorithm that scales linearly with the size of the dataset. Our approach yields consequent improvements over existing baselines on both cluster recovery and subnetworks inference tasks.
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
分析短文(例如社交媒体帖子)由于其固有的简洁而非常困难。除了对此类帖子的主题进行分类之外,一个常见的下游任务是将这些文档的作者分组以进行后续分析。我们提出了一个新颖的模型,该模型通过对同一文档中的单词之间的强大依赖进行建模以及用户级主题分布来扩展潜在的Dirichlet分配。我们还同时群集用户,消除了对事后集群估计的需求,并通过将嘈杂的用户级主题分布缩小到典型值来改善主题估计。我们的方法的性能和比传统方法的性能(或更好),我们在美国参议员的推文数据集中证明了它的有用性,恢复了反映党派意识形态的有意义的主题和群集。我们还通过表征参议员群体讨论并提供不确定性量化的主题的遗产,从而在这些政治家中开发了一种新的回声室衡量标准。
translated by 谷歌翻译
我们为在不平衡的短文本数据集中发现稀缺主题提供了一个简单而通用的解决方案,即基于共同发生的网络模型CWIBTD,可以同时解决短文本主题的稀疏和不平衡的问题并减轻效果的效果。偶尔成对的单词出现,使模型更多地集中在发现稀缺主题上。与以前的方法不同,CWIBTD使用共发生的单词网络对每个单词的主题分布进行建模,从而改善了数据空间的语义密度,并确保其在识别稀有主题方面的敏感性,通过改善计算节点活动的方式和正常方式。在某种程度上,稀缺的话题和大主题。此外,使用与LDA相同的Gibbs采样使CWIBTD易于扩展到Viri-OUS应用程序方案。在不夸张的短文本数据集中进行的广泛实验验证证实了CWIBTD在发现稀有主题时的优越性。我们的模型可用于早期,准确地发现社交平台上新兴主题或意外事件。
translated by 谷歌翻译
网络欺骗是作为对攻击者和数据盗贼保卫网络和系统的有希望的方法。然而,尽管部署相对便宜,但由于丰富的互动欺骗技术在很大程度上被手动的事实,规模的现实内容的产生是非常昂贵的。随着最近的机器学习改进,我们现在有机会为创建逼真和诱惑模拟内容带来规模和自动化。在这项工作中,我们提出了一个框架,以便在规模上自动化电子邮件和即时消息风格组通信。组织内的这种消息传递平台包含私人通信和文档附件内的许多有价值的信息,使其成为对手的诱惑目标。我们解决了模拟此类系统的两个关键方面:与参与者进行沟通的何时何地和生成局部多方文本以填充模拟对话线程。我们将LognormMix-Net时间点流程作为一种方法,建立在Shchur等人的强度建模方法上。〜\ Cite {Shchur2019Ints}为单播和多铸造通信创建生成模型。我们展示了使用微调,预先训练的语言模型来生成令人信服的多方对话线程。通过将LognormMix-Net TPP(要生成通信时间戳,发件人和收件人)使用语言模型来模拟实时电子邮件服务器,该语言模型生成多方电子邮件线程的内容。我们对基于现实主义的数量的基于现实的属性评估生成的内容,这鼓励模型学会生成将引起对手的注意力来实现欺骗结果。
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
新闻库中的自动事件检测是开采快速发展的结构化知识的至关重要的任务。由于现实世界事件具有不同的粒度,从顶级主题到关键事件,然后再提及与具体行动相对应的事件,因此通常有两条研究:(1)主题检测从新闻语料库的主要主题中标识(例如,。 ,“ 2019年香港抗议活动”与“ 2020年美国总统大选”),具有非常不同的语义; (2)从一份文件提取的行动提取提取级别的行动(例如,“警察击中抗议者的左臂”),无法理解该事件。在本文中,我们提出了一项新任务,即在中间级别的关键事件检测,目的是从新闻语料库的关键事件(例如,“ 8月12日至14日的HK机场抗议”)中进行检测,每一次都发生在特定时间/位置并专注于同一主题。由于新闻文章的快速发展性质,这项任务可以弥合事件的理解和结构,并且由于关键事件的主题和时间紧密以及标记的数据的稀缺而具有固有的挑战。为了应对这些挑战,我们开发了一个无监督的关键事件检测框架Evmine,(1)使用新颖的TTF-ITF分数提取时间频繁的峰值短语,(2)将峰值短语合并为事件 - 指示特征集,通过从我们的我们检测我们的社区中。设计的峰短语图可以捕获文档的共发生,语义相似性和时间亲密信号,以及(3)迭代地检索与每个关键事件相关的文档,通过训练具有从事件指标特征集中自动生成的伪标签的分类器,并完善该分类器使用检索的文档检测到关键事件。广泛的实验和案例研究表明,Evmine的表现优于所有基线方法及其在两个现实世界新闻机构上的消融。
translated by 谷歌翻译
慢性疼痛被认为是一个重大的健康问题,不仅受到经济,而且在社会和个人层面的影响。作为私人和主观的经验,它不可能从外部和公正地体验,描述和解释慢性疼痛,作为纯粹的有害刺激,直接指向因果症,并促进其缓解,与急性疼痛相反,对其进行评估通常是直截了当的。因此,口头沟通是将相关信息传达给卫生专业人员的关键,否则外部实体无法访问,即关于痛苦经验和患者的内在质量。我们提出并讨论了一个主题建模方法,以识别慢性疼痛的口头描述中的模式,并使用这些模式量化和限定疼痛的经验。我们的方法允许提取关于所获得的主题模型和潜在空间的慢性疼痛经验的新洞察。我们认为我们的结果在临床上与慢性疼痛的评估和管理有关。
translated by 谷歌翻译
使用Twitter进行事件检测的小调查。这项工作首先定义了问题陈述,然后总结并整理了解决问题的不同研究工作。
translated by 谷歌翻译
大多数现有推荐系统仅基于评级数据,并且他们忽略了可能会增加建议质量的其他信息来源,例如文本评论或用户和项目特征。此外,这些系统的大多数仅适用于小型数据集(数千个观察)并且无法处理大型数据集(具有数百万观察结果)。我们提出了一种推荐人算法,该算法将评级建模技术(即潜在因子模型)与基于文本评论(即潜在Dirichlet分配)的主题建模方法组合,并且我们扩展了算法,使其允许添加额外的用户和项目 - 对系统的特定信息。我们使用具有不同大小的Amazon.com数据集来评估算法的性能,对应于23个产品类别。将建筑模型与四种其他型号进行比较后,我们发现将患有评级的文本评语相结合,导致更好的建议。此外,我们发现为模型添加额外的用户和项目功能会提高其预测精度,这对于中型和大数据集尤其如此。
translated by 谷歌翻译
去年,在推荐系统中使用随机块建模(SBM)的兴趣恢复了。这些模型被视为能够处理标记数据的张量分解技术的灵活替代方法。最近提议通过将较大的上下文作为输入数据并在上下文相关元素之间添加二阶交互来解决通过SBM解决离散建议问题的最新作品。在这项工作中,我们表明这些模型都是单个全局框架的特殊情况:序列化的交互混合成员随机块模型(SIMSBM)。它允许建模任意较大的上下文以及任意高级的交互作用。我们证明了SIMSBM概括了一些最近基于SBM的基线。此外,我们证明我们的配方允许在六个现实世界数据集上增加预测能力。
translated by 谷歌翻译
这项工作引入了一种新颖的多变量时间点过程,部分均值行为泊松(PMBP)过程,可以利用以将多变量霍克斯过程适合部分间隔删除的数据,该数据包括在尺寸和间隔子集上的事件时间戳的混合中组成的数据。 - 委员会互补尺寸的事件计数。首先,我们通过其条件强度定义PMBP过程,并导出子临界性的规律性条件。我们展示了鹰过程和MBP过程(Rizoiu等人)是PMBP过程的特殊情况。其次,我们提供了能够计算PMBP过程的条件强度和采样事件历史的数字方案。第三,我们通过使用合成和现实世界数据集来证明PMBP过程的适用性:我们测试PMBP过程的能力,以恢复多变量霍克参数给出鹰过程的样本事件历史。接下来,我们在YouTube流行预测任务上评估PMBP过程,并表明它优于当前最先进的鹰强度过程(Rizoiu等人。(2017b))。最后,在Covid19的策划数据集上,关于国家样本的Covid19每日案例计数和Covid19相关的新闻文章,我们展示了PMBP拟合参数上的聚类使各国的分类能够分类案件和新闻的国家级互动报告。
translated by 谷歌翻译
近年来,在我们称之为社交媒体的意见生态系统中,极端主义观点的兴起。允许在线极端主义坚持会带来可怕的社会后果,并不断探索减轻它的努力。积极的干预措施,受控信号,以提高某些意见的目的增加了对意见生态系统的关注,这就是缓解途径的一种途径。这项工作提出了一个平台,通过意见市场模型(OMM)测试积极干预措施的有效性,这是一个在线意见生态系统的两层模型,共同考虑了开幕式的相互作用和积极干预的作用。第一层使用多元离散时间霍克斯流程模拟了意见注意市场的规模;第二层利用市场份额吸引模型来模拟合作的意见并竞争市场份额,但注意力有限。在合成数据集上,我们显示了我们提出的估计方案的收敛性。在Facebook和Twitter讨论的数据集中,其中包含有关丛林大火和气候变化的中等和极右翼意见,我们在最先进的表现以及揭示潜在意见互动的能力上表现出了优越的预测性能。最后,我们使用OMM来证明主流媒体报道的有效性是抑制极右翼意见的积极干预措施。
translated by 谷歌翻译
从三个研究趋势中汇集了考虑(合作的诚实信号,社会语义网络和同性恋理论),我们假设字词使用相似性并具有类似的社交网络位置与员工数字交互的水平相关联。为了验证我们的假设,我们分析了近1600名员工的沟通,在大公司的Intranet通信论坛上互动。我们研究了他们的社会动态和“诚实信号”,在过去的研究中证明有利于员工的参与和合作。我们发现这个词使用相似性是交互的主要驱动因素,远远超过网络位置的其他语言特征或相似性。我们的结果表明根据目标受众仔细选择语言,并对公司经理和在线社区管理员进行实际影响。例如,了解如何更好的使用语言可以支持开发知识共享实践或内部通信活动。
translated by 谷歌翻译
科学世界正在快速改变,新技术正在开发,新的趋势正在进行频率增加。本文介绍了对学术出版物进行科学分析的框架,这对监测研究趋势并确定潜在的创新至关重要。该框架采用并结合了各种自然语言处理技术,例如Word Embedding和主题建模。嵌入单词嵌入用于捕获特定于域的单词的语义含义。我们提出了两种新颖的科学出版物嵌入,即PUB-G和PUB-W,其能够在各种研究领域学习一般的语义含义以及特定于域的单词。此后,主题建模用于识别这些更大的研究领域内的研究主题集群。我们策划了一个出版物数据集,由两条会议组成,并从1995年到2020年的两项期刊从两个研究领域组成。实验结果表明,与其他基线嵌入式的基于主题连贯性,我们的PUB-G和PUB-W嵌入式与其他基线嵌入式相比优越。
translated by 谷歌翻译
Neyman-Scott processes (NSPs) are point process models that generate clusters of points in time or space. They are natural models for a wide range of phenomena, ranging from neural spike trains to document streams. The clustering property is achieved via a doubly stochastic formulation: first, a set of latent events is drawn from a Poisson process; then, each latent event generates a set of observed data points according to another Poisson process. This construction is similar to Bayesian nonparametric mixture models like the Dirichlet process mixture model (DPMM) in that the number of latent events (i.e. clusters) is a random variable, but the point process formulation makes the NSP especially well suited to modeling spatiotemporal data. While many specialized algorithms have been developed for DPMMs, comparatively fewer works have focused on inference in NSPs. Here, we present novel connections between NSPs and DPMMs, with the key link being a third class of Bayesian mixture models called mixture of finite mixture models (MFMMs). Leveraging this connection, we adapt the standard collapsed Gibbs sampling algorithm for DPMMs to enable scalable Bayesian inference on NSP models. We demonstrate the potential of Neyman-Scott processes on a variety of applications including sequence detection in neural spike trains and event detection in document streams.
translated by 谷歌翻译
应用于潜在的Dirichlet分配(LDA)的变异贝叶斯(VB)已成为方面建模最受欢迎的算法。尽管从大型语料库中提取文本主题方面取得了足够的成功,但VB在识别有限数据的情况下识别方面的成功较少。我们提出了通过应用于潜在的Dirichlet分配(LDA)的新型变分信息,并将其与金标准VB进行比较并崩溃的Gibbs采样。在边缘化导致非混合消息的情况下,我们使用采样的想法来得出近似更新方程。如果存在共轭,则使用Loopy信念更新(LBU)(也称为Lauritzen-Spiegelhalter)。我们的算法Albu(近似LBU)与变异消息传递(VMP)具有很强的相似性(这是VB的消息传递变体)。为了比较在有限数据的存在下算法的性能,我们使用由推文和新闻组组成的数据集。使用相干度量,我们表明ALBU比VB更准确地学习潜在分布,尤其是对于较小的数据集。
translated by 谷歌翻译
解释性学者通过手动采样文档,应用代码以及将代码精炼和整理成类别,直到出现有意义的主题,从而从文本语料库中产生知识。鉴于大量的语料库,机器学习可以帮助扩展此数据采样和分析,但先前的研究表明,专家通常关注算法可能破坏或推动解释性奖学金。我们采用以人为本的设计方法来解决围绕机器辅助解释性研究的关注,以构建学术研究,该研究将机器中的集群算法纳入了脚手架解释性文本分析。随着学者将代码应用于文档和完善它们,所得编码的模式用作结构化元数据,该元数据限制了从语料库推断出的层次文档和单词簇。这些集群的交互式可视化可以帮助学者们战略性地对文档进行进一步的洞察力进行洞察力。 Scholastic证明了采用熟悉隐喻的以人为中心的算法设计和可视化如何通过交互式主题建模和文档群集来支持归纳和解释性研究方法。
translated by 谷歌翻译