在过去的几年中,霍克斯流程的在线学习受到了越来越多的关注,尤其是用于建模演员网络。但是,这些作品通常会模拟事件或参与者的潜在群集之间的丰富相互作用,或者是参与者之间的网络结构。我们建议对参与者网络的潜在结构进行建模,以及在现实世界中的医疗和财务应用环境中进行的丰富互动。合成和现实世界数据的实验结果展示了我们方法的功效。
translated by 谷歌翻译
从各种平台收获的结构点处理数据对机器学习界产生了新的挑战。通过施加矩阵结构以重复观察标记点过程,我们提出了一种新的混合模型的多级标记点过程,用于识别观察到的数据中的潜在异质性。具体地,我们研究了一个矩阵,其条目被标记为Log-Gaussian Cox进程和这种矩阵的簇行。提出了一种有效的半参数期预期 - 解决方案与点流程的功能主成分分析(FPCA)进行了模型估计。通过仿真研究和实际数据分析证明了所提出的框架的有效性。
translated by 谷歌翻译
现代医疗保健系统正在对电子病历(EMR)进行连续自动监视,以识别频率越来越多的不良事件;但是,许多败血症等事件都没有明确阐明前瞻性(即事件链),可用于识别和拦截它的早期不良事件。目前,尚无可靠的框架来发现或描述不良医院事件之前的因果链。临床上相关和可解释的结果需要一个框架,可以(1)推断在EMR数据中发现的多个患者特征(例如,实验室,生命体征等)中的时间相互作用,并且(2)可以识别(s)的模式(s)。到即将发生的不良事件(例如,败血症)。在这项工作中,我们提出了一个线性多元霍克斯进程模型,并与$ g(x)= x^+$链接函数结合起来允许潜在的抑制作用,以恢复Granger Causal(GC)图。我们开发了一个基于两阶段的方案,以最大程度地提高可能性的替代品以估计问题参数。该两相算法可扩展,并通过我们的数值模拟显示有效。随后将其扩展到佐治亚州亚特兰大的Grady医院系统的患者数据集,在那里,合适的Granger Causal图识别出败血症之前的几个高度可解释的链。
translated by 谷歌翻译
时间点过程作为连续域的随机过程通常用于模拟具有发生时间戳的异步事件序列。由于深度神经网络的强烈表达性,在时间点过程的背景下,它们是捕获异步序列中的模式的有希望的选择。在本文中,我们首先审查了最近的研究强调和困难,在深处时间点过程建模异步事件序列,可以得出四个领域:历史序列的编码,条件强度函数的制定,事件的关系发现和学习方法优化。我们通过将其拆除进入四个部分来介绍最近提出的模型,并通过对公平实证评估的相同学习策略进行重新涂布前三个部分进行实验。此外,我们扩展了历史编码器和条件强度函数家族,并提出了一种GRANGER因果区发现框架,用于利用多种事件之间的关系。因为格兰杰因果关系可以由格兰杰因果关系图表示,所以采用分层推断框架中的离散图结构学习来揭示图的潜在结构。进一步的实验表明,具有潜在图表发现的提议框架可以捕获关系并实现改进的拟合和预测性能。
translated by 谷歌翻译
在本文中,我们使用霍克斯过程来模拟失效序列,即压缩机站的事件,并对压缩机站的各种故障事件进行生存分析。然而,到目前为止,几乎所有相关文献的霍克斯点过程都假定条件强度函数的基本强度是时间不变。这种假设显然太苛刻了才能得到验证。例如,在实际应用中,包括财务分析,可靠性分析,生存分析和社会网络分析,真理条件强度函数的基本强度很可能是时变的。恒定基本强度不会反映随时间发生的故障的基本概率。因此,为了解决这个问题,在本文中,我们提出了一种新的时变基强度,例如,来自威布尔分布。首先,我们从Weibull分布介绍基本强度,然后我们通过最大似然估计器提出有效的学习算法。对恒基强度合成数据,时变基本强度合成数据和实际数据的实验表明,我们的方法可以同时和鲁棒地学习鹰过程和时变基强度的触发模式。真实世界数据的实验揭示了不同种类的失败的格兰杰因果关系和随着时间的推移变化的故障基础概率。
translated by 谷歌翻译
提出了一种新的动态网络模型,称为相互刺激的点处理图(MEG)。 MEG是一种可扩展的网络范围统计模型,用于多达数码标记的点进程,可用于评估未来事件的重要事件时,包括以前未观察到的连接的异常检测。该模型组合了互励磁点过程来估计事件和潜在空间模型之间的依赖性,以推断节点之间的关系。每个网络边缘的强度函数专用于节点特定参数参数,允许跨网络共享信息。这种结构甚至可以估计强度,即使对于未被观察的边缘,这在现实世界中尤其重要,例如网络安全中产生的计算机网络。获得了日志似然的递归形式,用于通过现代梯度上升算法推导快速推理过程。也导出了EM算法。该模型在模拟图和现实世界数据集上进行测试,展示出色的性能。
translated by 谷歌翻译
高阶交互事件在现实世界应用中很常见。从这些事件中编码参与者的复杂关系的学习嵌入在知识挖掘和预测任务中至关重要。尽管现有方法取得了成功,例如泊松张量分解,它们忽略了数据基础的稀疏结构,即发生的相互作用远小于所有参与者之间可能的相互作用。在本文中,我们提出了稀疏高阶交互事件(NESH)的非参数嵌入。我们杂交稀疏的超图(张量)过程和一个基质高斯过程,以捕获相互作用中的渐近结构稀疏性和参与者之间的非线性时间关系。我们证明了稀疏性比的强渐近边界(包括较低和上限),这揭示了采样结构的渐近特性。我们使用批界规范化,破坏性结构和稀疏的变分GP近似来开发有效的,可扩展的模型推理算法。我们在几个现实世界应用中证明了方法的优势。
translated by 谷歌翻译
这项工作引入了一种新颖的多变量时间点过程,部分均值行为泊松(PMBP)过程,可以利用以将多变量霍克斯过程适合部分间隔删除的数据,该数据包括在尺寸和间隔子集上的事件时间戳的混合中组成的数据。 - 委员会互补尺寸的事件计数。首先,我们通过其条件强度定义PMBP过程,并导出子临界性的规律性条件。我们展示了鹰过程和MBP过程(Rizoiu等人)是PMBP过程的特殊情况。其次,我们提供了能够计算PMBP过程的条件强度和采样事件历史的数字方案。第三,我们通过使用合成和现实世界数据集来证明PMBP过程的适用性:我们测试PMBP过程的能力,以恢复多变量霍克参数给出鹰过程的样本事件历史。接下来,我们在YouTube流行预测任务上评估PMBP过程,并表明它优于当前最先进的鹰强度过程(Rizoiu等人。(2017b))。最后,在Covid19的策划数据集上,关于国家样本的Covid19每日案例计数和Covid19相关的新闻文章,我们展示了PMBP拟合参数上的聚类使各国的分类能够分类案件和新闻的国家级互动报告。
translated by 谷歌翻译
Hawkes processes have recently risen to the forefront of tools when it comes to modeling and generating sequential events data. Multidimensional Hawkes processes model both the self and cross-excitation between different types of events and have been applied successfully in various domain such as finance, epidemiology and personalized recommendations, among others. In this work we present an adaptation of the Frank-Wolfe algorithm for learning multidimensional Hawkes processes. Experimental results show that our approach has better or on par accuracy in terms of parameter estimation than other first order methods, while enjoying a significantly faster runtime.
translated by 谷歌翻译
Hawkes流程最近从机器学习社区中引起了人们对建模事件序列数据的多功能性的越来越多的关注。尽管它们具有丰富的历史可以追溯到几十年前,但其某些属性(例如用于学习参数的样本复杂性和释放差异化私有版本的样本复杂性)尚未得到彻底的分析。在这项工作中,我们研究了具有背景强度$ \ mu $和激发功能$ \ alpha e^{ - \ beta t} $的标准霍克斯进程。我们提供$ \ mu $和$ \ alpha $的非私人和差异私人估计器,并在两种设置中获得样本复杂性结果以量化隐私成本。我们的分析利用了霍克斯过程的强大混合特性和经典的中央限制定理的结果,结果较弱的随机变量。我们在合成数据集和真实数据集上验证了我们的理论发现。
translated by 谷歌翻译
我们研究了点击流行为中预测在线课程中学生知识获取的问题。通过电子学习讲座交付的激增,我们专注于讲座视频中的学生在视频活动中,由内容和视频测验组成。我们预测视频测验性能的方法基于我们开发的三个关键思路。首先,我们通过在原始事件数据上运行的时间序列学习架构模拟学生的点击行为,而不是定义可能在现有方法中定义手工制作的功能,可能丢失在单击序列内的重要信息。其次,我们开发了一个自我监督的Clickstream预培训,以学习Clickstream事件的信息表示,可以有效地初始化预测模型。第三,我们提出了一种基于聚类的基于元学习的培训,可以优化预测模型,以利用学生点击流序列中的频繁模式集群。通过对三个现实世界数据集的实验,我们证明我们的方法在预测学生的视频测验性能方面的两个基线模型中获得了大量改进。此外,我们通过消融研究验证了我们框架的预培训和元学习组成部分的重要性。最后,我们展示了我们的方法论如何了解与有用的学习分析有用的知识获取相关的视频监视行为的见解。
translated by 谷歌翻译
Mixtures of von Mises-Fisher distributions can be used to cluster data on the unit hypersphere. This is particularly adapted for high-dimensional directional data such as texts. We propose in this article to estimate a von Mises mixture using a l 1 penalized likelihood. This leads to sparse prototypes that improve clustering interpretability. We introduce an expectation-maximisation (EM) algorithm for this estimation and explore the trade-off between the sparsity term and the likelihood one with a path following algorithm. The model's behaviour is studied on simulated data and, we show the advantages of the approach on real data benchmark. We also introduce a new data set on financial reports and exhibit the benefits of our method for exploratory analysis.
translated by 谷歌翻译
任何人类活动都可以表示为实现某个目标的行动的时间顺序。与机器制造的时间序列不同,这些动作序列是高度分散的,因为在不同的人之间完成类似动作的时间可能会有所不同。因此,了解这些序列的动力学对于许多下游任务,例如活动长度预测,目标预测等都是必不可少的。对活动序列建模的现有神经方法要么仅限于视觉数据,要么是特定于任务的神经方法,即仅限于下一个动作或目标预测。在本文中,我们提出了积极主动的,是一个神经标记的时间点过程(MTPP)框架,用于建模活动序列中的动作连续时间分布,同时解决三个高影响力问题 - 下一步动作预测,序列 - 目标预测,序列预测,和端到端序列生成。具体而言,我们利用具有时间归一化流量的自我发项模块来模拟序列中的动作之间的影响和到达时间间的时间。此外,对于时间敏感的预测,我们通过基于边缘的优化程序进行了序列目标的早期检测。这种往返允许积极主动使用有限数量的动作来预测序列目标。从三个活动识别数据集得出的序列进行的广泛实验表明,在动作和目标预测方面,主动的准确性提升了,并且是有史以来第一次应用端到端动作序列生成的实验。
translated by 谷歌翻译
随机块模型(SBM)是用于网络数据最广泛使用的生成模型之一。鉴于块或社区成员身份,许多连续的动态网络模型都建立在与SBM相同的假设上:有条件地有条件地独立在真实网络中观察到。我们提出了多元社区霍克斯(Mulch)模型,这是一种非常灵活的基于社区的模型,用于连续时间网络,使用结构化的多元霍克斯工艺在节点对之间引入依赖性。我们使用基于光谱聚类和基于可能性的本地改进程序拟合模型。我们发现,我们所提出的覆盖模型比在预测和生成任务中都比现有模型更准确。
translated by 谷歌翻译
学习时空事件的动态是一个根本的问题。神经点过程提高了与深神经网络的点过程模型的表现。但是,大多数现有方法只考虑没有空间建模的时间动态。我们提出了深蓝点过程(DeepStpp),这是一款整合时空点流程的深层动力学模型。我们的方法灵活,高效,可以在空间和时间准确地预测不规则采样的事件。我们方法的关键构造是非参数时空强度函数,由潜在过程管理。强度函数享有密度的闭合形式集成。潜在进程捕获事件序列的不确定性。我们使用摊销变分推理来推断使用深网络的潜在进程。使用合成数据集,我们验证我们的模型可以准确地学习真实的强度函数。在真实世界的基准数据集上,我们的模型展示了最先进的基线的卓越性能。
translated by 谷歌翻译
Predicting discrete events in time and space has many scientific applications, such as predicting hazardous earthquakes and outbreaks of infectious diseases. History-dependent spatio-temporal Hawkes processes are often used to mathematically model these point events. However, previous approaches have faced numerous challenges, particularly when attempting to forecast one or multiple future events. In this work, we propose a new neural architecture for multi-event forecasting of spatio-temporal point processes, utilizing transformers, augmented with normalizing flows and probabilistic layers. Our network makes batched predictions of complex history-dependent spatio-temporal distributions of future discrete events, achieving state-of-the-art performance on a variety of benchmark datasets including the South California Earthquakes, Citibike, Covid-19, and Hawkes synthetic pinwheel datasets. More generally, we illustrate how our network can be applied to any dataset of discrete events with associated markers, even when no underlying physics is known.
translated by 谷歌翻译
近几十年来,技术进步使得可以收集大数据集。在这种情况下,基于模型的群集是一种非常流行的,灵活和可解释的方法,用于在明确定义的统计框架中进行数据探索。大型数据集的增加之一是缺失值更频繁。但是,传统方式(由于丢弃具有缺失的值或估算方法的观察)不是为聚类目的而设计的。此外,它们很少适用于常规情况,虽然在实践中频繁地缺失,但是当缺失取决于未观察到的数据值时,缺失就缺失(mnar)值,而且可能在观察到的数据值上。本文的目标是通过直接在基于模型的聚类算法内嵌入MNAR数据来提出一种新的方法。我们为数据和缺失数据指示器的联合分布进行了选择模型。它对应于数据分布的混合模型和缺失数据机制的一般Mnar模型,其可以取决于底层类(未知)和/或缺失变量本身的值。导出大量有意义的MNAR子模型,对每个子模型研究了参数的可识别性,这通常是任何MNAR提案的关键问题。考虑EM和随机EM算法估计。最后,我们对合成数据的提议子模型进行了实证评估,我们说明了我们的方法对医疗寄存器的方法,创伤者(R)数据集。
translated by 谷歌翻译
Neyman-Scott过程是COX过程的特殊情况。潜在和可观察的随机过程均为泊松过程。我们考虑了本文的深度Neyman-Scott过程,其中网络的建筑组件是所有泊松过程。我们通过Markov Chain Monte Carlo开发了一种高效的后部抽样,并使用它来实现基于可能性的推断。我们的方法为复杂的分层点流程推断出来的空间。我们在实验中展示了更多隐藏的泊松过程为似然拟合和事件类型预测带来了更好的性能。我们还将我们的方法与最先进的模式进行了用于时间现实世界数据集的方法,并使用较少的参数展示数据拟合和预测的竞争能力。
translated by 谷歌翻译
时间序列的建模在各种应用中变得越来越重要。总体而言,数据通过遵循不同的模式而演变,这些模式通常是由不同的用户行为引起的。给定时间序列,我们定义了进化基因以捕获潜在用户行为,并描述行为如何导致时间序列的产生。特别是,我们提出了一个统一的框架,该框架通过学习分类器来识别片段的不同演化基因,并通过估计片段的分布来实现对抗发电机来实现进化基因。基于合成数据集和五个现实世界数据集的实验结果表明,我们的方法不仅可以实现良好的预测结果(例如,在F1方面 +10.56%),还可以提供结果的解释。
translated by 谷歌翻译
Hypergraphs, encoding structured interactions among any number of system units, have recently proven a successful tool to describe many real-world biological and social networks. Here we propose a framework based on statistical inference to characterize the structural organization of hypergraphs. The method allows to infer missing hyperedges of any size in a principled way, and to jointly detect overlapping communities in presence of higher-order interactions. Furthermore, our model has an efficient numerical implementation, and it runs faster than dyadic algorithms on pairwise records projected from higher-order data. We apply our method to a variety of real-world systems, showing strong performance in hyperedge prediction tasks, detecting communities well aligned with the information carried by interactions, and robustness against addition of noisy hyperedges. Our approach illustrates the fundamental advantages of a hypergraph probabilistic model when modeling relational systems with higher-order interactions.
translated by 谷歌翻译