随机块模型(SBM)是用于网络数据最广泛使用的生成模型之一。鉴于块或社区成员身份,许多连续的动态网络模型都建立在与SBM相同的假设上:有条件地有条件地独立在真实网络中观察到。我们提出了多元社区霍克斯(Mulch)模型,这是一种非常灵活的基于社区的模型,用于连续时间网络,使用结构化的多元霍克斯工艺在节点对之间引入依赖性。我们使用基于光谱聚类和基于可能性的本地改进程序拟合模型。我们发现,我们所提出的覆盖模型比在预测和生成任务中都比现有模型更准确。
translated by 谷歌翻译
网络和时间点过程是建模各个领域中复杂动态关系数据的基本构件。我们建议使用节点的潜在空间表示形式,提出了潜在空间鹰队(LSH)模型,这是一种连续时间的关系网络的新型生成模型。我们使用共同令人兴奋的霍克斯工艺在节点之间建模关系事件,其基线强度取决于潜在空间中的节点与发件人和接收器特定效果之间的距离。我们证明,我们提出的LSH模型可以复制在包括互惠和传递性在内的真实时间网络中观察到的许多功能,同时还可以实现卓越的预测准确性并提供比现有模型更明显的拟合。
translated by 谷歌翻译
提出了一种新的动态网络模型,称为相互刺激的点处理图(MEG)。 MEG是一种可扩展的网络范围统计模型,用于多达数码标记的点进程,可用于评估未来事件的重要事件时,包括以前未观察到的连接的异常检测。该模型组合了互励磁点过程来估计事件和潜在空间模型之间的依赖性,以推断节点之间的关系。每个网络边缘的强度函数专用于节点特定参数参数,允许跨网络共享信息。这种结构甚至可以估计强度,即使对于未被观察的边缘,这在现实世界中尤其重要,例如网络安全中产生的计算机网络。获得了日志似然的递归形式,用于通过现代梯度上升算法推导快速推理过程。也导出了EM算法。该模型在模拟图和现实世界数据集上进行测试,展示出色的性能。
translated by 谷歌翻译
网络研究中最根本的问题之一是社区检测。随机块模型(SBM)是一种流行的模型,具有不同的估计方法,其社区检测一致性结果揭晓。但是,SBM受到强烈假设的限制:同一社区中的所有节点在随机上都是等效的,这可能不适合实际应用。我们引入了成对协变量调整后的随机块模型(PCABM),这是SBM的概括,该模型包含成对协变量信息。我们研究协变量和社区分配系数的最大似然估计。结果表明,在适当的稀疏条件下,协变量和社区分配的系数估计均一致。引入了带有调节的光谱聚类(SCWA),以有效地求解PCABM。在某些条件下,我们得出了SCWA下社区检测的错误限制,并表明它是社区检测一致的。此外,研究了模型的选择,并研究了成对协变量的特征选择,并提出了两种相应的算法。当可访问协变量信息时,PCABM与SBM或学位校正的随机块模型(DCBM)进行比较。
translated by 谷歌翻译
这项工作引入了一种新颖的多变量时间点过程,部分均值行为泊松(PMBP)过程,可以利用以将多变量霍克斯过程适合部分间隔删除的数据,该数据包括在尺寸和间隔子集上的事件时间戳的混合中组成的数据。 - 委员会互补尺寸的事件计数。首先,我们通过其条件强度定义PMBP过程,并导出子临界性的规律性条件。我们展示了鹰过程和MBP过程(Rizoiu等人)是PMBP过程的特殊情况。其次,我们提供了能够计算PMBP过程的条件强度和采样事件历史的数字方案。第三,我们通过使用合成和现实世界数据集来证明PMBP过程的适用性:我们测试PMBP过程的能力,以恢复多变量霍克参数给出鹰过程的样本事件历史。接下来,我们在YouTube流行预测任务上评估PMBP过程,并表明它优于当前最先进的鹰强度过程(Rizoiu等人。(2017b))。最后,在Covid19的策划数据集上,关于国家样本的Covid19每日案例计数和Covid19相关的新闻文章,我们展示了PMBP拟合参数上的聚类使各国的分类能够分类案件和新闻的国家级互动报告。
translated by 谷歌翻译
我们提出了对学度校正随机块模型(DCSBM)的合适性测试。该测试基于调整后的卡方统计量,用于测量$ n $多项式分布的组之间的平等性,该分布具有$ d_1,\ dots,d_n $观测值。在网络模型的背景下,多项式的数量($ n $)的数量比观测值数量($ d_i $)快得多,与节点$ i $的度相对应,因此设置偏离了经典的渐近学。我们表明,只要$ \ {d_i \} $的谐波平均值生长到无穷大,就可以使统计量在NULL下分配。顺序应用时,该测试也可以用于确定社区数量。该测试在邻接矩阵的压缩版本上进行操作,因此在学位上有条件,因此对大型稀疏网络具有高度可扩展性。我们结合了一个新颖的想法,即在测试$ K $社区时根据$(k+1)$ - 社区分配来压缩行。这种方法在不牺牲计算效率的情况下增加了顺序应用中的力量,我们证明了它在恢复社区数量方面的一致性。由于测试统计量不依赖于特定的替代方案,因此其效用超出了顺序测试,可用于同时测试DCSBM家族以外的各种替代方案。特别是,我们证明该测试与具有社区结构的潜在可变性网络模型的一般家庭一致。
translated by 谷歌翻译
Networks have become indispensable and ubiquitous structures in many fields to model the interactions among different entities, such as friendship in social networks or protein interactions in biological graphs. A major challenge is to understand the structure and dynamics of these systems. Although networks evolve through time, most existing graph representation learning methods target only static networks. Whereas approaches have been developed for the modeling of dynamic networks, there is a lack of efficient continuous time dynamic graph representation learning methods that can provide accurate network characterization and visualization in low dimensions while explicitly accounting for prominent network characteristics such as homophily and transitivity. In this paper, we propose the Piecewise-Velocity Model (PiVeM) for the representation of continuous-time dynamic networks. It learns dynamic embeddings in which the temporal evolution of nodes is approximated by piecewise linear interpolations based on a latent distance model with piecewise constant node-specific velocities. The model allows for analytically tractable expressions of the associated Poisson process likelihood with scalable inference invariant to the number of events. We further impose a scalable Kronecker structured Gaussian Process prior to the dynamics accounting for community structure, temporal smoothness, and disentangled (uncorrelated) latent embedding dimensions optimally learned to characterize the network dynamics. We show that PiVeM can successfully represent network structure and dynamics in ultra-low two-dimensional spaces. It outperforms relevant state-of-art methods in downstream tasks such as link prediction. In summary, PiVeM enables easily interpretable dynamic network visualizations and characterizations that can further improve our understanding of the intrinsic dynamics of time-evolving networks.
translated by 谷歌翻译
我们介绍了一个新型的多层加权网络模型,该模型除了本地信号外,还考虑了全局噪声。该模型类似于多层随机块模型(SBM),但关键区别在于,跨层之间的块之间的相互作用在整个系统中是常见的,我们称之为环境噪声。单个块还以这些固定的环境参数为特征,以表示不属于其他任何地方的成员。这种方法允许将块同时聚类和类型化到信号或噪声中,以便更好地理解其在整个系统中的作用,而现有块模型未考虑。我们采用了分层变异推断的新颖应用来共同检测和区分块类型。我们称此模型为多层加权网络称为随机块(具有)环境噪声模型(SBANM),并开发了相关的社区检测算法。我们将此方法应用于费城神经发育队列中的受试者,以发现与精神病有关的具有共同心理病理学的受试者社区。
translated by 谷歌翻译
本文研究了由$ N $-$ N $ TCONOR代表的非二进制对交互估计的社区成员资格,其值为$ \ MATHCAL S $的元素,其中$ N $是节点的数量和$ \ Mathcal S $是节点之间的成对交互的空间。作为信息理论基准,我们研究由非二进制随机块模型生成的数据集,并导致社区成员资格的基本信息标准作为$ n \ to \ idty $。应用程序的示例包括加权网络($ \ mathcal s = \ mathbb r $),链接标记的网络$(\ mathcal s = \ {0,1,1,\ dots,l \} $),多路复用网络$(\ mathcal s = \ {0,1 \} ^ m $)和时间网络($ \ mathcal s = \ {0,1 \} ^ t $)。对于时间互动,我们表明(i)即使是$ t $的少数增加也可能对社区成员的恢复产生了很大影响,(ii)即使对于非常稀疏的数据(例如\ in in inverly degress),甚至可能存在一致的恢复$ t $足够大。我们还提供了几种离线和在线的估计算法,它充分利用了观察到的数据的时间性。我们在数据稀疏性和可识别性的各种假设下分析所提出的估计算法的准确性。数值实验表明,即使是社区分配的初始估计(例如,盲目随机猜测)也会导致在少量迭代之后通过在线算法获得的高精度,并且在非常稀疏的方案中也是如此。
translated by 谷歌翻译
在几个科学学科中,建模对网络连接个体结果的社会影响是一个中心研究问题。但是,网络影响无法从观察数据中鉴定出来,因为它与未观察到的同质性混淆。我们提出了一种潜在的同质调整后的空间自回归模型(SAR),以识别因果传播效应。潜在同质性是根据网络邻接矩阵的光谱嵌入来估计的。当通过误差测量协变量时,我们进一步开发了SAR模型参数的最大似然估计器。偏置校正的MLE具有统计一致性和渐进式性能。我们将估计的潜在同质性与SAR模型中的偏差校正MLE相结合,以估计网络影响。我们的模拟表明,这些方法在有限样品中的性能很好。将我们的方法应用于治疗界(TC)中女性犯罪犯罪者的数据集,我们提供了网络对TC毕业的影响的因果估计。
translated by 谷歌翻译
A common approach to modeling networks assigns each node to a position on a low-dimensional manifold where distance is inversely proportional to connection likelihood. More positive manifold curvature encourages more and tighter communities; negative curvature induces repulsion. We consistently estimate manifold type, dimension, and curvature from simply connected, complete Riemannian manifolds of constant curvature. We represent the graph as a noisy distance matrix based on the ties between cliques, then develop hypothesis tests to determine whether the observed distances could plausibly be embedded isometrically in each of the candidate geometries. We apply our approach to data-sets from economics and neuroscience.
translated by 谷歌翻译
现代医疗保健系统正在对电子病历(EMR)进行连续自动监视,以识别频率越来越多的不良事件;但是,许多败血症等事件都没有明确阐明前瞻性(即事件链),可用于识别和拦截它的早期不良事件。目前,尚无可靠的框架来发现或描述不良医院事件之前的因果链。临床上相关和可解释的结果需要一个框架,可以(1)推断在EMR数据中发现的多个患者特征(例如,实验室,生命体征等)中的时间相互作用,并且(2)可以识别(s)的模式(s)。到即将发生的不良事件(例如,败血症)。在这项工作中,我们提出了一个线性多元霍克斯进程模型,并与$ g(x)= x^+$链接函数结合起来允许潜在的抑制作用,以恢复Granger Causal(GC)图。我们开发了一个基于两阶段的方案,以最大程度地提高可能性的替代品以估计问题参数。该两相算法可扩展,并通过我们的数值模拟显示有效。随后将其扩展到佐治亚州亚特兰大的Grady医院系统的患者数据集,在那里,合适的Granger Causal图识别出败血症之前的几个高度可解释的链。
translated by 谷歌翻译
Kidney transplantation is the preferred treatment for people suffering from end-stage renal disease. Successful kidney transplants still fail over time, known as graft failure; however, the time to graft failure, or graft survival time, can vary significantly between different recipients. A significant biological factor affecting graft survival times is the compatibility between the human leukocyte antigens (HLAs) of the donor and recipient. We propose to model HLA compatibility using a network, where the nodes denote different HLAs of the donor and recipient, and edge weights denote compatibilities of the HLAs, which can be positive or negative. The network is indirectly observed, as the edge weights are estimated from transplant outcomes rather than directly observed. We propose a latent space model for such indirectly-observed weighted and signed networks. We demonstrate that our latent space model can not only result in more accurate estimates of HLA compatibilities, but can also be incorporated into survival analysis models to improve accuracy for the downstream task of predicting graft survival times.
translated by 谷歌翻译
网络慷慨地,相似节点的趋势和传递性,连接两个节点的趋势如果它们共享公共邻居,则在网络分析中被混为特性,因为一个机制可以驱动另一个机制。在这里,我们提出了一种能够区分两个机制的生成模型和相应的推理过程。我们的方法基于随机块模型(SBM)的变化,增加了三合一封闭边缘,其推断可以识别负责网络中每个边缘存在的最合理的机制,以及基础社区结构本身。我们展示该方法如何避免通过网络中的三角形形成的单独引起的虚假社区的检测,以及它在与没有三合会的纯版本的纯版本相比,如何提高边缘预测的性能。
translated by 谷歌翻译
社区检测是网络科学中最重要的方法领域之一,在过去的几十年里引起了大量关注的方法之一。该区域处理网络的自动部门到基础构建块中,目的是提供其大规模结构的概要。尽管它的重要性和广泛的采用普及,所谓的最先进和实际在各种领域实际使用的方法之间存在明显的差距。在这里,我们试图通过根据是否具有“描述性”或“推论”目标来划分现有方法来解决这种差异。虽然描述性方法在基于社区结构的直观概念的网络中找到模式的模式,但是推理方法阐述了精确的生成模型,并尝试将其符合数据。通过这种方式,他们能够为网络形成机制提供见解,并以统计证据支持的方式与随机性的单独结构。我们审查如何使用推论目标采用描述性方法被陷入困境和误导性答案,因此应该一般而言。我们认为推理方法更通常与更清晰的科学问题一致,产生更强大的结果,并且应该是一般的首选。我们试图消除一些神话和半真半假在实践中使用社区检测时,努力改善这些方法的使用以及对结果的解释。
translated by 谷歌翻译
The stochastic block model (SBM) is a random graph model with planted clusters. It is widely employed as a canonical model to study clustering and community detection, and provides generally a fertile ground to study the statistical and computational tradeoffs that arise in network and data sciences.This note surveys the recent developments that establish the fundamental limits for community detection in the SBM, both with respect to information-theoretic and computational thresholds, and for various recovery requirements such as exact, partial and weak recovery (a.k.a., detection). The main results discussed are the phase transitions for exact recovery at the Chernoff-Hellinger threshold, the phase transition for weak recovery at the Kesten-Stigum threshold, the optimal distortion-SNR tradeoff for partial recovery, the learning of the SBM parameters and the gap between information-theoretic and computational thresholds.The note also covers some of the algorithms developed in the quest of achieving the limits, in particular two-round algorithms via graph-splitting, semi-definite programming, linearized belief propagation, classical and nonbacktracking spectral methods. A few open problems are also discussed.
translated by 谷歌翻译
霍克斯过程是一类特殊的时间点过程,表现出自然的因果关系,因为过去事件的发生可能会增加未来事件的可能性。在多维时间过程的维度之间发现潜在影响网络在学科中至关重要,在这些学科中,高频数据将模拟,例如在财务数据或地震数据中。本文处理了多维鹰派过程中学习Granger-Causal网络的问题。我们将此问题提出为模型选择任务,其中我们遵循最小描述长度(MDL)原理。此外,我们建议使用蒙特卡洛方法提出一种用于基于MDL的推理的一般算法,并将其用于因果发现问题。我们将算法与关于合成和现实世界财务数据的最新基线方法进行了比较。合成实验表明,与基线方法相比,与数据尺寸相比,我们方法不可能的图形发现的优势。 G-7债券价格数据的实验结果与专家知识一致。
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
光谱聚类是网络中广泛使用的社区检测方法之一。然而,大型网络为其中的特征值分解带来了计算挑战。在本文中,我们研究了从统计角度使用随机草图算法的光谱聚类,在那里我们通常假设网络数据是从随机块模型生成的,这些模型不一定是完整等级的。为此,我们首先使用最近开发的草图算法来获得两个随机谱聚类算法,即基于随机投影和基于随机采样的光谱聚类。然后,我们在群体邻接矩阵的近似误差,错误分类误差和链路概率矩阵的估计误差方面研究得到的算法的理论界限。事实证明,在温和条件下,随机谱聚类算法导致与原始光谱聚类算法相同的理论界。我们还将结果扩展到校正的程度校正的随机块模型。数值实验支持我们的理论发现并显示随机化方法的效率。一个名为rclusct的新R包是开发的,并提供给公众。
translated by 谷歌翻译
时间图代表实体之间的动态关系,并发生在许多现实生活中的应用中,例如社交网络,电子商务,通信,道路网络,生物系统等。他们需要根据其生成建模和表示学习的研究超出与静态图有关的研究。在这项调查中,我们全面回顾了近期针对处理时间图提出的神经时间依赖图表的学习和生成建模方法。最后,我们确定了现有方法的弱点,并讨论了我们最近发表的论文提格的研究建议[24]。
translated by 谷歌翻译