网络慷慨地,相似节点的趋势和传递性,连接两个节点的趋势如果它们共享公共邻居,则在网络分析中被混为特性,因为一个机制可以驱动另一个机制。在这里,我们提出了一种能够区分两个机制的生成模型和相应的推理过程。我们的方法基于随机块模型(SBM)的变化,增加了三合一封闭边缘,其推断可以识别负责网络中每个边缘存在的最合理的机制,以及基础社区结构本身。我们展示该方法如何避免通过网络中的三角形形成的单独引起的虚假社区的检测,以及它在与没有三合会的纯版本的纯版本相比,如何提高边缘预测的性能。
translated by 谷歌翻译
社区检测是网络科学中最重要的方法领域之一,在过去的几十年里引起了大量关注的方法之一。该区域处理网络的自动部门到基础构建块中,目的是提供其大规模结构的概要。尽管它的重要性和广泛的采用普及,所谓的最先进和实际在各种领域实际使用的方法之间存在明显的差距。在这里,我们试图通过根据是否具有“描述性”或“推论”目标来划分现有方法来解决这种差异。虽然描述性方法在基于社区结构的直观概念的网络中找到模式的模式,但是推理方法阐述了精确的生成模型,并尝试将其符合数据。通过这种方式,他们能够为网络形成机制提供见解,并以统计证据支持的方式与随机性的单独结构。我们审查如何使用推论目标采用描述性方法被陷入困境和误导性答案,因此应该一般而言。我们认为推理方法更通常与更清晰的科学问题一致,产生更强大的结果,并且应该是一般的首选。我们试图消除一些神话和半真半假在实践中使用社区检测时,努力改善这些方法的使用以及对结果的解释。
translated by 谷歌翻译
我们对跨越各个领域的多种域的275个经验网络的随机块模型(SBM)的拟合质量和尺寸幅度的订单进行系统分析。我们采用后预测模型检查作为评估拟合质量的标准,这涉及根据一组网络描述符比较由经验网络的推断模型生成的网络。我们观察到SBM能够为大多数网络提供准确的描述,但缺乏所有建模要求。特别地,具有大直径和慢速混合随机步道的网络往往由SBM非常赘言。然而,与经常假设的相反,在许多情况下,SBM可以很好地描述具有高丰度三角形的网络。我们证明,简单的网络描述符可用于评估SBM是否可以提供足够准确的表示,可能指向可以系统地提高这类模型的表现力的可能模型扩展。
translated by 谷歌翻译
标记的网络是一类重要的数据,天然出现在科学和工程的许多应用中。典型推断目标是确定顶点标签(或特征)如何影响网络结构。在这项工作中,我们介绍了一个新的生成模型,该模型是第一个块模型(FFBM),这有助于在标记的网络上使用丰富的查询。我们开发贝叶斯框架并设计了两级马尔可夫链蒙特卡罗方法,以有效地研究FFBM参数的相关后部分布。这允许我们推断出观察到的顶点特征如何影响宏结构。我们将所提出的方法应用于各种网络数据以提取顶点被分区的最重要的功能。所提出的方法的主要优点是自动使用整个特征空间,并且可以根据影响自由地对该特征进行排序。
translated by 谷歌翻译
社区检测和层级提取通常被认为是网络上的单独推理任务。考虑到研究真实数据时只有其中一个可以是一种过度简化。在这项工作中,我们提出了一种基于社区和分层结构之间的相互作用的生成模型。它假设每个节点在交互机制中的偏好和具有相同偏好的节点更有可能相互作用,而仍然允许异构交互。算法实现是有效的,因为它利用网络数据集的稀疏性。我们展示了我们对综合和实世界数据的方法,并比较了与社区检测和排名提取的两个标准方法的性能。我们发现该算法在不同场景中准确地检索每个节点的偏好,我们表明它可以区分表现出与大多数不同的节点的小子集。结果,该模型可以识别网络是否具有整体优选的交互机制。这在没有明确的“先验”信息的情况下是相关的,关于结构良好地解释了观察到的网络数据集。我们的模型允许从业者自动从数据中学习。
translated by 谷歌翻译
The stochastic block model (SBM) is a random graph model with planted clusters. It is widely employed as a canonical model to study clustering and community detection, and provides generally a fertile ground to study the statistical and computational tradeoffs that arise in network and data sciences.This note surveys the recent developments that establish the fundamental limits for community detection in the SBM, both with respect to information-theoretic and computational thresholds, and for various recovery requirements such as exact, partial and weak recovery (a.k.a., detection). The main results discussed are the phase transitions for exact recovery at the Chernoff-Hellinger threshold, the phase transition for weak recovery at the Kesten-Stigum threshold, the optimal distortion-SNR tradeoff for partial recovery, the learning of the SBM parameters and the gap between information-theoretic and computational thresholds.The note also covers some of the algorithms developed in the quest of achieving the limits, in particular two-round algorithms via graph-splitting, semi-definite programming, linearized belief propagation, classical and nonbacktracking spectral methods. A few open problems are also discussed.
translated by 谷歌翻译
随机块模型(SBM)是一个随机图模型,其连接不同的顶点组不同。它被广泛用作研究聚类和社区检测的规范模型,并提供了肥沃的基础来研究组合统计和更普遍的数据科学中出现的信息理论和计算权衡。该专着调查了最近在SBM中建立社区检测的基本限制的最新发展,无论是在信息理论和计算方案方面,以及各种恢复要求,例如精确,部分和弱恢复。讨论的主要结果是在Chernoff-Hellinger阈值中进行精确恢复的相转换,Kesten-Stigum阈值弱恢复的相变,最佳的SNR - 单位信息折衷的部分恢复以及信息理论和信息理论之间的差距计算阈值。该专着给出了在寻求限制时开发的主要算法的原则推导,特别是通过绘制绘制,半定义编程,(线性化)信念传播,经典/非背带频谱和图形供电。还讨论了其他块模型的扩展,例如几何模型和一些开放问题。
translated by 谷歌翻译
我们介绍了一个新型的多层加权网络模型,该模型除了本地信号外,还考虑了全局噪声。该模型类似于多层随机块模型(SBM),但关键区别在于,跨层之间的块之间的相互作用在整个系统中是常见的,我们称之为环境噪声。单个块还以这些固定的环境参数为特征,以表示不属于其他任何地方的成员。这种方法允许将块同时聚类和类型化到信号或噪声中,以便更好地理解其在整个系统中的作用,而现有块模型未考虑。我们采用了分层变异推断的新颖应用来共同检测和区分块类型。我们称此模型为多层加权网络称为随机块(具有)环境噪声模型(SBANM),并开发了相关的社区检测算法。我们将此方法应用于费城神经发育队列中的受试者,以发现与精神病有关的具有共同心理病理学的受试者社区。
translated by 谷歌翻译
Stochastic blockmodels have been proposed as a tool for detecting community structure in networks as well as for generating synthetic networks for use as benchmarks. Most blockmodels, however, ignore variation in vertex degree, making them unsuitable for applications to real-world networks, which typically display broad degree distributions that can significantly distort the results.Here we demonstrate how the generalization of blockmodels to incorporate this missing element leads to an improved objective function for community detection in complex networks. We also propose a heuristic algorithm for community detection using this objective function or its non-degree-corrected counterpart and show that the degree-corrected version dramatically outperforms the uncorrected one in both real-world and synthetic networks.
translated by 谷歌翻译
我们提出了对学度校正随机块模型(DCSBM)的合适性测试。该测试基于调整后的卡方统计量,用于测量$ n $多项式分布的组之间的平等性,该分布具有$ d_1,\ dots,d_n $观测值。在网络模型的背景下,多项式的数量($ n $)的数量比观测值数量($ d_i $)快得多,与节点$ i $的度相对应,因此设置偏离了经典的渐近学。我们表明,只要$ \ {d_i \} $的谐波平均值生长到无穷大,就可以使统计量在NULL下分配。顺序应用时,该测试也可以用于确定社区数量。该测试在邻接矩阵的压缩版本上进行操作,因此在学位上有条件,因此对大型稀疏网络具有高度可扩展性。我们结合了一个新颖的想法,即在测试$ K $社区时根据$(k+1)$ - 社区分配来压缩行。这种方法在不牺牲计算效率的情况下增加了顺序应用中的力量,我们证明了它在恢复社区数量方面的一致性。由于测试统计量不依赖于特定的替代方案,因此其效用超出了顺序测试,可用于同时测试DCSBM家族以外的各种替代方案。特别是,我们证明该测试与具有社区结构的潜在可变性网络模型的一般家庭一致。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
图形嵌入是将网络的节点转换为一组向量。良好的嵌入应捕获底层图形拓扑和结构,节点到节点关系以及图形,其子图和节点的其他相关信息。如果实现了这些目标,则嵌入是网络的有意义,可以理解的,通常是压缩的。不幸的是,选择最好的嵌入是一个具有挑战性的任务,并且通常需要域名专家。在本文中,我们扩展了评估作者最近引入的图形嵌入的框架。现在,该框架为每个嵌入的嵌入分配两个分数,本地和全局,测量评估嵌入的嵌入的质量,以便分别需要良好地表示网络的全局属性。如果需要,最好的嵌入可以以无监督的方式选择,或者框架可以识别一些值得进一步调查的少数嵌入。该框架灵活,可扩展,可以处理无向/定向,加权/未加权图。
translated by 谷歌翻译
通常,使用网络编码在物理,生物,社会和信息科学中应用程序中复杂系统中实体之间的交互体系结构。为了研究复杂系统的大规模行为,研究网络中的中尺度结构是影响这种行为的构件。我们提出了一种新方法来描述网络中的低率中尺度结构,并使用多种合成网络模型和经验友谊,协作和蛋白质 - 蛋白质相互作用(PPI)网络说明了我们的方法。我们发现,这些网络拥有相对较少的“潜在主题”,可以成功地近似固定的中尺度上网络的大多数子图。我们使用一种称为“网络词典学习”(NDL)的算法,该算法结合了网络采样方法和非负矩阵分解,以学习给定网络的潜在主题。使用一组潜在主题对网络进行编码的能力具有多种应用于网络分析任务的应用程序,例如比较,降解和边缘推理。此外,使用我们的新网络去核和重建(NDR)算法,我们演示了如何通过仅使用直接从损坏的网络中学习的潜在主题来贬低损坏的网络。
translated by 谷歌翻译
We consider an approach for community detection in time-varying networks. At its core, this approach maintains a small sketch graph to capture the essential community structure found in each snapshot of the full network. We demonstrate how the sketch can be used to explicitly identify six key community events which typically occur during network evolution: growth, shrinkage, merging, splitting, birth and death. Based on these detection techniques, we formulate a community detection algorithm which can process a network concurrently exhibiting all processes. One advantage afforded by the sketch-based algorithm is the efficient handling of large networks. Whereas detecting events in the full graph may be computationally expensive, the small size of the sketch allows changes to be quickly assessed. A second advantage occurs in networks containing clusters of disproportionate size. The sketch is constructed such that there is equal representation of each cluster, thus reducing the possibility that the small clusters are lost in the estimate. We present a new standardized benchmark based on the stochastic block model which models the addition and deletion of nodes, as well as the birth and death of communities. When coupled with existing benchmarks, this new benchmark provides a comprehensive suite of tests encompassing all six community events. We provide analysis and a set of numerical results demonstrating the advantages of our approach both in run time and in the handling of small clusters.
translated by 谷歌翻译
许多复杂网络的结构包括其拓扑顶部的边缘方向性和权重。可以无缝考虑这些属性组合的网络分析是可取的。在本文中,我们研究了两个重要的这样的网络分析技术,即中心和聚类。采用信息流基于集群的模型,该模型本身就是在计算中心的信息定理措施时构建。我们的主要捐款包括马尔可夫熵中心的广义模型,灵活地调整节点度,边缘权重和方向的重要性,具有闭合形式的渐近分析。它导致一种新颖的两级图形聚类算法。中心分析有助于推理我们对给定图形的方法的适用性,并确定探索当地社区结构的“查询”节点,从而导致群集聚类机制。熵中心计算由我们的聚类算法摊销,使其计算得高效:与使用马尔可夫熵中心为聚类的先前方法相比,我们的实验表明了多个速度的速度。我们的聚类算法自然地继承了适应边缘方向性的灵活性,以及​​边缘权重和节点度之间的不同解释和相互作用。总的来说,本文不仅具有显着的理论和概念贡献,还转化为实际相关性的文物,产生新的,有效和可扩展的中心计算和图形聚类算法,其有效通过广泛的基准测试进行了验证。
translated by 谷歌翻译
网络邻接矩阵的光谱嵌入通常产生大约围绕低维子纤维结构的节点表示。特别地,当从潜在位置模型产生图表时,期望隐藏的子结构出现。此外,网络内的社区存在可能在嵌入中生成特定的特定社区的子多种结构,但是在网络的大多数统计模型中,这不明确地解释。在本文中,提出了一类称为潜在结构块模型(LSBM)的模型来解决这种情况,允许在存在社区特定的一维歧管结构时允许图形聚类。 LSBMS专注于特定的潜伏空间模型,随机点产品图(RDPG),并为每个社区的潜在位置分配潜在的子多种。讨论了来自LSBMS引起的嵌入式的贝叶斯模型,并显示在模拟和现实世界网络数据上具有良好的性能。该模型能够正确地恢复生活在一维歧管中的底层社区,即使当底层曲线的参数形式未知,也可以在各种实际数据上实现显着的结果。
translated by 谷歌翻译
Pre-publication draft of a book to be published byMorgan & Claypool publishers. Unedited version released with permission. All relevant copyrights held by the author and publisher extend to this pre-publication draft.
translated by 谷歌翻译
Network-based analyses of dynamical systems have become increasingly popular in climate science. Here we address network construction from a statistical perspective and highlight the often ignored fact that the calculated correlation values are only empirical estimates. To measure spurious behaviour as deviation from a ground truth network, we simulate time-dependent isotropic random fields on the sphere and apply common network construction techniques. We find several ways in which the uncertainty stemming from the estimation procedure has major impact on network characteristics. When the data has locally coherent correlation structure, spurious link bundle teleconnections and spurious high-degree clusters have to be expected. Anisotropic estimation variance can also induce severe biases into empirical networks. We validate our findings with ERA5 reanalysis data. Moreover we explain why commonly applied resampling procedures are inappropriate for significance evaluation and propose a statistically more meaningful ensemble construction framework. By communicating which difficulties arise in estimation from scarce data and by presenting which design decisions increase robustness, we hope to contribute to more reliable climate network construction in the future.
translated by 谷歌翻译
A common approach to modeling networks assigns each node to a position on a low-dimensional manifold where distance is inversely proportional to connection likelihood. More positive manifold curvature encourages more and tighter communities; negative curvature induces repulsion. We consistently estimate manifold type, dimension, and curvature from simply connected, complete Riemannian manifolds of constant curvature. We represent the graph as a noisy distance matrix based on the ties between cliques, then develop hypothesis tests to determine whether the observed distances could plausibly be embedded isometrically in each of the candidate geometries. We apply our approach to data-sets from economics and neuroscience.
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译