我们在一般随机块模型下研究现实网络中的社区层次结构,其中连接概率在二叉树中构造。在这种模型中,标准递归双分区算法基于非通知图拉普拉斯的Fiedler向量将网络分成两个社区,并重复分割,直到停止规则指示不进一步的社区结构。我们在广泛的模型参数下证明了这种方法的强大一致性,它包括稀疏网络,节点度为$ O(\ log n)$。此外,与大多数现有工作不同,我们的理论涵盖了多尺度网络,其中连接概率可能因数量级而异,这包括一类实际相关但技术上挑战处理的重要阶段。最后,我们展示了我们对综合性数据和实际示例算法的表现。
translated by 谷歌翻译
网络可能具有弱信号和严重程度的异质性,并且可能在一次出现时非常稀疏,但在另一个发生中非常致密。得分(Jin,2015)是最近网络社区检测的方法。它适应严重的程度异质性,并适应不同水平的稀疏性,但它对具有弱信号的网络的性能尚不清楚。在本文中,我们认为,在广泛的网络设置中,我们允许弱信号,严重程度异质性和广泛的网络稀疏性,得分实现了完善的聚类,并且在汉明集群中具有所谓的“指数率”错误。证据对网络邻接矩阵的领先特征向量进行了最新的进出方程。理论分析向我们保证,在弱信号设置中,得分继续运行,但它不排除分数可以进一步提高的可能性,以在实际应用中具有更好的性能,特别是对于具有弱信号的网络。作为纸张的第二份贡献,我们提出得分+作为改进的分数版本。我们调查了8个网络数据集的得分+,发现它优于几种代表性的方法。特别是,对于具有相对强烈的信号的6个数据集,得分+具有与得分相似的性能,但对于2个数据集(Simmons,Caltech)具有可能弱信号,得分+的误差率较低。得分+提出了几个变化以得分。我们使用理论和数值研究的混合物仔细解释每个变化的基本原理。
translated by 谷歌翻译
本文研究了一般D-均匀的HyperGraph随机块模型(D-HSBM)中精确恢复的基本限制,其中n个节点被分配到具有相对大小的k差异群落中(p1,...,pk)。具有基数d的节点的每个子集都是独立生成的,作为订单-D超边,其一定概率取决于D节点所属的地面真相群落。目标是根据观察到的超图准确地恢复K隐藏的社区。我们表明存在一个尖锐的阈值,因此可以在阈值之上实现精确的恢复,而不可能在阈值以下(除了将精确指定的小参数制度之外)。该阈值是根据我们称为社区之间普遍的Chernoff-Hellinger分歧的数量来表示的。我们对该通用模型的结果恢复了标准SBM和D-HSBM的先前结果,其中两个对称群落作为特殊情况。在证明我们的可实现结果的途径中,我们开发了一种符合阈值的多项式两阶段算法。第一阶段采用某种超图光谱聚类方法来获得社区的粗略估计,第二阶段通过局部细化步骤单独完善每个节点,以确保精确恢复。
translated by 谷歌翻译
随机块模型(SBM)是一个随机图模型,其连接不同的顶点组不同。它被广泛用作研究聚类和社区检测的规范模型,并提供了肥沃的基础来研究组合统计和更普遍的数据科学中出现的信息理论和计算权衡。该专着调查了最近在SBM中建立社区检测的基本限制的最新发展,无论是在信息理论和计算方案方面,以及各种恢复要求,例如精确,部分和弱恢复。讨论的主要结果是在Chernoff-Hellinger阈值中进行精确恢复的相转换,Kesten-Stigum阈值弱恢复的相变,最佳的SNR - 单位信息折衷的部分恢复以及信息理论和信息理论之间的差距计算阈值。该专着给出了在寻求限制时开发的主要算法的原则推导,特别是通过绘制绘制,半定义编程,(线性化)信念传播,经典/非背带频谱和图形供电。还讨论了其他块模型的扩展,例如几何模型和一些开放问题。
translated by 谷歌翻译
社区检测和正交组同步是科学和工程中各种重要应用的基本问题。在这项工作中,我们考虑了社区检测和正交组同步的联合问题,旨在恢复社区并同时执行同步。为此,我们提出了一种简单的算法,该算法由频谱分解步骤组成,然后是彼此枢转的QR分解(CPQR)。所提出的算法与数据点数线性有效且缩放。我们还利用最近开发的“休闲一淘汰”技术来建立近乎最佳保证,以确切地恢复集群成员资格,并稳定地恢复正交变换。数值实验证明了我们算法的效率和功效,并确认了我们的理论表征。
translated by 谷歌翻译
我们提出了对学度校正随机块模型(DCSBM)的合适性测试。该测试基于调整后的卡方统计量,用于测量$ n $多项式分布的组之间的平等性,该分布具有$ d_1,\ dots,d_n $观测值。在网络模型的背景下,多项式的数量($ n $)的数量比观测值数量($ d_i $)快得多,与节点$ i $的度相对应,因此设置偏离了经典的渐近学。我们表明,只要$ \ {d_i \} $的谐波平均值生长到无穷大,就可以使统计量在NULL下分配。顺序应用时,该测试也可以用于确定社区数量。该测试在邻接矩阵的压缩版本上进行操作,因此在学位上有条件,因此对大型稀疏网络具有高度可扩展性。我们结合了一个新颖的想法,即在测试$ K $社区时根据$(k+1)$ - 社区分配来压缩行。这种方法在不牺牲计算效率的情况下增加了顺序应用中的力量,我们证明了它在恢复社区数量方面的一致性。由于测试统计量不依赖于特定的替代方案,因此其效用超出了顺序测试,可用于同时测试DCSBM家族以外的各种替代方案。特别是,我们证明该测试与具有社区结构的潜在可变性网络模型的一般家庭一致。
translated by 谷歌翻译
光谱聚类是网络中广泛使用的社区检测方法之一。然而,大型网络为其中的特征值分解带来了计算挑战。在本文中,我们研究了从统计角度使用随机草图算法的光谱聚类,在那里我们通常假设网络数据是从随机块模型生成的,这些模型不一定是完整等级的。为此,我们首先使用最近开发的草图算法来获得两个随机谱聚类算法,即基于随机投影和基于随机采样的光谱聚类。然后,我们在群体邻接矩阵的近似误差,错误分类误差和链路概率矩阵的估计误差方面研究得到的算法的理论界限。事实证明,在温和条件下,随机谱聚类算法导致与原始光谱聚类算法相同的理论界。我们还将结果扩展到校正的程度校正的随机块模型。数值实验支持我们的理论发现并显示随机化方法的效率。一个名为rclusct的新R包是开发的,并提供给公众。
translated by 谷歌翻译
The stochastic block model (SBM) is a random graph model with planted clusters. It is widely employed as a canonical model to study clustering and community detection, and provides generally a fertile ground to study the statistical and computational tradeoffs that arise in network and data sciences.This note surveys the recent developments that establish the fundamental limits for community detection in the SBM, both with respect to information-theoretic and computational thresholds, and for various recovery requirements such as exact, partial and weak recovery (a.k.a., detection). The main results discussed are the phase transitions for exact recovery at the Chernoff-Hellinger threshold, the phase transition for weak recovery at the Kesten-Stigum threshold, the optimal distortion-SNR tradeoff for partial recovery, the learning of the SBM parameters and the gap between information-theoretic and computational thresholds.The note also covers some of the algorithms developed in the quest of achieving the limits, in particular two-round algorithms via graph-splitting, semi-definite programming, linearized belief propagation, classical and nonbacktracking spectral methods. A few open problems are also discussed.
translated by 谷歌翻译
随机奇异值分解(RSVD)是用于计算大型数据矩阵截断的SVD的一类计算算法。给定A $ n \ times n $对称矩阵$ \ mathbf {m} $,原型RSVD算法输出通过计算$ \ mathbf {m mathbf {m} $的$ k $引导singular vectors的近似m}^{g} \ mathbf {g} $;这里$ g \ geq 1 $是一个整数,$ \ mathbf {g} \ in \ mathbb {r}^{n \ times k} $是一个随机的高斯素描矩阵。在本文中,我们研究了一般的“信号加上噪声”框架下的RSVD的统计特性,即,观察到的矩阵$ \ hat {\ mathbf {m}} $被认为是某种真实但未知的加法扰动信号矩阵$ \ mathbf {m} $。我们首先得出$ \ ell_2 $(频谱规范)和$ \ ell_ {2 \ to \ infty} $(最大行行列$ \ ell_2 $ norm)$ \ hat {\ hat {\ Mathbf {M}} $和信号矩阵$ \ Mathbf {M} $的真实单数向量。这些上限取决于信噪比(SNR)和功率迭代$ g $的数量。观察到一个相变现象,其中较小的SNR需要较大的$ g $值以保证$ \ ell_2 $和$ \ ell_ {2 \ to \ fo \ infty} $ distances的收敛。我们还表明,每当噪声矩阵满足一定的痕量生长条件时,这些相变发生的$ g $的阈值都会很清晰。最后,我们得出了近似奇异向量的行波和近似矩阵的进入波动的正常近似。我们通过将RSVD的几乎最佳性能保证在应用于三个统计推断问题的情况下,即社区检测,矩阵完成和主要的组件分析,并使用缺失的数据来说明我们的理论结果。
translated by 谷歌翻译
我们在非均匀超图随机块模型(HSBM)下的稀疏随机超图中的社区检测问题,是社区结构的随机网络的一般模型和高阶交互。当随机超图具有界定的预期度时,我们提供了一种频谱算法,该频谱算法输出分区,其中至少有$ \ gamma $分数正确分类,其中$ \ gamma \ in(0.5,1)$取决于信号 - 模型的噪声比(SNR)。当SNR随着顶点的数量转到无限的时,SNR慢慢地增长,我们的算法达到了弱的一致性,这改善了Ghoshdastidar和Dukkipati(2017)的上一个结果,用于非均匀的HSBMS。我们的谱算法由三个主要步骤组成:(1)HIFFEGE选择:选择某些尺寸的超高率,为诱导的子图像提供最大信噪比; (2)光谱分区:构造正则化邻接矩阵,并基于奇异向量获得近似分区; (3)纠正和合并:将超代表信息从邻接张于升级升级错误率保证。我们的算法的理论分析依赖于稀疏非均匀随机超图的邻接矩阵的浓度和正则化,这可以是独立的兴趣。
translated by 谷歌翻译
光谱聚类在从业者和理论家中都很受欢迎。尽管对光谱聚类的性能保证有充分的了解,但最近的研究集中于在群集中执行``公平'',要求它们在分类敏感的节点属性方面必须``平衡''人口中的种族分布)。在本文中,我们考虑了一个设置,其中敏感属性间接表现在辅助\ textit {表示图}中,而不是直接观察到。该图指定了可以相对于敏感属性互相表示的节点对,除了通常的\ textit {相似性图}外,还可以观察到。我们的目标是在相似性图中找到簇,同时尊重由表示图编码的新个人公平性约束。我们为此任务开发了不均衡和归一化光谱聚类的变体,并在代表图诱导的种植分区模型下分析其性能。该模型同时使用节点的群集成员身份和表示图的结构来生成随机相似性图。据我们所知,这些是在个人级别的公平限制下受约束光谱聚类的第一个一致性结果。数值结果证实了我们的理论发现。
translated by 谷歌翻译
社区检测是网络科学中的一个基本问题。在本文中,我们考虑了从$ HyperGraph $ $ $ $ $ $ $ $ $ $ $ $ $ $ $(HSBM)中绘制的HyperGraphs中的社区检测,重点是精确的社区恢复。在整个超图未知的情况下,我们研究了多项式时间算法以进行社区检测的性能。取而代之的是,我们获得了$相似性$ $ $ $ $ $ $ w $,其中$ w_ {ij} $报告包含$ i $和$ j $的超补品的数量。在此信息模型下,Kim,Bandeira和Goemans [KBG18]确定了信息理论阈值,以进行精确恢复,并提出了他们认为是最佳的半决赛编程松弛。在本文中,我们确认了这个猜想。我们还表明,一种简单,高效的光谱算法是最佳的,将光谱算法作为选择方法。我们对光谱算法的分析至关重要地依赖于$ w $的特征向量上的强$ entrywise $界限。我们的边界灵感来自Abbe,Fan,Wang和Zhong [AFWZ20]的工作,他们开发了具有独立条目的对称矩阵的特征向量的进入界。尽管相似性矩阵的依赖性结构复杂,但我们证明了相似的入口保证。
translated by 谷歌翻译
现实世界网络经常具有侧面信息,可以帮助提高网络分析任务等群集的性能。尽管在过去十年中对网络聚类方法进行了大量的实证和理论研究,但侧面信息的附加值和用于在聚类算法中最佳地结合的方法的附加值相对较少理解。我们向群集网络提出了一种新的迭代算法,其中包含节点的侧面信息(以协调因子的形式)提出并表明我们的算法在上下文对称随机块模型下是最佳的。我们的算法可以应用于一般上下文随机块模型,并避免与先前提出的方法相比,避免了HyperParameter调整。我们在综合数据实验中确认我们的理论结果,其中我们的算法显着优于其他方法,并表明它也可以应用于签名的图表。最后,我们展示了我们对实际数据方法的实际兴趣。
translated by 谷歌翻译
在稀疏制度中,我们迈出了概括随机块模型理论的第一步,该模型将离散的社区结构被基本几何形状取代。我们考虑在均匀度量空间上的几何随机图,其中要连接两个顶点的概率是距离的任意函数。我们提供了足够的条件,在稀疏制度中,可以回收位置(最多是空间的同构)。此外,我们根据苔藓和佩雷斯(Mossel and Peres)定义了信息流模型的几何对应物,在该模型中,人们认为在球面上考虑了分支随机行走,目标是根据基于树叶。我们给出了一些足够的条件,可以在此模型中提供渗透和不变信息。
translated by 谷歌翻译
The stochastic block model (SBM) is a fundamental model for studying graph clustering or community detection in networks. It has received great attention in the last decade and the balanced case, i.e., assuming all clusters have large size, has been well studied. However, our understanding of SBM with unbalanced communities (arguably, more relevant in practice) is still very limited. In this paper, we provide a simple SVD-based algorithm for recovering the communities in the SBM with communities of varying sizes. We improve upon a result of Ailon, Chen and Xu [ICML 2013] by removing the assumption that there is a large interval such that the sizes of clusters do not fall in. Under the planted clique conjecture, the size of the clusters that can be recovered by our algorithm is nearly optimal (up to polylogarithmic factors) when the probability parameters are constant. As a byproduct, we obtain a polynomial-time algorithm with sublinear query complexity for a clustering problem with a faulty oracle, which finds all clusters of size larger than $\tilde{\Omega}({\sqrt{n}})$ even if $\Omega(n)$ small clusters co-exist in the graph. In contrast, all the previous efficient algorithms that makes sublinear number of queries cannot recover any large cluster, if there are more than $\tilde{\Omega}(n^{2/5})$ small clusters.
translated by 谷歌翻译
本文考虑了Pensky和Wang(2021)中引入的各种多重(Dimple)网络模型,该网络的所有层都具有相同的节点集合,并配备了随机块模型。此外,所有层都可以分为具有相同社区结构的组,尽管同一组中的层可能具有不同的块连接概率矩阵。 Dimple模型概括了许多论文,这些论文在所有层中研究具有相同社区结构的多层网络,以及混合物多层随机块模型(MMLSBM),同一组中的层具有相同的块连接概率的矩阵。彭斯基和王(2021)将光谱聚类应用于邻接张量的代理,而本文则使用稀疏的子空间聚类(SSC)来识别具有相同社区结构的层组。在轻度条件下,后者导致层间聚类非常一致。此外,SSC允许比Pensky和Wang(2021)的方法处理更大的网络,并且非常适合应用并行计算。
translated by 谷歌翻译
假设$ g $是根据所谓的HyperGraph随机块模型(HSBM)产生的,我们考虑了稀疏$ Q $均匀的HyperGraph $ G $中的社区检测问题。我们证明,基于非折线操作员的光谱方法具有很高的概率,可以降低到Angelini等人猜想的广义kesten-Stigum检测阈值。我们表征了稀疏HSBM的非背带操作员的频谱,并使用Ihara-Bass公式为超图提供有效的尺寸降低程序。结果,可以将稀疏HSBM的社区检测减少为$ 2N \ times 2n $非正态矩阵的特征向量问题,该矩阵从邻接矩阵和超级格雷普的学位矩阵中构建。据我们所知,这是第一种可证明,有效的光谱算法,它可以根据一般对称概率张量生成$ K $块的HSBMS阈值。
translated by 谷歌翻译
我们通过证明PABM是GRDPG的一种特殊情况,其中社区对应于潜在矢量的相互正交子空间,我们连接两个随机图模型,即受欢迎程度调整块模型(PABM)和广义随机点产品图(GRDPG)。这种见解使我们能够为PABM构建用于社区检测和参数估计的新算法,并改善了依赖稀疏子空间聚类的现有算法。利用邻接光谱嵌入GRDPG的渐近特性,我们得出了这些算法的渐近特性。特别是,我们证明,随着图形顶点的数量倾向于无穷大,社区检测误差的绝对数量趋于零。仿真实验说明了这些特性。
translated by 谷歌翻译
This article explores and analyzes the unsupervised clustering of large partially observed graphs. We propose a scalable and provable randomized framework for clustering graphs generated from the stochastic block model. The clustering is first applied to a sub-matrix of the graph's adjacency matrix associated with a reduced graph sketch constructed using random sampling. Then, the clusters of the full graph are inferred based on the clusters extracted from the sketch using a correlation-based retrieval step. Uniform random node sampling is shown to improve the computational complexity over clustering of the full graph when the cluster sizes are balanced. A new random degree-based node sampling algorithm is presented which significantly improves upon the performance of the clustering algorithm even when clusters are unbalanced. This framework improves the phase transitions for matrix-decomposition-based clustering with regard to computational complexity and minimum cluster size, which are shown to be nearly dimension-free in the low inter-cluster connectivity regime. A third sampling technique is shown to improve balance by randomly sampling nodes based on spatial distribution. We provide analysis and numerical results using a convex clustering algorithm based on matrix completion.
translated by 谷歌翻译
Graph clustering is a fundamental problem in unsupervised learning, with numerous applications in computer science and in analysing real-world data. In many real-world applications, we find that the clusters have a significant high-level structure. This is often overlooked in the design and analysis of graph clustering algorithms which make strong simplifying assumptions about the structure of the graph. This thesis addresses the natural question of whether the structure of clusters can be learned efficiently and describes four new algorithmic results for learning such structure in graphs and hypergraphs. All of the presented theoretical results are extensively evaluated on both synthetic and real-word datasets of different domains, including image classification and segmentation, migration networks, co-authorship networks, and natural language processing. These experimental results demonstrate that the newly developed algorithms are practical, effective, and immediately applicable for learning the structure of clusters in real-world data.
translated by 谷歌翻译