在本文中,我们考虑图对对齐问题,这是恢复的问题,给定两个图形,节点之间的一对一映射,最大化边缘重叠。此问题可以被视为众所周知的图形同构问题的嘈杂版本,并出现在许多应用中,包括社交网络Deanymation和蜂窝生物学。我们这里的焦点是部分恢复,即,我们寻找一个一对一的映射,这对图形的节点的一小部分而不是在所有这些上都是正确的,并且我们假设两个输入图对问题是相关的ERD \ h {o} sr \'enyi参数$(n,q,s)$。我们的主要贡献是在$(n,q,s)$给出必要和充分的条件,在其中部分恢复是可能的,因为节点N $的节点数量的概率很高。特别是,我们表明,在某些额外的假设下,可以在$ NQS = \ \ \θ(1)$制度中实现部分恢复。
translated by 谷歌翻译
Motivated by alignment of correlated sparse random graphs, we introduce a hypothesis testing problem of deciding whether or not two random trees are correlated. We obtain sufficient conditions under which this testing is impossible or feasible. We propose MPAlign, a message-passing algorithm for graph alignment inspired by the tree correlation detection problem. We prove MPAlign to succeed in polynomial time at partial alignment whenever tree detection is feasible. As a result our analysis of tree detection reveals new ranges of parameters for which partial alignment of sparse random graphs is feasible in polynomial time. We then conjecture that graph alignment is not feasible in polynomial time when the associated tree detection problem is impossible. If true, this conjecture together with our sufficient conditions on tree detection impossibility would imply the existence of a hard phase for graph alignment, i.e. a parameter range where alignment cannot be done in polynomial time even though it is known to be feasible in non-polynomial time.
translated by 谷歌翻译
随机块模型(SBM)是一个随机图模型,其连接不同的顶点组不同。它被广泛用作研究聚类和社区检测的规范模型,并提供了肥沃的基础来研究组合统计和更普遍的数据科学中出现的信息理论和计算权衡。该专着调查了最近在SBM中建立社区检测的基本限制的最新发展,无论是在信息理论和计算方案方面,以及各种恢复要求,例如精确,部分和弱恢复。讨论的主要结果是在Chernoff-Hellinger阈值中进行精确恢复的相转换,Kesten-Stigum阈值弱恢复的相变,最佳的SNR - 单位信息折衷的部分恢复以及信息理论和信息理论之间的差距计算阈值。该专着给出了在寻求限制时开发的主要算法的原则推导,特别是通过绘制绘制,半定义编程,(线性化)信念传播,经典/非背带频谱和图形供电。还讨论了其他块模型的扩展,例如几何模型和一些开放问题。
translated by 谷歌翻译
我们根据计算一个扎根于每个顶点的某个加权树的家族而构成的相似性得分提出了一种有效的图形匹配算法。对于两个erd \ h {o} s-r \'enyi图$ \ mathcal {g}(n,q)$,其边缘通过潜在顶点通信相关联,我们表明该算法正确地匹配了所有范围的范围,除了所有的vertices分数外,有了很高的概率,前提是$ nq \ to \ infty $,而边缘相关系数$ \ rho $满足$ \ rho^2> \ alpha \ ailpha \大约0.338 $,其中$ \ alpha $是Otter的树木计数常数。此外,在理论上是必需的额外条件下,可以精确地匹配。这是第一个以显式常数相关性成功的多项式图匹配算法,并适用于稀疏和密集图。相比之下,以前的方法要么需要$ \ rho = 1-o(1)$,要么仅限于稀疏图。该算法的症结是一个经过精心策划的植根树的家族,称为吊灯,它可以有效地从同一树的计数中提取图形相关性,同时抑制不同树木之间的不良相关性。
translated by 谷歌翻译
本文讨论了ERD \ H {O} S-R \'enyi图的图形匹配或网络对齐问题,可以将其视为图同构问题的嘈杂平均案例版本。令$ g $和$ g'$ be $ g(n,p)$ erd \ h {o} s--r \'enyi略微图形,并用其邻接矩阵识别。假设$ g $和$ g'$是相关的,因此$ \ mathbb {e} [g_ {ij} g'_ {ij}] = p(1- \ alpha)$。对于置换$ \ pi $,代表$ g $和$ g'$之间的潜在匹配,用$ g^\ pi $表示从$ \ pi $的$ g $的顶点获得的图表。观察$ g^\ pi $和$ g'$,我们的目标是恢复匹配的$ \ pi $。在这项工作中,我们证明,在(0,1] $中,每$ \ varepsilon \ in(0,1] $,都有$ n_0> 0 $,具体取决于$ \ varepsilon $和绝对常数$ \ alpha_0,r> 0 $,带有以下属性。令$ n \ ge n_0 $,$(1+ \ varepsilon)\ log n \ le np \ le n^{\ frac {1} {r \ log \ log \ log n}} $ (\ alpha_0,\ varepsilon/4)$。有一个多项式时算法$ f $,因此$ \ m athbb {p} \ {f(g^\ pi,g')= \ pi \} = 1-o (1)$。这是第一种多项式时算法,它恢复了相关的ERD \ H {O} S-r \'enyi图与具有恒定相关性的相关性图与高概率相关性的确切匹配。该算法是基于比较的比较与图形顶点关联的分区树。
translated by 谷歌翻译
The stochastic block model (SBM) is a random graph model with planted clusters. It is widely employed as a canonical model to study clustering and community detection, and provides generally a fertile ground to study the statistical and computational tradeoffs that arise in network and data sciences.This note surveys the recent developments that establish the fundamental limits for community detection in the SBM, both with respect to information-theoretic and computational thresholds, and for various recovery requirements such as exact, partial and weak recovery (a.k.a., detection). The main results discussed are the phase transitions for exact recovery at the Chernoff-Hellinger threshold, the phase transition for weak recovery at the Kesten-Stigum threshold, the optimal distortion-SNR tradeoff for partial recovery, the learning of the SBM parameters and the gap between information-theoretic and computational thresholds.The note also covers some of the algorithms developed in the quest of achieving the limits, in particular two-round algorithms via graph-splitting, semi-definite programming, linearized belief propagation, classical and nonbacktracking spectral methods. A few open problems are also discussed.
translated by 谷歌翻译
我们开发了一种高效的随机块模型中的弱恢复算法。该算法与随机块模型的Vanilla版本的最佳已知算法的统计保证匹配。从这个意义上讲,我们的结果表明,随机块模型没有稳健性。我们的工作受到最近的银行,Mohanty和Raghavendra(SODA 2021)的工作,为相应的区别问题提供了高效的算法。我们的算法及其分析显着脱离了以前的恢复。关键挑战是我们算法的特殊优化景观:种植的分区可能远非最佳意义,即完全不相关的解决方案可以实现相同的客观值。这种现象与PCA的BBP相转变的推出效应有关。据我们所知,我们的算法是第一个在非渐近设置中存在这种推出效果的鲁棒恢复。我们的算法是基于凸优化的框架的实例化(与平方和不同的不同),这对于其他鲁棒矩阵估计问题可能是有用的。我们的分析的副产物是一种通用技术,其提高了任意强大的弱恢复算法的成功(输入的随机性)从恒定(或缓慢消失)概率以指数高概率。
translated by 谷歌翻译
本文研究了在两个边缘相关随机图之间恢复隐藏顶点对应的问题。我们专注于两个图形的高斯模型,其中两个图表是具有相关的高斯权重的完整图表和eRD \ h {o} sr \'enyi模型,其中两个图形是从常见的父erd \ h {o} sr \'enyi附带的图$ \ mathcal {g}(n,p)$。对于以$ p = n ^ { - o(1)} $的密集图,我们证明存在尖锐的阈值,上面可以正确地匹配,而是可以正确地匹配顶点的所有消失的分数,下面是不可能正确匹配的任何正部分的下降,一种称为“全无或无关”相转变的现象。更广泛地,在高斯环境中,高于阈值,所有顶点都可以与高概率完全匹配。相比之下,对于稀疏的ERD \ h {o} sr \'enyi图表,以$ p = n ^ { - \ theta(1)} $,我们表明全部或全无的现象不再持有,我们确定阈值达到恒定因素。沿途,我们还导出了精确恢复的尖锐阈值,锐化了ERD \ H {O} S-R'enyi图中的现有结果。负面结果的证明在基于截断的第二时刻计算和“区域定理”的相互信息的紧密表征之上构建,该“区域定理”将相互信息与重建误差的积分相关联。阳性结果从对最大似然估计器的严格分析,考虑到边缘上诱导置换的循环结构。
translated by 谷歌翻译
社区检测是网络科学中的一个基本问题。在本文中,我们考虑了从$ HyperGraph $ $ $ $ $ $ $ $ $ $ $ $ $ $ $(HSBM)中绘制的HyperGraphs中的社区检测,重点是精确的社区恢复。在整个超图未知的情况下,我们研究了多项式时间算法以进行社区检测的性能。取而代之的是,我们获得了$相似性$ $ $ $ $ $ $ w $,其中$ w_ {ij} $报告包含$ i $和$ j $的超补品的数量。在此信息模型下,Kim,Bandeira和Goemans [KBG18]确定了信息理论阈值,以进行精确恢复,并提出了他们认为是最佳的半决赛编程松弛。在本文中,我们确认了这个猜想。我们还表明,一种简单,高效的光谱算法是最佳的,将光谱算法作为选择方法。我们对光谱算法的分析至关重要地依赖于$ w $的特征向量上的强$ entrywise $界限。我们的边界灵感来自Abbe,Fan,Wang和Zhong [AFWZ20]的工作,他们开发了具有独立条目的对称矩阵的特征向量的进入界。尽管相似性矩阵的依赖性结构复杂,但我们证明了相似的入口保证。
translated by 谷歌翻译
高维统计数据的一个基本目标是检测或恢复嘈杂数据中隐藏的种植结构(例如低级别矩阵)。越来越多的工作研究低级多项式作为此类问题的计算模型的限制模型:在各种情况下,数据的低级多项式可以与最知名的多项式时间算法的统计性能相匹配。先前的工作已经研究了低度多项式的力量,以检测隐藏结构的存在。在这项工作中,我们将这些方法扩展到解决估计和恢复问题(而不是检测)。对于大量的“信号加噪声”问题,我们给出了一个用户友好的下限,以获得最佳的均衡误差。据我们所知,这些是建立相关检测问题的恢复问题低度硬度的第一个结果。作为应用,我们对种植的子静脉和种植的密集子图问题的低度最小平方误差进行了严格的特征,在两种情况下都解决了有关恢复的计算复杂性的开放问题(在低度框架中)。
translated by 谷歌翻译
随机奇异值分解(RSVD)是用于计算大型数据矩阵截断的SVD的一类计算算法。给定A $ n \ times n $对称矩阵$ \ mathbf {m} $,原型RSVD算法输出通过计算$ \ mathbf {m mathbf {m} $的$ k $引导singular vectors的近似m}^{g} \ mathbf {g} $;这里$ g \ geq 1 $是一个整数,$ \ mathbf {g} \ in \ mathbb {r}^{n \ times k} $是一个随机的高斯素描矩阵。在本文中,我们研究了一般的“信号加上噪声”框架下的RSVD的统计特性,即,观察到的矩阵$ \ hat {\ mathbf {m}} $被认为是某种真实但未知的加法扰动信号矩阵$ \ mathbf {m} $。我们首先得出$ \ ell_2 $(频谱规范)和$ \ ell_ {2 \ to \ infty} $(最大行行列$ \ ell_2 $ norm)$ \ hat {\ hat {\ Mathbf {M}} $和信号矩阵$ \ Mathbf {M} $的真实单数向量。这些上限取决于信噪比(SNR)和功率迭代$ g $的数量。观察到一个相变现象,其中较小的SNR需要较大的$ g $值以保证$ \ ell_2 $和$ \ ell_ {2 \ to \ fo \ infty} $ distances的收敛。我们还表明,每当噪声矩阵满足一定的痕量生长条件时,这些相变发生的$ g $的阈值都会很清晰。最后,我们得出了近似奇异向量的行波和近似矩阵的进入波动的正常近似。我们通过将RSVD的几乎最佳性能保证在应用于三个统计推断问题的情况下,即社区检测,矩阵完成和主要的组件分析,并使用缺失的数据来说明我们的理论结果。
translated by 谷歌翻译
为了捕获许多社区检测问题的固有几何特征,我们建议使用一个新的社区随机图模型,我们称之为\ emph {几何块模型}。几何模型建立在\ emph {随机几何图}(Gilbert,1961)上,这是空间网络的随机图的基本模型之一,就像在ERD \ H上建立的良好的随机块模型一样{o} s-r \'{en} yi随机图。它也是受到社区发现中最新的理论和实际进步启发的随机社区模型的自然扩展。为了分析几何模型,我们首先为\ emph {Random Annulus图}提供新的连接结果,这是随机几何图的概括。自引入以来,已经研究了几何图的连通性特性,并且由于相关的边缘形成而很难分析它们。然后,我们使用随机环形图的连接结果来提供必要的条件,以有效地为几何块模型恢复社区。我们表明,一种简单的三角计数算法来检测几何模型中的社区几乎是最佳的。为此,我们考虑了两个图密度方案。在图表的平均程度随着顶点的对数增长的状态中,我们表明我们的算法在理论上和实际上都表现出色。相比之下,三角计数算法对于对数学度方案中随机块模型远非最佳。我们还查看了图表的平均度与顶点$ n $的数量线性增长的状态,因此要存储一个需要$ \ theta(n^2)$内存的图表。我们表明,我们的算法需要在此制度中仅存储$ o(n \ log n)$边缘以恢复潜在社区。
translated by 谷歌翻译
假设$ g $是根据所谓的HyperGraph随机块模型(HSBM)产生的,我们考虑了稀疏$ Q $均匀的HyperGraph $ G $中的社区检测问题。我们证明,基于非折线操作员的光谱方法具有很高的概率,可以降低到Angelini等人猜想的广义kesten-Stigum检测阈值。我们表征了稀疏HSBM的非背带操作员的频谱,并使用Ihara-Bass公式为超图提供有效的尺寸降低程序。结果,可以将稀疏HSBM的社区检测减少为$ 2N \ times 2n $非正态矩阵的特征向量问题,该矩阵从邻接矩阵和超级格雷普的学位矩阵中构建。据我们所知,这是第一种可证明,有效的光谱算法,它可以根据一般对称概率张量生成$ K $块的HSBMS阈值。
translated by 谷歌翻译
Motivated by the problem of matching vertices in two correlated Erd\H{o}s-R\'enyi graphs, we study the problem of matching two correlated Gaussian Wigner matrices. We propose an iterative matching algorithm, which succeeds in polynomial time as long as the correlation between the two Gaussian matrices does not vanish. Our result is the first polynomial time algorithm that solves a graph matching type of problem when the correlation is an arbitrarily small constant.
translated by 谷歌翻译
Network data are ubiquitous in modern machine learning, with tasks of interest including node classification, node clustering and link prediction. A frequent approach begins by learning an Euclidean embedding of the network, to which algorithms developed for vector-valued data are applied. For large networks, embeddings are learned using stochastic gradient methods where the sub-sampling scheme can be freely chosen. Despite the strong empirical performance of such methods, they are not well understood theoretically. Our work encapsulates representation methods using a subsampling approach, such as node2vec, into a single unifying framework. We prove, under the assumption that the graph is exchangeable, that the distribution of the learned embedding vectors asymptotically decouples. Moreover, we characterize the asymptotic distribution and provided rates of convergence, in terms of the latent parameters, which includes the choice of loss function and the embedding dimension. This provides a theoretical foundation to understand what the embedding vectors represent and how well these methods perform on downstream tasks. Notably, we observe that typically used loss functions may lead to shortcomings, such as a lack of Fisher consistency.
translated by 谷歌翻译
在本文中,我们解决了测试两个观察到的树$(t,t')$是独立采样还是从它们相关的联合分布中进行采样的问题。这个问题我们称为树中的相关检测,在两个相关随机图的图形对齐中起着关键作用。通过图形对准,我们研究了单方面测试的存在条件,即具有I型误差和非呈现能力的消失的测试。对于带有平均$ \ lambda的Poisson后代的相关Galton-Watson模型,我们在(0,1)$中$ s $ s \ s $ s \ in(0,1)$,我们在$ s = \ sqrt { \ alpha} $,其中$ \ alpha \ sim 0.3383 $是Otter的常数。也就是说,我们证明,对于$ s \ leq \ sqrt {\ alpha} $,不存在此类测试,并且每当$ \ sqrt {\ alpha} $,$ \ lambda $ for Empoot Foom Foom时,就存在此类测试。该结果为稀疏制度($ o(1)$平均节点度)以及Ganassali等人研究的MPALIGN方法的性能提供了有关图形对准问题的新启示。 (2021),Piccioli等。 (2021),特别是Piccioli等人的猜想。 (2021)MPALIGN在相关参数的部分恢复任务中取得成功,提供了平均节点度$ \ lambda $的平均节点$ \ lambda $足够大。
translated by 谷歌翻译
社区检测和正交组同步是科学和工程中各种重要应用的基本问题。在这项工作中,我们考虑了社区检测和正交组同步的联合问题,旨在恢复社区并同时执行同步。为此,我们提出了一种简单的算法,该算法由频谱分解步骤组成,然后是彼此枢转的QR分解(CPQR)。所提出的算法与数据点数线性有效且缩放。我们还利用最近开发的“休闲一淘汰”技术来建立近乎最佳保证,以确切地恢复集群成员资格,并稳定地恢复正交变换。数值实验证明了我们算法的效率和功效,并确认了我们的理论表征。
translated by 谷歌翻译
我们研究了小组测试问题,其目标是根据合并测试的结果,确定一组k感染的人,这些k含有稀有疾病,这些人在经过测试中至少有一个受感染的个体时返回阳性的结果。团体。我们考虑将个人分配给测试的两个不同的简单随机过程:恒定柱设计和伯努利设计。我们的第一组结果涉及基本统计限制。对于恒定柱设计,我们给出了一个新的信息理论下限,这意味着正确识别的感染者的比例在测试数量越过特定阈值时会经历急剧的“全或全或无所不包”的相变。对于Bernoulli设计,我们确定解决相关检测问题所需的确切测试数量(目的是区分小组测试实例和纯噪声),改善Truong,Aldridge和Scarlett的上限和下限(2020)。对于两个小组测试模型,我们还研究了计算有效(多项式时间)推理程序的能力。我们确定了解决检测问题的低度多项式算法所需的精确测试数量。这为在少量稀疏度的检测和恢复问题中都存在固有的计算统计差距提供了证据。值得注意的是,我们的证据与Iliopoulos和Zadik(2021)相反,后者预测了Bernoulli设计中没有计算统计差距。
translated by 谷歌翻译
在许多应用中,我们获得了流畅的函数的嘈杂模态样本的访问,其目标是鲁棒地解开样本,即估计该功能的原始样本。在最近的工作中,Cucuringu和Tyagi通过首先将它们代表在单元复杂圆上,然后解决平滑度规则化最小二乘问题 - Laplacian的平滑度适用的Proximity Graph的平滑度$ G $ - ON单位圆的产品歧管。这个问题是二次受约束的二次程序(QCQP),其是非凸显的,因此提出解决其球形放松导致信任区域子问题(TRS)。就理论担保而言,派生$ \ ell_2 $错误界限(trs)。然而,这些界限通常弱,并且没有真正证明由(TRS)进行的去噪。在这项工作中,我们分析(TRS)以及(QCQP)的不受约束的放松。对于这些估算器,我们在高斯噪声的设置中提供了一种精致的分析,并导出了噪音制度,其中他们可否证明模数观察W.R.T $ \ ell_2 $常规。分析在$ G $是任何连接的图形中的常规设置中进行。
translated by 谷歌翻译
在这项工作中,我们研究了具有对抗性节点损坏的随机块模型中社区发现的问题。我们的主要结果是一种有效的算法,该算法可以忍受$ \ epsilon $ - 损坏和达到错误$ o(\ epsilon) + e^{ - \ frac {c} {2} {2}(1 \ pm o(1))} $其中$ c =(\ sqrt {a} - \ sqrt {b})^2 $是信噪比,$ a/n $和$ b/n $是互发和intra-intra-intra-社区连接概率分别。这些界限基本上与无损坏的SBM的最小值相匹配。我们还为$ \ mathbb {z} _2 $ -Synchronization提供了可靠的算法。我们算法的核心是一个新的半决赛程序,它使用全局信息来鲁棒提高粗糙聚类的准确性。此外,我们表明我们的算法是双重的,因为它们在更具挑战性的噪声模型中起作用,该模型将对抗性腐败与无限制的单调变化混合在一起,从半随机模型中。
translated by 谷歌翻译