本文研究了在两个边缘相关随机图之间恢复隐藏顶点对应的问题。我们专注于两个图形的高斯模型,其中两个图表是具有相关的高斯权重的完整图表和eRD \ h {o} sr \'enyi模型,其中两个图形是从常见的父erd \ h {o} sr \'enyi附带的图$ \ mathcal {g}(n,p)$。对于以$ p = n ^ { - o(1)} $的密集图,我们证明存在尖锐的阈值,上面可以正确地匹配,而是可以正确地匹配顶点的所有消失的分数,下面是不可能正确匹配的任何正部分的下降,一种称为“全无或无关”相转变的现象。更广泛地,在高斯环境中,高于阈值,所有顶点都可以与高概率完全匹配。相比之下,对于稀疏的ERD \ h {o} sr \'enyi图表,以$ p = n ^ { - \ theta(1)} $,我们表明全部或全无的现象不再持有,我们确定阈值达到恒定因素。沿途,我们还导出了精确恢复的尖锐阈值,锐化了ERD \ H {O} S-R'enyi图中的现有结果。负面结果的证明在基于截断的第二时刻计算和“区域定理”的相互信息的紧密表征之上构建,该“区域定理”将相互信息与重建误差的积分相关联。阳性结果从对最大似然估计器的严格分析,考虑到边缘上诱导置换的循环结构。
translated by 谷歌翻译
我们根据计算一个扎根于每个顶点的某个加权树的家族而构成的相似性得分提出了一种有效的图形匹配算法。对于两个erd \ h {o} s-r \'enyi图$ \ mathcal {g}(n,q)$,其边缘通过潜在顶点通信相关联,我们表明该算法正确地匹配了所有范围的范围,除了所有的vertices分数外,有了很高的概率,前提是$ nq \ to \ infty $,而边缘相关系数$ \ rho $满足$ \ rho^2> \ alpha \ ailpha \大约0.338 $,其中$ \ alpha $是Otter的树木计数常数。此外,在理论上是必需的额外条件下,可以精确地匹配。这是第一个以显式常数相关性成功的多项式图匹配算法,并适用于稀疏和密集图。相比之下,以前的方法要么需要$ \ rho = 1-o(1)$,要么仅限于稀疏图。该算法的症结是一个经过精心策划的植根树的家族,称为吊灯,它可以有效地从同一树的计数中提取图形相关性,同时抑制不同树木之间的不良相关性。
translated by 谷歌翻译
本文讨论了ERD \ H {O} S-R \'enyi图的图形匹配或网络对齐问题,可以将其视为图同构问题的嘈杂平均案例版本。令$ g $和$ g'$ be $ g(n,p)$ erd \ h {o} s--r \'enyi略微图形,并用其邻接矩阵识别。假设$ g $和$ g'$是相关的,因此$ \ mathbb {e} [g_ {ij} g'_ {ij}] = p(1- \ alpha)$。对于置换$ \ pi $,代表$ g $和$ g'$之间的潜在匹配,用$ g^\ pi $表示从$ \ pi $的$ g $的顶点获得的图表。观察$ g^\ pi $和$ g'$,我们的目标是恢复匹配的$ \ pi $。在这项工作中,我们证明,在(0,1] $中,每$ \ varepsilon \ in(0,1] $,都有$ n_0> 0 $,具体取决于$ \ varepsilon $和绝对常数$ \ alpha_0,r> 0 $,带有以下属性。令$ n \ ge n_0 $,$(1+ \ varepsilon)\ log n \ le np \ le n^{\ frac {1} {r \ log \ log \ log n}} $ (\ alpha_0,\ varepsilon/4)$。有一个多项式时算法$ f $,因此$ \ m athbb {p} \ {f(g^\ pi,g')= \ pi \} = 1-o (1)$。这是第一种多项式时算法,它恢复了相关的ERD \ H {O} S-r \'enyi图与具有恒定相关性的相关性图与高概率相关性的确切匹配。该算法是基于比较的比较与图形顶点关联的分区树。
translated by 谷歌翻译
Motivated by alignment of correlated sparse random graphs, we introduce a hypothesis testing problem of deciding whether or not two random trees are correlated. We obtain sufficient conditions under which this testing is impossible or feasible. We propose MPAlign, a message-passing algorithm for graph alignment inspired by the tree correlation detection problem. We prove MPAlign to succeed in polynomial time at partial alignment whenever tree detection is feasible. As a result our analysis of tree detection reveals new ranges of parameters for which partial alignment of sparse random graphs is feasible in polynomial time. We then conjecture that graph alignment is not feasible in polynomial time when the associated tree detection problem is impossible. If true, this conjecture together with our sufficient conditions on tree detection impossibility would imply the existence of a hard phase for graph alignment, i.e. a parameter range where alignment cannot be done in polynomial time even though it is known to be feasible in non-polynomial time.
translated by 谷歌翻译
在本文中,我们解决了测试两个观察到的树$(t,t')$是独立采样还是从它们相关的联合分布中进行采样的问题。这个问题我们称为树中的相关检测,在两个相关随机图的图形对齐中起着关键作用。通过图形对准,我们研究了单方面测试的存在条件,即具有I型误差和非呈现能力的消失的测试。对于带有平均$ \ lambda的Poisson后代的相关Galton-Watson模型,我们在(0,1)$中$ s $ s \ s $ s \ in(0,1)$,我们在$ s = \ sqrt { \ alpha} $,其中$ \ alpha \ sim 0.3383 $是Otter的常数。也就是说,我们证明,对于$ s \ leq \ sqrt {\ alpha} $,不存在此类测试,并且每当$ \ sqrt {\ alpha} $,$ \ lambda $ for Empoot Foom Foom时,就存在此类测试。该结果为稀疏制度($ o(1)$平均节点度)以及Ganassali等人研究的MPALIGN方法的性能提供了有关图形对准问题的新启示。 (2021),Piccioli等。 (2021),特别是Piccioli等人的猜想。 (2021)MPALIGN在相关参数的部分恢复任务中取得成功,提供了平均节点度$ \ lambda $的平均节点$ \ lambda $足够大。
translated by 谷歌翻译
我们研究了小组测试问题,其目标是根据合并测试的结果,确定一组k感染的人,这些k含有稀有疾病,这些人在经过测试中至少有一个受感染的个体时返回阳性的结果。团体。我们考虑将个人分配给测试的两个不同的简单随机过程:恒定柱设计和伯努利设计。我们的第一组结果涉及基本统计限制。对于恒定柱设计,我们给出了一个新的信息理论下限,这意味着正确识别的感染者的比例在测试数量越过特定阈值时会经历急剧的“全或全或无所不包”的相变。对于Bernoulli设计,我们确定解决相关检测问题所需的确切测试数量(目的是区分小组测试实例和纯噪声),改善Truong,Aldridge和Scarlett的上限和下限(2020)。对于两个小组测试模型,我们还研究了计算有效(多项式时间)推理程序的能力。我们确定了解决检测问题的低度多项式算法所需的精确测试数量。这为在少量稀疏度的检测和恢复问题中都存在固有的计算统计差距提供了证据。值得注意的是,我们的证据与Iliopoulos和Zadik(2021)相反,后者预测了Bernoulli设计中没有计算统计差距。
translated by 谷歌翻译
高维统计数据的一个基本目标是检测或恢复嘈杂数据中隐藏的种植结构(例如低级别矩阵)。越来越多的工作研究低级多项式作为此类问题的计算模型的限制模型:在各种情况下,数据的低级多项式可以与最知名的多项式时间算法的统计性能相匹配。先前的工作已经研究了低度多项式的力量,以检测隐藏结构的存在。在这项工作中,我们将这些方法扩展到解决估计和恢复问题(而不是检测)。对于大量的“信号加噪声”问题,我们给出了一个用户友好的下限,以获得最佳的均衡误差。据我们所知,这些是建立相关检测问题的恢复问题低度硬度的第一个结果。作为应用,我们对种植的子静脉和种植的密集子图问题的低度最小平方误差进行了严格的特征,在两种情况下都解决了有关恢复的计算复杂性的开放问题(在低度框架中)。
translated by 谷歌翻译
随机奇异值分解(RSVD)是用于计算大型数据矩阵截断的SVD的一类计算算法。给定A $ n \ times n $对称矩阵$ \ mathbf {m} $,原型RSVD算法输出通过计算$ \ mathbf {m mathbf {m} $的$ k $引导singular vectors的近似m}^{g} \ mathbf {g} $;这里$ g \ geq 1 $是一个整数,$ \ mathbf {g} \ in \ mathbb {r}^{n \ times k} $是一个随机的高斯素描矩阵。在本文中,我们研究了一般的“信号加上噪声”框架下的RSVD的统计特性,即,观察到的矩阵$ \ hat {\ mathbf {m}} $被认为是某种真实但未知的加法扰动信号矩阵$ \ mathbf {m} $。我们首先得出$ \ ell_2 $(频谱规范)和$ \ ell_ {2 \ to \ infty} $(最大行行列$ \ ell_2 $ norm)$ \ hat {\ hat {\ Mathbf {M}} $和信号矩阵$ \ Mathbf {M} $的真实单数向量。这些上限取决于信噪比(SNR)和功率迭代$ g $的数量。观察到一个相变现象,其中较小的SNR需要较大的$ g $值以保证$ \ ell_2 $和$ \ ell_ {2 \ to \ fo \ infty} $ distances的收敛。我们还表明,每当噪声矩阵满足一定的痕量生长条件时,这些相变发生的$ g $的阈值都会很清晰。最后,我们得出了近似奇异向量的行波和近似矩阵的进入波动的正常近似。我们通过将RSVD的几乎最佳性能保证在应用于三个统计推断问题的情况下,即社区检测,矩阵完成和主要的组件分析,并使用缺失的数据来说明我们的理论结果。
translated by 谷歌翻译
在本文中,我们考虑图对对齐问题,这是恢复的问题,给定两个图形,节点之间的一对一映射,最大化边缘重叠。此问题可以被视为众所周知的图形同构问题的嘈杂版本,并出现在许多应用中,包括社交网络Deanymation和蜂窝生物学。我们这里的焦点是部分恢复,即,我们寻找一个一对一的映射,这对图形的节点的一小部分而不是在所有这些上都是正确的,并且我们假设两个输入图对问题是相关的ERD \ h {o} sr \'enyi参数$(n,q,s)$。我们的主要贡献是在$(n,q,s)$给出必要和充分的条件,在其中部分恢复是可能的,因为节点N $的节点数量的概率很高。特别是,我们表明,在某些额外的假设下,可以在$ NQS = \ \ \θ(1)$制度中实现部分恢复。
translated by 谷歌翻译
Bradley-terry-luce(BTL)模型是一个基准模型,用于个人之间的成对比较。尽管最近在几种流行程序的一阶渐近学上进行了最新进展,但对BTL模型中不确定性定量的理解基本上仍然不完整,尤其是当基础比较图很少时。在本文中,我们通过重点关注两个估计量的估计器来填补这一空白:最大似然估计器(MLE)和频谱估计器。使用统一的证明策略,我们在基础比较图的最稀少的可能的制度(最多达到某些多同源因​​素)中,为两个估计量提供了尖锐而均匀的非反应膨胀。这些扩展使我们能够获得:(i)两个估计器的有限维中心限制定理; (ii)构建个人等级的置信区间; (iii)$ \ ell_2 $估计的最佳常数,这是由MLE实现的,但不是由光谱估计器实现的。我们的证明是基于二阶剩余矢量的自洽方程和新的两次分析分析。
translated by 谷歌翻译
社区检测是网络科学中的一个基本问题。在本文中,我们考虑了从$ HyperGraph $ $ $ $ $ $ $ $ $ $ $ $ $ $ $(HSBM)中绘制的HyperGraphs中的社区检测,重点是精确的社区恢复。在整个超图未知的情况下,我们研究了多项式时间算法以进行社区检测的性能。取而代之的是,我们获得了$相似性$ $ $ $ $ $ $ w $,其中$ w_ {ij} $报告包含$ i $和$ j $的超补品的数量。在此信息模型下,Kim,Bandeira和Goemans [KBG18]确定了信息理论阈值,以进行精确恢复,并提出了他们认为是最佳的半决赛编程松弛。在本文中,我们确认了这个猜想。我们还表明,一种简单,高效的光谱算法是最佳的,将光谱算法作为选择方法。我们对光谱算法的分析至关重要地依赖于$ w $的特征向量上的强$ entrywise $界限。我们的边界灵感来自Abbe,Fan,Wang和Zhong [AFWZ20]的工作,他们开发了具有独立条目的对称矩阵的特征向量的进入界。尽管相似性矩阵的依赖性结构复杂,但我们证明了相似的入口保证。
translated by 谷歌翻译
对于高维和非参数统计模型,速率最优估计器平衡平方偏差和方差是一种常见的现象。虽然这种平衡被广泛观察到,但很少知道是否存在可以避免偏差和方差之间的权衡的方法。我们提出了一般的策略,以获得对任何估计方差的下限,偏差小于预先限定的界限。这表明偏差差异折衷的程度是不可避免的,并且允许量化不服从其的方法的性能损失。该方法基于许多抽象的下限,用于涉及关于不同概率措施的预期变化以及诸如Kullback-Leibler或Chi-Sque-diversence的信息措施的变化。其中一些不平等依赖于信息矩阵的新概念。在该物品的第二部分中,将抽象的下限应用于几种统计模型,包括高斯白噪声模型,边界估计问题,高斯序列模型和高维线性回归模型。对于这些特定的统计应用,发生不同类型的偏差差异发生,其实力变化很大。对于高斯白噪声模型中集成平方偏置和集成方差之间的权衡,我们将较低界限的一般策略与减少技术相结合。这允许我们将原始问题与估计的估计器中的偏差折衷联动,以更简单的统计模型中具有额外的对称性属性。在高斯序列模型中,发生偏差差异的不同相位转换。虽然偏差和方差之间存在非平凡的相互作用,但是平方偏差的速率和方差不必平衡以实现最小估计速率。
translated by 谷歌翻译
我们考虑对称二进制Perceptron模型,这是一个简单的神经网络模型,在统计物理学,信息理论和概率理论社区中具有重大关注,最近的连接对Baldassi等人的学习算法进行了性能。 '15。我们确定该模型的分区功能,由其预期值归一化,会聚到Lognormal分布。因此,这允许我们为此模型建立几个猜想:(i)证明Aubin等人的默默是普及猜想。 '19在满足政权中的种植和漂白模型之间; (ii)它建立了尖锐的阈值猜想; (iii)证明了对称案例中的冷冻1-RSB猜想,首先在非对称情况下首先召集了Krauth-M \'Ezard'89。在最近的Perkins-XU '21的工作中,还通过证明分区功能集中在实际值函数上的分析假设下,还建立了最后两个猜想。左侧打开默认的猜想和逻辑正常限制表征,这些表征在此无条件地建立,具有验证的分析假设。特别是,我们的证明技术依赖于小型曲调调节方法的密集对抗部分,该方法是为罗宾逊和Wormald庆典工作中的稀疏模型而开发的。
translated by 谷歌翻译
鉴于$ n $ i.i.d.从未知的分发$ P $绘制的样本,何时可以生成更大的$ n + m $ samples,这些标题不能与$ n + m $ i.i.d区别区别。从$ p $绘制的样品?(AXELROD等人2019)将该问题正式化为样本放大问题,并为离散分布和高斯位置模型提供了最佳放大程序。然而,这些程序和相关的下限定制到特定分布类,对样本扩增的一般统计理解仍然很大程度上。在这项工作中,我们通过推出通常适用的放大程序,下限技术和与现有统计概念的联系来放置对公司统计基础的样本放大问题。我们的技术适用于一大类分布,包括指数家庭,并在样本放大和分配学习之间建立严格的联系。
translated by 谷歌翻译
给定$ n $数据点$ \ mathbb {r}^d $中的云,请考虑$ \ mathbb {r}^d $的$ m $ dimensional子空间预计点。当$ n,d $增长时,这一概率分布的集合如何?我们在零模型下考虑了这个问题。标准高斯矢量,重点是渐近方案,其中$ n,d \ to \ infty $,$ n/d \ to \ alpha \ in(0,\ infty)$,而$ m $是固定的。用$ \ mathscr {f} _ {m,\ alpha} $表示$ \ mathbb {r}^m $中的一组概率分布,在此限制中以低维度为单位,我们在此限制中建立了新的内部和外部界限$ \ mathscr {f} _ {m,\ alpha} $。特别是,我们将$ \ mathscr {f} _ {m,\ alpha} $的Wasserstein Radius表征为对数因素,并以$ M = 1 $确切确定它。我们还通过kullback-leibler差异和r \'{e} NYI信息维度证明了尖锐的界限。上一个问题已应用于无监督的学习方法,例如投影追求和独立的组件分析。我们介绍了与监督学习相关的相同问题的版本,并证明了尖锐的沃斯坦斯坦半径绑定。作为一个应用程序,我们在具有$ M $隐藏神经元的两层神经网络的插值阈值上建立了上限。
translated by 谷歌翻译
在负面的感知问题中,我们给出了$ n $数据点$({\ boldsymbol x} _i,y_i)$,其中$ {\ boldsymbol x} _i $是$ d $ -densional vector和$ y_i \ in \ { + 1,-1 \} $是二进制标签。数据不是线性可分离的,因此我们满足自己的内容,以找到最大的线性分类器,具有最大的\ emph {否定}余量。换句话说,我们想找到一个单位常规矢量$ {\ boldsymbol \ theta} $,最大化$ \ min_ {i \ le n} y_i \ langle {\ boldsymbol \ theta},{\ boldsymbol x} _i \ rangle $ 。这是一个非凸优化问题(它相当于在Polytope中找到最大标准矢量),我们在两个随机模型下研究其典型属性。我们考虑比例渐近,其中$ n,d \ to \ idty $以$ n / d \ to \ delta $,并在最大边缘$ \ kappa _ {\ text {s}}(\ delta)上证明了上限和下限)$或 - 等效 - 在其逆函数$ \ delta _ {\ text {s}}(\ kappa)$。换句话说,$ \ delta _ {\ text {s}}(\ kappa)$是overparametization阈值:以$ n / d \ le \ delta _ {\ text {s}}(\ kappa) - \ varepsilon $一个分类器实现了消失的训练错误,具有高概率,而以$ n / d \ ge \ delta _ {\ text {s}}(\ kappa)+ \ varepsilon $。我们在$ \ delta _ {\ text {s}}(\ kappa)$匹配,以$ \ kappa \ to - \ idty $匹配。然后,我们分析了线性编程算法来查找解决方案,并表征相应的阈值$ \ delta _ {\ text {lin}}(\ kappa)$。我们观察插值阈值$ \ delta _ {\ text {s}}(\ kappa)$和线性编程阈值$ \ delta _ {\ text {lin {lin}}(\ kappa)$之间的差距,提出了行为的问题其他算法。
translated by 谷歌翻译
我们调查与高斯的混合的数据分享共同但未知,潜在虐待协方差矩阵的数据。我们首先考虑具有两个等级大小的组件的高斯混合,并根据最大似然估计导出最大切割整数程序。当样品的数量在维度下线性增长时,我们证明其解决方案实现了最佳的错误分类率,直到对数因子。但是,解决最大切割问题似乎是在计算上棘手的。为了克服这一点,我们开发了一种高效的频谱算法,该算法达到最佳速率,但需要一种二次样本量。虽然这种样本复杂性比最大切割问题更差,但我们猜测没有多项式方法可以更好地执行。此外,我们收集了支持统计计算差距存在的数值和理论证据。最后,我们将MAX-CUT程序概括为$ k $ -means程序,该程序处理多组分混合物的可能性不平等。它享有相似的最优性保证,用于满足运输成本不平等的分布式的混合物,包括高斯和强烈的对数的分布。
translated by 谷歌翻译
假设$ g $是根据所谓的HyperGraph随机块模型(HSBM)产生的,我们考虑了稀疏$ Q $均匀的HyperGraph $ G $中的社区检测问题。我们证明,基于非折线操作员的光谱方法具有很高的概率,可以降低到Angelini等人猜想的广义kesten-Stigum检测阈值。我们表征了稀疏HSBM的非背带操作员的频谱,并使用Ihara-Bass公式为超图提供有效的尺寸降低程序。结果,可以将稀疏HSBM的社区检测减少为$ 2N \ times 2n $非正态矩阵的特征向量问题,该矩阵从邻接矩阵和超级格雷普的学位矩阵中构建。据我们所知,这是第一种可证明,有效的光谱算法,它可以根据一般对称概率张量生成$ K $块的HSBMS阈值。
translated by 谷歌翻译
近似消息传递(AMP)是解决高维统计问题的有效迭代范式。但是,当迭代次数超过$ o \ big(\ frac {\ log n} {\ log log \ log \ log n} \时big)$(带有$ n $问题维度)。为了解决这一不足,本文开发了一个非吸附框架,用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项,我们布置了一个分析配方,以表征在存在独立初始化的情况下AMP的有限样本行为,该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果:(i)求解$ \ mathbb {z} _2 $同步时,我们预测了频谱初始化AMP的行为,最高为$ o \ big(\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big)$迭代,表明该算法成功而无需随后的细化阶段(如最近由\ citet {celentano2021local}推测); (ii)我们表征了稀疏PCA中AMP的非反应性行为(在尖刺的Wigner模型中),以广泛的信噪比。
translated by 谷歌翻译
本文研究了由$ N $-$ N $ TCONOR代表的非二进制对交互估计的社区成员资格,其值为$ \ MATHCAL S $的元素,其中$ N $是节点的数量和$ \ Mathcal S $是节点之间的成对交互的空间。作为信息理论基准,我们研究由非二进制随机块模型生成的数据集,并导致社区成员资格的基本信息标准作为$ n \ to \ idty $。应用程序的示例包括加权网络($ \ mathcal s = \ mathbb r $),链接标记的网络$(\ mathcal s = \ {0,1,1,\ dots,l \} $),多路复用网络$(\ mathcal s = \ {0,1 \} ^ m $)和时间网络($ \ mathcal s = \ {0,1 \} ^ t $)。对于时间互动,我们表明(i)即使是$ t $的少数增加也可能对社区成员的恢复产生了很大影响,(ii)即使对于非常稀疏的数据(例如\ in in inverly degress),甚至可能存在一致的恢复$ t $足够大。我们还提供了几种离线和在线的估计算法,它充分利用了观察到的数据的时间性。我们在数据稀疏性和可识别性的各种假设下分析所提出的估计算法的准确性。数值实验表明,即使是社区分配的初始估计(例如,盲目随机猜测)也会导致在少量迭代之后通过在线算法获得的高精度,并且在非常稀疏的方案中也是如此。
translated by 谷歌翻译