我们考虑基于嘈杂的成对比较恢复一组$ N $项等级的问题。我们假设SST类作为生成模型的家庭。我们的分析为确切要求提供了尖锐的信息理论和下限,符合参数限制。我们对瞬间方法引起的算法的严格分析在最低限度的最佳速率下比〜\ CiteT {Shah2017Simple}更好地持续,并有助于他们的公开问题。我们在这项工作中使用的策略以获取信息理论界的基于组合论点,并且是独立的兴趣。
translated by 谷歌翻译
我们考虑一个矩阵完成问题,用于将社交或项目相似性图形作为侧面信息。我们开发了一种普遍的,无参数和计算的有效算法,该算法以分层图形聚类开始,然后迭代地改进图形聚类和矩阵额定值。在一个层次的随机块模型,尊重实际相关的社交图和低秩评级矩阵模型(要详细),我们证明了我们的算法实现了观察到的矩阵条目数量的信息 - 理论限制(即,最佳通过与较低的不可能结果一起导出的样本复杂性)通过最大似然估计。该结果的一个结果是利用社交图的层次结构,相对于简单地识别不同组的情况,在不诉诸于它们的情况下,可以产生相对于不同组的样本复杂性的大量增益。我们对合成和现实世界数据集进行了广泛的实验,以证实我们的理论结果,并展示了利用图形侧信息的其他矩阵完成算法的显着性能改进。
translated by 谷歌翻译
随机块模型(SBM)是一个随机图模型,其连接不同的顶点组不同。它被广泛用作研究聚类和社区检测的规范模型,并提供了肥沃的基础来研究组合统计和更普遍的数据科学中出现的信息理论和计算权衡。该专着调查了最近在SBM中建立社区检测的基本限制的最新发展,无论是在信息理论和计算方案方面,以及各种恢复要求,例如精确,部分和弱恢复。讨论的主要结果是在Chernoff-Hellinger阈值中进行精确恢复的相转换,Kesten-Stigum阈值弱恢复的相变,最佳的SNR - 单位信息折衷的部分恢复以及信息理论和信息理论之间的差距计算阈值。该专着给出了在寻求限制时开发的主要算法的原则推导,特别是通过绘制绘制,半定义编程,(线性化)信念传播,经典/非背带频谱和图形供电。还讨论了其他块模型的扩展,例如几何模型和一些开放问题。
translated by 谷歌翻译
社区检测是指将网络的节点(图形或超rah)聚类为组的问题。各种算法可用于社区检测,并且所有这些方法都适用于未经审查的网络。在实践中,网络可能已经审查(或丢失)值,并且示出了对网络的结构特性具有不可忽略的影响。在本文中,我们研究了从信息 - 理论的观点中审查了C博斯福达M $的群体检测。我们派生了信息理论阈值以确切恢复社区结构。此外,我们提出了一种多项式 - 时间算法来完全恢复到阈值的社区结构。所提出的算法包括光谱算法以及细化步骤。研究是否没有细化的单谱算法是否达到阈值也很有意思。为此,我们还探讨了半定放松算法并分析了其性能。
translated by 谷歌翻译
The stochastic block model (SBM) is a random graph model with planted clusters. It is widely employed as a canonical model to study clustering and community detection, and provides generally a fertile ground to study the statistical and computational tradeoffs that arise in network and data sciences.This note surveys the recent developments that establish the fundamental limits for community detection in the SBM, both with respect to information-theoretic and computational thresholds, and for various recovery requirements such as exact, partial and weak recovery (a.k.a., detection). The main results discussed are the phase transitions for exact recovery at the Chernoff-Hellinger threshold, the phase transition for weak recovery at the Kesten-Stigum threshold, the optimal distortion-SNR tradeoff for partial recovery, the learning of the SBM parameters and the gap between information-theoretic and computational thresholds.The note also covers some of the algorithms developed in the quest of achieving the limits, in particular two-round algorithms via graph-splitting, semi-definite programming, linearized belief propagation, classical and nonbacktracking spectral methods. A few open problems are also discussed.
translated by 谷歌翻译
我们研究了小组测试问题,其目标是根据合并测试的结果,确定一组k感染的人,这些k含有稀有疾病,这些人在经过测试中至少有一个受感染的个体时返回阳性的结果。团体。我们考虑将个人分配给测试的两个不同的简单随机过程:恒定柱设计和伯努利设计。我们的第一组结果涉及基本统计限制。对于恒定柱设计,我们给出了一个新的信息理论下限,这意味着正确识别的感染者的比例在测试数量越过特定阈值时会经历急剧的“全或全或无所不包”的相变。对于Bernoulli设计,我们确定解决相关检测问题所需的确切测试数量(目的是区分小组测试实例和纯噪声),改善Truong,Aldridge和Scarlett的上限和下限(2020)。对于两个小组测试模型,我们还研究了计算有效(多项式时间)推理程序的能力。我们确定了解决检测问题的低度多项式算法所需的精确测试数量。这为在少量稀疏度的检测和恢复问题中都存在固有的计算统计差距提供了证据。值得注意的是,我们的证据与Iliopoulos和Zadik(2021)相反,后者预测了Bernoulli设计中没有计算统计差距。
translated by 谷歌翻译
Bradley-terry-luce(BTL)模型是一种流行的统计方法,用于使用成对比较估算项目集合的全局排名。为了确保准确的排名,必须在$ \ ell _ {\ infty} $损失中获得模型参数的精确估计。该任务的难度取决于给定项目对成对比较图的拓扑。但是,除了很少有良好的情况外,例如完整和ERD \“ OS-r \'enyi比较图,对$ \ ell_中BTL模型参数的最大似然估计量mLE的性能鲜为人知。 {\ infty} $ - 在更通用的图形拓扑下的损失。在本文中,我们在$ \ ell _ {\ infty} $估计错误的btl mLE估计误差上得出了小说的一般上限,该错误明确取决于比较的代数连接性图,跨项目和样本复杂性的最大性能差距。我们证明,与使用不同的损失函数以及更受限制的假设和图形拓扑获得的已知结果相比,派生的界限性能很好,并且在某些情况下相比更为敏锐。我们将结果仔细比较我们的结果与我们的结果进行比较。 Yan等人(2012年),它在精神上最接近我们的工作。我们进一步提供了$ \ ell _ {\ infty} $下的最小值下限 - 错误几乎与一类足够常规的图形拓扑相匹配。最后。 ,我们St udy,我们的$ \ ell _ {\ infty} $的含义是高效(离线)锦标赛设计的界限。我们通过各种示例和模拟来说明和讨论我们的发现。
translated by 谷歌翻译
我们研究了稀疏张量主成分分析的问题:给定张量$ \ pmb y = \ pmb w + \ lambda x ^ {\ otimes p} $ with $ \ pmb w \ in \ otimes ^ p \ mathbb {r} ^ n $拥有iid高斯条目,目标是恢复$ k $ -parse单位矢量$ x \ in \ mathbb {r} ^ n $。该模型捕获稀疏PCA(其Wigner形式)和张量PCA。对于$ k \ leq \ sqrt {n} $的高稀疏制度,我们介绍了一系列平滑地插值在简单的多项式算法和指数时穷举搜索算法之间的算法。对于任何$ 1 \ leq t \ leq k $,我们的算法恢复了信噪比$ \ lambda \ geq \ tilde {\ mathcal {o}}(\ sqrt {t} \ cdot(k / t )^ {p / 2})$时间$ \ tilde {\ mathcal {o}}(n ^ {p + t})$,捕获矩阵设置的最先进的保证(在两者中多项式时间和子指数时间制度)。我们的结果自然地延伸到$ r $ distinct $ k $ -parse信号的案例与不相交的支持,保证与尖峰的数量无关。即使在稀疏PCA的局限性情况下,已知的算法也仅恢复$ \ lambda \ geq \ tilde {\ mathcal {o}}(k \ cdot r)$的稀疏向量,而我们的算法需要$ \ lambda \ geq \ tilde { \ mathcal {o}}(k)$。最后,通过分析低度似然比,我们将这些算法结果补充,具体证据说明信噪比和运行时间之间的权衡。该下限捕获稀疏PCA和张量PCA的已知下限。在这一普通模型中,我们在标准数量$ N $,稀疏$ k $的样本数量之间观察更复杂的三方权衡,以及张力电源$ p $。
translated by 谷歌翻译
本文研究了在两个边缘相关随机图之间恢复隐藏顶点对应的问题。我们专注于两个图形的高斯模型,其中两个图表是具有相关的高斯权重的完整图表和eRD \ h {o} sr \'enyi模型,其中两个图形是从常见的父erd \ h {o} sr \'enyi附带的图$ \ mathcal {g}(n,p)$。对于以$ p = n ^ { - o(1)} $的密集图,我们证明存在尖锐的阈值,上面可以正确地匹配,而是可以正确地匹配顶点的所有消失的分数,下面是不可能正确匹配的任何正部分的下降,一种称为“全无或无关”相转变的现象。更广泛地,在高斯环境中,高于阈值,所有顶点都可以与高概率完全匹配。相比之下,对于稀疏的ERD \ h {o} sr \'enyi图表,以$ p = n ^ { - \ theta(1)} $,我们表明全部或全无的现象不再持有,我们确定阈值达到恒定因素。沿途,我们还导出了精确恢复的尖锐阈值,锐化了ERD \ H {O} S-R'enyi图中的现有结果。负面结果的证明在基于截断的第二时刻计算和“区域定理”的相互信息的紧密表征之上构建,该“区域定理”将相互信息与重建误差的积分相关联。阳性结果从对最大似然估计器的严格分析,考虑到边缘上诱导置换的循环结构。
translated by 谷歌翻译
在本文中,我们解决了测试两个观察到的树$(t,t')$是独立采样还是从它们相关的联合分布中进行采样的问题。这个问题我们称为树中的相关检测,在两个相关随机图的图形对齐中起着关键作用。通过图形对准,我们研究了单方面测试的存在条件,即具有I型误差和非呈现能力的消失的测试。对于带有平均$ \ lambda的Poisson后代的相关Galton-Watson模型,我们在(0,1)$中$ s $ s \ s $ s \ in(0,1)$,我们在$ s = \ sqrt { \ alpha} $,其中$ \ alpha \ sim 0.3383 $是Otter的常数。也就是说,我们证明,对于$ s \ leq \ sqrt {\ alpha} $,不存在此类测试,并且每当$ \ sqrt {\ alpha} $,$ \ lambda $ for Empoot Foom Foom时,就存在此类测试。该结果为稀疏制度($ o(1)$平均节点度)以及Ganassali等人研究的MPALIGN方法的性能提供了有关图形对准问题的新启示。 (2021),Piccioli等。 (2021),特别是Piccioli等人的猜想。 (2021)MPALIGN在相关参数的部分恢复任务中取得成功,提供了平均节点度$ \ lambda $的平均节点$ \ lambda $足够大。
translated by 谷歌翻译
鉴于$ n $ i.i.d.从未知的分发$ P $绘制的样本,何时可以生成更大的$ n + m $ samples,这些标题不能与$ n + m $ i.i.d区别区别。从$ p $绘制的样品?(AXELROD等人2019)将该问题正式化为样本放大问题,并为离散分布和高斯位置模型提供了最佳放大程序。然而,这些程序和相关的下限定制到特定分布类,对样本扩增的一般统计理解仍然很大程度上。在这项工作中,我们通过推出通常适用的放大程序,下限技术和与现有统计概念的联系来放置对公司统计基础的样本放大问题。我们的技术适用于一大类分布,包括指数家庭,并在样本放大和分配学习之间建立严格的联系。
translated by 谷歌翻译
高维统计数据的一个基本目标是检测或恢复嘈杂数据中隐藏的种植结构(例如低级别矩阵)。越来越多的工作研究低级多项式作为此类问题的计算模型的限制模型:在各种情况下,数据的低级多项式可以与最知名的多项式时间算法的统计性能相匹配。先前的工作已经研究了低度多项式的力量,以检测隐藏结构的存在。在这项工作中,我们将这些方法扩展到解决估计和恢复问题(而不是检测)。对于大量的“信号加噪声”问题,我们给出了一个用户友好的下限,以获得最佳的均衡误差。据我们所知,这些是建立相关检测问题的恢复问题低度硬度的第一个结果。作为应用,我们对种植的子静脉和种植的密集子图问题的低度最小平方误差进行了严格的特征,在两种情况下都解决了有关恢复的计算复杂性的开放问题(在低度框架中)。
translated by 谷歌翻译
我们在非均匀超图随机块模型(HSBM)下的稀疏随机超图中的社区检测问题,是社区结构的随机网络的一般模型和高阶交互。当随机超图具有界定的预期度时,我们提供了一种频谱算法,该频谱算法输出分区,其中至少有$ \ gamma $分数正确分类,其中$ \ gamma \ in(0.5,1)$取决于信号 - 模型的噪声比(SNR)。当SNR随着顶点的数量转到无限的时,SNR慢慢地增长,我们的算法达到了弱的一致性,这改善了Ghoshdastidar和Dukkipati(2017)的上一个结果,用于非均匀的HSBMS。我们的谱算法由三个主要步骤组成:(1)HIFFEGE选择:选择某些尺寸的超高率,为诱导的子图像提供最大信噪比; (2)光谱分区:构造正则化邻接矩阵,并基于奇异向量获得近似分区; (3)纠正和合并:将超代表信息从邻接张于升级升级错误率保证。我们的算法的理论分析依赖于稀疏非均匀随机超图的邻接矩阵的浓度和正则化,这可以是独立的兴趣。
translated by 谷歌翻译
社区检测是网络科学中的一个基本问题。在本文中,我们考虑了从$ HyperGraph $ $ $ $ $ $ $ $ $ $ $ $ $ $ $(HSBM)中绘制的HyperGraphs中的社区检测,重点是精确的社区恢复。在整个超图未知的情况下,我们研究了多项式时间算法以进行社区检测的性能。取而代之的是,我们获得了$相似性$ $ $ $ $ $ $ w $,其中$ w_ {ij} $报告包含$ i $和$ j $的超补品的数量。在此信息模型下,Kim,Bandeira和Goemans [KBG18]确定了信息理论阈值,以进行精确恢复,并提出了他们认为是最佳的半决赛编程松弛。在本文中,我们确认了这个猜想。我们还表明,一种简单,高效的光谱算法是最佳的,将光谱算法作为选择方法。我们对光谱算法的分析至关重要地依赖于$ w $的特征向量上的强$ entrywise $界限。我们的边界灵感来自Abbe,Fan,Wang和Zhong [AFWZ20]的工作,他们开发了具有独立条目的对称矩阵的特征向量的进入界。尽管相似性矩阵的依赖性结构复杂,但我们证明了相似的入口保证。
translated by 谷歌翻译
本文研究了一般D-均匀的HyperGraph随机块模型(D-HSBM)中精确恢复的基本限制,其中n个节点被分配到具有相对大小的k差异群落中(p1,...,pk)。具有基数d的节点的每个子集都是独立生成的,作为订单-D超边,其一定概率取决于D节点所属的地面真相群落。目标是根据观察到的超图准确地恢复K隐藏的社区。我们表明存在一个尖锐的阈值,因此可以在阈值之上实现精确的恢复,而不可能在阈值以下(除了将精确指定的小参数制度之外)。该阈值是根据我们称为社区之间普遍的Chernoff-Hellinger分歧的数量来表示的。我们对该通用模型的结果恢复了标准SBM和D-HSBM的先前结果,其中两个对称群落作为特殊情况。在证明我们的可实现结果的途径中,我们开发了一种符合阈值的多项式两阶段算法。第一阶段采用某种超图光谱聚类方法来获得社区的粗略估计,第二阶段通过局部细化步骤单独完善每个节点,以确保精确恢复。
translated by 谷歌翻译
Motivated by alignment of correlated sparse random graphs, we introduce a hypothesis testing problem of deciding whether or not two random trees are correlated. We obtain sufficient conditions under which this testing is impossible or feasible. We propose MPAlign, a message-passing algorithm for graph alignment inspired by the tree correlation detection problem. We prove MPAlign to succeed in polynomial time at partial alignment whenever tree detection is feasible. As a result our analysis of tree detection reveals new ranges of parameters for which partial alignment of sparse random graphs is feasible in polynomial time. We then conjecture that graph alignment is not feasible in polynomial time when the associated tree detection problem is impossible. If true, this conjecture together with our sufficient conditions on tree detection impossibility would imply the existence of a hard phase for graph alignment, i.e. a parameter range where alignment cannot be done in polynomial time even though it is known to be feasible in non-polynomial time.
translated by 谷歌翻译
随机奇异值分解(RSVD)是用于计算大型数据矩阵截断的SVD的一类计算算法。给定A $ n \ times n $对称矩阵$ \ mathbf {m} $,原型RSVD算法输出通过计算$ \ mathbf {m mathbf {m} $的$ k $引导singular vectors的近似m}^{g} \ mathbf {g} $;这里$ g \ geq 1 $是一个整数,$ \ mathbf {g} \ in \ mathbb {r}^{n \ times k} $是一个随机的高斯素描矩阵。在本文中,我们研究了一般的“信号加上噪声”框架下的RSVD的统计特性,即,观察到的矩阵$ \ hat {\ mathbf {m}} $被认为是某种真实但未知的加法扰动信号矩阵$ \ mathbf {m} $。我们首先得出$ \ ell_2 $(频谱规范)和$ \ ell_ {2 \ to \ infty} $(最大行行列$ \ ell_2 $ norm)$ \ hat {\ hat {\ Mathbf {M}} $和信号矩阵$ \ Mathbf {M} $的真实单数向量。这些上限取决于信噪比(SNR)和功率迭代$ g $的数量。观察到一个相变现象,其中较小的SNR需要较大的$ g $值以保证$ \ ell_2 $和$ \ ell_ {2 \ to \ fo \ infty} $ distances的收敛。我们还表明,每当噪声矩阵满足一定的痕量生长条件时,这些相变发生的$ g $的阈值都会很清晰。最后,我们得出了近似奇异向量的行波和近似矩阵的进入波动的正常近似。我们通过将RSVD的几乎最佳性能保证在应用于三个统计推断问题的情况下,即社区检测,矩阵完成和主要的组件分析,并使用缺失的数据来说明我们的理论结果。
translated by 谷歌翻译
对于高维和非参数统计模型,速率最优估计器平衡平方偏差和方差是一种常见的现象。虽然这种平衡被广泛观察到,但很少知道是否存在可以避免偏差和方差之间的权衡的方法。我们提出了一般的策略,以获得对任何估计方差的下限,偏差小于预先限定的界限。这表明偏差差异折衷的程度是不可避免的,并且允许量化不服从其的方法的性能损失。该方法基于许多抽象的下限,用于涉及关于不同概率措施的预期变化以及诸如Kullback-Leibler或Chi-Sque-diversence的信息措施的变化。其中一些不平等依赖于信息矩阵的新概念。在该物品的第二部分中,将抽象的下限应用于几种统计模型,包括高斯白噪声模型,边界估计问题,高斯序列模型和高维线性回归模型。对于这些特定的统计应用,发生不同类型的偏差差异发生,其实力变化很大。对于高斯白噪声模型中集成平方偏置和集成方差之间的权衡,我们将较低界限的一般策略与减少技术相结合。这允许我们将原始问题与估计的估计器中的偏差折衷联动,以更简单的统计模型中具有额外的对称性属性。在高斯序列模型中,发生偏差差异的不同相位转换。虽然偏差和方差之间存在非平凡的相互作用,但是平方偏差的速率和方差不必平衡以实现最小估计速率。
translated by 谷歌翻译
本文研究了聚类基质值观测值的计算和统计限制。我们提出了一个低级别的混合模型(LRMM),该模型适用于经典的高斯混合模型(GMM)来处理基质值观测值,该观测值假设人口中心矩阵的低级别。通过集成Lloyd算法和低级近似值设计了一种计算有效的聚类方法。一旦定位良好,该算法将快速收敛并达到最小值最佳的指数型聚类错误率。同时,我们表明一种基于张量的光谱方法可提供良好的初始聚类。与GMM相当,最小值最佳聚类错误率是由分离强度(即种群中心矩阵之间的最小距离)决定的。通过利用低级度,提出的算法对分离强度的要求较弱。但是,与GMM不同,LRMM的统计难度和计算难度的特征是信号强度,即最小的人口中心矩阵的非零奇异值。提供了证据表明,即使信号强度不够强,即使分离强度很强,也没有多项式时间算法是一致的。在高斯以下噪声下进一步证明了我们低级劳埃德算法的性能。讨论了LRMM下估计和聚类之间的有趣差异。通过全面的仿真实验证实了低级劳埃德算法的优点。最后,我们的方法在现实世界数据集的文献中优于其他方法。
translated by 谷歌翻译
在因果推理和强盗文献中,基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序,然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限:这些边界表明,为了获得非反应性最佳程序,应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序,并通过匹配非轴突局部局部最小值下限,在有限样品中建立了实例依赖性最优性。这些结果表明,除了取决于渐近效率方差之外,最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。
translated by 谷歌翻译