我们研究在大型增长网络中找到根顶点的问题。我们证明,可以构建大小的置信集,而不是网络中包含root顶点的顶点的数量,在各种随机网络的各种模型中都具有很高的概率。这些模型包括均匀的随机递归dag和统一的库珀 - 弗里兹随机图。
translated by 谷歌翻译
本文讨论了ERD \ H {O} S-R \'enyi图的图形匹配或网络对齐问题,可以将其视为图同构问题的嘈杂平均案例版本。令$ g $和$ g'$ be $ g(n,p)$ erd \ h {o} s--r \'enyi略微图形,并用其邻接矩阵识别。假设$ g $和$ g'$是相关的,因此$ \ mathbb {e} [g_ {ij} g'_ {ij}] = p(1- \ alpha)$。对于置换$ \ pi $,代表$ g $和$ g'$之间的潜在匹配,用$ g^\ pi $表示从$ \ pi $的$ g $的顶点获得的图表。观察$ g^\ pi $和$ g'$,我们的目标是恢复匹配的$ \ pi $。在这项工作中,我们证明,在(0,1] $中,每$ \ varepsilon \ in(0,1] $,都有$ n_0> 0 $,具体取决于$ \ varepsilon $和绝对常数$ \ alpha_0,r> 0 $,带有以下属性。令$ n \ ge n_0 $,$(1+ \ varepsilon)\ log n \ le np \ le n^{\ frac {1} {r \ log \ log \ log n}} $ (\ alpha_0,\ varepsilon/4)$。有一个多项式时算法$ f $,因此$ \ m athbb {p} \ {f(g^\ pi,g')= \ pi \} = 1-o (1)$。这是第一种多项式时算法,它恢复了相关的ERD \ H {O} S-r \'enyi图与具有恒定相关性的相关性图与高概率相关性的确切匹配。该算法是基于比较的比较与图形顶点关联的分区树。
translated by 谷歌翻译
我们根据计算一个扎根于每个顶点的某个加权树的家族而构成的相似性得分提出了一种有效的图形匹配算法。对于两个erd \ h {o} s-r \'enyi图$ \ mathcal {g}(n,q)$,其边缘通过潜在顶点通信相关联,我们表明该算法正确地匹配了所有范围的范围,除了所有的vertices分数外,有了很高的概率,前提是$ nq \ to \ infty $,而边缘相关系数$ \ rho $满足$ \ rho^2> \ alpha \ ailpha \大约0.338 $,其中$ \ alpha $是Otter的树木计数常数。此外,在理论上是必需的额外条件下,可以精确地匹配。这是第一个以显式常数相关性成功的多项式图匹配算法,并适用于稀疏和密集图。相比之下,以前的方法要么需要$ \ rho = 1-o(1)$,要么仅限于稀疏图。该算法的症结是一个经过精心策划的植根树的家族,称为吊灯,它可以有效地从同一树的计数中提取图形相关性,同时抑制不同树木之间的不良相关性。
translated by 谷歌翻译
Motivated by alignment of correlated sparse random graphs, we introduce a hypothesis testing problem of deciding whether or not two random trees are correlated. We obtain sufficient conditions under which this testing is impossible or feasible. We propose MPAlign, a message-passing algorithm for graph alignment inspired by the tree correlation detection problem. We prove MPAlign to succeed in polynomial time at partial alignment whenever tree detection is feasible. As a result our analysis of tree detection reveals new ranges of parameters for which partial alignment of sparse random graphs is feasible in polynomial time. We then conjecture that graph alignment is not feasible in polynomial time when the associated tree detection problem is impossible. If true, this conjecture together with our sufficient conditions on tree detection impossibility would imply the existence of a hard phase for graph alignment, i.e. a parameter range where alignment cannot be done in polynomial time even though it is known to be feasible in non-polynomial time.
translated by 谷歌翻译
我们开发了一种高效的随机块模型中的弱恢复算法。该算法与随机块模型的Vanilla版本的最佳已知算法的统计保证匹配。从这个意义上讲,我们的结果表明,随机块模型没有稳健性。我们的工作受到最近的银行,Mohanty和Raghavendra(SODA 2021)的工作,为相应的区别问题提供了高效的算法。我们的算法及其分析显着脱离了以前的恢复。关键挑战是我们算法的特殊优化景观:种植的分区可能远非最佳意义,即完全不相关的解决方案可以实现相同的客观值。这种现象与PCA的BBP相转变的推出效应有关。据我们所知,我们的算法是第一个在非渐近设置中存在这种推出效果的鲁棒恢复。我们的算法是基于凸优化的框架的实例化(与平方和不同的不同),这对于其他鲁棒矩阵估计问题可能是有用的。我们的分析的副产物是一种通用技术,其提高了任意强大的弱恢复算法的成功(输入的随机性)从恒定(或缓慢消失)概率以指数高概率。
translated by 谷歌翻译
$ N $ -Quens配置是$ N \ Times N $ Chessboard的$ N $相互非攻击座位的位置。Nauck在1850年介绍的$ N $ -Queens完井问题是决定是否可以将给定的部分配置完成为$ N $ -Queens配置。在本文中,我们研究了这个问题的极端方面,即:部分配置必须小心,以便完成完成?我们表明,可以完成任何最多$ N / 60 $相互非攻击Queens的展示。我们还提供了大约N / 4 $ Queens的部分配置,不能完成,并制定一些有趣的问题。我们的证据将Queens问题与二角形图中的彩虹匹配连接,并使用概率参数以及线性编程二元性。
translated by 谷歌翻译
我们考虑对称二进制Perceptron模型,这是一个简单的神经网络模型,在统计物理学,信息理论和概率理论社区中具有重大关注,最近的连接对Baldassi等人的学习算法进行了性能。 '15。我们确定该模型的分区功能,由其预期值归一化,会聚到Lognormal分布。因此,这允许我们为此模型建立几个猜想:(i)证明Aubin等人的默默是普及猜想。 '19在满足政权中的种植和漂白模型之间; (ii)它建立了尖锐的阈值猜想; (iii)证明了对称案例中的冷冻1-RSB猜想,首先在非对称情况下首先召集了Krauth-M \'Ezard'89。在最近的Perkins-XU '21的工作中,还通过证明分区功能集中在实际值函数上的分析假设下,还建立了最后两个猜想。左侧打开默认的猜想和逻辑正常限制表征,这些表征在此无条件地建立,具有验证的分析假设。特别是,我们的证明技术依赖于小型曲调调节方法的密集对抗部分,该方法是为罗宾逊和Wormald庆典工作中的稀疏模型而开发的。
translated by 谷歌翻译
图形上的分层聚类是数据挖掘和机器学习中的一项基本任务,并在系统发育学,社交网络分析和信息检索等领域中进行了应用。具体而言,我们考虑了由于Dasgupta引起的层次聚类的最近普及的目标函数。以前(大约)最小化此目标函数的算法需要线性时间/空间复杂性。在许多应用程序中,底层图的大小可能很大,即使使用线性时间/空间算法,也可以在计算上具有挑战性。结果,人们对设计只能使用sublinear资源执行全局计算的算法有浓厚的兴趣。这项工作的重点是在三个经过良好的sublinear计算模型下研究大量图的层次聚类,分别侧重于时空,时间和通信,作为要优化的主要资源:(1)(动态)流模型。边缘作为流,(2)查询模型表示,其中使用邻居和度查询查询图形,(3)MPC模型,其中图边缘通过通信通道连接的几台机器进行了分区。我们在上面的所有三个模型中设计用于层次聚类的sublinear算法。我们算法结果的核心是图表中的剪切方面的视图,这使我们能够使用宽松的剪刀示意图进行分层聚类,同时仅引入目标函数中的较小失真。然后,我们的主要算法贡献是如何在查询模型和MPC模型中有效地构建所需形式的切割稀疏器。我们通过建立几乎匹配的下限来补充我们的算法结果,该界限排除了在每个模型中设计更好的算法的可能性。
translated by 谷歌翻译
在基于图形的应用程序中,一个常见的任务是查明(指示或无向)图中最重要或最重要的“中央”顶点,或根据图形的重要性对图表进行排名。为此,文献中已经提出了许多所谓的中心度度量,以评估图中哪些顶点是最重要的。里弗罗斯(Riveros)和萨拉斯(Salas)在ICDT 2020论文中提出了基于以下直觉原理的中心度度量:图中顶点的重要性是相对于``相关''连接的子读数的数量,称为子图基序,称为子图基序,周围。我们将上述原理得出的措施称为子图基措施。人们令人信服地认为,亚图主题措施非常适合图形数据库应用程序。尽管ICDT论文研究了子图案措施所享有的几种有利的特性,但它们的绝对表现力仍然很大程度上没有探索。这项工作的目的是精确表征子图主题措施家族的绝对表现力。
translated by 谷歌翻译
为了捕获许多社区检测问题的固有几何特征,我们建议使用一个新的社区随机图模型,我们称之为\ emph {几何块模型}。几何模型建立在\ emph {随机几何图}(Gilbert,1961)上,这是空间网络的随机图的基本模型之一,就像在ERD \ H上建立的良好的随机块模型一样{o} s-r \'{en} yi随机图。它也是受到社区发现中最新的理论和实际进步启发的随机社区模型的自然扩展。为了分析几何模型,我们首先为\ emph {Random Annulus图}提供新的连接结果,这是随机几何图的概括。自引入以来,已经研究了几何图的连通性特性,并且由于相关的边缘形成而很难分析它们。然后,我们使用随机环形图的连接结果来提供必要的条件,以有效地为几何块模型恢复社区。我们表明,一种简单的三角计数算法来检测几何模型中的社区几乎是最佳的。为此,我们考虑了两个图密度方案。在图表的平均程度随着顶点的对数增长的状态中,我们表明我们的算法在理论上和实际上都表现出色。相比之下,三角计数算法对于对数学度方案中随机块模型远非最佳。我们还查看了图表的平均度与顶点$ n $的数量线性增长的状态,因此要存储一个需要$ \ theta(n^2)$内存的图表。我们表明,我们的算法需要在此制度中仅存储$ o(n \ log n)$边缘以恢复潜在社区。
translated by 谷歌翻译
本文涉及来自神经网络研究的一些非线性随机矩阵集合的最大特征值的渐近分布。更确切地说,我们考虑$ m = \ frac {1} {m} yy ^ \ top $ w $ y = f(wx)$ worth w $和$ x $ with w $和$ x $是随机矩形矩阵。以中心的条目。这模拟了单层随机馈通神经网络的数据协方差矩阵或共轭内核。函数$ F $应用于entryWish,可以被视为神经网络的激活功能。我们表明,最大的特征值具有与某种众所周知的线性随机矩阵集合相同的极限(概率)。特别是,我们将非线性模型的最大特征值的渐近极限与信息 - 正噪声随机矩阵的渐近极限相关联,根据函数$ f $和$ w $和$ x的分发建立可能的阶段转换$。对于机器学习来说,这可能是有意义的。
translated by 谷歌翻译
Suppose we are given an $n$-dimensional order-3 symmetric tensor $T \in (\mathbb{R}^n)^{\otimes 3}$ that is the sum of $r$ random rank-1 terms. The problem of recovering the rank-1 components is possible in principle when $r \lesssim n^2$ but polynomial-time algorithms are only known in the regime $r \ll n^{3/2}$. Similar "statistical-computational gaps" occur in many high-dimensional inference tasks, and in recent years there has been a flurry of work on explaining the apparent computational hardness in these problems by proving lower bounds against restricted (yet powerful) models of computation such as statistical queries (SQ), sum-of-squares (SoS), and low-degree polynomials (LDP). However, no such prior work exists for tensor decomposition, largely because its hardness does not appear to be explained by a "planted versus null" testing problem. We consider a model for random order-3 tensor decomposition where one component is slightly larger in norm than the rest (to break symmetry), and the components are drawn uniformly from the hypercube. We resolve the computational complexity in the LDP model: $O(\log n)$-degree polynomial functions of the tensor entries can accurately estimate the largest component when $r \ll n^{3/2}$ but fail to do so when $r \gg n^{3/2}$. This provides rigorous evidence suggesting that the best known algorithms for tensor decomposition cannot be improved, at least by known approaches. A natural extension of the result holds for tensors of any fixed order $k \ge 3$, in which case the LDP threshold is $r \sim n^{k/2}$.
translated by 谷歌翻译
我们研究了与给定的无向图$ g $相对应的图形模型的最大似然估计的问题。我们表明,最大似然估计(MLE)是几个帐篷函数的指数的乘积,每个最大集团的$ g $。虽然图形模型中的一组对数符号密度是无限维度的,但我们的结果表明,可以通过求解有限维凸优化问题来找到MLE。我们提供实施和一些示例。此外,我们证明MLE存在并且具有概率为1,只要样品数量大于$ g $ chordal时最大的$ g $集团的大小。我们证明,当图$ g $是集团的不交联时,MLE是一致的。最后,我们讨论了$ g $的图形模型中的对数 - 串联密度在$ g $中具有对数符号分解的条件。
translated by 谷歌翻译
我们考虑从数据学习树结构ising模型的问题,使得使用模型计算的后续预测是准确的。具体而言,我们的目标是学习一个模型,使得小组变量$ S $的后海报$ p(x_i | x_s)$。自推出超过50年以来,有效计算最大似然树的Chow-Liu算法一直是学习树结构图形模型的基准算法。 [BK19]示出了关于以预测的局部总变化损耗的CHOW-LIU算法的样本复杂性的界限。虽然这些结果表明,即使在恢复真正的基础图中也可以学习有用的模型是不可能的,它们的绑定取决于相互作用的最大强度,因此不会达到信息理论的最佳选择。在本文中,我们介绍了一种新的算法,仔细结合了Chow-Liu算法的元素,以便在预测的损失下有效地和最佳地学习树ising模型。我们的算法对模型拼写和对抗损坏具有鲁棒性。相比之下,我们表明庆祝的Chow-Liu算法可以任意次优。
translated by 谷歌翻译
随机块模型(SBM)是一个随机图模型,其连接不同的顶点组不同。它被广泛用作研究聚类和社区检测的规范模型,并提供了肥沃的基础来研究组合统计和更普遍的数据科学中出现的信息理论和计算权衡。该专着调查了最近在SBM中建立社区检测的基本限制的最新发展,无论是在信息理论和计算方案方面,以及各种恢复要求,例如精确,部分和弱恢复。讨论的主要结果是在Chernoff-Hellinger阈值中进行精确恢复的相转换,Kesten-Stigum阈值弱恢复的相变,最佳的SNR - 单位信息折衷的部分恢复以及信息理论和信息理论之间的差距计算阈值。该专着给出了在寻求限制时开发的主要算法的原则推导,特别是通过绘制绘制,半定义编程,(线性化)信念传播,经典/非背带频谱和图形供电。还讨论了其他块模型的扩展,例如几何模型和一些开放问题。
translated by 谷歌翻译
假设$ g $是根据所谓的HyperGraph随机块模型(HSBM)产生的,我们考虑了稀疏$ Q $均匀的HyperGraph $ G $中的社区检测问题。我们证明,基于非折线操作员的光谱方法具有很高的概率,可以降低到Angelini等人猜想的广义kesten-Stigum检测阈值。我们表征了稀疏HSBM的非背带操作员的频谱,并使用Ihara-Bass公式为超图提供有效的尺寸降低程序。结果,可以将稀疏HSBM的社区检测减少为$ 2N \ times 2n $非正态矩阵的特征向量问题,该矩阵从邻接矩阵和超级格雷普的学位矩阵中构建。据我们所知,这是第一种可证明,有效的光谱算法,它可以根据一般对称概率张量生成$ K $块的HSBMS阈值。
translated by 谷歌翻译
常用图是表示和可视化因果关系的。对于少量变量,这种方法提供了简洁和清晰的方案的视图。随着下属的变量数量增加,图形方法可能变得不切实际,并且表示的清晰度丢失。变量的聚类是减少因果图大小的自然方式,但如果任意实施,可能会错误地改变因果关系的基本属性。我们定义了一种特定类型的群集,称为Transit Cluster,保证在某些条件下保留因果效应的可识别性属性。我们提供了一种用于在给定图中查找所有传输群集的声音和完整的算法,并演示集群如何简化因果效应的识别。我们还研究了逆问题,其中一个人以群集的图形开始,寻找扩展图,其中因果效应的可识别性属性保持不变。我们表明这种结构稳健性与过境集群密切相关。
translated by 谷歌翻译
We study the following independence testing problem: given access to samples from a distribution $P$ over $\{0,1\}^n$, decide whether $P$ is a product distribution or whether it is $\varepsilon$-far in total variation distance from any product distribution. For arbitrary distributions, this problem requires $\exp(n)$ samples. We show in this work that if $P$ has a sparse structure, then in fact only linearly many samples are required. Specifically, if $P$ is Markov with respect to a Bayesian network whose underlying DAG has in-degree bounded by $d$, then $\tilde{\Theta}(2^{d/2}\cdot n/\varepsilon^2)$ samples are necessary and sufficient for independence testing.
translated by 谷歌翻译
我们研究了通过边缘检测查询学习超图的问题。在此问题中,学习者查询隐藏超图的顶点的子集,并观察这些子集是否包含边缘。通常,学习具有最大尺寸$ d $的$ m $边缘的超图需要$ \ omega((2m/d)^{d/2})$ queries。在本文中,我们旨在确定可以学习的超图族的家庭,而不会遭受查询复杂性,该查询复杂性在边缘的大小上呈指数增长。我们表明,使用Poly $(n)$ Queries可以学习高度匹配和低度近均匀的超图。对于学习超匹配(最大程度的超图$ 1 $),我们给出$ O(\ log^3 n)$ - 圆形算法,使用$ o(n \ log^5 n)$查询。我们通过表明没有算法的poly $(n)$查询来补充这种上限,这些算法在$ o(\ log \ log n)$自适应回合中学习超匹配。对于具有最大度$ \ delta $和边缘大小比率$ \ rho $的超级图形,我们给出了一种非自适应算法,并使用$ o((2n)^{\ rho \ delta+1} \ log^2 n)$ queries。据我们所知,这些是使用Poly $(n,m)$查询复杂性的第一批算法,用于学习具有超恒定尺寸的超稳定数量边缘的非平凡家族。
translated by 谷歌翻译
在原因指导的非循环图(DAG)的结构学习问题中出现的良好研究挑战是,使用观测数据,一个人只能将图形到“马尔可夫等价类”(MEC)。剩余的无向边缘必须使用干预率定向,这可以在应用中执行昂贵。因此,最小化了全面定向MEC所需的干预次数的问题已经得到了很多最近的关注,并且也是这项工作的重点。我们证明了两个主要结果。第一个是一种新的通用下限,在任何算法(无论是主动或被动)需要执行的原子干预次数,以便定向给定的MEC。我们的第二个结果表明,这一界限实际上是可以定位MEC的最小原子干预措施的两个大小的因素。我们的下限比以前已知的下限更好。我们的下限证明是基于CBSP订购的新概念,这是没有V-Surructure的DAG的拓扑排序,并满足某些特殊属性。此外,在综合图上使用模拟,并通过赋予特殊图家庭的示例,我们表明我们的界限往往明显更好。
translated by 谷歌翻译