我们考虑在排名一的尖刺模型中检测信号的存在的问题。对于一般的非高斯噪声,假设信号是从rademacher先验中汲取的,我们证明,当信号噪声比率低于信号噪声时,尖峰模型的对数可能性比(LR)收敛到高斯一定的阈值。阈值是最佳的,因为在其上方,可以通过转换的主组件分析(PCA)进行可靠的检测。从对数LR的限制高斯的平均值和方差,我们计算了I型误差之和的限制以及似然比测试的类型II误差。对于噪声不对称,但信号是对称的,我们还证明了一个排名一的尖峰IID模型的结果相似。
translated by 谷歌翻译
在这项工作中,我们研究了随机特征矩阵$ m = yy ^ \ ast $的渐近光谱密度用一个单独的层神经网络生成的$ y = f(wx)$,其中$ w $和$ x $是带有IID的随机矩形矩阵中心条目和$ F $是一种非线性光滑功能,其应用进入明智。我们证明了限制光谱分布的Stieltjes转换大致满足四个自我一致的等式,这正是通过[Pennityton,Worah]和[Benigni,P \'E]获得的等式。我们将以前的结果扩展到附加偏见$ Y = F(WX + B)$的情况下,以$ B $为一个独立的秩 - 一个高斯随机矩阵,更接近实践中遇到的神经网络基础架构。我们的主要发现是,在添加剂偏差的情况下,不可能选择保持层到层奇异值分布的激活函数,与无偏置的情况鲜明对比,其中简单的积分约束足以实现非偏光曲线。为了获得经验谱密度的渐近学,我们通过累积扩展来遵循从随机矩阵理论的解析方法。我们发现这种方法比瞬间方法更强大,而且组合较少,并期望它也适用于前者的组合物变得棘手的模型。已经广泛采用了解析方法,但与以前的作品相比,这里应用于非线性随机矩阵。
translated by 谷歌翻译
高维统计数据的一个基本目标是检测或恢复嘈杂数据中隐藏的种植结构(例如低级别矩阵)。越来越多的工作研究低级多项式作为此类问题的计算模型的限制模型:在各种情况下,数据的低级多项式可以与最知名的多项式时间算法的统计性能相匹配。先前的工作已经研究了低度多项式的力量,以检测隐藏结构的存在。在这项工作中,我们将这些方法扩展到解决估计和恢复问题(而不是检测)。对于大量的“信号加噪声”问题,我们给出了一个用户友好的下限,以获得最佳的均衡误差。据我们所知,这些是建立相关检测问题的恢复问题低度硬度的第一个结果。作为应用,我们对种植的子静脉和种植的密集子图问题的低度最小平方误差进行了严格的特征,在两种情况下都解决了有关恢复的计算复杂性的开放问题(在低度框架中)。
translated by 谷歌翻译
假设$ g $是根据所谓的HyperGraph随机块模型(HSBM)产生的,我们考虑了稀疏$ Q $均匀的HyperGraph $ G $中的社区检测问题。我们证明,基于非折线操作员的光谱方法具有很高的概率,可以降低到Angelini等人猜想的广义kesten-Stigum检测阈值。我们表征了稀疏HSBM的非背带操作员的频谱,并使用Ihara-Bass公式为超图提供有效的尺寸降低程序。结果,可以将稀疏HSBM的社区检测减少为$ 2N \ times 2n $非正态矩阵的特征向量问题,该矩阵从邻接矩阵和超级格雷普的学位矩阵中构建。据我们所知,这是第一种可证明,有效的光谱算法,它可以根据一般对称概率张量生成$ K $块的HSBMS阈值。
translated by 谷歌翻译
随机奇异值分解(RSVD)是用于计算大型数据矩阵截断的SVD的一类计算算法。给定A $ n \ times n $对称矩阵$ \ mathbf {m} $,原型RSVD算法输出通过计算$ \ mathbf {m mathbf {m} $的$ k $引导singular vectors的近似m}^{g} \ mathbf {g} $;这里$ g \ geq 1 $是一个整数,$ \ mathbf {g} \ in \ mathbb {r}^{n \ times k} $是一个随机的高斯素描矩阵。在本文中,我们研究了一般的“信号加上噪声”框架下的RSVD的统计特性,即,观察到的矩阵$ \ hat {\ mathbf {m}} $被认为是某种真实但未知的加法扰动信号矩阵$ \ mathbf {m} $。我们首先得出$ \ ell_2 $(频谱规范)和$ \ ell_ {2 \ to \ infty} $(最大行行列$ \ ell_2 $ norm)$ \ hat {\ hat {\ Mathbf {M}} $和信号矩阵$ \ Mathbf {M} $的真实单数向量。这些上限取决于信噪比(SNR)和功率迭代$ g $的数量。观察到一个相变现象,其中较小的SNR需要较大的$ g $值以保证$ \ ell_2 $和$ \ ell_ {2 \ to \ fo \ infty} $ distances的收敛。我们还表明,每当噪声矩阵满足一定的痕量生长条件时,这些相变发生的$ g $的阈值都会很清晰。最后,我们得出了近似奇异向量的行波和近似矩阵的进入波动的正常近似。我们通过将RSVD的几乎最佳性能保证在应用于三个统计推断问题的情况下,即社区检测,矩阵完成和主要的组件分析,并使用缺失的数据来说明我们的理论结果。
translated by 谷歌翻译
我们研究了恢复单位 - 总稀疏主组件$ x \ in \ mathbb {r}^n $在随机矩阵中种植的计算成本,以wigner或wishart尖峰模型(观察$ w + \ lambda xx xx^xx^ \ top $带有从高斯正交集合中绘制的$ w $,或分别来自$ \ Mathcal {n}(0,i_n + \ beta xx^\ top)$的$ n $独立样本,分别为$)。先前的工作表明,当信噪比(分别$ \ lambda $或$ \ beta \ sqrt {n/n} $)是一个小常数,而种植向量中的非零入口的分数为$ \ \ \ | x \ | _0 / n = \ rho $,如果$ \ rho \ sillsim 1 / \ sqrt {n} $,可以在多项式时间内恢复$ x $。虽然可以在较弱的条件下以$ \ rho \ ll 1 $恢复指数时间的$ x $,但据信,除非$ \ rho \ rho \ simsim 1/\ sqrt {n} $,否则不可能多项式时间恢复。我们研究了“可能但难”制度中恢复所需的精确时间,$ 1/\ sqrt {n} \ ll \ ll \ rho \ ll 1 $通过探索次指定时间算法的功能,即,在时间$中运行的算法$ \ exp(n^\ delta)$对于某些常数$ \ delta \ in(0,1)$。对于任何$ 1/\ sqrt {n} \ ll \ rho \ ll 1 $,我们给出了一个恢复算法的运行时大约$ \ exp(\ rho^2 n)$,表明了稀疏和runtime之间的平稳折衷。我们的算法家族在两种现有算法之间平稳地插入:多项式时间对角线阈值算法和$ \ exp(\ rho n)$ - 时间详尽的搜索算法。此外,通过分析低度的似然比,我们提供了严格的证据,表明我们算法实现的权衡是最佳的。
translated by 谷歌翻译
Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution, regardless of how $d$ scales with $n$. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for some classical problems including one-sample mean and covariance testing, and show that our tests have minimax rate-optimal power against appropriate local alternatives. In most settings, our cross U-statistic matches the high-dimensional power of the corresponding (degenerate) U-statistic up to a $\sqrt{2}$ factor.
translated by 谷歌翻译
近似消息传递(AMP)是解决高维统计问题的有效迭代范式。但是,当迭代次数超过$ o \ big(\ frac {\ log n} {\ log log \ log \ log n} \时big)$(带有$ n $问题维度)。为了解决这一不足,本文开发了一个非吸附框架,用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项,我们布置了一个分析配方,以表征在存在独立初始化的情况下AMP的有限样本行为,该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果:(i)求解$ \ mathbb {z} _2 $同步时,我们预测了频谱初始化AMP的行为,最高为$ o \ big(\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big)$迭代,表明该算法成功而无需随后的细化阶段(如最近由\ citet {celentano2021local}推测); (ii)我们表征了稀疏PCA中AMP的非反应性行为(在尖刺的Wigner模型中),以广泛的信噪比。
translated by 谷歌翻译
张量模型在许多领域中起着越来越重要的作用,特别是在机器学习中。在几种应用中,例如社区检测,主题建模和高斯混合物学习,必须估算噪声张量的低级别信号。因此,了解该信号的估计器的基本限制不可避免地要求研究随机张量。最近,在大维限制中,该主题取得了实质性进展。然而,其中一些最重要的结果(尤其是对突然的相变(相对于信噪比)的精确表征),该表现控制着对称等级的最大可能性(ML)估计器的性能 - 具有高斯噪声的模型 - 基于平均场自旋玻璃理论得出,非专家不容易访问。在这项工作中,我们依靠标准但强大的工具开发出一种截然不同,更基本的方法,这是由随机矩阵理论的多年进步带来的。关键思想是研究由给定随机张量的收缩引起的随机矩阵的光谱。我们展示了如何访问随机张量本身的光谱属性。对于上述排名衡量模型,我们的技术产生了迄今未知的固定点方程,其解决方案与第三阶情况下的相变阈值高于相变阈值的ML估计器的渐近性能。数值验证提供了证据,表明订单4和5相同,导致我们猜想,对于任何顺序,我们的定点方程等于已知的ML估计性能的表征,这些表现通过依靠旋转玻璃而获得。此外,我们的方法阐明了ML问题景观的某些特性,可以扩展到其他模型,例如不对称和非高斯。
translated by 谷歌翻译
现代神经网络通常以强烈的过度构造状态运行:它们包含许多参数,即使实际标签被纯粹随机的标签代替,它们也可以插入训练集。尽管如此,他们在看不见的数据上达到了良好的预测错误:插值训练集并不会导致巨大的概括错误。此外,过度散色化似乎是有益的,因为它简化了优化景观。在这里,我们在神经切线(NT)制度中的两层神经网络的背景下研究这些现象。我们考虑了一个简单的数据模型,以及各向同性协变量的矢量,$ d $尺寸和$ n $隐藏的神经元。我们假设样本量$ n $和尺寸$ d $都很大,并且它们在多项式上相关。我们的第一个主要结果是对过份术的经验NT内核的特征结构的特征。这种表征意味着必然的表明,经验NT内核的最低特征值在$ ND \ gg n $后立即从零界限,因此网络可以在同一制度中精确插值任意标签。我们的第二个主要结果是对NT Ridge回归的概括误差的表征,包括特殊情况,最小值-ULL_2 $ NORD插值。我们证明,一旦$ nd \ gg n $,测试误差就会被内核岭回归之一相对于无限宽度内核而近似。多项式脊回归的误差依次近似后者,从而通过与激活函数的高度组件相关的“自我诱导的”项增加了正则化参数。多项式程度取决于样本量和尺寸(尤其是$ \ log n/\ log d $)。
translated by 谷歌翻译
We provide results that exactly quantify how data augmentation affects the convergence rate and variance of estimates. They lead to some unexpected findings: Contrary to common intuition, data augmentation may increase rather than decrease the uncertainty of estimates, such as the empirical prediction risk. Our main theoretical tool is a limit theorem for functions of randomly transformed, high-dimensional random vectors. The proof draws on work in probability on noise stability of functions of many variables. The pathological behavior we identify is not a consequence of complex models, but can occur even in the simplest settings -- one of our examples is a ridge regressor with two parameters. On the other hand, our results also show that data augmentation can have real, quantifiable benefits.
translated by 谷歌翻译
我们系统地{研究基于内核的图形laplacian(gl)的光谱},该图在非null设置中由高维和嘈杂的随机点云构成,其中点云是从低维几何对象(如歧管)中采样的,被高维噪音破坏。我们量化了信号和噪声在信号噪声比(SNR)的不同状态下如何相互作用,并报告GL的{所产生的特殊光谱行为}。此外,我们还探索了GL频谱上的内核带宽选择,而SNR的不同状态则导致带宽的自适应选择,这与实际数据中的共同实践相吻合。该结果为数据集嘈杂时的从业人员提供了理论支持。
translated by 谷歌翻译
Consider the problem of matching two independent i.i.d. samples of size $N$ from two distributions $P$ and $Q$ in $\mathbb{R}^d$. For an arbitrary continuous cost function, the optimal assignment problem looks for the matching that minimizes the total cost. We consider instead in this paper the problem where each matching is endowed with a Gibbs probability weight proportional to the exponential of the negative total cost of that matching. Viewing each matching as a joint distribution with $N$ atoms, we then take a convex combination with respect to the above Gibbs probability measure. We show that this resulting random joint distribution converges, as $N\rightarrow \infty$, to the solution of a variational problem, introduced by F\"ollmer, called the Schr\"odinger problem. We also derive the first two error terms of orders $N^{-1/2}$ and $N^{-1}$, respectively. This gives us central limit theorems for integrated test functions, including for the cost of transport, and second order Gaussian chaos limits when the limiting Gaussian variance is zero. The proofs are based on a novel chaos decomposition of the discrete Schr\"odinger bridge by polynomial functions of the pair of empirical distributions as the first and second order Taylor approximations in the space of measures. This is achieved by extending the Hoeffding decomposition from the classical theory of U-statistics.
translated by 谷歌翻译
最近的作品证明了过度参数化学习中的双重下降现象:随着模型参数的数量的增加,多余的风险具有$ \ mathsf {u} $ - 在开始时形状,然后在模型高度过度参数化时再次减少。尽管最近在不同的环境(例如线性模型,随机特征模型和内核方法)下进行了研究,但在理论上尚未完全理解这种现象。在本文中,我们考虑了由两种随机特征组成的双随机特征模型(DRFM),并研究DRFM在脊回归中实现的多余风险。我们计算高维框架下的多余风险的确切限制,在这种框架上,训练样本量,数据尺寸和随机特征的维度往往会成比例地无限。根据计算,我们证明DRFM的风险曲线可以表现出三重下降。然后,我们提供三重下降现象的解释,并讨论随机特征维度,正则化参数和信噪比比率如何控制DRFMS风险曲线的形状。最后,我们将研究扩展到多个随机功能模型(MRFM),并表明具有$ K $类型的随机功能的MRFM可能会显示出$(K+1)$ - 折叠。我们的分析指出,具有特定数量下降的风险曲线通常在基于特征的回归中存在。另一个有趣的发现是,当学习神经网络在“神经切线内核”制度中时,我们的结果可以恢复文献中报告的风险峰值位置。
translated by 谷歌翻译
本文研究了在两个边缘相关随机图之间恢复隐藏顶点对应的问题。我们专注于两个图形的高斯模型,其中两个图表是具有相关的高斯权重的完整图表和eRD \ h {o} sr \'enyi模型,其中两个图形是从常见的父erd \ h {o} sr \'enyi附带的图$ \ mathcal {g}(n,p)$。对于以$ p = n ^ { - o(1)} $的密集图,我们证明存在尖锐的阈值,上面可以正确地匹配,而是可以正确地匹配顶点的所有消失的分数,下面是不可能正确匹配的任何正部分的下降,一种称为“全无或无关”相转变的现象。更广泛地,在高斯环境中,高于阈值,所有顶点都可以与高概率完全匹配。相比之下,对于稀疏的ERD \ h {o} sr \'enyi图表,以$ p = n ^ { - \ theta(1)} $,我们表明全部或全无的现象不再持有,我们确定阈值达到恒定因素。沿途,我们还导出了精确恢复的尖锐阈值,锐化了ERD \ H {O} S-R'enyi图中的现有结果。负面结果的证明在基于截断的第二时刻计算和“区域定理”的相互信息的紧密表征之上构建,该“区域定理”将相互信息与重建误差的积分相关联。阳性结果从对最大似然估计器的严格分析,考虑到边缘上诱导置换的循环结构。
translated by 谷歌翻译
我们在非均匀超图随机块模型(HSBM)下的稀疏随机超图中的社区检测问题,是社区结构的随机网络的一般模型和高阶交互。当随机超图具有界定的预期度时,我们提供了一种频谱算法,该频谱算法输出分区,其中至少有$ \ gamma $分数正确分类,其中$ \ gamma \ in(0.5,1)$取决于信号 - 模型的噪声比(SNR)。当SNR随着顶点的数量转到无限的时,SNR慢慢地增长,我们的算法达到了弱的一致性,这改善了Ghoshdastidar和Dukkipati(2017)的上一个结果,用于非均匀的HSBMS。我们的谱算法由三个主要步骤组成:(1)HIFFEGE选择:选择某些尺寸的超高率,为诱导的子图像提供最大信噪比; (2)光谱分区:构造正则化邻接矩阵,并基于奇异向量获得近似分区; (3)纠正和合并:将超代表信息从邻接张于升级升级错误率保证。我们的算法的理论分析依赖于稀疏非均匀随机超图的邻接矩阵的浓度和正则化,这可以是独立的兴趣。
translated by 谷歌翻译
In nonparametric independence testing, we observe i.i.d.\ data $\{(X_i,Y_i)\}_{i=1}^n$, where $X \in \mathcal{X}, Y \in \mathcal{Y}$ lie in any general spaces, and we wish to test the null that $X$ is independent of $Y$. Modern test statistics such as the kernel Hilbert-Schmidt Independence Criterion (HSIC) and Distance Covariance (dCov) have intractable null distributions due to the degeneracy of the underlying U-statistics. Thus, in practice, one often resorts to using permutation testing, which provides a nonasymptotic guarantee at the expense of recalculating the quadratic-time statistics (say) a few hundred times. This paper provides a simple but nontrivial modification of HSIC and dCov (called xHSIC and xdCov, pronounced ``cross'' HSIC/dCov) so that they have a limiting Gaussian distribution under the null, and thus do not require permutations. This requires building on the newly developed theory of cross U-statistics by Kim and Ramdas (2020), and in particular developing several nontrivial extensions of the theory in Shekhar et al. (2022), which developed an analogous permutation-free kernel two-sample test. We show that our new tests, like the originals, are consistent against fixed alternatives, and minimax rate optimal against smooth local alternatives. Numerical simulations demonstrate that compared to the full dCov or HSIC, our variants have the same power up to a $\sqrt 2$ factor, giving practitioners a new option for large problems or data-analysis pipelines where computation, not sample size, could be the bottleneck.
translated by 谷歌翻译
本文研究了基于Laplacian Eigenmaps(Le)的基于Laplacian EIGENMAPS(PCR-LE)的主要成分回归的统计性质,这是基于Laplacian Eigenmaps(Le)的非参数回归的方法。 PCR-LE通过投影观察到的响应的向量$ {\ bf y} =(y_1,\ ldots,y_n)$ to to changbood图表拉普拉斯的某些特征向量跨越的子空间。我们表明PCR-Le通过SoboLev空格实现了随机设计回归的最小收敛速率。在设计密度$ P $的足够平滑条件下,PCR-le达到估计的最佳速率(其中已知平方$ l ^ 2 $ norm的最佳速率为$ n ^ { - 2s /(2s + d) )} $)和健美的测试($ n ^ { - 4s /(4s + d)$)。我们还表明PCR-LE是\ EMPH {歧管Adaptive}:即,我们考虑在小型内在维度$ M $的歧管上支持设计的情况,并为PCR-LE提供更快的界限Minimax估计($ n ^ { - 2s /(2s + m)$)和测试($ n ^ { - 4s /(4s + m)$)收敛率。有趣的是,这些利率几乎总是比图形拉普拉斯特征向量的已知收敛率更快;换句话说,对于这个问题的回归估计的特征似乎更容易,统计上讲,而不是估计特征本身。我们通过经验证据支持这些理论结果。
translated by 谷歌翻译
我们研究了小组测试问题,其目标是根据合并测试的结果,确定一组k感染的人,这些k含有稀有疾病,这些人在经过测试中至少有一个受感染的个体时返回阳性的结果。团体。我们考虑将个人分配给测试的两个不同的简单随机过程:恒定柱设计和伯努利设计。我们的第一组结果涉及基本统计限制。对于恒定柱设计,我们给出了一个新的信息理论下限,这意味着正确识别的感染者的比例在测试数量越过特定阈值时会经历急剧的“全或全或无所不包”的相变。对于Bernoulli设计,我们确定解决相关检测问题所需的确切测试数量(目的是区分小组测试实例和纯噪声),改善Truong,Aldridge和Scarlett的上限和下限(2020)。对于两个小组测试模型,我们还研究了计算有效(多项式时间)推理程序的能力。我们确定了解决检测问题的低度多项式算法所需的精确测试数量。这为在少量稀疏度的检测和恢复问题中都存在固有的计算统计差距提供了证据。值得注意的是,我们的证据与Iliopoulos和Zadik(2021)相反,后者预测了Bernoulli设计中没有计算统计差距。
translated by 谷歌翻译
对于高维和非参数统计模型,速率最优估计器平衡平方偏差和方差是一种常见的现象。虽然这种平衡被广泛观察到,但很少知道是否存在可以避免偏差和方差之间的权衡的方法。我们提出了一般的策略,以获得对任何估计方差的下限,偏差小于预先限定的界限。这表明偏差差异折衷的程度是不可避免的,并且允许量化不服从其的方法的性能损失。该方法基于许多抽象的下限,用于涉及关于不同概率措施的预期变化以及诸如Kullback-Leibler或Chi-Sque-diversence的信息措施的变化。其中一些不平等依赖于信息矩阵的新概念。在该物品的第二部分中,将抽象的下限应用于几种统计模型,包括高斯白噪声模型,边界估计问题,高斯序列模型和高维线性回归模型。对于这些特定的统计应用,发生不同类型的偏差差异发生,其实力变化很大。对于高斯白噪声模型中集成平方偏置和集成方差之间的权衡,我们将较低界限的一般策略与减少技术相结合。这允许我们将原始问题与估计的估计器中的偏差折衷联动,以更简单的统计模型中具有额外的对称性属性。在高斯序列模型中,发生偏差差异的不同相位转换。虽然偏差和方差之间存在非平凡的相互作用,但是平方偏差的速率和方差不必平衡以实现最小估计速率。
translated by 谷歌翻译