我们考虑通过旋转不变设计矩阵定义的广义线性模型中信号估计的问题。由于这些矩阵可以具有任意光谱分布,因此该模型非常适合于捕获在应用中经常出现的复杂相关结构。我们提出了一种新颖的近似消息,用于通过(AMP)算法用于信号估计,并且经由状态演进递归严格地表征其在高维极限中的性能。假设设计矩阵频谱的知识,我们的旋转不变放大器具有与高斯矩阵的现有放大器相同的顺序的复杂性;它还恢复现有的放大器作为一个特例。数值结果展示了靠近向量放大器的性能(在某些设置中猜测贝叶斯 - 最佳),但随着所提出的算法不需要计算昂贵的奇异值分解,可以获得更低的复杂性。
translated by 谷歌翻译
We consider the problem of reconstructing the signal and the hidden variables from observations coming from a multi-layer network with rotationally invariant weight matrices. The multi-layer structure models inference from deep generative priors, and the rotational invariance imposed on the weights generalizes the i.i.d.\ Gaussian assumption by allowing for a complex correlation structure, which is typical in applications. In this work, we present a new class of approximate message passing (AMP) algorithms and give a state evolution recursion which precisely characterizes their performance in the large system limit. In contrast with the existing multi-layer VAMP (ML-VAMP) approach, our proposed AMP -- dubbed multi-layer rotationally invariant generalized AMP (ML-RI-GAMP) -- provides a natural generalization beyond Gaussian designs, in the sense that it recovers the existing Gaussian AMP as a special case. Furthermore, ML-RI-GAMP exhibits a significantly lower complexity than ML-VAMP, as the computationally intensive singular value decomposition is replaced by an estimation of the moments of the design matrices. Finally, our numerical results show that this complexity gain comes at little to no cost in the performance of the algorithm.
translated by 谷歌翻译
In a mixed generalized linear model, the objective is to learn multiple signals from unlabeled observations: each sample comes from exactly one signal, but it is not known which one. We consider the prototypical problem of estimating two statistically independent signals in a mixed generalized linear model with Gaussian covariates. Spectral methods are a popular class of estimators which output the top two eigenvectors of a suitable data-dependent matrix. However, despite the wide applicability, their design is still obtained via heuristic considerations, and the number of samples $n$ needed to guarantee recovery is super-linear in the signal dimension $d$. In this paper, we develop exact asymptotics on spectral methods in the challenging proportional regime in which $n, d$ grow large and their ratio converges to a finite constant. By doing so, we are able to optimize the design of the spectral method, and combine it with a simple linear estimator, in order to minimize the estimation error. Our characterization exploits a mix of tools from random matrices, free probability and the theory of approximate message passing algorithms. Numerical simulations for mixed linear regression and phase retrieval display the advantage enabled by our analysis over existing designs of spectral methods.
translated by 谷歌翻译
我们考虑一个非线性逆问题$ \ mathbf {y} = f(\ mathbf {ax})$,其中观察$ \ mathbf {y} \ in \ mathbb {r} ^ m $ in $ \ mathbf的组件非线性转换\ MathBB {R} ^ M $,$ \ MATHBF {X} \ IN \ MATHBB {R} ^ $是兴趣的信号,$ \ MATHBF {A} $是已知的线性映射。通过正确指定非线性处理功能,可以将该模型统治到许多信号处理问题,包括压缩感测和相位检索。我们本文的主要目标是了解传感矩阵的影响,或更具体地是感测矩阵的频谱,难以从$ \ mathbf {y} $恢复$ \ mathbf {x} $。为了实现这一目标,我们研究了最成功的恢复方法之一的性能,即期望传播算法(EP)。我们为$ \ mathbf {a} $的频谱的尖端定义了一个概念,并显示了在EP性能方面的这一措施的重要性。频谱的刺激是否可以伤害或帮助EP的恢复性能取决于$ F $。我们根据函数$ F $定义某些数量,使我们能够描述谱对EP恢复刺激的影响。基于我们的框架,我们能够表明,例如,在阶段检索问题中,具有尖光频谱的矩阵对于EP更好,而在1位压缩的感测问题中,较少的尖峰(平坦)频谱提供更好的恢复。我们的结果统一并基本上概括了比较子高斯和正交矩阵的现有结果,并为设计最佳感测系统提供平台。
translated by 谷歌翻译
最近有兴趣的兴趣在教师学生环境中的各种普遍性线性估计问题中的渐近重建性能研究,特别是对于I.I.D标准正常矩阵的案例。在这里,我们超越这些矩阵,并证明了具有具有任意界限频谱的旋转不变数据矩阵的凸遍的线性模型的重建性能的分析公式,严格地确认使用来自统计物理的副本衍生的猜想。该公式包括许多问题,例如压缩感测或稀疏物流分类。通过利用消息通过算法和迭代的统计特性来实现证明,允许表征估计器的渐近实证分布。我们的证据是基于构建Oracle多层向量近似消息传递算法的会聚序列的构建,其中通过检查等效动态系统的稳定性来完成收敛分析。我们说明了我们对主流学习方法的数值示例的要求,例如稀疏的逻辑回归和线性支持矢量分类器,显示中等大小模拟和渐近预测之间的良好一致性。
translated by 谷歌翻译
近似消息传递(AMP)是解决高维统计问题的有效迭代范式。但是,当迭代次数超过$ o \ big(\ frac {\ log n} {\ log log \ log \ log n} \时big)$(带有$ n $问题维度)。为了解决这一不足,本文开发了一个非吸附框架,用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项,我们布置了一个分析配方,以表征在存在独立初始化的情况下AMP的有限样本行为,该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果:(i)求解$ \ mathbb {z} _2 $同步时,我们预测了频谱初始化AMP的行为,最高为$ o \ big(\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big)$迭代,表明该算法成功而无需随后的细化阶段(如最近由\ citet {celentano2021local}推测); (ii)我们表征了稀疏PCA中AMP的非反应性行为(在尖刺的Wigner模型中),以广泛的信噪比。
translated by 谷歌翻译
近似消息传递(AMP)是具有非高斯分布的某些高维线性系统的低成本迭代参数估计技术。然而,放大器仅适用于独立相同的分布(IID)变换矩阵,但是对于其他矩阵集合,尤其是对于不良条件的矩阵,可能变得不可靠(例如,表现不良或甚至不同)。建议正交/矢量放大器(OAMP / VAMP)用于一般右单一不变的矩阵来处理这种困难。然而,贝叶斯最优休息/鞋面(BO-OAMP / VAMP)需要高度复杂性线性最小均方误差(MMSE)估计器。这限制了oamp / vamp在大规模系统中的应用。为了解决AMP和BO-OAMP / VAMP的缺点,本文提出了在正交原理下的记忆放大器(MAMP)框架,保证了MAMP中估计估计误差的渐近IID高斯。我们为本域内存估算器提供了一个正交化过程,以实现MAMP所需的正交性。此外,我们提出了一种贝叶斯 - 最佳机制(BO-MAMP),其中提出了一种用于干扰抑制的长存储器匹配过滤器。 BO-MAMP的复杂性与AMP相当。源于渐近表征Bo-MAMP的性能的状态演变。基于国家演化,优化了BO-MAMP中的松弛参数和阻尼载体。对于所有右单一不变的矩阵,优化的BO-MAMP的状态演变会收敛到与高复杂性BO-OAMP / VAMP相同的固定点,并且如果其状态进化具有独特的固定点,则是贝叶斯的最佳状态。最后,提供了模拟以验证理论结果的有效性和准确性。
translated by 谷歌翻译
Autoencoders are a popular model in many branches of machine learning and lossy data compression. However, their fundamental limits, the performance of gradient methods and the features learnt during optimization remain poorly understood, even in the two-layer setting. In fact, earlier work has considered either linear autoencoders or specific training regimes (leading to vanishing or diverging compression rates). Our paper addresses this gap by focusing on non-linear two-layer autoencoders trained in the challenging proportional regime in which the input dimension scales linearly with the size of the representation. Our results characterize the minimizers of the population risk, and show that such minimizers are achieved by gradient methods; their structure is also unveiled, thus leading to a concise description of the features obtained via training. For the special case of a sign activation function, our analysis establishes the fundamental limits for the lossy compression of Gaussian sources via (shallow) autoencoders. Finally, while the results are proved for Gaussian data, numerical simulations on standard datasets display the universality of the theoretical predictions.
translated by 谷歌翻译
我们考虑估计与I.I.D的排名$ 1 $矩阵因素的问题。高斯,排名$ 1 $的测量值,这些测量值非线性转化和损坏。考虑到非线性的两种典型选择,我们研究了从随机初始化开始的此非convex优化问题的天然交流更新规则的收敛性能。我们通过得出确定性递归,即使在高维问题中也是准确的,我们显示出算法的样本分割版本的敏锐收敛保证。值得注意的是,虽然无限样本的种群更新是非信息性的,并提示单个步骤中的精确恢复,但算法 - 我们的确定性预测 - 从随机初始化中迅速地收敛。我们尖锐的非反应分析也暴露了此问题的其他几种细粒度,包括非线性和噪声水平如何影响收敛行为。从技术层面上讲,我们的结果可以通过证明我们的确定性递归可以通过我们的确定性顺序来预测我们的确定性序列,而当每次迭代都以$ n $观测来运行时,我们的确定性顺序可以通过$ n^{ - 1/2} $的波动。我们的技术利用了源自有关高维$ m $估计文献的遗留工具,并为通过随机数据的其他高维优化问题的随机初始化而彻底地分析了高阶迭代算法的途径。
translated by 谷歌翻译
This work considers a computationally and statistically efficient parameter estimation method for a wide class of latent variable models-including Gaussian mixture models, hidden Markov models, and latent Dirichlet allocation-which exploits a certain tensor structure in their low-order observable moments (typically, of second-and third-order). Specifically, parameter estimation is reduced to the problem of extracting a certain (orthogonal) decomposition of a symmetric tensor derived from the moments; this decomposition can be viewed as a natural generalization of the singular value decomposition for matrices. Although tensor decompositions are generally intractable to compute, the decomposition of these specially structured tensors can be efficiently obtained by a variety of approaches, including power iterations and maximization approaches (similar to the case of matrices). A detailed analysis of a robust tensor power method is provided, establishing an analogue of Wedin's perturbation theorem for the singular vectors of matrices. This implies a robust and computationally tractable estimation approach for several popular latent variable models.
translated by 谷歌翻译
套索是一种高维回归的方法,当时,当协变量$ p $的订单数量或大于观测值$ n $时,通常使用它。由于两个基本原因,经典的渐近态性理论不适用于该模型:$(1)$正规风险是非平滑的; $(2)$估算器$ \ wideHat {\ boldsymbol {\ theta}} $与true参数vector $ \ boldsymbol {\ theta}^*$无法忽略。结果,标准的扰动论点是渐近正态性的传统基础。另一方面,套索估计器可以精确地以$ n $和$ p $大,$ n/p $的订单为一。这种表征首先是在使用I.I.D的高斯设计的情况下获得的。协变量:在这里,我们将其推广到具有非偏差协方差结构的高斯相关设计。这是根据更简单的``固定设计''模型表示的。我们在两个模型中各种数量的分布之间的距离上建立了非反应界限,它们在合适的稀疏类别中均匀地固定在信号上$ \ boldsymbol {\ theta}^*$。作为应用程序,我们研究了借助拉索的分布,并表明需要校正程度对于计算有效的置信区间是必要的。
translated by 谷歌翻译
在本文中,我们研究了主要成分分析的问题,并采用了生成建模假设,采用了一个普通矩阵的通用模型,该模型包括涉及尖峰矩阵恢复和相位检索在内的明显特殊情况。关键假设是,基础信号位于$ l $ -Lipschitz连续生成模型的范围内,该模型具有有限的$ k $二维输入。我们提出了一个二次估计器,并证明它享有顺序的统计率$ \ sqrt {\ frac {k \ log l} {m} {m}} $,其中$ m $是样本的数量。我们还提供了近乎匹配的算法独立的下限。此外,我们提供了经典功率方法的一种变体,该方法将计算的数据投射到每次迭代期间生成模型的范围内。我们表明,在适当的条件下,该方法将指数级的快速收敛到达到上述统计率的点。我们在各种图像数据集上对峰值矩阵和相位检索模型进行实验,并说明了我们方法的性能提高到经典功率方法,并为稀疏主组件分析设计了截断的功率方法。
translated by 谷歌翻译
近似消息传递(AMP)是一种希望具有非高斯信令的某些高维线性系统的未知信号重建的有希望的技术。 AMP型算法的杰出特征是它们的动态可以通过状态演进来严格描述。但是,状态的进化不一定保证迭代算法的融合。为了解决AMP型算法的收敛问题原则上,本文提出了一种在足够的统计条件下的存储放大器(MAMP),命名为足够的统计MAMP(SS-MAMP)。我们表明SS-MAMP的协方差矩阵是L-带状和会聚。考虑到任意的MAMP,我们可以通过阻尼构造SS-MAMP,这不仅可以确保MAMP的收敛,而且还可以保留MAMP的正交性,即,其动态可以通过状态演变严格地描述。作为副产品,我们证明贝叶斯最佳正交/载体放大器(Bo-Oamp / Vamp)是SS-MAMP。结果,我们揭示了大型系统的Bo-Oamp /鞋面的两个有趣特性:1)协方差矩阵是L型带状的,并且在BO-Oamp / vamp中收敛,2)阻尼和存储器无用(即,做在BO-OAMP / VAMP中没有带来性能改进。作为一个例子,我们构建了一个足够的统计贝叶斯 - 最佳MAMP(BO-MAMP),如果其状态进化具有独特的固定点,并且其MSE比原来的BO-MAMP更糟糕,那么它是最佳的。最后,提供了模拟以验证理论结果的有效性和准确性。
translated by 谷歌翻译
在现代统计学和机器学习中的许多问题中,人们通常是为了确定非凸风险功能上的一阶方法最终进入了风险是本地凸的参数空间区域。我们得出了渐近比较不平等,我们称之为Sudakov-Fernique后AMP不平等现象,在涉及GOE矩阵的某些类别的问题中,它能够探测优化景观的特性,该特性在近似消息传递的迭代范围内当地(AMP)算法。作为其使用的一个例子,我们提供了Selentano等人的某些结果的新的,可以说是简单的证明。 (2021),它确定$ \ mathbb {z} _2 $ -Synchronization问题中所谓的Tap自由能在其收敛到的区域中是本地凸。我们进一步证明了El Alaoui等人的猜想。 (2022)涉及相关但独特的自由能的局部凸度,结果证实了它们的算法有效地从Sherrington-Kirkpatrick Gibbs中进行了整个“ Easy”状态的测量。
translated by 谷歌翻译
我们考虑从具有未知链路功能的单个索引模型,高斯协变量和正则化的M估计器$ \ hat \ beta $从凸损失功能和正常制度构建的正规M-估计器$ \ hat \ beta $。在样本量$ n $和dimension $ p $的制度中,$ p/n $具有有限限制,$ \ hat \ beta $的经验分布的行为和预测的值$ x \ hat \ beta $以前已经在许多模型中表征:已知经验分布会在相关的高斯序列模型中收敛到损失和罚款的近端操作员,该模型捕获了比率$ p/n $之间的相互作用,损失,正则化,以及数据生成过程。 $(\ hat \ beta,x \ hat \ beta)$与相应的近端运算符之间的这种连接需要求解固定点方程,这些方程通常涉及无法观察到的数量,例如索引或链接函数上的先验分布。本文开发了一个不同的理论来描述$ \ hat \ beta $和$ x \ hat \ beta $:$(\ hat \ beta,x \ hat \ beta)$的经验分布。这仅涉及可观察到的调整。这些提出的可观察到的调整是数据驱动的,例如,不需要对索引或链接函数的先验知识。这些新的调整产生了索引各个组件的置信区间,以及$ \ hat \ beta $与索引的相关性的估计器。因此,以数据驱动的方式捕获损失,正则化和模型之间的相互作用,而无需求解以前工作中研究的固定点方程。结果既适用于强烈凸正则化器和未注册的M估计。为单个索引模型的正方形和逻辑损失提供了模拟,包括逻辑回归和1位压缩感测,具有20 \%损坏的位。
translated by 谷歌翻译
我们考虑使用随机球形代码的高维信号$ x $的有损压缩表示之间的分布连接,并在添加白色高斯噪声(AWGN)下的$ X $观察$ x $。我们展示了比特率 - $ R $压缩版的Wassersein距离$ x $及其在AWGN-噪声比率下的AWGN噪声比率下的观察2 ^ {2R} -1 $ 2 ^ {2r} -1 $中的下线性。我们利用此事实基于AWGN损坏的$ x $的AWGN损坏版本的估算者的风险连接到与其比特率 - $ r $量化版本相同的估算器所获得的风险。我们通过在压缩约束下导出推导问题的各种新结果来展示这种联系的有用性,包括Minimax估计,稀疏回归,压缩感和远程源编码中的线性估计的普遍性。
translated by 谷歌翻译
在本文中,我们分析了与高斯协变量的线性回归模型,贝叶斯估计器的性能通过高斯凹面分布的平均值与高斯的先前,在样本数量的高尺寸下限协变量的维度大而成比例。尽管以前研究了贝叶斯估计器的高尺寸分析,但是对于使用正确的后的后续的贝叶斯 - 最佳线性回归,虽然是用于推理的正确后部的,但是当存在不匹配时,更少于较少。在这里,我们考虑一种模型,其中响应被高斯噪声损坏,并且已知被生成为协变量的线性组合,但是地面真实回归系数和噪声的分布是未知的。这种回归任务可以被重建为称为加德纳旋转玻璃的统计力学模型,这是我们利用的类比。使用休假方法,我们表征了回归系数的均方误差。我们还导出了后验的日志标准化常量。 Shcherbina和Tirozzi和Talagrand研究了类似的模型,但我们的论点更加简单。我们分析的有趣后果是,在二次损失案例中,贝叶斯估计器的性能独立于全球“温度”的超开次,并匹配脊估计器:采样和优化同样好。
translated by 谷歌翻译
在本文中,我们利用过度参数化来设计高维单索索引模型的无规矩算法,并为诱导的隐式正则化现象提供理论保证。具体而言,我们研究了链路功能是非线性且未知的矢量和矩阵单索引模型,信号参数是稀疏向量或低秩对称矩阵,并且响应变量可以是重尾的。为了更好地理解隐含正规化的角色而没有过度的技术性,我们假设协变量的分布是先验的。对于载体和矩阵设置,我们通过采用分数函数变换和专为重尾数据的强大截断步骤来构造过度参数化最小二乘损耗功能。我们建议通过将无规则化的梯度下降应用于损耗函数来估计真实参数。当初始化接近原点并且步骤中足够小时,我们证明了所获得的解决方案在载体和矩阵案件中实现了最小的收敛统计速率。此外,我们的实验结果支持我们的理论调查结果,并表明我们的方法在$ \ ell_2 $ -staticatisticated率和变量选择一致性方面具有明确的正则化的经验卓越。
translated by 谷歌翻译
张量模型在许多领域中起着越来越重要的作用,特别是在机器学习中。在几种应用中,例如社区检测,主题建模和高斯混合物学习,必须估算噪声张量的低级别信号。因此,了解该信号的估计器的基本限制不可避免地要求研究随机张量。最近,在大维限制中,该主题取得了实质性进展。然而,其中一些最重要的结果(尤其是对突然的相变(相对于信噪比)的精确表征),该表现控制着对称等级的最大可能性(ML)估计器的性能 - 具有高斯噪声的模型 - 基于平均场自旋玻璃理论得出,非专家不容易访问。在这项工作中,我们依靠标准但强大的工具开发出一种截然不同,更基本的方法,这是由随机矩阵理论的多年进步带来的。关键思想是研究由给定随机张量的收缩引起的随机矩阵的光谱。我们展示了如何访问随机张量本身的光谱属性。对于上述排名衡量模型,我们的技术产生了迄今未知的固定点方程,其解决方案与第三阶情况下的相变阈值高于相变阈值的ML估计器的渐近性能。数值验证提供了证据,表明订单4和5相同,导致我们猜想,对于任何顺序,我们的定点方程等于已知的ML估计性能的表征,这些表现通过依靠旋转玻璃而获得。此外,我们的方法阐明了ML问题景观的某些特性,可以扩展到其他模型,例如不对称和非高斯。
translated by 谷歌翻译
成功的深度学习模型往往涉及培训具有比训练样本数量更多的参数的神经网络架构。近年来已经广泛研究了这种超分子化的模型,并且通过双下降现象和通过优化景观的结构特性,从统计的角度和计算视角都建立了过分统计化的优点。尽管在过上分层的制度中深入学习架构的显着成功,但也众所周知,这些模型对其投入中的小对抗扰动感到高度脆弱。即使在普遍培训的情况下,它们在扰动输入(鲁棒泛化)上的性能也会比良性输入(标准概括)的最佳可达到的性能更糟糕。因此,必须了解如何从根本上影响稳健性的情况下如何影响鲁棒性。在本文中,我们将通过专注于随机特征回归模型(具有随机第一层权重的两层神经网络)来提供超分度化对鲁棒性的作用的精确表征。我们考虑一个制度,其中样本量,输入维度和参数的数量彼此成比例地生长,并且当模型发生前列地训练时,可以为鲁棒泛化误差导出渐近精确的公式。我们的发达理论揭示了过分统计化对鲁棒性的非竞争效果,表明对于普遍训练的随机特征模型,高度公正化可能会损害鲁棒泛化。
translated by 谷歌翻译