我们表明,在固定级和对称的阳性半明确矩阵上,Riemannian梯度下降算法几乎可以肯定地逃脱了歧管边界上的一些虚假关键点。我们的结果是第一个部分克服低级基质歧管的不完整而不改变香草riemannian梯度下降算法的不完整性。虚假的关键点是一些缺陷的矩阵,仅捕获地面真理的特征成分的一部分。与经典的严格鞍点不同,它们表现出非常奇异的行为。我们表明,使用动力学低级别近似和重新升级的梯度流,可以将某些伪造的临界点转换为参数化域中的经典严格鞍点,从而导致所需的结果。提供数值实验以支持我们的理论发现。
translated by 谷歌翻译
我们研究了二阶算法混合牛顿方法和惯性梯度下降的渐近行为在非凸景观中。我们表明,尽管牛顿行为这些方法,但它们几乎总是逃脱严格的马鞍点。我们还证明了这些方法的超级参数在其定性行为附近关键点的定性行为发挥作用。理论结果由数字插图支持。
translated by 谷歌翻译
诸如压缩感测,图像恢复,矩阵/张恢复和非负矩阵分子等信号处理和机器学习中的许多近期问题可以作为约束优化。预计的梯度下降是一种解决如此约束优化问题的简单且有效的方法。本地收敛分析将我们对解决方案附近的渐近行为的理解,与全球收敛分析相比,收敛率的较小界限提供了较小的界限。然而,本地保证通常出现在机器学习和信号处理的特定问题领域。此稿件在约束最小二乘范围内,对投影梯度下降的局部收敛性分析提供了统一的框架。该建议的分析提供了枢转局部收敛性的见解,例如线性收敛的条件,收敛区域,精确的渐近收敛速率,以及达到一定程度的准确度所需的迭代次数的界限。为了证明所提出的方法的适用性,我们介绍了PGD的收敛分析的配方,并通过在四个基本问题上的配方的开始延迟应用来证明它,即线性约束最小二乘,稀疏恢复,最小二乘法使用单位规范约束和矩阵完成。
translated by 谷歌翻译
了解随机梯度下降(SGD)的隐式偏见是深度学习的关键挑战之一,尤其是对于过度透明的模型,损失功能的局部最小化$ l $可以形成多种多样的模型。从直觉上讲,SGD $ \ eta $的学习率很小,SGD跟踪梯度下降(GD),直到它接近这种歧管为止,梯度噪声阻止了进一步的收敛。在这样的政权中,Blanc等人。 (2020)证明,带有标签噪声的SGD局部降低了常规术语,损失的清晰度,$ \ mathrm {tr} [\ nabla^2 l] $。当前的论文通过调整Katzenberger(1991)的想法提供了一个总体框架。它原则上允许使用随机微分方程(SDE)描述参数的限制动力学的SGD围绕此歧管的正规化效应(即“隐式偏见”)的正则化效应,这是由损失共同确定的功能和噪声协方差。这产生了一些新的结果:(1)与Blanc等人的局部分析相比,对$ \ eta^{ - 2} $ steps有效的隐性偏差进行了全局分析。 (2020)仅适用于$ \ eta^{ - 1.6} $ steps和(2)允许任意噪声协方差。作为一个应用程序,我们以任意大的初始化显示,标签噪声SGD始终可以逃脱内核制度,并且仅需要$ o(\ kappa \ ln d)$样本用于学习$ \ kappa $ -sparse $ -sparse yroverparame parametrized linearized Linear Modal in $ \ Mathbb {r}^d $(Woodworth等,2020),而GD在内核制度中初始化的GD需要$ \ omega(d)$样本。该上限是最小值的最佳,并改善了先前的$ \ tilde {o}(\ kappa^2)$上限(Haochen等,2020)。
translated by 谷歌翻译
Riemannian优化是解决优化问题的原则框架,其中所需的最佳被限制为光滑的歧管$ \ Mathcal {M} $。在此框架中设计的算法通常需要对歧管的几何描述,该描述通常包括切线空间,缩回和成本函数的梯度。但是,在许多情况下,由于缺乏信息或棘手的性能,只能访问这些元素的子集(或根本没有)。在本文中,我们提出了一种新颖的方法,可以在这种情况下执行近似Riemannian优化,其中约束歧管是$ \ r^{d} $的子手机。至少,我们的方法仅需要一组无噪用的成本函数$(\ x_ {i},y_ {i})\ in {\ mathcal {m}} \ times \ times \ times \ times \ times \ mathbb {r} $和内在的歧管$ \ MATHCAL {M} $的维度。使用样品,并利用歧管-MLS框架(Sober和Levin 2020),我们构建了缺少的组件的近似值,这些组件娱乐可证明的保证并分析其计算成本。如果某些组件通过分析给出(例如,如果成本函数及其梯度明确给出,或者可以计算切线空间),则可以轻松地适应该算法以使用准确的表达式而不是近似值。我们使用我们的方法分析了基于Riemannian梯度的方法的全球收敛性,并从经验上证明了该方法的强度,以及基于类似原理的共轭梯度类型方法。
translated by 谷歌翻译
我们考虑使用梯度下降来最大程度地减少$ f(x)= \ phi(xx^{t})$在$ n \ times r $因件矩阵$ x $上,其中$ \ phi是一种基础平稳凸成本函数定义了$ n \ times n $矩阵。虽然只能在合理的时间内发现只有二阶固定点$ x $,但如果$ x $的排名不足,则其排名不足证明其是全球最佳的。这种认证全球最优性的方式必然需要当前迭代$ x $的搜索等级$ r $,以相对于级别$ r^{\ star} $过度参数化。不幸的是,过度参数显着减慢了梯度下降的收敛性,从$ r = r = r = r^{\ star} $的线性速率到$ r> r> r> r> r^{\ star} $,即使$ \ phi $是$ \ phi $强烈凸。在本文中,我们提出了一项廉价的预处理,该预处理恢复了过度参数化的情况下梯度下降回到线性的收敛速率,同时也使在全局最小化器$ x^{\ star} $中可能不良条件变得不可知。
translated by 谷歌翻译
We study a general matrix optimization problem with a fixed-rank positive semidefinite (PSD) constraint. We perform the Burer-Monteiro factorization and consider a particular Riemannian quotient geometry in a search space that has a total space equipped with the Euclidean metric. When the original objective f satisfies standard restricted strong convexity and smoothness properties, we characterize the global landscape of the factorized objective under the Riemannian quotient geometry. We show the entire search space can be divided into three regions: (R1) the region near the target parameter of interest, where the factorized objective is geodesically strongly convex and smooth; (R2) the region containing neighborhoods of all strict saddle points; (R3) the remaining regions, where the factorized objective has a large gradient. To our best knowledge, this is the first global landscape analysis of the Burer-Monteiro factorized objective under the Riemannian quotient geometry. Our results provide a fully geometric explanation for the superior performance of vanilla gradient descent under the Burer-Monteiro factorization. When f satisfies a weaker restricted strict convexity property, we show there exists a neighborhood near local minimizers such that the factorized objective is geodesically convex. To prove our results we provide a comprehensive landscape analysis of a matrix factorization problem with a least squares objective, which serves as a critical bridge. Our conclusions are also based on a result of independent interest stating that the geodesic ball centered at Y with a radius 1/3 of the least singular value of Y is a geodesically convex set under the Riemannian quotient geometry, which as a corollary, also implies a quantitative bound of the convexity radius in the Bures-Wasserstein space. The convexity radius obtained is sharp up to constants.
translated by 谷歌翻译
We investigate the problem of recovering a partially observed high-rank matrix whose columns obey a nonlinear structure such as a union of subspaces, an algebraic variety or grouped in clusters. The recovery problem is formulated as the rank minimization of a nonlinear feature map applied to the original matrix, which is then further approximated by a constrained non-convex optimization problem involving the Grassmann manifold. We propose two sets of algorithms, one arising from Riemannian optimization and the other as an alternating minimization scheme, both of which include first- and second-order variants. Both sets of algorithms have theoretical guarantees. In particular, for the alternating minimization, we establish global convergence and worst-case complexity bounds. Additionally, using the Kurdyka-Lojasiewicz property, we show that the alternating minimization converges to a unique limit point. We provide extensive numerical results for the recovery of union of subspaces and clustering under entry sampling and dense Gaussian sampling. Our methods are competitive with existing approaches and, in particular, high accuracy is achieved in the recovery using Riemannian second-order methods.
translated by 谷歌翻译
最近在优化中应用了动力学系统理论,以证明梯度下降算法避免了所谓的损失函数的严格鞍点。但是,在许多现代机器学习应用中,不满足所需的规律条件。特别是,整流线性单元(RELU)网络就是这种情况。在本文中,我们证明了相关动力系统结果的变体,即中心稳定的歧管定理,其中我们放宽了一些规律性要求。然后,我们验证浅层relu网络适合新框架。在基于针对仿射目标功能测量的浅层relu网络的正方形积分损失的临界点的分类为基础,我们推断出梯度下降避免了大多数鞍点。如果初始化足够好,我们将继续证明与全球最小值的融合,这是由限制损失的明确阈值表示的。
translated by 谷歌翻译
我们研究无限制的黎曼优化的免投影方法。特别是,我们提出了黎曼弗兰克 - 沃尔夫(RFW)方法。我们将RFW的非渐近收敛率分析为最佳(高音)凸起问题,以及非凸起目标的临界点。我们还提出了一种实用的设置,其中RFW可以获得线性收敛速度。作为一个具体的例子,我们将RFW专用于正定矩阵的歧管,并将其应用于两个任务:(i)计算矩阵几何平均值(riemannian质心); (ii)计算Bures-Wasserstein重心。这两个任务都涉及大量凸间间隔约束,为此,我们表明RFW要求的Riemannian“线性”Oracle承认了闭合形式的解决方案;该结果可能是独立的兴趣。我们进一步专门从事RFW到特殊正交组,并表明这里也可以以封闭形式解决riemannian“线性”甲骨文。在这里,我们描述了数据矩阵同步的应用程序(促使问题)。我们补充了我们的理论结果,并对RFW对最先进的riemananian优化方法进行了实证比较,并观察到RFW竞争性地对计算黎曼心质的任务进行竞争性。
translated by 谷歌翻译
在这项工作中,证明了功能$ f $的收敛引理是分析映射的有限组成和最大运算符。引理表明,$ \ delta $ - 定位点附近附近的隔离本地最小点$ x^*$正在收缩到$ x^*$,为$ \ delta \ to 0 $。它是强烈凸出$ c^1 $函数的版本的自然扩展。但是,引理的正确性是微妙的。分析映射对于诱饵是必要的,因为用可区分或$ c^\ infty $映射代替它会导致引理错误。该证明基于{\ l} ojasiewicz的半分析集的分层定理。此证明的扩展显示了$ f $的一组固定点的几何表征。最后,提出了在固定点上的稳定性概念,称为收敛稳定性。它询问,在小数字错误下,合理的收敛优化方法是否在固定点附近开始应最终收敛到同一固定点。仅当目标函数既非滑动和非概念),趋同稳定性的概念在质量上变得无处不在。通过收敛引理,证明了$ F $的收敛稳定性的直观等效条件。这些结果共同提供了一个新的几何观点,可以研究非平滑非凸优化中“何处连接”的问题。
translated by 谷歌翻译
Cohen等人的深度学习实验。 [2021]使用确定性梯度下降(GD)显示学习率(LR)和清晰度(即Hessian最大的特征值)的稳定边缘(EOS)阶段不再像传统优化一样行为。清晰度稳定在$ 2/$ LR的左右,并且在迭代中损失不断上下,但仍有整体下降趋势。当前的论文数学分析了EOS阶段中隐式正则化的新机制,因此,由于非平滑损失景观而导致的GD更新沿着最小损失的多种流量进行了一些确定性流程发展。这与许多先前关于隐式偏差依靠无限更新或梯度中的噪声的结果相反。正式地,对于具有某些规律性条件的任何平滑函数$ l $,对于(1)标准化的GD,即具有不同的lr $ \ eta_t = \ frac {\ eta} {||的GD证明了此效果。 \ nabla l(x(t))||} $和损失$ l $; (2)具有常数LR和损失$ \ sqrt {l- \ min_x l(x)} $的GD。两者都可以证明进入稳定性的边缘,在歧管上相关的流量最小化$ \ lambda_ {1}(\ nabla^2 l)$。一项实验研究证实了上述理论结果。
translated by 谷歌翻译
通过扩展相关梯度流动,研究梯度下降的梯度下降的收敛性,即训练深层线性神经网络,即深矩阵因子。我们表明,在步骤上的合适条件下,梯度下降将收敛到损耗功能的临界点,即本文中的方形损失。此外,我们证明,对于几乎所有初始化梯度下降,在两层的情况下会聚到全局最小值。在三层或更多层的情况下,我们示出了梯度下降将收敛到一些固定等级的歧管矩阵上的全局最小值,其中等级不能确定先验。
translated by 谷歌翻译
通过在线规范相关性分析的问题,我们提出了\ emph {随机缩放梯度下降}(SSGD)算法,以最小化通用riemannian歧管上的随机功能的期望。 SSGD概括了投影随机梯度下降的思想,允许使用缩放的随机梯度而不是随机梯度。在特殊情况下,球形约束的特殊情况,在广义特征向量问题中产生的,我们建立了$ \ sqrt {1 / t} $的令人反感的有限样本,并表明该速率最佳最佳,直至具有积极的积极因素相关参数。在渐近方面,一种新的轨迹平均争论使我们能够实现局部渐近常态,其速率与鲁普特 - Polyak-Quaditsky平均的速率匹配。我们将这些想法携带在一个在线规范相关分析,从事文献中的第一次获得了最佳的一次性尺度算法,其具有局部渐近融合到正常性的最佳一次性尺度算法。还提供了用于合成数据的规范相关分析的数值研究。
translated by 谷歌翻译
Sharpness-Aware Minimization (SAM) is a highly effective regularization technique for improving the generalization of deep neural networks for various settings. However, the underlying working of SAM remains elusive because of various intriguing approximations in the theoretical characterizations. SAM intends to penalize a notion of sharpness of the model but implements a computationally efficient variant; moreover, a third notion of sharpness was used for proving generalization guarantees. The subtle differences in these notions of sharpness can indeed lead to significantly different empirical results. This paper rigorously nails down the exact sharpness notion that SAM regularizes and clarifies the underlying mechanism. We also show that the two steps of approximations in the original motivation of SAM individually lead to inaccurate local conclusions, but their combination accidentally reveals the correct effect, when full-batch gradients are applied. Furthermore, we also prove that the stochastic version of SAM in fact regularizes the third notion of sharpness mentioned above, which is most likely to be the preferred notion for practical performance. The key mechanism behind this intriguing phenomenon is the alignment between the gradient and the top eigenvector of Hessian when SAM is applied.
translated by 谷歌翻译
最近在J. Math中引入的分配流程。成像和视觉58/2(2017)构成了一种高维动态系统,其在基本统计歧管上发展,并执行任何度量空间中给出的数据的上下文标记(分类)。给定图形的顶点索引数据点并定义邻域的系统。这些邻域与非负重量参数一起定义标签分配的演变的正则化,通过由信息几何的仿射电子连接引起的几何平均来定义对数据点的数量。关于进化游戏动态,分配流程可以被称为由几何平均耦合的复制器方程的大型系统。本文在重量参数上建立了保证连续时间分配流程的重量参数(标签)的融合,最多可忽略不计在实际数据的实际数据时不会遇到的情况。此外,我们对流动的吸引子分类并量化相应的吸引力盆地。这为分配流提供了会聚保证,该分配流程扩展到不同时间分配流程,这些流量是应用跑步-Kutta-munthe-KAAS方案的用于分配流的数值几何集成。若干反作用例说明违反条件可能需要关于上下文数据分类的分配流的不利行为。
translated by 谷歌翻译
最近以来,在理解与overparameterized模型非凸损失基于梯度的方法收敛性和泛化显著的理论进展。尽管如此,优化和推广,尤其是小的随机初始化的关键作用的许多方面都没有完全理解。在本文中,我们迈出玄机通过证明小的随机初始化这个角色的步骤,然后通过梯度下降的行为类似于流行谱方法的几个迭代。我们还表明,从小型随机初始化,这可证明是用于overparameterized车型更加突出这种隐含的光谱偏差,也使梯度下降迭代在一个特定的轨迹走向,不仅是全局最优的,但也很好期广义的解决方案。具体而言,我们专注于通过天然非凸制剂重构从几个测量值的低秩矩阵的问题。在该设置中,我们表明,从小的随机初始化的梯度下降迭代的轨迹可以近似分解为三个阶段:(Ⅰ)的光谱或对准阶段,其中,我们表明,该迭代具有一个隐含的光谱偏置类似于频谱初始化允许我们表明,在该阶段中进行迭代,并且下面的低秩矩阵的列空间被充分对准的端部,(II)一鞍回避/细化阶段,我们表明,该梯度的轨迹从迭代移动离开某些简并鞍点,和(III)的本地细化阶段,其中,我们表明,避免了鞍座后的迭代快速收敛到底层低秩矩阵。底层我们的分析是,可能有超出低等级的重建计算问题影响overparameterized非凸优化方案的分析见解。
translated by 谷歌翻译
我们考虑最大程度地减少两次不同的可差异,$ l $ -smooth和$ \ mu $ -stronglongly凸面目标$ \ phi $ phi $ a $ n \ times n $ n $阳性阳性半finite $ m \ succeq0 $,在假设是最小化的假设$ m^{\ star} $具有低等级$ r^{\ star} \ ll n $。遵循burer- monteiro方法,我们相反,在因子矩阵$ x $ size $ n \ times r $的因素矩阵$ x $上最小化nonconvex objection $ f(x)= \ phi(xx^{t})$。这实际上将变量的数量从$ o(n^{2})$减少到$ O(n)$的少量,并且免费实施正面的半弱点,但要付出原始问题的均匀性。在本文中,我们证明,如果搜索等级$ r \ ge r^{\ star} $被相对于真等级$ r^{\ star} $的常数因子过度参数化,则如$ r> \ in frac {1} {4}(l/\ mu-1)^{2} r^{\ star} $,尽管非概念性,但保证本地优化可以从任何初始点转换为全局最佳。这显着改善了先前的$ r \ ge n $的过度参数化阈值,如果允许$ \ phi $是非平滑和/或非额外凸的,众所周知,这将是尖锐的,但会增加变量的数量到$ o(n^{2})$。相反,没有排名过度参数化,我们证明只有$ \ phi $几乎完美地条件,并且条件数量为$ l/\ mu <3 $,我们才能证明这种全局保证是可能的。因此,我们得出的结论是,少量的过度参数化可能会导致非凸室的理论保证得到很大的改善 - 蒙蒂罗分解。
translated by 谷歌翻译
通过内插机器在信号处理和机器学习中的新兴作用的推动,这项工作考虑了过度参数化矩阵分子的计算方面。在这种情况下,优化景观可能包含虚假的固定点(SSP),其被证明是全级矩阵。这些SSP的存在意味着不可能希望任何全球担保过度参数化矩阵分解。例如,当在SSP上初始化时,梯度流将永远被删除。尽管如此,尽管有这些SSP,我们在这项工作中建立了相应的优势函数的梯度流到全局最小化器,只要其初始化是缺陷并且足够接近可行性问题的可行性集合。我们在数值上观察到,当随机初始化时,通过原始 - 双算法启发的提出梯度流的启发式离散化是成功的。我们的结果与当地的细化方法形成鲜明的对比,该方法需要初始化接近优化问题的最佳集合。更具体地,我们成功避免了SSPS设置的陷阱,因为梯度流始终仍然是缺陷,而不是因为附近没有SSP。后者是本地细化方法的情况。此外,广泛使用的限制性肌肉属性在我们的主要结果中没有作用。
translated by 谷歌翻译
This paper shows that a perturbed form of gradient descent converges to a second-order stationary point in a number iterations which depends only poly-logarithmically on dimension (i.e., it is almost "dimension-free"). The convergence rate of this procedure matches the wellknown convergence rate of gradient descent to first-order stationary points, up to log factors. When all saddle points are non-degenerate, all second-order stationary points are local minima, and our result thus shows that perturbed gradient descent can escape saddle points almost for free.Our results can be directly applied to many machine learning applications, including deep learning. As a particular concrete example of such an application, we show that our results can be used directly to establish sharp global convergence rates for matrix factorization. Our results rely on a novel characterization of the geometry around saddle points, which may be of independent interest to the non-convex optimization community.
translated by 谷歌翻译