本文提出了弗兰克 - 沃尔夫(FW)的新变种​​,称为$ k $ fw。标准FW遭受缓慢的收敛性:迭代通常是Zig-zag作为更新方向振荡约束集的极端点。新变种,$ k $ fw,通过在每次迭代中使用两个更强的子问题oracelles克服了这个问题。第一个是$ k $线性优化Oracle($ k $ loo),计算$ k $最新的更新方向(而不是一个)。第二个是$ k $方向搜索($ k $ ds),最大限度地减少由$ k $最新更新方向和之前迭代表示的约束组的目标。当问题解决方案承认稀疏表示时,奥克斯都易于计算,而且$ k $ FW会迅速收敛,以便平滑凸起目标和几个有趣的约束集:$ k $ fw实现有限$ \ frac {4l_f ^ 3d ^} { \ Gamma \ Delta ^ 2} $融合在多台和集团规范球上,以及光谱和核规范球上的线性收敛。数值实验验证了$ k $ fw的有效性,并展示了现有方法的数量级加速。
translated by 谷歌翻译
我们考虑凸优化问题,这些问题被广泛用作低级基质恢复问题的凸松弛。特别是,在几个重要问题(例如相位检索和鲁棒PCA)中,在许多情况下的基本假设是最佳解决方案是排名一列。在本文中,我们考虑了目标上的简单自然的条件,以使这些放松的最佳解决方案确实是独特的,并且是一个排名。主要是,我们表明,在这种情况下,使用线路搜索的标准Frank-Wolfe方法(即,没有任何参数调整),该方法仅需要单个排名一级的SVD计算,可以找到$ \ epsilon $ - 仅在$ o(\ log {1/\ epsilon})$迭代(而不是以前最著名的$ o(1/\ epsilon)$)中的近似解决方案,尽管目的不是强烈凸。我们考虑了基本方法的几种变体,具有改善的复杂性,以及由强大的PCA促进的扩展,最后是对非平滑问题的扩展。
translated by 谷歌翻译
低秩矩阵恢复的现有结果在很大程度上专注于二次损失,这享有有利的性质,例如限制强的强凸/平滑度(RSC / RSM)以及在所有低等级矩阵上的良好调节。然而,许多有趣的问题涉及更一般,非二次损失,这不满足这些属性。对于这些问题,标准的非耦合方法,例如秩约为秩约为预定的梯度下降(A.K.A.迭代硬阈值)和毛刺蒙特罗分解可能具有差的经验性能,并且没有令人满意的理论保证了这些算法的全球和快速收敛。在本文中,我们表明,具有非二次损失的可证实低级恢复中的关键组成部分是规律性投影oracle。该Oracle限制在适当的界限集中迭代到低级矩阵,损耗功能在其上表现良好并且满足一组近似RSC / RSM条件。因此,我们分析配备有这样的甲骨文的(平均)投影的梯度方法,并证明它在全球和线性地收敛。我们的结果适用于广泛的非二次低级估计问题,包括一个比特矩阵感测/完成,个性化排名聚集,以及具有等级约束的更广泛的广义线性模型。
translated by 谷歌翻译
We provide stronger and more general primal-dual convergence results for Frank-Wolfe-type algorithms (a.k.a. conditional gradient) for constrained convex optimization, enabled by a simple framework of duality gap certificates. Our analysis also holds if the linear subproblems are only solved approximately (as well as if the gradients are inexact), and is proven to be worst-case optimal in the sparsity of the obtained solutions.On the application side, this allows us to unify a large variety of existing sparse greedy methods, in particular for optimization over convex hulls of an atomic set, even if those sets can only be approximated, including sparse (or structured sparse) vectors or matrices, low-rank matrices, permutation matrices, or max-norm bounded matrices. We present a new general framework for convex optimization over matrix factorizations, where every Frank-Wolfe iteration will consist of a low-rank update, and discuss the broad application areas of this approach.
translated by 谷歌翻译
The affine rank minimization problem consists of finding a matrix of minimum rank that satisfies a given system of linear equality constraints. Such problems have appeared in the literature of a diverse set of fields including system identification and control, Euclidean embedding, and collaborative filtering. Although specific instances can often be solved with specialized algorithms, the general affine rank minimization problem is NP-hard, because it contains vector cardinality minimization as a special case.In this paper, we show that if a certain restricted isometry property holds for the linear transformation defining the constraints, the minimum rank solution can be recovered by solving a convex optimization problem, namely the minimization of the nuclear norm over the given affine space. We present several random ensembles of equations where the restricted isometry property holds with overwhelming probability, provided the codimension of the subspace is Ω(r(m + n) log mn), where m, n are the dimensions of the matrix, and r is its rank.The techniques used in our analysis have strong parallels in the compressed sensing framework. We discuss how affine rank minimization generalizes this pre-existing concept and outline a dictionary relating concepts from cardinality minimization to those of rank minimization. We also discuss several algorithmic approaches to solving the norm minimization relaxations, and illustrate our results with numerical examples.
translated by 谷歌翻译
低级和非平滑矩阵优化问题捕获了统计和机器学习中的许多基本任务。尽管近年来在开发\ textIt {平滑}低级优化问题的有效方法方面取得了重大进展,这些问题避免了保持高级矩阵和计算昂贵的高级SVD,但不平滑问题的进步的步伐缓慢。在本文中,我们考虑了针对此类问题的标准凸放松。主要是,我们证明,在\ textit {严格的互补性}条件下,在相对温和的假设下,非平滑目标可以写成最大的光滑功能,近似于两个流行的\ textit {mirriry-prox}方法的变体: \ textIt {外部方法}和带有\ textIt {矩阵启用梯度更新}的镜像 - prox,当用“温暖启动”初始化时,将速率$ o(1/t)$的最佳解决方案收集到最佳解决方案,同时仅需要两个\ textIt {low-rank} svds每迭代。此外,对于外部方法,我们还考虑了严格互补性的放松版本,该版本在所需的SVD等级与我们需要初始化该方法的球的半径之间取决于权衡。我们通过几个非平滑级矩阵恢复任务的经验实验来支持我们的理论结果,这既证明了严格的互补性假设的合理性,又证明了我们所提出的低级镜像 - 镜像变体的有效收敛。
translated by 谷歌翻译
广义自我符合是许多重要学习问题的目标功能中存在的关键属性。我们建立了一个简单的Frank-Wolfe变体的收敛速率,该变体使用开环步数策略$ \ gamma_t = 2/(t+2)$,获得了$ \ Mathcal {o}(1/t)$收敛率对于这类功能,就原始差距和弗兰克 - 沃尔夫差距而言,$ t $是迭代计数。这避免了使用二阶信息或估计以前工作的局部平滑度参数的需求。我们还显示了各种常见病例的收敛速率的提高,例如,当所考虑的可行区域均匀地凸或多面体时。
translated by 谷歌翻译
我们考虑使用梯度下降来最大程度地减少$ f(x)= \ phi(xx^{t})$在$ n \ times r $因件矩阵$ x $上,其中$ \ phi是一种基础平稳凸成本函数定义了$ n \ times n $矩阵。虽然只能在合理的时间内发现只有二阶固定点$ x $,但如果$ x $的排名不足,则其排名不足证明其是全球最佳的。这种认证全球最优性的方式必然需要当前迭代$ x $的搜索等级$ r $,以相对于级别$ r^{\ star} $过度参数化。不幸的是,过度参数显着减慢了梯度下降的收敛性,从$ r = r = r = r^{\ star} $的线性速率到$ r> r> r> r> r^{\ star} $,即使$ \ phi $是$ \ phi $强烈凸。在本文中,我们提出了一项廉价的预处理,该预处理恢复了过度参数化的情况下梯度下降回到线性的收敛速率,同时也使在全局最小化器$ x^{\ star} $中可能不良条件变得不可知。
translated by 谷歌翻译
We investigate the problem of recovering a partially observed high-rank matrix whose columns obey a nonlinear structure such as a union of subspaces, an algebraic variety or grouped in clusters. The recovery problem is formulated as the rank minimization of a nonlinear feature map applied to the original matrix, which is then further approximated by a constrained non-convex optimization problem involving the Grassmann manifold. We propose two sets of algorithms, one arising from Riemannian optimization and the other as an alternating minimization scheme, both of which include first- and second-order variants. Both sets of algorithms have theoretical guarantees. In particular, for the alternating minimization, we establish global convergence and worst-case complexity bounds. Additionally, using the Kurdyka-Lojasiewicz property, we show that the alternating minimization converges to a unique limit point. We provide extensive numerical results for the recovery of union of subspaces and clustering under entry sampling and dense Gaussian sampling. Our methods are competitive with existing approaches and, in particular, high accuracy is achieved in the recovery using Riemannian second-order methods.
translated by 谷歌翻译
给定数据点之间的一组差异测量值,确定哪种度量表示与输入测量最“一致”或最能捕获数据相关几何特征的度量是许多机器学习算法的关键步骤。现有方法仅限于特定类型的指标或小问题大小,因为在此类问题中有大量的度量约束。在本文中,我们提供了一种活跃的集合算法,即项目和忘记,该算法使用Bregman的预测,以解决许多(可能是指数)不平等约束的度量约束问题。我们提供了\ textsc {project and Hoses}的理论分析,并证明我们的算法会收敛到全局最佳解决方案,并以指数速率渐近地渐近地衰减了当前迭代的$ L_2 $距离。我们证明,使用我们的方法,我们可以解决三种类型的度量约束问题的大型问题实例:一般体重相关聚类,度量近距离和度量学习;在每种情况下,就CPU时间和问题尺寸而言,超越了艺术方法的表现。
translated by 谷歌翻译
This paper is about a curious phenomenon. Suppose we have a data matrix, which is the superposition of a low-rank component and a sparse component. Can we recover each component individually? We prove that under some suitable assumptions, it is possible to recover both the low-rank and the sparse components exactly by solving a very convenient convex program called Principal Component Pursuit; among all feasible decompositions, simply minimize a weighted combination of the nuclear norm and of the 1 norm. This suggests the possibility of a principled approach to robust principal component analysis since our methodology and results assert that one can recover the principal components of a data matrix even though a positive fraction of its entries are arbitrarily corrupted. This extends to the situation where a fraction of the entries are missing as well. We discuss an algorithm for solving this optimization problem, and present applications in the area of video surveillance, where our methodology allows for the detection of objects in a cluttered background, and in the area of face recognition, where it offers a principled way of removing shadows and specularities in images of faces.
translated by 谷歌翻译
在本文中,我们提出了近似的Frank-Wolfe(FW)算法,以在\ textit {线性最小化oracle}(LMO)一般不能有效地获得图形结构的支持集上解决凸的优化问题。我们首先证明了两个流行的近似假设(\ textIt {addive}和\ textit {乘法差距错误)},对于我们的问题而言无效,因为一般不存在便宜的间隙 - 差异lmo oracle。取而代之的是,提出了一个新的\ textit {近似双重最大化oracle}(dmo),该(DMO)近似于内部产品而不是间隙。当目标为$ l $ -smooth时,我们证明了使用$ \ delta $ -Approximate DMO的标准FW方法收敛为$ \ Mathcal {o}(l / \ delta t +(1- \ delta)(\ delta)(\ delta)一般而言放松约束集。此外,当目标为$ \ mu $ -sronglongly凸面并且该解决方案是唯一的,FW的变体收敛到$ \ Mathcal {o}(l^2 \ log log(t)/(\ mu \ mu \ delta^6 T^) 2))$具有相同的触电复杂性。我们的经验结果表明,即使这些改进的界限也是悲观的,在恢复具有图形结构稀疏性的现实世界图像方面,有了显着改善。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
诸如压缩感测,图像恢复,矩阵/张恢复和非负矩阵分子等信号处理和机器学习中的许多近期问题可以作为约束优化。预计的梯度下降是一种解决如此约束优化问题的简单且有效的方法。本地收敛分析将我们对解决方案附近的渐近行为的理解,与全球收敛分析相比,收敛率的较小界限提供了较小的界限。然而,本地保证通常出现在机器学习和信号处理的特定问题领域。此稿件在约束最小二乘范围内,对投影梯度下降的局部收敛性分析提供了统一的框架。该建议的分析提供了枢转局部收敛性的见解,例如线性收敛的条件,收敛区域,精确的渐近收敛速率,以及达到一定程度的准确度所需的迭代次数的界限。为了证明所提出的方法的适用性,我们介绍了PGD的收敛分析的配方,并通过在四个基本问题上的配方的开始延迟应用来证明它,即线性约束最小二乘,稀疏恢复,最小二乘法使用单位规范约束和矩阵完成。
translated by 谷歌翻译
This paper shows that a perturbed form of gradient descent converges to a second-order stationary point in a number iterations which depends only poly-logarithmically on dimension (i.e., it is almost "dimension-free"). The convergence rate of this procedure matches the wellknown convergence rate of gradient descent to first-order stationary points, up to log factors. When all saddle points are non-degenerate, all second-order stationary points are local minima, and our result thus shows that perturbed gradient descent can escape saddle points almost for free.Our results can be directly applied to many machine learning applications, including deep learning. As a particular concrete example of such an application, we show that our results can be used directly to establish sharp global convergence rates for matrix factorization. Our results rely on a novel characterization of the geometry around saddle points, which may be of independent interest to the non-convex optimization community.
translated by 谷歌翻译
我们在高维批处理设置中提出了统计上健壮和计算高效的线性学习方法,其中功能$ d $的数量可能超过样本量$ n $。在通用学习环境中,我们采用两种算法,具体取决于所考虑的损失函数是否为梯度lipschitz。然后,我们将我们的框架实例化,包括几种应用程序,包括香草稀疏,群 - 帕克斯和低升级矩阵恢复。对于每种应用,这导致了有效而强大的学习算法,这些算法在重尾分布和异常值的存在下达到了近乎最佳的估计率。对于香草$ S $ -SPARSITY,我们能够以重型尾巴和$ \ eta $ - 腐败的计算成本与非企业类似物相当的计算成本达到$ s \ log(d)/n $速率。我们通过开放源代码$ \ mathtt {python} $库提供了有效的算法实现文献中提出的最新方法。
translated by 谷歌翻译
基于梯度的高参数调整的优化方法可确保理论收敛到固定解决方案时,对于固定的上层变量值,双光线程序的下层级别强烈凸(LLSC)和平滑(LLS)。对于在许多机器学习算法中调整超参数引起的双重程序,不满足这种情况。在这项工作中,我们开发了一种基于不精确度(VF-IDCA)的基于依次收敛函数函数算法。我们表明,该算法从一系列的超级参数调整应用程序中实现了无LLSC和LLS假设的固定解决方案。我们的广泛实验证实了我们的理论发现,并表明,当应用于调子超参数时,提出的VF-IDCA会产生较高的性能。
translated by 谷歌翻译
稀疏数据的恢复是机器学习和信号处理中许多应用的核心。虽然可以使用$ \ ell_1 $ -regularization在套索估算器中使用此类问题,但在基础上,通常需要专用算法来解决大型实例的相应高维非平滑优化。迭代地重新重复的最小二乘(IRLS)是一种广泛使用的算法,其出于其优异的数值性能。然而,虽然现有理论能够保证该算法的收敛到最小化器,但它不提供全局收敛速度。在本文中,我们证明了IRLS的变型以全局线性速率收敛到稀疏解决方案,即,如果测量结果满足通常的空空间属性假设,则立即发生线性误差。我们通过数值实验支持我们的理论,表明我们的线性速率捕获了正确的维度依赖性。我们预计我们的理论调查结果将导致IRLS算法的许多其他用例的新见解,例如在低级矩阵恢复中。
translated by 谷歌翻译
近似的carath \'oOdory定理指出,给定一个紧凑的凸起设置$ \ mathcal {c} \ subset \ mathbb {r} ^ n $和$ p \ in \ left [2,+ \ idty \ with [$,每个点$ x ^ * \ in \ mathcal {c} $可以近似为$ \ epsilon $ -curacy,以$ \ ell_p $ -norm作为$ \ mathcal {o}的凸组合(pd_p ^ 2 / epsilon ^ 2 )$ \ mathcal {c} $的$顶点,$ d_p $是$ \ ell_p $ -norm的$ \ mathcal {c} $的直径。可以使用概率参数或通过将镜像血清应用于双问题来构建满足这些属性的解决方案。通过通过Frank-Wolfe算法解决原始问题,提供了一种简化的分析并导致高效的实用方法来重新审视大致的Carath \'oODory问题。此外,当$ x ^ * $处于$ \ mathcal {c} $的内部时,改进的基数范围是使用弗兰克沃尔夫算法的现有收敛速率导出的,当$ \ mathcal {c} $的内部时,当$ x ^ * $时直径小的顶点子集的组合,或者当$ \ mathcal {c} $均匀凸起时。当$ p \ leve [1,2 \ light [\ cup \ {+ \ infty \ infty \ id \} $ exmooth变体,我们还提出了基数界限。最后,我们解决了在$ \ ell_p $ -norm中找到稀疏近似投影的问题,$ \ ell_p $ -norm,$ p \ in \ left [1,+ \ idty \右] $。
translated by 谷歌翻译
在本文中,我们研究了一类二聚体优化问题,也称为简单的双重优化,在其中,我们将光滑的目标函数最小化,而不是另一个凸的约束优化问题的最佳解决方案集。已经开发了几种解决此类问题的迭代方法。 las,它们的收敛保证并不令人满意,因为它们要么渐近,要么渐近,要么是收敛速度缓慢且最佳的。为了解决这个问题,在本文中,我们介绍了Frank-Wolfe(FW)方法的概括,以解决考虑的问题。我们方法的主要思想是通过切割平面在局部近似低级问题的解决方案集,然后运行FW型更新以减少上层目标。当上层目标是凸面时,我们表明我们的方法需要$ {\ mathcal {o}}(\ max \ {1/\ epsilon_f,1/\ epsilon_g \})$迭代才能找到$ \ \ \ \ \ \ epsilon_f $ - 最佳目标目标和$ \ epsilon_g $ - 最佳目标目标。此外,当高级目标是非convex时,我们的方法需要$ {\ MATHCAL {o}}(\ max \ {1/\ epsilon_f^2,1/(\ epsilon_f \ epsilon_g})查找$(\ epsilon_f,\ epsilon_g)$ - 最佳解决方案。我们进一步证明了在“较低级别问题的老年人错误约束假设”下的更强的融合保证。据我们所知,我们的方法实现了所考虑的二聚体问题的最著名的迭代复杂性。我们还向数值实验提出了数值实验。与最先进的方法相比,展示了我们方法的出色性能。
translated by 谷歌翻译