在本文中,我们提出了近似的Frank-Wolfe(FW)算法,以在\ textit {线性最小化oracle}(LMO)一般不能有效地获得图形结构的支持集上解决凸的优化问题。我们首先证明了两个流行的近似假设(\ textIt {addive}和\ textit {乘法差距错误)},对于我们的问题而言无效,因为一般不存在便宜的间隙 - 差异lmo oracle。取而代之的是,提出了一个新的\ textit {近似双重最大化oracle}(dmo),该(DMO)近似于内部产品而不是间隙。当目标为$ l $ -smooth时,我们证明了使用$ \ delta $ -Approximate DMO的标准FW方法收敛为$ \ Mathcal {o}(l / \ delta t +(1- \ delta)(\ delta)(\ delta)一般而言放松约束集。此外,当目标为$ \ mu $ -sronglongly凸面并且该解决方案是唯一的,FW的变体收敛到$ \ Mathcal {o}(l^2 \ log log(t)/(\ mu \ mu \ delta^6 T^) 2))$具有相同的触电复杂性。我们的经验结果表明,即使这些改进的界限也是悲观的,在恢复具有图形结构稀疏性的现实世界图像方面,有了显着改善。
translated by 谷歌翻译
本文提出了弗兰克 - 沃尔夫(FW)的新变种​​,称为$ k $ fw。标准FW遭受缓慢的收敛性:迭代通常是Zig-zag作为更新方向振荡约束集的极端点。新变种,$ k $ fw,通过在每次迭代中使用两个更强的子问题oracelles克服了这个问题。第一个是$ k $线性优化Oracle($ k $ loo),计算$ k $最新的更新方向(而不是一个)。第二个是$ k $方向搜索($ k $ ds),最大限度地减少由$ k $最新更新方向和之前迭代表示的约束组的目标。当问题解决方案承认稀疏表示时,奥克斯都易于计算,而且$ k $ FW会迅速收敛,以便平滑凸起目标和几个有趣的约束集:$ k $ fw实现有限$ \ frac {4l_f ^ 3d ^} { \ Gamma \ Delta ^ 2} $融合在多台和集团规范球上,以及光谱和核规范球上的线性收敛。数值实验验证了$ k $ fw的有效性,并展示了现有方法的数量级加速。
translated by 谷歌翻译
广义自我符合是许多重要学习问题的目标功能中存在的关键属性。我们建立了一个简单的Frank-Wolfe变体的收敛速率,该变体使用开环步数策略$ \ gamma_t = 2/(t+2)$,获得了$ \ Mathcal {o}(1/t)$收敛率对于这类功能,就原始差距和弗兰克 - 沃尔夫差距而言,$ t $是迭代计数。这避免了使用二阶信息或估计以前工作的局部平滑度参数的需求。我们还显示了各种常见病例的收敛速率的提高,例如,当所考虑的可行区域均匀地凸或多面体时。
translated by 谷歌翻译
我们考虑凸优化问题,这些问题被广泛用作低级基质恢复问题的凸松弛。特别是,在几个重要问题(例如相位检索和鲁棒PCA)中,在许多情况下的基本假设是最佳解决方案是排名一列。在本文中,我们考虑了目标上的简单自然的条件,以使这些放松的最佳解决方案确实是独特的,并且是一个排名。主要是,我们表明,在这种情况下,使用线路搜索的标准Frank-Wolfe方法(即,没有任何参数调整),该方法仅需要单个排名一级的SVD计算,可以找到$ \ epsilon $ - 仅在$ o(\ log {1/\ epsilon})$迭代(而不是以前最著名的$ o(1/\ epsilon)$)中的近似解决方案,尽管目的不是强烈凸。我们考虑了基本方法的几种变体,具有改善的复杂性,以及由强大的PCA促进的扩展,最后是对非平滑问题的扩展。
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
In model selection problems for machine learning, the desire for a well-performing model with meaningful structure is typically expressed through a regularized optimization problem. In many scenarios, however, the meaningful structure is specified in some discrete space, leading to difficult nonconvex optimization problems. In this paper, we connect the model selection problem with structure-promoting regularizers to submodular function minimization with continuous and discrete arguments. In particular, we leverage the theory of submodular functions to identify a class of these problems that can be solved exactly and efficiently with an agnostic combination of discrete and continuous optimization routines. We show how simple continuous or discrete constraints can also be handled for certain problem classes and extend these ideas to a robust optimization framework. We also show how some problems outside of this class can be embedded within the class, further extending the class of problems our framework can accommodate. Finally, we numerically validate our theoretical results with several proof-of-concept examples with synthetic and real-world data, comparing against state-of-the-art algorithms.
translated by 谷歌翻译
我们考虑最小化高维目标函数的问题,该功能可以包括正则化术语,使用(可能的噪声)评估该功能。这种优化也称为无衍生,零阶或黑匣子优化。我们提出了一个新的$ \ textbf {z} $ feroth - $ \ textbf {o} $ rder $ \ textbf {r} $ ptimization方法,称为zoro。当潜在的梯度大致稀疏时,Zoro需要很少的客观函数评估,以获得降低目标函数的新迭代。我们通过自适应,随机梯度估计器实现这一点,然后是不精确的近端梯度方案。在一个新颖的大致稀疏梯度假设和各种不同的凸面设置下,我们显示了zoro的(理论和实证)收敛速率仅对对数依赖于问题尺寸。数值实验表明,Zoro在合成和实际数据集中优于具有相似假设的现有方法。
translated by 谷歌翻译
加速的近端算法(APPA),也称为“催化剂”,是从凸优化到近似近端计算(即正则最小化)的确定还原。这种减少在概念上是优雅的,可以保证强大的收敛速度。但是,这些速率具有多余的对数项,因此需要计算每个近端点至高精度。在这项工作中,我们提出了一个新颖的放松误差标准,用于加速近端点(recapp),以消除对高精度子问题解决方案的需求。我们将recapp应用于两个规范问题:有限的和最大结构的最小化。对于有限和问题,我们匹配了以前通过精心设计的问题特异性算法获得的最著名的复杂性。为了最大程度地减少$ \ max_y f(x,y)$,其中$ f $以$ x $为$ x $,而在$ y $中强烈concave,我们改进了受对数因素限制的最著名的(基于催化剂)。
translated by 谷歌翻译
在评估目标时,在线优化嘈杂的功能需要在部署系统上进行实验,这是制造,机器人技术和许多其他功能的关键任务。通常,对安全输入的限制是未知的,我们只会获得嘈杂的信息,表明我们违反约束的距离有多近。但是,必须始终保证安全性,不仅是算法的最终输出。我们介绍了一种通用方法,用于在高维非线性随机优化问题中寻求一个固定点,其中在学习过程中保持安全至关重要。我们称为LB-SGD的方法是基于应用随机梯度下降(SGD),其精心选择的自适应步长大小到原始问题的对数屏障近似。我们通过一阶和零阶反馈提供了非凸,凸面和强键平滑约束问题的完整收敛分析。与现有方法相比,我们的方法通过维度可以更好地更新和比例。我们从经验上将样本复杂性和方法的计算成本比较现有的安全学习方法。除了合成基准测试之外,我们还证明了方法对在安全强化学习(RL)中政策搜索任务中最大程度地减少限制违规的有效性。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
Convex function constrained optimization has received growing research interests lately. For a special convex problem which has strongly convex function constraints, we develop a new accelerated primal-dual first-order method that obtains an $\Ocal(1/\sqrt{\vep})$ complexity bound, improving the $\Ocal(1/{\vep})$ result for the state-of-the-art first-order methods. The key ingredient to our development is some novel techniques to progressively estimate the strong convexity of the Lagrangian function, which enables adaptive step-size selection and faster convergence performance. In addition, we show that the complexity is further improvable in terms of the dependence on some problem parameter, via a restart scheme that calls the accelerated method repeatedly. As an application, we consider sparsity-inducing constrained optimization which has a separable convex objective and a strongly convex loss constraint. In addition to achieving fast convergence, we show that the restarted method can effectively identify the sparsity pattern (active-set) of the optimal solution in finite steps. To the best of our knowledge, this is the first active-set identification result for sparsity-inducing constrained optimization.
translated by 谷歌翻译
在机器学习,游戏理论和控制理论中解决各种应用,极限优化已经是中心。因此,目前的文献主要集中于研究连续结构域中的这些问题,例如,凸凹minalax优化现在在很大程度上被理解。然而,最小的问题远远超出连续域以混合连续离散域或甚至完全离散域。在本文中,我们研究了混合连续离散的最小问题,其中最小化在属于欧几里德空间的连续变量上,最大化是在给定地面集的子集上。我们介绍了凸子蒙皮最小新的类问题,其中物镜相对于连续变量和子模块相对于离散变量凸出。尽管这些问题在机器学习应用中经常出现,但对于如何从算法和理论观点来解决它们的知之甚少。对于此类问题,我们首先表明获得鞍点难以达到任何近似,因此引入了(近)最优性的新概念。然后,我们提供了若干算法程序,用于解决凸且单调 - 子模块硬币问题,并根据我们最佳的概念来表征其收敛率,计算复杂性和最终解决方案的质量。我们所提出的算法迭代并组合离散和连续优化的工具。最后,我们提供了数字实验,以展示我们所用方法的有效性。
translated by 谷歌翻译
最佳子集选择被认为是许多稀疏学习问题的“黄金标准”。已经提出了各种优化技术来攻击这一非凸和NP障碍问题。在本文中,我们研究了$ \ ell_0 $登记的问题的双重形式。基于原始和双重问题结构已经开发了一种有效的原始偶对偶方法。通过利用双重范围估计以及增量策略,我们的算法可能会减少冗余计算并改善最佳子集选择的解决方案。关于合成和现实世界数据集的理论分析和实验验证了拟议溶液的效率和统计特性。
translated by 谷歌翻译
我们调查随机镜面下降(SMD)的趋同相对光滑和平滑凸优化。在相对平滑的凸优化中,我们为SMD提供了新的收敛保证,并持续步骤。对于平滑的凸优化,我们提出了一种新的自适应步骤方案 - 镜子随机Polyak Spectize(MSP)。值得注意的是,我们的收敛导致两个设置都不会使有界渐变假设或有界方差假设,并且我们向邻域显示在插值下消失的邻居的融合。MSP概括了最近提出的随机Polyak Spectize(SPS)(Loizou等,2021)以镜子血液镜子,并且在继承镜子血清的好处的同时,现代机器学习应用仍然是实用和高效的。我们将我们的结果与各种监督的学习任务和SMD的不同实例相结合,展示了MSP的有效性。
translated by 谷歌翻译
This paper studies the communication complexity of risk averse optimization over a network. The problem generalizes the well-studied risk-neutral finite-sum distributed optimization problem and its importance stems from the need to handle risk in an uncertain environment. For algorithms in the literature, there exists a gap in communication complexities for solving risk-averse and risk-neutral problems. We propose two distributed algorithms, namely the distributed risk averse optimization (DRAO) method and the distributed risk averse optimization with sliding (DRAO-S) method, to close the gap. Specifically, the DRAO method achieves the optimal communication complexity by assuming a certain saddle point subproblem can be easily solved in the server node. The DRAO-S method removes the strong assumption by introducing a novel saddle point sliding subroutine which only requires the projection over the ambiguity set $P$. We observe that the number of $P$-projections performed by DRAO-S is optimal. Moreover, we develop matching lower complexity bounds to show that communication complexities of both DRAO and DRAO-S are not improvable. Numerical experiments are conducted to demonstrate the encouraging empirical performance of the DRAO-S method.
translated by 谷歌翻译
给定数据点之间的一组差异测量值,确定哪种度量表示与输入测量最“一致”或最能捕获数据相关几何特征的度量是许多机器学习算法的关键步骤。现有方法仅限于特定类型的指标或小问题大小,因为在此类问题中有大量的度量约束。在本文中,我们提供了一种活跃的集合算法,即项目和忘记,该算法使用Bregman的预测,以解决许多(可能是指数)不平等约束的度量约束问题。我们提供了\ textsc {project and Hoses}的理论分析,并证明我们的算法会收敛到全局最佳解决方案,并以指数速率渐近地渐近地衰减了当前迭代的$ L_2 $距离。我们证明,使用我们的方法,我们可以解决三种类型的度量约束问题的大型问题实例:一般体重相关聚类,度量近距离和度量学习;在每种情况下,就CPU时间和问题尺寸而言,超越了艺术方法的表现。
translated by 谷歌翻译
现代统计应用常常涉及最小化可能是非流动和/或非凸起的目标函数。本文侧重于广泛的Bregman-替代算法框架,包括本地线性近似,镜像下降,迭代阈值,DC编程以及许多其他实例。通过广义BREGMAN功能的重新发出使我们能够构建合适的误差测量并在可能高维度下建立非凸起和非凸起和非球形目标的全球收敛速率。对于稀疏的学习问题,在一些规律性条件下,所获得的估算器作为代理人的固定点,尽管不一定是局部最小化者,但享受可明确的统计保障,并且可以证明迭代顺序在所需的情况下接近统计事实准确地快速。本文还研究了如何通过仔细控制步骤和放松参数来设计基于适应性的动力的加速度而不假设凸性或平滑度。
translated by 谷歌翻译
We provide stronger and more general primal-dual convergence results for Frank-Wolfe-type algorithms (a.k.a. conditional gradient) for constrained convex optimization, enabled by a simple framework of duality gap certificates. Our analysis also holds if the linear subproblems are only solved approximately (as well as if the gradients are inexact), and is proven to be worst-case optimal in the sparsity of the obtained solutions.On the application side, this allows us to unify a large variety of existing sparse greedy methods, in particular for optimization over convex hulls of an atomic set, even if those sets can only be approximated, including sparse (or structured sparse) vectors or matrices, low-rank matrices, permutation matrices, or max-norm bounded matrices. We present a new general framework for convex optimization over matrix factorizations, where every Frank-Wolfe iteration will consist of a low-rank update, and discuss the broad application areas of this approach.
translated by 谷歌翻译
异常值广泛发生在大数据应用中,可能严重影响统计估计和推理。在本文中,引入了抗强估计的框架,以强制任意给出的损耗函数。它与修剪方法密切连接,并且包括所有样本的显式外围参数,这反过来促进计算,理论和参数调整。为了解决非凸起和非体性的问题,我们开发可扩展的算法,以实现轻松和保证快速收敛。特别地,提出了一种新的技术来缓解对起始点的要求,使得在常规数据集上,可以大大减少数据重采样的数量。基于组合的统计和计算处理,我们能够超越M估计来执行非因思分析。所获得的抗性估算器虽然不一定全局甚至是局部最佳的,但在低维度和高维度中享有最小的速率最优性。回归,分类和神经网络的实验表明,在总异常值发生的情况下提出了拟议方法的优异性能。
translated by 谷歌翻译
在本文中,我们研究了一类二聚体优化问题,也称为简单的双重优化,在其中,我们将光滑的目标函数最小化,而不是另一个凸的约束优化问题的最佳解决方案集。已经开发了几种解决此类问题的迭代方法。 las,它们的收敛保证并不令人满意,因为它们要么渐近,要么渐近,要么是收敛速度缓慢且最佳的。为了解决这个问题,在本文中,我们介绍了Frank-Wolfe(FW)方法的概括,以解决考虑的问题。我们方法的主要思想是通过切割平面在局部近似低级问题的解决方案集,然后运行FW型更新以减少上层目标。当上层目标是凸面时,我们表明我们的方法需要$ {\ mathcal {o}}(\ max \ {1/\ epsilon_f,1/\ epsilon_g \})$迭代才能找到$ \ \ \ \ \ \ epsilon_f $ - 最佳目标目标和$ \ epsilon_g $ - 最佳目标目标。此外,当高级目标是非convex时,我们的方法需要$ {\ MATHCAL {o}}(\ max \ {1/\ epsilon_f^2,1/(\ epsilon_f \ epsilon_g})查找$(\ epsilon_f,\ epsilon_g)$ - 最佳解决方案。我们进一步证明了在“较低级别问题的老年人错误约束假设”下的更强的融合保证。据我们所知,我们的方法实现了所考虑的二聚体问题的最著名的迭代复杂性。我们还向数值实验提出了数值实验。与最先进的方法相比,展示了我们方法的出色性能。
translated by 谷歌翻译