在这项工作中,我们旨在研究用于凸出的凸侧鞍点问题(SPP)的原始偶(PD)方法。在许多情况下,仅原始函数上近端甲骨文的计算效率低下。因此,我们在近端步骤中使用其一阶线性近似,从而导致线性化PD(LPD)方法。即使耦合项为双线性,我们也会观察到LPD对原始功能的Lipschitz常数具有次优的依赖性。相比之下,LPD对于强凸凹形病例具有最佳的收敛性。该观察结果导致我们提出了加速的线性化原始偶(ALPD)算法,以求解强烈的凸面spp。 ALPD是一种单环算法,结合了Nesterov加速梯度下降(AGD)和LPD的特征。我们表明,当耦合项为半线性(包含双线性作为特定情况)时,ALPD获得了对原始功能的Lipschitz常数的最佳依赖性。因此,它是一种最佳算法。当耦合项具有一般的非线性形式时,ALPD算法对耦合项原始部分的Lipschitz常数具有次优依赖性。为了提高这种依赖性,我们提出了一种不精确的APD算法。该算法在内部循环中执行AGD迭代,以找到对APD近端子问题的近似解决方案。我们表明,不精确的APD保持了问题的原始和双重部分的最佳梯度评​​估(梯度复杂性)。它还显着改善了原始耦合项的梯度复杂性。
translated by 谷歌翻译
我们考虑光滑的凸孔concave双线性耦合的鞍点问题,$ \ min _ {\ mathbf {x}}} \ max _ {\ mathbf {y Mathbf {y}} 〜f(\ mathbf {x}} },\ mathbf {y}) - g(\ mathbf {y})$,其中一个人可以访问$ f $,$ g $的随机一阶oracles以及biinear耦合函数$ h $。基于标准的随机外部分析,我们提出了随机\ emph {加速梯度 - extragradient(ag-eg)}下降的算法,该算法在一般随机设置中结合了外部和Nesterov的加速度。该算法利用计划重新启动以接收一种良好的非震动收敛速率,该算法与\ citet {ibrahim202020linear}和\ citet {zhang2021lower}相匹配,并在其相应的设置中,还有一个额外的统计误差期限,以及\ citet {zhang2021lower}最多达到恒定的预取子。这是在鞍点优化中实现这种相对成熟的最佳表征的第一个结果。
translated by 谷歌翻译
Convex function constrained optimization has received growing research interests lately. For a special convex problem which has strongly convex function constraints, we develop a new accelerated primal-dual first-order method that obtains an $\Ocal(1/\sqrt{\vep})$ complexity bound, improving the $\Ocal(1/{\vep})$ result for the state-of-the-art first-order methods. The key ingredient to our development is some novel techniques to progressively estimate the strong convexity of the Lagrangian function, which enables adaptive step-size selection and faster convergence performance. In addition, we show that the complexity is further improvable in terms of the dependence on some problem parameter, via a restart scheme that calls the accelerated method repeatedly. As an application, we consider sparsity-inducing constrained optimization which has a separable convex objective and a strongly convex loss constraint. In addition to achieving fast convergence, we show that the restarted method can effectively identify the sparsity pattern (active-set) of the optimal solution in finite steps. To the best of our knowledge, this is the first active-set identification result for sparsity-inducing constrained optimization.
translated by 谷歌翻译
最近,凸嵌套随机复合优化(NSCO)因其在增强学习和规避风险优化方面的应用而受到了极大的关注。当前的NSCO算法通过数量级的随机甲骨文复杂性较差,而没有嵌套结构的简单随机复合优化问题(例如,平滑和非平滑函数的总和)。此外,它们要求所有外层函数都是平滑的,这对某些重要的应用不满足。这些差异促使我们问:``嵌套成分是否使随机优化在甲骨文复杂性的顺序上更加困难?平滑,结构化的非平滑和一般非平滑层函数的任意组成。当所有外层函数平滑时,我们提出了一种随机顺序双重(SSD)方法,以实现$ \ Mathcal {O}的甲骨文复杂性(1)(1 /\ epsilon^2)$($ \ MATHCAL {o}(1/\ Epsilon)$)当问题不是(强)凸出时。函数,我们提出了一种非平滑随机顺序双重(NSSD)方法,以实现$ \ MATHCAL {O}(1/\ epsilon^2)$的甲骨文复杂性。我们提供了较低的复杂性,以显示后者$ \ MATHCAL {O }(1/\ epsilon^2)$即使在强烈的凸面设置下也无法改善。 XITY结果似乎是文献中的新事物,它们表明凸NSCO问题的甲骨文复杂性与没有嵌套成分的甲骨文复杂性相同,除了强烈的凸面和外部不太平滑问题。
translated by 谷歌翻译
从最佳运输到稳健的维度降低,可以将大量的机器学习应用程序放入Riemannian歧管上的Min-Max优化问题中。尽管在欧几里得的环境中已经分析了许多最小的最大算法,但事实证明,将这些结果转化为Riemannian案例已被证明是难以捉摸的。张等。 [2022]最近表明,测量凸凹入的凹入问题总是容纳鞍点解决方案。受此结果的启发,我们研究了Riemannian和最佳欧几里得空间凸入concove算法之间的性能差距。我们在负面的情况下回答了这个问题,证明Riemannian校正的外部(RCEG)方法在地球上强烈convex-concove案例中以线性速率实现了最后近期收敛,与欧几里得结果匹配。我们的结果还扩展到随机或非平滑案例,在这种情况下,RCEG和Riemanian梯度上升下降(RGDA)达到了近乎最佳的收敛速率,直到因歧管的曲率而定为因素。
translated by 谷歌翻译
在本文中,我们研究了一个凸凹马鞍点问题$ \ min_x \ max_y f(x)+ y ^ \ top \ mathbf {a} x - g(y)$,其中$ f(x)$和$ g(y)$是平滑和凸的功能。我们提出了一种加速的原始 - 双梯度方法,用于解决该问题(i)在匹配较低复杂性绑定的强 - 凸强 - 凹形方案中实现最佳线性收敛速率(Zhang等,2021)和(ii)在只有其中一个函数$ f(x)$和$ g(y)$的情况下实现加速的线性收敛速率,而甚至没有它们。最后,我们获得了一种线性收敛算法,用于一般平滑和凸凹骑马点问题$ \ min_x \ max_y f(x,y)$,不需要强大的凸起或强凹面。
translated by 谷歌翻译
在机器学习,游戏理论和控制理论中解决各种应用,极限优化已经是中心。因此,目前的文献主要集中于研究连续结构域中的这些问题,例如,凸凹minalax优化现在在很大程度上被理解。然而,最小的问题远远超出连续域以混合连续离散域或甚至完全离散域。在本文中,我们研究了混合连续离散的最小问题,其中最小化在属于欧几里德空间的连续变量上,最大化是在给定地面集的子集上。我们介绍了凸子蒙皮最小新的类问题,其中物镜相对于连续变量和子模块相对于离散变量凸出。尽管这些问题在机器学习应用中经常出现,但对于如何从算法和理论观点来解决它们的知之甚少。对于此类问题,我们首先表明获得鞍点难以达到任何近似,因此引入了(近)最优性的新概念。然后,我们提供了若干算法程序,用于解决凸且单调 - 子模块硬币问题,并根据我们最佳的概念来表征其收敛率,计算复杂性和最终解决方案的质量。我们所提出的算法迭代并组合离散和连续优化的工具。最后,我们提供了数字实验,以展示我们所用方法的有效性。
translated by 谷歌翻译
我们提出了随机方差降低算法,以求解凸 - 凸座鞍点问题,单调变异不平等和单调夹杂物。我们的框架适用于Euclidean和Bregman设置中的外部,前向前后和前反向回复的方法。所有提出的方法都在与确定性的对应物相同的环境中收敛,并且它们要么匹配或改善了解决结构化的最低最大问题的最著名复杂性。我们的结果加强了变异不平等和最小化之间的差异之间的对应关系。我们还通过对矩阵游戏的数值评估来说明方法的改进。
translated by 谷歌翻译
最近,由于这些问题与一些新兴应用的相关性,最近有许多研究工作用于开发有效算法,以解决理论收敛的保证。在本文中,我们提出了一种统一的单环交替梯度投影(AGP)算法,用于求解平滑的非convex-(强烈)凹面和(强烈)凸出 - 非concave minimax问题。 AGP采用简单的梯度投影步骤来更新每次迭代时的原始变量和双变量。我们表明,它可以在$ \ MATHCAL {O} \ left(\ Varepsilon ^{ - 2} \ right)$(rep. $ \ Mathcal {O} \ left)中找到目标函数的$ \ VAREPSILON $ -STAIMATARY点。 (\ varepsilon ^{ - 4} \ right)$)$迭代,在nonconvex-strongly凹面(resp。nonconvex-concave)设置下。此外,获得目标函数的$ \ VAREPSILON $ -STAIMATARY的梯度复杂性由$ \ Mathcal {o} \ left(\ varepsilon ^{ - 2} \ right)界限O} \ left(\ varepsilon ^{ - 4} \ right)$在强烈的convex-nonconcave(resp。,convex-nonconcave)设置下。据我们所知,这是第一次开发出一种简单而统一的单环算法来解决非convex-(强烈)凹面和(强烈)凸出 - 非concave minimax问题。此外,在文献中从未获得过解决后者(强烈)凸线 - 非孔孔的最小问题的复杂性结果。数值结果表明所提出的AGP算法的效率。此外,我们通过提出块交替近端梯度(BAPG)算法来扩展AGP算法,以求解更通用的多块非块非conmooth nonmooth nonmooth noncovex-(强)凹面和(强烈)convex-nonconcave minimax问题。我们可以在这四个不同的设置下类似地建立所提出算法的梯度复杂性。
translated by 谷歌翻译
在本文中,我们首先提出了一种新的操作员外推(OE)方法,用于解决确定性变异不平等(VI)问题。类似于梯度(操作员)投影方法,OE通过在每次迭代中求解一个投影子问题来更新一个搜索序列。我们表明,OE可以以比现有方法更简单地解决各种VI问题的最佳收敛速率。然后,我们介绍随机操作员外推(SOE)方法,并建立其最佳收敛行为以解决不同的随机VI问题。特别是,SOE在文献中首次实现了解决基本问题的最佳复杂性,即,即随机平滑且强烈单调VI。我们还提出了一种随机块操作员外推(SBOE)方法,以进一步降低应用于具有一定块结构的大规模确定性VIS的OE方法的迭代成本。已经进行了数值实验,以证明所提出算法的潜在优势。实际上,所有这些算法都用于求解概括的单调变异不平等(GMVI)问题,其操作员不一定是单调的。我们还将在同伴论文中讨论基于OE的最佳政策评估方法。
translated by 谷歌翻译
我们开发了一种使用无遗憾的游戏动态解决凸面优化问题的算法框架。通过转换最小化凸起函数以顺序方式解决Min-Max游戏的辅助问题的问题,我们可以考虑一系列必须在另一个之后选择其行动的两名员工的一系列策略。这些策略的常见选择是所谓的无悔的学习算法,我们描述了许多此类并证明了遗憾。然后,我们表明许多凸面优化的经典一阶方法 - 包括平均迭代梯度下降,弗兰克 - 沃尔夫算法,重球算法和Nesterov的加速方法 - 可以被解释为我们框架的特殊情况由于每个玩家都做出正确选择无悔的策略。证明该框架中的收敛速率变得非常简单,因为它们遵循适当已知的遗憾范围。我们的框架还引发了一些凸优化的特殊情况的许多新的一阶方法。
translated by 谷歌翻译
Nonconvex minimax problems have attracted wide attention in machine learning, signal processing and many other fields in recent years. In this paper, we propose a primal dual alternating proximal gradient (PDAPG) algorithm and a primal dual proximal gradient (PDPG-L) algorithm for solving nonsmooth nonconvex-strongly concave and nonconvex-linear minimax problems with coupled linear constraints, respectively. The corresponding iteration complexity of the two algorithms are proved to be $\mathcal{O}\left( \varepsilon ^{-2} \right)$ and $\mathcal{O}\left( \varepsilon ^{-3} \right)$ to reach an $\varepsilon$-stationary point, respectively. To our knowledge, they are the first two algorithms with iteration complexity guarantee for solving the two classes of minimax problems.
translated by 谷歌翻译
我们考虑非凸凹minimax问题,$ \ min _ {\ mathbf {x}} \ mathcal {y}} f(\ mathbf {x},\ mathbf {y})$, $ f $在$ \ mathbf {x} $ on $ \ mathbf {y} $和$ \ mathcal {y} $中的$ \ \ mathbf {y} $。解决此问题的最受欢迎的算法之一是庆祝的梯度下降上升(GDA)算法,已广泛用于机器学习,控制理论和经济学。尽管凸凹设置的广泛收敛结果,但具有相等步骤的GDA可以收敛以限制循环甚至在一般设置中发散。在本文中,我们介绍了两次尺度GDA的复杂性结果,以解决非膨胀凹入的最小问题,表明该算法可以找到函数$ \ phi(\ cdot)的静止点:= \ max _ {\ mathbf {Y} \ In \ Mathcal {Y}} F(\ CDOT,\ MATHBF {Y})高效。据我们所知,这是对这一环境中的两次尺度GDA的第一个非因对药分析,阐明了其在培训生成对抗网络(GANS)和其他实际应用中的优越实际表现。
translated by 谷歌翻译
加速的近端算法(APPA),也称为“催化剂”,是从凸优化到近似近端计算(即正则最小化)的确定还原。这种减少在概念上是优雅的,可以保证强大的收敛速度。但是,这些速率具有多余的对数项,因此需要计算每个近端点至高精度。在这项工作中,我们提出了一个新颖的放松误差标准,用于加速近端点(recapp),以消除对高精度子问题解决方案的需求。我们将recapp应用于两个规范问题:有限的和最大结构的最小化。对于有限和问题,我们匹配了以前通过精心设计的问题特异性算法获得的最著名的复杂性。为了最大程度地减少$ \ max_y f(x,y)$,其中$ f $以$ x $为$ x $,而在$ y $中强烈concave,我们改进了受对数因素限制的最著名的(基于催化剂)。
translated by 谷歌翻译
在本文中,我们提出了一类更快的自适应梯度下降上升(GDA)方法,用于基于统一的自适应矩阵求解基于统一的自适应矩阵的非膨胀强度凹入的最小值问题,该问题包括几乎存在的坐标和全局自适应学习率。具体而言,我们提出了一种基于基本动量技术的快速自适应梯度体面上升(Adagda)方法,该方法达到$ O(\ Kappa ^ 4 \ epsilon ^ { - 4})$的较低梯度复杂度,用于查找$ \ epsilon $ -Sationary点没有大批次,这通过$ o(\ sqrt {\ kappa})$。与此同时,我们提出了一种基于势头的阶段的adagda(VR-Adagda)方法的加速版本,这使得可以实现$ O(\ kappa ^ {4.5} \ epsilon ^ { - 3的较低梯度复杂度为了查找$ \ epsilon $ -stationary点,没有大批次,这将通过$ o(\ epsilon ^ {-1})为现有的自适应GDA方法的结果提高了现有的自适应GDA方法。此外,我们证明了我们的VR-Adagda方法达到了$ O(\ Kappa ^ {3} \ epsilon ^ { - 3})$的最佳已知的渐变复杂度$ 。特别是,我们为我们的自适应GDA方法提供了有效的收敛分析框架。关于政策评估和公平分类器任务的一些实验结果展示了我们算法的效率。
translated by 谷歌翻译
NonConvex-Concave Minimax优化已经对机器学习产生了浓厚的兴趣,包括对数据分配具有稳健性,以非解释性损失,对抗性学习为单一的学习。然而,大多数现有的作品都集中在梯度散发性(GDA)变体上,这些变体只能在平滑的设置中应用。在本文中,我们考虑了一个最小问题的家族,其目标功能在最小化变量中享有非平滑复合结构,并且在最大化的变量中是凹入的。通过充分利用复合结构,我们提出了平滑的近端线性下降上升(\ textit {平滑} plda)算法,并进一步建立了其$ \ Mathcal {o}(\ epsilon^{ - 4})在平滑设置下,平滑的gda〜 \ cite {zhang2020single}。此外,在一个温和的假设下,目标函数满足单方面的kurdyka- \ l {} ojasiewicz条件,带有指数$ \ theta \ in(0,1)$,我们可以进一步将迭代复杂性提高到$ \ MATHCAL {O }(\ epsilon^{ - 2 \ max \ {2 \ theta,1 \}})$。据我们所知,这是第一种非平滑nonconvex-concave问题的可证明有效的算法,它可以实现最佳迭代复杂性$ \ MATHCAL {o}(\ epsilon^{ - 2})$,如果$ \ theta \ 0,1/2] $。作为副产品,我们讨论了不同的平稳性概念并定量澄清它们的关系,这可能具有独立的兴趣。从经验上,我们说明了拟议的平滑PLDA在变体正规化WassErstein分布在鲁棒优化问题上的有效性。
translated by 谷歌翻译
This work proposes a universal and adaptive second-order method for minimizing second-order smooth, convex functions. Our algorithm achieves $O(\sigma / \sqrt{T})$ convergence when the oracle feedback is stochastic with variance $\sigma^2$, and improves its convergence to $O( 1 / T^3)$ with deterministic oracles, where $T$ is the number of iterations. Our method also interpolates these rates without knowing the nature of the oracle apriori, which is enabled by a parameter-free adaptive step-size that is oblivious to the knowledge of smoothness modulus, variance bounds and the diameter of the constrained set. To our knowledge, this is the first universal algorithm with such global guarantees within the second-order optimization literature.
translated by 谷歌翻译
在本文中,我们开发了使用局部Lipschitz连续梯度(LLCG)的凸优化的一阶方法,该方法超出了lipschitz连续梯度的精心研究类别的凸优化。特别是,我们首先考虑使用LLCG进行无约束的凸优化,并提出求解它的加速近端梯度(APG)方法。所提出的APG方法配备了可验证的终止标准,并享受$ {\ cal o}的操作复杂性(\ varepsilon^{ - 1/2} \ log \ log \ varepsilon^{ - 1})$和$ {\ cal o {\ cal o }(\ log \ varepsilon^{ - 1})$用于查找不受约束的凸的$ \ varepsilon $ - 剩余凸和强烈凸优化问题的解决方案。然后,我们考虑使用LLCG进行约束的凸优化,并提出了一种近端增强拉格朗日方法,通过应用我们提出的APG方法之一来求解一系列近端增强拉格朗日子问题,以解决它。所得的方法配备了可验证的终止标准,并享受$ {\ cal o}的操作复杂性(\ varepsilon^{ - 1} \ log \ log \ varepsilon^{ - 1})$和$ {\ cal o}(\ cal o}(\ Varepsilon^{ - 1/2} \ log \ varepsilon^{ - 1})$用于查找约束凸的$ \ varepsilon $ -KKT解决方案,分别是强烈的凸优化问题。本文中所有提出的方法均无参数或几乎不含参数,但需要有关凸电参数的知识。据我们所知,没有进行先前的研究来研究具有复杂性保证的加速一阶方法,可与LLCG进行凸优化。本文获得的所有复杂性结果都是全新的。
translated by 谷歌翻译
We study stochastic monotone inclusion problems, which widely appear in machine learning applications, including robust regression and adversarial learning. We propose novel variants of stochastic Halpern iteration with recursive variance reduction. In the cocoercive -- and more generally Lipschitz-monotone -- setup, our algorithm attains $\epsilon$ norm of the operator with $\mathcal{O}(\frac{1}{\epsilon^3})$ stochastic operator evaluations, which significantly improves over state of the art $\mathcal{O}(\frac{1}{\epsilon^4})$ stochastic operator evaluations required for existing monotone inclusion solvers applied to the same problem classes. We further show how to couple one of the proposed variants of stochastic Halpern iteration with a scheduled restart scheme to solve stochastic monotone inclusion problems with ${\mathcal{O}}(\frac{\log(1/\epsilon)}{\epsilon^2})$ stochastic operator evaluations under additional sharpness or strong monotonicity assumptions.
translated by 谷歌翻译
二重优化发现在现代机器学习问题中发现了广泛的应用,例如超参数优化,神经体系结构搜索,元学习等。而具有独特的内部最小点(例如,内部功能是强烈凸的,都具有唯一的内在最小点)的理解,这是充分理解的,多个内部最小点的问题仍然是具有挑战性和开放的。为此问题设计的现有算法适用于限制情况,并且不能完全保证融合。在本文中,我们采用了双重优化的重新制定来限制优化,并通过原始的双二线优化(PDBO)算法解决了问题。 PDBO不仅解决了多个内部最小挑战,而且还具有完全一阶效率的情况,而无需涉及二阶Hessian和Jacobian计算,而不是大多数现有的基于梯度的二杆算法。我们进一步表征了PDBO的收敛速率,它是与多个内部最小值的双光线优化的第一个已知的非质合收敛保证。我们的实验证明了所提出的方法的预期性能。
translated by 谷歌翻译