由于其许多领域的广泛应用程序,包括机器学习,网络资源分配和分布式优化,因此在解决非协议敏最大优化问题中有很多兴趣。也许,求解最小最大优化的最受欢迎的一阶方法是所谓的同时(或单环)梯度下降 - 上升 - 上升算法,因为它的实施简单。然而,对该算法的收敛性的理论保证非常稀疏,因为即使在简单的双线性问题中也可以发散。在本文中,我们的重点是表征同时梯度下降算法的连续时间变量的有限时间性能(或收敛速率)。特别是,我们在底层目标函数的许多不同条件下得出了这种方法的收敛速度,即双面Polyak-L OjasiewiCz(PL),单侧PL,非凸起强烈凹入,强烈凸-Nonconcave条件。我们的趋同结果在目标职能的相同条件下提高了先前作品中的结果。我们分析中的关键思路是使用经典奇异扰动理论和耦合Lyapunov函数来解决梯度下降和上升动力学之间的时间尺度差异和相互作用。我们对连续时间算法行为的结果可用于增强其离散时间对应的收敛性。
translated by 谷歌翻译
这项研究开发了一个固定时间收敛的鞍点动力学系统,用于在标准凸孔腔假设的放松下解决最小值问题。特别是,通过利用优化算法的动力学系统观点,可以获得加速到鞍点的收敛。而不是要求目标函数是强率 - 巧妙的concave(由于需要加速几个鞍点算法的加速收敛),而是保证仅满足双面Polyak的功能,可以保证均匀的固定时间收敛性 - {\ l} ojasiewicz(pl)不等式。已知大量的实际问题,包括可靠的最小二乘估计,可以满足双面PL不平等。与任何其他具有线性甚至超级线性收敛的最先进方法相比,所提出的方法可实现任意快速的收敛性,并且在数值案例研究中也得到了证实。
translated by 谷歌翻译
最近,由于这些问题与一些新兴应用的相关性,最近有许多研究工作用于开发有效算法,以解决理论收敛的保证。在本文中,我们提出了一种统一的单环交替梯度投影(AGP)算法,用于求解平滑的非convex-(强烈)凹面和(强烈)凸出 - 非concave minimax问题。 AGP采用简单的梯度投影步骤来更新每次迭代时的原始变量和双变量。我们表明,它可以在$ \ MATHCAL {O} \ left(\ Varepsilon ^{ - 2} \ right)$(rep. $ \ Mathcal {O} \ left)中找到目标函数的$ \ VAREPSILON $ -STAIMATARY点。 (\ varepsilon ^{ - 4} \ right)$)$迭代,在nonconvex-strongly凹面(resp。nonconvex-concave)设置下。此外,获得目标函数的$ \ VAREPSILON $ -STAIMATARY的梯度复杂性由$ \ Mathcal {o} \ left(\ varepsilon ^{ - 2} \ right)界限O} \ left(\ varepsilon ^{ - 4} \ right)$在强烈的convex-nonconcave(resp。,convex-nonconcave)设置下。据我们所知,这是第一次开发出一种简单而统一的单环算法来解决非convex-(强烈)凹面和(强烈)凸出 - 非concave minimax问题。此外,在文献中从未获得过解决后者(强烈)凸线 - 非孔孔的最小问题的复杂性结果。数值结果表明所提出的AGP算法的效率。此外,我们通过提出块交替近端梯度(BAPG)算法来扩展AGP算法,以求解更通用的多块非块非conmooth nonmooth nonmooth noncovex-(强)凹面和(强烈)convex-nonconcave minimax问题。我们可以在这四个不同的设置下类似地建立所提出算法的梯度复杂性。
translated by 谷歌翻译
Gradient-based first-order convex optimization algorithms find widespread applicability in a variety of domains, including machine learning tasks. Motivated by the recent advances in fixed-time stability theory of continuous-time dynamical systems, we introduce a generalized framework for designing accelerated optimization algorithms with strongest convergence guarantees that further extend to a subclass of non-convex functions. In particular, we introduce the \emph{GenFlow} algorithm and its momentum variant that provably converge to the optimal solution of objective functions satisfying the Polyak-{\L}ojasiewicz (PL) inequality, in a fixed-time. Moreover for functions that admit non-degenerate saddle-points, we show that for the proposed GenFlow algorithm, the time required to evade these saddle-points is bounded uniformly for all initial conditions. Finally, for strongly convex-strongly concave minimax problems whose optimal solution is a saddle point, a similar scheme is shown to arrive at the optimal solution again in a fixed-time. The superior convergence properties of our algorithm are validated experimentally on a variety of benchmark datasets.
translated by 谷歌翻译
我们考虑非凸凹minimax问题,$ \ min _ {\ mathbf {x}} \ mathcal {y}} f(\ mathbf {x},\ mathbf {y})$, $ f $在$ \ mathbf {x} $ on $ \ mathbf {y} $和$ \ mathcal {y} $中的$ \ \ mathbf {y} $。解决此问题的最受欢迎的算法之一是庆祝的梯度下降上升(GDA)算法,已广泛用于机器学习,控制理论和经济学。尽管凸凹设置的广泛收敛结果,但具有相等步骤的GDA可以收敛以限制循环甚至在一般设置中发散。在本文中,我们介绍了两次尺度GDA的复杂性结果,以解决非膨胀凹入的最小问题,表明该算法可以找到函数$ \ phi(\ cdot)的静止点:= \ max _ {\ mathbf {Y} \ In \ Mathcal {Y}} F(\ CDOT,\ MATHBF {Y})高效。据我们所知,这是对这一环境中的两次尺度GDA的第一个非因对药分析,阐明了其在培训生成对抗网络(GANS)和其他实际应用中的优越实际表现。
translated by 谷歌翻译
我们研究了具有有限和结构的平滑非凸化优化问题的随机重新洗脱(RR)方法。虽然该方法在诸如神经网络的训练之类的实践中广泛利用,但其会聚行为仅在几个有限的环境中被理解。在本文中,在众所周知的Kurdyka-LojasiewiCz(KL)不等式下,我们建立了具有适当递减步长尺寸的RR的强极限点收敛结果,即,RR产生的整个迭代序列是会聚并会聚到单个静止点几乎肯定的感觉。 In addition, we derive the corresponding rate of convergence, depending on the KL exponent and the suitably selected diminishing step sizes.当KL指数在$ [0,\ FRAC12] $以$ [0,\ FRAC12] $时,收敛率以$ \ mathcal {o}(t ^ { - 1})$的速率计算,以$ t $ counting迭代号。当KL指数属于$(\ FRAC12,1)$时,我们的派生收敛速率是FORM $ \ MATHCAL {O}(T ^ { - Q})$,$ Q \ IN(0,1)$取决于在KL指数上。基于标准的KL不等式的收敛分析框架仅适用于具有某种阶段性的算法。我们对基于KL不等式的步长尺寸减少的非下降RR方法进行了新的收敛性分析,这概括了标准KL框架。我们总结了我们在非正式分析框架中的主要步骤和核心思想,这些框架是独立的兴趣。作为本框架的直接应用,我们还建立了类似的强极限点收敛结果,为重组的近端点法。
translated by 谷歌翻译
Nonconvex-nonconcave minimax optimization has been the focus of intense research over the last decade due to its broad applications in machine learning and operation research. Unfortunately, most existing algorithms cannot be guaranteed to converge and always suffer from limit cycles. Their global convergence relies on certain conditions that are difficult to check, including but not limited to the global Polyak-\L{}ojasiewicz condition, the existence of a solution satisfying the weak Minty variational inequality and $\alpha$-interaction dominant condition. In this paper, we develop the first provably convergent algorithm called doubly smoothed gradient descent ascent method, which gets rid of the limit cycle without requiring any additional conditions. We further show that the algorithm has an iteration complexity of $\mathcal{O}(\epsilon^{-4})$ for finding a game stationary point, which matches the best iteration complexity of single-loop algorithms under nonconcave-concave settings. The algorithm presented here opens up a new path for designing provable algorithms for nonconvex-nonconcave minimax optimization problems.
translated by 谷歌翻译
Finding the mixed Nash equilibria (MNE) of a two-player zero sum continuous game is an important and challenging problem in machine learning. A canonical algorithm to finding the MNE is the noisy gradient descent ascent method which in the infinite particle limit gives rise to the {\em Mean-Field Gradient Descent Ascent} (GDA) dynamics on the space of probability measures. In this paper, we first study the convergence of a two-scale Mean-Field GDA dynamics for finding the MNE of the entropy-regularized objective. More precisely we show that for any fixed positive temperature (or regularization parameter), the two-scale Mean-Field GDA with a {\em finite} scale ratio converges to exponentially to the unique MNE without assuming the convexity or concavity of the interaction potential. The key ingredient of our proof lies in the construction of new Lyapunov functions that dissipate exponentially along the Mean-Field GDA. We further study the simulated annealing of the Mean-Field GDA dynamics. We show that with a temperature schedule that decays logarithmically in time the annealed Mean-Field GDA converges to the MNE of the original unregularized objective function.
translated by 谷歌翻译
Nonconvex minimax problems have attracted wide attention in machine learning, signal processing and many other fields in recent years. In this paper, we propose a primal dual alternating proximal gradient (PDAPG) algorithm and a primal dual proximal gradient (PDPG-L) algorithm for solving nonsmooth nonconvex-strongly concave and nonconvex-linear minimax problems with coupled linear constraints, respectively. The corresponding iteration complexity of the two algorithms are proved to be $\mathcal{O}\left( \varepsilon ^{-2} \right)$ and $\mathcal{O}\left( \varepsilon ^{-3} \right)$ to reach an $\varepsilon$-stationary point, respectively. To our knowledge, they are the first two algorithms with iteration complexity guarantee for solving the two classes of minimax problems.
translated by 谷歌翻译
Recently, there has been great interest in connections between continuous-time dynamical systems and optimization algorithms, notably in the context of accelerated methods for smooth and unconstrained problems. In this paper we extend this perspective to nonsmooth and constrained problems by obtaining differential inclusions associated to novel accelerated variants of the alternating direction method of multipliers (ADMM). Through a Lyapunov analysis, we derive rates of convergence for these dynamical systems in different settings that illustrate an interesting tradeoff between decaying versus constant damping strategies. We also obtain perturbed equations capturing fine-grained details of these methods, which have improved stability and preserve the leading order convergence rates.
translated by 谷歌翻译
具有多个耦合序列的随机近似(SA)在机器学习中发现了广泛的应用,例如双光线学习和增强学习(RL)。在本文中,我们研究了具有多个耦合序列的非线性SA的有限时间收敛。与现有的多时间分析不同,我们寻求方案,在这些方案中,细粒度分析可以为多序列单次尺度SA(STSA)提供严格的性能保证。我们分析的核心是在许多应用中具有多序列SA中固定点的平滑度。当所有序列都具有强烈的单调增量时,我们就建立了$ \ Mathcal {o}(\ epsilon^{ - 1})$的迭代复杂性,以实现$ \ epsilon $ -Accuracy,从而改善了现有的$ \ Mathcal {O} {O}(O}(O})(O}(O}(O})) \ epsilon^{ - 1.5})$对于两个耦合序列的复杂性。当除了主序列外具有强烈单调增量时,我们建立了$ \ Mathcal {o}(\ epsilon^{ - 2})$的迭代复杂性。我们的结果的优点在于,将它们应用于随机的二聚体和组成优化问题,以及RL问题会导致对其现有性能保证的放松假设或改进。
translated by 谷歌翻译
本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题,其目标是使具有变量的外目标函数最小化,该变量被限制为对(内部)优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况,而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似(TTSA)算法。在算法中,使用较大步长的随机梯度更新用于内部问题,而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率:当外部问题强烈凸起(RESP。〜弱凸)时,TTSA算法查找$ \ MATHCAL {O}(k ^ { - 2/3})$ -Optimal(resp。〜$ \ mathcal {o}(k ^ {-2/5})$ - 静止)解决方案,其中$ k $是总迭代号。作为一个应用程序,我们表明,两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是,与全球最优政策相比,自然演员批评算法显示以预期折扣奖励的差距,以$ \ mathcal {o}(k ^ { - 1/4})的速率收敛。
translated by 谷歌翻译
在本文中,我们研究了一个凸凹马鞍点问题$ \ min_x \ max_y f(x)+ y ^ \ top \ mathbf {a} x - g(y)$,其中$ f(x)$和$ g(y)$是平滑和凸的功能。我们提出了一种加速的原始 - 双梯度方法,用于解决该问题(i)在匹配较低复杂性绑定的强 - 凸强 - 凹形方案中实现最佳线性收敛速率(Zhang等,2021)和(ii)在只有其中一个函数$ f(x)$和$ g(y)$的情况下实现加速的线性收敛速率,而甚至没有它们。最后,我们获得了一种线性收敛算法,用于一般平滑和凸凹骑马点问题$ \ min_x \ max_y f(x,y)$,不需要强大的凸起或强凹面。
translated by 谷歌翻译
我们研究了随机近似的分散变体,这是一种数据驱动的方法,用于在嘈杂的测量中找到操作员的根。一个具有自己的操作员和数据观察的代理网络,合作地通过分散的通信图找到了聚合操作员的固定点。我们的主要贡献是在从马尔可夫过程中采样时在每个代理下观察到的数据时,对这种分散的随机近似方法提供有限的时间分析;这种缺乏独立性使迭代率偏向和(可能)无限。在相当标准的假设下,我们表明所提出方法的收敛速率与样本是独立的基本相同,仅由对数因子的差异而不同,该对数因素是说明了马尔可夫过程的混合时间。我们的分析中的关键思想是引入一种新型的Razumikhin-Lyapunov函数,该功能是由用于分析延迟普通微分方程的稳定性的一种动机。我们还讨论了拟议方法在多代理系统中许多有趣的学习问题上的应用。
translated by 谷歌翻译
萨顿(Sutton),szepesv \'{a} ri和maei引入了与线性函数近似和非政策训练兼容的第一个梯度时间差异(GTD)学习算法。本文的目的是(a)提出一些具有广泛比较分析的GTD的变体,以及(b)为GTD建立新的理论分析框架。这些变体基于GTD的凸 - 孔符号鞍点解释,该解释有效地将所有GTD统一为单个框架,并基于对原始偶型梯度动力学的最新结果提供简单的稳定性分析。最后,给出了数值比较分析以评估这些方法。
translated by 谷歌翻译
Min-Max优化问题(即,最大游戏)一直在吸引大量的注意力,因为它们适用于各种机器学习问题。虽然最近取得了重大进展,但迄今为止的文献已经专注于独立战略集的比赛;难以解决与依赖策略集的游戏的知识,可以被称为Min-Max Stackelberg游戏。我们介绍了两种一阶方法,解决了大类凸凹MIN-Max Stackelberg游戏,并表明我们的方法会聚在多项式时间。 Min-Max Stackelberg游戏首先由Wald研究,在Wald的Maximin模型的Posthumous名称下,一个变体是强大的优化中使用的主要范式,这意味着我们的方法同样可以解决许多凸起的稳健优化问题。我们观察到Fisher市场中竞争均衡的计算还包括Min-Max Stackelberg游戏。此外,我们通过在不同的公用事业结构中计算Fisher市场的竞争性均衡来证明我们的算法在实践中的功效和效率。我们的实验表明潜在的方法来扩展我们的理论结果,通过展示不同的平滑性能如何影响我们算法的收敛速度。
translated by 谷歌翻译
在本文中,我们研究了多块最小双重双层优化问题,其中上层是非凸线的最小值最小值目标,而下层级别是一个强烈的凸目标,并且有多个双重变量块和下层级别。问题。由于交织在一起的多块最小双重双重结构,每次迭代处的计算成本可能高高,尤其是在大量块中。为了应对这一挑战,我们提出了一种单循环随机随机算法,该算法需要在每次迭代时仅恒定数量的块进行更新。在对问题的一些温和假设下,我们建立了$ \ Mathcal {o}(1/\ Epsilon^4)$的样本复杂性,用于查找$ \ epsilon $ - 稳定点。这匹配了在一般无偏见的随机甲骨文模型下求解随机非convex优化的最佳复杂性。此外,我们在多任务深度AUC(ROC曲线下)最大化和多任务深度部分AUC最大化中提供了两种应用。实验结果验证了我们的理论,并证明了我们方法对数百个任务问题的有效性。
translated by 谷歌翻译
本文重点介绍了解决光滑非凸强凹入最小问题的随机方法,这导致了由于其深度学习中的潜在应用而受到越来越长的关注(例如,深度AUC最大化,分布鲁棒优化)。然而,大多数现有算法在实践中都很慢,并且它们的分析围绕到几乎静止点的收敛。我们考虑利用Polyak-\ L Ojasiewicz(PL)条件来设计更快的随机算法,具有更强的收敛保证。尽管已经用于设计许多随机最小化算法的PL条件,但它们对非凸敏最大优化的应用仍然罕见。在本文中,我们提出并分析了基于近端的跨越时代的方法的通用框架,许多众所周知的随机更新嵌入。以{\ BF原始物镜差和二元间隙}的方式建立快速收敛。与现有研究相比,(i)我们的分析基于一个新的Lyapunov函数,包括原始物理差距和正则化功能的二元间隙,(ii)结果更加全面,提高了更好的依赖性的速率不同假设下的条件号。我们还开展深层和非深度学习实验,以验证我们的方法的有效性。
translated by 谷歌翻译
NonConvex-Concave Minimax优化已经对机器学习产生了浓厚的兴趣,包括对数据分配具有稳健性,以非解释性损失,对抗性学习为单一的学习。然而,大多数现有的作品都集中在梯度散发性(GDA)变体上,这些变体只能在平滑的设置中应用。在本文中,我们考虑了一个最小问题的家族,其目标功能在最小化变量中享有非平滑复合结构,并且在最大化的变量中是凹入的。通过充分利用复合结构,我们提出了平滑的近端线性下降上升(\ textit {平滑} plda)算法,并进一步建立了其$ \ Mathcal {o}(\ epsilon^{ - 4})在平滑设置下,平滑的gda〜 \ cite {zhang2020single}。此外,在一个温和的假设下,目标函数满足单方面的kurdyka- \ l {} ojasiewicz条件,带有指数$ \ theta \ in(0,1)$,我们可以进一步将迭代复杂性提高到$ \ MATHCAL {O }(\ epsilon^{ - 2 \ max \ {2 \ theta,1 \}})$。据我们所知,这是第一种非平滑nonconvex-concave问题的可证明有效的算法,它可以实现最佳迭代复杂性$ \ MATHCAL {o}(\ epsilon^{ - 2})$,如果$ \ theta \ 0,1/2] $。作为副产品,我们讨论了不同的平稳性概念并定量澄清它们的关系,这可能具有独立的兴趣。从经验上,我们说明了拟议的平滑PLDA在变体正规化WassErstein分布在鲁棒优化问题上的有效性。
translated by 谷歌翻译
在本文中,我们考虑基于移动普通(SEMA)的广泛使用但不完全了解随机估计器,其仅需要{\ bf是一般无偏的随机oracle}。我们展示了Sema在一系列随机非凸优化问题上的力量。特别是,我们分析了基于SEMA的SEMA的{\ BF差异递归性能的各种随机方法(现有或新提出),即三个非凸优化,即标准随机非凸起最小化,随机非凸强烈凹入最小最大优化,随机均方优化。我们的贡献包括:(i)对于标准随机非凸起最小化,我们向亚当风格方法(包括ADAM,AMSGRAD,Adabound等)提供了一个简单而直观的融合证明,随着越来越大的“势头” “一阶时刻的参数,它给出了一种替代但更自然的方式来保证亚当融合; (ii)对于随机非凸强度凹入的最小值优化,我们介绍了一种基于移动平均估计器的单环原始 - 双随机动量和自适应方法,并确定其Oracle复杂性$ O(1 / \ epsilon ^ 4)$不使用大型批量大小,解决文献中的差距; (iii)对于随机双脚优化,我们介绍了一种基于移动平均估计器的单环随机方法,并确定其Oracle复杂性$ \ widetilde o(1 / \ epsilon ^ 4)$,而无需计算Hessian矩阵的SVD,改善最先进的结果。对于所有这些问题,我们还建立了使用随机梯度估计器的差异递减结果。
translated by 谷歌翻译