我们研究单调夹杂物和单调变异不平等,及其对非单调环境的概括。我们首先表明,最初由Yoon和Ryu [2021]提出的额外的锚固梯度(EAG)算法用于无约束的凸孔conconcove min-max优化,可用于解决Lipschitz单调包含的更普遍的问题。更具体地说,我们证明了EAG解决了$ o(\ frac {1} {t})$的\ emph {Accelerated收敛速率}的Lipschitz单调包含问题,这是\ emph {所有一阶方法}的最佳{ [Diakonikolas,2020年,Yoon和Ryu,2021年]。我们的第二个结果是一种新算法,称为额外的锚固梯度加(EAG+),它不仅可以实现所有单调包含问题的加速$ O(\ frac {1} {t} {t} {t} {t})$收敛率,而且还表现出同样的加速度涉及负共酮操作员的一般(非单调)包容性问题的率。作为我们第二个结果的特殊情况,EAG+享受$ O(\ frac {1} {t})$收敛率,用于求解非平凡的非Conconvex-Nonconcave-Nonconcave Min-Max优化问题。我们的分析基于简单的潜在函数参数,这对于分析其他加速算法可能很有用。
translated by 谷歌翻译
We study stochastic monotone inclusion problems, which widely appear in machine learning applications, including robust regression and adversarial learning. We propose novel variants of stochastic Halpern iteration with recursive variance reduction. In the cocoercive -- and more generally Lipschitz-monotone -- setup, our algorithm attains $\epsilon$ norm of the operator with $\mathcal{O}(\frac{1}{\epsilon^3})$ stochastic operator evaluations, which significantly improves over state of the art $\mathcal{O}(\frac{1}{\epsilon^4})$ stochastic operator evaluations required for existing monotone inclusion solvers applied to the same problem classes. We further show how to couple one of the proposed variants of stochastic Halpern iteration with a scheduled restart scheme to solve stochastic monotone inclusion problems with ${\mathcal{O}}(\frac{\log(1/\epsilon)}{\epsilon^2})$ stochastic operator evaluations under additional sharpness or strong monotonicity assumptions.
translated by 谷歌翻译
在本文中,我们开发了一种新型加速算法,以解决一些最大单调方程以及单调夹杂物。我们的方法而不是使用Nesterov的加速方法,而是依赖于[32]中所谓的Halpern型固定点迭代,最近由许多研究人员利用,包括[24,70]。首先,我们基于Popov过去的超梯度方法来解决[70]中的锚定梯度方案的新变种,以解决最大单调方程$ g(x)= 0 $。我们表明我们的方法与运营商规范$ \ vert g(x_k)\ vert上的锚定梯度算法相同$,但只需要在每次迭代的每次迭代时进行一次评估,其中$ k $是迭代计数器。接下来,我们开发两个分割算法,以近似两个最大单调的运算符之和的零点。第一算法源自与分裂技术组合的锚定梯度方法,而第二个是其波波夫的变体,其可以降低偏移复杂度。这两种算法似乎都是新的,可以被视为Douglas-Rachford(DR)分裂方法的加速变体。他们均达到$ \ mathcal {o}(1 / k)$ rations上的正常r_ {\ gamma}(x_k)\ vert $ g _ {\ gamma}(\ cdot) $与问题相关联。我们还提出了一个新的加速Douglas-Rachford分裂方案,用于解决这个问题,该问题在$ \ vert g _ {\ gamma}(x_k)\ vert $下的$ \ mathcal {o}(1 / k)$收敛率下面只有最大单调假设。最后,我们指定了我们的第一算法来解决凸凹minimax问题,并应用我们加速的DR方案来得出乘法器(ADMM)的交替方向方法的新变型。
translated by 谷歌翻译
本文解决了一个与简单高阶正规化方法设计有关的开放挑战性的问题,该方法用于解决平滑而单调的变化不平等(VIS)。一个vi涉及在\ mathcal {x} $中查找$ x^\ star \,以使$ \ langle f(x),x -x^\ star \ star \ rangle \ geq 0 $ for All $ x \ in \ Mathcal {x} $,我们考虑$ f:\ mathbb {r}^d \ mapsto \ mathbb {r}^d $的设置,最多$(p-1)^{th} $ - 订购衍生物。对于$ p = 2 $,〜\ citet {Nesterov-2006限制}扩展了立方正规化的牛顿的方法,以$ o(\ epsilon^{ - 1})$。 -Iteration}提出了另一种二阶方法,该方法获得了$ O(\ epsilon^{ - 2/3} \ log(1/\ epsilon))$的提高速率,但是此方法需要一个非平凡的二进制搜索过程作为内部搜索过程环形。基于类似二进制搜索过程的高阶方法已进一步开发并显示出$ o(\ epsilon^{ - 2/(p+1)} \ log(1/\ epsilon))$的速率。但是,这种搜索程序在实践中可能在计算上是过敏性的,并且在优化理论中找到一种简单的高级正则方法的问题仍然是一个开放而充满挑战的问题。我们提出了一个$ p^{th} $ - 订购方法,该方法\ textit {not}需要任何二进制搜索过程,并证明它可以以$ o(\ epsilon^{ - 2/ (P+1)})$。还建立了$ \ omega(\ epsilon^{ - 2/(p+1)})$的下限,以证明我们的方法在单调设置中是最佳的。重新启动的版本达到了平滑且强烈单调的全球线性和局部超级线性收敛速率。此外,我们的方法可以实现$ o(\ epsilon^{ - 2/p})$的全局速率,以解决平滑和非单调的vis满足薄荷条件;此外,如果强烈的薄荷味状况保持,重新启动的版本再次达到全球线性和本地超级线性收敛速率。
translated by 谷歌翻译
在本文中,我们考虑了一类结构化单调包含(MI)问题,这些问题包括在两个单调算子的总和中找到零,其中一个是最大单调的,而另一个是局部的lipchitz。特别是,我们首先提出了一种原始的偶尔外推(PDE)方法,用于通过使用点和操作器外推技术来修改经典前进的分裂方法,以解决结构化的强烈MI问题,其中参数通过回溯进行自适应更新线搜索方案。所提出的PDE方法几乎不含参数,配备了可验证的终止标准,并且享受$ {\ cal o}的操作复杂性(\ log \ log \ epsilon^{ - 1})$,通过组成的基本操作量来衡量仅对另一个操作员的一个操作员和解决方案进行评估,以找到结构化强烈MI问题的$ \ epsilon $ risiDual解决方案。然后,我们提出了另一种PDE方法,用于通过应用上述PDE方法近似求解一系列结构化的强烈MI问题来解决结构化的非额外MI问题。所得的PDE方法是无参数的,配备了可验证的终止标准,并享受$ {\ cal o}的操作复杂性(\ epsilon^{ - 1} \ log \ log \ epsilon^{ - 1})$ $ \ epsilon $ - 累积的非紧张MI问题的解决方案。结果,我们将后者的PDE方法应用于圆锥圆锥优化,锥形约束鞍点和变异不平等问题,并获得复杂性结果,以找到$ \ epsilon $ -KKT或$ \ epsilon $ - epsilon $ - 水分$ - 局部的解决方案。 Lipschitz的连续性。据我们所知,尚未进行先前的研究来调查具有复杂性保证解决本地Lipschitz连续性下述问题的方法。本文获得的所有复杂性结果都是全新的。
translated by 谷歌翻译
用于解决无约束光滑游戏的两个最突出的算法是经典随机梯度下降 - 上升(SGDA)和最近引入的随机共识优化(SCO)[Mescheder等,2017]。已知SGDA可以收敛到特定类别的游戏的静止点,但是当前的收敛分析需要有界方差假设。 SCO用于解决大规模对抗问题,但其收敛保证仅限于其确定性变体。在这项工作中,我们介绍了预期的共同胁迫条件,解释了它的好处,并在这种情况下提供了SGDA和SCO的第一次迭代收敛保证,以解决可能是非单调的一类随机变分不等式问题。我们将两种方法的线性会聚到解决方案的邻域时,当它们使用恒定的步长时,我们提出了富有识别的步骤化切换规则,以保证对确切解决方案的融合。此外,我们的收敛保证在任意抽样范式下担保,因此,我们对迷你匹配的复杂性进行了解。
translated by 谷歌翻译
We improve the understanding of the $\textit{golden ratio algorithm}$, which solves monotone variational inequalities (VI) and convex-concave min-max problems via the distinctive feature of adapting the step sizes to the local Lipschitz constants. Adaptive step sizes not only eliminate the need to pick hyperparameters, but they also remove the necessity of global Lipschitz continuity and can increase from one iteration to the next. We first establish the equivalence of this algorithm with popular VI methods such as reflected gradient, Popov or optimistic gradient descent-ascent in the unconstrained case with constant step sizes. We then move on to the constrained setting and introduce a new analysis that allows to use larger step sizes, to complete the bridge between the golden ratio algorithm and the existing algorithms in the literature. Doing so, we actually eliminate the link between the golden ratio $\frac{1+\sqrt{5}}{2}$ and the algorithm. Moreover, we improve the adaptive version of the algorithm, first by removing the maximum step size hyperparameter (an artifact from the analysis) to improve the complexity bound, and second by adjusting it to nonmonotone problems with weak Minty solutions, with superior empirical performance.
translated by 谷歌翻译
我们提出了随机方差降低算法,以求解凸 - 凸座鞍点问题,单调变异不平等和单调夹杂物。我们的框架适用于Euclidean和Bregman设置中的外部,前向前后和前反向回复的方法。所有提出的方法都在与确定性的对应物相同的环境中收敛,并且它们要么匹配或改善了解决结构化的最低最大问题的最著名复杂性。我们的结果加强了变异不平等和最小化之间的差异之间的对应关系。我们还通过对矩阵游戏的数值评估来说明方法的改进。
translated by 谷歌翻译
本文是对解决平滑(强)单调随机变化不平等的方法的调查。首先,我们给出了随机方法最终发展的确定性基础。然后,我们回顾了通用随机配方的方法,并查看有限的总和设置。本文的最后部分致力于各种算法的各种(不一定是随机)的变化不平等现象。
translated by 谷歌翻译
我们开发了一种内点方法来解决受约束的变异不平等(CVI)问题。受乘数在单目标上下文中的交替方向方法(ADMM)方法的效力的启发,我们将ADMM推广为CVIS的一阶方法,我们将其称为基于ADMM基于ADMM的内部点方法(用于受限的VIS)( ACVI)。我们在两个通用类问题中为ACVI提供了收敛保证:(i)当操作员为$ \ xi $ - 单酮,并且(ii)当它是单调的时,限制是有效的,并且游戏不纯粹是旋转的。当操作员为后一种情况添加L-lipschitz时,我们将$ \ MATHCAL {O}的差距函数的速率匹配已知的低界限(1/\ sqrt {k})$和$ \ MATHCAL {O}(O}(O})(最后一个和平均迭代的1/k)$。据我们所知,这是针对具有全球收敛保证的一般CVI问题的一阶内点方法的首次介绍。此外,与以前的工作不同的是,ACVI提供了一种在限制不平的情况下解决CVI的方法。经验分析表明,ACVI比常见的一阶方法具有明显的优势。特别是,(i)当我们的方法从分析中心接近解决方案时,周期性行为显着降低,并且(ii)与基于投影的方法不同,在接近约束时振荡的方法有效地处理了约束。
translated by 谷歌翻译
NonConvex-Concave Minimax优化已经对机器学习产生了浓厚的兴趣,包括对数据分配具有稳健性,以非解释性损失,对抗性学习为单一的学习。然而,大多数现有的作品都集中在梯度散发性(GDA)变体上,这些变体只能在平滑的设置中应用。在本文中,我们考虑了一个最小问题的家族,其目标功能在最小化变量中享有非平滑复合结构,并且在最大化的变量中是凹入的。通过充分利用复合结构,我们提出了平滑的近端线性下降上升(\ textit {平滑} plda)算法,并进一步建立了其$ \ Mathcal {o}(\ epsilon^{ - 4})在平滑设置下,平滑的gda〜 \ cite {zhang2020single}。此外,在一个温和的假设下,目标函数满足单方面的kurdyka- \ l {} ojasiewicz条件,带有指数$ \ theta \ in(0,1)$,我们可以进一步将迭代复杂性提高到$ \ MATHCAL {O }(\ epsilon^{ - 2 \ max \ {2 \ theta,1 \}})$。据我们所知,这是第一种非平滑nonconvex-concave问题的可证明有效的算法,它可以实现最佳迭代复杂性$ \ MATHCAL {o}(\ epsilon^{ - 2})$,如果$ \ theta \ 0,1/2] $。作为副产品,我们讨论了不同的平稳性概念并定量澄清它们的关系,这可能具有独立的兴趣。从经验上,我们说明了拟议的平滑PLDA在变体正规化WassErstein分布在鲁棒优化问题上的有效性。
translated by 谷歌翻译
我们介绍并分析新的一阶优化算法系列,它概括并统一镜像血统和双平均。在该系列的框架内,我们定义了用于约束优化的新算法,这些算法结合了镜像血统和双平均的优点。我们的初步仿真研究表明,这些新算法在某些情况下显着优于可用方法。
translated by 谷歌翻译
我们研究了具有有限和结构的平滑非凸化优化问题的随机重新洗脱(RR)方法。虽然该方法在诸如神经网络的训练之类的实践中广泛利用,但其会聚行为仅在几个有限的环境中被理解。在本文中,在众所周知的Kurdyka-LojasiewiCz(KL)不等式下,我们建立了具有适当递减步长尺寸的RR的强极限点收敛结果,即,RR产生的整个迭代序列是会聚并会聚到单个静止点几乎肯定的感觉。 In addition, we derive the corresponding rate of convergence, depending on the KL exponent and the suitably selected diminishing step sizes.当KL指数在$ [0,\ FRAC12] $以$ [0,\ FRAC12] $时,收敛率以$ \ mathcal {o}(t ^ { - 1})$的速率计算,以$ t $ counting迭代号。当KL指数属于$(\ FRAC12,1)$时,我们的派生收敛速率是FORM $ \ MATHCAL {O}(T ^ { - Q})$,$ Q \ IN(0,1)$取决于在KL指数上。基于标准的KL不等式的收敛分析框架仅适用于具有某种阶段性的算法。我们对基于KL不等式的步长尺寸减少的非下降RR方法进行了新的收敛性分析,这概括了标准KL框架。我们总结了我们在非正式分析框架中的主要步骤和核心思想,这些框架是独立的兴趣。作为本框架的直接应用,我们还建立了类似的强极限点收敛结果,为重组的近端点法。
translated by 谷歌翻译
随机以外的(SEG)方法是解决各种机器学习任务中出现的最小最大优化和变分不等式问题(VIP)的最流行算法之一。然而,有关SEG的收敛性质的几个重要问题仍然是开放的,包括随机梯度的采样,迷你批量,用于单调有限和变分不等式的单调有限和变分别不等式,以及其他问题。为了解决这些问题,在本文中,我们开发了一种新颖的理论框架,使我们能够以统一的方式分析赛季的几种变体。除了标准设置之外,与均有界差异下的LipsChitzness和单调性或独立样本SEG相同 - 样本SEG,我们的方法可以分析之前从未明确考虑过的SEG的变体。值得注意的是,我们用任意抽样分析SEG,其中包括重要性采样和各种批量批量策略作为特殊情况。我们为SEG的新变种的率优于目前最先进的融合保证并依赖于更少的限制性假设。
translated by 谷歌翻译
黎曼优化中加速梯度方法的研究最近见证了显着的进展。然而,与欧几里德的环境相比,利莫曼环境仍然缺乏对加速的系统理解。我们重新审视\ citet {monteiro2013accelerated}的\ citet {monteiro2013accelerated}的\ citeterated {monteiro2013accelerated},这是一个强大的框架,用于获得加速的欧几里德方法。随后,我们提出了一个Riemannian版的A-HPE。我们对Riemannian A-HPE分析的基础是欧几里德A-HPE的一系列洞察力,我们将仔细控制Riemannian几何形状引起的扭曲。我们描述了许多riemannian加速梯度方法作为我们框架的具体实例。
translated by 谷歌翻译
我们考虑非凸凹minimax问题,$ \ min _ {\ mathbf {x}} \ mathcal {y}} f(\ mathbf {x},\ mathbf {y})$, $ f $在$ \ mathbf {x} $ on $ \ mathbf {y} $和$ \ mathcal {y} $中的$ \ \ mathbf {y} $。解决此问题的最受欢迎的算法之一是庆祝的梯度下降上升(GDA)算法,已广泛用于机器学习,控制理论和经济学。尽管凸凹设置的广泛收敛结果,但具有相等步骤的GDA可以收敛以限制循环甚至在一般设置中发散。在本文中,我们介绍了两次尺度GDA的复杂性结果,以解决非膨胀凹入的最小问题,表明该算法可以找到函数$ \ phi(\ cdot)的静止点:= \ max _ {\ mathbf {Y} \ In \ Mathcal {Y}} F(\ CDOT,\ MATHBF {Y})高效。据我们所知,这是对这一环境中的两次尺度GDA的第一个非因对药分析,阐明了其在培训生成对抗网络(GANS)和其他实际应用中的优越实际表现。
translated by 谷歌翻译
从最佳运输到稳健的维度降低,可以将大量的机器学习应用程序放入Riemannian歧管上的Min-Max优化问题中。尽管在欧几里得的环境中已经分析了许多最小的最大算法,但事实证明,将这些结果转化为Riemannian案例已被证明是难以捉摸的。张等。 [2022]最近表明,测量凸凹入的凹入问题总是容纳鞍点解决方案。受此结果的启发,我们研究了Riemannian和最佳欧几里得空间凸入concove算法之间的性能差距。我们在负面的情况下回答了这个问题,证明Riemannian校正的外部(RCEG)方法在地球上强烈convex-concove案例中以线性速率实现了最后近期收敛,与欧几里得结果匹配。我们的结果还扩展到随机或非平滑案例,在这种情况下,RCEG和Riemanian梯度上升下降(RGDA)达到了近乎最佳的收敛速率,直到因歧管的曲率而定为因素。
translated by 谷歌翻译
在本文中,我们开发了使用局部Lipschitz连续梯度(LLCG)的凸优化的一阶方法,该方法超出了lipschitz连续梯度的精心研究类别的凸优化。特别是,我们首先考虑使用LLCG进行无约束的凸优化,并提出求解它的加速近端梯度(APG)方法。所提出的APG方法配备了可验证的终止标准,并享受$ {\ cal o}的操作复杂性(\ varepsilon^{ - 1/2} \ log \ log \ varepsilon^{ - 1})$和$ {\ cal o {\ cal o }(\ log \ varepsilon^{ - 1})$用于查找不受约束的凸的$ \ varepsilon $ - 剩余凸和强烈凸优化问题的解决方案。然后,我们考虑使用LLCG进行约束的凸优化,并提出了一种近端增强拉格朗日方法,通过应用我们提出的APG方法之一来求解一系列近端增强拉格朗日子问题,以解决它。所得的方法配备了可验证的终止标准,并享受$ {\ cal o}的操作复杂性(\ varepsilon^{ - 1} \ log \ log \ varepsilon^{ - 1})$和$ {\ cal o}(\ cal o}(\ Varepsilon^{ - 1/2} \ log \ varepsilon^{ - 1})$用于查找约束凸的$ \ varepsilon $ -KKT解决方案,分别是强烈的凸优化问题。本文中所有提出的方法均无参数或几乎不含参数,但需要有关凸电参数的知识。据我们所知,没有进行先前的研究来研究具有复杂性保证的加速一阶方法,可与LLCG进行凸优化。本文获得的所有复杂性结果都是全新的。
translated by 谷歌翻译
最近,由于这些问题与一些新兴应用的相关性,最近有许多研究工作用于开发有效算法,以解决理论收敛的保证。在本文中,我们提出了一种统一的单环交替梯度投影(AGP)算法,用于求解平滑的非convex-(强烈)凹面和(强烈)凸出 - 非concave minimax问题。 AGP采用简单的梯度投影步骤来更新每次迭代时的原始变量和双变量。我们表明,它可以在$ \ MATHCAL {O} \ left(\ Varepsilon ^{ - 2} \ right)$(rep. $ \ Mathcal {O} \ left)中找到目标函数的$ \ VAREPSILON $ -STAIMATARY点。 (\ varepsilon ^{ - 4} \ right)$)$迭代,在nonconvex-strongly凹面(resp。nonconvex-concave)设置下。此外,获得目标函数的$ \ VAREPSILON $ -STAIMATARY的梯度复杂性由$ \ Mathcal {o} \ left(\ varepsilon ^{ - 2} \ right)界限O} \ left(\ varepsilon ^{ - 4} \ right)$在强烈的convex-nonconcave(resp。,convex-nonconcave)设置下。据我们所知,这是第一次开发出一种简单而统一的单环算法来解决非convex-(强烈)凹面和(强烈)凸出 - 非concave minimax问题。此外,在文献中从未获得过解决后者(强烈)凸线 - 非孔孔的最小问题的复杂性结果。数值结果表明所提出的AGP算法的效率。此外,我们通过提出块交替近端梯度(BAPG)算法来扩展AGP算法,以求解更通用的多块非块非conmooth nonmooth nonmooth noncovex-(强)凹面和(强烈)convex-nonconcave minimax问题。我们可以在这四个不同的设置下类似地建立所提出算法的梯度复杂性。
translated by 谷歌翻译
非convex受限的优化问题可用于模拟许多机器学习问题,例如多级Neyman-Pearson分类和受限的Markov决策过程。但是,由于目标和约束可能是非概念,因此这些问题都是具有挑战性的,因此很难平衡减少损失价值和减少约束违规行为的平衡。尽管有几种方法可以解决此类问题,但它们都是双环或三环算法,它们需要Oracles来解决某些子问题,通过在每次迭代中调整多个超级参数,以达到某些准确性。在本文中,我们提出了一种新型的梯度下降和扰动的上升(GDPA)算法,以解决一类平滑的非概念不平等的限制问题。 GDPA是一种原始的偶算法,仅利用目标和约束函数的一阶信息,以交替的方式更新原始变量和双重变量。该算法的关键特征是它是一种单循环算法,其中只需要调整两个步骤尺寸。我们表明,在轻度的规律性条件下,GDPA能够找到非convex功能约束问题的Karush-Kuhn-Tucker(KKT)点,并保证了收敛率。据我们所知,这是第一个可以通过非convex不等式约束来解决一般非凸的平滑问题的单循环算法。与最著名的算法相比,数值结果还显示了GDPA的优越性(就平稳性测量和获得的溶液的可行性而言)。
translated by 谷歌翻译