在本文中,我们研究了一个凸凹马鞍点问题$ \ min_x \ max_y f(x)+ y ^ \ top \ mathbf {a} x - g(y)$,其中$ f(x)$和$ g(y)$是平滑和凸的功能。我们提出了一种加速的原始 - 双梯度方法,用于解决该问题(i)在匹配较低复杂性绑定的强 - 凸强 - 凹形方案中实现最佳线性收敛速率(Zhang等,2021)和(ii)在只有其中一个函数$ f(x)$和$ g(y)$的情况下实现加速的线性收敛速率,而甚至没有它们。最后,我们获得了一种线性收敛算法,用于一般平滑和凸凹骑马点问题$ \ min_x \ max_y f(x,y)$,不需要强大的凸起或强凹面。
translated by 谷歌翻译
受到Mishchenko等人(2022)的最新突破的启发,他们首次表明局部梯度步骤可以导致可证明的通信加速,我们提出了一种替代算法,该算法获得了与他们的方法相同的通信加速度(Proxsskip)。但是,我们的方法非常不同:它基于Chambolle和Pock(2011)的著名方法,并具有多种不平凡的修改:i)我们允许通过适当的强烈凸出功能的代理操作员进行不精确的计算。基于梯度的方法(例如,GD,Fast GD或FSFOM),ii)我们对双重更新步骤进行仔细的修改,以保留线性收敛。我们的一般结果为强凸孔座鞍点问题提供了新的最先进率,其双线性耦合为特征,其特征是双重功能缺乏平滑度。当应用于联邦学习时,我们获得了Proxskip的理论上更好的替代方案:我们的方法需要更少的本地步骤($ O(\ kappa^{1/3})$或$ o(\ kappa^{1/4})$,与Proxskip的$ O(\ kappa^{1/2})$相比,并执行确定性的本地步骤。像Proxskip一样,我们的方法可以应用于连接网络的优化,我们在这里也获得了理论改进。
translated by 谷歌翻译
我们考虑光滑的凸孔concave双线性耦合的鞍点问题,$ \ min _ {\ mathbf {x}}} \ max _ {\ mathbf {y Mathbf {y}} 〜f(\ mathbf {x}} },\ mathbf {y}) - g(\ mathbf {y})$,其中一个人可以访问$ f $,$ g $的随机一阶oracles以及biinear耦合函数$ h $。基于标准的随机外部分析,我们提出了随机\ emph {加速梯度 - extragradient(ag-eg)}下降的算法,该算法在一般随机设置中结合了外部和Nesterov的加速度。该算法利用计划重新启动以接收一种良好的非震动收敛速率,该算法与\ citet {ibrahim202020linear}和\ citet {zhang2021lower}相匹配,并在其相应的设置中,还有一个额外的统计误差期限,以及\ citet {zhang2021lower}最多达到恒定的预取子。这是在鞍点优化中实现这种相对成熟的最佳表征的第一个结果。
translated by 谷歌翻译
在这项工作中,我们旨在研究用于凸出的凸侧鞍点问题(SPP)的原始偶(PD)方法。在许多情况下,仅原始函数上近端甲骨文的计算效率低下。因此,我们在近端步骤中使用其一阶线性近似,从而导致线性化PD(LPD)方法。即使耦合项为双线性,我们也会观察到LPD对原始功能的Lipschitz常数具有次优的依赖性。相比之下,LPD对于强凸凹形病例具有最佳的收敛性。该观察结果导致我们提出了加速的线性化原始偶(ALPD)算法,以求解强烈的凸面spp。 ALPD是一种单环算法,结合了Nesterov加速梯度下降(AGD)和LPD的特征。我们表明,当耦合项为半线性(包含双线性作为特定情况)时,ALPD获得了对原始功能的Lipschitz常数的最佳依赖性。因此,它是一种最佳算法。当耦合项具有一般的非线性形式时,ALPD算法对耦合项原始部分的Lipschitz常数具有次优依赖性。为了提高这种依赖性,我们提出了一种不精确的APD算法。该算法在内部循环中执行AGD迭代,以找到对APD近端子问题的近似解决方案。我们表明,不精确的APD保持了问题的原始和双重部分的最佳梯度评​​估(梯度复杂性)。它还显着改善了原始耦合项的梯度复杂性。
translated by 谷歌翻译
Nonconvex minimax problems have attracted wide attention in machine learning, signal processing and many other fields in recent years. In this paper, we propose a primal dual alternating proximal gradient (PDAPG) algorithm and a primal dual proximal gradient (PDPG-L) algorithm for solving nonsmooth nonconvex-strongly concave and nonconvex-linear minimax problems with coupled linear constraints, respectively. The corresponding iteration complexity of the two algorithms are proved to be $\mathcal{O}\left( \varepsilon ^{-2} \right)$ and $\mathcal{O}\left( \varepsilon ^{-3} \right)$ to reach an $\varepsilon$-stationary point, respectively. To our knowledge, they are the first two algorithms with iteration complexity guarantee for solving the two classes of minimax problems.
translated by 谷歌翻译
Convex function constrained optimization has received growing research interests lately. For a special convex problem which has strongly convex function constraints, we develop a new accelerated primal-dual first-order method that obtains an $\Ocal(1/\sqrt{\vep})$ complexity bound, improving the $\Ocal(1/{\vep})$ result for the state-of-the-art first-order methods. The key ingredient to our development is some novel techniques to progressively estimate the strong convexity of the Lagrangian function, which enables adaptive step-size selection and faster convergence performance. In addition, we show that the complexity is further improvable in terms of the dependence on some problem parameter, via a restart scheme that calls the accelerated method repeatedly. As an application, we consider sparsity-inducing constrained optimization which has a separable convex objective and a strongly convex loss constraint. In addition to achieving fast convergence, we show that the restarted method can effectively identify the sparsity pattern (active-set) of the optimal solution in finite steps. To the best of our knowledge, this is the first active-set identification result for sparsity-inducing constrained optimization.
translated by 谷歌翻译
本文是对解决平滑(强)单调随机变化不平等的方法的调查。首先,我们给出了随机方法最终发展的确定性基础。然后,我们回顾了通用随机配方的方法,并查看有限的总和设置。本文的最后部分致力于各种算法的各种(不一定是随机)的变化不平等现象。
translated by 谷歌翻译
我们通过两种类型 - 主/工人(因此集中)架构(因此集中)架构和网格化(因此分散)网络,研究(强)凸起(强)凸起(强)凸起的鞍点问题(SPPS)的解决方案方法。由于统计数据相似度或其他,假设每个节点处的本地功能是相似的。我们为求解SPP的相当一般算法奠定了较低的复杂性界限。我们表明,在$ \ omega \ big(\ delta \ cdot \ delta / \ mu \ cdot \ log(1 / varepsilon)\ big)$ rounds over over over exoptimally $ \ epsilon> 0 $ over over master / workers网络通信,其中$ \ delta> 0 $测量本地功能的相似性,$ \ mu $是它们的强凸起常数,$ \ delta $是网络的直径。较低的通信复杂性绑定在网状网络上读取$ \ omega \ big(1 / {\ sqrt {\ rho}} \ cdot {\ delta} / {\ mu} \ cdot \ log(1 / varepsilon)\ big)$ ,$ \ rho $是用于邻近节点之间通信的八卦矩阵的(归一化)EIGENGAP。然后,我们提出算法与较低限制的网络(最多为日志因子)匹配。我们评估所提出的算法对强大的逻辑回归问题的有效性。
translated by 谷歌翻译
最近,由于这些问题与一些新兴应用的相关性,最近有许多研究工作用于开发有效算法,以解决理论收敛的保证。在本文中,我们提出了一种统一的单环交替梯度投影(AGP)算法,用于求解平滑的非convex-(强烈)凹面和(强烈)凸出 - 非concave minimax问题。 AGP采用简单的梯度投影步骤来更新每次迭代时的原始变量和双变量。我们表明,它可以在$ \ MATHCAL {O} \ left(\ Varepsilon ^{ - 2} \ right)$(rep. $ \ Mathcal {O} \ left)中找到目标函数的$ \ VAREPSILON $ -STAIMATARY点。 (\ varepsilon ^{ - 4} \ right)$)$迭代,在nonconvex-strongly凹面(resp。nonconvex-concave)设置下。此外,获得目标函数的$ \ VAREPSILON $ -STAIMATARY的梯度复杂性由$ \ Mathcal {o} \ left(\ varepsilon ^{ - 2} \ right)界限O} \ left(\ varepsilon ^{ - 4} \ right)$在强烈的convex-nonconcave(resp。,convex-nonconcave)设置下。据我们所知,这是第一次开发出一种简单而统一的单环算法来解决非convex-(强烈)凹面和(强烈)凸出 - 非concave minimax问题。此外,在文献中从未获得过解决后者(强烈)凸线 - 非孔孔的最小问题的复杂性结果。数值结果表明所提出的AGP算法的效率。此外,我们通过提出块交替近端梯度(BAPG)算法来扩展AGP算法,以求解更通用的多块非块非conmooth nonmooth nonmooth noncovex-(强)凹面和(强烈)convex-nonconcave minimax问题。我们可以在这四个不同的设置下类似地建立所提出算法的梯度复杂性。
translated by 谷歌翻译
NonConvex-Concave Minimax优化已经对机器学习产生了浓厚的兴趣,包括对数据分配具有稳健性,以非解释性损失,对抗性学习为单一的学习。然而,大多数现有的作品都集中在梯度散发性(GDA)变体上,这些变体只能在平滑的设置中应用。在本文中,我们考虑了一个最小问题的家族,其目标功能在最小化变量中享有非平滑复合结构,并且在最大化的变量中是凹入的。通过充分利用复合结构,我们提出了平滑的近端线性下降上升(\ textit {平滑} plda)算法,并进一步建立了其$ \ Mathcal {o}(\ epsilon^{ - 4})在平滑设置下,平滑的gda〜 \ cite {zhang2020single}。此外,在一个温和的假设下,目标函数满足单方面的kurdyka- \ l {} ojasiewicz条件,带有指数$ \ theta \ in(0,1)$,我们可以进一步将迭代复杂性提高到$ \ MATHCAL {O }(\ epsilon^{ - 2 \ max \ {2 \ theta,1 \}})$。据我们所知,这是第一种非平滑nonconvex-concave问题的可证明有效的算法,它可以实现最佳迭代复杂性$ \ MATHCAL {o}(\ epsilon^{ - 2})$,如果$ \ theta \ 0,1/2] $。作为副产品,我们讨论了不同的平稳性概念并定量澄清它们的关系,这可能具有独立的兴趣。从经验上,我们说明了拟议的平滑PLDA在变体正规化WassErstein分布在鲁棒优化问题上的有效性。
translated by 谷歌翻译
用于解决无约束光滑游戏的两个最突出的算法是经典随机梯度下降 - 上升(SGDA)和最近引入的随机共识优化(SCO)[Mescheder等,2017]。已知SGDA可以收敛到特定类别的游戏的静止点,但是当前的收敛分析需要有界方差假设。 SCO用于解决大规模对抗问题,但其收敛保证仅限于其确定性变体。在这项工作中,我们介绍了预期的共同胁迫条件,解释了它的好处,并在这种情况下提供了SGDA和SCO的第一次迭代收敛保证,以解决可能是非单调的一类随机变分不等式问题。我们将两种方法的线性会聚到解决方案的邻域时,当它们使用恒定的步长时,我们提出了富有识别的步骤化切换规则,以保证对确切解决方案的融合。此外,我们的收敛保证在任意抽样范式下担保,因此,我们对迷你匹配的复杂性进行了解。
translated by 谷歌翻译
我们提出了随机方差降低算法,以求解凸 - 凸座鞍点问题,单调变异不平等和单调夹杂物。我们的框架适用于Euclidean和Bregman设置中的外部,前向前后和前反向回复的方法。所有提出的方法都在与确定性的对应物相同的环境中收敛,并且它们要么匹配或改善了解决结构化的最低最大问题的最著名复杂性。我们的结果加强了变异不平等和最小化之间的差异之间的对应关系。我们还通过对矩阵游戏的数值评估来说明方法的改进。
translated by 谷歌翻译
我们考虑最小化三个凸功能的总和,其中第一个f是光滑的,第二个f是非平滑且可近的,第三个是与线性操作员L的非光滑近似函数的组成。此模板问题具有许多应用程序,有许多应用程序,有许多应用程序,,具有许多应用程序,,具有许多应用程序。例如,在图像处理和机器学习中。首先,我们为这个问题提出了一种新的原始偶算法,我们称之为PDDY。它是通过将davis-yin分裂应用于原始二重式产品空间中的单调包含的,在特定度量下,操作员在特定度量下是单调的。我们显示了三种现有算法(Condat-VU算法的两种形式) PD3O算法)具有相同的结构,因此PDDY是这种自洽的原始偶算法中的第四个丢失链接。这种表示可以简化收敛分析:它使我们能够总体上得出sublinear收敛速率,而线性收敛导致存在强凸度的存在。此外,在我们的广泛而灵活的分析框架内,我们提出了对算法的新随机概括,其中使用了Friancation降低F梯度的随机估计值,而不是真实的梯度。此外,我们作为pddy的特殊情况获得了线性收敛算法,用于在线性约束下最小化强凸功能f。我们讨论了其对分散优化的重要应用。
translated by 谷歌翻译
本文重点介绍了解决光滑非凸强凹入最小问题的随机方法,这导致了由于其深度学习中的潜在应用而受到越来越长的关注(例如,深度AUC最大化,分布鲁棒优化)。然而,大多数现有算法在实践中都很慢,并且它们的分析围绕到几乎静止点的收敛。我们考虑利用Polyak-\ L Ojasiewicz(PL)条件来设计更快的随机算法,具有更强的收敛保证。尽管已经用于设计许多随机最小化算法的PL条件,但它们对非凸敏最大优化的应用仍然罕见。在本文中,我们提出并分析了基于近端的跨越时代的方法的通用框架,许多众所周知的随机更新嵌入。以{\ BF原始物镜差和二元间隙}的方式建立快速收敛。与现有研究相比,(i)我们的分析基于一个新的Lyapunov函数,包括原始物理差距和正则化功能的二元间隙,(ii)结果更加全面,提高了更好的依赖性的速率不同假设下的条件号。我们还开展深层和非深度学习实验,以验证我们的方法的有效性。
translated by 谷歌翻译
由于其许多领域的广泛应用程序,包括机器学习,网络资源分配和分布式优化,因此在解决非协议敏最大优化问题中有很多兴趣。也许,求解最小最大优化的最受欢迎的一阶方法是所谓的同时(或单环)梯度下降 - 上升 - 上升算法,因为它的实施简单。然而,对该算法的收敛性的理论保证非常稀疏,因为即使在简单的双线性问题中也可以发散。在本文中,我们的重点是表征同时梯度下降算法的连续时间变量的有限时间性能(或收敛速率)。特别是,我们在底层目标函数的许多不同条件下得出了这种方法的收敛速度,即双面Polyak-L OjasiewiCz(PL),单侧PL,非凸起强烈凹入,强烈凸-Nonconcave条件。我们的趋同结果在目标职能的相同条件下提高了先前作品中的结果。我们分析中的关键思路是使用经典奇异扰动理论和耦合Lyapunov函数来解决梯度下降和上升动力学之间的时间尺度差异和相互作用。我们对连续时间算法行为的结果可用于增强其离散时间对应的收敛性。
translated by 谷歌翻译
在本文中,我们提出了GT-GDA,这是一种分布式优化方法来解决表单的鞍点问题:$ \ min _ {\ Mathbf {x}}} \ max _ {\ Mathbf {y Mathbf {y}}} \ {f( 。 $,其中函数$ g(\ cdot)$,$ h(\ cdot)$,以及耦合矩阵$ \ overline {p} $的耦合矩阵{p} $是在强烈连接的节点网络上分发的。 GT-GDA是一种使用梯度跟踪来消除节点之间异质数据分布引起的差异的一阶方法。在最通用的形式中,GT-GDA包括与本地耦合矩阵的共识,以达到最佳(独特的)鞍点,但是,以增加通信为代价。为了避免这种情况,我们提出了一个更有效的变体GT-GDA-LITE,该变体不会引起额外的交流并在各种情况下分析其收敛性。我们表明,当$ g(\ cdot)$平滑且凸,$ h(\ cdot)$平稳且强烈凸时,GT-GDA线性收敛到唯一的鞍点解决方案,并且全局耦合矩阵$ \ overline {p } $具有完整的列等级。我们进一步表征了GT-GDA表现出与网络拓扑无关的收敛行为的制度。接下来,我们显示GT-GDA的线性收敛到围绕唯一鞍点的错误,当耦合成本$ {\ langle \ mathbf y,\ overline {p} \ mathbf x \ rangle} $是零时为零。所有节点,或当$ g(\ cdot)$和$ h(\ cdot)$是二次时。数值实验说明了GT-GDA和GT-GDA-LITE对多种应用的收敛属性和重要性。
translated by 谷歌翻译
在许多机器学习应用程序中出现了非convex-concave min-max问题,包括最大程度地减少一组非凸函数的最大程度,并对神经网络的强大对抗训练。解决此问题的一种流行方法是梯度下降(GDA)算法,不幸的是,在非凸性的情况下可以表现出振荡。在本文中,我们引入了一种“平滑”方案,该方案可以与GDA结合以稳定振荡并确保收敛到固定溶液。我们证明,稳定的GDA算法可以实现$ O(1/\ epsilon^2)$迭代复杂性,以最大程度地减少有限的非convex函数收集的最大值。此外,平滑的GDA算法达到了$ O(1/\ epsilon^4)$ toseration复杂性,用于一般的nonconvex-concave问题。提出了这种稳定的GDA算法的扩展到多块情况。据我们所知,这是第一个实现$ o(1/\ epsilon^2)$的算法,用于一类NonConvex-Concave问题。我们说明了稳定的GDA算法在健壮训练中的实际效率。
translated by 谷歌翻译
联合学习(FL)是机器学习的一个子领域,在该子机学习中,多个客户试图在通信约束下通过网络进行协作学习模型。我们考虑在二阶功能相似性条件和强凸度下联合优化的有限和联合优化,并提出了两种新算法:SVRP和催化的SVRP。这种二阶相似性条件最近越来越流行,并且在包括分布式统计学习和差异性经验风险最小化在内的许多应用中得到满足。第一种算法SVRP结合了近似随机点评估,客户采样和降低方差。我们表明,当功能相似性足够高时,SVRP是沟通有效的,并且在许多现有算法上取得了卓越的性能。我们的第二个算法,催化的SVRP,是SVRP的催化剂加速变体,在二阶相似性和强凸度下,现有的联合优化算法可实现更好的性能,并均匀地改善了现有的算法。在分析这些算法的过程中,我们提供了可能具有独立关注的随机近端方法(SPPM)的新分析。我们对SPPM的分析很简单,允许进行近似近端评估,不需要任何平滑度假设,并且在通信复杂性上比普通分布式随机梯度下降显示出明显的好处。
translated by 谷歌翻译
加速的近端算法(APPA),也称为“催化剂”,是从凸优化到近似近端计算(即正则最小化)的确定还原。这种减少在概念上是优雅的,可以保证强大的收敛速度。但是,这些速率具有多余的对数项,因此需要计算每个近端点至高精度。在这项工作中,我们提出了一个新颖的放松误差标准,用于加速近端点(recapp),以消除对高精度子问题解决方案的需求。我们将recapp应用于两个规范问题:有限的和最大结构的最小化。对于有限和问题,我们匹配了以前通过精心设计的问题特异性算法获得的最著名的复杂性。为了最大程度地减少$ \ max_y f(x,y)$,其中$ f $以$ x $为$ x $,而在$ y $中强烈concave,我们改进了受对数因素限制的最著名的(基于催化剂)。
translated by 谷歌翻译
低级和非平滑矩阵优化问题捕获了统计和机器学习中的许多基本任务。尽管近年来在开发\ textIt {平滑}低级优化问题的有效方法方面取得了重大进展,这些问题避免了保持高级矩阵和计算昂贵的高级SVD,但不平滑问题的进步的步伐缓慢。在本文中,我们考虑了针对此类问题的标准凸放松。主要是,我们证明,在\ textit {严格的互补性}条件下,在相对温和的假设下,非平滑目标可以写成最大的光滑功能,近似于两个流行的\ textit {mirriry-prox}方法的变体: \ textIt {外部方法}和带有\ textIt {矩阵启用梯度更新}的镜像 - prox,当用“温暖启动”初始化时,将速率$ o(1/t)$的最佳解决方案收集到最佳解决方案,同时仅需要两个\ textIt {low-rank} svds每迭代。此外,对于外部方法,我们还考虑了严格互补性的放松版本,该版本在所需的SVD等级与我们需要初始化该方法的球的半径之间取决于权衡。我们通过几个非平滑级矩阵恢复任务的经验实验来支持我们的理论结果,这既证明了严格的互补性假设的合理性,又证明了我们所提出的低级镜像 - 镜像变体的有效收敛。
translated by 谷歌翻译