This paper studies the communication complexity of risk averse optimization over a network. The problem generalizes the well-studied risk-neutral finite-sum distributed optimization problem and its importance stems from the need to handle risk in an uncertain environment. For algorithms in the literature, there exists a gap in communication complexities for solving risk-averse and risk-neutral problems. We propose two distributed algorithms, namely the distributed risk averse optimization (DRAO) method and the distributed risk averse optimization with sliding (DRAO-S) method, to close the gap. Specifically, the DRAO method achieves the optimal communication complexity by assuming a certain saddle point subproblem can be easily solved in the server node. The DRAO-S method removes the strong assumption by introducing a novel saddle point sliding subroutine which only requires the projection over the ambiguity set $P$. We observe that the number of $P$-projections performed by DRAO-S is optimal. Moreover, we develop matching lower complexity bounds to show that communication complexities of both DRAO and DRAO-S are not improvable. Numerical experiments are conducted to demonstrate the encouraging empirical performance of the DRAO-S method.
translated by 谷歌翻译
最近,凸嵌套随机复合优化(NSCO)因其在增强学习和规避风险优化方面的应用而受到了极大的关注。当前的NSCO算法通过数量级的随机甲骨文复杂性较差,而没有嵌套结构的简单随机复合优化问题(例如,平滑和非平滑函数的总和)。此外,它们要求所有外层函数都是平滑的,这对某些重要的应用不满足。这些差异促使我们问:``嵌套成分是否使随机优化在甲骨文复杂性的顺序上更加困难?平滑,结构化的非平滑和一般非平滑层函数的任意组成。当所有外层函数平滑时,我们提出了一种随机顺序双重(SSD)方法,以实现$ \ Mathcal {O}的甲骨文复杂性(1)(1 /\ epsilon^2)$($ \ MATHCAL {o}(1/\ Epsilon)$)当问题不是(强)凸出时。函数,我们提出了一种非平滑随机顺序双重(NSSD)方法,以实现$ \ MATHCAL {O}(1/\ epsilon^2)$的甲骨文复杂性。我们提供了较低的复杂性,以显示后者$ \ MATHCAL {O }(1/\ epsilon^2)$即使在强烈的凸面设置下也无法改善。 XITY结果似乎是文献中的新事物,它们表明凸NSCO问题的甲骨文复杂性与没有嵌套成分的甲骨文复杂性相同,除了强烈的凸面和外部不太平滑问题。
translated by 谷歌翻译
我们通过两种类型 - 主/工人(因此集中)架构(因此集中)架构和网格化(因此分散)网络,研究(强)凸起(强)凸起(强)凸起的鞍点问题(SPPS)的解决方案方法。由于统计数据相似度或其他,假设每个节点处的本地功能是相似的。我们为求解SPP的相当一般算法奠定了较低的复杂性界限。我们表明,在$ \ omega \ big(\ delta \ cdot \ delta / \ mu \ cdot \ log(1 / varepsilon)\ big)$ rounds over over over exoptimally $ \ epsilon> 0 $ over over master / workers网络通信,其中$ \ delta> 0 $测量本地功能的相似性,$ \ mu $是它们的强凸起常数,$ \ delta $是网络的直径。较低的通信复杂性绑定在网状网络上读取$ \ omega \ big(1 / {\ sqrt {\ rho}} \ cdot {\ delta} / {\ mu} \ cdot \ log(1 / varepsilon)\ big)$ ,$ \ rho $是用于邻近节点之间通信的八卦矩阵的(归一化)EIGENGAP。然后,我们提出算法与较低限制的网络(最多为日志因子)匹配。我们评估所提出的算法对强大的逻辑回归问题的有效性。
translated by 谷歌翻译
Convex function constrained optimization has received growing research interests lately. For a special convex problem which has strongly convex function constraints, we develop a new accelerated primal-dual first-order method that obtains an $\Ocal(1/\sqrt{\vep})$ complexity bound, improving the $\Ocal(1/{\vep})$ result for the state-of-the-art first-order methods. The key ingredient to our development is some novel techniques to progressively estimate the strong convexity of the Lagrangian function, which enables adaptive step-size selection and faster convergence performance. In addition, we show that the complexity is further improvable in terms of the dependence on some problem parameter, via a restart scheme that calls the accelerated method repeatedly. As an application, we consider sparsity-inducing constrained optimization which has a separable convex objective and a strongly convex loss constraint. In addition to achieving fast convergence, we show that the restarted method can effectively identify the sparsity pattern (active-set) of the optimal solution in finite steps. To the best of our knowledge, this is the first active-set identification result for sparsity-inducing constrained optimization.
translated by 谷歌翻译
We initiate a formal study of reproducibility in optimization. We define a quantitative measure of reproducibility of optimization procedures in the face of noisy or error-prone operations such as inexact or stochastic gradient computations or inexact initialization. We then analyze several convex optimization settings of interest such as smooth, non-smooth, and strongly-convex objective functions and establish tight bounds on the limits of reproducibility in each setting. Our analysis reveals a fundamental trade-off between computation and reproducibility: more computation is necessary (and sufficient) for better reproducibility.
translated by 谷歌翻译
受到Mishchenko等人(2022)的最新突破的启发,他们首次表明局部梯度步骤可以导致可证明的通信加速,我们提出了一种替代算法,该算法获得了与他们的方法相同的通信加速度(Proxsskip)。但是,我们的方法非常不同:它基于Chambolle和Pock(2011)的著名方法,并具有多种不平凡的修改:i)我们允许通过适当的强烈凸出功能的代理操作员进行不精确的计算。基于梯度的方法(例如,GD,Fast GD或FSFOM),ii)我们对双重更新步骤进行仔细的修改,以保留线性收敛。我们的一般结果为强凸孔座鞍点问题提供了新的最先进率,其双线性耦合为特征,其特征是双重功能缺乏平滑度。当应用于联邦学习时,我们获得了Proxskip的理论上更好的替代方案:我们的方法需要更少的本地步骤($ O(\ kappa^{1/3})$或$ o(\ kappa^{1/4})$,与Proxskip的$ O(\ kappa^{1/2})$相比,并执行确定性的本地步骤。像Proxskip一样,我们的方法可以应用于连接网络的优化,我们在这里也获得了理论改进。
translated by 谷歌翻译
In this book chapter, we briefly describe the main components that constitute the gradient descent method and its accelerated and stochastic variants. We aim at explaining these components from a mathematical point of view, including theoretical and practical aspects, but at an elementary level. We will focus on basic variants of the gradient descent method and then extend our view to recent variants, especially variance-reduced stochastic gradient schemes (SGD). Our approach relies on revealing the structures presented inside the problem and the assumptions imposed on the objective function. Our convergence analysis unifies several known results and relies on a general, but elementary recursive expression. We have illustrated this analysis on several common schemes.
translated by 谷歌翻译
联合学习(FL)是机器学习的一个子领域,在该子机学习中,多个客户试图在通信约束下通过网络进行协作学习模型。我们考虑在二阶功能相似性条件和强凸度下联合优化的有限和联合优化,并提出了两种新算法:SVRP和催化的SVRP。这种二阶相似性条件最近越来越流行,并且在包括分布式统计学习和差异性经验风险最小化在内的许多应用中得到满足。第一种算法SVRP结合了近似随机点评估,客户采样和降低方差。我们表明,当功能相似性足够高时,SVRP是沟通有效的,并且在许多现有算法上取得了卓越的性能。我们的第二个算法,催化的SVRP,是SVRP的催化剂加速变体,在二阶相似性和强凸度下,现有的联合优化算法可实现更好的性能,并均匀地改善了现有的算法。在分析这些算法的过程中,我们提供了可能具有独立关注的随机近端方法(SPPM)的新分析。我们对SPPM的分析很简单,允许进行近似近端评估,不需要任何平滑度假设,并且在通信复杂性上比普通分布式随机梯度下降显示出明显的好处。
translated by 谷歌翻译
在许多机器学习应用程序中出现了非convex-concave min-max问题,包括最大程度地减少一组非凸函数的最大程度,并对神经网络的强大对抗训练。解决此问题的一种流行方法是梯度下降(GDA)算法,不幸的是,在非凸性的情况下可以表现出振荡。在本文中,我们引入了一种“平滑”方案,该方案可以与GDA结合以稳定振荡并确保收敛到固定溶液。我们证明,稳定的GDA算法可以实现$ O(1/\ epsilon^2)$迭代复杂性,以最大程度地减少有限的非convex函数收集的最大值。此外,平滑的GDA算法达到了$ O(1/\ epsilon^4)$ toseration复杂性,用于一般的nonconvex-concave问题。提出了这种稳定的GDA算法的扩展到多块情况。据我们所知,这是第一个实现$ o(1/\ epsilon^2)$的算法,用于一类NonConvex-Concave问题。我们说明了稳定的GDA算法在健壮训练中的实际效率。
translated by 谷歌翻译
现代统计应用常常涉及最小化可能是非流动和/或非凸起的目标函数。本文侧重于广泛的Bregman-替代算法框架,包括本地线性近似,镜像下降,迭代阈值,DC编程以及许多其他实例。通过广义BREGMAN功能的重新发出使我们能够构建合适的误差测量并在可能高维度下建立非凸起和非凸起和非球形目标的全球收敛速率。对于稀疏的学习问题,在一些规律性条件下,所获得的估算器作为代理人的固定点,尽管不一定是局部最小化者,但享受可明确的统计保障,并且可以证明迭代顺序在所需的情况下接近统计事实准确地快速。本文还研究了如何通过仔细控制步骤和放松参数来设计基于适应性的动力的加速度而不假设凸性或平滑度。
translated by 谷歌翻译
本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题,其目标是使具有变量的外目标函数最小化,该变量被限制为对(内部)优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况,而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似(TTSA)算法。在算法中,使用较大步长的随机梯度更新用于内部问题,而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率:当外部问题强烈凸起(RESP。〜弱凸)时,TTSA算法查找$ \ MATHCAL {O}(k ^ { - 2/3})$ -Optimal(resp。〜$ \ mathcal {o}(k ^ {-2/5})$ - 静止)解决方案,其中$ k $是总迭代号。作为一个应用程序,我们表明,两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是,与全球最优政策相比,自然演员批评算法显示以预期折扣奖励的差距,以$ \ mathcal {o}(k ^ { - 1/4})的速率收敛。
translated by 谷歌翻译
个性化联合学习(PFL)最近看到了巨大的进步,允许设计新颖的机器学习应用来保护培训数据的隐私。该领域的现有理论结果主要关注分布式优化以实现最小化问题。本文是第一个研究马鞍点问题的PFL(涵盖更广泛的优化问题),允许更丰富的应用程序,需要更多地解决最小化问题。在这项工作中,我们考虑最近提出的PFL设置与混合目标函数,一种方法将全球模型与当地分布式学习者相结合的方法。与最先前的工作不同,这仅考虑集中设置,我们在更一般和分散的设置中工作,允许我们设计和分析将设备连接到网络的更实用和联合的方法。我们提出了新的算法来解决这个问题,并在随机和确定性案例中提供平滑(强)凸起(强)凹凸点问题的理论分析。双线性问题的数值实验和对抗噪声的神经网络展示了所提出的方法的有效性。
translated by 谷歌翻译
加速的近端算法(APPA),也称为“催化剂”,是从凸优化到近似近端计算(即正则最小化)的确定还原。这种减少在概念上是优雅的,可以保证强大的收敛速度。但是,这些速率具有多余的对数项,因此需要计算每个近端点至高精度。在这项工作中,我们提出了一个新颖的放松误差标准,用于加速近端点(recapp),以消除对高精度子问题解决方案的需求。我们将recapp应用于两个规范问题:有限的和最大结构的最小化。对于有限和问题,我们匹配了以前通过精心设计的问题特异性算法获得的最著名的复杂性。为了最大程度地减少$ \ max_y f(x,y)$,其中$ f $以$ x $为$ x $,而在$ y $中强烈concave,我们改进了受对数因素限制的最著名的(基于催化剂)。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
广义自我符合是许多重要学习问题的目标功能中存在的关键属性。我们建立了一个简单的Frank-Wolfe变体的收敛速率,该变体使用开环步数策略$ \ gamma_t = 2/(t+2)$,获得了$ \ Mathcal {o}(1/t)$收敛率对于这类功能,就原始差距和弗兰克 - 沃尔夫差距而言,$ t $是迭代计数。这避免了使用二阶信息或估计以前工作的局部平滑度参数的需求。我们还显示了各种常见病例的收敛速率的提高,例如,当所考虑的可行区域均匀地凸或多面体时。
translated by 谷歌翻译
我们提供了新的基于梯度的方法,以便有效解决广泛的病态化优化问题。我们考虑最小化函数$ f:\ mathbb {r} ^ d \ lightarrow \ mathbb {r} $的问题,它是隐含的可分解的,作为$ m $未知的非交互方式的总和,强烈的凸起功能并提供方法这解决了这个问题,这些问题是缩放(最快的对数因子)作为组件的条件数量的平方根的乘积。这种复杂性绑定(我们证明几乎是最佳的)可以几乎指出的是加速梯度方法的几乎是指数的,这将作为$ F $的条件数量的平方根。此外,我们提供了求解该多尺度优化问题的随机异标变体的有效方法。而不是学习$ F $的分解(这将是过度昂贵的),而是我们的方法应用一个清洁递归“大步小步”交错标准方法。由此产生的算法使用$ \ tilde {\ mathcal {o}}(d m)$空间,在数字上稳定,并打开门以更细粒度的了解凸优化超出条件号的复杂性。
translated by 谷歌翻译
我们提出了随机方差降低算法,以求解凸 - 凸座鞍点问题,单调变异不平等和单调夹杂物。我们的框架适用于Euclidean和Bregman设置中的外部,前向前后和前反向回复的方法。所有提出的方法都在与确定性的对应物相同的环境中收敛,并且它们要么匹配或改善了解决结构化的最低最大问题的最著名复杂性。我们的结果加强了变异不平等和最小化之间的差异之间的对应关系。我们还通过对矩阵游戏的数值评估来说明方法的改进。
translated by 谷歌翻译
在这项工作中,我们旨在研究用于凸出的凸侧鞍点问题(SPP)的原始偶(PD)方法。在许多情况下,仅原始函数上近端甲骨文的计算效率低下。因此,我们在近端步骤中使用其一阶线性近似,从而导致线性化PD(LPD)方法。即使耦合项为双线性,我们也会观察到LPD对原始功能的Lipschitz常数具有次优的依赖性。相比之下,LPD对于强凸凹形病例具有最佳的收敛性。该观察结果导致我们提出了加速的线性化原始偶(ALPD)算法,以求解强烈的凸面spp。 ALPD是一种单环算法,结合了Nesterov加速梯度下降(AGD)和LPD的特征。我们表明,当耦合项为半线性(包含双线性作为特定情况)时,ALPD获得了对原始功能的Lipschitz常数的最佳依赖性。因此,它是一种最佳算法。当耦合项具有一般的非线性形式时,ALPD算法对耦合项原始部分的Lipschitz常数具有次优依赖性。为了提高这种依赖性,我们提出了一种不精确的APD算法。该算法在内部循环中执行AGD迭代,以找到对APD近端子问题的近似解决方案。我们表明,不精确的APD保持了问题的原始和双重部分的最佳梯度评​​估(梯度复杂性)。它还显着改善了原始耦合项的梯度复杂性。
translated by 谷歌翻译
我们开发了一种使用无遗憾的游戏动态解决凸面优化问题的算法框架。通过转换最小化凸起函数以顺序方式解决Min-Max游戏的辅助问题的问题,我们可以考虑一系列必须在另一个之后选择其行动的两名员工的一系列策略。这些策略的常见选择是所谓的无悔的学习算法,我们描述了许多此类并证明了遗憾。然后,我们表明许多凸面优化的经典一阶方法 - 包括平均迭代梯度下降,弗兰克 - 沃尔夫算法,重球算法和Nesterov的加速方法 - 可以被解释为我们框架的特殊情况由于每个玩家都做出正确选择无悔的策略。证明该框架中的收敛速率变得非常简单,因为它们遵循适当已知的遗憾范围。我们的框架还引发了一些凸优化的特殊情况的许多新的一阶方法。
translated by 谷歌翻译
在本文中,我们首先提出了一种新的操作员外推(OE)方法,用于解决确定性变异不平等(VI)问题。类似于梯度(操作员)投影方法,OE通过在每次迭代中求解一个投影子问题来更新一个搜索序列。我们表明,OE可以以比现有方法更简单地解决各种VI问题的最佳收敛速率。然后,我们介绍随机操作员外推(SOE)方法,并建立其最佳收敛行为以解决不同的随机VI问题。特别是,SOE在文献中首次实现了解决基本问题的最佳复杂性,即,即随机平滑且强烈单调VI。我们还提出了一种随机块操作员外推(SBOE)方法,以进一步降低应用于具有一定块结构的大规模确定性VIS的OE方法的迭代成本。已经进行了数值实验,以证明所提出算法的潜在优势。实际上,所有这些算法都用于求解概括的单调变异不平等(GMVI)问题,其操作员不一定是单调的。我们还将在同伴论文中讨论基于OE的最佳政策评估方法。
translated by 谷歌翻译