我们介绍了螺旋(一种超线性收敛的增量近端算法),用于在相对平滑度假设下求解非凸的正则有限总和问题。本着Svrg和Sarah的精神,螺旋的每一个迭代都由一个内部和外循环组成。它将增量和完整(近端)梯度更新与LineSearch相结合。结果表明,在使用准牛顿方向时,在极限点的轻度假设下达到了超线性收敛。更重要的是,多亏了该线路搜索,确保全球融合得以确保最终将始终接受单位步骤。在不同的凸,非凸和非lipschitz可区分问题上的仿真结果表明,我们的算法以及其自适应变体都与最新的状态竞争。
translated by 谷歌翻译
我们研究了具有有限和结构的平滑非凸化优化问题的随机重新洗脱(RR)方法。虽然该方法在诸如神经网络的训练之类的实践中广泛利用,但其会聚行为仅在几个有限的环境中被理解。在本文中,在众所周知的Kurdyka-LojasiewiCz(KL)不等式下,我们建立了具有适当递减步长尺寸的RR的强极限点收敛结果,即,RR产生的整个迭代序列是会聚并会聚到单个静止点几乎肯定的感觉。 In addition, we derive the corresponding rate of convergence, depending on the KL exponent and the suitably selected diminishing step sizes.当KL指数在$ [0,\ FRAC12] $以$ [0,\ FRAC12] $时,收敛率以$ \ mathcal {o}(t ^ { - 1})$的速率计算,以$ t $ counting迭代号。当KL指数属于$(\ FRAC12,1)$时,我们的派生收敛速率是FORM $ \ MATHCAL {O}(T ^ { - Q})$,$ Q \ IN(0,1)$取决于在KL指数上。基于标准的KL不等式的收敛分析框架仅适用于具有某种阶段性的算法。我们对基于KL不等式的步长尺寸减少的非下降RR方法进行了新的收敛性分析,这概括了标准KL框架。我们总结了我们在非正式分析框架中的主要步骤和核心思想,这些框架是独立的兴趣。作为本框架的直接应用,我们还建立了类似的强极限点收敛结果,为重组的近端点法。
translated by 谷歌翻译
In this book chapter, we briefly describe the main components that constitute the gradient descent method and its accelerated and stochastic variants. We aim at explaining these components from a mathematical point of view, including theoretical and practical aspects, but at an elementary level. We will focus on basic variants of the gradient descent method and then extend our view to recent variants, especially variance-reduced stochastic gradient schemes (SGD). Our approach relies on revealing the structures presented inside the problem and the assumptions imposed on the objective function. Our convergence analysis unifies several known results and relies on a general, but elementary recursive expression. We have illustrated this analysis on several common schemes.
translated by 谷歌翻译
本文认为具有非线性耦合约束的多块非斜率非凸优化问题。通过开发使用信息区和提出的自适应制度的想法[J.Bolte,S。Sabach和M. Teboulle,NonConvex Lagrangian优化:监视方案和全球收敛性,运营研究数学,43:1210--1232,2018],我们提出了一种多键交替方向来解决此问题的多块交替方向方法。我们通过在每个块更新中采用大量最小化过程来指定原始变量的更新。进行了独立的收敛分析,以证明生成的序列与增强Lagrangian的临界点的随后和全局收敛。我们还建立了迭代复杂性,并为所提出的算法提供初步的数值结果。
translated by 谷歌翻译
现代统计应用常常涉及最小化可能是非流动和/或非凸起的目标函数。本文侧重于广泛的Bregman-替代算法框架,包括本地线性近似,镜像下降,迭代阈值,DC编程以及许多其他实例。通过广义BREGMAN功能的重新发出使我们能够构建合适的误差测量并在可能高维度下建立非凸起和非凸起和非球形目标的全球收敛速率。对于稀疏的学习问题,在一些规律性条件下,所获得的估算器作为代理人的固定点,尽管不一定是局部最小化者,但享受可明确的统计保障,并且可以证明迭代顺序在所需的情况下接近统计事实准确地快速。本文还研究了如何通过仔细控制步骤和放松参数来设计基于适应性的动力的加速度而不假设凸性或平滑度。
translated by 谷歌翻译
非滑动优化在许多工程领域中找到了广泛的应用程序。在这项工作中,我们建议利用{随机坐标亚级别方法}(RCS)来求解非平滑凸凸和非平滑凸(非平滑弱弱凸)优化问题。在每次迭代中,RCS随机选择一个块坐标,而不是所有要更新的坐标。由实用应用激发,我们考虑了目标函数的{线性界限亚级别假设},这比Lipschitz的连续性假设要笼统得多。在这样的一般假设下,我们在凸和非凸病例中对RCS进行了彻底的收敛分析,并建立了预期的收敛速率和几乎确定的渐近收敛结果。为了得出这些收敛结果,我们建立了收敛的引理以及弱凸功能的全局度量超值属性与其莫罗膜的关系,它们是基本的和独立的利益。最后,我们进行了几项实验,以显示RC的优势比亚级别方法的优势。
translated by 谷歌翻译
在本文中,我们介绍了泰坦(Titan),这是一种新型的惯性块最小化框架,用于非平滑非凸优化问题。据我们所知,泰坦是块坐标更新方法的第一个框架,该方法依赖于大型最小化框架,同时将惯性力嵌入到块更新的每个步骤中。惯性力是通过外推算子获得的,该操作员累积了重力和Nesterov型加速度,以作为特殊情况作为块近端梯度方法。通过选择各种替代功能,例如近端,Lipschitz梯度,布雷格曼,二次和复合替代功能,并通过改变外推操作员来生成一组丰富的惯性块坐标坐标更新方法。我们研究了泰坦生成序列的子顺序收敛以及全局收敛。我们说明了泰坦对两个重要的机器学习问题的有效性,即稀疏的非负矩阵分解和矩阵完成。
translated by 谷歌翻译
在本文中,我们提出了一个算法框架,称为乘数的惯性交替方向方法(IADMM),用于求解与线性约束线性约束的一类非convex非conmooth多块复合优化问题。我们的框架采用了一般最小化 - 更大化(MM)原理来更新每个变量块,从而不仅统一了先前在MM步骤中使用特定替代功能的AMDM的收敛分析,还导致新的有效ADMM方案。据我们所知,在非convex非平滑设置中,ADMM与MM原理结合使用,以更新每个变量块,而ADMM与\ emph {Primal变量的惯性术语结合在一起}尚未在文献中研究。在标准假设下,我们证明了生成的迭代序列的后续收敛和全局收敛性。我们说明了IADMM对一类非凸低级别表示问题的有效性。
translated by 谷歌翻译
我们提出了随机方差降低算法,以求解凸 - 凸座鞍点问题,单调变异不平等和单调夹杂物。我们的框架适用于Euclidean和Bregman设置中的外部,前向前后和前反向回复的方法。所有提出的方法都在与确定性的对应物相同的环境中收敛,并且它们要么匹配或改善了解决结构化的最低最大问题的最著名复杂性。我们的结果加强了变异不平等和最小化之间的差异之间的对应关系。我们还通过对矩阵游戏的数值评估来说明方法的改进。
translated by 谷歌翻译
我们提出了一个基于预测校正范式的统一框架,用于在原始和双空间中的预测校正范式。在此框架中,以固定的间隔进行了连续变化的优化问题,并且每个问题都通过原始或双重校正步骤近似解决。通过预测步骤的输出,该解决方案方法是温暖启动的,该步骤的输出可以使用过去的信息解决未来问题的近似。在不同的假设集中研究并比较了预测方法。该框架涵盖的算法的示例是梯度方法的时变版本,分裂方法和著名的乘数交替方向方法(ADMM)。
translated by 谷歌翻译
We consider minimizing the average of a very large number of smooth and possibly non-convex functions. This optimization problem has deserved much attention in the past years due to the many applications in different fields, the most challenging being training Machine Learning models. Widely used approaches for solving this problem are mini-batch gradient methods which, at each iteration, update the decision vector moving along the gradient of a mini-batch of the component functions. We consider the Incremental Gradient (IG) and the Random reshuffling (RR) methods which proceed in cycles, picking batches in a fixed order or by reshuffling the order after each epoch. Convergence properties of these schemes have been proved under different assumptions, usually quite strong. We aim to define ease-controlled modifications of the IG/RR schemes, which require a light additional computational effort and can be proved to converge under very weak and standard assumptions. In particular, we define two algorithmic schemes, monotone or non-monotone, in which the IG/RR iteration is controlled by using a watchdog rule and a derivative-free line search that activates only sporadically to guarantee convergence. The two schemes also allow controlling the updating of the stepsize used in the main IG/RR iteration, avoiding the use of preset rules. We prove convergence under the lonely assumption of Lipschitz continuity of the gradients of the component functions and perform extensive computational analysis using Deep Neural Architectures and a benchmark of datasets. We compare our implementation with both full batch gradient methods and online standard implementation of IG/RR methods, proving that the computational effort is comparable with the corresponding online methods and that the control on the learning rate may allow faster decrease.
translated by 谷歌翻译
交替的梯度 - 下降 - 上升(Altgda)是一种优化算法,已广泛用于各种机器学习应用中的模型培训,其旨在解决非渗透最小新的优化问题。然而,现有的研究表明,它遭受了非凸起最小值优化中的高计算复杂性。在本文中,我们开发了一种单环和快速Altgda型算法,利用了近端渐变更新和动量加速来解决正常的非透露极限优化问题。通过识别该算法的内在Lyapunov函数,我们证明它会收敛到非凸起最小化优化问题的临界点,并实现了计算复杂度$ \ mathcal {o}(\ kappa ^ {1.5} \ epsilon ^ { - 2} )$,其中$ \ epsilon $是理想的准确度,$ \ kappa $是问题的条件号。这种计算复杂性改善了单环GDA和AltGDA算法的最先进的复杂性(参见表1中的比较摘要)。我们通过对对抗深层学习的实验展示了算法的有效性。
translated by 谷歌翻译
几十年前,近端点算法(PPA)规定为抽象操作员理论和数值优化社区获得持久的吸引力。即使在现代应用中,研究人员仍然使用近端最小化理论来设计克服非现状的可扩展算法。卓越的作品作为\ Cite {FER:91,BER:82Constrom,BER:89,汤姆:11}在PPA的收敛行为与客观函数的规律之间建立了紧张关系。在本手稿中,我们得出了精确和不精确的PPA的非因素迭代复杂性,以最小化$ \ gamma-$持有人的增长:$ \ bigo {\ log(1 / \ epsilon)} $(在[1中, 2] $)和$ \ bigo {1 / \ epsilon ^ {\ gamma - 2}} $(适用于$ \ gamma> 2 $)。特别是,即使在不精确的情况下,我们恢复了PPA的众所周知的结果:有限的收敛性,用于急剧增长,即使是在不精确的情况下的二次生长。但是,在不考虑到计算每个PPA迭代的具体计算工作,任何迭代复杂性都仍然摘要和纯粹的信息。因此,使用计算不精确PPA迭代的内部(近端)梯度/子射频方法子程序,其次地显示了在重启的不精确PPA上的新颖的计算复杂性界限,当没有已知有关于目标函数的增长的信息时可用。在数值实验中,我们确认了我们框架的实际表现和可实现性。
translated by 谷歌翻译
随机多变最小化 - 最小化(SMM)是大多数变化最小化的经典原则的在线延伸,这包括采样I.I.D。来自固定数据分布的数据点,并最小化递归定义的主函数的主要替代。在本文中,我们引入了随机块大大化 - 最小化,其中替代品现在只能块多凸,在半径递减内的时间优化单个块。在SMM中的代理人放松标准的强大凸起要求,我们的框架在内提供了更广泛的适用性,包括在线CANDECOMP / PARAFAC(CP)字典学习,并且尤其是当问题尺寸大时产生更大的计算效率。我们对所提出的算法提供广泛的收敛性分析,我们在可能的数据流下派生,放松标准i.i.d。对数据样本的假设。我们表明,所提出的算法几乎肯定会收敛于速率$ O((\ log n)^ {1+ \ eps} / n ^ {1/2})$的约束下的非凸起物镜的静止点集合。实证丢失函数和$ O((\ log n)^ {1+ \ eps} / n ^ {1/4})$的预期丢失函数,其中$ n $表示处理的数据样本数。在一些额外的假设下,后一趋同率可以提高到$ o((\ log n)^ {1+ \ eps} / n ^ {1/2})$。我们的结果为一般马尔维亚数据设置提供了各种在线矩阵和张量分解算法的第一融合率界限。
translated by 谷歌翻译
本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题,其目标是使具有变量的外目标函数最小化,该变量被限制为对(内部)优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况,而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似(TTSA)算法。在算法中,使用较大步长的随机梯度更新用于内部问题,而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率:当外部问题强烈凸起(RESP。〜弱凸)时,TTSA算法查找$ \ MATHCAL {O}(k ^ { - 2/3})$ -Optimal(resp。〜$ \ mathcal {o}(k ^ {-2/5})$ - 静止)解决方案,其中$ k $是总迭代号。作为一个应用程序,我们表明,两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是,与全球最优政策相比,自然演员批评算法显示以预期折扣奖励的差距,以$ \ mathcal {o}(k ^ { - 1/4})的速率收敛。
translated by 谷歌翻译
本文提出了一种针对分布式凸复合优化问题的新型双重不精确拆分算法(DISA),其中本地损耗函数由$ L $ -SMOOTH的项组成,可能是由线性操作员组成的非平滑项。我们证明,当原始和双重尺寸$ \ tau $,$ \ beta $满足$ 0 <\ tau <{2}/{l} $和$ 0 <\ tau \ beta <1 $时,我们证明了DISA是收敛的。与现有的原始双侧近端分裂算法(PD-PSA)相比,DISA克服了收敛步骤范围对线性操作员欧几里得范围的依赖性。这意味着当欧几里得规范大时,DISA允许更大的步骤尺寸,从而确保其快速收敛。此外,我们分别在一般凸度和度量次级性下分别建立了disa的均值和线性收敛速率。此外,还提供了DISA的近似迭代版本,并证明了该近似版本的全局收敛性和sublinear收敛速率。最后,数值实验不仅证实了理论分析,而且还表明,与现有的PD-PSA相比,DISA达到了显着的加速度。
translated by 谷歌翻译
重建 /特征提取的联合问题是图像处理中的一项具有挑战性的任务。它包括以联合方式执行图像的恢复及其特征的提取。在这项工作中,我们首先提出了一个新颖的非平滑和非凸变性表述。为此,我们介绍了一种通用的高斯先验,其参数(包括其指数)是空间变化的。其次,我们设计了一种基于近端的交替优化算法,该算法有效利用了所提出的非convex目标函数的结构。我们还分析了该算法的收敛性。如在关节分割/脱张任务进行的数值实验中所示,该方法提供了高质量的结果。
translated by 谷歌翻译
We consider the constrained sampling problem where the goal is to sample from a distribution $\pi(x)\propto e^{-f(x)}$ and $x$ is constrained on a convex body $\mathcal{C}\subset \mathbb{R}^d$. Motivated by penalty methods from optimization, we propose penalized Langevin Dynamics (PLD) and penalized Hamiltonian Monte Carlo (PHMC) that convert the constrained sampling problem into an unconstrained one by introducing a penalty function for constraint violations. When $f$ is smooth and the gradient is available, we show $\tilde{\mathcal{O}}(d/\varepsilon^{10})$ iteration complexity for PLD to sample the target up to an $\varepsilon$-error where the error is measured in terms of the total variation distance and $\tilde{\mathcal{O}}(\cdot)$ hides some logarithmic factors. For PHMC, we improve this result to $\tilde{\mathcal{O}}(\sqrt{d}/\varepsilon^{7})$ when the Hessian of $f$ is Lipschitz and the boundary of $\mathcal{C}$ is sufficiently smooth. To our knowledge, these are the first convergence rate results for Hamiltonian Monte Carlo methods in the constrained sampling setting that can handle non-convex $f$ and can provide guarantees with the best dimension dependency among existing methods with deterministic gradients. We then consider the setting where unbiased stochastic gradients are available. We propose PSGLD and PSGHMC that can handle stochastic gradients without Metropolis-Hasting correction steps. When $f$ is strongly convex and smooth, we obtain an iteration complexity of $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ and $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39})$ respectively in the 2-Wasserstein distance. For the more general case, when $f$ is smooth and non-convex, we also provide finite-time performance bounds and iteration complexity results. Finally, we test our algorithms on Bayesian LASSO regression and Bayesian constrained deep learning problems.
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
Federated learning has shown its advances recently but is still facing many challenges, such as how algorithms save communication resources and reduce computational costs, and whether they converge. To address these critical issues, we propose a hybrid federated learning algorithm (FedGiA) that combines the gradient descent and the inexact alternating direction method of multipliers. The proposed algorithm is more communication- and computation-efficient than several state-of-the-art algorithms theoretically and numerically. Moreover, it also converges globally under mild conditions.
translated by 谷歌翻译