计算优化问题解决方案解决方案的雅各布是机器学习中的一个核心问题,其应用程序在超参数优化,元学习,优化为层和数据集蒸馏中的应用程序,仅举几例。展开的分化是一种流行的启发式方法,它使用迭代求解器近似溶液,并通过计算路径区分它。这项工作提供了对梯度下降和Chebyshev方法的二次目标的这种方法的非反应收敛速率分析。我们表明,为了确保雅各布的融合,我们可以1)选择较大的学习率,导致快速渐近地收敛,但接受该算法可能具有任意长的燃烧阶段或2)选择较小的学习率直接但较慢的收敛性。我们将这种现象称为展开的诅咒。最后,我们讨论了相对于这种方法的开放问题,例如为最佳展开策略得出实用的更新规则,并与Sobolev正交多项式领域建立了新的联系。
translated by 谷歌翻译
我们开发了一个框架,用于随机二次问题的平均分析和衍生算法在此分析下最佳。这产生了一类实现加速的新方法,给出了Hessian的特征值分布的模型。我们为统一,Marchenko-Pastur和指数分布开发显式算法。这些方法是基于势头的算法,其超参数可以估计,而无需了解Hessian的最小奇异值,相反,与Nesterov加速和Polyak动量等经典加速方法相比。通过对二次和逻辑回归问题的经验基准,我们确定了所提出的方法改善古典(最坏情况)加速方法的制度。
translated by 谷歌翻译
最近开发的优化方法的平均案例分析可以比通常的最坏情况结果进行更细粒度和代表性的收敛分析。作为交换,该分析需要对数据生成过程的更精确的假设,即假定与问题相关的随机矩阵的预期光谱分布(ESD)的知识。这项工作表明,ESD边缘附近的特征值的浓度决定了问题的渐近平均复杂性。与ESD的完整知识相比,有关此浓度的先验信息是一个更扎实的假设。这种近似浓度实际上是最严重的场景收敛的粗糙性与限制性的先前平均案例分析之间的中间立场。我们还引入了广义的Chebyshev方法,该方法在该浓度的假设下渐近最佳,当ESD遵循β分布时,全球最佳。我们将其性能与经典优化算法(例如梯度下降或Nesterov的方案)进行了比较,我们表明,在平均情况下,Nesterov的方法在渐近差异上几乎是最佳的。
translated by 谷歌翻译
The extragradient method has recently gained increasing attention, due to its convergence behavior on smooth games. In $n$-player differentiable games, the eigenvalues of the Jacobian of the vector field are distributed on the complex plane, exhibiting more convoluted dynamics compared to classical (i.e., single player) minimization. In this work, we take a polynomial-based analysis of the extragradient with momentum for optimizing games with \emph{cross-shaped} Jacobian spectrum on the complex plane. We show two results. First, based on the hyperparameter setup, the extragradient with momentum exhibits three different modes of convergence: when the eigenvalues are distributed $i)$ on the real line, $ii)$ both on the real line along with complex conjugates, and $iii)$ only as complex conjugates. Then, we focus on the case $ii)$, i.e., when the eigenvalues of the Jacobian have \emph{cross-shaped} structure, as observed in training generative adversarial networks. For this problem class, we derive the optimal hyperparameters of the momentum extragradient method, and show that it achieves an accelerated convergence rate.
translated by 谷歌翻译
Bilevel优化是在机器学习的许多领域中最小化涉及另一个功能的价值函数的问题。在大规模的经验风险最小化设置中,样品数量很大,开发随机方法至关重要,而随机方法只能一次使用一些样品进行进展。但是,计算值函数的梯度涉及求解线性系统,这使得很难得出无偏的随机估计。为了克服这个问题,我们引入了一个新颖的框架,其中内部问题的解决方案,线性系统的解和主要变量同时发展。这些方向是作为总和写成的,使其直接得出无偏估计。我们方法的简单性使我们能够开发全球差异算法,其中所有变量的动力学都会降低差异。我们证明,萨巴(Saba)是我们框架中著名的传奇算法的改编,具有$ o(\ frac1t)$收敛速度,并且在polyak-lojasciewicz的假设下实现了线性收敛。这是验证这些属性之一的双光线优化的第一种随机算法。数值实验验证了我们方法的实用性。
translated by 谷歌翻译
我们提出了一种新颖的随机弗兰克 - 沃尔夫(又名条件梯度)算法,用于使用广义的线性预测/结构进行约束的平滑有限和最小化。这类问题包括稀疏,低级别或其他结构化约束的经验风险最小化。提出的方法易于实现,不需要阶梯尺寸调整,并且具有独立于数据集大小的恒定触电成本。此外,作为该方法的副产品,我们获得了Frank-Wolfe间隙的随机估计器,可以用作停止标准。根据设置,提出的方法匹配或改进了随机Frank-Wolfe算法的最佳计算保证。几个数据集上的基准强调了不同的策略,其中所提出的方法比相关方法表现出更快的经验收敛性。最后,我们在开源软件包中提供了所有考虑的方法的实现。
translated by 谷歌翻译
简单的随机动量方法被广泛用于机器学习优化,但它们的良好实践表现与文献中没有理论保证的理论保证相矛盾。在这项工作中,我们的目标是通过表明随机重球动量来弥合理论和实践之间的差距,该动力可以解释为具有动量的随机kaczmarz算法,保留了二次优化问题(确定性)重球动量的快速线性速率,至少在使用足够大的批次大小的小型匹配时。该分析依赖于仔细分解动量过渡矩阵,并使用新的光谱范围浓度界限来进行独立随机矩阵的产物。我们提供数值实验,以证明我们的边界相当锐利。
translated by 谷歌翻译
我们提供了新的基于梯度的方法,以便有效解决广泛的病态化优化问题。我们考虑最小化函数$ f:\ mathbb {r} ^ d \ lightarrow \ mathbb {r} $的问题,它是隐含的可分解的,作为$ m $未知的非交互方式的总和,强烈的凸起功能并提供方法这解决了这个问题,这些问题是缩放(最快的对数因子)作为组件的条件数量的平方根的乘积。这种复杂性绑定(我们证明几乎是最佳的)可以几乎指出的是加速梯度方法的几乎是指数的,这将作为$ F $的条件数量的平方根。此外,我们提供了求解该多尺度优化问题的随机异标变体的有效方法。而不是学习$ F $的分解(这将是过度昂贵的),而是我们的方法应用一个清洁递归“大步小步”交错标准方法。由此产生的算法使用$ \ tilde {\ mathcal {o}}(d m)$空间,在数字上稳定,并打开门以更细粒度的了解凸优化超出条件号的复杂性。
translated by 谷歌翻译
我们考虑由一般随机序列驱动的随机梯度下降(SGD)算法,包括I.I.D噪声和随机行走,在任意图上等等;并以渐近意义进行分析。具体而言,我们采用了“效率排序”的概念,这是一种分析的工具,用于比较马尔可夫链蒙特卡洛(MCMC)采样器的性能,以sgd算法的形式以与量表矩阵相关的loewner订购形式长期。使用此顺序,我们表明对MCMC采样更有效的输入序列也导致限制中SGD算法的误差的较小协方差。这也表明,当受到更有效的链驱动时,任意加权的SGD迭代的MSE迭代会变小。我们的发现在分散的优化和群学习等应用程序中特别感兴趣,其中SGD是在基础通信图上以随机步行方式实施的,以解决成本问题和/或数据隐私。我们证明了某些非马克维亚过程如何在基于典型的混合时间的非轴突界限上是棘手的,在SGD的效率订购意义上,可以超越其马尔可夫对应物。我们通过将其应用于梯度下降,并以洗牌和小批量梯度下降将其应用于梯度下降,从而显示了我们的方法的实用性,从而在统一框架下重申了现有文献的关键结果。从经验上讲,我们还观察到SGD的变体(例如加速SGD和Adam)的效率排序,开辟了将我们的效率订购概念扩展到更广泛的随机优化算法的可能性。
translated by 谷歌翻译
本文评价用机器学习问题的数值优化方法。由于机器学习模型是高度参数化的,我们专注于适合高维优化的方法。我们在二次模型上构建直觉,以确定哪种方法适用于非凸优化,并在凸函数上开发用于这种方法的凸起函数。随着随机梯度下降和动量方法的这种理论基础,我们试图解释为什么机器学习领域通常使用的方法非常成功。除了解释成功的启发式之外,最后一章还提供了对更多理论方法的广泛审查,这在实践中并不像惯例。所以在某些情况下,这项工作试图回答这个问题:为什么默认值中包含的默认TensorFlow优化器?
translated by 谷歌翻译
从数据中学习的方法取决于各种类型的调整参数,例如惩罚强度或步长大小。由于性能可以在很大程度上取决于这些参数,因此重要的是要比较估算器的类别 - 考虑规定的有限调谐参数集,而不是特别调谐的方法。在这项工作中,我们通过同类中最佳方法的相对性能研究方法类。我们考虑了线性回归的中心问题,即随机的各向同性地面真理,并研究了两种基本方法的估计性能,即梯度下降和脊回归。我们公布以下现象。 (1)对于一般设计,当经验数据协方差矩阵衰减的特征值缓慢,作为指数较不小于统一的功率定律时,恒定的梯度下降优于山脊回归。相反,如果特征值迅速衰减,则作为指数大于统一或指数的权力定律,我们表明山脊回归优于梯度下降。 (2)对于正交设计,我们计算了确切的最小值最佳估计器类别(达到最低最大最大最佳),这表明它等同于具有衰减学习率的梯度下降。我们发现山脊回归和梯度下降的次数均具有恒定的步长。我们的结果表明,统计性能可以在很大程度上取决于调整参数。特别是,虽然最佳调谐脊回归是我们设置中的最佳估计器,但当仅在有限的许多正则化参数上调整两种方法时,它可以用任意/无界数量的梯度下降来表现优于梯度下降。
translated by 谷歌翻译
在本文中,我们研究并证明了拟牛顿算法的Broyden阶级的非渐近超线性收敛速率,包括Davidon - Fletcher - Powell(DFP)方法和泡沫 - 弗莱彻 - 夏诺(BFGS)方法。这些准牛顿方法的渐近超线性收敛率在文献中已经广泛研究,但它们明确的有限时间局部会聚率未得到充分调查。在本文中,我们为Broyden Quasi-Newton算法提供了有限时间(非渐近的)收敛分析,在目标函数强烈凸起的假设下,其梯度是Lipschitz连续的,并且其Hessian在最佳解决方案中连续连续。我们表明,在最佳解决方案的本地附近,DFP和BFGS生成的迭代以$(1 / k)^ {k / 2} $的超连线率收敛到最佳解决方案,其中$ k $是迭代次数。我们还证明了类似的本地超连线收敛结果,因为目标函数是自我协调的情况。几个数据集的数值实验证实了我们显式的收敛速度界限。我们的理论保证是第一个为准牛顿方法提供非渐近超线性收敛速率的效果之一。
translated by 谷歌翻译
最近,在学习没有更换SGD的收敛率的情况下,有很多兴趣,并证明它在最坏情况下比更换SGD更快。然而,已知的下限忽略了问题的几何形状,包括其条件号,而上限明确取决于它。也许令人惊讶的是,我们证明,当考虑条件号时,没有替换SGD \ EMPH {没有}在最坏情况下,除非是时期的数量(通过数据来说)大于条件号。由于机器学习和其他领域的许多问题都没有条件并涉及大型数据集,这表明没有替换不一定改善用于现实迭代预算的更换采样。我们通过提供具有紧密(最多日志因子)的新下限和上限来展示这一点,用于致通二次术语的二次问题,精确地量化了对问题参数的依赖性。
translated by 谷歌翻译
用于解决无约束光滑游戏的两个最突出的算法是经典随机梯度下降 - 上升(SGDA)和最近引入的随机共识优化(SCO)[Mescheder等,2017]。已知SGDA可以收敛到特定类别的游戏的静止点,但是当前的收敛分析需要有界方差假设。 SCO用于解决大规模对抗问题,但其收敛保证仅限于其确定性变体。在这项工作中,我们介绍了预期的共同胁迫条件,解释了它的好处,并在这种情况下提供了SGDA和SCO的第一次迭代收敛保证,以解决可能是非单调的一类随机变分不等式问题。我们将两种方法的线性会聚到解决方案的邻域时,当它们使用恒定的步长时,我们提出了富有识别的步骤化切换规则,以保证对确切解决方案的融合。此外,我们的收敛保证在任意抽样范式下担保,因此,我们对迷你匹配的复杂性进行了解。
translated by 谷歌翻译
我们认为随机梯度下降及其在繁殖内核希尔伯特空间中二进制分类问题的平均变体。在使用损失函数的一致性属性的传统分析中,众所周知,即使在条件标签概率上假设低噪声状态时,预期的分类误差也比预期风险更慢。因此,最终的速率为sublinear。因此,重要的是要考虑是否可以实现预期分类误差的更快收敛。在最近的研究中,随机梯度下降的指数收敛速率在强烈的低噪声条件下显示,但前提是理论分析仅限于平方损耗函数,这对于二元分类任务来说是不足的。在本文中,我们在随机梯度下降的最后阶段中显示了预期分类误差的指数收敛性,用于在相似的假设下进行一类宽类可区分的凸损失函数。至于平均的随机梯度下降,我们表明相同的收敛速率来自训练的早期阶段。在实验中,我们验证了对$ L_2 $调查的逻辑回归的分析。
translated by 谷歌翻译
许多现代机器学习算法,例如生成的对抗网络(GANS)和对抗性培训可以制定为最低限度优化。梯度下降上升(GDA)是由于其简单性导致的最常用的算法。但是,GDA可以收敛到非最佳Minimax点。我们提出了一个新的最低限度优化框架GDA-AM,将GDadynamics视为固定点迭代,并使用Anderson混合来解决局部imemax。它解决了同时GDA的发散问题加速了交替GDA的收敛性。我们从理论上显示了该算法可以在温和条件下实现Bilinear问题的全局收敛性。我们还经验证明GDA-AMSOLVES各种极少问题,并改善了几个数据集的GaN训练
translated by 谷歌翻译
Recently, there has been great interest in connections between continuous-time dynamical systems and optimization algorithms, notably in the context of accelerated methods for smooth and unconstrained problems. In this paper we extend this perspective to nonsmooth and constrained problems by obtaining differential inclusions associated to novel accelerated variants of the alternating direction method of multipliers (ADMM). Through a Lyapunov analysis, we derive rates of convergence for these dynamical systems in different settings that illustrate an interesting tradeoff between decaying versus constant damping strategies. We also obtain perturbed equations capturing fine-grained details of these methods, which have improved stability and preserve the leading order convergence rates.
translated by 谷歌翻译
随机梯度下降血液(SGDM)是许多优化方案中的主要算法,包括凸优化实例和非凸神经网络训练。然而,在随机设置中,动量会干扰梯度噪声,通常导致特定的台阶尺寸和动量选择,以便保证收敛,留出加速。另一方面,近端点方法由于其数值稳定性和针对不完美调谐的弹性而产生了很多关注。他们随机加速的变体虽然已接受有限的注意:动量与(随机)近端点的稳定性相互作用仍然在很大程度上是不孤立的。为了解决这个问题,我们专注于随机近端点算法的动量(SPPAM)的收敛性和稳定性,并显示SPPAM与随机近端点算法(SPPA)相比具有更好的收缩因子的更快的线性收敛速度,如适当的HyperParameter调整。在稳定性方面,我们表明SPPAM取决于问题常数比SGDM更有利,允许更广泛的步长和导致收敛的动量。
translated by 谷歌翻译
We study the smooth minimax optimization problem $\min_{\bf x}\max_{\bf y} f({\bf x},{\bf y})$, where $f$ is $\ell$-smooth, strongly-concave in ${\bf y}$ but possibly nonconvex in ${\bf x}$. Most of existing works focus on finding the first-order stationary points of the function $f({\bf x},{\bf y})$ or its primal function $P({\bf x})\triangleq \max_{\bf y} f({\bf x},{\bf y})$, but few of them focus on achieving second-order stationary points. In this paper, we propose a novel approach for minimax optimization, called Minimax Cubic Newton (MCN), which could find an $\big(\varepsilon,\kappa^{1.5}\sqrt{\rho\varepsilon}\,\big)$-second-order stationary point of $P({\bf x})$ with calling ${\mathcal O}\big(\kappa^{1.5}\sqrt{\rho}\varepsilon^{-1.5}\big)$ times of second-order oracles and $\tilde{\mathcal O}\big(\kappa^{2}\sqrt{\rho}\varepsilon^{-1.5}\big)$ times of first-order oracles, where $\kappa$ is the condition number and $\rho$ is the Lipschitz continuous constant for the Hessian of $f({\bf x},{\bf y})$. In addition, we propose an inexact variant of MCN for high-dimensional problems to avoid calling expensive second-order oracles. Instead, our method solves the cubic sub-problem inexactly via gradient descent and matrix Chebyshev expansion. This strategy still obtains the desired approximate second-order stationary point with high probability but only requires $\tilde{\mathcal O}\big(\kappa^{1.5}\ell\varepsilon^{-2}\big)$ Hessian-vector oracle calls and $\tilde{\mathcal O}\big(\kappa^{2}\sqrt{\rho}\varepsilon^{-1.5}\big)$ first-order oracle calls. To the best of our knowledge, this is the first work that considers the non-asymptotic convergence behavior of finding second-order stationary points for minimax problems without the convex-concave assumptions.
translated by 谷歌翻译
我们研究了一类算法,用于在内部级别物镜强烈凸起时求解随机和确定性设置中的彼此优化问题。具体地,我们考虑基于不精确的隐含区分的算法,并且我们利用热门开始策略来摊销精确梯度的估计。然后,我们介绍了一个统一的理论框架,受到奇异的扰动系统(Habets,1974)的研究来分析这种摊销算法。通过使用此框架,我们的分析显示了匹配可以访问梯度无偏见估计的Oracle方法的计算复杂度的算法,从而优于彼此优化的许多现有结果。我们在合成实验中说明了这些发现,并展示了这些算法对涉及几千个变量的超参数优化实验的效率。
translated by 谷歌翻译