我们考虑使用一阶算法的非凸性随机优化,梯度估计可能具有重尾部。我们表明,当梯度只有有界限$ \ mathfrak {$ th} $ th moments为某些$时,梯度剪辑,动量和归一化梯度下降的组合产生了高概率的临界点,以获得最佳的损失的损失。 \ Mathfrak {P} \ in(1,2] $。我们考虑到二阶流畅损失的情况,在此设置中尚未研究我们的知识,并且再次获得任何$ \ Mathfrak的高概率界限{P} $。此外,我们的结果持有任意平稳规范,与需要Hilbert空间规范的典型SGD分析。此外,我们表明,在合适的“燃烧”时期之后,客观价值将单调减少对于每次迭代,直到识别临界点,这为学习率“预热”的流行实践背后提供了直觉,并且还产生了最后迭代的保证。
translated by 谷歌翻译
非凸优化的传统分析通常取决于平滑度的假设,即要求梯度为Lipschitz。但是,最近的证据表明,这种平滑度条件并未捕获一些深度学习目标功能的特性,包括涉及复发性神经网络和LSTM的函数。取而代之的是,他们满足了更轻松的状况,并具有潜在的无界光滑度。在这个轻松的假设下,从理论和经验上表明,倾斜的SGD比香草具有优势。在本文中,我们表明,在解决此类情况时,剪辑对于ADAM型算法是不可或缺的:从理论上讲,我们证明了广义标志GD算法可以获得与带有剪辑的SGD相似的收敛速率,但根本不需要显式剪辑。一端的这个算法家族恢复了符号,另一端与受欢迎的亚当算法非常相似。我们的分析强调了动量在分析符号类型和ADAM型算法中发挥作用的关键作用:它不仅降低了噪声的影响,因此在先前的符号分析中消除了大型迷你批次的需求显着降低了无界平滑度和梯度规范的影响。我们还将这些算法与流行的优化器进行了比较,在一组深度学习任务上,观察到我们可以在击败其他人的同时匹配亚当的性能。
translated by 谷歌翻译
在这项工作中,我们研究了沉重的尾部噪声下的随机亚级别方法的高概率边界。在这种情况下,仅假定噪声具有有限的方差,而不是次高斯的分布,众所周知,标准亚级别方法具有很高的概率边界。我们分析了投影的随机亚级别方法的剪裁版本,其中每当具有大规范时,亚级别估计值都会被截断。我们表明,这种剪裁策略既导致了许多经典平均方案的任何时间和有限的地平线界限。初步实验显示以支持该方法的有效性。
translated by 谷歌翻译
We consider minimizing a smooth and strongly convex objective function using a stochastic Newton method. At each iteration, the algorithm is given an oracle access to a stochastic estimate of the Hessian matrix. The oracle model includes popular algorithms such as Subsampled Newton and Newton Sketch. Despite using second-order information, these existing methods do not exhibit superlinear convergence, unless the stochastic noise is gradually reduced to zero during the iteration, which would lead to a computational blow-up in the per-iteration cost. We propose to address this limitation with Hessian averaging: instead of using the most recent Hessian estimate, our algorithm maintains an average of all the past estimates. This reduces the stochastic noise while avoiding the computational blow-up. We show that this scheme exhibits local $Q$-superlinear convergence with a non-asymptotic rate of $(\Upsilon\sqrt{\log (t)/t}\,)^{t}$, where $\Upsilon$ is proportional to the level of stochastic noise in the Hessian oracle. A potential drawback of this (uniform averaging) approach is that the averaged estimates contain Hessian information from the global phase of the method, i.e., before the iterates converge to a local neighborhood. This leads to a distortion that may substantially delay the superlinear convergence until long after the local neighborhood is reached. To address this drawback, we study a number of weighted averaging schemes that assign larger weights to recent Hessians, so that the superlinear convergence arises sooner, albeit with a slightly slower rate. Remarkably, we show that there exists a universal weighted averaging scheme that transitions to local convergence at an optimal stage, and still exhibits a superlinear convergence rate nearly (up to a logarithmic factor) matching that of uniform Hessian averaging.
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
随机一阶方法是训练大规模机器学习模型的标准。随机行为可能导致算法的特定运行导​​致高度次优的目标值,而通常证明理论保证是出于目标值的期望。因此,从理论上保证算法具有很高的可能性,这一点至关重要。非平滑随机凸优化的现有方法具有复杂的界限,其依赖性对置信度或对数为负功率,但在额外的假设下是高斯(轻尾)噪声分布的额外假设,这些噪声分布在实践中可能不存在。在我们的论文中,我们解决了这个问题,并得出了第一个高概率收敛的结果,并以对数依赖性对非平滑凸的随机优化问题的置信度依赖,并带有非Sub-Gaussian(重尾)噪声。为了得出我们的结果,我们建议针对两种随机方法进行梯度剪辑的新步骤规则。此外,我们的分析适用于使用H \“较旧连续梯度的通用平滑目标,对于这两种方法,我们都为强烈凸出问题提供了扩展。最后,我们的结果暗示我们认为的第一种(加速)方法也具有最佳的迭代。在所有制度中,Oracle的复杂性,第二个机制在非平滑设置中都是最佳的。
translated by 谷歌翻译
我们研究了Adagrad-norm的收敛速率,作为自适应随机梯度方法(SGD)的典范,其中,基于观察到的随机梯度的步骤大小变化,以最大程度地减少非凸,平稳的目标。尽管它们很受欢迎,但在这种情况下,对自适应SGD的分析滞后于非自适应方法。具体而言,所有先前的作品都依赖以下假设的某个子集:(i)统一结合的梯度规范,(ii)均匀遇到的随机梯度方差(甚至噪声支持),(iii)步骤大小和随机性之间的有条件独立性坡度。在这项工作中,我们表明Adagrad-norm表现出$ \ Mathcal {O} \ left(\ frac {\ mathrm {poly} \ log(t)} {\ sqrt {\ sqrt {t}}} \ right)的订单最佳收敛率$在$ t $迭代之后,在与最佳调整的非自适应SGD(无界梯度规范和仿射噪声方差缩放)相同的假设下进行了$,而无需任何调整参数。因此,我们确定自适应梯度方法在比以前了解的更广泛的方案中表现出最佳的融合。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
在机器学习通常与优化通过训练数据定义实证目标的最小化交易。然而,学习的最终目的是尽量减少对未来的数据错误(测试误差),为此,训练数据只提供部分信息。这种观点认为,是实际可行的优化问题是基于不准确的数量在本质上是随机的。在本文中,我们显示了如何概率的结果,特别是浓度梯度,可以用来自不精确优化结果来导出尖锐测试误差保证组合。通过考虑无约束的目标,我们强调优化隐含正规化性学习。
translated by 谷歌翻译
与SGD相比,Adam等自适应梯度方法允许对现代深层网络(尤其是大型语言模型)进行强有力的培训。但是,适应性的使用不仅是为了额外的记忆,而且还提出了一个基本问题:SGD等非自适应方法可以享受类似的好处吗?在本文中,我们通过提议通过以下一般配方提议实现健壮和记忆效率的培训来为这个问题提供肯定的答案:(1)修改体系结构并使IT规模不变,即参数规模不影响。网络的输出,(2)使用SGD和重量衰减的训练,以及(3)剪辑全局梯度标准与重量标准成比例成正比,乘以$ \ sqrt {\ tfrac {\ tfrac {2 \ lambda} {\ eta}} {\ eta}}} $, $ \ eta $是学习率,而$ \ lambda $是权重腐烂。我们表明,这种一般方法是通过证明其收敛性仅取决于初始化和损失的规模来重新恢复参数和丢失的强大,而标准SGD甚至可能不会收敛许多初始化。在我们的食谱之后,我们设计了一个名为Sibert的Bert版本的比例不变版本,该版本仅由Vanilla SGD进行训练时,可以实现与Bert在下游任务中受过自适应方法训练的BERT相当的性能。
translated by 谷歌翻译
分析学习算法的挑战之一是客观值和随机噪声之间的循环纠缠。这也被称为“鸡肉和鸡蛋”现象,传统上,没有原则解决这个问题的方法。人们通过利用动态的特殊结构来解决问题,因此很难概括分析。在这项工作中,我们提出了一个简化的三步食谱,以解决“鸡肉和鸡蛋”问题,并为分析学习算法的随机动力学提供了一般框架。我们的框架构成了概率理论的标准技术,例如停止时间和Martingale浓度。我们通过对三个截然不同的学习问题进行统一分析,并具有强大的统一高概率收敛保证,从而证明了我们框架的力量和灵活性。这些问题是强烈凸功能,流主成分分析和带有随机梯度下降更新的线性匪徒的随机梯度下降。我们要么在所有三个动态上都改进或匹配最新界限。
translated by 谷歌翻译
在本文中,我们提出了Nesterov加速改组梯度(NASG),这是一种用于凸有限和最小化问题的新算法。我们的方法将传统的Nesterov的加速动量与不同的改组抽样方案相结合。我们证明,我们的算法使用统一的改组方案提高了$ \ Mathcal {o}(1/t)$的速率,其中$ t $是时代的数量。该速率比凸状制度中的任何其他改组梯度方法要好。我们的收敛分析不需要对有限域或有界梯度条件的假设。对于随机洗牌方案,我们进一步改善了收敛性。在采用某种初始条件时,我们表明我们的方法在解决方案的小社区附近收敛得更快。数值模拟证明了我们算法的效率。
translated by 谷歌翻译
我们考虑最小化根据未知和可能随机动态发展的凸起功能的问题,这可以按时和在决策变量上共同依赖。在机器学习和信号处理文献中比比皆是,在概念漂移,随机跟踪和执行预测的名称下取比。我们为随机算法提供了新的非渐近融合保障,其具有迭代平均值,专注于期望和高概率有效。我们获得的效率估计明确地解除了优化误差,梯度噪声和时间漂移的贡献。值得注意的是,我们表明近端随机梯度方法的跟踪效率仅取决于配备步骤衰减计划时的初始化质量上的对数。数值实验说明了我们的结果。
translated by 谷歌翻译
通过在线规范相关性分析的问题,我们提出了\ emph {随机缩放梯度下降}(SSGD)算法,以最小化通用riemannian歧管上的随机功能的期望。 SSGD概括了投影随机梯度下降的思想,允许使用缩放的随机梯度而不是随机梯度。在特殊情况下,球形约束的特殊情况,在广义特征向量问题中产生的,我们建立了$ \ sqrt {1 / t} $的令人反感的有限样本,并表明该速率最佳最佳,直至具有积极的积极因素相关参数。在渐近方面,一种新的轨迹平均争论使我们能够实现局部渐近常态,其速率与鲁普特 - Polyak-Quaditsky平均的速率匹配。我们将这些想法携带在一个在线规范相关分析,从事文献中的第一次获得了最佳的一次性尺度算法,其具有局部渐近融合到正常性的最佳一次性尺度算法。还提供了用于合成数据的规范相关分析的数值研究。
translated by 谷歌翻译
最新工作的一条有影响力的线重点关注的是针对可分离的线性分类的非规范梯度学习程序的泛化特性,并具有指数级的损失函数。这种方法概括地概括的能力归因于它们对大幅度预测指标的隐含偏见,无论是渐近的还是有限的时间。我们为此概括提供了另一个统一的解释,并将其与优化目标的两个简单属性相关联,我们将其称为可实现性和自我限制性。我们介绍了通过这些特性的不受约束随机凸优化的一般设置,并通过算法稳定性镜头分析梯度方法的概括。在这种更广泛的环境中,我们获得了梯度下降和随机梯度下降的尖锐稳定性边界,这些梯度下降即使适用于大量梯度步骤,并使用它们来得出这些算法的通用泛化界限。最后,作为一般边界的直接应用,我们返回使用可分离数据的线性分类设置,并为梯度下降和随机梯度下降建立了几种新颖的测试损失和测试精度界限,用于各种尾巴衰减速率的多种损耗函数。在某些情况下,我们的界限显着改善了文献中现有的概括误差界限。
translated by 谷歌翻译
随机梯度下降(SGD)已被证明在许多深度学习应用中都很好地概括了。在实践中,人们经常以几何衰减的步骤运行SGD,即,恒定的初始步骤,然后是多个几何步骤衰减,并将最后一个迭代用作输出。已知这种SGD几乎对经典有限维线性回归问题几乎是最佳的(Ge等,2019)。但是,在过度参数化设置中对SGD的最后一次迭代进行了彻底的分析。在本文中,我们对SGD的最后一个迭代风险界限进行了依赖问题的分析,并具有腐烂的步骤,以(过度参数化)线性回归问题。特别是,对于带有(尾部)几何衰减步骤的最后迭代SGD,我们证明了多余风险的上限和下限几乎匹配。此外,我们为最后一次迭代的SGD提供了多余的风险下限,并以多项式衰减的步骤进行了大小,并以实例的方式证明了几何腐烂的步骤的优势,这补充了先前工作中的最小值比较。
translated by 谷歌翻译
最近,在学习没有更换SGD的收敛率的情况下,有很多兴趣,并证明它在最坏情况下比更换SGD更快。然而,已知的下限忽略了问题的几何形状,包括其条件号,而上限明确取决于它。也许令人惊讶的是,我们证明,当考虑条件号时,没有替换SGD \ EMPH {没有}在最坏情况下,除非是时期的数量(通过数据来说)大于条件号。由于机器学习和其他领域的许多问题都没有条件并涉及大型数据集,这表明没有替换不一定改善用于现实迭代预算的更换采样。我们通过提供具有紧密(最多日志因子)的新下限和上限来展示这一点,用于致通二次术语的二次问题,精确地量化了对问题参数的依赖性。
translated by 谷歌翻译
This paper shows that a perturbed form of gradient descent converges to a second-order stationary point in a number iterations which depends only poly-logarithmically on dimension (i.e., it is almost "dimension-free"). The convergence rate of this procedure matches the wellknown convergence rate of gradient descent to first-order stationary points, up to log factors. When all saddle points are non-degenerate, all second-order stationary points are local minima, and our result thus shows that perturbed gradient descent can escape saddle points almost for free.Our results can be directly applied to many machine learning applications, including deep learning. As a particular concrete example of such an application, we show that our results can be used directly to establish sharp global convergence rates for matrix factorization. Our results rely on a novel characterization of the geometry around saddle points, which may be of independent interest to the non-convex optimization community.
translated by 谷歌翻译
我们开发了一个修改的在线镜下降框架,该框架适用于在无界域中构建自适应和无参数的算法。我们利用这项技术来开发第一个不受限制的在线线性优化算法,从而达到了最佳的动态遗憾,我们进一步证明,基于以下规范化领导者的自然策略无法取得相似的结果。我们还将镜像下降框架应用于构建新的无参数隐式更新,以及简化和改进的无限规模算法。
translated by 谷歌翻译
我们提出和分析了几种随机梯度算法,以查找固定点或非convex中的局部最小值,可能是使用非平​​滑规则器,有限-AM和在线优化问题。首先,我们提出了一种基于降低的差异降低的简单近端随机梯度算法,称为XSVRG+。我们提供了对Proxsvrg+的干净分析,这表明它的表现优于确定性的近端下降(ProxGD),用于各种Minibatch尺寸,因此解决了Reddi等人中提出的一个开放问题。 (2016b)。此外,Proxsvrg+的使用近近端甲骨文调用比Proxsvrg(Reddi等,2016b)使用的距离要少得多,并通过避免进行完整的梯度计算来扩展到在线设置。然后,我们进一步提出了一种基于Sarah(Nguyen等,2017)的最佳算法,称为SSRGD,并表明SSRGD进一步提高了Proxsvrg+的梯度复杂性,并实现了最佳的上限,与已知的下限相匹配(Fang et et et and offang等人(Fang等人)(Fang等人)(Fang等人Al。,2018; Li等,2021)。此外,我们表明,Proxsvrg+和SSRGD都可以自动适应目标函数的局部结构,例如Polyak- \ l {} ojasiewicz(pl)有限的case中非convex函数的条件他们可以自动切换到更快的全局线性收敛,而无需在先前的工作proxsvrg中执行任何重新启动(Reddi等,2016b)。最后,我们专注于找到$(\ epsilon,\ delta)$的更具挑战性的问题 - 当地的最低限度,而不仅仅是找到$ \ epsilon $ -Approximate(一阶)固定点(这可能是一些不稳定的不稳定的鞍座点)。我们证明SSRGD可以找到$(\ epsilon,\ delta)$ - 局部最小值,只需添加一些随机的扰动即可。我们的算法几乎与查找固定点的对应物一样简单,并达到相似的最佳速率。
translated by 谷歌翻译