加速梯度方法是大规模,数据驱动优化问题的基石,其在机器学习和其他关于数据分析的其他领域出现的自然。我们介绍了一种基于梯度的优化框架,用于实现加速度,基于最近引入了动态系统的固定时间稳定性的概念。该方法本身表示作为基于简单的基于梯度的方法的概括,适当地缩放以在固定时间内实现对优化器的收敛,与初始化无关。我们通过首先利用用于设计定时稳定动态系统的连续时间框架来实现这一目标,并且稍后提供一致的离散化策略,使得等效的离散时间算法在实际固定数量的迭代中跟踪优化器。我们还提供了对所提出的梯度流动的收敛行为的理论分析,以及他们对遵循强大凸起,严格凸起,并且可能不承受的功能的一系列功能的鲁造性,但满足Polyak - {\ l} Ojasiewicz不平等。我们还表明,由于定时收敛,收敛率的遗憾是恒定的。普遍的参数具有直观的解释,可以调整以适应所需的收敛速率的要求。我们验证了针对最先进的优化算法的一系列数值示例上提出的方案的加速收敛性。我们的工作提供了通过连续时间流动的离散化开发新颖优化算法的见解。
translated by 谷歌翻译
Gradient-based first-order convex optimization algorithms find widespread applicability in a variety of domains, including machine learning tasks. Motivated by the recent advances in fixed-time stability theory of continuous-time dynamical systems, we introduce a generalized framework for designing accelerated optimization algorithms with strongest convergence guarantees that further extend to a subclass of non-convex functions. In particular, we introduce the \emph{GenFlow} algorithm and its momentum variant that provably converge to the optimal solution of objective functions satisfying the Polyak-{\L}ojasiewicz (PL) inequality, in a fixed-time. Moreover for functions that admit non-degenerate saddle-points, we show that for the proposed GenFlow algorithm, the time required to evade these saddle-points is bounded uniformly for all initial conditions. Finally, for strongly convex-strongly concave minimax problems whose optimal solution is a saddle point, a similar scheme is shown to arrive at the optimal solution again in a fixed-time. The superior convergence properties of our algorithm are validated experimentally on a variety of benchmark datasets.
translated by 谷歌翻译
这项研究开发了一个固定时间收敛的鞍点动力学系统,用于在标准凸孔腔假设的放松下解决最小值问题。特别是,通过利用优化算法的动力学系统观点,可以获得加速到鞍点的收敛。而不是要求目标函数是强率 - 巧妙的concave(由于需要加速几个鞍点算法的加速收敛),而是保证仅满足双面Polyak的功能,可以保证均匀的固定时间收敛性 - {\ l} ojasiewicz(pl)不等式。已知大量的实际问题,包括可靠的最小二乘估计,可以满足双面PL不平等。与任何其他具有线性甚至超级线性收敛的最先进方法相比,所提出的方法可实现任意快速的收敛性,并且在数值案例研究中也得到了证实。
translated by 谷歌翻译
We introduce a class of first-order methods for smooth constrained optimization that are based on an analogy to non-smooth dynamical systems. Two distinctive features of our approach are that (i) projections or optimizations over the entire feasible set are avoided, in stark contrast to projected gradient methods or the Frank-Wolfe method, and (ii) iterates are allowed to become infeasible, which differs from active set or feasible direction methods, where the descent motion stops as soon as a new constraint is encountered. The resulting algorithmic procedure is simple to implement even when constraints are nonlinear, and is suitable for large-scale constrained optimization problems in which the feasible set fails to have a simple structure. The key underlying idea is that constraints are expressed in terms of velocities instead of positions, which has the algorithmic consequence that optimizations over feasible sets at each iteration are replaced with optimizations over local, sparse convex approximations. In particular, this means that at each iteration only constraints that are violated are taken into account. The result is a simplified suite of algorithms and an expanded range of possible applications in machine learning.
translated by 谷歌翻译
Recently, there has been great interest in connections between continuous-time dynamical systems and optimization algorithms, notably in the context of accelerated methods for smooth and unconstrained problems. In this paper we extend this perspective to nonsmooth and constrained problems by obtaining differential inclusions associated to novel accelerated variants of the alternating direction method of multipliers (ADMM). Through a Lyapunov analysis, we derive rates of convergence for these dynamical systems in different settings that illustrate an interesting tradeoff between decaying versus constant damping strategies. We also obtain perturbed equations capturing fine-grained details of these methods, which have improved stability and preserve the leading order convergence rates.
translated by 谷歌翻译
连续数据的优化问题出现在,例如强大的机器学习,功能数据分析和变分推理。这里,目标函数被给出为一个(连续)索引目标函数的系列 - 相对于概率测量集成的族聚集。这些问题通常可以通过随机优化方法解决:在随机切换指标执行关于索引目标函数的优化步骤。在这项工作中,我们研究了随机梯度下降算法的连续时间变量,以进行连续数据的优化问题。该所谓的随机梯度过程包括最小化耦合与确定索引的连续时间索引过程的索引目标函数的梯度流程。索引过程是例如,反射扩散,纯跳跃过程或紧凑空间上的其他L evy过程。因此,我们研究了用于连续数据空间的多种采样模式,并允许在算法的运行时进行模拟或流式流的数据。我们分析了随机梯度过程的近似性质,并在恒定下进行了长时间行为和遍历的学习率。我们以噪声功能数据的多项式回归问题以及物理知识的神经网络在多项式回归问题中结束了随机梯度过程的适用性。
translated by 谷歌翻译
在安全关键系统的背景下将模拟缩小到现实差距的动机,我们考虑学习用于未知非线性动力系统的前列鲁棒稳定性证书。符合鲁棒控制的方法,我们考虑添加系统动态的添加剂和Lipschitz有界对手。我们表明,在基础系统上的增量稳定性的合适假设下,学习对抗稳定证明的统计成本相当于持续因素,以学习名义稳定证明。我们的结果铰接在新的导火颤机复杂性的新型界限,这可能是独立的兴趣。据我们所知,这是在对动态系统生成的数据进行对抗性学习时,对样本复杂性限制的第一次表征。我们还提供一种用于近似对抗训练算法的实用算法,并在阻尼摆锤示例上验证我们的发现。
translated by 谷歌翻译
深度神经网络和其他现代机器学习模型的培训通常包括解决高维且受大规模数据约束的非凸优化问题。在这里,基于动量的随机优化算法在近年来变得尤其流行。随机性来自数据亚采样,从而降低了计算成本。此外,动量和随机性都应该有助于算法克服当地的最小化器,并希望在全球范围内融合。从理论上讲,这种随机性和动量的结合被糟糕地理解。在这项工作中,我们建议并分析具有动量的随机梯度下降的连续时间模型。该模型是一个分段确定的马尔可夫过程,它通过阻尼不足的动态系统和通过动力学系统的随机切换来代表粒子运动。在我们的分析中,我们研究了长期限制,子采样到无填充采样极限以及动量到非摩托车的限制。我们对随着时间的推移降低动量的情况特别感兴趣:直觉上,动量有助于在算法的初始阶段克服局部最小值,但禁止后来快速收敛到全球最小化器。在凸度的假设下,当降低随时间的动量时,我们显示了动力学系统与全局最小化器的收敛性,并让子采样率转移到无穷大。然后,我们提出了一个稳定的,合成的离散方案,以从我们的连续时间动力学系统中构造算法。在数值实验中,我们研究了我们在凸面和非凸测试问题中的离散方案。此外,我们训练卷积神经网络解决CIFAR-10图像分类问题。在这里,与动量相比,我们的算法与随机梯度下降相比达到了竞争性结果。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
几种广泛使用的一阶马鞍点优化方法将衍生天然衍生时的梯度下降成本(GDA)方法的相同连续时间常分等式(ODE)。然而,即使在简单的双线性游戏上,它们的收敛性也很差异。我们使用一种来自流体动力学的技术,称为高分辨率微分方程(HRDE)来设计几个骑马点优化方法的杂散。在双线性游戏中,派生HRDE的收敛性属性对应于起始离散方法的收敛性。使用这些技术,我们表明乐观梯度下降的HRDE具有最后迭代单调变分不等式的迭代收敛。据我们所知,这是第一个连续时间动态,用于收敛此类常规设置。此外,我们提供了ogda方法的最佳迭代收敛的速率,仅依靠单调运营商的一阶平滑度。
translated by 谷歌翻译
我们为研究通过将噪声注入隐藏状态而训练的经常性神经网络(RNN)提供了一般框架。具体地,我们考虑RNN,其可以被视为由输入数据驱动的随机微分方程的离散化。该框架允许我们通过在小噪声制度中导出近似显式规范器来研究一般噪声注入方案的隐式正则化效果。我们发现,在合理的假设下,这种隐含的正规化促进了更平坦的最小值;它偏向具有更稳定动态的模型;并且,在分类任务中,它有利于具有较大分类余量的模型。获得了全局稳定性的充分条件,突出了随机稳定的现象,其中噪音注入可以在训练期间提高稳定性。我们的理论得到了经验结果支持,证明RNN对各种输入扰动具有改善的鲁棒性。
translated by 谷歌翻译
我们调查随机镜面下降(SMD)的趋同相对光滑和平滑凸优化。在相对平滑的凸优化中,我们为SMD提供了新的收敛保证,并持续步骤。对于平滑的凸优化,我们提出了一种新的自适应步骤方案 - 镜子随机Polyak Spectize(MSP)。值得注意的是,我们的收敛导致两个设置都不会使有界渐变假设或有界方差假设,并且我们向邻域显示在插值下消失的邻居的融合。MSP概括了最近提出的随机Polyak Spectize(SPS)(Loizou等,2021)以镜子血液镜子,并且在继承镜子血清的好处的同时,现代机器学习应用仍然是实用和高效的。我们将我们的结果与各种监督的学习任务和SMD的不同实例相结合,展示了MSP的有效性。
translated by 谷歌翻译
由于其许多领域的广泛应用程序,包括机器学习,网络资源分配和分布式优化,因此在解决非协议敏最大优化问题中有很多兴趣。也许,求解最小最大优化的最受欢迎的一阶方法是所谓的同时(或单环)梯度下降 - 上升 - 上升算法,因为它的实施简单。然而,对该算法的收敛性的理论保证非常稀疏,因为即使在简单的双线性问题中也可以发散。在本文中,我们的重点是表征同时梯度下降算法的连续时间变量的有限时间性能(或收敛速率)。特别是,我们在底层目标函数的许多不同条件下得出了这种方法的收敛速度,即双面Polyak-L OjasiewiCz(PL),单侧PL,非凸起强烈凹入,强烈凸-Nonconcave条件。我们的趋同结果在目标职能的相同条件下提高了先前作品中的结果。我们分析中的关键思路是使用经典奇异扰动理论和耦合Lyapunov函数来解决梯度下降和上升动力学之间的时间尺度差异和相互作用。我们对连续时间算法行为的结果可用于增强其离散时间对应的收敛性。
translated by 谷歌翻译
学习如何随着时间的推移发展复杂的动态系统是系统识别中的关键挑战。对于安全关键系统,它通常是至关重要的,因为学习的模型保证会聚到一些均衡点。为此,当完全观察到各种时,用神经拉布诺夫函数规范的神经杂物是一种有希望的方法。然而,对于实际应用,部分观察是常态。正如我们将证明,未观察到的增强状态的初始化可能成为神经杂物余下的关键问题。为了减轻这个问题,我们建议增加该系统的历史历史。通过国家增强在离散时间系统中的启发,我们得到了神经延迟微分方程。基于古典时间延迟稳定性分析,我们展示了如何确保学习模型的稳定性,从理论上分析我们的方法。我们的实验表明其适用于稳定的系统识别部分观察到的系统和学习延迟反馈控制中的稳定反馈策略。
translated by 谷歌翻译
收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
遵循与[SSJ20]相同的常规,我们继续在本文中介绍具有动量(SGD)的随机梯度下降的理论分析。不同的是,对于具有动量的SGD,我们证明了这是两个超参数在一起,学习率和动量系数,它在非convex优化中的线性收敛速率起着重要作用。我们的分析基于使用超参数依赖性随机微分方程(HP依赖性SDE),该方程是SGD的连续替代,并具有动量。同样,我们通过动量建立了SGD连续时间公式的线性收敛,并通过分析Kramers-Fokker-Planck操作员的光谱来获得最佳线性速率的显式表达。相比之下,我们证明,仅在引入动量时,仅在学习率方面的最佳线性收敛速率和SGD的最终差距如何随着动量系数从零增加到一个而变化。然后,我们提出了一种数学解释,为什么具有动量的SGD比在实践中比标准SGD更快,更强大的学习率收敛。最后,我们显示了在噪声存在下的Nesterov动量与标准动量没有根本差异。
translated by 谷歌翻译
尽管他们的超大容量过度装备能力,但是由特定优化算法训练的深度神经网络倾向于概括到看不见的数据。最近,研究人员通过研究优化算法的隐式正则化效果来解释它。卓越的进展是工作(Lyu&Li,2019),其证明了梯度下降(GD)最大化了均匀深神经网络的余量。除GD外,诸如Adagrad,RMSProp和Adam之类的自适应算法由于其快速培训过程而流行。然而,仍然缺乏适应性优化算法的概括的理论保证。在本文中,我们研究了自适应优化算法的隐式正则化,当它们在均匀深神经网络上优化逻辑损失时。我们证明了在调节器(如亚当和RMSProp)中采用指数移动平均策略的自适应算法可以最大化神经网络的余量,而Adagrad直接在调节器中总和历史平方梯度。它表明了调节剂设计中指数移动平均策略的概括的优越性。从技术上讲,我们提供统一的框架,通过构建新的自适应梯度流量和代理余量来分析自适应优化算法的会聚方向。我们的实验可以很好地支持适应性优化算法的会聚方向的理论发现。
translated by 谷歌翻译
在本文中,我们提出了连续时间游戏理论镜中下降(MD)动态的二阶扩展,称为MD2,其收敛于MED(但不一定是严格的)变分性稳定状态(VSS)而不使用常见辅助技术,如平均或折扣。我们表明MD2在轻微修改后享有无悔的趋势以及对强大的VSS的指数汇率。此外,MD2可用于导出许多新颖的原始空间动态。最后,使用随机近似技术,我们提供了对内部仅噪声的离散时间MD2的收敛保证。提供了所选模拟以说明我们的结果。
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
深度学习的概括分析通常假定训练会收敛到固定点。但是,最近的结果表明,实际上,用随机梯度下降优化的深神经网络的权重通常无限期振荡。为了减少理论和实践之间的这种差异,本文着重于神经网络的概括,其训练动力不一定会融合到固定点。我们的主要贡献是提出一个统计算法稳定性(SAS)的概念,该算法将经典算法稳定性扩展到非convergergent算法并研究其与泛化的联系。与传统的优化和学习理论观点相比,这种崇高的理论方法可导致新的见解。我们证明,学习算法的时间复杂行为的稳定性与其泛化有关,并在经验上证明了损失动力学如何为概括性能提供线索。我们的发现提供了证据表明,即使训练无限期继续并且权重也不会融合,即使训练持续进行训练,训练更好地概括”的网络也是如此。
translated by 谷歌翻译