我们介绍一种用于惯性梯度系统的新型自适应阻尼技术,该梯度系统将应用作为梯度下降算法,用于无约束优化。在使用非凸罗森布洛克函数的示例中,我们对现有的基于动力的梯度优化方法显示了改进。还使用Lyapunov稳定性分析,我们展示了算法的连续时间版本的性能。使用数值模拟,我们考虑通过使用辛欧拉方法的离散方式获得的离散时间对应的性能。
translated by 谷歌翻译
We introduce a class of first-order methods for smooth constrained optimization that are based on an analogy to non-smooth dynamical systems. Two distinctive features of our approach are that (i) projections or optimizations over the entire feasible set are avoided, in stark contrast to projected gradient methods or the Frank-Wolfe method, and (ii) iterates are allowed to become infeasible, which differs from active set or feasible direction methods, where the descent motion stops as soon as a new constraint is encountered. The resulting algorithmic procedure is simple to implement even when constraints are nonlinear, and is suitable for large-scale constrained optimization problems in which the feasible set fails to have a simple structure. The key underlying idea is that constraints are expressed in terms of velocities instead of positions, which has the algorithmic consequence that optimizations over feasible sets at each iteration are replaced with optimizations over local, sparse convex approximations. In particular, this means that at each iteration only constraints that are violated are taken into account. The result is a simplified suite of algorithms and an expanded range of possible applications in machine learning.
translated by 谷歌翻译
Recently, there has been great interest in connections between continuous-time dynamical systems and optimization algorithms, notably in the context of accelerated methods for smooth and unconstrained problems. In this paper we extend this perspective to nonsmooth and constrained problems by obtaining differential inclusions associated to novel accelerated variants of the alternating direction method of multipliers (ADMM). Through a Lyapunov analysis, we derive rates of convergence for these dynamical systems in different settings that illustrate an interesting tradeoff between decaying versus constant damping strategies. We also obtain perturbed equations capturing fine-grained details of these methods, which have improved stability and preserve the leading order convergence rates.
translated by 谷歌翻译
深度神经网络和其他现代机器学习模型的培训通常包括解决高维且受大规模数据约束的非凸优化问题。在这里,基于动量的随机优化算法在近年来变得尤其流行。随机性来自数据亚采样,从而降低了计算成本。此外,动量和随机性都应该有助于算法克服当地的最小化器,并希望在全球范围内融合。从理论上讲,这种随机性和动量的结合被糟糕地理解。在这项工作中,我们建议并分析具有动量的随机梯度下降的连续时间模型。该模型是一个分段确定的马尔可夫过程,它通过阻尼不足的动态系统和通过动力学系统的随机切换来代表粒子运动。在我们的分析中,我们研究了长期限制,子采样到无填充采样极限以及动量到非摩托车的限制。我们对随着时间的推移降低动量的情况特别感兴趣:直觉上,动量有助于在算法的初始阶段克服局部最小值,但禁止后来快速收敛到全球最小化器。在凸度的假设下,当降低随时间的动量时,我们显示了动力学系统与全局最小化器的收敛性,并让子采样率转移到无穷大。然后,我们提出了一个稳定的,合成的离散方案,以从我们的连续时间动力学系统中构造算法。在数值实验中,我们研究了我们在凸面和非凸测试问题中的离散方案。此外,我们训练卷积神经网络解决CIFAR-10图像分类问题。在这里,与动量相比,我们的算法与随机梯度下降相比达到了竞争性结果。
translated by 谷歌翻译
在一阶算法的历史中,Nesterov的加速梯度下降(NAG)是里程碑之一。但是,长期以来,加速的原因一直是一个谜。直到[Shi等,2021]中提出的高分辨率微分方程框架之前,梯度校正的存在尚未得到揭示。在本文中,我们继续研究加速现象。首先,我们基于精确的观察结果和$ L $ SMOTH功能的不等式提供了明显的简化证明。然后,提出了一个新的隐式高分辨率差分方程框架,以及相应的隐式 - 速度版本的相位空间表示和lyapunov函数,以研究迭代序列$ \ {x_k \} _的迭代序列的收敛行为{k = 0}^{\ infty} $的nag。此外,从两种类型的相空间表示形式中,我们发现梯度校正所起的作用等同于按速度隐含在梯度中包含的作用,其中唯一的区别来自迭代序列$ \ \ {y_ {y_ {k} \} _ {k = 0}^{\ infty} $由$ \ {x_k \} _ {k = 0}^{\ infty} $代替。最后,对于NAG的梯度规范最小化是否具有更快的速率$ O(1/K^3)$的开放问题,我们为证明提供了一个积极的答案。同时,为$ r> 2 $显示了目标值最小化$ o(1/k^2)$的更快的速度。
translated by 谷歌翻译
加速梯度方法是大规模,数据驱动优化问题的基石,其在机器学习和其他关于数据分析的其他领域出现的自然。我们介绍了一种基于梯度的优化框架,用于实现加速度,基于最近引入了动态系统的固定时间稳定性的概念。该方法本身表示作为基于简单的基于梯度的方法的概括,适当地缩放以在固定时间内实现对优化器的收敛,与初始化无关。我们通过首先利用用于设计定时稳定动态系统的连续时间框架来实现这一目标,并且稍后提供一致的离散化策略,使得等效的离散时间算法在实际固定数量的迭代中跟踪优化器。我们还提供了对所提出的梯度流动的收敛行为的理论分析,以及他们对遵循强大凸起,严格凸起,并且可能不承受的功能的一系列功能的鲁造性,但满足Polyak - {\ l} Ojasiewicz不平等。我们还表明,由于定时收敛,收敛率的遗憾是恒定的。普遍的参数具有直观的解释,可以调整以适应所需的收敛速率的要求。我们验证了针对最先进的优化算法的一系列数值示例上提出的方案的加速收敛性。我们的工作提供了通过连续时间流动的离散化开发新颖优化算法的见解。
translated by 谷歌翻译
几种广泛使用的一阶马鞍点优化方法将衍生天然衍生时的梯度下降成本(GDA)方法的相同连续时间常分等式(ODE)。然而,即使在简单的双线性游戏上,它们的收敛性也很差异。我们使用一种来自流体动力学的技术,称为高分辨率微分方程(HRDE)来设计几个骑马点优化方法的杂散。在双线性游戏中,派生HRDE的收敛性属性对应于起始离散方法的收敛性。使用这些技术,我们表明乐观梯度下降的HRDE具有最后迭代单调变分不等式的迭代收敛。据我们所知,这是第一个连续时间动态,用于收敛此类常规设置。此外,我们提供了ogda方法的最佳迭代收敛的速率,仅依靠单调运营商的一阶平滑度。
translated by 谷歌翻译
Gradient-based first-order convex optimization algorithms find widespread applicability in a variety of domains, including machine learning tasks. Motivated by the recent advances in fixed-time stability theory of continuous-time dynamical systems, we introduce a generalized framework for designing accelerated optimization algorithms with strongest convergence guarantees that further extend to a subclass of non-convex functions. In particular, we introduce the \emph{GenFlow} algorithm and its momentum variant that provably converge to the optimal solution of objective functions satisfying the Polyak-{\L}ojasiewicz (PL) inequality, in a fixed-time. Moreover for functions that admit non-degenerate saddle-points, we show that for the proposed GenFlow algorithm, the time required to evade these saddle-points is bounded uniformly for all initial conditions. Finally, for strongly convex-strongly concave minimax problems whose optimal solution is a saddle point, a similar scheme is shown to arrive at the optimal solution again in a fixed-time. The superior convergence properties of our algorithm are validated experimentally on a variety of benchmark datasets.
translated by 谷歌翻译
解决零和游戏的算法,多目标代理目标,或更普遍的变化不平等问题(VI)问题在一般问题上是不稳定的。由于解决机器学习中这种问题的需求越来越大,近年来,这种不稳定性是一项重大的研究挑战。在本文中,我们概述了在针对广泛的VI问题类别的分析和设计中使用连续时间观点的最新进展。我们的演示文稿在单目标问题和多目标问题之间取得了相似之处,突出了后者的挑战。我们还为适用于一般VIS的算法制定了各种desiderata,我们认为实现这些Desiderata可能会从对相关的连续时间动态的理解中获利。
translated by 谷歌翻译
用于未知非线性系统的学习和合成稳定控制器是现实世界和工业应用的具有挑战性问题。 Koopman操作员理论允许通过直线系统和非线性控制系统的镜头通过线性系统和非线性控制系统的镜头来分析非线性系统。这些方法的关键思想,在于将非线性系统的坐标转换为Koopman可观察,这是允许原始系统(控制系统)作为更高尺寸线性(双线性控制)系统的坐标。然而,对于非线性控制系统,通过应用基于Koopman操作员的学习方法获得的双线性控制模型不一定是稳定的,因此,不保证稳定反馈控制的存在,这对于许多真实世界的应用来说是至关重要的。同时识别基于这些可稳定的Koopman的双线性控制系统以及相关的Koopman可观察到仍然是一个开放的问题。在本文中,我们提出了一个框架,以通过同时学习为基于Koopman的底层未知的非线性控制系统以及基于Koopman的控制Lyapunov函数(CLF)来识别和构造这些可稳定的双线性模型及其相关的可观察能力。双线性模型使用学习者和伪空。我们提出的方法从而为非线性控制系统具有未知动态的非线性控制系统提供了可证明的全球渐近稳定性的保证。提供了数值模拟,以验证我们提出的稳定反馈控制器为未知的非线性系统的效力。
translated by 谷歌翻译
Nesterov's accelerated gradient descent (NAG) is one of the milestones in the history of first-order algorithms. It was not successfully uncovered until the high-resolution differential equation framework was proposed in [Shi et al., 2022] that the mechanism behind the acceleration phenomenon is due to the gradient correction term. To deepen our understanding of the high-resolution differential equation framework on the convergence rate, we continue to investigate NAG for the $\mu$-strongly convex function based on the techniques of Lyapunov analysis and phase-space representation in this paper. First, we revisit the proof from the gradient-correction scheme. Similar to [Chen et al., 2022], the straightforward calculation simplifies the proof extremely and enlarges the step size to $s=1/L$ with minor modification. Meanwhile, the way of constructing Lyapunov functions is principled. Furthermore, we also investigate NAG from the implicit-velocity scheme. Due to the difference in the velocity iterates, we find that the Lyapunov function is constructed from the implicit-velocity scheme without the additional term and the calculation of iterative difference becomes simpler. Together with the optimal step size obtained, the high-resolution differential equation framework from the implicit-velocity scheme of NAG is perfect and outperforms the gradient-correction scheme.
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
这项研究为连续时间(确定性)动态系统的结构化非线性控制提供了一个政策优化框架。所提出的方法根据相关科学知识(例如Lyapunov稳定理论或领域经验)规定控制器的结构,同时考虑给定结构内的可调元素作为神经网络的参数化点。为了优化作为神经网络权重的函数代表的成本,提出的方法利用基于伴随灵敏度分析的连续时间策略梯度方法作为正确和性能计算成本梯度的手段。这使得将反馈控制器的分析衍生结构的稳定性,鲁棒性和物理解释性结合在一起,并结合了机器学习技术提供的代表性灵活性和优化的结果性能。这种用于固定结构控制合成的混合范式对于优化适应性非线性控制器以提高在线操作中的性能特别有用,在线操作中,现有理论在结构上占上风,同时缺乏对收益和不确定性调谐的明确分析理解控制性能特征的模型基础函数。航空应用上的数值实验说明了结构化非线性控制器优化框架的实用性。
translated by 谷歌翻译
机器学习中的许多新的发展都与基于梯度的优化方法相连。最近,已经使用变分透视研究了这些方法。这已经开辟了使用几何集成引入变分和辛方法的可能性。特别是,在本文中,我们引入了变分集成商,使我们能够导出不同的优化方法。使用汉密尔顿和拉格朗日 - 德尔尔堡的原则,我们在一对一的对应中获得了两个各自的优化方法的一个家庭,即概括Polyak的厚球和众所周知的Nesterov加速梯度方法,其中第二个是模仿行为的第二个对应首先减少经典动量方法的振荡。然而,由于考虑的系统是明确时间依赖的,因此自主系统的杂交的保存仅在这里发生在纤维上。几个实验举例说明结果。
translated by 谷歌翻译
收缩理论是一种分析工具,用于研究以均匀的正面矩阵定义的收缩度量下的非自主(即,时变)非线性系统的差动动力学,其存在导致增量指数的必要和充分表征多种溶液轨迹彼此相互稳定性的稳定性。通过使用平方差分长度作为Lyapunov样功能,其非线性稳定性分析向下沸腾以找到满足以表达为线性矩阵不等式的稳定条件的合适的收缩度量,表明可以在众所周知的线性系统之间绘制许多平行线非线性系统理论与收缩理论。此外,收缩理论利用了与比较引理结合使用的指数稳定性的优越稳健性。这产生了基于神经网络的控制和估计方案的急需安全性和稳定性保证,而不借助使用均匀渐近稳定性的更涉及的输入到状态稳定性方法。这种独特的特征允许通过凸优化来系统构造收缩度量,从而获得了由于扰动和学习误差而在外部扰动的时变的目标轨迹和解决方案轨迹之间的距离上的明确指数界限。因此,本文的目的是介绍了收缩理论的课程概述及其在确定性和随机系统的非线性稳定性分析中的优点,重点导出了各种基于学习和数据驱动的自动控制方法的正式鲁棒性和稳定性保证。特别是,我们提供了使用深神经网络寻找收缩指标和相关控制和估计法的技术的详细审查。
translated by 谷歌翻译
学习如何随着时间的推移发展复杂的动态系统是系统识别中的关键挑战。对于安全关键系统,它通常是至关重要的,因为学习的模型保证会聚到一些均衡点。为此,当完全观察到各种时,用神经拉布诺夫函数规范的神经杂物是一种有希望的方法。然而,对于实际应用,部分观察是常态。正如我们将证明,未观察到的增强状态的初始化可能成为神经杂物余下的关键问题。为了减轻这个问题,我们建议增加该系统的历史历史。通过国家增强在离散时间系统中的启发,我们得到了神经延迟微分方程。基于古典时间延迟稳定性分析,我们展示了如何确保学习模型的稳定性,从理论上分析我们的方法。我们的实验表明其适用于稳定的系统识别部分观察到的系统和学习延迟反馈控制中的稳定反馈策略。
translated by 谷歌翻译
在本章中,我们确定了基本的几何结构,这些几何结构是采样,优化,推理和自适应决策问题的基础。基于此识别,我们得出了利用这些几何结构来有效解决这些问题的算法。我们表明,在这些领域中自然出现了广泛的几何理论,范围从测量过程,信息差异,泊松几何和几何整合。具体而言,我们解释了(i)如何利用汉密尔顿系统的符合性几何形状,使我们能够构建(加速)采样和优化方法,(ii)希尔伯特亚空间和Stein操作员的理论提供了一种通用方法来获得可靠的估计器,(iii)(iii)(iii)保留决策的信息几何形状会产生执行主动推理的自适应剂。在整个过程中,我们强调了这些领域之间的丰富联系。例如,推论借鉴了抽样和优化,并且自适应决策通过推断其反事实后果来评估决策。我们的博览会提供了基本思想的概念概述,而不是技术讨论,可以在本文中的参考文献中找到。
translated by 谷歌翻译
我们研究了基于动量的一阶优化算法,其中迭代利用了前两个步骤中的信息,并受到加性白噪声的影响。这类算法包括重型球和Nesterov作为特殊情况的加速方法。对于强烈凸出的二次问题,我们在优化变量中使用误差的稳态差异来量化噪声放大并利用新颖的几何观点,以在沉降时间和最小/最大的可实现的噪声扩增之间建立分析性下限。对于所有稳定参数,这些边界与条件编号双重规模。我们还使用本文中开发的几何见解来引入两个参数化的算法族,这些算法族在噪声放大和沉降时间之间取得平衡,同时保留订单的帕累托最佳性。最后,对于一类连续的时梯度流动动力学(其合适的离散化都会产生两步动量算法),我们建立了类似的下限,同时也随条件数的数字四次扩展。
translated by 谷歌翻译
如今,重球(HB)是非凸优化中最流行的动量方法之一。已经广泛观察到,将重球动态纳入基于梯度的方法中可以加速现代机器学习模型的训练过程。但是,建立其加速理论基础的进展显然远远落后于其经验成功。现有的可证明的加速结果是二次或近二次功能,因为当前显示HB加速度的技术仅限于Hessian固定时的情况。在这项工作中,我们开发了一些新技术,这些新技术有助于表现出二次超越二次的加速度,这是通过分析在两个连续时间点上如何变化的Hessian的变化来实现的,从而影响了收敛速度。基于我们的技术结果,一类Polyak- \ l {} Ojasiewicz(PL)优化问题可以通过HB确定可证明的加速度。此外,我们的分析证明了适应性设置动量参数的好处。
translated by 谷歌翻译
本文评价用机器学习问题的数值优化方法。由于机器学习模型是高度参数化的,我们专注于适合高维优化的方法。我们在二次模型上构建直觉,以确定哪种方法适用于非凸优化,并在凸函数上开发用于这种方法的凸起函数。随着随机梯度下降和动量方法的这种理论基础,我们试图解释为什么机器学习领域通常使用的方法非常成功。除了解释成功的启发式之外,最后一章还提供了对更多理论方法的广泛审查,这在实践中并不像惯例。所以在某些情况下,这项工作试图回答这个问题:为什么默认值中包含的默认TensorFlow优化器?
translated by 谷歌翻译