在本文中,我们介绍了训练两层过度参数的Relu神经网络中动量方法的收敛分析,其中参数的数量明显大于训练实例的参数。动量方法上的现有作品表明,重球方法(HB)和Nesterov的加速方法(NAG)共享相同的限制普通微分方程(ODE),从而导致相同的收敛速率。从高分辨率的动力学角度来看,我们表明HB与NAG在收敛速率方面有所不同。此外,我们的发现为HB和NAG的高分辨率ODES的收敛性提供了更严格的上限。
translated by 谷歌翻译
神经网络在许多领域取得了巨大的经验成功。已经观察到,通过一阶方法训练的随机初始化的神经网络能够实现接近零的训练损失,尽管其损失景观是非凸的并且不平滑的。这种现象很少有理论解释。最近,通过分析过参数化制度中的梯度下降〜(GD)和重球方法〜(HB)的梯度来弥合实践和理论之间的这种差距。在这项工作中,通过考虑Nesterov的加速梯度方法〜(nag),我们通过恒定的动量参数进行进一步进展。我们通过Relu激活分析其用于过度参数化的双层完全连接神经网络的收敛性。具体而言,我们证明了NAG的训练误差以非渐近线性收敛率$(1- \θ(1 / \ sqrt {\ kappa}))收敛到零(1 / \ sqrt {\ kappa})^ t $ the $ t $迭代,其中$ \ Kappa> 1 $由神经网络的初始化和架构决定。此外,我们在NAG和GD和HB的现有收敛结果之间提供了比较。我们的理论结果表明,NAG实现了GD的加速度,其会聚率与HB相当。此外,数值实验验证了我们理论分析的正确性。
translated by 谷歌翻译
在本文中,我们遵循Eftekhari的工作,为深线性网络提供非局部收敛性分析。具体地,我们考虑优化具有在二次损耗下具有一个神经元的层的深度线性网络。我们描述了在梯度流动下具有任意起点的轨迹的收敛点,包括将其收敛到鞍点或原始点之一的路径。我们还显示了通过阶段收敛到全球最小化器的轨迹的特定收敛速度。为实现这些结果,本文主要延伸了Eftekhari的工作中的机器,以证明秩稳定集和全球最小化器会聚集。我们还提供具体示例以表明我们定义的必要性。据我们所知,我们的结果似乎是第一个从任意初始化点给出线性神经网络的非本地全球分析,而不是借导于神经网络文献,并限制良性培训制度Eftekhari工作中的初始化。我们还注意到,在没有一个隐藏的神经元假设的情况下将结果扩展到一般线性网络,仍然是一个具有挑战性的公开问题。
translated by 谷歌翻译
尽管他们的超大容量过度装备能力,但是由特定优化算法训练的深度神经网络倾向于概括到看不见的数据。最近,研究人员通过研究优化算法的隐式正则化效果来解释它。卓越的进展是工作(Lyu&Li,2019),其证明了梯度下降(GD)最大化了均匀深神经网络的余量。除GD外,诸如Adagrad,RMSProp和Adam之类的自适应算法由于其快速培训过程而流行。然而,仍然缺乏适应性优化算法的概括的理论保证。在本文中,我们研究了自适应优化算法的隐式正则化,当它们在均匀深神经网络上优化逻辑损失时。我们证明了在调节器(如亚当和RMSProp)中采用指数移动平均策略的自适应算法可以最大化神经网络的余量,而Adagrad直接在调节器中总和历史平方梯度。它表明了调节剂设计中指数移动平均策略的概括的优越性。从技术上讲,我们提供统一的框架,通过构建新的自适应梯度流量和代理余量来分析自适应优化算法的会聚方向。我们的实验可以很好地支持适应性优化算法的会聚方向的理论发现。
translated by 谷歌翻译
遵循与[SSJ20]相同的常规,我们继续在本文中介绍具有动量(SGD)的随机梯度下降的理论分析。不同的是,对于具有动量的SGD,我们证明了这是两个超参数在一起,学习率和动量系数,它在非convex优化中的线性收敛速率起着重要作用。我们的分析基于使用超参数依赖性随机微分方程(HP依赖性SDE),该方程是SGD的连续替代,并具有动量。同样,我们通过动量建立了SGD连续时间公式的线性收敛,并通过分析Kramers-Fokker-Planck操作员的光谱来获得最佳线性速率的显式表达。相比之下,我们证明,仅在引入动量时,仅在学习率方面的最佳线性收敛速率和SGD的最终差距如何随着动量系数从零增加到一个而变化。然后,我们提出了一种数学解释,为什么具有动量的SGD比在实践中比标准SGD更快,更强大的学习率收敛。最后,我们显示了在噪声存在下的Nesterov动量与标准动量没有根本差异。
translated by 谷歌翻译
如今,重球(HB)是非凸优化中最流行的动量方法之一。已经广泛观察到,将重球动态纳入基于梯度的方法中可以加速现代机器学习模型的训练过程。但是,建立其加速理论基础的进展显然远远落后于其经验成功。现有的可证明的加速结果是二次或近二次功能,因为当前显示HB加速度的技术仅限于Hessian固定时的情况。在这项工作中,我们开发了一些新技术,这些新技术有助于表现出二次超越二次的加速度,这是通过分析在两个连续时间点上如何变化的Hessian的变化来实现的,从而影响了收敛速度。基于我们的技术结果,一类Polyak- \ l {} Ojasiewicz(PL)优化问题可以通过HB确定可证明的加速度。此外,我们的分析证明了适应性设置动量参数的好处。
translated by 谷歌翻译
优化算法越来越多地用于具有有限时间预算的应用中。在许多实时和嵌入式方案中,只能执行少数迭代,并且传统的收敛度量不能用于评估这些非渐近制度中的性能。在本文中,我们研究了加速的一阶优化算法的瞬态行为。对于凸二次出现问题,我们采用了线性系统理论的工具,以表明瞬态增长出现来自非正常动态的存在。我们确定存在早期迭代中的代数生长的模式的存在,并量化由这些模式引起的最佳解决方案的瞬态偏​​移。对于强烈凸的光滑优化问题,我们利用积分二次限制(IQC)的理论来建立核心加速算法瞬态响应的大小。我们表明,优化变量与全球最小化器之间的欧几里德距离和瞬态峰值的上升时间与问题的条件数量的平方根成比例。最后,对于条件数量的问题,我们展示了我们导致恒定因素的界限的紧张性。
translated by 谷歌翻译
我们调查随机镜面下降(SMD)的趋同相对光滑和平滑凸优化。在相对平滑的凸优化中,我们为SMD提供了新的收敛保证,并持续步骤。对于平滑的凸优化,我们提出了一种新的自适应步骤方案 - 镜子随机Polyak Spectize(MSP)。值得注意的是,我们的收敛导致两个设置都不会使有界渐变假设或有界方差假设,并且我们向邻域显示在插值下消失的邻居的融合。MSP概括了最近提出的随机Polyak Spectize(SPS)(Loizou等,2021)以镜子血液镜子,并且在继承镜子血清的好处的同时,现代机器学习应用仍然是实用和高效的。我们将我们的结果与各种监督的学习任务和SMD的不同实例相结合,展示了MSP的有效性。
translated by 谷歌翻译
加速梯度方法是大规模,数据驱动优化问题的基石,其在机器学习和其他关于数据分析的其他领域出现的自然。我们介绍了一种基于梯度的优化框架,用于实现加速度,基于最近引入了动态系统的固定时间稳定性的概念。该方法本身表示作为基于简单的基于梯度的方法的概括,适当地缩放以在固定时间内实现对优化器的收敛,与初始化无关。我们通过首先利用用于设计定时稳定动态系统的连续时间框架来实现这一目标,并且稍后提供一致的离散化策略,使得等效的离散时间算法在实际固定数量的迭代中跟踪优化器。我们还提供了对所提出的梯度流动的收敛行为的理论分析,以及他们对遵循强大凸起,严格凸起,并且可能不承受的功能的一系列功能的鲁造性,但满足Polyak - {\ l} Ojasiewicz不平等。我们还表明,由于定时收敛,收敛率的遗憾是恒定的。普遍的参数具有直观的解释,可以调整以适应所需的收敛速率的要求。我们验证了针对最先进的优化算法的一系列数值示例上提出的方案的加速收敛性。我们的工作提供了通过连续时间流动的离散化开发新颖优化算法的见解。
translated by 谷歌翻译
Q学习长期以来一直是最受欢迎的强化学习算法之一,几十年来,Q学习的理论分析一直是一个活跃的研究主题。尽管对Q-学习的渐近收敛分析的研究具有悠久的传统,但非肿瘤收敛性直到最近才受到积极研究。本文的主要目的是通过控制系统的观点研究马尔可夫观察模型下异步Q学习的新有限时间分析。特别是,我们引入了Q学习的离散时间变化的开关系统模型,并减少了分析的步骤尺寸,这显着改善了使用恒定步骤尺寸的开关系统分析的最新开发,并导致\(\(\)(\) Mathcal {o} \ left(\ sqrt {\ frac {\ log k} {k}}} \ right)\)\)\)\)\)\)\)\)与大多数艺术状态相当或更好。同时,新应用了使用类似转换的技术,以避免通过减小的步骤尺寸提出的分析中的难度。提出的分析带来了其他见解,涵盖了不同的方案,并提供了新的简化模板,以通过其独特的连接与离散时间切换系统的独特联系来加深我们对Q学习的理解。
translated by 谷歌翻译
在本文中,我们研究并证明了拟牛顿算法的Broyden阶级的非渐近超线性收敛速率,包括Davidon - Fletcher - Powell(DFP)方法和泡沫 - 弗莱彻 - 夏诺(BFGS)方法。这些准牛顿方法的渐近超线性收敛率在文献中已经广泛研究,但它们明确的有限时间局部会聚率未得到充分调查。在本文中,我们为Broyden Quasi-Newton算法提供了有限时间(非渐近的)收敛分析,在目标函数强烈凸起的假设下,其梯度是Lipschitz连续的,并且其Hessian在最佳解决方案中连续连续。我们表明,在最佳解决方案的本地附近,DFP和BFGS生成的迭代以$(1 / k)^ {k / 2} $的超连线率收敛到最佳解决方案,其中$ k $是迭代次数。我们还证明了类似的本地超连线收敛结果,因为目标函数是自我协调的情况。几个数据集的数值实验证实了我们显式的收敛速度界限。我们的理论保证是第一个为准牛顿方法提供非渐近超线性收敛速率的效果之一。
translated by 谷歌翻译
本文研究了拟牛顿方法求解强凸强凹鞍点问题(SPP)。我们提出了SPP一般贪婪Broyden族更新,其中有$明确的局部超线性收敛速度的变体{\mathcalØ}\大(\大(1\压裂{1}{N\卡帕^2}\大)^ {K(K-1)/ 2}\大)$,其中$N $是问题的尺寸,$ \卡帕$是条件数和$$ķ是迭代次数。设计和算法的分析是基于估计不定Hessian矩阵的平方,这是从在凸优化古典准牛顿方法的不同。我们还提出两个具体Broyden族算法与BFGS型和SR1型更新,其享受的$更快的局部收敛速度\mathcalØ\大(\大(1\压裂{1} {N}\大)^{K(K-1)/ 2}\大)$。
translated by 谷歌翻译
Gradient descent finds a global minimum in training deep neural networks despite the objective function being non-convex. The current paper proves gradient descent achieves zero training loss in polynomial time for a deep overparameterized neural network with residual connections (ResNet). Our analysis relies on the particular structure of the Gram matrix induced by the neural network architecture. This structure allows us to show the Gram matrix is stable throughout the training process and this stability implies the global optimality of the gradient descent algorithm. We further extend our analysis to deep residual convolutional neural networks and obtain a similar convergence result.
translated by 谷歌翻译
几种广泛使用的一阶马鞍点优化方法将衍生天然衍生时的梯度下降成本(GDA)方法的相同连续时间常分等式(ODE)。然而,即使在简单的双线性游戏上,它们的收敛性也很差异。我们使用一种来自流体动力学的技术,称为高分辨率微分方程(HRDE)来设计几个骑马点优化方法的杂散。在双线性游戏中,派生HRDE的收敛性属性对应于起始离散方法的收敛性。使用这些技术,我们表明乐观梯度下降的HRDE具有最后迭代单调变分不等式的迭代收敛。据我们所知,这是第一个连续时间动态,用于收敛此类常规设置。此外,我们提供了ogda方法的最佳迭代收敛的速率,仅依靠单调运营商的一阶平滑度。
translated by 谷歌翻译
自适应梯度算法(例如Adagrad及其变体)在培训深神经网络方面已广受欢迎。尽管许多适合自适应方法的工作都集中在静态的遗憾上,作为实现良好遗憾保证的性能指标,但对这些方法的动态遗憾分析尚不清楚。与静态的遗憾相反,动态遗憾被认为是绩效测量的更强大的概念,因为它明确阐明了环境的非平稳性。在本文中,我们通过动态遗憾的概念在一个强大的凸面设置中浏览了Adagrad(称为M-Adagrad)的一种变体,该遗憾衡量了在线学习者的性能,而不是参考(最佳)解决方案,这可能会改变时间。我们证明了根据最小化序列的路径长度的束缚,该序列基本上反映了环境的非平稳性。此外,我们通过利用每个回合中学习者的多个访问权限来增强动态遗憾。经验结果表明,M-Adagrad在实践中也很好。
translated by 谷歌翻译
连续时间扩散过程的离散化是一种广泛认可的采样方法。然而,当通常需要平滑(梯度Lipschitz)时,似乎是一个相当大的限制。本文研究了通过欧拉离散化进行采样的问题,其中潜在的功能被认为是弱平滑分布的混合物,满足弱耗散。我们在Kullback-Leibler(KL)发散中建立了迭代的趋势,以达到$ \ epsilon $ - 仅在维度上的多项式依赖性的目标分布。我们在放松\citet{}erdogdu2020convergence无穷条件退化凸和庞加莱下证明收敛担保\'{E}不平等或不强烈外凸球。此外,我们还提供了$ l _ {\ beta} $ - Wasserstein度量的融合,用于平滑潜力。
translated by 谷歌翻译
文献中随机梯度方法的绝大多数收敛速率分析集中在预期中的收敛性,而轨迹的几乎确定的收敛对于确保随机算法的任何实例化都会与概率相关。在这里,我们为随机梯度下降(SGD),随机重球(SHB)和随机Nesterov的加速梯度(SNAG)方法提供了几乎确定的收敛速率分析。我们首次显示,这些随机梯度方法在强凸功能上获得的几乎确定的收敛速率已任意接近其最佳收敛速率。对于非凸目标函数,我们不仅表明平方梯度规范的加权平均值几乎可以肯定地收敛到零,而且是算法的最后一次迭代。与文献中的大多数现有结果相反,我们进一步为弱凸平平滑功能的随机梯度方法提供了最后的几乎确定的收敛速率分析,而文献中的大多数现有结果仅提供了对迭代率的加权平均值的预期。
translated by 谷歌翻译
最近对基于置换的SGD的接地结果进行了证实了广泛观察到的现象:随机排列提供更快的收敛性,而不是更换采样。但是,是随机的最佳状态吗?我们表明这一点在很大程度上取决于我们正在优化的功能,并且最佳和随机排放之间的收敛差距可能因指数而异。我们首先表明,对于具有光滑的第二衍生物的1维强凸功能,与随机相比,存在令人指导的收敛性的排列。但是,对于一般强凸的功能,随机排列是最佳的。最后,我们表明,对于二次,强凸的功能,与随机相比,存在易于构建的置换,从而导致加速会聚。我们的研究结果表明,最佳排列的一般收敛性表征不能捕获各个函数类的细微差别,并且可能错误地表明一个人不能比随机更好。
translated by 谷歌翻译
这项研究开发了一个固定时间收敛的鞍点动力学系统,用于在标准凸孔腔假设的放松下解决最小值问题。特别是,通过利用优化算法的动力学系统观点,可以获得加速到鞍点的收敛。而不是要求目标函数是强率 - 巧妙的concave(由于需要加速几个鞍点算法的加速收敛),而是保证仅满足双面Polyak的功能,可以保证均匀的固定时间收敛性 - {\ l} ojasiewicz(pl)不等式。已知大量的实际问题,包括可靠的最小二乘估计,可以满足双面PL不平等。与任何其他具有线性甚至超级线性收敛的最先进方法相比,所提出的方法可实现任意快速的收敛性,并且在数值案例研究中也得到了证实。
translated by 谷歌翻译
古典统计学习理论表示,拟合太多参数导致过度舒服和性能差。尽管大量参数矛盾,但是现代深度神经网络概括了这一发现,并构成了解释深度学习成功的主要未解决的问题。随机梯度下降(SGD)引起的隐式正规被认为是重要的,但其特定原则仍然是未知的。在这项工作中,我们研究了当地最小值周围的能量景观的局部几何学如何影响SGD的统计特性,具有高斯梯度噪声。我们争辩说,在合理的假设下,局部几何形状力强制SGD保持接近低维子空间,这会引起隐式正则化并导致深神经网络的泛化误差界定更严格的界限。为了获得神经网络的泛化误差界限,我们首先引入局部最小值周围的停滞迹象,并施加人口风险的局部基本凸性财产。在这些条件下,推导出SGD的下界,以保留在这些停滞套件中。如果发生停滞,我们会导出涉及权重矩阵的光谱规范的深神经网络的泛化误差的界限,但不是网络参数的数量。从技术上讲,我们的证据基于控制SGD中的参数值的变化以及基于局部最小值周围的合适邻域的熵迭代的参数值和局部均匀收敛。我们的工作试图通过统一收敛更好地连接非凸优化和泛化分析。
translated by 谷歌翻译