在本文中,我们提出了一种量化的学习方程,具有对所提出的算法的量化和随机分析的单调增加分辨率。根据致密且均匀分布的量化误差的白噪声假设,我们可以将量化误差视为i.i.d. \白噪声。基于此,我们表明,具有单调增加量化分辨率的学习方程作为分布观点略微收敛。本文的分析表明,全局优化对于满足Lipschitz条件的域,而不是局部会聚属性,例如客观函数的Hessian约束。
translated by 谷歌翻译
In this study, we propose a global optimization algorithm based on quantizing the energy level of an objective function in an NP-hard problem. According to the white noise hypothesis for a quantization error with a dense and uniform distribution, we can regard the quantization error as i.i.d. white noise. From stochastic analysis, the proposed algorithm converges weakly only under conditions satisfying Lipschitz continuity, instead of local convergence properties such as the Hessian constraint of the objective function. This shows that the proposed algorithm ensures global optimization by Laplace's condition. Numerical experiments show that the proposed algorithm outperforms conventional learning methods in solving NP-hard optimization problems such as the traveling salesman problem.
translated by 谷歌翻译
深度神经网络和其他现代机器学习模型的培训通常包括解决高维且受大规模数据约束的非凸优化问题。在这里,基于动量的随机优化算法在近年来变得尤其流行。随机性来自数据亚采样,从而降低了计算成本。此外,动量和随机性都应该有助于算法克服当地的最小化器,并希望在全球范围内融合。从理论上讲,这种随机性和动量的结合被糟糕地理解。在这项工作中,我们建议并分析具有动量的随机梯度下降的连续时间模型。该模型是一个分段确定的马尔可夫过程,它通过阻尼不足的动态系统和通过动力学系统的随机切换来代表粒子运动。在我们的分析中,我们研究了长期限制,子采样到无填充采样极限以及动量到非摩托车的限制。我们对随着时间的推移降低动量的情况特别感兴趣:直觉上,动量有助于在算法的初始阶段克服局部最小值,但禁止后来快速收敛到全球最小化器。在凸度的假设下,当降低随时间的动量时,我们显示了动力学系统与全局最小化器的收敛性,并让子采样率转移到无穷大。然后,我们提出了一个稳定的,合成的离散方案,以从我们的连续时间动力学系统中构造算法。在数值实验中,我们研究了我们在凸面和非凸测试问题中的离散方案。此外,我们训练卷积神经网络解决CIFAR-10图像分类问题。在这里,与动量相比,我们的算法与随机梯度下降相比达到了竞争性结果。
translated by 谷歌翻译
尽管他们的超大容量过度装备能力,但是由特定优化算法训练的深度神经网络倾向于概括到看不见的数据。最近,研究人员通过研究优化算法的隐式正则化效果来解释它。卓越的进展是工作(Lyu&Li,2019),其证明了梯度下降(GD)最大化了均匀深神经网络的余量。除GD外,诸如Adagrad,RMSProp和Adam之类的自适应算法由于其快速培训过程而流行。然而,仍然缺乏适应性优化算法的概括的理论保证。在本文中,我们研究了自适应优化算法的隐式正则化,当它们在均匀深神经网络上优化逻辑损失时。我们证明了在调节器(如亚当和RMSProp)中采用指数移动平均策略的自适应算法可以最大化神经网络的余量,而Adagrad直接在调节器中总和历史平方梯度。它表明了调节剂设计中指数移动平均策略的概括的优越性。从技术上讲,我们提供统一的框架,通过构建新的自适应梯度流量和代理余量来分析自适应优化算法的会聚方向。我们的实验可以很好地支持适应性优化算法的会聚方向的理论发现。
translated by 谷歌翻译
在负面的感知问题中,我们给出了$ n $数据点$({\ boldsymbol x} _i,y_i)$,其中$ {\ boldsymbol x} _i $是$ d $ -densional vector和$ y_i \ in \ { + 1,-1 \} $是二进制标签。数据不是线性可分离的,因此我们满足自己的内容,以找到最大的线性分类器,具有最大的\ emph {否定}余量。换句话说,我们想找到一个单位常规矢量$ {\ boldsymbol \ theta} $,最大化$ \ min_ {i \ le n} y_i \ langle {\ boldsymbol \ theta},{\ boldsymbol x} _i \ rangle $ 。这是一个非凸优化问题(它相当于在Polytope中找到最大标准矢量),我们在两个随机模型下研究其典型属性。我们考虑比例渐近,其中$ n,d \ to \ idty $以$ n / d \ to \ delta $,并在最大边缘$ \ kappa _ {\ text {s}}(\ delta)上证明了上限和下限)$或 - 等效 - 在其逆函数$ \ delta _ {\ text {s}}(\ kappa)$。换句话说,$ \ delta _ {\ text {s}}(\ kappa)$是overparametization阈值:以$ n / d \ le \ delta _ {\ text {s}}(\ kappa) - \ varepsilon $一个分类器实现了消失的训练错误,具有高概率,而以$ n / d \ ge \ delta _ {\ text {s}}(\ kappa)+ \ varepsilon $。我们在$ \ delta _ {\ text {s}}(\ kappa)$匹配,以$ \ kappa \ to - \ idty $匹配。然后,我们分析了线性编程算法来查找解决方案,并表征相应的阈值$ \ delta _ {\ text {lin}}(\ kappa)$。我们观察插值阈值$ \ delta _ {\ text {s}}(\ kappa)$和线性编程阈值$ \ delta _ {\ text {lin {lin}}(\ kappa)$之间的差距,提出了行为的问题其他算法。
translated by 谷歌翻译
我们研究随机梯度下降(SGD)动态轨迹的统计特性。我们将Mini-Batch SGD和动量SGD视为随机微分方程(SDES)。我们利用了SDE的连续制定和Fokker-Planck方程的理论,在逃避现象和大批次和尖锐最小值的关系中开发新结果。特别是,我们发现随机过程解决方案倾向于会聚到渐渐的最小值,而无论渐近状态中的批量大小如何。但是,收敛速度严格被证明依赖于批量尺寸。这些结果经验验证了各种数据集和模型。
translated by 谷歌翻译
基于稳定性的概念,我们研究嘈杂随机迷你批量迭代算法的泛化界限。近年来,基于稳定性(Mou等,2018; Li等,2020)和信息理论方法(Mou等,2018)和信息理论方法(徐和Raginsky,2017; Negrea等,2019年; Steinke和Zakynthinou,2020; Haghifam等,2020)。在本文中,我们统一和基本上概括了基于稳定的泛化范围,并进行了三个技术进步。首先,我们在预期(不统一)稳定性方面绑定了一般噪声随机迭代算法(不一定梯度下降)的泛化误差。预期的稳定性又可以通过LE凸轮风格的偏差界定。与o(1 / \ sqrt {n})的许多现有范围不同,这种界限具有O(1 / n)样本依赖性。其次,我们介绍指数族族朗文动力学(EFLD),这是SGLD的大量概括,其允许与随机梯度下降(SGD)一起使用的指数家庭噪声。我们为一般EFLD算法建立基于数据相关的预期稳定性的泛化界。第三,我们考虑一个重要的特殊情况:EFLD的一个重要特殊情况:嘈杂的符号-SGD,它使用{-1,+ 1}的Bernoulli噪声扩展标志SGD。 EFLD的危识符号的泛化界限暗示了EFLD的暗示,我们还建立了算法的优化保证。此外,我们在基准数据集中呈现实证结果,以说明我们的界限与现有界限不上且定量。
translated by 谷歌翻译
了解随机梯度下降(SGD)的隐式偏见是深度学习的关键挑战之一,尤其是对于过度透明的模型,损失功能的局部最小化$ l $可以形成多种多样的模型。从直觉上讲,SGD $ \ eta $的学习率很小,SGD跟踪梯度下降(GD),直到它接近这种歧管为止,梯度噪声阻止了进一步的收敛。在这样的政权中,Blanc等人。 (2020)证明,带有标签噪声的SGD局部降低了常规术语,损失的清晰度,$ \ mathrm {tr} [\ nabla^2 l] $。当前的论文通过调整Katzenberger(1991)的想法提供了一个总体框架。它原则上允许使用随机微分方程(SDE)描述参数的限制动力学的SGD围绕此歧管的正规化效应(即“隐式偏见”)的正则化效应,这是由损失共同确定的功能和噪声协方差。这产生了一些新的结果:(1)与Blanc等人的局部分析相比,对$ \ eta^{ - 2} $ steps有效的隐性偏差进行了全局分析。 (2020)仅适用于$ \ eta^{ - 1.6} $ steps和(2)允许任意噪声协方差。作为一个应用程序,我们以任意大的初始化显示,标签噪声SGD始终可以逃脱内核制度,并且仅需要$ o(\ kappa \ ln d)$样本用于学习$ \ kappa $ -sparse $ -sparse yroverparame parametrized linearized Linear Modal in $ \ Mathbb {r}^d $(Woodworth等,2020),而GD在内核制度中初始化的GD需要$ \ omega(d)$样本。该上限是最小值的最佳,并改善了先前的$ \ tilde {o}(\ kappa^2)$上限(Haochen等,2020)。
translated by 谷歌翻译
进化策略(ES)是黑框连续优化的有前途的算法类别之一。尽管在应用方面取得了广泛的成功,但对其收敛速度的理论分析在凸二次函数及其单调转换方面受到限制。%从理论上讲,它在凸功能上的收敛速度速度仍然很模糊。在这项研究中,(1+1)-ES在本地$ l $ -l $ -lipschitz连续梯度上的上限和下限(1+1)-ES的线性收敛速率被推导为$ \ exp \左( - \ omega_ {d \ to \ infty} \ left(\ frac {l} {d \ cdot u} \ right)\ right)\ right)$ and $ \ exp \ left( - \ frac1d \ right)$。值得注意的是,对目标函数的数学特性(例如Lipschitz常数)的任何先验知识均未给出算法,而现有的无衍生化优化算法的现有分析则需要它们。
translated by 谷歌翻译
古典统计学习理论表示,拟合太多参数导致过度舒服和性能差。尽管大量参数矛盾,但是现代深度神经网络概括了这一发现,并构成了解释深度学习成功的主要未解决的问题。随机梯度下降(SGD)引起的隐式正规被认为是重要的,但其特定原则仍然是未知的。在这项工作中,我们研究了当地最小值周围的能量景观的局部几何学如何影响SGD的统计特性,具有高斯梯度噪声。我们争辩说,在合理的假设下,局部几何形状力强制SGD保持接近低维子空间,这会引起隐式正则化并导致深神经网络的泛化误差界定更严格的界限。为了获得神经网络的泛化误差界限,我们首先引入局部最小值周围的停滞迹象,并施加人口风险的局部基本凸性财产。在这些条件下,推导出SGD的下界,以保留在这些停滞套件中。如果发生停滞,我们会导出涉及权重矩阵的光谱规范的深神经网络的泛化误差的界限,但不是网络参数的数量。从技术上讲,我们的证据基于控制SGD中的参数值的变化以及基于局部最小值周围的合适邻域的熵迭代的参数值和局部均匀收敛。我们的工作试图通过统一收敛更好地连接非凸优化和泛化分析。
translated by 谷歌翻译
尽管训练速度更快,但虽然亚当 - 相似的自适应梯度算法与SGD相比遭受较差的概率性能。这项工作旨在通过分析其本地融合行为来提供对该概括性差距的谅解。具体来说,我们观察这些算法中的梯度噪声的重尾。这使我们通过其征收驱动的随机微分方程(SDE)来分析这些算法,因为算法及其SDE的相似性行为。然后我们从本地盆地建立了这些SDE的逃逸时间。结果表明,(1)SGD和ADAM〜逃逸时间〜取决于盆地的氡度量,梯度噪声的沉重效果负面; (2)对于同一个盆地,SGD享有比亚当更小的逃逸时间,主要是因为(a)ADAM〜通过自适应地缩放的几何适应,每个梯度坐标很好地减少了梯度噪声中的各向异性结构,并导致盆地的较大氡量度; (b)亚当〜adamiential梯度平均平均值平滑其梯度,并导致比SGD更轻的梯度噪声尾。因此,SGD比ADAM〜在夏普最小值中更为不稳定,定义为当地盆地具有小氡度量的最小值,并且可以更好地逃离它们以更大的氡度量效果。在这里,这通常是在平面或不对称盆地/谷的最小值,通常比锐利更概括,我们的结果阐述了SGD对亚当的更好的泛化表现。最后,实验结果证实了我们重型落后的渐变噪声假设和理论肯定。
translated by 谷歌翻译
我们为随机梯度Langevin动态(SGLD)建立了泛化误差界,在耗散度和平滑度的假设下,在采样/优化文献中得到了增加的环境。与非凸面设置中的SGLD的现有范围不同,由于样本大小的增加,我们的SGLD与SGL的界限不同,并且随着样本量的增加而衰减至零。利用均匀稳定性框架,我们通过利用Langevin扩散的Wasserstein收缩属性来建立无关的界限,这也允许我们规避需要使用LipsChitz的假设来绑定渐变的渐变。我们的分析还支持使用不同离散化方法的SGLD的变体,包括欧几里德投影,或使用非各向同性噪声。
translated by 谷歌翻译
我们研究了$ \ Mathcal {r} $的结构和统计属性 - 规范最小化由特定目标函数标记的数据集的内侧插值。$ \ MATHCAL {R} $ - 标准是两层神经网络的电感偏差的基础,最近引入了捕获网络权重大小的功能效果,与网络宽度无关。我们发现,即使有适合数据的脊函数,这些插值也是本质上的多元功能,而且$ \ Mathcal {r} $ - 规范归纳偏见不足以实现某些学习问题的统计上最佳概括。总的来说,这些结果为与实际神经网络训练有关的感应偏见提供了新的启示。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
随机梯度算法在大规模学习和推理问题中广泛用于优化和采样。但是,实际上,调整这些算法通常是使用启发式和反复试验而不是严格的,可概括的理论来完成的。为了解决理论和实践之间的这一差距,我们通过表征具有固定步长的非常通用的预处理随机梯度算法的迭代术的大样本行为来对调整参数的效果进行新的见解。在优化设置中,我们的结果表明,具有较大固定步长的迭代平均值可能会导致(局部)M-静态器的统计效率近似。在抽样环境中,我们的结果表明,通过适当的调整参数选择,限制固定协方差可以与Bernstein匹配 - 后验的von Mises限制,对模型错误指定后验的调整或MLE的渐近分布;而幼稚的调整极限与这些都不相对应。此外,我们认为可以在数据集对固定数量的通行证后获得基本独立的样本。我们使用模拟和真实数据通过多个实验来验证渐近样结果。总体而言,我们证明具有恒定步长的正确调整的随机梯度算法为获得点估计或后部样品提供了计算上有效且统计上健壮的方法。
translated by 谷歌翻译
连续数据的优化问题出现在,例如强大的机器学习,功能数据分析和变分推理。这里,目标函数被给出为一个(连续)索引目标函数的系列 - 相对于概率测量集成的族聚集。这些问题通常可以通过随机优化方法解决:在随机切换指标执行关于索引目标函数的优化步骤。在这项工作中,我们研究了随机梯度下降算法的连续时间变量,以进行连续数据的优化问题。该所谓的随机梯度过程包括最小化耦合与确定索引的连续时间索引过程的索引目标函数的梯度流程。索引过程是例如,反射扩散,纯跳跃过程或紧凑空间上的其他L evy过程。因此,我们研究了用于连续数据空间的多种采样模式,并允许在算法的运行时进行模拟或流式流的数据。我们分析了随机梯度过程的近似性质,并在恒定下进行了长时间行为和遍历的学习率。我们以噪声功能数据的多项式回归问题以及物理知识的神经网络在多项式回归问题中结束了随机梯度过程的适用性。
translated by 谷歌翻译
在机器学习中,随机梯度下降(SGD)被广泛部署到使用具有同样复杂噪声模型的高度非凸目标的训练模型。不幸的是,SGD理论通常会做出限制性的假设,这些假设无法捕获实际问题的非跨性别,并且几乎完全忽略了实践中存在的复杂噪声模型。在这项工作中,我们在这一缺点上取得了长足的进步。首先,我们确定SGD的迭代将在几乎任意的非概念和噪声模型下全球收敛到固定点或分歧。在对文献中当前假设的非跨性别和噪声模型的共同行为的限制性稍微限制性的假设下,我们表明,即使迭代分歧,目标函数也无法分歧。由于我们的结果,可以将SGD应用于更大范围的随机优化问题,并在其全球收敛行为和稳定性上充满信心。
translated by 谷歌翻译
Quantization has become a predominant approach for model compression, enabling deployment of large models trained on GPUs onto smaller form-factor devices for inference. Quantization-aware training (QAT) optimizes model parameters with respect to the end task while simulating quantization error, leading to better performance than post-training quantization. Approximation of gradients through the non-differentiable quantization operator is typically achieved using the straight-through estimator (STE) or additive noise. However, STE-based methods suffer from instability due to biased gradients, whereas existing noise-based methods cannot reduce the resulting variance. In this work, we incorporate exponentially decaying quantization-error-aware noise together with a learnable scale of task loss gradient to approximate the effect of a quantization operator. We show this method combines gradient scale and quantization noise in a better optimized way, providing finer-grained estimation of gradients at each weight and activation layer's quantizer bin size. Our controlled noise also contains an implicit curvature term that could encourage flatter minima, which we show is indeed the case in our experiments. Experiments training ResNet architectures on the CIFAR-10, CIFAR-100 and ImageNet benchmarks show that our method obtains state-of-the-art top-1 classification accuracy for uniform (non mixed-precision) quantization, out-performing previous methods by 0.5-1.2% absolute.
translated by 谷歌翻译
We investigate the asymptotic properties of deep Residual networks (ResNets) as the number of layers increases. We first show the existence of scaling regimes for trained weights markedly different from those implicitly assumed in the neural ODE literature. We study the convergence of the hidden state dynamics in these scaling regimes, showing that one may obtain an ODE, a stochastic differential equation (SDE) or neither of these. In particular, our findings point to the existence of a diffusive regime in which the deep network limit is described by a class of stochastic differential equations (SDEs). Finally, we derive the corresponding scaling limits for the backpropagation dynamics.
translated by 谷歌翻译
在随机微分方程(SDE)的固定分布上进行优化在计算上具有挑战性。最近提出了一种新的远期传播算法,以在线优化SDE。该算法求解了使用正向分化得出的SDE,从而为梯度提供了随机估计。该算法连续更新SDE模型的参数和梯度估计值。本文研究了非线性耗散SDE的正向传播算法的收敛性。我们利用这类非线性SDE的怪异性来表征过渡半组及其衍生物的收敛速率。然后,我们证明了泊松部分微分方程(PDE)的求和,对于算法的随机波动的预期时间积分围绕最陡下降的方向而言。然后,我们使用PDE溶液重写算法,这使我们能够表征围绕最陡下降方向的参数演化。我们的主要结果是针对非线性耗散SDE的正向传播算法的收敛定理。
translated by 谷歌翻译