研究随机噪声的特性以优化复杂的非凸函数一直是机器学习领域的活跃研究领域。先前的工作表明,随机梯度下降的噪声通过克服景观中的不良障碍来改善优化。此外,注射人造高斯噪音已成为快速逃脱鞍点的流行想法。确实,在没有可靠的梯度信息的情况下,噪声用于探索景观,但目前尚不清楚哪种类型的噪声在探索能力方面是最佳的。为了在我们的知识上缩小这一差距,我们基于布朗尼运动的一般类型的连续时间非马克维亚过程,该过程允许该过程的相关性增加。这将基于布朗运动(例如Ornstein-Uhlenbeck过程)进行概括。我们演示了如何离散此类过程,从而导致新算法FPGD。该方法是已知算法PGD和抗PGD的概括。我们在理论上和经验上都研究了FPGD的特性,表明它具有勘探能力,在某些情况下,它比PGD和抗PGD有利。这些结果为利用噪声用于训练机器学习模型的新颖方式开辟了领域。
translated by 谷歌翻译
我们提出了一种基于langevin扩散的算法,以在球体的产物歧管上进行非凸优化和采样。在对数Sobolev不平等的情况下,我们根据Kullback-Leibler Divergence建立了有限的迭代迭代收敛到Gibbs分布的保证。我们表明,有了适当的温度选择,可以保证,次级最小值的次数差距很小,概率很高。作为一种应用,我们考虑了使用对角线约束解决半决赛程序(SDP)的burer- monteiro方法,并分析提出的langevin算法以优化非凸目标。特别是,我们为Burer建立了对数Sobolev的不平等现象 - 当没有虚假的局部最小值时,但在鞍点下,蒙蒂罗问题。结合结果,我们为SDP和最大切割问题提供了全局最佳保证。更确切地说,我们证明了Langevin算法在$ \ widetilde {\ omega}(\ epsilon^{ - 5})$ tererations $ tererations $ \ widetilde {\ omega}(\ omega}中,具有很高的概率。
translated by 谷歌翻译
尽管训练速度更快,但虽然亚当 - 相似的自适应梯度算法与SGD相比遭受较差的概率性能。这项工作旨在通过分析其本地融合行为来提供对该概括性差距的谅解。具体来说,我们观察这些算法中的梯度噪声的重尾。这使我们通过其征收驱动的随机微分方程(SDE)来分析这些算法,因为算法及其SDE的相似性行为。然后我们从本地盆地建立了这些SDE的逃逸时间。结果表明,(1)SGD和ADAM〜逃逸时间〜取决于盆地的氡度量,梯度噪声的沉重效果负面; (2)对于同一个盆地,SGD享有比亚当更小的逃逸时间,主要是因为(a)ADAM〜通过自适应地缩放的几何适应,每个梯度坐标很好地减少了梯度噪声中的各向异性结构,并导致盆地的较大氡量度; (b)亚当〜adamiential梯度平均平均值平滑其梯度,并导致比SGD更轻的梯度噪声尾。因此,SGD比ADAM〜在夏普最小值中更为不稳定,定义为当地盆地具有小氡度量的最小值,并且可以更好地逃离它们以更大的氡度量效果。在这里,这通常是在平面或不对称盆地/谷的最小值,通常比锐利更概括,我们的结果阐述了SGD对亚当的更好的泛化表现。最后,实验结果证实了我们重型落后的渐变噪声假设和理论肯定。
translated by 谷歌翻译
在负面的感知问题中,我们给出了$ n $数据点$({\ boldsymbol x} _i,y_i)$,其中$ {\ boldsymbol x} _i $是$ d $ -densional vector和$ y_i \ in \ { + 1,-1 \} $是二进制标签。数据不是线性可分离的,因此我们满足自己的内容,以找到最大的线性分类器,具有最大的\ emph {否定}余量。换句话说,我们想找到一个单位常规矢量$ {\ boldsymbol \ theta} $,最大化$ \ min_ {i \ le n} y_i \ langle {\ boldsymbol \ theta},{\ boldsymbol x} _i \ rangle $ 。这是一个非凸优化问题(它相当于在Polytope中找到最大标准矢量),我们在两个随机模型下研究其典型属性。我们考虑比例渐近,其中$ n,d \ to \ idty $以$ n / d \ to \ delta $,并在最大边缘$ \ kappa _ {\ text {s}}(\ delta)上证明了上限和下限)$或 - 等效 - 在其逆函数$ \ delta _ {\ text {s}}(\ kappa)$。换句话说,$ \ delta _ {\ text {s}}(\ kappa)$是overparametization阈值:以$ n / d \ le \ delta _ {\ text {s}}(\ kappa) - \ varepsilon $一个分类器实现了消失的训练错误,具有高概率,而以$ n / d \ ge \ delta _ {\ text {s}}(\ kappa)+ \ varepsilon $。我们在$ \ delta _ {\ text {s}}(\ kappa)$匹配,以$ \ kappa \ to - \ idty $匹配。然后,我们分析了线性编程算法来查找解决方案,并表征相应的阈值$ \ delta _ {\ text {lin}}(\ kappa)$。我们观察插值阈值$ \ delta _ {\ text {s}}(\ kappa)$和线性编程阈值$ \ delta _ {\ text {lin {lin}}(\ kappa)$之间的差距,提出了行为的问题其他算法。
translated by 谷歌翻译
Reinforcement learning is a framework for interactive decision-making with incentives sequentially revealed across time without a system dynamics model. Due to its scaling to continuous spaces, we focus on policy search where one iteratively improves a parameterized policy with stochastic policy gradient (PG) updates. In tabular Markov Decision Problems (MDPs), under persistent exploration and suitable parameterization, global optimality may be obtained. By contrast, in continuous space, the non-convexity poses a pathological challenge as evidenced by existing convergence results being mostly limited to stationarity or arbitrary local extrema. To close this gap, we step towards persistent exploration in continuous space through policy parameterizations defined by distributions of heavier tails defined by tail-index parameter alpha, which increases the likelihood of jumping in state space. Doing so invalidates smoothness conditions of the score function common to PG. Thus, we establish how the convergence rate to stationarity depends on the policy's tail index alpha, a Holder continuity parameter, integrability conditions, and an exploration tolerance parameter introduced here for the first time. Further, we characterize the dependence of the set of local maxima on the tail index through an exit and transition time analysis of a suitably defined Markov chain, identifying that policies associated with Levy Processes of a heavier tail converge to wider peaks. This phenomenon yields improved stability to perturbations in supervised learning, which we corroborate also manifests in improved performance of policy search, especially when myopic and farsighted incentives are misaligned.
translated by 谷歌翻译
了解随机梯度下降(SGD)的隐式偏见是深度学习的关键挑战之一,尤其是对于过度透明的模型,损失功能的局部最小化$ l $可以形成多种多样的模型。从直觉上讲,SGD $ \ eta $的学习率很小,SGD跟踪梯度下降(GD),直到它接近这种歧管为止,梯度噪声阻止了进一步的收敛。在这样的政权中,Blanc等人。 (2020)证明,带有标签噪声的SGD局部降低了常规术语,损失的清晰度,$ \ mathrm {tr} [\ nabla^2 l] $。当前的论文通过调整Katzenberger(1991)的想法提供了一个总体框架。它原则上允许使用随机微分方程(SDE)描述参数的限制动力学的SGD围绕此歧管的正规化效应(即“隐式偏见”)的正则化效应,这是由损失共同确定的功能和噪声协方差。这产生了一些新的结果:(1)与Blanc等人的局部分析相比,对$ \ eta^{ - 2} $ steps有效的隐性偏差进行了全局分析。 (2020)仅适用于$ \ eta^{ - 1.6} $ steps和(2)允许任意噪声协方差。作为一个应用程序,我们以任意大的初始化显示,标签噪声SGD始终可以逃脱内核制度,并且仅需要$ o(\ kappa \ ln d)$样本用于学习$ \ kappa $ -sparse $ -sparse yroverparame parametrized linearized Linear Modal in $ \ Mathbb {r}^d $(Woodworth等,2020),而GD在内核制度中初始化的GD需要$ \ omega(d)$样本。该上限是最小值的最佳,并改善了先前的$ \ tilde {o}(\ kappa^2)$上限(Haochen等,2020)。
translated by 谷歌翻译
古典统计学习理论表示,拟合太多参数导致过度舒服和性能差。尽管大量参数矛盾,但是现代深度神经网络概括了这一发现,并构成了解释深度学习成功的主要未解决的问题。随机梯度下降(SGD)引起的隐式正规被认为是重要的,但其特定原则仍然是未知的。在这项工作中,我们研究了当地最小值周围的能量景观的局部几何学如何影响SGD的统计特性,具有高斯梯度噪声。我们争辩说,在合理的假设下,局部几何形状力强制SGD保持接近低维子空间,这会引起隐式正则化并导致深神经网络的泛化误差界定更严格的界限。为了获得神经网络的泛化误差界限,我们首先引入局部最小值周围的停滞迹象,并施加人口风险的局部基本凸性财产。在这些条件下,推导出SGD的下界,以保留在这些停滞套件中。如果发生停滞,我们会导出涉及权重矩阵的光谱规范的深神经网络的泛化误差的界限,但不是网络参数的数量。从技术上讲,我们的证据基于控制SGD中的参数值的变化以及基于局部最小值周围的合适邻域的熵迭代的参数值和局部均匀收敛。我们的工作试图通过统一收敛更好地连接非凸优化和泛化分析。
translated by 谷歌翻译
从数据中学习的方法取决于各种类型的调整参数,例如惩罚强度或步长大小。由于性能可以在很大程度上取决于这些参数,因此重要的是要比较估算器的类别 - 考虑规定的有限调谐参数集,而不是特别调谐的方法。在这项工作中,我们通过同类中最佳方法的相对性能研究方法类。我们考虑了线性回归的中心问题,即随机的各向同性地面真理,并研究了两种基本方法的估计性能,即梯度下降和脊回归。我们公布以下现象。 (1)对于一般设计,当经验数据协方差矩阵衰减的特征值缓慢,作为指数较不小于统一的功率定律时,恒定的梯度下降优于山脊回归。相反,如果特征值迅速衰减,则作为指数大于统一或指数的权力定律,我们表明山脊回归优于梯度下降。 (2)对于正交设计,我们计算了确切的最小值最佳估计器类别(达到最低最大最大最佳),这表明它等同于具有衰减学习率的梯度下降。我们发现山脊回归和梯度下降的次数均具有恒定的步长。我们的结果表明,统计性能可以在很大程度上取决于调整参数。特别是,虽然最佳调谐脊回归是我们设置中的最佳估计器,但当仅在有限的许多正则化参数上调整两种方法时,它可以用任意/无界数量的梯度下降来表现优于梯度下降。
translated by 谷歌翻译
了解培训算法的隐含偏差至关重要,以解释过度分化的神经网络的成功。在本文中,我们通过连续时间版本,即随机梯度流来研究对对角线线性网络的随机梯度下降的动态。我们明确地表征了随机流动选择的解决方案,并证明它总是享有比梯度流量更好的泛化特性。令人惊讶的是,我们表明训练损失的收敛速度控制了偏置效果的大小:收敛速度较慢,偏置越好。要完全完成我们的分析,我们提供动态的收敛保证。我们还提供了支持我们的理论索赔的实验结果。我们的研究结果强调了结构化噪音可以引起更好的概括,并且它们有助于解释在梯度下降的随机梯度下降方面观察到的更大表现。
translated by 谷歌翻译
我们证明了由例如He等人提出的广泛使用的方法。(2015年)并使用梯度下降对最小二乘损失进行训练并不普遍。具体而言,我们描述了一大批一维数据生成分布,较高的概率下降只会发现优化景观的局部最小值不好,因为它无法将其偏离偏差远离其初始化,以零移动。。事实证明,在这些情况下,即使目标函数是非线性的,发现的网络也基本执行线性回归。我们进一步提供了数值证据,表明在实际情况下,对于某些多维分布而发生这种情况,并且随机梯度下降表现出相似的行为。我们还提供了有关初始化和优化器的选择如何影响这种行为的经验结果。
translated by 谷歌翻译
这项工作表征了深度对线性回归优化景观的影响,表明尽管具有非凸性,但更深的模型具有更理想的优化景观。我们考虑了一个健壮且过度参数化的设置,其中测量的子集严重损坏了噪声,真正的线性模型将通过$ n $ layer-layer线性神经网络捕获。在负面方面,我们表明这个问题\ textit {do}具有良性景观:给定任何$ n \ geq 1 $,具有恒定概率,存在与既不是本地也不是全局最小值的地面真理的解决方案。但是,从积极的一面来看,我们证明,对于具有$ n \ geq 2 $的任何$ n $ layer模型,一种简单的次级方法变得忽略了这种``有问题的''解决方案;取而代之的是,它收敛于平衡的解决方案,该解决方案不仅接近地面真理,而且享有平坦的当地景观,从而避免了“早期停止”的需求。最后,我们从经验上验证了更深层模型的理想优化格局扩展到其他强大的学习任务,包括具有$ \ ell_1 $ -loss的深层矩阵恢复和深度relu网络。
translated by 谷歌翻译
本文评价用机器学习问题的数值优化方法。由于机器学习模型是高度参数化的,我们专注于适合高维优化的方法。我们在二次模型上构建直觉,以确定哪种方法适用于非凸优化,并在凸函数上开发用于这种方法的凸起函数。随着随机梯度下降和动量方法的这种理论基础,我们试图解释为什么机器学习领域通常使用的方法非常成功。除了解释成功的启发式之外,最后一章还提供了对更多理论方法的广泛审查,这在实践中并不像惯例。所以在某些情况下,这项工作试图回答这个问题:为什么默认值中包含的默认TensorFlow优化器?
translated by 谷歌翻译
We consider stochastic gradient descents on the space of large symmetric matrices of suitable functions that are invariant under permuting the rows and columns using the same permutation. We establish deterministic limits of these random curves as the dimensions of the matrices go to infinity while the entries remain bounded. Under a "small noise" assumption the limit is shown to be the gradient flow of functions on graphons whose existence was established in arXiv:2111.09459. We also consider limits of stochastic gradient descents with added properly scaled reflected Brownian noise. The limiting curve of graphons is characterized by a family of stochastic differential equations with reflections and can be thought of as an extension of the classical McKean-Vlasov limit for interacting diffusions. The proofs introduce a family of infinite-dimensional exchangeable arrays of reflected diffusions and a novel notion of propagation of chaos for large matrices of interacting diffusions.
translated by 谷歌翻译
批准方法,例如批处理[Ioffe和Szegedy,2015],体重[Salimansand Kingma,2016],实例[Ulyanov等,2016]和层归一化[Baet al。,2016]已广泛用于现代机器学习中。在这里,我们研究了体重归一化方法(WN)方法[Salimans和Kingma,2016年],以及一种称为重扎式投影梯度下降(RPGD)的变体,用于过多散热性最小二乘回归。 WN和RPGD用比例G和一个单位向量W重新绘制权重,因此目标函数变为非convex。我们表明,与原始目标的梯度下降相比,这种非凸式配方具有有益的正则化作用。这些方法适应性地使重量正规化并收敛于最小L2规范解决方案,即使初始化远非零。对于G和W的某些步骤,我们表明它们可以收敛于最小规范解决方案。这与梯度下降的行为不同,梯度下降的行为仅在特征矩阵范围内的一个点开始时才收敛到最小规范解,因此对初始化更敏感。
translated by 谷歌翻译
Cohen等人的深度学习实验。 [2021]使用确定性梯度下降(GD)显示学习率(LR)和清晰度(即Hessian最大的特征值)的稳定边缘(EOS)阶段不再像传统优化一样行为。清晰度稳定在$ 2/$ LR的左右,并且在迭代中损失不断上下,但仍有整体下降趋势。当前的论文数学分析了EOS阶段中隐式正则化的新机制,因此,由于非平滑损失景观而导致的GD更新沿着最小损失的多种流量进行了一些确定性流程发展。这与许多先前关于隐式偏差依靠无限更新或梯度中的噪声的结果相反。正式地,对于具有某些规律性条件的任何平滑函数$ l $,对于(1)标准化的GD,即具有不同的lr $ \ eta_t = \ frac {\ eta} {||的GD证明了此效果。 \ nabla l(x(t))||} $和损失$ l $; (2)具有常数LR和损失$ \ sqrt {l- \ min_x l(x)} $的GD。两者都可以证明进入稳定性的边缘,在歧管上相关的流量最小化$ \ lambda_ {1}(\ nabla^2 l)$。一项实验研究证实了上述理论结果。
translated by 谷歌翻译
We investigate the asymptotic properties of deep Residual networks (ResNets) as the number of layers increases. We first show the existence of scaling regimes for trained weights markedly different from those implicitly assumed in the neural ODE literature. We study the convergence of the hidden state dynamics in these scaling regimes, showing that one may obtain an ODE, a stochastic differential equation (SDE) or neither of these. In particular, our findings point to the existence of a diffusive regime in which the deep network limit is described by a class of stochastic differential equations (SDEs). Finally, we derive the corresponding scaling limits for the backpropagation dynamics.
translated by 谷歌翻译
我们研究了在高维度中具有恒定步骤的随机梯度下降(SGD)的缩放限制。我们证明,随着尺寸为无穷大,SGD的摘要统计轨迹(即有限维函数)的轨迹限制了定理。我们的方法允许人们选择所跟踪的摘要统计信息,初始化和步进尺寸。它同时产生弹道(ODE)和扩散(SDE)极限,其极限取决于以前的选择。有趣的是,我们发现了阶梯尺寸的临界缩放机制,在该尺寸下,有效的弹道动力学与人口损失相匹配,但是在此期间,出现了一个新的校正项,从而改变了相图。关于这种有效动力学的固定点,相应的扩散极限可能非常复杂,甚至退化。我们在流行示例中演示了我们的方法,包括估算峰值矩阵和张量模型以及通过两层网络进行二进制和XOR型高斯混合模型的分类。这些示例表现出令人惊讶的现象,包括多模式的时间尺度到收敛以及融合到亚最佳溶液中,概率从随机(例如高斯)初始化范围内偏离零。
translated by 谷歌翻译
我们考虑载有X_ {t + 1} = \ phi(a ^ * x_t)+ \ eta_t $的设置,其中$ \ eta_t $是无偏见的噪音和$ \ phi:\ mathbb {r \ to \ mathbb {r} $是已知的链接功能,满足某些{\ em扩展性属性}。目标是从单个轨迹$ x_1,\ cdots,x_t $的{\ em依赖或相关}样本中学习$ a ^ * $。虽然在线性案例中,在线性案例中的问题很好,而$ \ phi $是身份,但对于非混音系统,最佳错误率,即使是非混音系统,也存在于非线性案例的结果仅适用于混合系统。在这项工作中,我们以多种方式改善了用于学习非线性系统的现有结果:a)我们提供了在没有混合假设的情况下学习非线性动态系统的第一个离线算法,B)我们显着提高了现有的样本复杂性结果混合系统,c)在更难的单遍,流媒体设置中,我们研究了一个具有反向体验的SGD($ \ MATHSF {SGD-RER} $)方法,并证明用于混合系统,它实现了相同的样本复杂性作为我们的离线算法,d)我们通过表示流行的Relu链接功能来证明扩张假设 - 一种与IID的非膨胀而易于学习的链接函数样本 - 任何方法都需要指数呈现许多样本(相对于X_T $的维度)来自动态系统。我们通过验证我们的结果。仿真并证明SGD的天真应用可以高度次优。实际上,我们的工作表明,对于相关的数据,专门用于数据中的依赖结构的专用方法可以显着优于基于标准的SGD方法。
translated by 谷歌翻译
深度神经网络和其他现代机器学习模型的培训通常包括解决高维且受大规模数据约束的非凸优化问题。在这里,基于动量的随机优化算法在近年来变得尤其流行。随机性来自数据亚采样,从而降低了计算成本。此外,动量和随机性都应该有助于算法克服当地的最小化器,并希望在全球范围内融合。从理论上讲,这种随机性和动量的结合被糟糕地理解。在这项工作中,我们建议并分析具有动量的随机梯度下降的连续时间模型。该模型是一个分段确定的马尔可夫过程,它通过阻尼不足的动态系统和通过动力学系统的随机切换来代表粒子运动。在我们的分析中,我们研究了长期限制,子采样到无填充采样极限以及动量到非摩托车的限制。我们对随着时间的推移降低动量的情况特别感兴趣:直觉上,动量有助于在算法的初始阶段克服局部最小值,但禁止后来快速收敛到全球最小化器。在凸度的假设下,当降低随时间的动量时,我们显示了动力学系统与全局最小化器的收敛性,并让子采样率转移到无穷大。然后,我们提出了一个稳定的,合成的离散方案,以从我们的连续时间动力学系统中构造算法。在数值实验中,我们研究了我们在凸面和非凸测试问题中的离散方案。此外,我们训练卷积神经网络解决CIFAR-10图像分类问题。在这里,与动量相比,我们的算法与随机梯度下降相比达到了竞争性结果。
translated by 谷歌翻译
在本文中,我们研究了学习最适合培训数据集的浅层人工神经网络的问题。我们在过度参数化的制度中研究了这个问题,在该制度中,观测值的数量少于模型中的参数数量。我们表明,通过二次激活,训练的优化景观这种浅神经网络具有某些有利的特征,可以使用各种局部搜索启发式方法有效地找到全球最佳模型。该结果适用于输入/输出对的任意培训数据。对于可区分的激活函数,我们还表明,适当初始化的梯度下降以线性速率收敛到全球最佳模型。该结果着重于选择输入的可实现模型。根据高斯分布和标签是根据种植的重量系数生成的。
translated by 谷歌翻译