Nesterov的加速准牛顿(L)Naq方法已经显示出在几个神经网络(NN)应用中使用Nesterov的加速梯度加速了传统(L)BFGS准牛顿方法。然而,每个迭代的两个梯度的计算增加了计算成本。动量加速的准牛顿(MOQ)方法表明,Nesterov的加速梯度可以近似为过去梯度的线性组合。此摘要将MoQ近似扩展到有限的内存NAQ并评估函数近似问题的性能。
translated by 谷歌翻译
We explore the usage of the Levenberg-Marquardt (LM) algorithm for regression (non-linear least squares) and classification (generalized Gauss-Newton methods) tasks in neural networks. We compare the performance of the LM method with other popular first-order algorithms such as SGD and Adam, as well as other second-order algorithms such as L-BFGS , Hessian-Free and KFAC. We further speed up the LM method by using adaptive momentum, learning rate line search, and uphill step acceptance.
translated by 谷歌翻译
内核逻辑回归(KLR)是机器学习中常规的非线性分类器。随着数据大小的爆炸性增长,大型核矩阵的存储和计算是扩展KLR的主要挑战。即使是nyStr \” {o} m近似也用于求解KLR,它还面临$ O(nc^2)$的时间复杂性和$ O(NC)$的空间复杂性,其中$ n是$ n $的数字培训实例和$ c $是抽样大小。在本文中,我们提出了一种快速的牛顿方法,通过利用存储和计算优势,有效地解决了大规模KLR问题,多级循环矩阵(MCM)。带有MCM的矩阵,存储空间减少到$ O(n)$,并进一步近似于牛顿方程的系数矩阵作为MCM,牛顿迭代的计算复杂性降低到$ O(n \ log n \ log n)$。所提出的方法可以在迭代中以对数线性的时间复杂性运行,因为可以实现MCM(或其逆)和向量的乘法多维快速傅立叶变换(MFFT)。 - 分类问题表明,提出的方法启用了S KLR可以扩展到大规模的问题,而不必牺牲测试准确性的情况下,记忆消耗较少,较少的训练时间。
translated by 谷歌翻译
Deep Learning optimization involves minimizing a high-dimensional loss function in the weight space which is often perceived as difficult due to its inherent difficulties such as saddle points, local minima, ill-conditioning of the Hessian and limited compute resources. In this paper, we provide a comprehensive review of 12 standard optimization methods successfully used in deep learning research and a theoretical assessment of the difficulties in numerical optimization from the optimization literature.
translated by 谷歌翻译
Controller tuning is a vital step to ensure the controller delivers its designed performance. DiffTune has been proposed as an automatic tuning method that unrolls the dynamical system and controller into a computational graph and uses auto-differentiation to obtain the gradient for the controller's parameter update. However, DiffTune uses the vanilla gradient descent to iteratively update the parameter, in which the performance largely depends on the choice of the learning rate (as a hyperparameter). In this paper, we propose to use hyperparameter-free methods to update the controller parameters. We find the optimal parameter update by maximizing the loss reduction, where a predicted loss based on the approximated state and control is used for the maximization. Two methods are proposed to optimally update the parameters and are compared with related variants in simulations on a Dubin's car and a quadrotor. Simulation experiments show that the proposed first-order method outperforms the hyperparameter-based methods and is more robust than the second-order hyperparameter-free methods.
translated by 谷歌翻译
我们介绍了螺旋(一种超线性收敛的增量近端算法),用于在相对平滑度假设下求解非凸的正则有限总和问题。本着Svrg和Sarah的精神,螺旋的每一个迭代都由一个内部和外循环组成。它将增量和完整(近端)梯度更新与LineSearch相结合。结果表明,在使用准牛顿方向时,在极限点的轻度假设下达到了超线性收敛。更重要的是,多亏了该线路搜索,确保全球融合得以确保最终将始终接受单位步骤。在不同的凸,非凸和非lipschitz可区分问题上的仿真结果表明,我们的算法以及其自适应变体都与最新的状态竞争。
translated by 谷歌翻译
A central challenge to many fields of science and engineering involves minimizing non-convex error functions over continuous, high dimensional spaces. Gradient descent or quasi-Newton methods are almost ubiquitously used to perform such minimizations, and it is often thought that a main source of difficulty for these local methods to find the global minimum is the proliferation of local minima with much higher error than the global minimum. Here we argue, based on results from statistical physics, random matrix theory, neural network theory, and empirical evidence, that a deeper and more profound difficulty originates from the proliferation of saddle points, not local minima, especially in high dimensional problems of practical interest. Such saddle points are surrounded by high error plateaus that can dramatically slow down learning, and give the illusory impression of the existence of a local minimum. Motivated by these arguments, we propose a new approach to second-order optimization, the saddle-free Newton method, that can rapidly escape high dimensional saddle points, unlike gradient descent and quasi-Newton methods. We apply this algorithm to deep or recurrent neural network training, and provide numerical evidence for its superior optimization performance. This work extends the results of .
translated by 谷歌翻译
深度学习在广泛的AI应用方面取得了有希望的结果。较大的数据集和模型一致地产生更好的性能。但是,我们一般花费更长的培训时间,以更多的计算和沟通。在本调查中,我们的目标是在模型精度和模型效率方面提供关于大规模深度学习优化的清晰草图。我们调查最常用于优化的算法,详细阐述了大批量培训中出现的泛化差距的可辩论主题,并审查了解决通信开销并减少内存足迹的SOTA策略。
translated by 谷歌翻译
稀疏贝叶斯学习(SBL)构建了一个极其稀疏的概率模型,具有非常竞争力的泛化。但是,SBL需要将大型协方差矩阵与复杂性O(m ^ 3)(m:特征大小)反转,以更新正则化引脚,使得难以进行实际使用。 SBL中有三个问题:1)反转协方差矩阵可能在某些情况下获得奇异溶液,从而从收敛中阻碍SBL; 2)对高维特征空间或大数据尺寸的问题的可扩展性差; 3)SBL容易受到大规模数据的内存溢出。本文通过新提出的对角QuAsi-Newton(DQN)方法来解决DQN-SBL的新提出的对准Quasi-Newton(DQN)方法,其中忽略了大协方差矩阵的反转,使得复杂性和存储器存储减少到O(M)。使用不同大小的各种基准数据集,在非线性分类器和线性特征选择上进行彻底评估DQN-SBL。实验结果验证DQN-SBL是否通过非常稀疏的模型接收竞争泛化,并符合大规模问题。
translated by 谷歌翻译
在本文中,我们提出了SC-REG(自助正规化)来学习过共同的前馈神经网络来学习\ EMPH {牛顿递减}框架的二阶信息进行凸起问题。我们提出了具有自助正规化(得分-GGN)算法的广义高斯 - 牛顿,其每次接收到新输入批处理时都会更新网络参数。所提出的算法利用Hessian矩阵中的二阶信息的结构,从而减少训练计算开销。虽然我们的目前的分析仅考虑凸面的情况,但数值实验表明了我们在凸和非凸面设置下的方法和快速收敛的效率,这对基线一阶方法和准牛顿方法进行了比较。
translated by 谷歌翻译
深度学习的最新进展使神经网络(NNS)能够在许多应用中成功地取代传统的数控求解器,从而实现令人印象深刻的计算收益。一个这样的应用是时域模拟,这对于许多工程系统的设计,分析和操作是必不可少的。模拟基于牛顿的求解器的动态系统是一种计算繁忙的任务,因为它需要在每个时间步骤解决差分和代数方程的参数化系统的解决方案。已经显示了各种基于NN的方法,以成功地近似于数值溶剂计算的轨迹。但是,以前的一些工程已经使用NNS来模拟数值求解器本身。为了快速加速时域模拟速度的表达目的,本文提出并探索了两个互补的替代数字溶剂。首先,我们使用NN以模仿由逆雅加诺在单个牛顿步骤中提供的线性变换。使用此过程,我们评估并将基于物理的残余错误评估并将基于NN映射的确切,物理的残留错误项目进行评估并将其留下物理为“循环”中的“循环”。所得到的工具称为物理投影的神经 - 牛顿求解器(Prenn),能够在观察到的速度下实现极高的数值准确度,其比基于牛顿的求解器更快地高达31%。在第二种方法中,我们将牛顿求解器在隐式跳动-Kutta积分器的核心上模拟,作为一个契约地图,迭代地寻求时域轨迹的一个固定点。相关的复发性NN仿真工具被称为合同神经牛顿求解器(Conns),嵌入有训练约束(通过CVXPY层),该训练约束(通过CVXPY层),保证NN提供的映射满足BANACH定点定理。
translated by 谷歌翻译
多年来,对加密数据的逻辑回归培训一直是对安全问题的一个有吸引力的想法。在本文中,我们提出了一个更快的梯度变体,称为$ \ texttt {二次梯度} $,以在同构加密域中实现逻辑回归训练,其核心可以看作是简化固定固定hessian的扩展。我们使用该梯度变体分别增强了Nesterov的加速梯度(NAG)和自适应梯度算法(Adagrad),并评估了几个数据集中的增强算法。实验结果表明,与幼稚的一阶梯度方法相比,增强的方法在收敛速度方面具有最先进的性能。然后,我们采用增强的NAG方法来实施同型逻辑回归培训,并仅获得3美元的迭代效果。
translated by 谷歌翻译
这项研究为连续时间(确定性)动态系统的结构化非线性控制提供了一个政策优化框架。所提出的方法根据相关科学知识(例如Lyapunov稳定理论或领域经验)规定控制器的结构,同时考虑给定结构内的可调元素作为神经网络的参数化点。为了优化作为神经网络权重的函数代表的成本,提出的方法利用基于伴随灵敏度分析的连续时间策略梯度方法作为正确和性能计算成本梯度的手段。这使得将反馈控制器的分析衍生结构的稳定性,鲁棒性和物理解释性结合在一起,并结合了机器学习技术提供的代表性灵活性和优化的结果性能。这种用于固定结构控制合成的混合范式对于优化适应性非线性控制器以提高在线操作中的性能特别有用,在线操作中,现有理论在结构上占上风,同时缺乏对收益和不确定性调谐的明确分析理解控制性能特征的模型基础函数。航空应用上的数值实验说明了结构化非线性控制器优化框架的实用性。
translated by 谷歌翻译
为了最大程度地减少一组对数符号函数的平均值,随机牛顿方法迭代使用完整目标的梯度和Hessian的亚采样版本更新其估计。我们将这个优化问题与具有区分指定观察过程的潜在状态空间模型上的顺序贝叶斯推断相关。然后,应用贝叶斯过滤会产生一种新颖的优化算法,该算法在形成更新时考虑了梯度和黑森的整个历史。我们建立基于基质的条件,在这种条件下,旧观测的影响随着时间的流逝而减少,类似于Polyak的重球动量。我们通过示例说明了我们方法的各个方面,并回顾了随机牛顿方法的其他相关创新。
translated by 谷歌翻译
The notion of a Moreau envelope is central to the analysis of first-order optimization algorithms for machine learning. Yet, it has not been developed and extended to be applied to a deep network and, more broadly, to a machine learning system with a differentiable programming implementation. We define a compositional calculus adapted to Moreau envelopes and show how to integrate it within differentiable programming. The proposed framework casts in a mathematical optimization framework several variants of gradient back-propagation related to the idea of the propagation of virtual targets.
translated by 谷歌翻译
Gradient boosting is a prediction method that iteratively combines weak learners to produce a complex and accurate model. From an optimization point of view, the learning procedure of gradient boosting mimics a gradient descent on a functional variable. This paper proposes to build upon the proximal point algorithm, when the empirical risk to minimize is not differentiable, in order to introduce a novel boosting approach, called proximal boosting. It comes with a companion algorithm inspired by [1] and called residual proximal boosting, which is aimed at better controlling the approximation error. Theoretical convergence is proved for these two procedures under different hypotheses on the empirical risk and advantages of leveraging proximal methods for boosting are illustrated by numerical experiments on simulated and real-world data. In particular, we exhibit a favorable comparison over gradient boosting regarding convergence rate and prediction accuracy.
translated by 谷歌翻译
倾斜的随机生存森林(RSF)是一种用于右翼结果的合奏监督学习方法。斜RSF中的树是使用预测变量的线性组合生长的,以创建分支,而在标准RSF中,使用单个预测变量。倾斜的RSF集合通常比标准RSF合奏具有更高的预测准确性。但是,评估预测变量的所有可能的线性组合会诱导大量的计算开销,从而将应用限制为大规模数据集。此外,几乎没有开发用于解释斜RSF合奏的方法,与基于轴的对应物相比,它们仍然难以解释。我们介绍了一种提高斜力RSF计算效率的方法,以及一种用斜RSF估计单个预测变量重要性的方法。我们减少计算开销的策略是利用牛顿 - 拉夫森评分(Newton-Raphson)评分,这是一种经典的优化技术,我们适用于决策树的每个非叶子节点内的COX部分似然函数。我们通过在线性组合中否定了用于给定预测指标的每个系数,然后计算出降低的降低准确性,从而估计单个预测因子对斜RSF的重要性。通常,在基准测试实验中,我们发现,与现有的斜RSF相比,与现有软件相比,我们对斜RSF的实现速度约为450倍,而较高的Brier得分则要高450倍。我们在模拟研究中发现,“否定重要性”比置换重要性,莎普利添加性解释和先前引入的技术更可靠地区分相关和无关的预测因子,以基于方差分析来衡量斜RSF的可变重要性。当前研究中引入的方法可在AORSF R软件包中获得。
translated by 谷歌翻译
在本文中,我们解决了逆转图像滤波器效果的新问题,该图像过滤器可以是线性的或非线性的。假设是滤波器的算法未知,滤波器可作为黑框。我们为最小化本地补丁的成本函数和使用总衍生物来近似于梯度下降以解决问题的渐变来制定该逆问题。我们分析影响傅里叶域中输出的收敛和质量的因素。我们还研究加速梯度下降算法在三个无梯度的反向滤波器中的应用,包括本文提出的较方案。我们提出了广泛的实验结果,以评估所提出的算法的复杂性和有效性。结果表明,所提出的算法优于现有技术(1),它与最快的反向滤波器的复杂程度相同,但它可以反转更多数量的滤波器,并且(2)它可以反转与非常复杂的反滤波器的过滤器相同的滤波器列表,但其复杂性要小得多。
translated by 谷歌翻译
目前,深层神经网络(DNN)主要使用一阶方法进行训练。其中一些方法(例如Adam,Adagrad和Rmsprop及其变体)通过使用对角线矩阵来预先处理随机梯度。最近,通过通过按层块 - diagonal矩阵对随机梯度进行预处理,已开发出有效的二阶方法,例如KFAC,K-BFGS,洗发水和TNT。在这里,我们提出了一种自适应的“迷你块Fisher(MBF)”预处理方法,其中在这两类方法之间。具体而言,我们的方法对经验渔民矩阵使用块对基近似值,在DNN中的每一层(无论是卷积还是馈送)和完全连接,相关的对角线本身都是块 - diagonal,并且由A组成。大量适度的迷你块。我们的新方法利用GPU的并行性来有效地对每一层的大量矩阵进行计算。因此,MBF的均值计算成本仅略高于一阶方法。将我们提出的方法的性能与在自动编码器和CNN问题上的几种基线方法进行了比较,以在时间效率和概括功率方面验证其有效性。最后,证明MBF的理想化版本线性收敛。
translated by 谷歌翻译
在本文中,我们研究并证明了拟牛顿算法的Broyden阶级的非渐近超线性收敛速率,包括Davidon - Fletcher - Powell(DFP)方法和泡沫 - 弗莱彻 - 夏诺(BFGS)方法。这些准牛顿方法的渐近超线性收敛率在文献中已经广泛研究,但它们明确的有限时间局部会聚率未得到充分调查。在本文中,我们为Broyden Quasi-Newton算法提供了有限时间(非渐近的)收敛分析,在目标函数强烈凸起的假设下,其梯度是Lipschitz连续的,并且其Hessian在最佳解决方案中连续连续。我们表明,在最佳解决方案的本地附近,DFP和BFGS生成的迭代以$(1 / k)^ {k / 2} $的超连线率收敛到最佳解决方案,其中$ k $是迭代次数。我们还证明了类似的本地超连线收敛结果,因为目标函数是自我协调的情况。几个数据集的数值实验证实了我们显式的收敛速度界限。我们的理论保证是第一个为准牛顿方法提供非渐近超线性收敛速率的效果之一。
translated by 谷歌翻译