稀疏性损失最小化问题在包括机器学习,数据挖掘和现代统计的各个领域中起着重要作用。近端梯度下降法和坐标下降法是解决最小化问题的最流行方法。尽管现有方法可以实现隐式模型识别,但在有限数量的迭代中,也就是支持集合识别,但在高维情况下,这些方法仍然遭受巨大的计算成本和内存负担。原因是这些方法中的支持集识别是隐式的,因此无法明确识别实践中的低复杂性结构,即,它们无法通过降低尺寸丢弃相关特征的无用系数,以实现算法加速。为了应对这一挑战,我们提出了一种新颖的加速双随机梯度下降(ADSGD)方法,用于稀疏性损失最小化问题,这可以通过在优化过程中消除无效系数来减少块迭代次数的数量,并最终实现更快的显式模型识别和改进的模型识别和改进和改进的模型识别和改进速度算法效率。从理论上讲,我们首先证明ADSGD可以达到线性收敛速率并降低总体计算复杂性。更重要的是,我们证明ADSGD可以实现显式模型识别的线性速率。从数值上讲,基准数据集上的实验结果证实了我们提出的方法的效率。
translated by 谷歌翻译
Sparsity promoting regularizers are widely used to impose low-complexity structure (e.g. l1-norm for sparsity) to the regression coefficients of supervised learning. In the realm of deterministic optimization, the sequence generated by iterative algorithms (such as proximal gradient descent) exhibit "finite activity identification", namely, they can identify the low-complexity structure in a finite number of iterations. However, most online algorithms (such as proximal stochastic gradient descent) do not have the property owing to the vanishing step-size and non-vanishing variance. In this paper, by combining with a screening rule, we show how to eliminate useless features of the iterates generated by online algorithms, and thereby enforce finite activity identification. One consequence is that when combined with any convergent online algorithm, sparsity properties imposed by the regularizer can be exploited for computational gains. Numerically, significant acceleration can be obtained.
translated by 谷歌翻译
最佳子集选择被认为是许多稀疏学习问题的“黄金标准”。已经提出了各种优化技术来攻击这一非凸和NP障碍问题。在本文中,我们研究了$ \ ell_0 $登记的问题的双重形式。基于原始和双重问题结构已经开发了一种有效的原始偶对偶方法。通过利用双重范围估计以及增量策略,我们的算法可能会减少冗余计算并改善最佳子集选择的解决方案。关于合成和现实世界数据集的理论分析和实验验证了拟议溶液的效率和统计特性。
translated by 谷歌翻译
Convex function constrained optimization has received growing research interests lately. For a special convex problem which has strongly convex function constraints, we develop a new accelerated primal-dual first-order method that obtains an $\Ocal(1/\sqrt{\vep})$ complexity bound, improving the $\Ocal(1/{\vep})$ result for the state-of-the-art first-order methods. The key ingredient to our development is some novel techniques to progressively estimate the strong convexity of the Lagrangian function, which enables adaptive step-size selection and faster convergence performance. In addition, we show that the complexity is further improvable in terms of the dependence on some problem parameter, via a restart scheme that calls the accelerated method repeatedly. As an application, we consider sparsity-inducing constrained optimization which has a separable convex objective and a strongly convex loss constraint. In addition to achieving fast convergence, we show that the restarted method can effectively identify the sparsity pattern (active-set) of the optimal solution in finite steps. To the best of our knowledge, this is the first active-set identification result for sparsity-inducing constrained optimization.
translated by 谷歌翻译
在本文中,我们考虑通过结合目标函数的曲率信息来改善随机方差减少梯度(SVRG)方法。我们建议通过将其合并到SVRG中,以使用计算有效的Barzilai-Borwein(BB)方法来降低随机梯度的方差。我们还将BB步骤大小合并为其变体。我们证明其线性收敛定理不仅适用于所提出的方法,还适用于SVRG的其他现有变体,并使用二阶信息。我们在基准数据集上进行了数值实验,并表明具有恒定步长的提出方法的性能优于现有方差减少的方法,这些方法对于某些测试问题。
translated by 谷歌翻译
路径跟踪算法经常用于复合优化问题,其中一系列具有不同正则化超参数的子问题,顺序解决。通过将以前的解决方案重用为初始化,在数值上观察到更好的收敛速度。这使得它成为加速机器学习中优化算法的执行的相当有用的启发式。我们提出了路径跟踪算法的原始双重分析,并探索了如何设计其超参数,以及确定每个子问题的解决方案应该如何解决,以保证目标问题的线性收敛速度。此外,考虑用稀疏诱导惩罚的优化,我们分析了关于正则化参数的活动集的变化。然后可以自适应地校准后者以精细地确定沿解决方案路径选择的特征的数量。这导致简单的启发式校准主动集方法的超级参数,以降低他们的复杂性并提高他们的执行时间。
translated by 谷歌翻译
Nonconvex optimization is central in solving many machine learning problems, in which block-wise structure is commonly encountered. In this work, we propose cyclic block coordinate methods for nonconvex optimization problems with non-asymptotic gradient norm guarantees. Our convergence analysis is based on a gradient Lipschitz condition with respect to a Mahalanobis norm, inspired by a recent progress on cyclic block coordinate methods. In deterministic settings, our convergence guarantee matches the guarantee of (full-gradient) gradient descent, but with the gradient Lipschitz constant being defined w.r.t.~the Mahalanobis norm. In stochastic settings, we use recursive variance reduction to decrease the per-iteration cost and match the arithmetic operation complexity of current optimal stochastic full-gradient methods, with a unified analysis for both finite-sum and infinite-sum cases. We further prove the faster, linear convergence of our methods when a Polyak-{\L}ojasiewicz (P{\L}) condition holds for the objective function. To the best of our knowledge, our work is the first to provide variance-reduced convergence guarantees for a cyclic block coordinate method. Our experimental results demonstrate the efficacy of the proposed variance-reduced cyclic scheme in training deep neural nets.
translated by 谷歌翻译
在本文中,我们提出了一种称为ANITA的新型加速梯度方法,用于解决基本的有限和优化问题。具体而言,我们同时考虑一般凸面和强烈凸面设置:i)对于一般凸有限的和有限的问题,Anita改善了Varag给定的先前最新结果(Lan等,2019)。特别是,对于大规模问题或收敛错误不是很小,即$ n \ geq \ frac {1} {\ epsilon^2} $,Anita获得\ emph {first} optimal restion $ o(n )$,匹配Woodworth and Srebro(2016)提供的下限$ \ Omega(N)$,而先前的结果为$ O(N \ log \ frac {1} {\ epsilon})$ 。 ii)对于强烈凸有限的问题,我们还表明,Anita可以实现最佳收敛速率$ o \ big(((n+\ sqrt {\ frac {\ frac {nl} {\ mu}} {\ mu}})\ log \ log \ frac {1} {1} {1} {1} { \ epsilon} \ big)$匹配下限$ \ omega \ big(((n+\ sqrt {\ frac {nl} {nl} {\ mu}})\ log \ frac {1} {\ epsilon} {\ epsilon} \ big) Lan and Zhou(2015)。此外,与以前的加速算法(如Varag(Lan等,2019)和Katyusha(Allen-Zhu,2017年),Anita享有更简单的无环算法结构。此外,我们提供了一种新颖的\ emph {动态多阶段收敛分析},这是将先前结果提高到最佳速率的关键技术。我们认为,针对基本有限和有限问题的新理论率和新颖的收敛分析将直接导致许多其他相关问题(例如分布式/联合/联合/分散的优化问题)的关键改进(例如,Li和Richt \'Arik,2021年,2021年)。最后,数值实验表明,Anita收敛的速度比以前的最先进的Varag(Lan等,2019)更快,从而验证了我们的理论结果并证实了Anita的实践优势。
translated by 谷歌翻译
我们考虑最小化三个凸功能的总和,其中第一个f是光滑的,第二个f是非平滑且可近的,第三个是与线性操作员L的非光滑近似函数的组成。此模板问题具有许多应用程序,有许多应用程序,有许多应用程序,,具有许多应用程序,,具有许多应用程序。例如,在图像处理和机器学习中。首先,我们为这个问题提出了一种新的原始偶算法,我们称之为PDDY。它是通过将davis-yin分裂应用于原始二重式产品空间中的单调包含的,在特定度量下,操作员在特定度量下是单调的。我们显示了三种现有算法(Condat-VU算法的两种形式) PD3O算法)具有相同的结构,因此PDDY是这种自洽的原始偶算法中的第四个丢失链接。这种表示可以简化收敛分析:它使我们能够总体上得出sublinear收敛速率,而线性收敛导致存在强凸度的存在。此外,在我们的广泛而灵活的分析框架内,我们提出了对算法的新随机概括,其中使用了Friancation降低F梯度的随机估计值,而不是真实的梯度。此外,我们作为pddy的特殊情况获得了线性收敛算法,用于在线性约束下最小化强凸功能f。我们讨论了其对分散优化的重要应用。
translated by 谷歌翻译
彼得纤维优化已广泛应用于许多重要的机器学习应用,例如普带的参数优化和元学习。最近,已经提出了几种基于动量的算法来解决贝韦尔优化问题。但是,基于SGD的算法的$ \ Mathcal {\ widetilde o}(\ epsilon ^ {-2}),那些基于势头的算法不会达到可释放的计算复杂性。在本文中,我们提出了两种用于双纤维优化的新算法,其中第一算法采用基于动量的递归迭代,第二算法采用嵌套环路中的递归梯度估计来降低方差。我们表明这两种算法都达到了$ \ mathcal {\ widetilde o}的复杂性(\ epsilon ^ { - 1.5})$,这优于所有现有算法的级别。我们的实验验证了我们的理论结果,并展示了我们在封路数据应用程序中的算法的卓越实证性能。
translated by 谷歌翻译
Is it possible for a first-order method, i.e., only first derivatives allowed, to be quadratically convergent? For univariate loss functions, the answer is yes -- the Steffensen method avoids second derivatives and is still quadratically convergent like Newton method. By incorporating an optimal step size we can even push its convergence order beyond quadratic to $1+\sqrt{2} \approx 2.414$. While such high convergence orders are a pointless overkill for a deterministic algorithm, they become rewarding when the algorithm is randomized for problems of massive sizes, as randomization invariably compromises convergence speed. We will introduce two adaptive learning rates inspired by the Steffensen method, intended for use in a stochastic optimization setting and requires no hyperparameter tuning aside from batch size. Extensive experiments show that they compare favorably with several existing first-order methods. When restricted to a quadratic objective, our stochastic Steffensen methods reduce to randomized Kaczmarz method -- note that this is not true for SGD or SLBFGS -- and thus we may also view our methods as a generalization of randomized Kaczmarz to arbitrary objectives.
translated by 谷歌翻译
广义线性模型(GLM)形成了一类广泛的回归和分类模型,其中预测是输入变量的线性组合的函数。对于高维度的统计推断,事实证明,诱导正规化的稀疏性在提供统计保证时很有用。但是,解决最终的优化问题可能具有挑战性:即使对于流行的迭代算法,例如协调下降,也需要在大量变量上循环。为了减轻这种情况,称为筛选规则和工作集的技术可以通过逐步删除变量或解决增长的较小问题的序列来减少手头优化问题的大小。对于这两种技术,都可以鉴定出大量变量,这要归功于凸双重性论点。在本文中,我们表明,GLM的双重迭代在标志识别后表现出矢量自回归(VAR)行为,当使用近端梯度下降或环状坐标下降解决原始问题时。利用这种规律性,可以构建双重点,以提供最佳的最佳证书,增强筛选规则的性能并帮助设计竞争性的工作集算法。
translated by 谷歌翻译
找到模型的最佳超参数可以作为双重优化问题,通常使用零级技术解决。在这项工作中,当内部优化问题是凸但不平滑时,我们研究一阶方法。我们表明,近端梯度下降和近端坐标下降序列序列的前向模式分化,雅各比人会收敛到精确的雅各布式。使用隐式差异化,我们表明可以利用内部问题的非平滑度来加快计算。最后,当内部优化问题大约解决时,我们对高度降低的误差提供了限制。关于回归和分类问题的结果揭示了高参数优化的计算益处,尤其是在需要多个超参数时。
translated by 谷歌翻译
二重优化发现在现代机器学习问题中发现了广泛的应用,例如超参数优化,神经体系结构搜索,元学习等。而具有独特的内部最小点(例如,内部功能是强烈凸的,都具有唯一的内在最小点)的理解,这是充分理解的,多个内部最小点的问题仍然是具有挑战性和开放的。为此问题设计的现有算法适用于限制情况,并且不能完全保证融合。在本文中,我们采用了双重优化的重新制定来限制优化,并通过原始的双二线优化(PDBO)算法解决了问题。 PDBO不仅解决了多个内部最小挑战,而且还具有完全一阶效率的情况,而无需涉及二阶Hessian和Jacobian计算,而不是大多数现有的基于梯度的二杆算法。我们进一步表征了PDBO的收敛速率,它是与多个内部最小值的双光线优化的第一个已知的非质合收敛保证。我们的实验证明了所提出的方法的预期性能。
translated by 谷歌翻译
Bilevel优化是在机器学习的许多领域中最小化涉及另一个功能的价值函数的问题。在大规模的经验风险最小化设置中,样品数量很大,开发随机方法至关重要,而随机方法只能一次使用一些样品进行进展。但是,计算值函数的梯度涉及求解线性系统,这使得很难得出无偏的随机估计。为了克服这个问题,我们引入了一个新颖的框架,其中内部问题的解决方案,线性系统的解和主要变量同时发展。这些方向是作为总和写成的,使其直接得出无偏估计。我们方法的简单性使我们能够开发全球差异算法,其中所有变量的动力学都会降低差异。我们证明,萨巴(Saba)是我们框架中著名的传奇算法的改编,具有$ o(\ frac1t)$收敛速度,并且在polyak-lojasciewicz的假设下实现了线性收敛。这是验证这些属性之一的双光线优化的第一种随机算法。数值实验验证了我们方法的实用性。
translated by 谷歌翻译
Stochastic gradient descent is popular for large scale optimization but has slow convergence asymptotically due to the inherent variance. To remedy this problem, we introduce an explicit variance reduction method for stochastic gradient descent which we call stochastic variance reduced gradient (SVRG). For smooth and strongly convex functions, we prove that this method enjoys the same fast convergence rate as those of stochastic dual coordinate ascent (SDCA) and Stochastic Average Gradient (SAG). However, our analysis is significantly simpler and more intuitive. Moreover, unlike SDCA or SAG, our method does not require the storage of gradients, and thus is more easily applicable to complex problems such as some structured prediction problems and neural network learning.
translated by 谷歌翻译
在许多机器学习应用程序中出现了非convex-concave min-max问题,包括最大程度地减少一组非凸函数的最大程度,并对神经网络的强大对抗训练。解决此问题的一种流行方法是梯度下降(GDA)算法,不幸的是,在非凸性的情况下可以表现出振荡。在本文中,我们引入了一种“平滑”方案,该方案可以与GDA结合以稳定振荡并确保收敛到固定溶液。我们证明,稳定的GDA算法可以实现$ O(1/\ epsilon^2)$迭代复杂性,以最大程度地减少有限的非convex函数收集的最大值。此外,平滑的GDA算法达到了$ O(1/\ epsilon^4)$ toseration复杂性,用于一般的nonconvex-concave问题。提出了这种稳定的GDA算法的扩展到多块情况。据我们所知,这是第一个实现$ o(1/\ epsilon^2)$的算法,用于一类NonConvex-Concave问题。我们说明了稳定的GDA算法在健壮训练中的实际效率。
translated by 谷歌翻译
In this book chapter, we briefly describe the main components that constitute the gradient descent method and its accelerated and stochastic variants. We aim at explaining these components from a mathematical point of view, including theoretical and practical aspects, but at an elementary level. We will focus on basic variants of the gradient descent method and then extend our view to recent variants, especially variance-reduced stochastic gradient schemes (SGD). Our approach relies on revealing the structures presented inside the problem and the assumptions imposed on the objective function. Our convergence analysis unifies several known results and relies on a general, but elementary recursive expression. We have illustrated this analysis on several common schemes.
translated by 谷歌翻译
在本文中,我们制定了一种简单而有效的筛选策略,以提高涉及noncovex $ \ ell_ {q,p} $正则化的结构化优化方面的计算效率。基于迭代重新加权的$ \ ell_1 $(irl1)框架,所提出的筛选规则就像一个预处理模块一样工作,该模块可能在启动子问题求解器之前可能会删除不活动的组,从而减少总计计算时间。这主要是通过在每次迭代过程中启发双重子问题信息来实现的。此外,我们证明我们的筛选规则可以消除IRL1方法有限数量的迭代中的所有不活动变量。数值实验说明了与几种最新算法相比,我们的筛选规则策略的效率。
translated by 谷歌翻译
我们研究了具有大规模分布数据的机器学习模型问题的随机分散优化。我们扩展了以降低方差(VR)的广泛使用的额外和挖掘方法,并提出了两种方法:VR-Extra和VR挖掘。提出的VR-Extra需要$ o(((\ kappa_s+n)\ log \ frac {1} {\ epsilon})$随机梯度评估和$ o(((\ kappa_b+kappa_c) } {\ epsilon})$通信回合以达到Precision $ \ Epsilon $,这是非加速梯度型方法中最好的复杂性,其中$ \ kappa_s $和$ \ kappa_b $是随机条件和批次条件号和批次条件号和批次条件号和批次条件强烈凸和平滑问题的数字分别为$ \ kappa_c $是通信网络的条件编号,而$ n $是每个分布式节点上的样本大小。所提出的VR挖掘的通信成本更高,为$ O((\ kappa_b+\ kappa_c^2)\ log \ frac {1} {\ epsilon})$。我们的随机梯度计算复杂性与单机电VR方法(例如SAG,SAGA和SVRG)相同,我们的通信复杂性分别与额外的挖掘和挖掘相同。为了进一步加快收敛速度​​,我们还提出了加速的VR-Extra和VR挖掘,并使用最佳$ O((((\ sqrt {n \ kappa_s}+n)+log \ frac {1} {\ epsilon} {\ epsilon})$随机梯度计算复杂度和$ O(\ sqrt {\ kappa_b \ kappa_c} \ log \ frac {1} {\ epsilon})$ communication Complactity。我们的随机梯度计算复杂性也与单基加速的VR方法(例如Katyusha)相同,我们的通信复杂性与加速的全批次分散方法(例如MSDA)相同。
translated by 谷歌翻译