我们提出了一个基于预测校正范式的统一框架,用于在原始和双空间中的预测校正范式。在此框架中,以固定的间隔进行了连续变化的优化问题,并且每个问题都通过原始或双重校正步骤近似解决。通过预测步骤的输出,该解决方案方法是温暖启动的,该步骤的输出可以使用过去的信息解决未来问题的近似。在不同的假设集中研究并比较了预测方法。该框架涵盖的算法的示例是梯度方法的时变版本,分裂方法和著名的乘数交替方向方法(ADMM)。
translated by 谷歌翻译
最近有兴趣的兴趣在教师学生环境中的各种普遍性线性估计问题中的渐近重建性能研究,特别是对于I.I.D标准正常矩阵的案例。在这里,我们超越这些矩阵,并证明了具有具有任意界限频谱的旋转不变数据矩阵的凸遍的线性模型的重建性能的分析公式,严格地确认使用来自统计物理的副本衍生的猜想。该公式包括许多问题,例如压缩感测或稀疏物流分类。通过利用消息通过算法和迭代的统计特性来实现证明,允许表征估计器的渐近实证分布。我们的证据是基于构建Oracle多层向量近似消息传递算法的会聚序列的构建,其中通过检查等效动态系统的稳定性来完成收敛分析。我们说明了我们对主流学习方法的数值示例的要求,例如稀疏的逻辑回归和线性支持矢量分类器,显示中等大小模拟和渐近预测之间的良好一致性。
translated by 谷歌翻译
Recently, there has been great interest in connections between continuous-time dynamical systems and optimization algorithms, notably in the context of accelerated methods for smooth and unconstrained problems. In this paper we extend this perspective to nonsmooth and constrained problems by obtaining differential inclusions associated to novel accelerated variants of the alternating direction method of multipliers (ADMM). Through a Lyapunov analysis, we derive rates of convergence for these dynamical systems in different settings that illustrate an interesting tradeoff between decaying versus constant damping strategies. We also obtain perturbed equations capturing fine-grained details of these methods, which have improved stability and preserve the leading order convergence rates.
translated by 谷歌翻译
本文重点介绍了静态和时变设置中决策依赖性分布的随机鞍点问题。这些是目标是随机收益函数的预期值,其中随机变量从分布图引起的分布中绘制。对于一般分布地图,即使已知分布是已知的,发现鞍点的问题也是一般的计算繁琐。为了实现易求解的解决方案方法,我们介绍了均衡点的概念 - 这是它们诱导的静止随机最小值问题的马鞍点 - 并为其存在和唯一性提供条件。我们证明,两个类解决方案之间的距离被界定,条件是该目标具有强凸强 - 凹入的收益和Lipschitz连续分布图。我们开发确定性和随机的原始算法,并证明它们对均衡点的收敛性。特别是,通过将来自随机梯度估计器的出现的错误建模为子-Weibull随机变量,我们提供期望的错误界限,并且在每个迭代的高概率中提供的误差;此外,我们向期望和几乎肯定地显示给社区的融合。最后,我们调查了分布地图的条件 - 我们调用相反的混合优势 - 确保目标是强烈的凸强 - 凹陷的。在这种假设下,我们表明原始双算法以类似的方式汇集到鞍座点。
translated by 谷歌翻译
We introduce a class of first-order methods for smooth constrained optimization that are based on an analogy to non-smooth dynamical systems. Two distinctive features of our approach are that (i) projections or optimizations over the entire feasible set are avoided, in stark contrast to projected gradient methods or the Frank-Wolfe method, and (ii) iterates are allowed to become infeasible, which differs from active set or feasible direction methods, where the descent motion stops as soon as a new constraint is encountered. The resulting algorithmic procedure is simple to implement even when constraints are nonlinear, and is suitable for large-scale constrained optimization problems in which the feasible set fails to have a simple structure. The key underlying idea is that constraints are expressed in terms of velocities instead of positions, which has the algorithmic consequence that optimizations over feasible sets at each iteration are replaced with optimizations over local, sparse convex approximations. In particular, this means that at each iteration only constraints that are violated are taken into account. The result is a simplified suite of algorithms and an expanded range of possible applications in machine learning.
translated by 谷歌翻译
Iterative regularization is a classic idea in regularization theory, that has recently become popular in machine learning. On the one hand, it allows to design efficient algorithms controlling at the same time numerical and statistical accuracy. On the other hand it allows to shed light on the learning curves observed while training neural networks. In this paper, we focus on iterative regularization in the context of classification. After contrasting this setting with that of regression and inverse problems, we develop an iterative regularization approach based on the use of the hinge loss function. More precisely we consider a diagonal approach for a family of algorithms for which we prove convergence as well as rates of convergence. Our approach compares favorably with other alternatives, as confirmed also in numerical simulations.
translated by 谷歌翻译
本文解决了一个与简单高阶正规化方法设计有关的开放挑战性的问题,该方法用于解决平滑而单调的变化不平等(VIS)。一个vi涉及在\ mathcal {x} $中查找$ x^\ star \,以使$ \ langle f(x),x -x^\ star \ star \ rangle \ geq 0 $ for All $ x \ in \ Mathcal {x} $,我们考虑$ f:\ mathbb {r}^d \ mapsto \ mathbb {r}^d $的设置,最多$(p-1)^{th} $ - 订购衍生物。对于$ p = 2 $,〜\ citet {Nesterov-2006限制}扩展了立方正规化的牛顿的方法,以$ o(\ epsilon^{ - 1})$。 -Iteration}提出了另一种二阶方法,该方法获得了$ O(\ epsilon^{ - 2/3} \ log(1/\ epsilon))$的提高速率,但是此方法需要一个非平凡的二进制搜索过程作为内部搜索过程环形。基于类似二进制搜索过程的高阶方法已进一步开发并显示出$ o(\ epsilon^{ - 2/(p+1)} \ log(1/\ epsilon))$的速率。但是,这种搜索程序在实践中可能在计算上是过敏性的,并且在优化理论中找到一种简单的高级正则方法的问题仍然是一个开放而充满挑战的问题。我们提出了一个$ p^{th} $ - 订购方法,该方法\ textit {not}需要任何二进制搜索过程,并证明它可以以$ o(\ epsilon^{ - 2/ (P+1)})$。还建立了$ \ omega(\ epsilon^{ - 2/(p+1)})$的下限,以证明我们的方法在单调设置中是最佳的。重新启动的版本达到了平滑且强烈单调的全球线性和局部超级线性收敛速率。此外,我们的方法可以实现$ o(\ epsilon^{ - 2/p})$的全局速率,以解决平滑和非单调的vis满足薄荷条件;此外,如果强烈的薄荷味状况保持,重新启动的版本再次达到全球线性和本地超级线性收敛速率。
translated by 谷歌翻译
诸如压缩感测,图像恢复,矩阵/张恢复和非负矩阵分子等信号处理和机器学习中的许多近期问题可以作为约束优化。预计的梯度下降是一种解决如此约束优化问题的简单且有效的方法。本地收敛分析将我们对解决方案附近的渐近行为的理解,与全球收敛分析相比,收敛率的较小界限提供了较小的界限。然而,本地保证通常出现在机器学习和信号处理的特定问题领域。此稿件在约束最小二乘范围内,对投影梯度下降的局部收敛性分析提供了统一的框架。该建议的分析提供了枢转局部收敛性的见解,例如线性收敛的条件,收敛区域,精确的渐近收敛速率,以及达到一定程度的准确度所需的迭代次数的界限。为了证明所提出的方法的适用性,我们介绍了PGD的收敛分析的配方,并通过在四个基本问题上的配方的开始延迟应用来证明它,即线性约束最小二乘,稀疏恢复,最小二乘法使用单位规范约束和矩阵完成。
translated by 谷歌翻译
本文提出了一种针对分布式凸复合优化问题的新型双重不精确拆分算法(DISA),其中本地损耗函数由$ L $ -SMOOTH的项组成,可能是由线性操作员组成的非平滑项。我们证明,当原始和双重尺寸$ \ tau $,$ \ beta $满足$ 0 <\ tau <{2}/{l} $和$ 0 <\ tau \ beta <1 $时,我们证明了DISA是收敛的。与现有的原始双侧近端分裂算法(PD-PSA)相比,DISA克服了收敛步骤范围对线性操作员欧几里得范围的依赖性。这意味着当欧几里得规范大时,DISA允许更大的步骤尺寸,从而确保其快速收敛。此外,我们分别在一般凸度和度量次级性下分别建立了disa的均值和线性收敛速率。此外,还提供了DISA的近似迭代版本,并证明了该近似版本的全局收敛性和sublinear收敛速率。最后,数值实验不仅证实了理论分析,而且还表明,与现有的PD-PSA相比,DISA达到了显着的加速度。
translated by 谷歌翻译
We leverage path differentiability and a recent result on nonsmooth implicit differentiation calculus to give sufficient conditions ensuring that the solution to a monotone inclusion problem will be path differentiable, with formulas for computing its generalized gradient. A direct consequence of our result is that these solutions happen to be differentiable almost everywhere. Our approach is fully compatible with automatic differentiation and comes with assumptions which are easy to check, roughly speaking: semialgebraicity and strong monotonicity. We illustrate the scope of our results by considering three fundamental composite problem settings: strongly convex problems, dual solutions to convex minimization problems and primal-dual solutions to min-max problems.
translated by 谷歌翻译
二重优化发现在现代机器学习问题中发现了广泛的应用,例如超参数优化,神经体系结构搜索,元学习等。而具有独特的内部最小点(例如,内部功能是强烈凸的,都具有唯一的内在最小点)的理解,这是充分理解的,多个内部最小点的问题仍然是具有挑战性和开放的。为此问题设计的现有算法适用于限制情况,并且不能完全保证融合。在本文中,我们采用了双重优化的重新制定来限制优化,并通过原始的双二线优化(PDBO)算法解决了问题。 PDBO不仅解决了多个内部最小挑战,而且还具有完全一阶效率的情况,而无需涉及二阶Hessian和Jacobian计算,而不是大多数现有的基于梯度的二杆算法。我们进一步表征了PDBO的收敛速率,它是与多个内部最小值的双光线优化的第一个已知的非质合收敛保证。我们的实验证明了所提出的方法的预期性能。
translated by 谷歌翻译
该工作研究限制了随机函数是凸的,并表示为随机函数的组成。问题是在公平分类,公平回归和排队系统设计的背景下出现的。特别令人感兴趣的是甲骨文提供组成函数的随机梯度的大规模设置,目标是用最小对Oracle的调用来解决问题。由于组成形式,Oracle提供的随机梯度不会产生目标或约束梯度的无偏估计。取而代之的是,我们通过跟踪内部函数评估来构建近似梯度,从而导致准差鞍点算法。我们证明,所提出的算法几乎可以肯定地找到最佳和可行的解决方案。我们进一步确定所提出的算法需要$ \ MATHCAL {O}(1/\ EPSILON^4)$数据样本,以便获得$ \ epsilon $ -Approximate-approximate-apptroximate Pointal点,同时也确保零约束违反。该结果与无约束问题的随机成分梯度下降方法的样品复杂性相匹配,并改善了受约束设置的最著名样品复杂性结果。在公平分类和公平回归问题上测试了所提出的算法的功效。数值结果表明,根据收敛速率,所提出的算法优于最新算法。
translated by 谷歌翻译
本文认为具有非线性耦合约束的多块非斜率非凸优化问题。通过开发使用信息区和提出的自适应制度的想法[J.Bolte,S。Sabach和M. Teboulle,NonConvex Lagrangian优化:监视方案和全球收敛性,运营研究数学,43:1210--1232,2018],我们提出了一种多键交替方向来解决此问题的多块交替方向方法。我们通过在每个块更新中采用大量最小化过程来指定原始变量的更新。进行了独立的收敛分析,以证明生成的序列与增强Lagrangian的临界点的随后和全局收敛。我们还建立了迭代复杂性,并为所提出的算法提供初步的数值结果。
translated by 谷歌翻译
一类非平滑实践优化问题可以写成,以最大程度地减少平滑且部分平滑的功能。我们考虑了这种结构化问题,这些问题也取决于参数矢量,并研究了将其解决方案映射相对于参数的问题,该参数在灵敏度分析和参数学习选择材料问题中具有很大的应用。我们表明,在部分平滑度和其他温和假设下,近端分裂算法产生的序列的自动分化(AD)会收敛于溶液映射的衍生物。对于一种自动分化的变体,我们称定点自动分化(FPAD),我们纠正了反向模式AD的内存开销问题,此外,理论上提供了更快的收敛。我们从数值上说明了套索和组套索问题的AD和FPAD的收敛性和收敛速率,并通过学习正则化项来证明FPAD在原型实用图像deoise问题上的工作。
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
In this book chapter, we briefly describe the main components that constitute the gradient descent method and its accelerated and stochastic variants. We aim at explaining these components from a mathematical point of view, including theoretical and practical aspects, but at an elementary level. We will focus on basic variants of the gradient descent method and then extend our view to recent variants, especially variance-reduced stochastic gradient schemes (SGD). Our approach relies on revealing the structures presented inside the problem and the assumptions imposed on the objective function. Our convergence analysis unifies several known results and relies on a general, but elementary recursive expression. We have illustrated this analysis on several common schemes.
translated by 谷歌翻译
用于解决无约束光滑游戏的两个最突出的算法是经典随机梯度下降 - 上升(SGDA)和最近引入的随机共识优化(SCO)[Mescheder等,2017]。已知SGDA可以收敛到特定类别的游戏的静止点,但是当前的收敛分析需要有界方差假设。 SCO用于解决大规模对抗问题,但其收敛保证仅限于其确定性变体。在这项工作中,我们介绍了预期的共同胁迫条件,解释了它的好处,并在这种情况下提供了SGDA和SCO的第一次迭代收敛保证,以解决可能是非单调的一类随机变分不等式问题。我们将两种方法的线性会聚到解决方案的邻域时,当它们使用恒定的步长时,我们提出了富有识别的步骤化切换规则,以保证对确切解决方案的融合。此外,我们的收敛保证在任意抽样范式下担保,因此,我们对迷你匹配的复杂性进行了解。
translated by 谷歌翻译
现代统计应用常常涉及最小化可能是非流动和/或非凸起的目标函数。本文侧重于广泛的Bregman-替代算法框架,包括本地线性近似,镜像下降,迭代阈值,DC编程以及许多其他实例。通过广义BREGMAN功能的重新发出使我们能够构建合适的误差测量并在可能高维度下建立非凸起和非凸起和非球形目标的全球收敛速率。对于稀疏的学习问题,在一些规律性条件下,所获得的估算器作为代理人的固定点,尽管不一定是局部最小化者,但享受可明确的统计保障,并且可以证明迭代顺序在所需的情况下接近统计事实准确地快速。本文还研究了如何通过仔细控制步骤和放松参数来设计基于适应性的动力的加速度而不假设凸性或平滑度。
translated by 谷歌翻译
在本文中,我们研究并证明了拟牛顿算法的Broyden阶级的非渐近超线性收敛速率,包括Davidon - Fletcher - Powell(DFP)方法和泡沫 - 弗莱彻 - 夏诺(BFGS)方法。这些准牛顿方法的渐近超线性收敛率在文献中已经广泛研究,但它们明确的有限时间局部会聚率未得到充分调查。在本文中,我们为Broyden Quasi-Newton算法提供了有限时间(非渐近的)收敛分析,在目标函数强烈凸起的假设下,其梯度是Lipschitz连续的,并且其Hessian在最佳解决方案中连续连续。我们表明,在最佳解决方案的本地附近,DFP和BFGS生成的迭代以$(1 / k)^ {k / 2} $的超连线率收敛到最佳解决方案,其中$ k $是迭代次数。我们还证明了类似的本地超连线收敛结果,因为目标函数是自我协调的情况。几个数据集的数值实验证实了我们显式的收敛速度界限。我们的理论保证是第一个为准牛顿方法提供非渐近超线性收敛速率的效果之一。
translated by 谷歌翻译
对于函数的矩阵或凸起的正半明确度(PSD)的形状约束在机器学习和科学的许多应用中起着核心作用,包括公制学习,最佳运输和经济学。然而,存在很少的功能模型,以良好的经验性能和理论担保来强制执行PSD-NESS或凸起。在本文中,我们介绍了用于在PSD锥中的值的函数的内核平方模型,其扩展了最近建议编码非负标量函数的内核平方型号。我们为这类PSD函数提供了一个代表性定理,表明它构成了PSD函数的普遍近似器,并在限定的平等约束的情况下导出特征值界限。然后,我们将结果应用于建模凸起函数,通过执行其Hessian的核心量子表示,并表明可以因此表示任何平滑且强凸的功能。最后,我们说明了我们在PSD矩阵值回归任务中的方法以及标准值凸起回归。
translated by 谷歌翻译