二重优化发现在现代机器学习问题中发现了广泛的应用,例如超参数优化,神经体系结构搜索,元学习等。而具有独特的内部最小点(例如,内部功能是强烈凸的,都具有唯一的内在最小点)的理解,这是充分理解的,多个内部最小点的问题仍然是具有挑战性和开放的。为此问题设计的现有算法适用于限制情况,并且不能完全保证融合。在本文中,我们采用了双重优化的重新制定来限制优化,并通过原始的双二线优化(PDBO)算法解决了问题。 PDBO不仅解决了多个内部最小挑战,而且还具有完全一阶效率的情况,而无需涉及二阶Hessian和Jacobian计算,而不是大多数现有的基于梯度的二杆算法。我们进一步表征了PDBO的收敛速率,它是与多个内部最小值的双光线优化的第一个已知的非质合收敛保证。我们的实验证明了所提出的方法的预期性能。
translated by 谷歌翻译
Convex function constrained optimization has received growing research interests lately. For a special convex problem which has strongly convex function constraints, we develop a new accelerated primal-dual first-order method that obtains an $\Ocal(1/\sqrt{\vep})$ complexity bound, improving the $\Ocal(1/{\vep})$ result for the state-of-the-art first-order methods. The key ingredient to our development is some novel techniques to progressively estimate the strong convexity of the Lagrangian function, which enables adaptive step-size selection and faster convergence performance. In addition, we show that the complexity is further improvable in terms of the dependence on some problem parameter, via a restart scheme that calls the accelerated method repeatedly. As an application, we consider sparsity-inducing constrained optimization which has a separable convex objective and a strongly convex loss constraint. In addition to achieving fast convergence, we show that the restarted method can effectively identify the sparsity pattern (active-set) of the optimal solution in finite steps. To the best of our knowledge, this is the first active-set identification result for sparsity-inducing constrained optimization.
translated by 谷歌翻译
在本文中,我们研究了一类二聚体优化问题,也称为简单的双重优化,在其中,我们将光滑的目标函数最小化,而不是另一个凸的约束优化问题的最佳解决方案集。已经开发了几种解决此类问题的迭代方法。 las,它们的收敛保证并不令人满意,因为它们要么渐近,要么渐近,要么是收敛速度缓慢且最佳的。为了解决这个问题,在本文中,我们介绍了Frank-Wolfe(FW)方法的概括,以解决考虑的问题。我们方法的主要思想是通过切割平面在局部近似低级问题的解决方案集,然后运行FW型更新以减少上层目标。当上层目标是凸面时,我们表明我们的方法需要$ {\ mathcal {o}}(\ max \ {1/\ epsilon_f,1/\ epsilon_g \})$迭代才能找到$ \ \ \ \ \ \ epsilon_f $ - 最佳目标目标和$ \ epsilon_g $ - 最佳目标目标。此外,当高级目标是非convex时,我们的方法需要$ {\ MATHCAL {o}}(\ max \ {1/\ epsilon_f^2,1/(\ epsilon_f \ epsilon_g})查找$(\ epsilon_f,\ epsilon_g)$ - 最佳解决方案。我们进一步证明了在“较低级别问题的老年人错误约束假设”下的更强的融合保证。据我们所知,我们的方法实现了所考虑的二聚体问题的最著名的迭代复杂性。我们还向数值实验提出了数值实验。与最先进的方法相比,展示了我们方法的出色性能。
translated by 谷歌翻译
近年来,已经开发出各种基于梯度的方法来解决机器学习和计算机视觉地区的双层优化(BLO)问题。然而,这些现有方法的理论正确性和实际有效性总是依赖于某些限制性条件(例如,下层单身,LLS),这在现实世界中可能很难满足。此外,以前的文献仅证明了基于其特定的迭代策略的理论结果,因此缺乏一般的配方,以统一分析不同梯度的BLO的收敛行为。在这项工作中,我们从乐观的双级视点制定BLOS,并建立一个名为Bi-Level血液血统聚合(BDA)的新梯度的算法框架,以部分地解决上述问题。具体而言,BDA提供模块化结构,以分级地聚合上层和下层子问题以生成我们的双级迭代动态。从理论上讲,我们建立了一般会聚分析模板,并导出了一种新的证据方法,以研究基于梯度的BLO方法的基本理论特性。此外,这项工作系统地探讨了BDA在不同优化场景中的收敛行为,即,考虑从解决近似子问题返回的各种解决方案质量(即,全局/本地/静止解决方案)。广泛的实验证明了我们的理论结果,并展示了所提出的超参数优化和元学习任务算法的优越性。源代码可在https://github.com/vis-opt-group/bda中获得。
translated by 谷歌翻译
本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题,其目标是使具有变量的外目标函数最小化,该变量被限制为对(内部)优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况,而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似(TTSA)算法。在算法中,使用较大步长的随机梯度更新用于内部问题,而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率:当外部问题强烈凸起(RESP。〜弱凸)时,TTSA算法查找$ \ MATHCAL {O}(k ^ { - 2/3})$ -Optimal(resp。〜$ \ mathcal {o}(k ^ {-2/5})$ - 静止)解决方案,其中$ k $是总迭代号。作为一个应用程序,我们表明,两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是,与全球最优政策相比,自然演员批评算法显示以预期折扣奖励的差距,以$ \ mathcal {o}(k ^ { - 1/4})的速率收敛。
translated by 谷歌翻译
二重优化(BO)可用于解决各种重要的机器学习问题,包括但不限于超参数优化,元学习,持续学习和增强学习。常规的BO方法需要通过与隐式分化的低级优化过程进行区分,这需要与Hessian矩阵相关的昂贵计算。最近,人们一直在寻求BO的一阶方法,但是迄今为止提出的方法对于大规模的深度学习应用程序往往是复杂且不切实际的。在这项工作中,我们提出了一种简单的一阶BO算法,仅取决于一阶梯度信息,不需要隐含的区别,并且对于大规模的非凸函数而言是实用和有效的。我们为提出的方法提供了非注重方法分析非凸目标的固定点,并提出了表明其出色实践绩效的经验结果。
translated by 谷歌翻译
Theoretical properties of bilevel problems are well studied when the lower-level problem is strongly convex. In this work, we focus on bilevel optimization problems without the strong-convexity assumption. In these cases, we first show that the common local optimality measures such as KKT condition or regularization can lead to undesired consequences. Then, we aim to identify the mildest conditions that make bilevel problems tractable. We identify two classes of growth conditions on the lower-level objective that leads to continuity. Under these assumptions, we show that the local optimality of the bilevel problem can be defined via the Goldstein stationarity condition of the hyper-objective. We then propose the Inexact Gradient-Free Method (IGFM) to solve the bilevel problem, using an approximate zeroth order oracle that is of independent interest. Our non-asymptotic analysis demonstrates that the proposed method can find a $(\delta, \varepsilon)$ Goldstein stationary point for bilevel problems with a zeroth order oracle complexity that is polynomial in $d, 1/\delta$ and $1/\varepsilon$.
translated by 谷歌翻译
彼得纤维优化已广泛应用于许多重要的机器学习应用,例如普带的参数优化和元学习。最近,已经提出了几种基于动量的算法来解决贝韦尔优化问题。但是,基于SGD的算法的$ \ Mathcal {\ widetilde o}(\ epsilon ^ {-2}),那些基于势头的算法不会达到可释放的计算复杂性。在本文中,我们提出了两种用于双纤维优化的新算法,其中第一算法采用基于动量的递归迭代,第二算法采用嵌套环路中的递归梯度估计来降低方差。我们表明这两种算法都达到了$ \ mathcal {\ widetilde o}的复杂性(\ epsilon ^ { - 1.5})$,这优于所有现有算法的级别。我们的实验验证了我们的理论结果,并展示了我们在封路数据应用程序中的算法的卓越实证性能。
translated by 谷歌翻译
该工作研究限制了随机函数是凸的,并表示为随机函数的组成。问题是在公平分类,公平回归和排队系统设计的背景下出现的。特别令人感兴趣的是甲骨文提供组成函数的随机梯度的大规模设置,目标是用最小对Oracle的调用来解决问题。由于组成形式,Oracle提供的随机梯度不会产生目标或约束梯度的无偏估计。取而代之的是,我们通过跟踪内部函数评估来构建近似梯度,从而导致准差鞍点算法。我们证明,所提出的算法几乎可以肯定地找到最佳和可行的解决方案。我们进一步确定所提出的算法需要$ \ MATHCAL {O}(1/\ EPSILON^4)$数据样本,以便获得$ \ epsilon $ -Approximate-approximate-apptroximate Pointal点,同时也确保零约束违反。该结果与无约束问题的随机成分梯度下降方法的样品复杂性相匹配,并改善了受约束设置的最著名样品复杂性结果。在公平分类和公平回归问题上测试了所提出的算法的功效。数值结果表明,根据收敛速率,所提出的算法优于最新算法。
translated by 谷歌翻译
非convex受限的优化问题可用于模拟许多机器学习问题,例如多级Neyman-Pearson分类和受限的Markov决策过程。但是,由于目标和约束可能是非概念,因此这些问题都是具有挑战性的,因此很难平衡减少损失价值和减少约束违规行为的平衡。尽管有几种方法可以解决此类问题,但它们都是双环或三环算法,它们需要Oracles来解决某些子问题,通过在每次迭代中调整多个超级参数,以达到某些准确性。在本文中,我们提出了一种新型的梯度下降和扰动的上升(GDPA)算法,以解决一类平滑的非概念不平等的限制问题。 GDPA是一种原始的偶算法,仅利用目标和约束函数的一阶信息,以交替的方式更新原始变量和双重变量。该算法的关键特征是它是一种单循环算法,其中只需要调整两个步骤尺寸。我们表明,在轻度的规律性条件下,GDPA能够找到非convex功能约束问题的Karush-Kuhn-Tucker(KKT)点,并保证了收敛率。据我们所知,这是第一个可以通过非convex不等式约束来解决一般非凸的平滑问题的单循环算法。与最著名的算法相比,数值结果还显示了GDPA的优越性(就平稳性测量和获得的溶液的可行性而言)。
translated by 谷歌翻译
本文认为,使用一组不平等凸期望约束最小化凸期望函数的问题。我们提出了一种可计算的随机近似类型算法,即乘数的随机线性近端方法来解决此凸随机优化问题。该算法可以粗略地看作是随机近似和传统的乘数近端方法的混合体。在轻度条件下,我们表明该算法表现出$ o(k^{ - 1/2})$预期的收敛速率,如果正确选择了算法中的参数,则客观降低和约束违规率,其中$ k $表示$ k $表示的数量表示迭代。此外,我们表明,算法具有$ o(\ log(k)k^{ - 1/2})$约束违规和$ o(\ log^{3/2}(k)k)^{ - 1/2})$目标结合。一些初步的数值结果证明了所提出的算法的性能。
translated by 谷歌翻译
NonConvex-Concave Minimax优化已经对机器学习产生了浓厚的兴趣,包括对数据分配具有稳健性,以非解释性损失,对抗性学习为单一的学习。然而,大多数现有的作品都集中在梯度散发性(GDA)变体上,这些变体只能在平滑的设置中应用。在本文中,我们考虑了一个最小问题的家族,其目标功能在最小化变量中享有非平滑复合结构,并且在最大化的变量中是凹入的。通过充分利用复合结构,我们提出了平滑的近端线性下降上升(\ textit {平滑} plda)算法,并进一步建立了其$ \ Mathcal {o}(\ epsilon^{ - 4})在平滑设置下,平滑的gda〜 \ cite {zhang2020single}。此外,在一个温和的假设下,目标函数满足单方面的kurdyka- \ l {} ojasiewicz条件,带有指数$ \ theta \ in(0,1)$,我们可以进一步将迭代复杂性提高到$ \ MATHCAL {O }(\ epsilon^{ - 2 \ max \ {2 \ theta,1 \}})$。据我们所知,这是第一种非平滑nonconvex-concave问题的可证明有效的算法,它可以实现最佳迭代复杂性$ \ MATHCAL {o}(\ epsilon^{ - 2})$,如果$ \ theta \ 0,1/2] $。作为副产品,我们讨论了不同的平稳性概念并定量澄清它们的关系,这可能具有独立的兴趣。从经验上,我们说明了拟议的平滑PLDA在变体正规化WassErstein分布在鲁棒优化问题上的有效性。
translated by 谷歌翻译
随机成分优化(SCO)引起了人们的关注,因为它在重要的现实问题上的广泛适用性。但是,SCO上的现有作品假设解决方案更新中的投影很简单,对于以期望形式的约束(例如经验性的条件价值危险约束),该预测无法保留。我们研究了一个新型模型,该模型将单层期望值和两级组成约束结合到当前的SCO框架中。我们的模型可以广泛应用于数据驱动的优化和风险管理,包括规避风险的优化和高音阶组合选择,并可以处理多个约束。我们进一步提出了一类Primal-Dual算法,该算法以$ \ co(\ frac {1} {\ sqrt {n}} $的速率生成序列,以$ \ co(\ frac {1}级别组成约束,其中$ n $是迭代计数器,在预期值约束的SCO中建立基准。
translated by 谷歌翻译
在本文中,我们提出了一种新的Hessian逆自由单环算法(FSLA),用于彼此优化问题。 Bilevel优化的经典算法承认计算昂贵的双回路结构。最近,已经提出了几种单循环算法,其具有优化内部和外部变量。但是,这些算法尚未实现完全单循环。因为它们忽略了评估给定内部和外部状态的超梯度所需的循环。为了开发一个完全单环算法,我们首先研究超梯度的结构,并识别超梯度计算的一般近似配方,这些计算包括几种先前的常见方法,例如,通过时间,共轭渐变,\ emph {等}基于此配方,介绍一个新的状态变量来维护历史超梯度信息。将我们的新配方与内外变量的替代更新相结合,我们提出了一种高效的全循环算法。理论上我们可以显示新状态生成的错误可以界限,我们的算法收敛于$ O(\ epsilon ^ {-2})$。最后,我们通过基于多个Bilevel优化的机器学习任务验证了我们验证的算法。
translated by 谷歌翻译
我们提出了一个基于预测校正范式的统一框架,用于在原始和双空间中的预测校正范式。在此框架中,以固定的间隔进行了连续变化的优化问题,并且每个问题都通过原始或双重校正步骤近似解决。通过预测步骤的输出,该解决方案方法是温暖启动的,该步骤的输出可以使用过去的信息解决未来问题的近似。在不同的假设集中研究并比较了预测方法。该框架涵盖的算法的示例是梯度方法的时变版本,分裂方法和著名的乘数交替方向方法(ADMM)。
translated by 谷歌翻译
在许多机器学习应用程序中出现了非convex-concave min-max问题,包括最大程度地减少一组非凸函数的最大程度,并对神经网络的强大对抗训练。解决此问题的一种流行方法是梯度下降(GDA)算法,不幸的是,在非凸性的情况下可以表现出振荡。在本文中,我们引入了一种“平滑”方案,该方案可以与GDA结合以稳定振荡并确保收敛到固定溶液。我们证明,稳定的GDA算法可以实现$ O(1/\ epsilon^2)$迭代复杂性,以最大程度地减少有限的非convex函数收集的最大值。此外,平滑的GDA算法达到了$ O(1/\ epsilon^4)$ toseration复杂性,用于一般的nonconvex-concave问题。提出了这种稳定的GDA算法的扩展到多块情况。据我们所知,这是第一个实现$ o(1/\ epsilon^2)$的算法,用于一类NonConvex-Concave问题。我们说明了稳定的GDA算法在健壮训练中的实际效率。
translated by 谷歌翻译
基于梯度的高参数调整的优化方法可确保理论收敛到固定解决方案时,对于固定的上层变量值,双光线程序的下层级别强烈凸(LLSC)和平滑(LLS)。对于在许多机器学习算法中调整超参数引起的双重程序,不满足这种情况。在这项工作中,我们开发了一种基于不精确度(VF-IDCA)的基于依次收敛函数函数算法。我们表明,该算法从一系列的超级参数调整应用程序中实现了无LLSC和LLS假设的固定解决方案。我们的广泛实验证实了我们的理论发现,并表明,当应用于调子超参数时,提出的VF-IDCA会产生较高的性能。
translated by 谷歌翻译
Nonconvex minimax problems have attracted wide attention in machine learning, signal processing and many other fields in recent years. In this paper, we propose a primal dual alternating proximal gradient (PDAPG) algorithm and a primal dual proximal gradient (PDPG-L) algorithm for solving nonsmooth nonconvex-strongly concave and nonconvex-linear minimax problems with coupled linear constraints, respectively. The corresponding iteration complexity of the two algorithms are proved to be $\mathcal{O}\left( \varepsilon ^{-2} \right)$ and $\mathcal{O}\left( \varepsilon ^{-3} \right)$ to reach an $\varepsilon$-stationary point, respectively. To our knowledge, they are the first two algorithms with iteration complexity guarantee for solving the two classes of minimax problems.
translated by 谷歌翻译
受到Mishchenko等人(2022)的最新突破的启发,他们首次表明局部梯度步骤可以导致可证明的通信加速,我们提出了一种替代算法,该算法获得了与他们的方法相同的通信加速度(Proxsskip)。但是,我们的方法非常不同:它基于Chambolle和Pock(2011)的著名方法,并具有多种不平凡的修改:i)我们允许通过适当的强烈凸出功能的代理操作员进行不精确的计算。基于梯度的方法(例如,GD,Fast GD或FSFOM),ii)我们对双重更新步骤进行仔细的修改,以保留线性收敛。我们的一般结果为强凸孔座鞍点问题提供了新的最先进率,其双线性耦合为特征,其特征是双重功能缺乏平滑度。当应用于联邦学习时,我们获得了Proxskip的理论上更好的替代方案:我们的方法需要更少的本地步骤($ O(\ kappa^{1/3})$或$ o(\ kappa^{1/4})$,与Proxskip的$ O(\ kappa^{1/2})$相比,并执行确定性的本地步骤。像Proxskip一样,我们的方法可以应用于连接网络的优化,我们在这里也获得了理论改进。
translated by 谷歌翻译
我们解决了加固学习的安全问题。我们在折扣无限地平线受限的Markov决策过程框架中提出了问题。现有结果表明,基于梯度的方法能够实现$ \ mathcal {o}(1 / \ sqrt {t})$全球收敛速度,用于最优差距和约束违规。我们展示了一种基于自然的基于政策梯度的算法,该算法具有更快的收敛速度$ \ mathcal {o}(\ log(t)/ t)$的最优性差距和约束违规。当满足Slater的条件并已知先验时,可以进一步保证足够大的$ T $的零限制违规,同时保持相同的收敛速度。
translated by 谷歌翻译