随机成分优化(SCO)引起了人们的关注,因为它在重要的现实问题上的广泛适用性。但是,SCO上的现有作品假设解决方案更新中的投影很简单,对于以期望形式的约束(例如经验性的条件价值危险约束),该预测无法保留。我们研究了一个新型模型,该模型将单层期望值和两级组成约束结合到当前的SCO框架中。我们的模型可以广泛应用于数据驱动的优化和风险管理,包括规避风险的优化和高音阶组合选择,并可以处理多个约束。我们进一步提出了一类Primal-Dual算法,该算法以$ \ co(\ frac {1} {\ sqrt {n}} $的速率生成序列,以$ \ co(\ frac {1}级别组成约束,其中$ n $是迭代计数器,在预期值约束的SCO中建立基准。
translated by 谷歌翻译
该工作研究限制了随机函数是凸的,并表示为随机函数的组成。问题是在公平分类,公平回归和排队系统设计的背景下出现的。特别令人感兴趣的是甲骨文提供组成函数的随机梯度的大规模设置,目标是用最小对Oracle的调用来解决问题。由于组成形式,Oracle提供的随机梯度不会产生目标或约束梯度的无偏估计。取而代之的是,我们通过跟踪内部函数评估来构建近似梯度,从而导致准差鞍点算法。我们证明,所提出的算法几乎可以肯定地找到最佳和可行的解决方案。我们进一步确定所提出的算法需要$ \ MATHCAL {O}(1/\ EPSILON^4)$数据样本,以便获得$ \ epsilon $ -Approximate-approximate-apptroximate Pointal点,同时也确保零约束违反。该结果与无约束问题的随机成分梯度下降方法的样品复杂性相匹配,并改善了受约束设置的最著名样品复杂性结果。在公平分类和公平回归问题上测试了所提出的算法的功效。数值结果表明,根据收敛速率,所提出的算法优于最新算法。
translated by 谷歌翻译
最近,凸嵌套随机复合优化(NSCO)因其在增强学习和规避风险优化方面的应用而受到了极大的关注。当前的NSCO算法通过数量级的随机甲骨文复杂性较差,而没有嵌套结构的简单随机复合优化问题(例如,平滑和非平滑函数的总和)。此外,它们要求所有外层函数都是平滑的,这对某些重要的应用不满足。这些差异促使我们问:``嵌套成分是否使随机优化在甲骨文复杂性的顺序上更加困难?平滑,结构化的非平滑和一般非平滑层函数的任意组成。当所有外层函数平滑时,我们提出了一种随机顺序双重(SSD)方法,以实现$ \ Mathcal {O}的甲骨文复杂性(1)(1 /\ epsilon^2)$($ \ MATHCAL {o}(1/\ Epsilon)$)当问题不是(强)凸出时。函数,我们提出了一种非平滑随机顺序双重(NSSD)方法,以实现$ \ MATHCAL {O}(1/\ epsilon^2)$的甲骨文复杂性。我们提供了较低的复杂性,以显示后者$ \ MATHCAL {O }(1/\ epsilon^2)$即使在强烈的凸面设置下也无法改善。 XITY结果似乎是文献中的新事物,它们表明凸NSCO问题的甲骨文复杂性与没有嵌套成分的甲骨文复杂性相同,除了强烈的凸面和外部不太平滑问题。
translated by 谷歌翻译
二重优化发现在现代机器学习问题中发现了广泛的应用,例如超参数优化,神经体系结构搜索,元学习等。而具有独特的内部最小点(例如,内部功能是强烈凸的,都具有唯一的内在最小点)的理解,这是充分理解的,多个内部最小点的问题仍然是具有挑战性和开放的。为此问题设计的现有算法适用于限制情况,并且不能完全保证融合。在本文中,我们采用了双重优化的重新制定来限制优化,并通过原始的双二线优化(PDBO)算法解决了问题。 PDBO不仅解决了多个内部最小挑战,而且还具有完全一阶效率的情况,而无需涉及二阶Hessian和Jacobian计算,而不是大多数现有的基于梯度的二杆算法。我们进一步表征了PDBO的收敛速率,它是与多个内部最小值的双光线优化的第一个已知的非质合收敛保证。我们的实验证明了所提出的方法的预期性能。
translated by 谷歌翻译
We study distributionally robust optimization (DRO) with Sinkhorn distance -- a variant of Wasserstein distance based on entropic regularization. We provide convex programming dual reformulation for a general nominal distribution. Compared with Wasserstein DRO, it is computationally tractable for a larger class of loss functions, and its worst-case distribution is more reasonable. We propose an efficient first-order algorithm with bisection search to solve the dual reformulation. We demonstrate that our proposed algorithm finds $\delta$-optimal solution of the new DRO formulation with computation cost $\tilde{O}(\delta^{-3})$ and memory cost $\tilde{O}(\delta^{-2})$, and the computation cost further improves to $\tilde{O}(\delta^{-2})$ when the loss function is smooth. Finally, we provide various numerical examples using both synthetic and real data to demonstrate its competitive performance and light computational speed.
translated by 谷歌翻译
We study stochastic monotone inclusion problems, which widely appear in machine learning applications, including robust regression and adversarial learning. We propose novel variants of stochastic Halpern iteration with recursive variance reduction. In the cocoercive -- and more generally Lipschitz-monotone -- setup, our algorithm attains $\epsilon$ norm of the operator with $\mathcal{O}(\frac{1}{\epsilon^3})$ stochastic operator evaluations, which significantly improves over state of the art $\mathcal{O}(\frac{1}{\epsilon^4})$ stochastic operator evaluations required for existing monotone inclusion solvers applied to the same problem classes. We further show how to couple one of the proposed variants of stochastic Halpern iteration with a scheduled restart scheme to solve stochastic monotone inclusion problems with ${\mathcal{O}}(\frac{\log(1/\epsilon)}{\epsilon^2})$ stochastic operator evaluations under additional sharpness or strong monotonicity assumptions.
translated by 谷歌翻译
本文认为,使用一组不平等凸期望约束最小化凸期望函数的问题。我们提出了一种可计算的随机近似类型算法,即乘数的随机线性近端方法来解决此凸随机优化问题。该算法可以粗略地看作是随机近似和传统的乘数近端方法的混合体。在轻度条件下,我们表明该算法表现出$ o(k^{ - 1/2})$预期的收敛速率,如果正确选择了算法中的参数,则客观降低和约束违规率,其中$ k $表示$ k $表示的数量表示迭代。此外,我们表明,算法具有$ o(\ log(k)k^{ - 1/2})$约束违规和$ o(\ log^{3/2}(k)k)^{ - 1/2})$目标结合。一些初步的数值结果证明了所提出的算法的性能。
translated by 谷歌翻译
本文分析了双模的彼此优化随机算法框架。 Bilevel优化是一类表现出两级结构的问题,其目标是使具有变量的外目标函数最小化,该变量被限制为对(内部)优化问题的最佳解决方案。我们考虑内部问题的情况是不受约束的并且强烈凸起的情况,而外部问题受到约束并具有平滑的目标函数。我们提出了一种用于解决如此偏纤维问题的两次时间尺度随机近似(TTSA)算法。在算法中,使用较大步长的随机梯度更新用于内部问题,而具有较小步长的投影随机梯度更新用于外部问题。我们在各种设置下分析了TTSA算法的收敛速率:当外部问题强烈凸起(RESP。〜弱凸)时,TTSA算法查找$ \ MATHCAL {O}(k ^ { - 2/3})$ -Optimal(resp。〜$ \ mathcal {o}(k ^ {-2/5})$ - 静止)解决方案,其中$ k $是总迭代号。作为一个应用程序,我们表明,两个时间尺度的自然演员 - 批评批评近端策略优化算法可以被视为我们的TTSA框架的特殊情况。重要的是,与全球最优政策相比,自然演员批评算法显示以预期折扣奖励的差距,以$ \ mathcal {o}(k ^ { - 1/4})的速率收敛。
translated by 谷歌翻译
在本文中,我们研究了平稳的随机多级组成优化问题,其中目标函数是$ T $函数的嵌套组成。我们假设通过随机的一阶Oracle访问函数及其渐变的噪声评估。为了解决这类问题,我们提出了两个使用移动平均随机估计的两种算法,并分析了它们对问题的$ \ epsilon $ -stationary的趋同。我们表明,第一算法,它是\ Cite {gharuswan20}的泛化到$ t $ letch案例,可以通过使用mini-实现$ \ mathcal {o}(1 / \ epsilon ^ 6)$的样本复杂性每次迭代中的样品批次。通过使用函数值的线性化随机估计修改该算法,我们将样本复杂性提高到$ \ mathcal {o}(1 / \ epsilon ^ 4)$。 {\ Color {Black}此修改不仅可以消除在每次迭代中具有迷你样本的要求,还使算法无参数和易于实现}。据我们所知,这是第一次为(UN)约束的多级设置设计的在线算法,在标准假设下获得平滑单级设置的相同样本复杂度(无偏见和界限第二矩)在随机第一阶Oracle上。
translated by 谷歌翻译
二重性优化已获得越来越多的兴趣,在元学习,微型型游戏,增强学习和嵌套组成优化中发现了许多应用。本文研究了通过网络上分布式双层优化的问题,在该网络中,代理只能与邻居进行交流,包括来自多任务,多项式学习和联合学习的示例。在本文中,我们提出了一种基于八卦的分布式双层学习算法,该算法允许网络代理在单个时间表中解决内部和外部优化问题,并通过网络传播共享信息。我们表明,我们的算法享受$ \ Mathcal {o}(\ frac {1} {k \ epsilon^2})$ thement sample sample复杂性,用于一般nonConvex Bilevel优化和$ \ Mathcal {o}(\ frac {1 \ frac {1 } {k \ epsilon})$用于强烈凸目标,实现了与网络大小线性扩展的加速。样品复杂性在$ \ epsilon $和$ k $中都是最佳的。我们在高参数调整和分散的强化学习的示例中测试算法。模拟实验证实,我们的算法达到了最先进的训练效率和测试准确性。
translated by 谷歌翻译
Many real-world problems not only have complicated nonconvex functional constraints but also use a large number of data points. This motivates the design of efficient stochastic methods on finite-sum or expectation constrained problems. In this paper, we design and analyze stochastic inexact augmented Lagrangian methods (Stoc-iALM) to solve problems involving a nonconvex composite (i.e. smooth+nonsmooth) objective and nonconvex smooth functional constraints. We adopt the standard iALM framework and design a subroutine by using the momentum-based variance-reduced proximal stochastic gradient method (PStorm) and a postprocessing step. Under certain regularity conditions (assumed also in existing works), to reach an $\varepsilon$-KKT point in expectation, we establish an oracle complexity result of $O(\varepsilon^{-5})$, which is better than the best-known $O(\varepsilon^{-6})$ result. Numerical experiments on the fairness constrained problem and the Neyman-Pearson classification problem with real data demonstrate that our proposed method outperforms an existing method with the previously best-known complexity result.
translated by 谷歌翻译
本文重点介绍了静态和时变设置中决策依赖性分布的随机鞍点问题。这些是目标是随机收益函数的预期值,其中随机变量从分布图引起的分布中绘制。对于一般分布地图,即使已知分布是已知的,发现鞍点的问题也是一般的计算繁琐。为了实现易求解的解决方案方法,我们介绍了均衡点的概念 - 这是它们诱导的静止随机最小值问题的马鞍点 - 并为其存在和唯一性提供条件。我们证明,两个类解决方案之间的距离被界定,条件是该目标具有强凸强 - 凹入的收益和Lipschitz连续分布图。我们开发确定性和随机的原始算法,并证明它们对均衡点的收敛性。特别是,通过将来自随机梯度估计器的出现的错误建模为子-Weibull随机变量,我们提供期望的错误界限,并且在每个迭代的高概率中提供的误差;此外,我们向期望和几乎肯定地显示给社区的融合。最后,我们调查了分布地图的条件 - 我们调用相反的混合优势 - 确保目标是强烈的凸强 - 凹陷的。在这种假设下,我们表明原始双算法以类似的方式汇集到鞍座点。
translated by 谷歌翻译
作为安全加强学习的重要框架,在最近的文献中已经广泛研究了受约束的马尔可夫决策过程(CMDP)。然而,尽管在各种式学习设置下取得了丰富的结果,但就算法设计和信息理论样本复杂性下限而言,仍然缺乏对离线CMDP问题的基本理解。在本文中,我们专注于仅在脱机数据可用的情况下解决CMDP问题。通过采用单极浓缩系数$ c^*$的概念,我们建立了一个$ \ omega \ left(\ frac {\ min \ left \ left \ weft \ {| \ mathcal {s} || \ mathcal {a} a} |,, | \ Mathcal {s} |+i \ right \} c^*} {(1- \ gamma)^3 \ epsilon^2} \ right)$ sample Complacy度在离线cmdp问题上,其中$ i $架对于约束数量。通过引入一种简单但新颖的偏差控制机制,我们提出了一种称为DPDL的近乎最佳的原始二重学习算法。该算法证明,除了$ \ tilde {\ Mathcal {o}}}}(((1- \ gamma)^{ - 1})$外,该算法可确保零约束违规及其样本复杂性匹配上下界。还包括有关如何处理未知常数$ c^*$以及离线数据集中潜在的异步结构的全面讨论。
translated by 谷歌翻译
我们考虑非凸凹minimax问题,$ \ min _ {\ mathbf {x}} \ mathcal {y}} f(\ mathbf {x},\ mathbf {y})$, $ f $在$ \ mathbf {x} $ on $ \ mathbf {y} $和$ \ mathcal {y} $中的$ \ \ mathbf {y} $。解决此问题的最受欢迎的算法之一是庆祝的梯度下降上升(GDA)算法,已广泛用于机器学习,控制理论和经济学。尽管凸凹设置的广泛收敛结果,但具有相等步骤的GDA可以收敛以限制循环甚至在一般设置中发散。在本文中,我们介绍了两次尺度GDA的复杂性结果,以解决非膨胀凹入的最小问题,表明该算法可以找到函数$ \ phi(\ cdot)的静止点:= \ max _ {\ mathbf {Y} \ In \ Mathcal {Y}} F(\ CDOT,\ MATHBF {Y})高效。据我们所知,这是对这一环境中的两次尺度GDA的第一个非因对药分析,阐明了其在培训生成对抗网络(GANS)和其他实际应用中的优越实际表现。
translated by 谷歌翻译
Convex function constrained optimization has received growing research interests lately. For a special convex problem which has strongly convex function constraints, we develop a new accelerated primal-dual first-order method that obtains an $\Ocal(1/\sqrt{\vep})$ complexity bound, improving the $\Ocal(1/{\vep})$ result for the state-of-the-art first-order methods. The key ingredient to our development is some novel techniques to progressively estimate the strong convexity of the Lagrangian function, which enables adaptive step-size selection and faster convergence performance. In addition, we show that the complexity is further improvable in terms of the dependence on some problem parameter, via a restart scheme that calls the accelerated method repeatedly. As an application, we consider sparsity-inducing constrained optimization which has a separable convex objective and a strongly convex loss constraint. In addition to achieving fast convergence, we show that the restarted method can effectively identify the sparsity pattern (active-set) of the optimal solution in finite steps. To the best of our knowledge, this is the first active-set identification result for sparsity-inducing constrained optimization.
translated by 谷歌翻译
NonConvex-Concave Minimax优化已经对机器学习产生了浓厚的兴趣,包括对数据分配具有稳健性,以非解释性损失,对抗性学习为单一的学习。然而,大多数现有的作品都集中在梯度散发性(GDA)变体上,这些变体只能在平滑的设置中应用。在本文中,我们考虑了一个最小问题的家族,其目标功能在最小化变量中享有非平滑复合结构,并且在最大化的变量中是凹入的。通过充分利用复合结构,我们提出了平滑的近端线性下降上升(\ textit {平滑} plda)算法,并进一步建立了其$ \ Mathcal {o}(\ epsilon^{ - 4})在平滑设置下,平滑的gda〜 \ cite {zhang2020single}。此外,在一个温和的假设下,目标函数满足单方面的kurdyka- \ l {} ojasiewicz条件,带有指数$ \ theta \ in(0,1)$,我们可以进一步将迭代复杂性提高到$ \ MATHCAL {O }(\ epsilon^{ - 2 \ max \ {2 \ theta,1 \}})$。据我们所知,这是第一种非平滑nonconvex-concave问题的可证明有效的算法,它可以实现最佳迭代复杂性$ \ MATHCAL {o}(\ epsilon^{ - 2})$,如果$ \ theta \ 0,1/2] $。作为副产品,我们讨论了不同的平稳性概念并定量澄清它们的关系,这可能具有独立的兴趣。从经验上,我们说明了拟议的平滑PLDA在变体正规化WassErstein分布在鲁棒优化问题上的有效性。
translated by 谷歌翻译
由于其吸引人的稳健性以及可提供的效率保证,随机模型的方法最近得到了最新的关注。我们为改善基于模型的方法进行了两个重要扩展,即在随机弱凸优化上提高了基于模型的方法。首先,我们通过涉及一组样本来提出基于MiniBatch模型的方法,以近似每次迭代中的模型函数。我们首次表明随机算法即使对于非平滑和非凸(特别是弱凸)问题,即使是批量大小也可以实现线性加速。为此,我们开发了对每个算法迭代中涉及的近端映射的新颖敏感性分析。我们的分析似乎是更多常规设置的独立利益。其次,由于动量随机梯度下降的成功,我们提出了一种新的随机外推模型的方法,大大延伸到更广泛的随机算法中的经典多济会动量技术,用于弱凸优化。在相当灵活的外推术语范围内建立收敛速率。虽然主要关注弱凸优化,但我们还将我们的工作扩展到凸优化。我们将小纤维和外推模型的方法应用于随机凸优化,为此,我们为其提供了一种新的复杂性绑定和有前途的线性加速,批量尺寸。此外,提出了一种基于基于Nesterov动量的基于模型的方法,为此,我们建立了达到最优性的最佳复杂性。
translated by 谷歌翻译
通过在线规范相关性分析的问题,我们提出了\ emph {随机缩放梯度下降}(SSGD)算法,以最小化通用riemannian歧管上的随机功能的期望。 SSGD概括了投影随机梯度下降的思想,允许使用缩放的随机梯度而不是随机梯度。在特殊情况下,球形约束的特殊情况,在广义特征向量问题中产生的,我们建立了$ \ sqrt {1 / t} $的令人反感的有限样本,并表明该速率最佳最佳,直至具有积极的积极因素相关参数。在渐近方面,一种新的轨迹平均争论使我们能够实现局部渐近常态,其速率与鲁普特 - Polyak-Quaditsky平均的速率匹配。我们将这些想法携带在一个在线规范相关分析,从事文献中的第一次获得了最佳的一次性尺度算法,其具有局部渐近融合到正常性的最佳一次性尺度算法。还提供了用于合成数据的规范相关分析的数值研究。
translated by 谷歌翻译
我们研究了具有有限和结构的平滑非凸化优化问题的随机重新洗脱(RR)方法。虽然该方法在诸如神经网络的训练之类的实践中广泛利用,但其会聚行为仅在几个有限的环境中被理解。在本文中,在众所周知的Kurdyka-LojasiewiCz(KL)不等式下,我们建立了具有适当递减步长尺寸的RR的强极限点收敛结果,即,RR产生的整个迭代序列是会聚并会聚到单个静止点几乎肯定的感觉。 In addition, we derive the corresponding rate of convergence, depending on the KL exponent and the suitably selected diminishing step sizes.当KL指数在$ [0,\ FRAC12] $以$ [0,\ FRAC12] $时,收敛率以$ \ mathcal {o}(t ^ { - 1})$的速率计算,以$ t $ counting迭代号。当KL指数属于$(\ FRAC12,1)$时,我们的派生收敛速率是FORM $ \ MATHCAL {O}(T ^ { - Q})$,$ Q \ IN(0,1)$取决于在KL指数上。基于标准的KL不等式的收敛分析框架仅适用于具有某种阶段性的算法。我们对基于KL不等式的步长尺寸减少的非下降RR方法进行了新的收敛性分析,这概括了标准KL框架。我们总结了我们在非正式分析框架中的主要步骤和核心思想,这些框架是独立的兴趣。作为本框架的直接应用,我们还建立了类似的强极限点收敛结果,为重组的近端点法。
translated by 谷歌翻译
具有多个耦合序列的随机近似(SA)在机器学习中发现了广泛的应用,例如双光线学习和增强学习(RL)。在本文中,我们研究了具有多个耦合序列的非线性SA的有限时间收敛。与现有的多时间分析不同,我们寻求方案,在这些方案中,细粒度分析可以为多序列单次尺度SA(STSA)提供严格的性能保证。我们分析的核心是在许多应用中具有多序列SA中固定点的平滑度。当所有序列都具有强烈的单调增量时,我们就建立了$ \ Mathcal {o}(\ epsilon^{ - 1})$的迭代复杂性,以实现$ \ epsilon $ -Accuracy,从而改善了现有的$ \ Mathcal {O} {O}(O}(O})(O}(O}(O})) \ epsilon^{ - 1.5})$对于两个耦合序列的复杂性。当除了主序列外具有强烈单调增量时,我们建立了$ \ Mathcal {o}(\ epsilon^{ - 2})$的迭代复杂性。我们的结果的优点在于,将它们应用于随机的二聚体和组成优化问题,以及RL问题会导致对其现有性能保证的放松假设或改进。
translated by 谷歌翻译