应用零订单(ZO)方法的主要挑战是高查询复杂性,尤其是当查询成本高昂时。我们根据我们称为Lazo的自适应懒惰查询,为ZO方法提出了一种新颖的梯度估计技术。与经典的单点或两点梯度估计方法不同,Lazo开发了两种替代方法来检查以前迭代中旧查询的有用性,然后自适应地重新恢复它们以构建低变义梯度估计。我们严格地确定,通过明智地重用旧查询,Lazo可以减少随机梯度估计的差异,从而使它不仅节省了每次迭代的查询,而且还可以实现对称对称的两点方法的遗憾。我们评估了Lazo的数值性能,并证明了相对于几种现有的ZO方法的遗憾和查询复杂性,Lazo的低变义属性和绩效增长。 Lazo的想法是一般的,可以应用于ZO方法的其他变体。
translated by 谷歌翻译
我们在非静止环境中调查在线凸优化,然后选择\ emph {动态后悔}作为性能测量,定义为在线算法产生的累积损失与任何可行比较器序列之间的差异。让$ t $是$ p_t $ be的路径长度,基本上反映了环境的非平稳性,最先进的动态遗憾是$ \ mathcal {o}(\ sqrt {t( 1 + p_t)})$。虽然这一界限被证明是凸函数最佳的最低限度,但在本文中,我们证明可以进一步提高一些简单的问题实例的保证,特别是当在线功能平滑时。具体而言,我们提出了新的在线算法,可以利用平滑度并替换动态遗憾的$ t $替换依据\ {问题依赖性}数量:损耗函数梯度的变化,比较器序列的累积损失,以及比较器序列的累积损失最低术语的最低限度。这些数量是大多数$ \ mathcal {o}(t)$,良性环境中可能更小。因此,我们的结果适应了问题的内在难度,因为边界比现有结果更严格,以便在最坏的情况下保证相同的速率。值得注意的是,我们的算法只需要\ emph {一个}渐变,这与开发的方法共享相同的渐变查询复杂性,以优化静态遗憾。作为进一步的应用,我们将来自全信息设置的结果扩展到具有两点反馈的强盗凸优化,从而达到此类强盗任务的第一个相关的动态遗憾。
translated by 谷歌翻译
在评估目标时,在线优化嘈杂的功能需要在部署系统上进行实验,这是制造,机器人技术和许多其他功能的关键任务。通常,对安全输入的限制是未知的,我们只会获得嘈杂的信息,表明我们违反约束的距离有多近。但是,必须始终保证安全性,不仅是算法的最终输出。我们介绍了一种通用方法,用于在高维非线性随机优化问题中寻求一个固定点,其中在学习过程中保持安全至关重要。我们称为LB-SGD的方法是基于应用随机梯度下降(SGD),其精心选择的自适应步长大小到原始问题的对数屏障近似。我们通过一阶和零阶反馈提供了非凸,凸面和强键平滑约束问题的完整收敛分析。与现有方法相比,我们的方法通过维度可以更好地更新和比例。我们从经验上将样本复杂性和方法的计算成本比较现有的安全学习方法。除了合成基准测试之外,我们还证明了方法对在安全强化学习(RL)中政策搜索任务中最大程度地减少限制违规的有效性。
translated by 谷歌翻译
我们考虑非凸凹minimax问题,$ \ min _ {\ mathbf {x}} \ mathcal {y}} f(\ mathbf {x},\ mathbf {y})$, $ f $在$ \ mathbf {x} $ on $ \ mathbf {y} $和$ \ mathcal {y} $中的$ \ \ mathbf {y} $。解决此问题的最受欢迎的算法之一是庆祝的梯度下降上升(GDA)算法,已广泛用于机器学习,控制理论和经济学。尽管凸凹设置的广泛收敛结果,但具有相等步骤的GDA可以收敛以限制循环甚至在一般设置中发散。在本文中,我们介绍了两次尺度GDA的复杂性结果,以解决非膨胀凹入的最小问题,表明该算法可以找到函数$ \ phi(\ cdot)的静止点:= \ max _ {\ mathbf {Y} \ In \ Mathcal {Y}} F(\ CDOT,\ MATHBF {Y})高效。据我们所知,这是对这一环境中的两次尺度GDA的第一个非因对药分析,阐明了其在培训生成对抗网络(GANS)和其他实际应用中的优越实际表现。
translated by 谷歌翻译
在论文中,我们提出了一类加速的零顺序,用于非凸迷你优化和最小值优化的一类加速的零序命令和一流的动量方法。具体而言,我们提出了一种新的加速零级动量(ACC-ZOM)方法,用于黑箱迷你优化。此外,我们证明我们的ACC-ZOM方法达到$ \ TILDE {O}的较低查询复杂性(D ^ {3/4} \ epsilon ^ {-3})$寻找$ \ epsilon $ -stationary point,这通过$ o(d ^ {1/4})$ of the $ d $表示可变尺寸。特别是,ACC-ZOM不需要现有的零点随机算法中所需的大批次。同时,我们提出了一种加速\ TextBF {Zeroth-Order} moneotum血管下降(ACC-ZOMDA)方法,用于\ TextBF {Black-Box} Minimax-Optimization,它获得$ \ TINDE {O}的查询复杂性((d_1 + d_2)^ {3/4} \ kappa_y ^ {4.5} \ epsilon ^ { - 3})$没有大批次查找$ \ epsilon $ -stationary point,其中$ d_1 $和$ d_2 $ demote变量尺寸和$ \ kappa_y $是条件号。此外,我们提出了一种加速\ TextBF {一阶}势头血管下降(ACC-MDA)方法,用于\ textBF {White-Box} Minimax优化,它具有$ \ tilde {o}(\ kappa_y ^ { 4.5} \ epsilon ^ { - 3})$无大批次查找$ \ epsilon $ -stationary point。特别是,我们的ACC-MDA可以获得$ \ tilde {o}(\ kappa_y ^ {2.5} \ epsilon ^ {-3})$的较低渐变复杂性,具有批量尺寸$ o(\ kappa_y ^ 4)$。对黑匣子对抗攻击深度神经网络(DNN)和中毒攻击的广泛实验结果表明了我们算法的效率。
translated by 谷歌翻译
我们考虑在重复的未知游戏中进行规避风险的学习,在这种游戏中,代理商的目标是最大程度地减少其个人产生高成本的风险。具体而言,代理商使用处于风险的条件值(CVAR)作为风险措施,并以每集选定动作的成本值的形式依靠强盗反馈来估算其CVAR值并更新其动作。使用匪徒反馈来估计CVAR的一个主要挑战是,代理只能访问其自身的成本值,但是,这取决于所有代理的行为。为了应对这一挑战,我们提出了一种新的规避风险的学习算法,并利用有关成本价值的完整历史信息。我们表明,该算法实现了子线性的遗憾,并匹配了文献中最著名的算法。我们为欧洲大师游戏提供了数值实验,该游戏表明我们的方法表现优于现有方法。
translated by 谷歌翻译
零顺序(ZO)优化广泛用于处理具有挑战性的任务,例如基于查询的黑匣子对抗攻击和加强学习。已经提出了各种尝试,以基于有限差异将先前信息集成到梯度估计过程中,具有有前途的经验结果。然而,它们的收敛性质不太了解。本文试图通过分析具有各种梯度估计的贪婪下降框架下的先前引导的ZO算法的收敛来填补这种差距。我们为先前引导的随机梯度(PRGF)算法提供了收敛保障。此外,为了进一步加速贪婪的下降方法,我们提出了一种新的加速随机搜索(ARS)算法,其将先前信息与收敛分析一起结合在一起。最后,我们的理论结果是通过关于几个数值基准以及对抗性攻击的实验确认。
translated by 谷歌翻译
We study stochastic monotone inclusion problems, which widely appear in machine learning applications, including robust regression and adversarial learning. We propose novel variants of stochastic Halpern iteration with recursive variance reduction. In the cocoercive -- and more generally Lipschitz-monotone -- setup, our algorithm attains $\epsilon$ norm of the operator with $\mathcal{O}(\frac{1}{\epsilon^3})$ stochastic operator evaluations, which significantly improves over state of the art $\mathcal{O}(\frac{1}{\epsilon^4})$ stochastic operator evaluations required for existing monotone inclusion solvers applied to the same problem classes. We further show how to couple one of the proposed variants of stochastic Halpern iteration with a scheduled restart scheme to solve stochastic monotone inclusion problems with ${\mathcal{O}}(\frac{\log(1/\epsilon)}{\epsilon^2})$ stochastic operator evaluations under additional sharpness or strong monotonicity assumptions.
translated by 谷歌翻译
近期在应用于培训深度神经网络和数据分析中的其他优化问题中的非凸优化的优化算法的兴趣增加,我们概述了最近对非凸优化优化算法的全球性能保证的理论结果。我们从古典参数开始,显示一般非凸面问题无法在合理的时间内有效地解决。然后,我们提供了一个问题列表,可以通过利用问题的结构来有效地找到全球最小化器,因为可能的问题。处理非凸性的另一种方法是放宽目标,从找到全局最小,以找到静止点或局部最小值。对于该设置,我们首先为确定性一阶方法的收敛速率提出了已知结果,然后是最佳随机和随机梯度方案的一般理论分析,以及随机第一阶方法的概述。之后,我们讨论了非常一般的非凸面问题,例如最小化$ \ alpha $ -weakly-are-convex功能和满足Polyak-lojasiewicz条件的功能,这仍然允许获得一阶的理论融合保证方法。然后,我们考虑更高阶和零序/衍生物的方法及其收敛速率,以获得非凸优化问题。
translated by 谷歌翻译
近年来,由于它们在对点对点网络上的分散性学习问题(例如,多机构元学习,多机构的多方强化增强学习学习)上,分散的双层优化问题在网络和机器学习社区中引起了越来越多的关注。 ,个性化的培训和拜占庭的弹性学习)。但是,对于具有有限的计算和通信功能的对等网络上的分散式双层优化,如何实现低样本和通信复杂性是迄今为止尚未探索的两个基本挑战。在本文中,我们首次尝试研究了分别与外部和内部子问题相对应的非凸和强结构结构的分散双重优化问题。本文中我们的主要贡献是两倍:i)我们首先提出了一种称为Interact的确定性算法(Inter-gradient-descent-out-outer-tracked-gradeent),需要$ \ Mathcal {o}的样品复杂性(n \ epsilon) ^{ - 1})$和$ \ mathcal {o}的通信复杂性(\ epsilon^{ - 1})$解决双重优化问题,其中$ n $和$ \ epsilon> 0 $是样本的数量在每个代理和所需的平稳性差距上。 ii)为了放宽每次迭代中进行全面梯度评估的需求,我们提出了一个随机方差的互动版本(SVR Interact),该版本将样品复杂性提高到$ \ Mathcal {o}(\ sqrt {n} \ epsilon ^{ - 1})$在达到与确定算法相同的通信复杂性时。据我们所知,这项工作是第一个实现低样本和通信复杂性,以解决网络上的分散双层优化问题。我们的数值实验也证实了我们的理论发现。
translated by 谷歌翻译
我们考虑最小化根据未知和可能随机动态发展的凸起功能的问题,这可以按时和在决策变量上共同依赖。在机器学习和信号处理文献中比比皆是,在概念漂移,随机跟踪和执行预测的名称下取比。我们为随机算法提供了新的非渐近融合保障,其具有迭代平均值,专注于期望和高概率有效。我们获得的效率估计明确地解除了优化误差,梯度噪声和时间漂移的贡献。值得注意的是,我们表明近端随机梯度方法的跟踪效率仅取决于配备步骤衰减计划时的初始化质量上的对数。数值实验说明了我们的结果。
translated by 谷歌翻译
我们考虑在具有强盗反馈的未知游戏中的在线无遗憾的学习,其中每个代理只在每次都观察到其奖励 - 所有参与者当前的联合行动 - 而不是其渐变。我们专注于平稳且强烈单调的游戏类,并在其中研究最佳的无遗憾。利用自我协调的障碍功能,我们首先构建在线强盗凸优化算法,并表明它实现了平滑且强烈 - 凹陷的支付下$ \ tilde {\ theta}(\ sqrt {t})$的单代理最佳遗憾职能。然后,如果每个代理在强烈单调的游戏中应用这种无悔的学习算法,则以$ \ tilde {\ theta}的速率,联合动作会收敛于\ texit {last erate}到唯一的纳什均衡(1 / \ sqrt {t})$。在我们的工作之前,同一类游戏中的最熟悉的融合率是$ O(1 / T ^ {1/3})$(通过不同的算法实现),从而留下了最佳无悔的问题学习算法(因为已知的下限为$ \ omega(1 / \ sqrt {t})$)。我们的结果因此通过识别第一双重最佳强盗学习算法来解决这个公开问题并促进强盗游戏 - 理论学习的广泛景观,因为它达到了(达到了日志因子)单王子学习和最佳的最佳遗憾多代理学习中的最后迭代收敛速度。我们还展示了几项模拟研究的结果 - Cournot竞争,凯利拍卖和分布式正则化物流回归 - 以证明我们算法的功效。
translated by 谷歌翻译
我们考虑使用具有规避风险的代理商的在线随机游戏,其目标是学习最佳决策,以最大程度地减少产生高昂成本的风险。具体而言,我们使用处于风险的条件值(CVAR)作为一种风险度量,代理可以以仅选择其选定动作的成本值的形式使用Bandit反馈来估算。由于成本函数的分布取决于所有通常无法观察的代理的行为,因此它们本身是未知的,因此,成本的CVAR值很难计算。为了应对这一挑战,我们提出了一种新的避免在线风险的学习算法,该算法依赖于使用CVAR值计算的CVAR梯度的单点零级估计,这些算法是通过适当采样成本函数估算的CVAR值。我们表明,该算法以很高的可能性实现了子线性的遗憾。我们还提出了该算法的两种变体,以提高性能。第一个变体依赖于一种新的采样策略,该策略使用上一个迭代中的样本来提高CVAR值的估计精度。第二个变体采用残留反馈,该反馈使用上一个迭代中的CVAR值来减少CVAR梯度估计的方差。我们从理论上分析了这些变体的收敛属性,并说明了它们在在线市场问题上的表现,我们将其模拟为ournot游戏。
translated by 谷歌翻译
这项工作研究了凸和Lipschitz功能的在线零级优化。我们基于两个函数评估和$ \ ell_1 $ -sphere的随机化提出了一个新颖的梯度估计器。考虑到可行的集合和Lipschitz假设的不同几何形状,我们分析了在线双重平均算法的算法,代替了通常的梯度。我们考虑对零级甲骨文噪声的两种假设:取消噪声和对抗性噪声。我们提供任何时间和完全数据驱动的算法,它适应问题的所有参数。在文献中先前研究过的噪声的情况下,我们的保证可以比Duchi等人获得的最新界限可比性或更好。 (2015)和Shamir(2017)非自适应算法。我们的分析是基于在$ \ ell_1 $ -sphere上带有显式常数的均匀度量的新加权的Poincar \'e类型不等式,这可能具有独立的利益。
translated by 谷歌翻译
自适应梯度算法(例如Adagrad及其变体)在培训深神经网络方面已广受欢迎。尽管许多适合自适应方法的工作都集中在静态的遗憾上,作为实现良好遗憾保证的性能指标,但对这些方法的动态遗憾分析尚不清楚。与静态的遗憾相反,动态遗憾被认为是绩效测量的更强大的概念,因为它明确阐明了环境的非平稳性。在本文中,我们通过动态遗憾的概念在一个强大的凸面设置中浏览了Adagrad(称为M-Adagrad)的一种变体,该遗憾衡量了在线学习者的性能,而不是参考(最佳)解决方案,这可能会改变时间。我们证明了根据最小化序列的路径长度的束缚,该序列基本上反映了环境的非平稳性。此外,我们通过利用每个回合中学习者的多个访问权限来增强动态遗憾。经验结果表明,M-Adagrad在实践中也很好。
translated by 谷歌翻译
非滑动非概念优化问题在机器学习和业务决策中广泛出现,而两个核心挑战阻碍了具有有限时间收敛保证的有效解决方案方法的开发:缺乏计算可触及的最佳标准和缺乏计算功能强大的口腔。本文的贡献是两个方面。首先,我们建立了著名的Goldstein Subdferential〜 \ Citep {Goldstein-1977-Optimization}与均匀平滑之间的关系,从而为设计有限时间融合到一组无梯度的方法的基础和直觉提供了基础和直觉戈德斯坦固定点。其次,我们提出了无梯度方法(GFM)和随机GFM,用于解决一类非平滑非凸优化问题,并证明它们两个都可以返回$(\ delta,\ epsilon)$ - Lipschitz函数的Goldstein Sentary Point $ f $以$ o(d^{3/2} \ delta^{ - 1} \ epsilon^{ - 4})$的预期收敛速率为$ o(d^{3/2} \ delta^{ - 1} \ epsilon^{ - 4})$,其中$ d $是问题维度。还提出了两阶段版本的GFM和SGFM,并被证明可以改善大泄漏结果。最后,我们证明了2-SGFM使用\ textsc {minst}数据集对训练Relu神经网络的有效性。
translated by 谷歌翻译
We initiate a formal study of reproducibility in optimization. We define a quantitative measure of reproducibility of optimization procedures in the face of noisy or error-prone operations such as inexact or stochastic gradient computations or inexact initialization. We then analyze several convex optimization settings of interest such as smooth, non-smooth, and strongly-convex objective functions and establish tight bounds on the limits of reproducibility in each setting. Our analysis reveals a fundamental trade-off between computation and reproducibility: more computation is necessary (and sufficient) for better reproducibility.
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
我们考虑在随机凸成本和状态和成本函数的全部反馈下控制未知线性动力学系统的问题。我们提出了一种计算高效的算法,该算法与最佳的稳定线性控制器相比,该算法达到了最佳的$ \ sqrt {t} $遗憾。与以前的工作相反,我们的算法基于面对不确定性范式的乐观情绪。这导致了大大改善的计算复杂性和更简单的分析。
translated by 谷歌翻译
资源限制的在线分配问题是收入管理和在线广告中的核心问题。在这些问题中,请求在有限的地平线期间顺序到达,对于每个请求,决策者需要选择消耗一定数量资源并生成奖励的动作。目标是最大限度地提高累计奖励,这是对资源总消费的限制。在本文中,我们考虑一种数据驱动的设置,其中使用决策者未知的输入模型生成每个请求的奖励和资源消耗。我们设计了一般的算法算法,可以在各种输入模型中实现良好的性能,而不知道它们面临的类型类型。特别是,我们的算法在独立和相同的分布式输入以及各种非静止随机输入模型下是渐近的最佳选择,并且当输入是对抗性时,它们达到渐近最佳的固定竞争比率。我们的算法在Lagrangian双色空间中运行:它们为使用在线镜像血管更新的每个资源维护双倍乘数。通过相应地选择参考功能,我们恢复双梯度下降和双乘法权重更新算法。与现有的在线分配问题的现有方法相比,所产生的算法简单,快速,不需要在收入函数,消费函数和动作空间中凸起。我们将应用程序讨论到网络收入管理,在线竞标,重复拍卖,预算限制,与高熵的在线比例匹配,以及具有有限库存的个性化分类优化。
translated by 谷歌翻译