我们开发了一种使用无遗憾的游戏动态解决凸面优化问题的算法框架。通过转换最小化凸起函数以顺序方式解决Min-Max游戏的辅助问题的问题,我们可以考虑一系列必须在另一个之后选择其行动的两名员工的一系列策略。这些策略的常见选择是所谓的无悔的学习算法,我们描述了许多此类并证明了遗憾。然后,我们表明许多凸面优化的经典一阶方法 - 包括平均迭代梯度下降,弗兰克 - 沃尔夫算法,重球算法和Nesterov的加速方法 - 可以被解释为我们框架的特殊情况由于每个玩家都做出正确选择无悔的策略。证明该框架中的收敛速率变得非常简单,因为它们遵循适当已知的遗憾范围。我们的框架还引发了一些凸优化的特殊情况的许多新的一阶方法。
translated by 谷歌翻译
本文研究了用于多机构增强学习的政策优化算法。我们首先在全信息设置中提出了针对两人零和零和马尔可夫游戏的算法框架,其中每次迭代均使用一个策略更新,使用某个矩阵游戏算法在每个状态下进行策略更新,并带有一个带有特定的值更新步骤学习率。该框架统一了许多现有和新的政策优化算法。我们表明,只要矩阵游戏算法在每种状态下,该算法的州平均策略会收敛到游戏的近似NASH平衡(NE),只要矩阵游戏算法在每个状态下都具有低称重的遗憾价值更新。接下来,我们证明,该框架与每个状态(和平滑值更新)的乐观跟踪定制领导者(oftrl)算法可以找到$ \ Mathcal {\ widetilde {o}}(t^{ - 5 /6})$ t $迭代中的$近似NE,并且具有稍微修改的值更新规则的类似算法可实现更快的$ \ Mathcal {\ widetilde {o}}}}(t^{ - 1})$收敛率。这些改进了当前最佳$ \ Mathcal {\ widetilde {o}}}(t^{ - 1/2})$对称策略优化类型算法的速率。我们还将此算法扩展到多玩家通用-SUM Markov游戏,并显示$ \ MATHCAL {\ widetilde {o}}}(t^{ - 3/4})$收敛率与粗相关均衡(CCE)。最后,我们提供了一个数值示例来验证我们的理论并研究平滑价值更新的重要性,并发现使用“渴望”的价值更新(等同于独立的自然策略梯度算法)也可能会大大减慢收敛性,即使在$ h = 2 $层的简单游戏。
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
加速的近端算法(APPA),也称为“催化剂”,是从凸优化到近似近端计算(即正则最小化)的确定还原。这种减少在概念上是优雅的,可以保证强大的收敛速度。但是,这些速率具有多余的对数项,因此需要计算每个近端点至高精度。在这项工作中,我们提出了一个新颖的放松误差标准,用于加速近端点(recapp),以消除对高精度子问题解决方案的需求。我们将recapp应用于两个规范问题:有限的和最大结构的最小化。对于有限和问题,我们匹配了以前通过精心设计的问题特异性算法获得的最著名的复杂性。为了最大程度地减少$ \ max_y f(x,y)$,其中$ f $以$ x $为$ x $,而在$ y $中强烈concave,我们改进了受对数因素限制的最著名的(基于催化剂)。
translated by 谷歌翻译
当学习者与其他优化代理进行连续游戏时,我们研究了遗憾最小化的问题:在这种情况下,如果所有玩家都遵循一种无重组算法,则相对于完全对手环境,可能会达到较低的遗憾。我们在变异稳定的游戏(包括所有凸孔和单调游戏的连续游戏)的背景下研究了这个问题,当玩家只能访问其个人回报梯度时。如果噪音是加性的,那么游戏理论和纯粹的对抗性设置也会获得类似的遗憾保证。但是,如果噪声是乘法的,我们表明学习者实际上可以持续遗憾。我们通过学习速率分离的乐观梯度方案实现了更快的速度 - 也就是说,该方法的外推和更新步骤被调整为不同的时间表,具体取决于噪声配置文件。随后,为了消除对精致的超参数调整的需求,我们提出了一种完全自适应的方法,可以在最坏的和最佳案例的遗憾保证之间平稳地插入。
translated by 谷歌翻译
我们在非静止环境中调查在线凸优化,然后选择\ emph {动态后悔}作为性能测量,定义为在线算法产生的累积损失与任何可行比较器序列之间的差异。让$ t $是$ p_t $ be的路径长度,基本上反映了环境的非平稳性,最先进的动态遗憾是$ \ mathcal {o}(\ sqrt {t( 1 + p_t)})$。虽然这一界限被证明是凸函数最佳的最低限度,但在本文中,我们证明可以进一步提高一些简单的问题实例的保证,特别是当在线功能平滑时。具体而言,我们提出了新的在线算法,可以利用平滑度并替换动态遗憾的$ t $替换依据\ {问题依赖性}数量:损耗函数梯度的变化,比较器序列的累积损失,以及比较器序列的累积损失最低术语的最低限度。这些数量是大多数$ \ mathcal {o}(t)$,良性环境中可能更小。因此,我们的结果适应了问题的内在难度,因为边界比现有结果更严格,以便在最坏的情况下保证相同的速率。值得注意的是,我们的算法只需要\ emph {一个}渐变,这与开发的方法共享相同的渐变查询复杂性,以优化静态遗憾。作为进一步的应用,我们将来自全信息设置的结果扩展到具有两点反馈的强盗凸优化,从而达到此类强盗任务的第一个相关的动态遗憾。
translated by 谷歌翻译
在本文中,我们研究了具有约束策略空间的两人双线零和游戏。这种约束的自然发生的一个实例是使用混合策略,这与概率单纯限制相对应。我们提出和分析交替的镜面下降算法,其中每个玩家都会轮流采取镜子下降算法采取行动,以进行约束优化。我们将交替的镜像下降解释为双重空间中偏斜梯度流的交替离散化,并使用凸优化和修改能量功能的工具来建立$ O(k^{ - 2/3})$绑定其平均后悔$ k $迭代。与同时版本的镜子下降算法相比,这可以定量验证该算法的更好行为,该算法的同时版本可以发散并产生$ O(k^{ - 1/2})$平均遗憾。在不受约束的特殊情况下,我们的结果恢复了在(Bailey等人,Colt 2020)中研究的零和零游戏的交替梯度下降算法的行为。
translated by 谷歌翻译
本文重点介绍了静态和时变设置中决策依赖性分布的随机鞍点问题。这些是目标是随机收益函数的预期值,其中随机变量从分布图引起的分布中绘制。对于一般分布地图,即使已知分布是已知的,发现鞍点的问题也是一般的计算繁琐。为了实现易求解的解决方案方法,我们介绍了均衡点的概念 - 这是它们诱导的静止随机最小值问题的马鞍点 - 并为其存在和唯一性提供条件。我们证明,两个类解决方案之间的距离被界定,条件是该目标具有强凸强 - 凹入的收益和Lipschitz连续分布图。我们开发确定性和随机的原始算法,并证明它们对均衡点的收敛性。特别是,通过将来自随机梯度估计器的出现的错误建模为子-Weibull随机变量,我们提供期望的错误界限,并且在每个迭代的高概率中提供的误差;此外,我们向期望和几乎肯定地显示给社区的融合。最后,我们调查了分布地图的条件 - 我们调用相反的混合优势 - 确保目标是强烈的凸强 - 凹陷的。在这种假设下,我们表明原始双算法以类似的方式汇集到鞍座点。
translated by 谷歌翻译
最近的一项工作已经建立了未耦合的学习动力学,以至于当所有玩家在游戏中使用所有玩家时,每个玩家的\ emph {sorex} $ t $ recretitions在$ t $中增长了polygarithmarithm,这是$ t $的指数改进,比指数级的改进,比传统的保证在无缩写框架。但是,到目前为止,这些结果仅限于具有结构化策略空间的某些类别的游戏,例如正常形式和广泛形式的游戏。关于$ o(\ text {polylog} t)$遗憾界限是否可以为一般凸和紧凑型策略集获得的问题 - 这在经济学和多种系统中的许多基本模型中都发生 - 同时保留有效的策略更新是一种重要的问题。在本文中,我们通过建立$ o(\ log t)$ player后悔的第一个未耦合学习算法来回答这一点凸和紧凑的策略集。我们的学习动力基于对适当的\ emph {升起}空间的乐观跟随领导者的实例化,使用\ emph {self-condcordant正规器},这是特殊的,这不是可行区域的障碍。此外,我们的学习动力是可以有效地实现的,如果可以访问登录策略的近端甲骨文,从而导致$ o(\ log \ log \ log t)$ ter-ter-ter-tir-tir-tir-tir-tir-tir-tir-tir-tir-tir-tir-tir-tirceptimity;当仅假设仅对\ emph {Linear}优化Oracle访问时,我们还会给出扩展。最后,我们调整动力学以保证对抗性制度中的$ O(\ sqrt {t})$遗憾。即使在适用先前结果的特殊情况下,我们的算法也会改善最先进的遗憾界限,无论是依赖迭代次数还是对策略集的维度的依赖。
translated by 谷歌翻译
在线优化是一个完善的优化范式,旨在鉴于对以前的决策任务的正确答案,旨在做出一系列正确的决策。二重编程涉及一个分层优化问题,其中所谓的外部问题的可行区域受内部问题的解决方案集映射的限制。本文将这两个想法汇总在一起,并研究了在线双层优化设置,其中一系列随时间变化的二聚体问题又一个接一个地揭示了一个。我们将已知的单层在线算法的已知遗憾界限扩展到双重设置。具体而言,我们引入了新的杂种遗憾概念,开发了一种在线交替的时间平均梯度方法,该方法能够利用光滑度,并根据内部和外部极型序列的长度提供遗憾的界限。
translated by 谷歌翻译
我们考虑在具有强盗反馈的未知游戏中的在线无遗憾的学习,其中每个代理只在每次都观察到其奖励 - 所有参与者当前的联合行动 - 而不是其渐变。我们专注于平稳且强烈单调的游戏类,并在其中研究最佳的无遗憾。利用自我协调的障碍功能,我们首先构建在线强盗凸优化算法,并表明它实现了平滑且强烈 - 凹陷的支付下$ \ tilde {\ theta}(\ sqrt {t})$的单代理最佳遗憾职能。然后,如果每个代理在强烈单调的游戏中应用这种无悔的学习算法,则以$ \ tilde {\ theta}的速率,联合动作会收敛于\ texit {last erate}到唯一的纳什均衡(1 / \ sqrt {t})$。在我们的工作之前,同一类游戏中的最熟悉的融合率是$ O(1 / T ^ {1/3})$(通过不同的算法实现),从而留下了最佳无悔的问题学习算法(因为已知的下限为$ \ omega(1 / \ sqrt {t})$)。我们的结果因此通过识别第一双重最佳强盗学习算法来解决这个公开问题并促进强盗游戏 - 理论学习的广泛景观,因为它达到了(达到了日志因子)单王子学习和最佳的最佳遗憾多代理学习中的最后迭代收敛速度。我们还展示了几项模拟研究的结果 - Cournot竞争,凯利拍卖和分布式正则化物流回归 - 以证明我们算法的功效。
translated by 谷歌翻译
最近有很多不可能的结果表明,在与对抗对手的马尔可夫游戏中最小化的遗憾在统计学上和计算上是棘手的。然而,这些结果都没有排除在所有各方采用相同学习程序的假设下,遗憾最小化的可能性。在这项工作中,我们介绍了第一种(据我们所知)在通用马尔可夫游戏中学习的算法,该算法在所有代理商执行时提供了sublinear后悔保证。我们获得的边界是为了置换遗憾,因此,在此过程中,意味着融合了相关的平衡。我们的算法是分散的,计算上有效的,并且不需要代理之间的任何通信。我们的主要观察结果是,在马尔可夫游戏中通过策略优化的在线学习基本上减少了一种加权遗憾的最小化形式,而未知权重由代理商的策略顺序的路径长度确定。因此,控制路径长度会导致加权的遗憾目标,以提供足够的适应性算法提供统一的后悔保证。
translated by 谷歌翻译
我们考虑非凸凹minimax问题,$ \ min _ {\ mathbf {x}} \ mathcal {y}} f(\ mathbf {x},\ mathbf {y})$, $ f $在$ \ mathbf {x} $ on $ \ mathbf {y} $和$ \ mathcal {y} $中的$ \ \ mathbf {y} $。解决此问题的最受欢迎的算法之一是庆祝的梯度下降上升(GDA)算法,已广泛用于机器学习,控制理论和经济学。尽管凸凹设置的广泛收敛结果,但具有相等步骤的GDA可以收敛以限制循环甚至在一般设置中发散。在本文中,我们介绍了两次尺度GDA的复杂性结果,以解决非膨胀凹入的最小问题,表明该算法可以找到函数$ \ phi(\ cdot)的静止点:= \ max _ {\ mathbf {Y} \ In \ Mathcal {Y}} F(\ CDOT,\ MATHBF {Y})高效。据我们所知,这是对这一环境中的两次尺度GDA的第一个非因对药分析,阐明了其在培训生成对抗网络(GANS)和其他实际应用中的优越实际表现。
translated by 谷歌翻译
自适应梯度算法(例如Adagrad及其变体)在培训深神经网络方面已广受欢迎。尽管许多适合自适应方法的工作都集中在静态的遗憾上,作为实现良好遗憾保证的性能指标,但对这些方法的动态遗憾分析尚不清楚。与静态的遗憾相反,动态遗憾被认为是绩效测量的更强大的概念,因为它明确阐明了环境的非平稳性。在本文中,我们通过动态遗憾的概念在一个强大的凸面设置中浏览了Adagrad(称为M-Adagrad)的一种变体,该遗憾衡量了在线学习者的性能,而不是参考(最佳)解决方案,这可能会改变时间。我们证明了根据最小化序列的路径长度的束缚,该序列基本上反映了环境的非平稳性。此外,我们通过利用每个回合中学习者的多个访问权限来增强动态遗憾。经验结果表明,M-Adagrad在实践中也很好。
translated by 谷歌翻译
我们开发了一个修改的在线镜下降框架,该框架适用于在无界域中构建自适应和无参数的算法。我们利用这项技术来开发第一个不受限制的在线线性优化算法,从而达到了最佳的动态遗憾,我们进一步证明,基于以下规范化领导者的自然策略无法取得相似的结果。我们还将镜像下降框架应用于构建新的无参数隐式更新,以及简化和改进的无限规模算法。
translated by 谷歌翻译
在本文中,我们调查了正规化的力量,即在解决广泛形式的游戏(EFGS)方面的加强学习和优化方面的常见技术。我们提出了一系列新算法,基于正规化游戏的回报功能,并建立一组收敛结果,这些结果严格改善了现有的假设或更强的收敛保证。特别是,我们首先证明了膨胀的乐观镜下降(DOMD),一种用于求解EFG的有效变体,具有自适应正则化可以实现快速的$ \ tilde o(1/t)$ last-Ilt-Ilt-Ilt-It-last-Ilt-It-titer-In-titer-Inter-In-Elt-It-Triperate Connergengengenge没有纳什平衡(NE)的独特性假设。此外,正规化的膨胀倍增权重更新(reg-domwu)是reg-domd的实例,进一步享受了$ \ tilde o(1/t)$ ther-tir-tir-tir-tir-tir-tir-ter-tir-tir-ter-tir-tir-tir-tir-tir-tir-tir-tir-tir-ter-ter-ter-ter-ter-ter-ter-ter-ter-tir-ter-ter-tir-trientate Convergence。这解决了一个关于OMWU算法是否可以在没有EFG和正常形式游戏文献中的唯一假设的情况下获得的迭代融合的一个悬而未决的问题。其次,我们表明,正式化的反事实遗憾最小化(reg-cfr),具有乐观的镜像下降算法的变体作为遗憾少量器,可以实现$ o(1/t^{1/4})$ best-Ilterate和$ $ o(1/t^{3/4})$用于在EFG中查找NE的平均值收敛率。最后,我们表明Reg-CFR可以实现渐近的最后一介质收敛,而最佳$ O(1/t)$平均识别收敛速率可用于查找扰动的EFGS的NE,这对于找到近似广泛形式的完美非常有用平衡(EFPE)。据我们所知,它们构成了CFR型算法的第一个最后近期收敛结果,同时匹配SOTA平均识别收敛速率在寻找非扰动的EFG中的NE中。我们还提供数值结果来证实我们算法的优势。
translated by 谷歌翻译
遗憾已被广泛用作评估分布式多代理系统在线优化算法的性能的首选指标。但是,与代理相关的数据/模型变化可以显着影响决策,并需要在代理之间达成共识。此外,大多数现有的作品都集中在开发(强烈或非严格地)凸出的方法上,对于一般非凸损失的分布式在线优化中的遗憾界限,几乎没有得到很少的结果。为了解决这两个问题,我们提出了一种新型的综合遗憾,并使用新的基于网络的基于遗憾的度量标准来评估分布式在线优化算法。我们具体地定义了复合遗憾的静态和动态形式。通过利用我们的综合遗憾的动态形式,我们开发了一种基于共识的在线归一化梯度(CONGD)的伪convex损失方法,事实证明,它显示了与最佳器路径变化的规律性术语有关的透明性行为。对于一般的非凸损失,我们首先阐明了基于最近进步的分布式在线非凸学习的遗憾,因此没有确定性算法可以实现sublinear的遗憾。然后,我们根据离线优化的Oracle开发了分布式的在线非凸优化(Dinoco),而无需进入梯度。迪诺科(Dinoco)被证明是统一的遗憾。据我们所知,这是对一般分布在线非convex学习的第一个遗憾。
translated by 谷歌翻译
在约束凸优化中,基于椭球体或切割平面方法的现有方法与环境空间的尺寸不符比展出。诸如投影梯度下降的替代方法,仅为诸如欧几里德球等简单凸起集提供的计算益处,其中可以有效地执行欧几里德投影。对于其他集合,投影的成本可能太高。为了规避这些问题,研究了基于着名的Frank-Wolfe算法的替代方法。这些方法在每次迭代时使用线性优化Oracle而不是欧几里德投影;前者通常可以有效地执行。此类方法还扩展到在线和随机优化设置。然而,对于一般凸套,弗兰克 - 沃尔夫算法及其变体不会在后悔或速率方面实现最佳性能。更重要的是,在某些情况下,他们使用的线性优化Oracle仍然可以计算得昂贵。在本文中,我们远离Frank-Wolfe风格的算法,并提出了一种新的减少,将任何在欧几里德球(其中投影廉价)上定义的任何算法的算法转移到球上包含的受限组C上的算法,而不牺牲原始算法的性能多大。我们的缩减需要O(t log t)在t回合后对C的成员资格Oracle调用,并且不需要对C的线性优化。使用我们的减少,我们恢复最佳遗憾界限[resp。在在线[RESP的迭代次数方面。随机]凸优化。当环境空间的尺寸大时,我们的保证在离线凸优化设置中也是有用的。
translated by 谷歌翻译
Convex function constrained optimization has received growing research interests lately. For a special convex problem which has strongly convex function constraints, we develop a new accelerated primal-dual first-order method that obtains an $\Ocal(1/\sqrt{\vep})$ complexity bound, improving the $\Ocal(1/{\vep})$ result for the state-of-the-art first-order methods. The key ingredient to our development is some novel techniques to progressively estimate the strong convexity of the Lagrangian function, which enables adaptive step-size selection and faster convergence performance. In addition, we show that the complexity is further improvable in terms of the dependence on some problem parameter, via a restart scheme that calls the accelerated method repeatedly. As an application, we consider sparsity-inducing constrained optimization which has a separable convex objective and a strongly convex loss constraint. In addition to achieving fast convergence, we show that the restarted method can effectively identify the sparsity pattern (active-set) of the optimal solution in finite steps. To the best of our knowledge, this is the first active-set identification result for sparsity-inducing constrained optimization.
translated by 谷歌翻译
在线学习中,随机数据和对抗性数据是两个广泛研究的设置。但是许多优化任务都不是I.I.D.也不完全对抗,这使得对这些极端之间的世界有更好的理论理解具有根本的利益。在这项工作中,我们在在随机I.I.D.之间插值的环境中建立了在线凸优化的新颖遗憾界限。和完全的对抗损失。通过利用预期损失的平滑度,这些边界用梯度的方差取代对最大梯度长度的依赖,这是以前仅以线性损失而闻名的。此外,它们削弱了I.I.D.假设通过允许对抗中毒的回合,以前在专家和强盗设置中考虑过。我们的结果将其扩展到在线凸优化框架。在完全I.I.D.中情况,我们的界限与随机加速的结果相匹配,并且在完全对抗的情况下,它们优雅地恶化以符合Minimax的遗憾。我们进一步提供了下限,表明所有中级方案的遗憾上限都很紧张,从随机方差和损失梯度的对抗变异方面。
translated by 谷歌翻译