我们扩展并结合了一些文献的工具,以设计快速,自适应,随时和无规模的在线学习算法。无尺寸的遗憾界限必须以最大损失线性缩放,既朝向大损失,缺乏较小亏损。自适应遗憾界限表明,算法可以利用易于数据,并且可能具有恒定的遗憾。我们寻求开发快速算法,依赖于尽可能少的参数,特别是它们应该是随时随地的,因此不依赖于时间范围。我们的第一和主要工具,IsoTuning是平衡遗憾权衡的想法的概括。我们开发了一套工具来轻松设计和分析这些学习率,并表明它们自动适应遗憾(无论是常量,$ O(\ log t)$,$ o(\ sqrt {t})$,在Hindsight的最佳学习率的因子2中,对于相同的观察量的因子2中。第二种工具是在线校正,其允许我们获得许多算法的中心界限,以防止当域太大或仅部分约束时遗憾地被空隙。最后一个工具null更新,防止算法执行过多的更大的更新,这可能导致无限的后悔,甚至无效更新。我们使用这些工具开发一般理论并将其应用于几种标准算法。特别是,我们(几乎完全)恢复对无限域的FTRL的小损失的适应性,设计和证明无镜面下降的无缝的自适应保证(至少当Bregman发散在其第二个参数中凸出),延伸Adapt-ML-PROSIA令无规模的保证,并为Prod,Adahedge,Boa和软贝内斯提供了其他几个小贡献。
translated by 谷歌翻译
我们解决了经典专家问题的长期“不可能的调整”问题,并表明,实际上可能实现后悔$ o \ lex(\ sqrt {(\ ln d)\ sum_t \ ell_ {t,i} ^ 2} \ \右)同时为所有专家$ i $ t-$-t-$ -round $ d $ -expert问题在哪里$ \ ell_ {t,i} $是专家$ i $的损失$ t $ 。我们的算法基于镜像血迹框架,具有校正项和加权熵规范器。虽然自然,但之前尚未研究该算法,并且需要仔细分析。对于任何预测向量$ M_T,我们还概括了refton to $ o reft(\ sqrt {(\ ln d)\ sum_t(\ ell_ {t,i})^ 2} \右)$ $ Cylayer通过选择不同的$ M_T $来收到学习者,并恢复或改善许多现有结果。此外,我们使用相同的框架来创建一个组合一组基础算法的主算法,并学习最好的一个开销。我们的主人的新保证使我们能够为专家问题提供许多新的结果,并且更广泛的在线线性优化。
translated by 谷歌翻译
我们考虑使用$ K $臂的随机匪徒问题,每一个都与$ [m,m] $范围内支持的有限分布相关。我们不认为$ [m,m] $是已知的范围,并表明学习此范围有成本。确实,出现了与分销相关和无分配后悔界限之间的新权衡,这阻止了同时实现典型的$ \ ln t $和$ \ sqrt {t} $ bunds。例如,仅当与分布相关的遗憾界限至少属于$ \ sqrt {t} $的顺序时,才能实现$ \ sqrt {t} $}无分布遗憾。我们展示了一项策略,以实现新的权衡表明的遗憾。
translated by 谷歌翻译
我们在延迟设置中研究了非旋转匪徒和专家,其中延迟取决于时间和武器。虽然仅延迟仅取决于时间的延迟已经过度研究,但依赖于扶手的延迟设置更好地以推出新技术挑战的成本更好地捕获现实世界应用。在完整信息(专家)设置中,我们设计了一种具有一阶遗憾的算法,界定延迟和损失之间有趣的权衡。我们证明了类似的一阶遗憾,对于强盗设置,当允许学习者观察丢失有多少损失时。这些是延迟设置中的第一个界限,取决于最佳臂的损耗和延迟。当在强盗设置没有观察到损失以外的信息时,我们仍然可以通过对Zimmert和Seldin算法(2020)的修改来证明遗憾。我们的分析铰链在漂移的新颖界限上,测量算法在一轮超前时可以执行多少算法。
translated by 谷歌翻译
一系列不受限制的在线凸优化中的作品已经调查了同时调整比较器的规范$ u $和梯度的最大规范$ g $的可能性。在完全的一般性中,已知匹配的上限和下界表明,这是不可避免的$ g u^3 $的不可避免的成本,当$ g $或$ u $提前知道时,这是不需要的。令人惊讶的是,Kempka等人的最新结果。 (2019年)表明,在特定情况下,不需要这样的适应性价格,例如$ -Lipschitz损失(例如铰链损失)。我们通过表明我们专门研究任何其他常见的在线学习损失,我们的结果涵盖了日志损失,(线性和非参数)逻辑回归,我们实际上从来没有任何代价来为适应性支付的代价,从而跟进这一观察结果,我们会跟进这一观察结果。方形损耗预测,以及(线性和非参数)最小二乘回归。我们还通过提供对$ U $的明确依赖的下限来填补文献中的几个空白。在所有情况下,我们都会获得无标度算法,这些算法在数据恢复下是合理的不变。我们的一般目标是在不关心计算效率的情况下建立可实现的速率,但是对于线性逻辑回归,我们还提供了一种适应性方法,该方法与Agarwal等人的最新非自适应算法一样有效。 (2021)。
translated by 谷歌翻译
我们在非静止环境中调查在线凸优化,然后选择\ emph {动态后悔}作为性能测量,定义为在线算法产生的累积损失与任何可行比较器序列之间的差异。让$ t $是$ p_t $ be的路径长度,基本上反映了环境的非平稳性,最先进的动态遗憾是$ \ mathcal {o}(\ sqrt {t( 1 + p_t)})$。虽然这一界限被证明是凸函数最佳的最低限度,但在本文中,我们证明可以进一步提高一些简单的问题实例的保证,特别是当在线功能平滑时。具体而言,我们提出了新的在线算法,可以利用平滑度并替换动态遗憾的$ t $替换依据\ {问题依赖性}数量:损耗函数梯度的变化,比较器序列的累积损失,以及比较器序列的累积损失最低术语的最低限度。这些数量是大多数$ \ mathcal {o}(t)$,良性环境中可能更小。因此,我们的结果适应了问题的内在难度,因为边界比现有结果更严格,以便在最坏的情况下保证相同的速率。值得注意的是,我们的算法只需要\ emph {一个}渐变,这与开发的方法共享相同的渐变查询复杂性,以优化静态遗憾。作为进一步的应用,我们将来自全信息设置的结果扩展到具有两点反馈的强盗凸优化,从而达到此类强盗任务的第一个相关的动态遗憾。
translated by 谷歌翻译
我们开发了一个修改的在线镜下降框架,该框架适用于在无界域中构建自适应和无参数的算法。我们利用这项技术来开发第一个不受限制的在线线性优化算法,从而达到了最佳的动态遗憾,我们进一步证明,基于以下规范化领导者的自然策略无法取得相似的结果。我们还将镜像下降框架应用于构建新的无参数隐式更新,以及简化和改进的无限规模算法。
translated by 谷歌翻译
最近,随机梯度下降(SGD)及其变体已成为机器学习(ML)问题大规模优化的主要方法。已经提出了各种策略来调整步骤尺寸,从自适应步骤大小到启发式方法,以更改每次迭代中的步骤大小。此外,动力已被广泛用于ML任务以加速训练过程。然而,我们对它们的理论理解存在差距。在这项工作中,我们开始通过为一些启发式优化方法提供正式保证并提出改进的算法来缩小这一差距。首先,我们分析了凸面和非凸口设置的Adagrad(延迟Adagrad)步骤大小的广义版本,这表明这些步骤尺寸允许算法自动适应随机梯度的噪声水平。我们首次显示延迟Adagrad的足够条件,以确保梯度几乎融合到零。此外,我们对延迟的Adagrad及其在非凸面设置中的动量变体进行了高概率分析。其次,我们用指数级和余弦的步骤分析了SGD,在经验上取得了成功,但缺乏理论支持。我们在平滑和非凸的设置中为它们提供了最初的收敛保证,有或没有polyak-{\ l} ojasiewicz(pl)条件。我们还显示了它们在PL条件下适应噪声的良好特性。第三,我们研究动量方法的最后迭代。我们证明了SGD的最后一个迭代的凸设置中的第一个下限,并以恒定的动量。此外,我们研究了一类跟随基于领先的领导者的动量算法,并随着动量和收缩的更新而增加。我们表明,他们的最后一个迭代具有最佳的收敛性,用于无约束的凸随机优化问题。
translated by 谷歌翻译
在本文中,我们将重尾多臂匪徒的概念概括为对抗环境,并为重尾多军匪徒(MAB)开发强大的最佳世界世界算法(MAB),其中损失具有$ \ alpha $ -th($ 1 <\ alpha \ le 2 $)由$ \ sigma^\ alpha $界定的矩,而方差可能不存在。具体来说,我们设计了一种算法\ texttt {htinf},当重型尾参数$ \ alpha $和$ \ sigma $是代理人所熟知的,\ texttt {htinf}同时实现了最佳的遗憾,以实现随机和逆境环境的最佳遗憾,不知道实际环境类型A-Priori。当$ \ alpha,\ sigma $是未知的时,\ texttt {htinf}在随机案例中实现了$ \ log t $ t $ style-style实例依赖的遗憾,而在对抗情况下,$ o(t)$ no-regret保证。我们进一步开发了算法\ texttt {adatinf},实现$ \ mathcal o(\ sigma k^{1- \ nicefrac 1 \ alpha} t^{\ nicefrac {1}对抗设置,没有$ \ alpha $和$ \ sigma $的事先知识。该结果与已知的遗憾下降(Bubeck等,2013)相匹配,该遗憾的是,它假设了随机环境,并且$ \ alpha $和$ \ sigma $均为众所周知。 To our knowledge, the proposed \texttt{HTINF} algorithm is the first to enjoy a best-of-both-worlds regret guarantee, and \texttt{AdaTINF} is the first algorithm that can adapt to both $\alpha$ and $\ Sigma $以实现经典重型尾部随机mab设置和我们新颖的对抗性配方的最佳差距遗憾。
translated by 谷歌翻译
我们调查随机镜面下降(SMD)的趋同相对光滑和平滑凸优化。在相对平滑的凸优化中,我们为SMD提供了新的收敛保证,并持续步骤。对于平滑的凸优化,我们提出了一种新的自适应步骤方案 - 镜子随机Polyak Spectize(MSP)。值得注意的是,我们的收敛导致两个设置都不会使有界渐变假设或有界方差假设,并且我们向邻域显示在插值下消失的邻居的融合。MSP概括了最近提出的随机Polyak Spectize(SPS)(Loizou等,2021)以镜子血液镜子,并且在继承镜子血清的好处的同时,现代机器学习应用仍然是实用和高效的。我们将我们的结果与各种监督的学习任务和SMD的不同实例相结合,展示了MSP的有效性。
translated by 谷歌翻译
我们开发了一种使用无遗憾的游戏动态解决凸面优化问题的算法框架。通过转换最小化凸起函数以顺序方式解决Min-Max游戏的辅助问题的问题,我们可以考虑一系列必须在另一个之后选择其行动的两名员工的一系列策略。这些策略的常见选择是所谓的无悔的学习算法,我们描述了许多此类并证明了遗憾。然后,我们表明许多凸面优化的经典一阶方法 - 包括平均迭代梯度下降,弗兰克 - 沃尔夫算法,重球算法和Nesterov的加速方法 - 可以被解释为我们框架的特殊情况由于每个玩家都做出正确选择无悔的策略。证明该框架中的收敛速率变得非常简单,因为它们遵循适当已知的遗憾范围。我们的框架还引发了一些凸优化的特殊情况的许多新的一阶方法。
translated by 谷歌翻译
分位数(更普遍,KL)遗憾的界限,例如由癌症(Chaudhuri,Freund和Hsu 2009)及其变体实现的界限,放松了竞争最佳个别专家的目标,只能争夺大多数专家对抗性数据。最近,通过考虑可能既完全对抗或随机(i.i.D.),半对抗拉利范式(Bilodeau,Negrea和Roy 2020)提供了对抗性在线学习的替代放松。我们使用FTRL与单独的,新颖的根对数常规常规程序一起实现SIMIMAX最佳遗憾,这两者都可以解释为QuanchEdge的屈服变体。我们扩展了现有的KL遗憾的上限,统一地持有目标分布,可能是具有任意前锋的不可数专家课程;在有限的专家课程(紧密)上为Simitile遗憾提供第一个全信息下限;并为半逆势范式提供适应性最低的最低限度最佳算法,其适应真实,未知的约束更快,导致在现有方法上均匀改进遗憾。
translated by 谷歌翻译
当在未知约束集中任意变化的分布中生成数据时,我们会考虑使用专家建议的预测。这种半反向的设置包括(在极端)经典的I.I.D.设置时,当未知约束集限制为单身人士时,当约束集是所有分布的集合时,不受约束的对抗设置。对冲状态中,对冲算法(长期以来已知是最佳的最佳速率(速率))最近被证明是对I.I.D.的最佳最小值。数据。在这项工作中,我们建议放松I.I.D.通过在约束集的所有自然顺序上寻求适应性来假设。我们在各个级别的Minimax遗憾中提供匹配的上限和下限,表明确定性学习率的对冲在极端之外是次优的,并证明人们可以在各个级别的各个层面上都能适应Minimax的遗憾。我们使用以下规范化领导者(FTRL)框架实现了这种最佳适应性,并采用了一种新型的自适应正则化方案,该方案隐含地缩放为当前预测分布的熵的平方根,而不是初始预测分布的熵。最后,我们提供了新的技术工具来研究FTRL沿半逆转频谱的统计性能。
translated by 谷歌翻译
我们提出了对Zimmert和Seldin [2020]算法的修改调整,用于对抗性的多型匪徒,并具有延迟的反馈,除了Zimmert和Seldin的最小值最佳对抗性遗憾保证外,还可以同时获得近乎遗憾的遗憾。有固定的延迟。具体而言,对抗性遗憾保证是$ \ Mathcal {o}(\ sqrt {tk} + \ sqrt {dt \ log k})$,其中$ t $是时间范围,$ k $是武器数量,并且$ d $是固定的延迟,而随机遗憾保证是$ \ Mathcal {o} \ left(\ sum_ {i \ neq i^*}(\ frac {1} {\ delta_i} \ log log(t) frac {d} {\ delta_ {i} \ log k}) + d k^{1/3} \ log k \ right)$,其中$ \ delta_i $是次优差距。我们还向任意延迟的情况提供了算法的扩展,该算法基于对最大延迟$ d_ {max} $的甲骨文知识,并获得$ \ mathcal {o}(\ sqrt {\ sqrt {tk} + \ sqrt { d \ log k} + d_ {max} k^{1/3} \ log k)$在对抗性方案中遗憾,其中$ d $是总延迟,$ \ mathcal {o} \ left(\ sum_ {\ sum_ { i \ neq i^*}(\ frac {1} {\ delta_i} \ log(t) + \ frac {\ sigma_ {max}}} {\ delta_ {i} {1/3} \ log k \ right)$在随机制度中遗憾,其中$ \ sigma_ {max} $是最大的杰出观测值。最后,我们提出了一个下限,与Zimmert和Seldin [2020]在对抗环境中的跳过技术所达到的遗憾上限相匹配。
translated by 谷歌翻译
在约束凸优化中,基于椭球体或切割平面方法的现有方法与环境空间的尺寸不符比展出。诸如投影梯度下降的替代方法,仅为诸如欧几里德球等简单凸起集提供的计算益处,其中可以有效地执行欧几里德投影。对于其他集合,投影的成本可能太高。为了规避这些问题,研究了基于着名的Frank-Wolfe算法的替代方法。这些方法在每次迭代时使用线性优化Oracle而不是欧几里德投影;前者通常可以有效地执行。此类方法还扩展到在线和随机优化设置。然而,对于一般凸套,弗兰克 - 沃尔夫算法及其变体不会在后悔或速率方面实现最佳性能。更重要的是,在某些情况下,他们使用的线性优化Oracle仍然可以计算得昂贵。在本文中,我们远离Frank-Wolfe风格的算法,并提出了一种新的减少,将任何在欧几里德球(其中投影廉价)上定义的任何算法的算法转移到球上包含的受限组C上的算法,而不牺牲原始算法的性能多大。我们的缩减需要O(t log t)在t回合后对C的成员资格Oracle调用,并且不需要对C的线性优化。使用我们的减少,我们恢复最佳遗憾界限[resp。在在线[RESP的迭代次数方面。随机]凸优化。当环境空间的尺寸大时,我们的保证在离线凸优化设置中也是有用的。
translated by 谷歌翻译
当学习者与其他优化代理进行连续游戏时,我们研究了遗憾最小化的问题:在这种情况下,如果所有玩家都遵循一种无重组算法,则相对于完全对手环境,可能会达到较低的遗憾。我们在变异稳定的游戏(包括所有凸孔和单调游戏的连续游戏)的背景下研究了这个问题,当玩家只能访问其个人回报梯度时。如果噪音是加性的,那么游戏理论和纯粹的对抗性设置也会获得类似的遗憾保证。但是,如果噪声是乘法的,我们表明学习者实际上可以持续遗憾。我们通过学习速率分离的乐观梯度方案实现了更快的速度 - 也就是说,该方法的外推和更新步骤被调整为不同的时间表,具体取决于噪声配置文件。随后,为了消除对精致的超参数调整的需求,我们提出了一种完全自适应的方法,可以在最坏的和最佳案例的遗憾保证之间平稳地插入。
translated by 谷歌翻译
遗憾已被广泛用作评估分布式多代理系统在线优化算法的性能的首选指标。但是,与代理相关的数据/模型变化可以显着影响决策,并需要在代理之间达成共识。此外,大多数现有的作品都集中在开发(强烈或非严格地)凸出的方法上,对于一般非凸损失的分布式在线优化中的遗憾界限,几乎没有得到很少的结果。为了解决这两个问题,我们提出了一种新型的综合遗憾,并使用新的基于网络的基于遗憾的度量标准来评估分布式在线优化算法。我们具体地定义了复合遗憾的静态和动态形式。通过利用我们的综合遗憾的动态形式,我们开发了一种基于共识的在线归一化梯度(CONGD)的伪convex损失方法,事实证明,它显示了与最佳器路径变化的规律性术语有关的透明性行为。对于一般的非凸损失,我们首先阐明了基于最近进步的分布式在线非凸学习的遗憾,因此没有确定性算法可以实现sublinear的遗憾。然后,我们根据离线优化的Oracle开发了分布式的在线非凸优化(Dinoco),而无需进入梯度。迪诺科(Dinoco)被证明是统一的遗憾。据我们所知,这是对一般分布在线非convex学习的第一个遗憾。
translated by 谷歌翻译
我们研究了在线马尔可夫决策过程(MDP),具有对抗性变化的损失功能和已知过渡。我们选择动态遗憾作为绩效度量,定义为学习者和任何可行的变化策略序列之间的绩效差异。这项措施严格比标准的静态遗憾要强得多,该标准遗憾的是,基准通过固定的政策将学习者的绩效表现为学习者的表现。我们考虑了三种在线MDP的基础模型,包括无情节循环随机路径(SSP),情节SSP和Infinite-Horizo​​n MDP。对于这三个模型,我们提出了新颖的在线集合算法并分别建立了动态​​遗憾保证,在这种情况下,情节性(无环)SSP的结果在时间范围和某些非平稳性度量方面是最佳的最低限度。此外,当学习者遇到的在线环境是可以预测的时,我们设计了改进的算法并为情节(无环)SSP实现更好的动态遗憾界限;此外,我们证明了无限 - 摩恩MDP的不可能结果。
translated by 谷歌翻译
我们研究随机的在线资源分配:决策者需要分配有限的资源来为随机生成的顺序派遣请求,以最大程度地提高奖励。通过练习,我们考虑了一个数据驱动的设置,在该设置中,请求独立于决策者未知的分布。过去已经对在线资源分配及其特殊情况进行了广泛的研究,但是这些先前的结果至关重要和普遍地依赖于一个实际上不可能的假设:请求总数(地平线)是决策者事先知道的。在许多应用程序(例如收入管理和在线广告)中,由于需求或用户流量强度的波动,请求的数量可能差异很大。在这项工作中,我们开发了在线算法,这些算法对地平线不确定性是可靠的。与已知的马环境形成鲜明对比的是,我们表明没有算法可以达到与视野不确定性无关的恒定渐近竞争比率。然后,我们引入了一种新型算法,该算法将双镜下降与精心选择的目标消耗序列结合在一起,并证明其达到了有限的竞争比率。从地平线不确定性增长时,我们的竞争比达到了最佳生长速率,我们的算法几乎是最佳的。
translated by 谷歌翻译
资源限制的在线分配问题是收入管理和在线广告中的核心问题。在这些问题中,请求在有限的地平线期间顺序到达,对于每个请求,决策者需要选择消耗一定数量资源并生成奖励的动作。目标是最大限度地提高累计奖励,这是对资源总消费的限制。在本文中,我们考虑一种数据驱动的设置,其中使用决策者未知的输入模型生成每个请求的奖励和资源消耗。我们设计了一般的算法算法,可以在各种输入模型中实现良好的性能,而不知道它们面临的类型类型。特别是,我们的算法在独立和相同的分布式输入以及各种非静止随机输入模型下是渐近的最佳选择,并且当输入是对抗性时,它们达到渐近最佳的固定竞争比率。我们的算法在Lagrangian双色空间中运行:它们为使用在线镜像血管更新的每个资源维护双倍乘数。通过相应地选择参考功能,我们恢复双梯度下降和双乘法权重更新算法。与现有的在线分配问题的现有方法相比,所产生的算法简单,快速,不需要在收入函数,消费函数和动作空间中凸起。我们将应用程序讨论到网络收入管理,在线竞标,重复拍卖,预算限制,与高熵的在线比例匹配,以及具有有限库存的个性化分类优化。
translated by 谷歌翻译