本文考虑了多臂强盗(MAB)问题,并提供了一种新的最佳世界(BOBW)算法,该算法在随机和对抗性设置中几乎最佳地工作。在随机设置中,某些现有的BOBW算法获得了$ o的紧密依赖性遗憾界限(\ sum_ {i:\ delta_i> 0} \ frac {\ log t} {\ log t} {\ delta_i} {\ delta_i})手臂$ i $和时间范围$ t $。如Audibert等。 [2007]但是,在具有低变化的臂的随机环境中,可以改善性能。实际上,他们提供了一种随机mab算法,具有$ o的差距依赖性遗憾界限t)损失方差$ \ sigma_i^2 $ a臂$ i $。在本文中,我们提出了具有差距依赖性界限的第一个BOBW算法,表明即使在可能的对抗环境中,这些方差信息也可以使用。此外,我们的间隙变量依赖性结合中的领先常数因子仅是(几乎)下界值的两倍。此外,所提出的算法在对抗环境中享有多个与数据有关的遗憾界限,并且在具有对抗性腐败的随机设置中很好地工作。所提出的算法基于以下规范化的领导方法,并采用了自适应学习率,取决于损失的经验预测误差,这导致了差距变化依赖性的遗憾界限,反映了武器的方差。
translated by 谷歌翻译
This study considers online learning with general directed feedback graphs. For this problem, we present best-of-both-worlds algorithms that achieve nearly tight regret bounds for adversarial environments as well as poly-logarithmic regret bounds for stochastic environments. As Alon et al. [2015] have shown, tight regret bounds depend on the structure of the feedback graph: strongly observable graphs yield minimax regret of $\tilde{\Theta}( \alpha^{1/2} T^{1/2} )$, while weakly observable graphs induce minimax regret of $\tilde{\Theta}( \delta^{1/3} T^{2/3} )$, where $\alpha$ and $\delta$, respectively, represent the independence number of the graph and the domination number of a certain portion of the graph. Our proposed algorithm for strongly observable graphs has a regret bound of $\tilde{O}( \alpha^{1/2} T^{1/2} ) $ for adversarial environments, as well as of $ {O} ( \frac{\alpha (\ln T)^3 }{\Delta_{\min}} ) $ for stochastic environments, where $\Delta_{\min}$ expresses the minimum suboptimality gap. This result resolves an open question raised by Erez and Koren [2021]. We also provide an algorithm for weakly observable graphs that achieves a regret bound of $\tilde{O}( \delta^{1/3}T^{2/3} )$ for adversarial environments and poly-logarithmic regret for stochastic environments. The proposed algorithms are based on the follow-the-regularized-leader approach combined with newly designed update rules for learning rates.
translated by 谷歌翻译
本文考虑了$ k $ actions和$ d $ outcomes的部分监测问题,并提供了第一个最佳世界世界算法,其遗憾是在随机制度中的多层次,在随机状态下,在对抗性中近乎看法。政权。更具体地说,我们证明对于非分类本地可观察的游戏,随机制度中的遗憾是由$ o(k^3 m^2 \ log(t)\ log(k _ {\ pi} t) / \ delta _ {\ mathrm {\ min}})$,在$ o(k^{2/3} m \ sqrt {t \ log(t)\ log k _ {\ log k _ {\ pi}}})$中,在对抗状态下$ t $是回合的数量,$ m $是每个动作不同观察值的最大数量,$ \ delta _ {\ min} $是最小的最佳差距,$ k _ {\ pi} $是帕累托的最佳数量动作。此外,我们表明,对于非分类全球可观察的游戏,随机制度中的遗憾是由$ o(\ max \ {c _ {c _ {\ Mathcal {g}}}}^2 / k,\,c _ { }}} \} \ log(t)\ log(k _ {\ pi} t) / \ delta _ {\ min}^2)$,在$ o(\ max \ {c _ { }}}^2/k,\,c _ {\ mathcal {g}}} \} \ log(t)\ log(k _ {\ pi} t)))^{1/3} t} t^{2/3}) $,其中$ c _ {\ Mathcal {g}} $是游戏依赖的常数。我们的算法基于以下规范化领导者框架,该框架考虑了部分监视问题的性质,灵感来自在线学习领域中使用反馈图的算法。
translated by 谷歌翻译
我们提出了对Zimmert和Seldin [2020]算法的修改调整,用于对抗性的多型匪徒,并具有延迟的反馈,除了Zimmert和Seldin的最小值最佳对抗性遗憾保证外,还可以同时获得近乎遗憾的遗憾。有固定的延迟。具体而言,对抗性遗憾保证是$ \ Mathcal {o}(\ sqrt {tk} + \ sqrt {dt \ log k})$,其中$ t $是时间范围,$ k $是武器数量,并且$ d $是固定的延迟,而随机遗憾保证是$ \ Mathcal {o} \ left(\ sum_ {i \ neq i^*}(\ frac {1} {\ delta_i} \ log log(t) frac {d} {\ delta_ {i} \ log k}) + d k^{1/3} \ log k \ right)$,其中$ \ delta_i $是次优差距。我们还向任意延迟的情况提供了算法的扩展,该算法基于对最大延迟$ d_ {max} $的甲骨文知识,并获得$ \ mathcal {o}(\ sqrt {\ sqrt {tk} + \ sqrt { d \ log k} + d_ {max} k^{1/3} \ log k)$在对抗性方案中遗憾,其中$ d $是总延迟,$ \ mathcal {o} \ left(\ sum_ {\ sum_ { i \ neq i^*}(\ frac {1} {\ delta_i} \ log(t) + \ frac {\ sigma_ {max}}} {\ delta_ {i} {1/3} \ log k \ right)$在随机制度中遗憾,其中$ \ sigma_ {max} $是最大的杰出观测值。最后,我们提出了一个下限,与Zimmert和Seldin [2020]在对抗环境中的跳过技术所达到的遗憾上限相匹配。
translated by 谷歌翻译
我们在存在对抗性腐败的情况下研究线性上下文的强盗问题,在场,每回合的奖励都被对手损坏,腐败级别(即,地平线上的腐败总数)为$ c \ geq 0 $。在这种情况下,最著名的算法受到限制,因为它们要么在计算效率低下,要么需要对腐败做出强烈的假设,或者他们的遗憾至少比没有腐败的遗憾差的$ C $倍。在本文中,为了克服这些局限性,我们提出了一种基于不确定性的乐观原则的新算法。我们算法的核心是加权山脊回归,每个选择动作的重量都取决于其置信度,直到一定的阈值。 We show that for both known $C$ and unknown $C$ cases, our algorithm with proper choice of hyperparameter achieves a regret that nearly matches the lower bounds.因此,我们的算法几乎是两种情况的对数因素的最佳选择。值得注意的是,我们的算法同时对腐败和未腐败的案件($ c = 0 $)实现了近乎最理想的遗憾。
translated by 谷歌翻译
我们研究汤普森采样(TS)算法的遗憾,指数为家庭土匪,其中奖励分配来自一个一维指数式家庭,该家庭涵盖了许多常见的奖励分布,包括伯努利,高斯,伽玛,伽玛,指数等。我们建议汤普森采样算法,称为expts,它使用新颖的采样分布来避免估计最佳臂。我们为expts提供了严格的遗憾分析,同时产生有限的遗憾和渐近遗憾。特别是,对于带指数级家庭奖励的$ k $臂匪徒,expts of horizo​​n $ t $ sub-ucb(对于有限的时间遗憾的是问题依赖的有限时间标准) $ \ sqrt {\ log k} $,并且对于指数家庭奖励,渐近最佳。此外,我们通过在Expts中使用的采样分配外添加一个贪婪的剥削步骤,提出$^+$,以避免过度估计亚最佳武器。 expts $^+$是随时随地的强盗算法,可用于指数级的家庭奖励分布同时实现最小值和渐近最优性。我们的证明技术在概念上很简单,可以轻松地应用于用特定奖励分布分析标准的汤普森抽样。
translated by 谷歌翻译
本文介绍了信息性多臂强盗(IMAB)模型,在每个回合中,玩家选择手臂,观察符号,并以符号的自我信息形式获得未观察到的奖励。因此,手臂的预期奖励是产生其符号的源质量函数的香农熵。玩家的目标是最大程度地提高与武器的熵值相关的预期奖励。在假设字母大小是已知的假设下,为IMAB模型提出了两种基于UCB的算法,该算法考虑了插件熵估计器的偏差。第一种算法在熵估计中乐观地纠正了偏置项。第二算法依赖于数据依赖性置信区间,该置信区间适应具有较小熵值的源。性能保证是通过上限为每种算法的预期遗憾提供的。此外,在Bernoulli案例中,将这些算法的渐近行为与伪遗憾的Lai-Robbins的下限进行了比较。此外,在假设\ textit {cract}字母大小的假设下是未知的,而播放器仅知道其上方的宽度上限,提出了一种基于UCB的算法,在其中,玩家的目的是减少由该算法造成的遗憾。未知的字母尺寸在有限的时间方面。数字结果说明了论文中介绍的算法的预期遗憾。
translated by 谷歌翻译
当在未知约束集中任意变化的分布中生成数据时,我们会考虑使用专家建议的预测。这种半反向的设置包括(在极端)经典的I.I.D.设置时,当未知约束集限制为单身人士时,当约束集是所有分布的集合时,不受约束的对抗设置。对冲状态中,对冲算法(长期以来已知是最佳的最佳速率(速率))最近被证明是对I.I.D.的最佳最小值。数据。在这项工作中,我们建议放松I.I.D.通过在约束集的所有自然顺序上寻求适应性来假设。我们在各个级别的Minimax遗憾中提供匹配的上限和下限,表明确定性学习率的对冲在极端之外是次优的,并证明人们可以在各个级别的各个层面上都能适应Minimax的遗憾。我们使用以下规范化领导者(FTRL)框架实现了这种最佳适应性,并采用了一种新型的自适应正则化方案,该方案隐含地缩放为当前预测分布的熵的平方根,而不是初始预测分布的熵。最后,我们提供了新的技术工具来研究FTRL沿半逆转频谱的统计性能。
translated by 谷歌翻译
我们考虑使用$ K $臂的随机匪徒问题,每一个都与$ [m,m] $范围内支持的有限分布相关。我们不认为$ [m,m] $是已知的范围,并表明学习此范围有成本。确实,出现了与分销相关和无分配后悔界限之间的新权衡,这阻止了同时实现典型的$ \ ln t $和$ \ sqrt {t} $ bunds。例如,仅当与分布相关的遗憾界限至少属于$ \ sqrt {t} $的顺序时,才能实现$ \ sqrt {t} $}无分布遗憾。我们展示了一项策略,以实现新的权衡表明的遗憾。
translated by 谷歌翻译
我们研究了带有切换成本的土匪的最佳世界世界算法,最近由Rouyer,Seldin和Cesa-Bianchi提出,2021年。我们引入了一种令人惊讶的简单有效的算法}(t^{2/3})$在遗忘的对抗设置中,$ \ mathcal {o}(\ min \ {\ log(t)/\ delta^2,T^{2/3} \ \})$在随机约束的制度中,均具有(单位)切换成本,其中$ \ delta $是武器之间的差距。在随机限制的情况下,由于Rouyer等人,我们的界限比以前的结果得到了改善,这使$ \ Mathcal {o}(t^{1/3}/\ delta)$。我们伴随我们的结果,下限表明,通常,$ \ tilde {\ omega}(\ min \ {1/\ delta^2,t^{2/3} \})$遗憾是不可避免的。 - 具有$ \ mathcal {o}(t^{2/3})$ wort-case遗憾的算法的算法。
translated by 谷歌翻译
在本文中,我们将重尾多臂匪徒的概念概括为对抗环境,并为重尾多军匪徒(MAB)开发强大的最佳世界世界算法(MAB),其中损失具有$ \ alpha $ -th($ 1 <\ alpha \ le 2 $)由$ \ sigma^\ alpha $界定的矩,而方差可能不存在。具体来说,我们设计了一种算法\ texttt {htinf},当重型尾参数$ \ alpha $和$ \ sigma $是代理人所熟知的,\ texttt {htinf}同时实现了最佳的遗憾,以实现随机和逆境环境的最佳遗憾,不知道实际环境类型A-Priori。当$ \ alpha,\ sigma $是未知的时,\ texttt {htinf}在随机案例中实现了$ \ log t $ t $ style-style实例依赖的遗憾,而在对抗情况下,$ o(t)$ no-regret保证。我们进一步开发了算法\ texttt {adatinf},实现$ \ mathcal o(\ sigma k^{1- \ nicefrac 1 \ alpha} t^{\ nicefrac {1}对抗设置,没有$ \ alpha $和$ \ sigma $的事先知识。该结果与已知的遗憾下降(Bubeck等,2013)相匹配,该遗憾的是,它假设了随机环境,并且$ \ alpha $和$ \ sigma $均为众所周知。 To our knowledge, the proposed \texttt{HTINF} algorithm is the first to enjoy a best-of-both-worlds regret guarantee, and \texttt{AdaTINF} is the first algorithm that can adapt to both $\alpha$ and $\ Sigma $以实现经典重型尾部随机mab设置和我们新颖的对抗性配方的最佳差距遗憾。
translated by 谷歌翻译
我们研究了生存的匪徒问题,这是Perotto等人在开放问题中引入的多臂匪徒问题的变体。(2019年),对累积奖励有限制;在每个时间步骤中,代理都会获得(可能为负)奖励,如果累积奖励变得低于预先指定的阈值,则该过程停止,并且这种现象称为废墟。这是研究可能发生毁灭但并非总是如此的框架的第一篇论文。我们首先讨论,在对遗憾的天真定义下,统一的遗憾是无法实现的。接下来,我们就废墟的可能性(以及匹配的策略)提供紧密的下限。基于此下限,我们将生存后悔定义为最小化和提供统一生存后悔的政策的目标(至少在整体奖励的情况下),当时Time Horizon $ t $是已知的。
translated by 谷歌翻译
富达匪徒问题是$ k $的武器问题的变体,其中每个臂的奖励通过提供额外收益的富达奖励来增强,这取决于播放器如何对该臂进行“忠诚”在过去。我们提出了两种忠诚的模型。在忠诚点模型中,额外奖励的数量取决于手臂之前播放的次数。在订阅模型中,额外的奖励取决于手臂的连续绘制的当前数量。我们考虑随机和对抗问题。由于单臂策略在随机问题中并不总是最佳,因此对抗性环境中遗憾的概念需要仔细调整。我们介绍了三个可能的遗憾和调查,这可以是偏执的偏执。我们详细介绍了增加,减少和优惠券的特殊情况(玩家在手臂的每辆M $播放后获得额外的奖励)保真奖励。对于不一定享受载体遗憾的模型,我们提供了最糟糕的下限。对于那些展示Sublinear遗憾的模型,我们提供算法并绑定他们的遗憾。
translated by 谷歌翻译
We study Pareto optimality in multi-objective multi-armed bandit by providing a formulation of adversarial multi-objective multi-armed bandit and properly defining its Pareto regrets that can be generalized to stochastic settings as well. The regrets do not rely on any scalarization functions and reflect Pareto optimality compared to scalarized regrets. We also present new algorithms assuming both with and without prior information of the multi-objective multi-armed bandit setting. The algorithms are shown optimal in adversarial settings and nearly optimal in stochastic settings simultaneously by our established upper bounds and lower bounds on Pareto regrets. Moreover, the lower bound analyses show that the new regrets are consistent with the existing Pareto regret for stochastic settings and extend an adversarial attack mechanism from bandit to the multi-objective one.
translated by 谷歌翻译
分位数(更普遍,KL)遗憾的界限,例如由癌症(Chaudhuri,Freund和Hsu 2009)及其变体实现的界限,放松了竞争最佳个别专家的目标,只能争夺大多数专家对抗性数据。最近,通过考虑可能既完全对抗或随机(i.i.D.),半对抗拉利范式(Bilodeau,Negrea和Roy 2020)提供了对抗性在线学习的替代放松。我们使用FTRL与单独的,新颖的根对数常规常规程序一起实现SIMIMAX最佳遗憾,这两者都可以解释为QuanchEdge的屈服变体。我们扩展了现有的KL遗憾的上限,统一地持有目标分布,可能是具有任意前锋的不可数专家课程;在有限的专家课程(紧密)上为Simitile遗憾提供第一个全信息下限;并为半逆势范式提供适应性最低的最低限度最佳算法,其适应真实,未知的约束更快,导致在现有方法上均匀改进遗憾。
translated by 谷歌翻译
Imperfect information games (IIG) are games in which each player only partially observes the current game state. We study how to learn $\epsilon$-optimal strategies in a zero-sum IIG through self-play with trajectory feedback. We give a problem-independent lower bound $\mathcal{O}(H(A_{\mathcal{X}}+B_{\mathcal{Y}})/\epsilon^2)$ on the required number of realizations to learn these strategies with high probability, where $H$ is the length of the game, $A_{\mathcal{X}}$ and $B_{\mathcal{Y}}$ are the total number of actions for the two players. We also propose two Follow the Regularize leader (FTRL) algorithms for this setting: Balanced-FTRL which matches this lower bound, but requires the knowledge of the information set structure beforehand to define the regularization; and Adaptive-FTRL which needs $\mathcal{O}(H^2(A_{\mathcal{X}}+B_{\mathcal{Y}})/\epsilon^2)$ plays without this requirement by progressively adapting the regularization to the observations.
translated by 谷歌翻译
We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $\Omega(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.
translated by 谷歌翻译
积极的学习方法在减少学习所需的样本数量方面表现出了巨大的希望。随着自动化学习系统被采用到实时的现实世界决策管道中,越来越重要的是,这种算法的设计考虑到了安全性。在这项工作中,我们研究了在互动环境中学习最佳安全决定的复杂性。我们将这个问题减少到约束的线性匪徒问题,我们的目标是找到满足某些(未知)安全限制的最佳手臂。我们提出了一种基于自适应的实验性设计算法,在显示ARM的难度与次优的难度之间,我们表现出了有效的交易。据我们所知,我们的结果是具有安全限制的线性匪徒最佳武器识别。实际上,我们证明了这种方法在合成和现实世界数据集上的表现很好。
translated by 谷歌翻译
在古典语境匪徒问题中,在每轮$ t $,学习者观察一些上下文$ c $,选择一些动作$ i $执行,并收到一些奖励$ r_ {i,t}(c)$。我们考虑此问题的变体除了接收奖励$ r_ {i,t}(c)$之外,学习者还要学习其他一些上下文$的$ r_ {i,t}(c')$的值C'$ in设置$ \ mathcal {o} _i(c)$;即,通过在不同的上下文下执行该行动来实现的奖励\ mathcal {o} _i(c)$。这种变体出现在若干战略设置中,例如学习如何在非真实的重复拍卖中出价,最热衷于随着许多平台转换为运行的第一价格拍卖。我们将此问题称为交叉学习的上下文匪徒问题。古典上下围匪徒问题的最佳算法达到$ \ tilde {o}(\ sqrt {ckt})$遗憾针对所有固定策略,其中$ c $是上下文的数量,$ k $的行动数量和$ $次数。我们设计并分析了交叉学习的上下文匪徒问题的新算法,并表明他们的遗憾更好地依赖上下文的数量。在选择动作时学习所有上下文的奖励的完整交叉学习下,即设置$ \ mathcal {o} _i(c)$包含所有上下文,我们显示我们的算法实现后悔$ \ tilde {o}( \ sqrt {kt})$,删除$ c $的依赖。对于任何其他情况,即在部分交叉学习下,$ | \ mathcal {o} _i(c)| <c $ for $(i,c)$,遗憾界限取决于如何设置$ \ mathcal o_i(c)$影响上下文之间的交叉学习的程度。我们从Ad Exchange运行一流拍卖的广告交换中模拟了我们的真实拍卖数据的算法,并表明了它们优于传统的上下文强盗算法。
translated by 谷歌翻译
我们考虑$ k $武装的随机土匪,并考虑到$ t $ t $的累积后悔界限。我们对同时获得最佳订单$ \ sqrt {kt} $的策略感兴趣,并与发行依赖的遗憾相关,即与$ \ kappa \ ln t $相匹配,该遗憾是最佳的。和Robbins(1985)以及Burnetas和Katehakis(1996),其中$ \ kappa $是最佳问题依赖性常数。这个常数的$ \ kappa $取决于所考虑的模型$ \ Mathcal {d} $(武器上可能的分布家族)。 M \'Enard and Garivier(2017)提供了在一维指数式家庭给出的模型的参数案例中实现这种双重偏见的策略,而Lattimore(2016,2018)为(Sub)高斯分布的家族而做到了这一点。差异小于$ 1 $。我们将此结果扩展到超过$ [0,1] $的所有分布的非参数案例。我们通过结合Audibert和Bubeck(2009)的MOSS策略来做到这一点,该策略享受了最佳订单$ \ sqrt {kt} $的无分配遗憾,以及Capp \'e等人的KL-UCB策略。 (2013年),我们为此提供了对最佳分布$ \ kappa \ ln t $遗憾的首次分析。我们能够在努力简化证明(以前已知的遗憾界限,因此进行的新分析)时,能够获得这种非参数两次审查结果;因此,本贡献的第二个优点是为基于$ k $武装的随机土匪提供基于索引的策略的经典后悔界限的证明。
translated by 谷歌翻译