我们考虑$ k $武装的随机土匪,并考虑到$ t $ t $的累积后悔界限。我们对同时获得最佳订单$ \ sqrt {kt} $的策略感兴趣,并与发行依赖的遗憾相关,即与$ \ kappa \ ln t $相匹配,该遗憾是最佳的。和Robbins(1985)以及Burnetas和Katehakis(1996),其中$ \ kappa $是最佳问题依赖性常数。这个常数的$ \ kappa $取决于所考虑的模型$ \ Mathcal {d} $(武器上可能的分布家族)。 M \'Enard and Garivier(2017)提供了在一维指数式家庭给出的模型的参数案例中实现这种双重偏见的策略,而Lattimore(2016,2018)为(Sub)高斯分布的家族而做到了这一点。差异小于$ 1 $。我们将此结果扩展到超过$ [0,1] $的所有分布的非参数案例。我们通过结合Audibert和Bubeck(2009)的MOSS策略来做到这一点,该策略享受了最佳订单$ \ sqrt {kt} $的无分配遗憾,以及Capp \'e等人的KL-UCB策略。 (2013年),我们为此提供了对最佳分布$ \ kappa \ ln t $遗憾的首次分析。我们能够在努力简化证明(以前已知的遗憾界限,因此进行的新分析)时,能够获得这种非参数两次审查结果;因此,本贡献的第二个优点是为基于$ k $武装的随机土匪提供基于索引的策略的经典后悔界限的证明。
translated by 谷歌翻译