在本文中,我们将重尾多臂匪徒的概念概括为对抗环境,并为重尾多军匪徒(MAB)开发强大的最佳世界世界算法(MAB),其中损失具有$ \ alpha $ -th($ 1 <\ alpha \ le 2 $)由$ \ sigma^\ alpha $界定的矩,而方差可能不存在。具体来说,我们设计了一种算法\ texttt {htinf},当重型尾参数$ \ alpha $和$ \ sigma $是代理人所熟知的,\ texttt {htinf}同时实现了最佳的遗憾,以实现随机和逆境环境的最佳遗憾,不知道实际环境类型A-Priori。当$ \ alpha,\ sigma $是未知的时,\ texttt {htinf}在随机案例中实现了$ \ log t $ t $ style-style实例依赖的遗憾,而在对抗情况下,$ o(t)$ no-regret保证。我们进一步开发了算法\ texttt {adatinf},实现$ \ mathcal o(\ sigma k^{1- \ nicefrac 1 \ alpha} t^{\ nicefrac {1}对抗设置,没有$ \ alpha $和$ \ sigma $的事先知识。该结果与已知的遗憾下降(Bubeck等,2013)相匹配,该遗憾的是,它假设了随机环境,并且$ \ alpha $和$ \ sigma $均为众所周知。 To our knowledge, the proposed \texttt{HTINF} algorithm is the first to enjoy a best-of-both-worlds regret guarantee, and \texttt{AdaTINF} is the first algorithm that can adapt to both $\alpha$ and $\ Sigma $以实现经典重型尾部随机mab设置和我们新颖的对抗性配方的最佳差距遗憾。
translated by 谷歌翻译