最近的一项工作已经建立了未耦合的学习动力学,以至于当所有玩家在游戏中使用所有玩家时,每个玩家的\ emph {sorex} $ t $ recretitions在$ t $中增长了polygarithmarithm,这是$ t $的指数改进,比指数级的改进,比传统的保证在无缩写框架。但是,到目前为止,这些结果仅限于具有结构化策略空间的某些类别的游戏,例如正常形式和广泛形式的游戏。关于$ o(\ text {polylog} t)$遗憾界限是否可以为一般凸和紧凑型策略集获得的问题 - 这在经济学和多种系统中的许多基本模型中都发生 - 同时保留有效的策略更新是一种重要的问题。在本文中,我们通过建立$ o(\ log t)$ player后悔的第一个未耦合学习算法来回答这一点凸和紧凑的策略集。我们的学习动力基于对适当的\ emph {升起}空间的乐观跟随领导者的实例化,使用\ emph {self-condcordant正规器},这是特殊的,这不是可行区域的障碍。此外,我们的学习动力是可以有效地实现的,如果可以访问登录策略的近端甲骨文,从而导致$ o(\ log \ log \ log t)$ ter-ter-ter-tir-tir-tir-tir-tir-tir-tir-tir-tir-tir-tir-tir-tirceptimity;当仅假设仅对\ emph {Linear}优化Oracle访问时,我们还会给出扩展。最后,我们调整动力学以保证对抗性制度中的$ O(\ sqrt {t})$遗憾。即使在适用先前结果的特殊情况下,我们的算法也会改善最先进的遗憾界限,无论是依赖迭代次数还是对策略集的维度的依赖。
translated by 谷歌翻译