我们研究汤普森采样(TS)算法的遗憾,指数为家庭土匪,其中奖励分配来自一个一维指数式家庭,该家庭涵盖了许多常见的奖励分布,包括伯努利,高斯,伽玛,伽玛,指数等。我们建议汤普森采样算法,称为expts,它使用新颖的采样分布来避免估计最佳臂。我们为expts提供了严格的遗憾分析,同时产生有限的遗憾和渐近遗憾。特别是,对于带指数级家庭奖励的$ k $臂匪徒,expts of horizo​​n $ t $ sub-ucb(对于有限的时间遗憾的是问题依赖的有限时间标准) $ \ sqrt {\ log k} $,并且对于指数家庭奖励,渐近最佳。此外,我们通过在Expts中使用的采样分配外添加一个贪婪的剥削步骤,提出$^+$,以避免过度估计亚最佳武器。 expts $^+$是随时随地的强盗算法,可用于指数级的家庭奖励分布同时实现最小值和渐近最优性。我们的证明技术在概念上很简单,可以轻松地应用于用特定奖励分布分析标准的汤普森抽样。
translated by 谷歌翻译
The multi-armed bandit problem is a popular model for studying exploration/exploitation trade-off in sequential decision problems. Many algorithms are now available for this well-studied problem. One of the earliest algorithms, given by W. R. Thompson, dates back to 1933. This algorithm, referred to as Thompson Sampling, is a natural Bayesian algorithm. The basic idea is to choose an arm to play according to its probability of being the best arm. Thompson Sampling algorithm has experimentally been shown to be close to optimal. In addition, it is efficient to implement and exhibits several desirable properties such as small regret for delayed feedback. However, theoretical understanding of this algorithm was quite limited. In this paper, for the first time, we show that Thompson Sampling algorithm achieves logarithmic expected regret for the stochastic multi-armed bandit problem. More precisely, for the stochastic two-armed bandit problem, the expected regret in time T is O( ln T ∆ + 1 ∆ 3 ). And, for the stochastic N -armed bandit problem, the expected regret in time) 2 ln T ). Our bounds are optimal but for the dependence on ∆i and the constant factors in big-Oh.
translated by 谷歌翻译
本文统一了设计,简化了风险厌恶汤普森采样算法的分析,为多武装爆炸问题的常规风险功能为$ \ rho $。在大偏差理论中使用收缩原理,我们证明了这些连续风险功能的新型浓度界限。与现有的作品相比,所界限取决于样本本身,我们的范围仅取决于样本的数量。这使我们能够以追求的分析挑战,并统一现有汤普森采样的算法的遗憾范围。我们展示了广泛的风险功能以及它们的“漂亮”功能满足连续性条件。使用我们新开发的分析工具包,我们分析了算法$ \ rho $ -mts(对于多项式发行版)和$ \ rho $ -npts(对于有界分布),并证明他们承认渐近最佳的风险厌恶算法的最佳遗憾平均方差,CVAR等普遍存在风险措施,以及一系列新综合的风险措施。数值模拟表明,我们的界限是相当严格的VIS-\“A-VIS算法无关的下限。
translated by 谷歌翻译
我们考虑$ k $武装的随机土匪,并考虑到$ t $ t $的累积后悔界限。我们对同时获得最佳订单$ \ sqrt {kt} $的策略感兴趣,并与发行依赖的遗憾相关,即与$ \ kappa \ ln t $相匹配,该遗憾是最佳的。和Robbins(1985)以及Burnetas和Katehakis(1996),其中$ \ kappa $是最佳问题依赖性常数。这个常数的$ \ kappa $取决于所考虑的模型$ \ Mathcal {d} $(武器上可能的分布家族)。 M \'Enard and Garivier(2017)提供了在一维指数式家庭给出的模型的参数案例中实现这种双重偏见的策略,而Lattimore(2016,2018)为(Sub)高斯分布的家族而做到了这一点。差异小于$ 1 $。我们将此结果扩展到超过$ [0,1] $的所有分布的非参数案例。我们通过结合Audibert和Bubeck(2009)的MOSS策略来做到这一点,该策略享受了最佳订单$ \ sqrt {kt} $的无分配遗憾,以及Capp \'e等人的KL-UCB策略。 (2013年),我们为此提供了对最佳分布$ \ kappa \ ln t $遗憾的首次分析。我们能够在努力简化证明(以前已知的遗憾界限,因此进行的新分析)时,能够获得这种非参数两次审查结果;因此,本贡献的第二个优点是为基于$ k $武装的随机土匪提供基于索引的策略的经典后悔界限的证明。
translated by 谷歌翻译
Maillard(2013)的博士论文呈现了$ k $武装匪徒问题的随机算法。我们呼叫Maillard采样(MS)的这种缺少已知的算法计算以封闭形式选择每个臂的概率,这对于从强盗数据的反事实评估有用,而是缺乏来自汤普森采样,这是一种广泛采用的匪徒行业算法。通过这种优点,我们重新审视MS并进行改进的分析,以表明它实现了渐近最优性和$ \ SQRT {kt \ log {k}} $ minimax后悔绑定在$ t $是时间界限,它与之匹配标准渐近最佳的UCB的性能。然后,我们提出了一个称为MS $ ^ + $的MS的变体,这将改善其最小绑定到$ \ sqrt {kt \ log {k}} $,而不会失去渐近最优值。 $ ^ + $ MS也可以调整为攻击性(即,较少的探索),而不会失去理论担保,从现有强盗算法无法使用的独特功能。我们的数值评估显示了MS $ ^ + $的有效性。
translated by 谷歌翻译
我们设计了简单,最佳的政策,以确保在经典的多武器匪徒问题中确保对重尾风险的安全。最近,\ cite {fan2021偏差}表明,信息理论优化的匪徒算法患有严重的重尾风险;也就是说,最糟糕的案例可能会以$ 1/t $的速度慢慢衰减,其中$ t $是时间范围。受其结果的启发,我们进一步表明,广泛使用的政策,例如标准的上限约束政策和汤普森采样政策也会产生重型风险。实际上,对于所有“依赖实例依赖的一致”政策,这种重型风险实际上存在。为了确保对这种重型风险的安全性,对于两臂强盗设置,我们提供了一种简单的政策设计,即(i)具有最差的最佳性能,可用于预期的遗憾$ \ tilde o(\ sqrt {t} )$和(ii)具有最坏的尾巴概率,即以指数率$ \ exp( - \ omega(\ sqrt {t}))$产生线性遗憾衰减。我们进一步证明,尾巴概率的这种指数衰减率在所有具有最差最佳最优性的政策中都是最佳的,这些损失率是预期的。最后,我们使用任意$ k $的武器数量将政策设计和分析改进了一般环境。我们为在政策设计下的任何遗憾阈值中提供详细的尾巴概率表征。也就是说,产生大于$ x $的遗憾的最坏情况是由$ \ exp( - \ omega(x/\ sqrt {kt}))$上限。进行数值实验以说明理论发现。我们的结果揭示了对一致性和轻尾风险之间不兼容的见解,而这表明对预期的遗憾和轻尾风险的最佳最佳性是兼容的。
translated by 谷歌翻译
我们考虑使用$ K $臂的随机匪徒问题,每一个都与$ [m,m] $范围内支持的有限分布相关。我们不认为$ [m,m] $是已知的范围,并表明学习此范围有成本。确实,出现了与分销相关和无分配后悔界限之间的新权衡,这阻止了同时实现典型的$ \ ln t $和$ \ sqrt {t} $ bunds。例如,仅当与分布相关的遗憾界限至少属于$ \ sqrt {t} $的顺序时,才能实现$ \ sqrt {t} $}无分布遗憾。我们展示了一项策略,以实现新的权衡表明的遗憾。
translated by 谷歌翻译
我们在随机匪徒上使用时(协变量)信息时,我们研究了固定信道的最佳武器识别问题。虽然我们可以在每轮中使用上下文信息,但我们对在语境分布上的边缘化平均奖励感兴趣。我们的目标是在给定值的错误率下识别最少数量的采样。我们显示出问题的特定实例的示例复杂性下限。然后,我们提出了一个“跟踪和停止”策略的上下文知识版本,其中ARM的比例绘制追踪一组最佳分配,并证明预期的ARM绘制数与渐近的下限匹配。我们证明,与Garivier&Kaufmann(2016)的结果相比,可以使用上下文信息来提高最佳边缘化平均奖励的效率。我们通过实验证实了上下文信息有助于更快的最佳武器识别。
translated by 谷歌翻译
我们考虑在多武装匪徒问题中拜耳最佳武器识别。假设先前的某些连续性条件,我们表征了贝叶斯简单遗憾的速度。与贝叶斯遗憾的不同(Lai,1987),贝叶斯简单遗憾的主要因素来自最佳和次优臂之间的差距小于$ \ sqrt {\ frac {\ log t} {t}}$。我们提出了一种简单且易于计算的算法,其前导因子与下限达到恒定因子;仿真结果支持我们的理论发现。
translated by 谷歌翻译
Thompson Sampling is one of the oldest heuristics for multi-armed bandit problems. It is a randomized algorithm based on Bayesian ideas, and has recently generated significant interest after several studies demonstrated it to have better empirical performance compared to the stateof-the-art methods. However, many questions regarding its theoretical performance remained open. In this paper, we design and analyze a generalization of Thompson Sampling algorithm for the stochastic contextual multi-armed bandit problem with linear payoff functions, when the contexts are provided by an adaptive adversary. This is among the most important and widely studied version of the contextual bandits problem. We provide the first theoretical guarantees for the contextual version of Thompson Sampling. We prove a high probability regret bound of Õ(d 3/2 √ T ) (or Õ(d T log(N ))), which is the best regret bound achieved by any computationally efficient algorithm for this problem, and is within a factor of √ d (or log(N )) of the information-theoretic lower bound for this problem.
translated by 谷歌翻译
我们研究了批量线性上下文匪徒的最佳批量遗憾权衡。对于任何批次数$ M $,操作次数$ k $,时间范围$ t $和维度$ d $,我们提供了一种算法,并证明了其遗憾的保证,这是由于技术原因,具有两阶段表达作为时间的时间$ t $ grose。我们还证明了一个令人奇迹的定理,令人惊讶地显示了在问题参数的“问题参数”中的两相遗憾(最高〜对数因子)的最优性,因此建立了确切的批量后悔权衡。与最近的工作\ citep {ruan2020linear}相比,这表明$ m = o(\ log \ log t)$批次实现无需批处理限制的渐近最佳遗憾的渐近最佳遗憾,我们的算法更简单,更易于实际实现。此外,我们的算法实现了所有$ t \ geq d $的最佳遗憾,而\ citep {ruan2020linear}要求$ t $大于$ d $的不切实际的大多项式。沿着我们的分析,我们还证明了一种新的矩阵集中不平等,依赖于他们的动态上限,这是我们的知识,这是其文学中的第一个和独立兴趣。
translated by 谷歌翻译
本文介绍了信息性多臂强盗(IMAB)模型,在每个回合中,玩家选择手臂,观察符号,并以符号的自我信息形式获得未观察到的奖励。因此,手臂的预期奖励是产生其符号的源质量函数的香农熵。玩家的目标是最大程度地提高与武器的熵值相关的预期奖励。在假设字母大小是已知的假设下,为IMAB模型提出了两种基于UCB的算法,该算法考虑了插件熵估计器的偏差。第一种算法在熵估计中乐观地纠正了偏置项。第二算法依赖于数据依赖性置信区间,该置信区间适应具有较小熵值的源。性能保证是通过上限为每种算法的预期遗憾提供的。此外,在Bernoulli案例中,将这些算法的渐近行为与伪遗憾的Lai-Robbins的下限进行了比较。此外,在假设\ textit {cract}字母大小的假设下是未知的,而播放器仅知道其上方的宽度上限,提出了一种基于UCB的算法,在其中,玩家的目的是减少由该算法造成的遗憾。未知的字母尺寸在有限的时间方面。数字结果说明了论文中介绍的算法的预期遗憾。
translated by 谷歌翻译
我们研究了$ k $武装的决斗匪徒问题,这是传统的多武器匪徒问题的一种变体,其中以成对比较的形式获得了反馈。以前的学习算法专注于$ \ textit {完全自适应} $设置,在每次比较后,算法可以进行更新。 “批处理”决斗匪徒问题是由Web搜索排名和推荐系统等大规模应用程序激励的,在这种应用程序中执行顺序更新可能是不可行的。在这项工作中,我们要问:$ \ textit {是否只使用几个自适应回合有解决方案,该回合与$ k $ armed的决斗匪徒的最佳顺序算法的渐近后悔界限?} $? \ textit {在condorcet条件下} $,这是$ k $武装的决斗匪徒问题的标准设置。我们获得$ O(k^2 \ log^2(k)) + O(k \ log(t))$的渐近遗憾地平线。我们的遗憾界限几乎与在Condorcet条件下完全顺序环境中已知的最佳后悔界限相匹配。最后,在各种现实世界数据集的计算实验中,我们观察到使用$ o(\ log(t))$ rounds的算法与完全顺序的算法(使用$ t $ rounds)的性能几乎相同。
translated by 谷歌翻译
在本文中,我们研究了汤普森采样(TS)方法的应用到随机组合多臂匪徒(CMAB)框架中。当所有基本臂的结果分布都是独立的,并获得$ o(m \ log k _ {\ max} \ log t / \ delta_时,我们首先分析一般CMAB模型的标准TS算法。 {\ min})$,其中$ m $是基本武器的数量,$ k _ {\ max} $是最大的超级臂的大小,$ t $是时间范围,而$ \ delta _ {\ min} $是最佳解决方案的预期奖励与任何非最佳解决方案之间的最小差距。这种遗憾的上限比$ o(m(\ log k _ {\ max})^2 \ log t / \ delta _ {\ min})$更好。此外,我们的新颖分析技术可以帮助收紧其他基于UCB的政策(例如ESC)的遗憾界限,因为我们改善了计算累积遗憾的方法。然后,我们考虑Matroid Bandit设置(CMAB模型的特殊类别),在这里我们可以删除跨武器的独立性假设,并实现与下限匹配的遗憾上限。除了遗憾的上限外,我们还指出,一个人不能直接替换确切的离线甲骨文(将离线问题实例的参数作为输入,并在此实例下输出确切的最佳操作),用TS算法中的近似oracle替换了ts算法的近似值。甚至经典的mAb问题。最后,我们使用一些实验来显示TS遗憾与其他现有算法之间的比较,实验结果表明TS优于现有基准。
translated by 谷歌翻译
We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $\Omega(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.
translated by 谷歌翻译
我们考虑腐烂奖励的无限多臂匪徒问题,其中手臂的平均奖励是根据任意趋势在每次拉动的手臂上减小的,最大腐烂速率$ \ varrho = o(1)$。我们表明,这个学习问题具有$ \ omega(\ max \ {\ varrho^{1/3} t,\ sqrt {t} \})$ worst-case遗憾的遗憾下降下降,其中$ t $是$ t $。我们表明,匹配的上限$ \ tilde {o}(\ max \ {\ varrho^{1/3} t,\ sqrt {t} \})$,最多可以通过多元素来实现当算法知道最大腐烂速率$ \ varrho $时,一种使用UCB索引的算法,该算法使用UCB索引和一个阈值来决定是否继续拉动手臂或从进一步考虑中移除手臂。我们还表明,$ \ tilde {o}(\ max \ {\ varrho^{1/3} t,t^{3/4} \})$遗憾的上限可以通过不知道的算法来实现$ \ varrho $的值通过使用自适应UCB索引以及自适应阈值值。
translated by 谷歌翻译
我们研究了在线多任务学习的问题,其中在相似但不一定相同的多臂强盗环境中执行任务。特别是,我们研究学习者如何通过知识转移来改善多个相关任务的整体绩效。虽然最近已证明,在所有任务同时解决的环境中,尚不清楚汤普森采样(TS)算法是否尚不清楚,虽然最近证明了基于上限的算法(UCB)算法几乎达到了最佳的性能保证,具有类似的理论属性。在这项工作中,我们为更通用的在线多任务学习协议提供了TS-Type算法,该协议扩展了并发设置。我们提供了其频繁的分析,并证明它在随机停止时间内使用新型浓度不平等的多任务数据聚集也几乎是最佳的。最后,我们评估了关于合成数据的算法,并表明与基于UCB的算法相比,TS-Type算法具有出色的经验性能和基线算法,该算法在没有转移的情况下为每个单独的任务执行TS。
translated by 谷歌翻译
我们考虑随机多武装强盗(MAB)问题,延迟影响了行动。在我们的环境中,过去采取的行动在随后的未来影响了ARM奖励。在现实世界中,行动的这种延迟影响是普遍的。例如,为某个社会群体中的人员偿还贷款的能力可能历史上历史上批准贷款申请的频率频率。如果银行将贷款申请拒绝拒绝弱势群体,则可以创建反馈循环,进一步损害该群体中获取贷款的机会。在本文中,我们制定了在多武装匪徒的背景下的行动延迟和长期影响。由于在学习期间,我们将强盗设置概括为对这种“偏置”的依赖性进行编码。目标是随着时间的推移最大化收集的公用事业,同时考虑到历史行动延迟影响所产生的动态。我们提出了一种算法,实现了$ \ tilde {\ mathcal {o}}的遗憾,并显示$ \ omega(kt ^ {2/3})$的匹配遗憾下限,其中$ k $是武器数量,$ t $是学习地平线。我们的结果通过添加技术来补充强盗文献,以处理具有长期影响的行动,并对设计公平算法有影响。
translated by 谷歌翻译
在本文中,我们考虑了在规避风险的标准下线性收益的上下文多臂强盗问题。在每个回合中,每个手臂都会揭示上下文,决策者选择一只手臂拉动并获得相应的奖励。特别是,我们将均值变化视为风险标准,最好的组是具有最大均值奖励的均值。我们将汤普森采样算法应用于脱节模型,并为提出算法的变体提供全面的遗憾分析。对于$ t $ rounds,$ k $ Actions和$ d $ - 维功能向量,我们证明了$ o((1+ \ rho+\ frac {1} {1} {\ rho}){\ rho})d \ ln t \ ln t \ ln的遗憾。 \ frac {k} {\ delta} \ sqrt {d k t^{1+2 \ epsilon} \ ln \ frac {k} {\ delta} \ frac {1} {\ epsilon}} $ 1 - \ \ delta $在带有风险公差$ \ rho $的均值方差标准下,对于任何$ 0 <\ epsilon <\ frac {1} {2} $,$ 0 <\ delta <1 $。我们提出的算法的经验性能通过投资组合选择问题来证明。
translated by 谷歌翻译
多臂强盗(MAB)问题是增强学习领域中广泛研究的模型。本文考虑了经典mAB模型的两个案例 - 灯塔奖励分布和重尾。对于轻尾(即次高斯)案件,我们提出了UCB1-LT政策,实现了遗憾增长命令的最佳$ O(\ log t)$。对于重尾案,我们介绍了扩展的强大UCB政策,这是Bubeck等人提出的UCB政策的扩展。(2013)和Lattimore(2017)。以前的UCB政策要求在奖励分布的特定时刻了解上限的知识,在某些实际情况下可能很难获得。我们扩展的强大UCB消除了这一要求,同时仍达到最佳的遗憾增长订单$ O(\ log t)$,从而为重型奖励分配提供了扩大的UCB政策应用程序领域。
translated by 谷歌翻译