我们考虑使用$ K $臂的随机匪徒问题,每一个都与$ [m,m] $范围内支持的有限分布相关。我们不认为$ [m,m] $是已知的范围,并表明学习此范围有成本。确实,出现了与分销相关和无分配后悔界限之间的新权衡,这阻止了同时实现典型的$ \ ln t $和$ \ sqrt {t} $ bunds。例如,仅当与分布相关的遗憾界限至少属于$ \ sqrt {t} $的顺序时,才能实现$ \ sqrt {t} $}无分布遗憾。我们展示了一项策略,以实现新的权衡表明的遗憾。
translated by 谷歌翻译
我们考虑$ k $武装的随机土匪,并考虑到$ t $ t $的累积后悔界限。我们对同时获得最佳订单$ \ sqrt {kt} $的策略感兴趣,并与发行依赖的遗憾相关,即与$ \ kappa \ ln t $相匹配,该遗憾是最佳的。和Robbins(1985)以及Burnetas和Katehakis(1996),其中$ \ kappa $是最佳问题依赖性常数。这个常数的$ \ kappa $取决于所考虑的模型$ \ Mathcal {d} $(武器上可能的分布家族)。 M \'Enard and Garivier(2017)提供了在一维指数式家庭给出的模型的参数案例中实现这种双重偏见的策略,而Lattimore(2016,2018)为(Sub)高斯分布的家族而做到了这一点。差异小于$ 1 $。我们将此结果扩展到超过$ [0,1] $的所有分布的非参数案例。我们通过结合Audibert和Bubeck(2009)的MOSS策略来做到这一点,该策略享受了最佳订单$ \ sqrt {kt} $的无分配遗憾,以及Capp \'e等人的KL-UCB策略。 (2013年),我们为此提供了对最佳分布$ \ kappa \ ln t $遗憾的首次分析。我们能够在努力简化证明(以前已知的遗憾界限,因此进行的新分析)时,能够获得这种非参数两次审查结果;因此,本贡献的第二个优点是为基于$ k $武装的随机土匪提供基于索引的策略的经典后悔界限的证明。
translated by 谷歌翻译
本文提出了新的偏差不等式,其在多武装强盗模型中的自适应采样下均匀地均匀。使用给定的一维指数家庭中的kullback-leibler发散来测量偏差,并且可以一次考虑几个臂。它们是通过基于分层的每个臂鞅构造而构建的,并通过将那些鞅乘以来获得。我们的偏差不平等允许我们根据广义概率比来分析一大类连续识别问题的概要概率比,并且为臂的装置的某些功能构造紧密的置信区间。
translated by 谷歌翻译
We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $\Omega(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.
translated by 谷歌翻译
富达匪徒问题是$ k $的武器问题的变体,其中每个臂的奖励通过提供额外收益的富达奖励来增强,这取决于播放器如何对该臂进行“忠诚”在过去。我们提出了两种忠诚的模型。在忠诚点模型中,额外奖励的数量取决于手臂之前播放的次数。在订阅模型中,额外的奖励取决于手臂的连续绘制的当前数量。我们考虑随机和对抗问题。由于单臂策略在随机问题中并不总是最佳,因此对抗性环境中遗憾的概念需要仔细调整。我们介绍了三个可能的遗憾和调查,这可以是偏执的偏执。我们详细介绍了增加,减少和优惠券的特殊情况(玩家在手臂的每辆M $播放后获得额外的奖励)保真奖励。对于不一定享受载体遗憾的模型,我们提供了最糟糕的下限。对于那些展示Sublinear遗憾的模型,我们提供算法并绑定他们的遗憾。
translated by 谷歌翻译
在臂分布的标准假设下广泛研究了随机多臂强盗问题(例如,用已知的支持,指数家庭等)。这些假设适用于许多现实世界问题,但有时他们需要知识(例如,在尾部上),从业者可能无法精确访问,提高强盗算法的鲁棒性的问题,以模拟拼盘。在本文中,我们研究了一种通用的Dirichlet采样(DS)算法,基于通过重新采样的武器观测和数​​据相关的探索奖励计算的经验指标的成对比较。我们表明,当该策略的界限和对数后悔具有轻度分量度条件的半界分布时,这种策略的不同变体达到了可证明的最佳遗憾。我们还表明,一项简单的调整在大类无界分布方面实现了坚固性,其成本比对数渐近的遗憾略差。我们终于提供了数字实验,展示了合成农业数据的决策问题中DS的优点。
translated by 谷歌翻译
我们在嵌套政策类别的存在下研究匪徒场景中的模型选择问题,目的是获得同时的对抗和随机性(“两全其美”)高概率的遗憾保证。我们的方法要求每个基础学习者都有一个候选人的遗憾约束,可能会或可能不会举行,而我们的元算法按照一定时间表来扮演每个基础学习者,该时间表使基础学习者的候选人后悔的界限保持平衡,直到被发现违反他们的保证为止。我们开发了专门设计的仔细的错误指定测试,以将上述模型选择标准与利用环境的(潜在良性)性质的能力相结合。我们在对抗环境中恢复畜栏算法的模型选择保证,但是在实现高概率后悔界限的附加益处,特别是在嵌套对抗性线性斑块的情况下。更重要的是,我们的模型选择结果也同时在差距假设​​下的随机环境中同时保持。这些是在(线性)匪徒场景中执行模型选择时,可以达到世界上最好的(随机和对抗性)保证的第一个理论结果。
translated by 谷歌翻译
我们研究汤普森采样(TS)算法的遗憾,指数为家庭土匪,其中奖励分配来自一个一维指数式家庭,该家庭涵盖了许多常见的奖励分布,包括伯努利,高斯,伽玛,伽玛,指数等。我们建议汤普森采样算法,称为expts,它使用新颖的采样分布来避免估计最佳臂。我们为expts提供了严格的遗憾分析,同时产生有限的遗憾和渐近遗憾。特别是,对于带指数级家庭奖励的$ k $臂匪徒,expts of horizo​​n $ t $ sub-ucb(对于有限的时间遗憾的是问题依赖的有限时间标准) $ \ sqrt {\ log k} $,并且对于指数家庭奖励,渐近最佳。此外,我们通过在Expts中使用的采样分配外添加一个贪婪的剥削步骤,提出$^+$,以避免过度估计亚最佳武器。 expts $^+$是随时随地的强盗算法,可用于指数级的家庭奖励分布同时实现最小值和渐近最优性。我们的证明技术在概念上很简单,可以轻松地应用于用特定奖励分布分析标准的汤普森抽样。
translated by 谷歌翻译
在本文中,我们将重尾多臂匪徒的概念概括为对抗环境,并为重尾多军匪徒(MAB)开发强大的最佳世界世界算法(MAB),其中损失具有$ \ alpha $ -th($ 1 <\ alpha \ le 2 $)由$ \ sigma^\ alpha $界定的矩,而方差可能不存在。具体来说,我们设计了一种算法\ texttt {htinf},当重型尾参数$ \ alpha $和$ \ sigma $是代理人所熟知的,\ texttt {htinf}同时实现了最佳的遗憾,以实现随机和逆境环境的最佳遗憾,不知道实际环境类型A-Priori。当$ \ alpha,\ sigma $是未知的时,\ texttt {htinf}在随机案例中实现了$ \ log t $ t $ style-style实例依赖的遗憾,而在对抗情况下,$ o(t)$ no-regret保证。我们进一步开发了算法\ texttt {adatinf},实现$ \ mathcal o(\ sigma k^{1- \ nicefrac 1 \ alpha} t^{\ nicefrac {1}对抗设置,没有$ \ alpha $和$ \ sigma $的事先知识。该结果与已知的遗憾下降(Bubeck等,2013)相匹配,该遗憾的是,它假设了随机环境,并且$ \ alpha $和$ \ sigma $均为众所周知。 To our knowledge, the proposed \texttt{HTINF} algorithm is the first to enjoy a best-of-both-worlds regret guarantee, and \texttt{AdaTINF} is the first algorithm that can adapt to both $\alpha$ and $\ Sigma $以实现经典重型尾部随机mab设置和我们新颖的对抗性配方的最佳差距遗憾。
translated by 谷歌翻译
我们调查了一个非旋转的强盗设置,其中不立即向玩家充满行动的丢失,而是以普遍的方式蔓延到后续轮。通过每轮末端观察到的瞬时损失是先前播放动作的许多损耗组件的总和。此设置包括一个特殊情况,该特例是具有延迟反馈的匪徒的特殊情况,是播放器单独观察延迟损耗的良好反馈。我们的第一个贡献是将标准强盗算法转换为可以在更难的设置中运行的一般减少:我们在原始算法的稳定性和后悔方面绑定了转换算法的遗憾。然后,我们表明,使用Tsallis熵的适当调谐的ftrl的转换具有令人遗憾的$ \ sqrt {(d + 1)kt} $,其中$ d $是最大延迟,$ k $是武器数量,$ t $是时间范围。最后,我们表明我们的结果通常不能通过在此设置中运行的任何算法的遗憾上展示匹配(最多一个日志因子)下限。
translated by 谷歌翻译
我们考虑激励探索:一种多臂匪徒的版本,其中武器的选择由自私者控制,而算法只能发布建议。该算法控制信息流,信息不对称可以激励代理探索。先前的工作达到了最佳的遗憾率,直到乘法因素,这些因素根据贝叶斯先验而变得很大,并在武器数量上成倍规模扩展。采样每只手臂的一个更基本的问题一旦遇到了类似的因素。我们专注于激励措施的价格:出于激励兼容的目的,绩效的损失,广泛解释为。我们证明,如果用足够多的数据点初始化,则标准的匪徒汤普森采样是激励兼容的。因此,当收集这些数据点时,由于激励措施的绩效损失仅限于初始回合。这个问题主要降低到样本复杂性的问题:需要多少个回合?我们解决了这个问题,提供了匹配的上限和下限,并在各种推论中实例化。通常,最佳样品复杂性在“信念强度”中的武器数量和指数中是多项式。
translated by 谷歌翻译
出现了前两种算法,作为汤普森采样对多臂匪徒模型中最佳手臂识别的适应(Russo,2016),用于武器的参数家族。他们通过在两个候选臂,一个领导者和一个挑战者中随机化来选择下一个要采样的臂。尽管具有良好的经验表现,但仅当手臂是具有已知差异的高斯时,才能获得固定信心最佳手臂识别的理论保证。在本文中,我们提供了对两种方法的一般分析,该方法确定了领导者,挑战者和武器(可能是非参数)分布的理想特性。结果,我们获得了理论上支持的前两种算法,用于具有有限分布的最佳臂识别。我们的证明方法特别证明了用于选择从汤普森采样继承的领导者的采样步骤可以用其他选择代替,例如选择经验最佳的臂。
translated by 谷歌翻译
我们考虑随机多武装强盗(MAB)问题,延迟影响了行动。在我们的环境中,过去采取的行动在随后的未来影响了ARM奖励。在现实世界中,行动的这种延迟影响是普遍的。例如,为某个社会群体中的人员偿还贷款的能力可能历史上历史上批准贷款申请的频率频率。如果银行将贷款申请拒绝拒绝弱势群体,则可以创建反馈循环,进一步损害该群体中获取贷款的机会。在本文中,我们制定了在多武装匪徒的背景下的行动延迟和长期影响。由于在学习期间,我们将强盗设置概括为对这种“偏置”的依赖性进行编码。目标是随着时间的推移最大化收集的公用事业,同时考虑到历史行动延迟影响所产生的动态。我们提出了一种算法,实现了$ \ tilde {\ mathcal {o}}的遗憾,并显示$ \ omega(kt ^ {2/3})$的匹配遗憾下限,其中$ k $是武器数量,$ t $是学习地平线。我们的结果通过添加技术来补充强盗文献,以处理具有长期影响的行动,并对设计公平算法有影响。
translated by 谷歌翻译
我们扩展并结合了一些文献的工具,以设计快速,自适应,随时和无规模的在线学习算法。无尺寸的遗憾界限必须以最大损失线性缩放,既朝向大损失,缺乏较小亏损。自适应遗憾界限表明,算法可以利用易于数据,并且可能具有恒定的遗憾。我们寻求开发快速算法,依赖于尽可能少的参数,特别是它们应该是随时随地的,因此不依赖于时间范围。我们的第一和主要工具,IsoTuning是平衡遗憾权衡的想法的概括。我们开发了一套工具来轻松设计和分析这些学习率,并表明它们自动适应遗憾(无论是常量,$ O(\ log t)$,$ o(\ sqrt {t})$,在Hindsight的最佳学习率的因子2中,对于相同的观察量的因子2中。第二种工具是在线校正,其允许我们获得许多算法的中心界限,以防止当域太大或仅部分约束时遗憾地被空隙。最后一个工具null更新,防止算法执行过多的更大的更新,这可能导致无限的后悔,甚至无效更新。我们使用这些工具开发一般理论并将其应用于几种标准算法。特别是,我们(几乎完全)恢复对无限域的FTRL的小损失的适应性,设计和证明无镜面下降的无缝的自适应保证(至少当Bregman发散在其第二个参数中凸出),延伸Adapt-ML-PROSIA令无规模的保证,并为Prod,Adahedge,Boa和软贝内斯提供了其他几个小贡献。
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
在纯探索问题中,依次收集信息以回答关于随机环境的问题。虽然近年来对线性匪徒的最佳武器识别进行了广泛的研究,但很少有作品专门用于识别一只手臂,即$ \ varepsilon $ close close close to to to to to to n of the $ \ varepsilon $ close(也不是最好的一只)。在这个有几个正确答案的问题中,识别算法应重点放在这些答案之间的一个候选人上,并验证其正确。我们证明,以最高平均值选择答案不允许算法就预期的样本复杂性达到渐近最优性。相反,应识别\ textit {最远的答案}。使用该洞察力仔细选择候选人答案,我们开发了一个简单的过程,以适应最佳臂识别算法,以应对托管线性随机匪徒中的$ \ varepsilon $ best-best-andwer识别。最后,我们为此设置提出了一种渐近最佳算法,该算法证明可以针对现有的改良最佳臂识别算法实现竞争性的经验性能。
translated by 谷歌翻译
我们研究了批量线性上下文匪徒的最佳批量遗憾权衡。对于任何批次数$ M $,操作次数$ k $,时间范围$ t $和维度$ d $,我们提供了一种算法,并证明了其遗憾的保证,这是由于技术原因,具有两阶段表达作为时间的时间$ t $ grose。我们还证明了一个令人奇迹的定理,令人惊讶地显示了在问题参数的“问题参数”中的两相遗憾(最高〜对数因子)的最优性,因此建立了确切的批量后悔权衡。与最近的工作\ citep {ruan2020linear}相比,这表明$ m = o(\ log \ log t)$批次实现无需批处理限制的渐近最佳遗憾的渐近最佳遗憾,我们的算法更简单,更易于实际实现。此外,我们的算法实现了所有$ t \ geq d $的最佳遗憾,而\ citep {ruan2020linear}要求$ t $大于$ d $的不切实际的大多项式。沿着我们的分析,我们还证明了一种新的矩阵集中不平等,依赖于他们的动态上限,这是我们的知识,这是其文学中的第一个和独立兴趣。
translated by 谷歌翻译
关于强盗算法最佳设计的许多文献都是基于最小化预期遗憾的基础。众所周知,在某些指数家庭中最佳的设计可以实现预期的遗憾,即以LAI-ROBBINS下降的速度在ARM游戏数量上进行对数增长。在本文中,我们表明,当人们使用这种优化的设计时,相关算法的遗憾分布必然具有非常沉重的尾巴,特别是cauchy分布的尾巴。此外,对于$ p> 1 $,遗憾分布的$ p $'瞬间增长速度要比多层型的速度快得多,尤其是作为ARM播放总数的力量。我们表明,优化的UCB强盗设计在另一种意义上也是脆弱的,即,当问题甚至略有指定时,遗憾的增长可能比传统理论所建议的要快得多。我们的论点是基于标准的量化想法,并表明最有可能的遗憾变得比预期的要大的方法是最佳手臂在前几只手臂比赛中返回低于平均水平的奖励,从而导致算法相信这一点手臂是最佳的。为了减轻暴露的脆弱性问题,我们表明可以修改UCB算法,以确保对错误指定的理想程度。在此过程中,我们还提供了UCB勘探数量与产生后悔分布的尾声之间的巨大权衡。
translated by 谷歌翻译
我们设计了简单,最佳的政策,以确保在经典的多武器匪徒问题中确保对重尾风险的安全。最近,\ cite {fan2021偏差}表明,信息理论优化的匪徒算法患有严重的重尾风险;也就是说,最糟糕的案例可能会以$ 1/t $的速度慢慢衰减,其中$ t $是时间范围。受其结果的启发,我们进一步表明,广泛使用的政策,例如标准的上限约束政策和汤普森采样政策也会产生重型风险。实际上,对于所有“依赖实例依赖的一致”政策,这种重型风险实际上存在。为了确保对这种重型风险的安全性,对于两臂强盗设置,我们提供了一种简单的政策设计,即(i)具有最差的最佳性能,可用于预期的遗憾$ \ tilde o(\ sqrt {t} )$和(ii)具有最坏的尾巴概率,即以指数率$ \ exp( - \ omega(\ sqrt {t}))$产生线性遗憾衰减。我们进一步证明,尾巴概率的这种指数衰减率在所有具有最差最佳最优性的政策中都是最佳的,这些损失率是预期的。最后,我们使用任意$ k $的武器数量将政策设计和分析改进了一般环境。我们为在政策设计下的任何遗憾阈值中提供详细的尾巴概率表征。也就是说,产生大于$ x $的遗憾的最坏情况是由$ \ exp( - \ omega(x/\ sqrt {kt}))$上限。进行数值实验以说明理论发现。我们的结果揭示了对一致性和轻尾风险之间不兼容的见解,而这表明对预期的遗憾和轻尾风险的最佳最佳性是兼容的。
translated by 谷歌翻译
我们介绍了一个多臂强盗模型,其中奖励是多个随机变量的总和,每个动作只会改变其中的分布。每次动作之后,代理都会观察所有变量的实现。该模型是由营销活动和推荐系统激励的,在该系统中,变量代表单个客户的结果,例如点击。我们提出了UCB风格的算法,以估计基线上的动作的提升。我们研究了问题的多种变体,包括何时未知基线和受影响的变量,并证明所有这些变量均具有sublrinear后悔界限。我们还提供了较低的界限,以证明我们的建模假设的必要性是合理的。关于合成和现实世界数据集的实验显示了估计不使用这种结构的策略的振奋方法的好处。
translated by 谷歌翻译