智能论文笔记

Online Learning via Offline Greedy Algorithms: Applications in Market Design and Optimization

Rad Niazadeh , Negin Golrezaei , Joshua Wang , Fransisca Susan , Ashwinkumar Badanidiyuru

分类：机器学习 | (统计)机器学习

2021-02-18

在随着时间变化的组合环境中的在线决策激励，我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题，我们提供了一个通用框架，该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明，在完整信息设置下，由此产生的在线算法具有$ O（\ sqrt {t}）$（近似）遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展，我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪（t^{2/3}）$（近似）$（近似）的遗憾。展示了我们框架的灵活性，我们将脱机之间的转换应用于收入管理，市场设计和在线优化的几个问题，包括在线平台中的产品排名优化，拍卖中的储备价格优化以及supperular tossodular最大化。。我们还将还原扩展到连续优化的类似贪婪的一阶方法，例如用于最大化连续强的DR单调下调功能，这些功能受到凸约束的约束。我们表明，当应用于这些应用程序时，我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究，在这两种应用中，我们都观察到，转换的数值性能在实际情况下优于理论保证。

translated by 谷歌翻译

Contextual Bandits with Cross-learning

Santiago Balseiro , Negin Golrezaei , Mohammad Mahdian , Vahab Mirrokni , Jon Schneider

分类：机器学习 | (统计)机器学习

2018-09-25

在古典语境匪徒问题中，在每轮$ t $，学习者观察一些上下文$ c $，选择一些动作$ i $执行，并收到一些奖励$ r_ {i，t}（c）$。我们考虑此问题的变体除了接收奖励$ r_ {i，t}（c）$之外，学习者还要学习其他一些上下文$的$ r_ {i，t}（c'）$的值C'$ in设置$ \ mathcal {o} _i（c）$;即，通过在不同的上下文下执行该行动来实现的奖励\ mathcal {o} _i（c）$。这种变体出现在若干战略设置中，例如学习如何在非真实的重复拍卖中出价，最热衷于随着许多平台转换为运行的第一价格拍卖。我们将此问题称为交叉学习的上下文匪徒问题。古典上下围匪徒问题的最佳算法达到$ \ tilde {o}（\ sqrt {ckt}）$遗憾针对所有固定策略，其中$ c $是上下文的数量，$ k $的行动数量和$ $次数。我们设计并分析了交叉学习的上下文匪徒问题的新算法，并表明他们的遗憾更好地依赖上下文的数量。在选择动作时学习所有上下文的奖励的完整交叉学习下，即设置$ \ mathcal {o} _i（c）$包含所有上下文，我们显示我们的算法实现后悔$ \ tilde {o}（ \ sqrt {kt}）$，删除$ c $的依赖。对于任何其他情况，即在部分交叉学习下，$ | \ mathcal {o} _i（c）| <c $ for $（i，c）$，遗憾界限取决于如何设置$ \ mathcal o_i（c）$影响上下文之间的交叉学习的程度。我们从Ad Exchange运行一流拍卖的广告交换中模拟了我们的真实拍卖数据的算法，并表明了它们优于传统的上下文强盗算法。

translated by 谷歌翻译

The Best of Many Worlds: Dual Mirror Descent for Online Allocation Problems

Santiago Balseiro , Haihao Lu , Vahab Mirrokni

分类：机器学习

2020-11-18

资源限制的在线分配问题是收入管理和在线广告中的核心问题。在这些问题中，请求在有限的地平线期间顺序到达，对于每个请求，决策者需要选择消耗一定数量资源并生成奖励的动作。目标是最大限度地提高累计奖励，这是对资源总消费的限制。在本文中，我们考虑一种数据驱动的设置，其中使用决策者未知的输入模型生成每个请求的奖励和资源消耗。我们设计了一般的算法算法，可以在各种输入模型中实现良好的性能，而不知道它们面临的类型类型。特别是，我们的算法在独立和相同的分布式输入以及各种非静止随机输入模型下是渐近的最佳选择，并且当输入是对抗性时，它们达到渐近最佳的固定竞争比率。我们的算法在Lagrangian双色空间中运行：它们为使用在线镜像血管更新的每个资源维护双倍乘数。通过相应地选择参考功能，我们恢复双梯度下降和双乘法权重更新算法。与现有的在线分配问题的现有方法相比，所产生的算法简单，快速，不需要在收入函数，消费函数和动作空间中凸起。我们将应用程序讨论到网络收入管理，在线竞标，重复拍卖，预算限制，与高熵的在线比例匹配，以及具有有限库存的个性化分类优化。

translated by 谷歌翻译

Adversarial Bandits with Knapsacks

Nicole Immorlica , Karthik Abinav Sankararaman , Robert Schapire , Aleksandrs Slivkins

分类：机器学习 | (统计)机器学习

2018-11-28

我们考虑带有背包的土匪（从此以后，BWK），这是一种在供应/预算限制下的多臂土匪的通用模型。特别是，强盗算法需要解决一个众所周知的背包问题：找到最佳的物品包装到有限尺寸的背包中。 BWK问题是众多激励示例的普遍概括，范围从动态定价到重复拍卖，再到动态AD分配，再到网络路由和调度。尽管BWK的先前工作集中在随机版本上，但我们开创了可以在对手身上选择结果的另一个极端。与随机版本和“经典”对抗土匪相比，这是一个更加困难的问题，因为遗憾的最小化不再可行。相反，目的是最大程度地减少竞争比率：基准奖励与算法奖励的比率。我们设计了一种具有竞争比O（log t）的算法，相对于动作的最佳固定分布，其中T是时间范围；我们还证明了一个匹配的下限。关键的概念贡献是对问题的随机版本的新观点。我们为随机版本提出了一种新的算法，该算法是基于重复游戏中遗憾最小化的框架，并且与先前的工作相比，它具有更简单的分析。然后，我们为对抗版本分析此算法，并将其用作求解后者的子例程。

translated by 谷歌翻译

Bandit Learning with Delayed Impact of Actions

Wei Tang , Chien-Ju Ho , Yang Liu

分类：机器学习 | (统计)机器学习

2020-02-24

我们考虑随机多武装强盗（MAB）问题，延迟影响了行动。在我们的环境中，过去采取的行动在随后的未来影响了ARM奖励。在现实世界中，行动的这种延迟影响是普遍的。例如，为某个社会群体中的人员偿还贷款的能力可能历史上历史上批准贷款申请的频率频率。如果银行将贷款申请拒绝拒绝弱势群体，则可以创建反馈循环，进一步损害该群体中获取贷款的机会。在本文中，我们制定了在多武装匪徒的背景下的行动延迟和长期影响。由于在学习期间，我们将强盗设置概括为对这种“偏置”的依赖性进行编码。目标是随着时间的推移最大化收集的公用事业，同时考虑到历史行动延迟影响所产生的动态。我们提出了一种算法，实现了$ \ tilde {\ mathcal {o}}的遗憾，并显示$ \ omega（kt ^ {2/3}）$的匹配遗憾下限，其中$ k $是武器数量，$ t $是学习地平线。我们的结果通过添加技术来补充强盗文献，以处理具有长期影响的行动，并对设计公平算法有影响。

translated by 谷歌翻译

Optimal No-regret Learning in Repeated First-price Auctions

Yanjun Han , Zhengyuan Zhou , Tsachy Weissman

分类：机器学习 | (统计)机器学习

2020-03-22

我们通过审查反馈重复进行一定的第一价格拍卖来研究在线学习，在每次拍卖结束时，出价者只观察获胜的出价，学会了适应性地出价，以最大程度地提高她的累积回报。为了实现这一目标，投标人面临着一个具有挑战性的困境：如果她赢得了竞标 - 获得正收益的唯一方法 - 然后她无法观察其他竞标者的最高竞标，我们认为我们认为这是从中汲取的。一个未知的分布。尽管这一困境让人联想到上下文强盗中的探索探索折衷权，但现有的UCB或汤普森采样算法无法直接解决。在本文中，通过利用第一价格拍卖的结构属性，我们开发了第一个实现$ o（\ sqrt {t} \ log^{2.5} t）$ hearry bund的第一个学习算法（\ sqrt {t} \ log^{2.5} t），这是最小值的最低$ $ \ log $因素，当投标人的私人价值随机生成时。我们这样做是通过在一系列问题上提供算法，称为部分有序的上下文匪徒，该算法将图形反馈跨动作，跨环境跨上下文进行结合，以及在上下文中的部分顺序。我们通过表现出一个奇怪的分离来确定该框架的优势和劣势，即在随机环境下几乎可以独立于动作/背景规模的遗憾，但是在对抗性环境下是不可能的。尽管这一通用框架有限制，但我们进一步利用了第一价格拍卖的结构，并开发了一种学习算法，该算法在存在对手生成的私有价值的情况下，在存在的情况下可以有效地运行样本（并有效地计算）。我们建立了一个$ o（\ sqrt {t} \ log^3 t）$遗憾，以此为此算法，因此提供了对第一价格拍卖的最佳学习保证的完整表征。

translated by 谷歌翻译

Online Subset Selection using $α$-Core with no Augmented Regret

Sourav Sahoo , Samrat Mukhopadhyay , Abhishek Sinha

分类：机器学习 | 人工智能

2022-09-28

我们考虑在线学习设置中的顺序稀疏子集选择的问题。假设集合$ [n] $由$ n $不同的元素组成。在$ t^{\ text {th}} $ round上，单调奖励函数$ f_t：2^{[n]} \ to \ m athbb {r} _+，$，为每个子集分配非阴性奖励$ [n]，向学习者透露$。学习者在奖励功能$ f_t $ for $ f_t $之前（k \ leq n）$选择（也许是随机的）子集$ s_t \ subseteq [n] $ of $ k $元素。由于选择的结果，学习者在$ t^{\ text {th}} $ round上获得了$ f_t（s_t）$的奖励。学习者的目标是设计一项在线子集选择策略，以最大程度地提高其在给定时间范围内产生的预期累积奖励。在这方面，我们提出了一种称为Score的在线学习策略（带有Core的子集选择），以解决大量奖励功能的问题。拟议的分数策略基于$ \ alpha $ core的新概念，这是对合作游戏理论文献中核心概念的概括。我们根据一个名为$ \ alpha $的遗憾的新绩效指标为分数政策建立学习保证。在这个新的指标中，与在线政策相比，离线基准的功能适当增强。我们给出了几个说明性示例，以表明可以使用分数策略有效地学习包括子模型在内的广泛奖励功能。我们还概述了如何在半伴奏反馈模型下使用得分策略，并以许多开放问题的总结结束了论文。

translated by 谷歌翻译

Learning in Stackelberg Games with Non-myopic Agents

Nika Haghtalab , Thodoris Lykouris , Sloan Nietert , Alex Wei

分类：机器学习

2022-08-19

我们研究Stackelberg游戏，其中一位校长反复与长寿，非洋流代理商进行互动，而不知道代理商的回报功能。尽管当代理商是近视，非侧心代理会带来额外的并发症时，在Stackelberg游戏中的学习是充分理解的。尤其是，非洋流代理可以从战略上选择当前劣等的行动，以误导校长的学习算法并在未来获得更好的结果。我们提供了一个通用框架，该框架可在存在近视剂的情况下降低非洋白酶的学习来优化强大的匪徒。通过设计和分析微型反应性匪徒算法，我们的还原从校长学习算法的统计效率中进行了差异，以与其在诱导接近最佳的响应中的有效性。我们将此框架应用于Stackelberg Security Games（SSG），需求曲线，战略分类和一般有限的Stackelberg游戏的价格。在每种情况下，我们都表征了近最佳响应中存在的错误的类型和影响，并为此类拼写错误开发了一种鲁棒性的学习算法。在此过程中，我们通过最先进的$ O（n^3）$从SSGS中提高了SSG中的学习复杂性，从通过发现此类游戏的基本结构属性。该结果除了对非洋流药物学习之外，还具有独立的兴趣。

translated by 谷歌翻译

Bandit problems with fidelity rewards

Gábor Lugosi , Ciara Pike-Burke , Pierre-André Savalle

分类： (统计)机器学习 | 机器学习

2021-11-25

富达匪徒问题是$ k $的武器问题的变体，其中每个臂的奖励通过提供额外收益的富达奖励来增强，这取决于播放器如何对该臂进行“忠诚”在过去。我们提出了两种忠诚的模型。在忠诚点模型中，额外奖励的数量取决于手臂之前播放的次数。在订阅模型中，额外的奖励取决于手臂的连续绘制的当前数量。我们考虑随机和对抗问题。由于单臂策略在随机问题中并不总是最佳，因此对抗性环境中遗憾的概念需要仔细调整。我们介绍了三个可能的遗憾和调查，这可以是偏执的偏执。我们详细介绍了增加，减少和优惠券的特殊情况（玩家在手臂的每辆M $播放后获得额外的奖励）保真奖励。对于不一定享受载体遗憾的模型，我们提供了最糟糕的下限。对于那些展示Sublinear遗憾的模型，我们提供算法并绑定他们的遗憾。

translated by 谷歌翻译

Non-stationary Bandits and Meta-Learning with a Small Set of Optimal Arms

MohammadJavad Azizi , Thang Duong , Yasin Abbasi-Yadkori , András György , Claire Vernade , Mohammad Ghavamzadeh

分类：机器学习 | (统计)机器学习

2022-02-25

我们研究了一个顺序决策问题，其中学习者面临$ k $武装的随机匪徒任务的顺序。对手可能会设计任务，但是对手受到限制，以在$ m $ and的较小（但未知）子集中选择每个任务的最佳组。任务边界可能是已知的（强盗元学习设置）或未知（非平稳的强盗设置）。我们设计了一种基于Burnit subsodular最大化的减少的算法，并表明，在大量任务和少数最佳武器的制度中，它在两种情况下的遗憾都比$ \ tilde {o}的简单基线要小。 \ sqrt {knt}）$可以通过使用为非平稳匪徒问题设计的标准算法获得。对于固定任务长度$ \ tau $的强盗元学习问题，我们证明该算法的遗憾被限制为$ \ tilde {o}（nm \ sqrt {m \ tau}+n^{2/3} m \ tau）$。在每个任务中最佳武器的可识别性的其他假设下，我们显示了一个带有改进的$ \ tilde {o}（n \ sqrt {m \ tau}+n^{1/2} {1/2} \ sqrt的强盗元学习算法{m k \ tau}）$遗憾。

translated by 谷歌翻译

No-Regret Dynamics in the Fenchel Game: A Unified Framework for Algorithmic Convex Optimization

Jun-Kun Wang , Jacob Abernethy , Kfir Y. Levy

分类：机器学习

2021-11-22

我们开发了一种使用无遗憾的游戏动态解决凸面优化问题的算法框架。通过转换最小化凸起函数以顺序方式解决Min-Max游戏的辅助问题的问题，我们可以考虑一系列必须在另一个之后选择其行动的两名员工的一系列策略。这些策略的常见选择是所谓的无悔的学习算法，我们描述了许多此类并证明了遗憾。然后，我们表明许多凸面优化的经典一阶方法 - 包括平均迭代梯度下降，弗兰克 - 沃尔夫算法，重球算法和Nesterov的加速方法 - 可以被解释为我们框架的特殊情况由于每个玩家都做出正确选择无悔的策略。证明该框架中的收敛速率变得非常简单，因为它们遵循适当已知的遗憾范围。我们的框架还引发了一些凸优化的特殊情况的许多新的一阶方法。

translated by 谷歌翻译

Adaptation to the Range in $K$-Armed Bandits

Hédi Hadiji , Gilles Stoltz

分类： (统计)机器学习

2020-06-05

我们考虑使用$ K $臂的随机匪徒问题，每一个都与$ [m，m] $范围内支持的有限分布相关。我们不认为$ [m，m] $是已知的范围，并表明学习此范围有成本。确实，出现了与分销相关和无分配后悔界限之间的新权衡，这阻止了同时实现典型的$ \ ln t $和$ \ sqrt {t} $ bunds。例如，仅当与分布相关的遗憾界限至少属于$ \ sqrt {t} $的顺序时，才能实现$ \ sqrt {t} $}无分布遗憾。我们展示了一项策略，以实现新的权衡表明的遗憾。

translated by 谷歌翻译

Relaxing the I.I.D. Assumption: Adaptively Minimax Optimal Regret via Root-Entropic Regularization

Blair Bilodeau , Jeffrey Negrea , Daniel M. Roy

分类： (统计)机器学习 | 机器学习

2020-07-13

当在未知约束集中任意变化的分布中生成数据时，我们会考虑使用专家建议的预测。这种半反向的设置包括（在极端）经典的I.I.D.设置时，当未知约束集限制为单身人士时，当约束集是所有分布的集合时，不受约束的对抗设置。对冲状态中，对冲算法（长期以来已知是最佳的最佳速率（速率））最近被证明是对I.I.D.的最佳最小值。数据。在这项工作中，我们建议放松I.I.D.通过在约束集的所有自然顺序上寻求适应性来假设。我们在各个级别的Minimax遗憾中提供匹配的上限和下限，表明确定性学习率的对冲在极端之外是次优的，并证明人们可以在各个级别的各个层面上都能适应Minimax的遗憾。我们使用以下规范化领导者（FTRL）框架实现了这种最佳适应性，并采用了一种新型的自适应正则化方案，该方案隐含地缩放为当前预测分布的熵的平方根，而不是初始预测分布的熵。最后，我们提供了新的技术工具来研究FTRL沿半逆转频谱的统计性能。

translated by 谷歌翻译

Optimal No-Regret Learning in Strongly Monotone Games with Bandit Feedback

Tianyi Lin , Zhengyuan Zhou , Wenjia Ba , Jiawei Zhang

分类：机器学习

2021-12-06

我们考虑在具有强盗反馈的未知游戏中的在线无遗憾的学习，其中每个代理只在每次都观察到其奖励 - 所有参与者当前的联合行动 - 而不是其渐变。我们专注于平稳且强烈单调的游戏类，并在其中研究最佳的无遗憾。利用自我协调的障碍功能，我们首先构建在线强盗凸优化算法，并表明它实现了平滑且强烈 - 凹陷的支付下$ \ tilde {\ theta}（\ sqrt {t}）$的单代理最佳遗憾职能。然后，如果每个代理在强烈单调的游戏中应用这种无悔的学习算法，则以$ \ tilde {\ theta}的速率，联合动作会收敛于\ texit {last erate}到唯一的纳什均衡（1 / \ sqrt {t}）$。在我们的工作之前，同一类游戏中的最熟悉的融合率是$ O（1 / T ^ {1/3}）$（通过不同的算法实现），从而留下了最佳无悔的问题学习算法（因为已知的下限为$ \ omega（1 / \ sqrt {t}）$）。我们的结果因此通过识别第一双重最佳强盗学习算法来解决这个公开问题并促进强盗游戏 - 理论学习的广泛景观，因为它达到了（达到了日志因子）单王子学习和最佳的最佳遗憾多代理学习中的最后迭代收敛速度。我们还展示了几项模拟研究的结果 - Cournot竞争，凯利拍卖和分布式正则化物流回归 - 以证明我们算法的功效。

translated by 谷歌翻译

Efficient and Optimal Algorithms for Contextual Dueling Bandits under Realizability

Aadirupa Saha , Akshay Krishnamurthy

分类：机器学习

2021-11-24

我们研究$ k $ used的上下文决斗强盗问题，一个顺序决策制定设置，其中学习者使用上下文信息来制作两个决定，但只观察到\ emph {基于优先级的反馈}建议一个决定比另一个决定更好。我们专注于可实现的遗憾最小化问题，其中反馈由一个由给定函数类$ \ mathcal f $规定的成对偏好矩阵生成。我们提供了一种新的算法，实现了最佳反应遗憾的新概念的最佳遗憾，这是一个严格更强烈的性能测量，而不是先前作品所考虑的绩效衡量标准。该算法还在计算上有效，在多项式时间中运行，假设访问在线丢失回归超过$ \ mathcal f $。这可以解决dud \'ik等人的开放问题。[2015]关于Oracle高效，后悔 - 用于上下文决斗匪徒的最佳算法。

translated by 谷歌翻译

Online Learning for Non-monotone Submodular Maximization: From Full Information to Bandit Feedback

Qixin Zhang , Zengde Deng , Zaiyi Chen , Kuangqi Zhou , Haoyuan Hu , Yu Yang

分类：机器学习

2022-08-16

在本文中，我们在下闭合的凸套装上重新审视了在线非单调的DR-Submodular Mavimivel问题，该凸套装在机器学习，经济学和操作研究的领域中找到了广泛的现实世界应用。首先，我们以$ o（\ sqrt {t}）$的价格呈现元MFW算法，价格为$ t^{3/2} $每回合。据我们所知，Meta-MFW是第一个获得$ 1/e $ - regret $ o（\ sqrt {t}）$的算法放。此外，与ODC算法\ citep {thang2021online}形成鲜明对比的是，meta-mfw依赖于简单的在线线性甲骨文而无需离散化，提升或舍入操作。考虑到实用限制，我们然后提出了单声道-MFW算法，该算法将每个功能的随机梯度评估从$ t^{3/2} $减少到1，并实现$ 1/e $ -e $ -e-regret BOND $ O（t ^{4/5}）$。接下来，我们将Mono-MFW扩展到Bandit设置，并提出Bandit-MFW算法，该算法获得了$ 1/e $ - regret键的$ O（t^{8/9}）$。据我们所知，Mono-MFW和Bandit-MFW是第一个探索在线非占用dr dr-submodumarmimization thy pownlosed convex set的sumblinear-regret算法，可以探索单发和强盗设置。最后，我们对合成数据集和现实数据集进行了数值实验，以验证我们方法的有效性。

translated by 谷歌翻译

Uplifting Bandits

Yu-Guan Hsieh , Shiva Prasad Kasiviswanathan , Branislav Kveton

分类： (统计)机器学习 | 机器学习

2022-06-08

我们介绍了一个多臂强盗模型，其中奖励是多个随机变量的总和，每个动作只会改变其中的分布。每次动作之后，代理都会观察所有变量的实现。该模型是由营销活动和推荐系统激励的，在该系统中，变量代表单个客户的结果，例如点击。我们提出了UCB风格的算法，以估计基线上的动作的提升。我们研究了问题的多种变体，包括何时未知基线和受影响的变量，并证明所有这些变量均具有sublrinear后悔界限。我们还提供了较低的界限，以证明我们的建模假设的必要性是合理的。关于合成和现实世界数据集的实验显示了估计不使用这种结构的策略的振奋方法的好处。

translated by 谷歌翻译

Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization

Peng Zhao , Yu-Jie Zhang , Lijun Zhang , Zhi-Hua Zhou

分类：机器学习

2021-12-29

我们在非静止环境中调查在线凸优化，然后选择\ emph {动态后悔}作为性能测量，定义为在线算法产生的累积损失与任何可行比较器序列之间的差异。让$ t $是$ p_t $ be的路径长度，基本上反映了环境的非平稳性，最先进的动态遗憾是$ \ mathcal {o}（\ sqrt {t（ 1 + p_t）}）$。虽然这一界限被证明是凸函数最佳的最低限度，但在本文中，我们证明可以进一步提高一些简单的问题实例的保证，特别是当在线功能平滑时。具体而言，我们提出了新的在线算法，可以利用平滑度并替换动态遗憾的$ t $替换依据\ {问题依赖性}数量：损耗函数梯度的变化，比较器序列的累积损失，以及比较器序列的累积损失最低术语的最低限度。这些数量是大多数$ \ mathcal {o}（t）$，良性环境中可能更小。因此，我们的结果适应了问题的内在难度，因为边界比现有结果更严格，以便在最坏的情况下保证相同的速率。值得注意的是，我们的算法只需要\ emph {一个}渐变，这与开发的方法共享相同的渐变查询复杂性，以优化静态遗憾。作为进一步的应用，我们将来自全信息设置的结果扩展到具有两点反馈的强盗凸优化，从而达到此类强盗任务的第一个相关的动态遗憾。

translated by 谷歌翻译

Online Learning and Bandits with Queried Hints

Aditya Bhaskara , Sreenivas Gollapudi , Sungjin Im , Kostas Kollias , Kamesh Munagala

分类：机器学习

2022-11-04

We consider the classic online learning and stochastic multi-armed bandit (MAB) problems, when at each step, the online policy can probe and find out which of a small number ($k$) of choices has better reward (or loss) before making its choice. In this model, we derive algorithms whose regret bounds have exponentially better dependence on the time horizon compared to the classic regret bounds. In particular, we show that probing with $k=2$ suffices to achieve time-independent regret bounds for online linear and convex optimization. The same number of probes improve the regret bound of stochastic MAB with independent arms from $O(\sqrt{nT})$ to $O(n^2 \log T)$, where $n$ is the number of arms and $T$ is the horizon length. For stochastic MAB, we also consider a stronger model where a probe reveals the reward values of the probed arms, and show that in this case, $k=3$ probes suffice to achieve parameter-independent constant regret, $O(n^2)$. Such regret bounds cannot be achieved even with full feedback after the play, showcasing the power of limited ``advice'' via probing before making the play. We also present extensions to the setting where the hints can be imperfect, and to the case of stochastic MAB where the rewards of the arms can be correlated.

translated by 谷歌翻译

The Price of Incentivizing Exploration: A Characterization via Thompson Sampling and Sample Complexity

Mark Sellke , Aleksandrs Slivkins

分类：机器学习

2020-02-03

我们考虑激励探索：一种多臂匪徒的版本，其中武器的选择由自私者控制，而算法只能发布建议。该算法控制信息流，信息不对称可以激励代理探索。先前的工作达到了最佳的遗憾率，直到乘法因素，这些因素根据贝叶斯先验而变得很大，并在武器数量上成倍规模扩展。采样每只手臂的一个更基本的问题一旦遇到了类似的因素。我们专注于激励措施的价格：出于激励兼容的目的，绩效的损失，广泛解释为。我们证明，如果用足够多的数据点初始化，则标准的匪徒汤普森采样是激励兼容的。因此，当收集这些数据点时，由于激励措施的绩效损失仅限于初始回合。这个问题主要降低到样本复杂性的问题：需要多少个回合？我们解决了这个问题，提供了匹配的上限和下限，并在各种推论中实例化。通常，最佳样品复杂性在“信念强度”中的武器数量和指数中是多项式。

translated by 谷歌翻译