智能论文笔记

Online Influence Maximization with Node-level Feedback Using Standard Offline Oracles

Zhijie Zhang , Wei Chen , Xiaoming Sun , Jialin Zhang

分类：机器学习

2021-09-13

我们研究了社交网络中的在线影响最大化（OIM）问题，其中在多个回合中，学习者反复选择种子节点以产生级联，观察级联反馈，并逐渐学习产生最大级联的最佳种子。我们专注于本文的两个主要挑战。首先，我们使用节点级反馈而不是边缘级反馈。边缘级别反馈显示通过级联中通过信息的所有边，其中节点级反馈仅显示使用时间戳的激活节点。节点级反馈可以说是更逼真的，因为在实践中，观察到谁受到影响，而且很难观察来自哪个关系（边缘）的影响。其次，我们使用标准离线Oracle而不是脱机对 - Oracle。为了计算下一轮的良好种子集，离线对 - Oracle同时找到最佳种子集和置信区内的最佳参数，并且由于OIM问题的组合核心，这种Oracle难以计算。因此，我们专注于如何使用标准离线影响最大化Oracle，它找到了将边缘参数作为输入的最佳种子集。在本文中，我们解决了这两个最受欢迎的扩散模型，独立级联（IC）和线性阈值（LT）模型的这些挑战。对于IC模型，过去的研究只实现了边缘级反馈，而我们介绍了第一个$ \ widetilde {o}（\ sqrt {t}）$ - 遗憾的节点级反馈算法。此外，算法仅调用标准离线oracles。对于LT模型，最近的一项研究仅提供了一个符合第一个挑战的OIM解决方案，但仍需要一对甲骨文。在本文中，我们应用类似于IC模型的类似技术，以用标准的Oracle替换一对Oracle，同时维持$ \ widetilde {o}（\ sqrt {t}）$ - 后悔。

translated by 谷歌翻译

Combinatorial Causal Bandits

Shi Feng , Wei Chen

分类：机器学习 | (统计)机器学习

2022-06-04

在组合因果土匪（CCB）中，学习代理在每轮中最多选择$ k $变量进行干预，从观察到的变量中收集反馈，目的是最大程度地减少对目标变量$ y $的预期遗憾。与所有有关因果匪徒的研究不同，CCB需要处理指数较大的动作空间。我们在因果模型的简洁参数表示的二元广义线性模型（BGLM）的背景下进行研究。我们根据最大似然估计方法提出了Markovian BGLMS（即没有隐藏变量）的算法BGLM-OFU，并证明它可以实现$ O（\ sqrt {t} \ log t）$遗憾，其中$ t $是$ t $时间范围。对于具有隐藏变量的线性模型的特殊情况，我们应用因果推理技术，例如DO-Calculus将原始模型转换为马尔可夫模型，然后证明我们的BGLM OFFU U算法和另一种基于线性回归的算法都用隐藏变量求解此类线性模型。我们的新颖性包括（a）考虑组合干预行动空间，（b）考虑一般因果模型，包括具有隐藏变量的因果模型，（c）整合和适应来自多种研究的技术，例如广义线性匪徒和在线影响最大化，以及（d）不依赖不现实的假设，例如在某些先前研究中使用的所有干预措施中了解父母的共同分配。

translated by 谷歌翻译

Provably Efficient Reinforcement Learning for Online Adaptive Influence Maximization

Kaixuan Huang , Yu Wu , Xuezhou Zhang , Shenyinying Tu , Qingyun Wu , Mengdi Wang , Huazheng Wang

分类：机器学习 | (统计)机器学习

2022-06-29

在线影响最大化旨在通过选择一些种子节点，最大程度地利用未知网络模型的社交网络中内容的影响。最近的研究遵循非自适应设置，在扩散过程开始之前选择种子节点，并且在扩散停止时更新网络参数。我们考虑了与内容相关的在线影响最大化问题的自适应版本，其中种子节点是根据实时反馈依次激活的。在本文中，我们将问题提出为无限马在线性扩散过程中的折扣MDP，并提出了基于模型的增强学习解决方案。我们的算法维护网络模型估算，并适应种子用户，探索社交网络，同时乐观地改善最佳策略。我们建立了$ \ widetilde o（\ sqrt {t}）$遗憾的算法。合成网络的经验评估证明了我们的算法效率。

translated by 谷歌翻译

The Hardness Analysis of Thompson Sampling for Combinatorial Semi-bandits with Greedy Oracle

Fang Kong , Yueran Yang , Wei Chen , Shuai Li

分类：机器学习 | (统计)机器学习

2021-11-08

汤普森抽样（TS）吸引了对强盗区域的兴趣。它在20世纪30年代介绍，但近年来尚未经过理论上证明。其在组合多武装强盗（CMAB）设置中的所有分析都需要精确的Oracle来提供任何输入的最佳解决方案。然而，这种Oracle通常是不可行的，因为许多组合优化问题是NP - 硬，并且只有近似oracles可用。一个例子（王和陈，2018）已经表明TS的失败来学习近似Oracle。但是，此Oracle罕见，仅用于特定问题实例。它仍然是一个开放的问题，无论TS的收敛分析是否可以扩展到CMAB中的精确oracle。在本文中，我们在贪婪的Oracle下研究了这个问题，这是一个常见的（近似）Oracle，具有理论上的保证来解决许多（离线）组合优化问题。我们提供了一个问题依赖性遗憾的遗憾下限为$ \ omega（\ log t / delta ^ 2）$，以量化Ts的硬度来解决贪婪的甲骨文的CMAB问题，其中$ T $是时间范围和$ Delta $是一些奖励差距。我们还提供几乎匹配的遗憾上限。这些是TS解决CMAB与常见近似甲骨文的第一个理论结果，并打破TS无法使用近似神谕的误解。

translated by 谷歌翻译

Almost Optimal Batch-Regret Tradeoff for Batch Linear Contextual Bandits

Zihan Zhang , Xiangyang Ji , Yuan Zhou

分类：机器学习

2021-10-15

我们研究了批量线性上下文匪徒的最佳批量遗憾权衡。对于任何批次数$ M $，操作次数$ k $，时间范围$ t $和维度$ d $，我们提供了一种算法，并证明了其遗憾的保证，这是由于技术原因，具有两阶段表达作为时间的时间$ t $ grose。我们还证明了一个令人奇迹的定理，令人惊讶地显示了在问题参数的“问题参数”中的两相遗憾（最高〜对数因子）的最优性，因此建立了确切的批量后悔权衡。与最近的工作\ citep {ruan2020linear}相比，这表明$ m = o（\ log \ log t）$批次实现无需批处理限制的渐近最佳遗憾的渐近最佳遗憾，我们的算法更简单，更易于实际实现。此外，我们的算法实现了所有$ t \ geq d $的最佳遗憾，而\ citep {ruan2020linear}要求$ t $大于$ d $的不切实际的大多项式。沿着我们的分析，我们还证明了一种新的矩阵集中不平等，依赖于他们的动态上限，这是我们的知识，这是其文学中的第一个和独立兴趣。

translated by 谷歌翻译

Batch-Size Independent Regret Bounds for Combinatorial Semi-Bandits with Probabilistically Triggered Arms or Independent Arms

Xutong Liu , Jinhang Zuo , Siwei Wang , Carlee Joe-Wong , John C. S. Lui , Wei Chen

分类：机器学习 | 人工智能 | (统计)机器学习

2022-08-31

在本文中，我们研究了组合半伴侣（CMAB），并专注于减少遗憾的批量$ k $的依赖性，其中$ k $是可以拉动或触发的武器总数每个回合。首先，对于用概率触发的臂（CMAB-T）设置CMAB，我们发现了一个新颖的（定向）触发概率和方差调制（TPVM）条件，可以替代各种应用程序的先前使用的平滑度条件，例如级联bandsistits bandits bandits。，在线网络探索和在线影响最大化。在这种新条件下，我们提出了一种具有方差感知置信区间的BCUCB-T算法，并进行遗憾分析，将$ O（k）$ actival降低到$ o（\ log k）$或$ o（\ log^2 k））$在遗憾中，大大改善了上述申请的后悔界限。其次，为了设置具有独立武器的非触发CMAB，我们提出了一种SESCB算法，该算法利用TPVM条件的非触发版本，并完全消除了对$ k $的依赖，以备受遗憾。作为有价值的副产品，本文使用的遗憾分析可以将几个现有结果提高到$ O（\ log K）$的一倍。最后，实验评估表明，与不同应用中的基准算法相比，我们的表现出色。

translated by 谷歌翻译

HTML版本

Thompson Sampling for Combinatorial Semi-Bandits

Siwei Wang , Wei Chen

分类：机器学习

2018-03-13

在本文中，我们研究了汤普森采样（TS）方法的应用到随机组合多臂匪徒（CMAB）框架中。当所有基本臂的结果分布都是独立的，并获得$ o（m \ log k _ {\ max} \ log t / \ delta_时，我们首先分析一般CMAB模型的标准TS算法。 {\ min}）$，其中$ m $是基本武器的数量，$ k _ {\ max} $是最大的超级臂的大小，$ t $是时间范围，而$ \ delta _ {\ min} $是最佳解决方案的预期奖励与任何非最佳解决方案之间的最小差距。这种遗憾的上限比$ o（m（\ log k _ {\ max}）^2 \ log t / \ delta _ {\ min}）$更好。此外，我们的新颖分析技术可以帮助收紧其他基于UCB的政策（例如ESC）的遗憾界限，因为我们改善了计算累积遗憾的方法。然后，我们考虑Matroid Bandit设置（CMAB模型的特殊类别），在这里我们可以删除跨武器的独立性假设，并实现与下限匹配的遗憾上限。除了遗憾的上限外，我们还指出，一个人不能直接替换确切的离线甲骨文（将离线问题实例的参数作为输入，并在此实例下输出确切的最佳操作），用TS算法中的近似oracle替换了ts算法的近似值。甚至经典的mAb问题。最后，我们使用一些实验来显示TS遗憾与其他现有算法之间的比较，实验结果表明TS优于现有基准。

translated by 谷歌翻译

Targeted Advertising on Social Networks Using Online Variational Tensor Regression

Tsuyoshi Idé , Keerthiram Murugesan , Djallel Bouneffouf , Naoki Abe

分类：机器学习

2022-08-22

本文与社交网络上的在线有针对性广告有关。我们解决的主要技术任务是估计用户对的激活概率，这可以量化一个用户对购买决策的影响的影响。这是一项具有挑战性的任务，因为一个营销事件通常涉及多种产品的多种营销活动/策略。在本文中，我们提出了我们认为是第一个基于张量的在线广告上的基于张量的上下文强盗框架。该拟议的框架旨在以多模式张量的形式适应任何数量的特征向量，从而使以统一的方式捕获与用户偏好，产品和广告系列策略可能存在的异质性。为了处理张量模式的相互依赖性，我们引入了具有平均场近似值的在线变分算法。我们从经验上确认，提出的Tensorucb算法在影响基准比基准的影响最大化任务方面取得了重大改进，这归因于其捕获用户产品异质性的能力。

translated by 谷歌翻译

Thompson Sampling for Contextual Bandits with Linear Payoffs

Shipra Agrawal , Navin Goyal

分类：

2012-09-15

Thompson Sampling is one of the oldest heuristics for multi-armed bandit problems. It is a randomized algorithm based on Bayesian ideas, and has recently generated significant interest after several studies demonstrated it to have better empirical performance compared to the stateof-the-art methods. However, many questions regarding its theoretical performance remained open. In this paper, we design and analyze a generalization of Thompson Sampling algorithm for the stochastic contextual multi-armed bandit problem with linear payoff functions, when the contexts are provided by an adaptive adversary. This is among the most important and widely studied version of the contextual bandits problem. We provide the first theoretical guarantees for the contextual version of Thompson Sampling. We prove a high probability regret bound of Õ(d 3/2 √ T ) (or Õ(d T log(N ))), which is the best regret bound achieved by any computationally efficient algorithm for this problem, and is within a factor of √ d (or log(N )) of the information-theoretic lower bound for this problem.

translated by 谷歌翻译

Online Learning via Offline Greedy Algorithms: Applications in Market Design and Optimization

Rad Niazadeh , Negin Golrezaei , Joshua Wang , Fransisca Susan , Ashwinkumar Badanidiyuru

分类：机器学习 | (统计)机器学习

2021-02-18

在随着时间变化的组合环境中的在线决策激励，我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题，我们提供了一个通用框架，该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明，在完整信息设置下，由此产生的在线算法具有$ O（\ sqrt {t}）$（近似）遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展，我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪（t^{2/3}）$（近似）$（近似）的遗憾。展示了我们框架的灵活性，我们将脱机之间的转换应用于收入管理，市场设计和在线优化的几个问题，包括在线平台中的产品排名优化，拍卖中的储备价格优化以及supperular tossodular最大化。。我们还将还原扩展到连续优化的类似贪婪的一阶方法，例如用于最大化连续强的DR单调下调功能，这些功能受到凸约束的约束。我们表明，当应用于这些应用程序时，我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究，在这两种应用中，我们都观察到，转换的数值性能在实际情况下优于理论保证。

translated by 谷歌翻译

An Efficient Algorithm for Fair Multi-Agent Multi-Armed Bandit with Low Regret

Matthew Jones , Huy Lê Nguyen , Thy Nguyen

分类：机器学习

2022-09-23

最近，提出了经典多军强盗的多代理变体来解决在线学习中的公平问题。受社会选择和经济学方面的长期工作的启发，目标是优化NASH的社会福利，而不是全面的效用。不幸的是，就回合$ t $的数量而言，以前的算法要么不是有效的，要么实现次级遗憾。我们提出了一种新的有效算法，其遗憾也比以前效率低下的算法要低。对于$ n $ agents，$ k $ ands和$ t $ rounds，我们的方法遗憾的是$ \ tilde {o}（\ sqrt {nkt} + nk）$。这是对先前方法的改进，后者对$ \ tilde {o}（\ min（nk，\ sqrt {n} k^{3/2}）\ sqrt {t}）$的遗憾。我们还使用$ \ tilde {o}（\ sqrt {kt} + n^2k）$遗憾的方法来补充有效算法。实验发现证实了与先前方法相比，我们有效算法的有效性。

translated by 谷歌翻译

Online Learning and Bandits with Queried Hints

Aditya Bhaskara , Sreenivas Gollapudi , Sungjin Im , Kostas Kollias , Kamesh Munagala

分类：机器学习

2022-11-04

We consider the classic online learning and stochastic multi-armed bandit (MAB) problems, when at each step, the online policy can probe and find out which of a small number ($k$) of choices has better reward (or loss) before making its choice. In this model, we derive algorithms whose regret bounds have exponentially better dependence on the time horizon compared to the classic regret bounds. In particular, we show that probing with $k=2$ suffices to achieve time-independent regret bounds for online linear and convex optimization. The same number of probes improve the regret bound of stochastic MAB with independent arms from $O(\sqrt{nT})$ to $O(n^2 \log T)$, where $n$ is the number of arms and $T$ is the horizon length. For stochastic MAB, we also consider a stronger model where a probe reveals the reward values of the probed arms, and show that in this case, $k=3$ probes suffice to achieve parameter-independent constant regret, $O(n^2)$. Such regret bounds cannot be achieved even with full feedback after the play, showcasing the power of limited ``advice'' via probing before making the play. We also present extensions to the setting where the hints can be imperfect, and to the case of stochastic MAB where the rewards of the arms can be correlated.

translated by 谷歌翻译

Neural Thompson Sampling

Weitong Zhang , Dongruo Zhou , Lihong Li , Quanquan Gu

分类：机器学习 | (统计)机器学习

2020-10-02

汤普森采样（TS）是解决上下文多武装强盗问题最有效的算法之一。在本文中，我们提出了一种新的算法，称为神经汤普森采样，这适应了深度神经网络，用于勘探和剥削。在我们的算法的核心是一种新的奖励的后分布，其平均值是神经网络近似器，并且其方差建立在相应神经网络的神经切线特征上。我们证明，如果底层奖励函数是有界的，则可以保证所提出的算法来实现$ \ mathcal {o}（t ^ {1/2}）$的累积遗憾，它与其他上下文强盗算法的遗憾匹配总轮数量$ t $。各种数据集中其他基准强盗算法的实验比较证实了我们的理论。

translated by 谷歌翻译

Bandit Learning with Delayed Impact of Actions

Wei Tang , Chien-Ju Ho , Yang Liu

分类：机器学习 | (统计)机器学习

2020-02-24

我们考虑随机多武装强盗（MAB）问题，延迟影响了行动。在我们的环境中，过去采取的行动在随后的未来影响了ARM奖励。在现实世界中，行动的这种延迟影响是普遍的。例如，为某个社会群体中的人员偿还贷款的能力可能历史上历史上批准贷款申请的频率频率。如果银行将贷款申请拒绝拒绝弱势群体，则可以创建反馈循环，进一步损害该群体中获取贷款的机会。在本文中，我们制定了在多武装匪徒的背景下的行动延迟和长期影响。由于在学习期间，我们将强盗设置概括为对这种“偏置”的依赖性进行编码。目标是随着时间的推移最大化收集的公用事业，同时考虑到历史行动延迟影响所产生的动态。我们提出了一种算法，实现了$ \ tilde {\ mathcal {o}}的遗憾，并显示$ \ omega（kt ^ {2/3}）$的匹配遗憾下限，其中$ k $是武器数量，$ t $是学习地平线。我们的结果通过添加技术来补充强盗文献，以处理具有长期影响的行动，并对设计公平算法有影响。

translated by 谷歌翻译

Greedy Algorithm almost Dominates in Smoothed Contextual Bandits

Manish Raghavan , Aleksandrs Slivkins , Jennifer Wortman Vaughan , Zhiwei Steven Wu

分类：机器学习 | (统计)机器学习

2020-05-19

在线学习算法广泛用于网络上的搜索和内容优化，必须平衡探索和开发，可能牺牲当前用户的经验，以获得将来会导致未来更好决策的信息。虽然在最坏的情况下，与贪婪算法相比，显式探索具有许多缺点，其通过选择当前看起来最佳的动作始终“利用”。我们在数据中固有的多样性的情况下提出了明确的探索不必要。我们在最近的一系列工作中进行了线性上下围匪盗模型中贪婪算法的平滑分析。我们提高了先前的结果，表明，只要多样性条件保持，贪婪的方法几乎符合任何其他算法的最佳可能性贝叶斯遗憾率，并且这种遗憾是最多的$ \ tilde o（t ^ {1/ 3}）$。

translated by 谷歌翻译

Simultaneously Learning Stochastic and Adversarial Bandits with General Graph Feedback

Fang Kong , Yichi Zhou , Shuai Li

分类：机器学习

2022-06-16

通过图形反馈的在线学习问题已经在文献中进行了广泛的研究，因为它的一般性和对各种学习任务进行建模的潜力。现有作品主要研究对抗和随机反馈。如果对反馈机制的先验知识是不可用的或错误的，那么这种专门设计的算法可能会遭受巨大的损失。为了避免此问题，\ citet {ererez2021towards}尝试针对两个环境进行优化。但是，他们认为反馈图是无方向性的，每个顶点都有一个自循环，这会损害框架的通用性，并且在应用程序中可能无法满足。有了一般的反馈图，在拉动该手臂时可能无法观察到手臂，这使得探索更加昂贵，并且在两种环境中最佳性能的算法更具挑战性。在这项工作中，我们通过新的权衡机制克服了这一困难，并精心设计的探索和剥削比例。我们证明了所提出的算法同时实现$ \ mathrm {poly} \ log t $在随机设置中的遗憾，而在$ versarial设置中，$ \ tilde {o} $ \ tilde {o}的最小值遗憾t $是地平线，$ \ tilde {o} $隐藏参数独立于$ t $以及对数项。据我们所知，这是通用反馈图的第一个最佳世界结果。

translated by 谷歌翻译

Contextual Combinatorial Volatile Bandits with Satisfying via Gaussian Processes

Sepehr Elahi , Baran Atalar , Sevda Öğüt , Cem Tekin

分类：机器学习 | (统计)机器学习

2021-11-29

在许多真实世界应用程序的组合匪徒如内容缓存，必须在满足最小服务要求的同时最大化奖励。此外，基本ARM可用性随着时间的推移而变化，并且采取的行动需要适应奖励最大化的情况。我们提出了一个名为Contexal Combinatial Volatile Birtits的新的强盗模型，具有组阈值来解决这些挑战。我们的模型通过考虑超级臂作为基础臂组的子集来归档组合匪徒。我们寻求最大化超级手臂奖励，同时满足构成超级臂的所有基座组的阈值。为此，我们定义了一个新的遗憾遗嘱，使超级臂奖励最大化与团体奖励满意度合并。为了便于学习，我们假设基臂的平均结果是由上下文索引的高斯过程的样本，并且预期的奖励是Lipschitz在预期的基础臂结果中连续。我们提出了一种算法，称为阈值组合高斯工艺的上置信度界限（TCGP-UCB），最大化累积奖励和满足组奖励阈值之间的余额，并证明它会导致$ \ tilde {o}（k \ sqrt {t \ overline { \ gamma} _ {t}}）$后悔具有高概率，其中$ \ overline {\ gamma} _ {t} $是与第一个$ t $轮中出现的基本arm上下文相关联的最大信息增益$ k $是所有在所有轮匝上任何可行行动的超级臂基数。我们在实验中展示了我们的算法累积了与最先进的组合强盗算法相当的奖励，同时采摘群体满足其阈值的动作。

translated by 谷歌翻译

Regret Minimization with Performative Feedback

Meena Jagadeesan , Tijana Zrnic , Celestine Mendler-Dünner

分类：机器学习 | (统计)机器学习

2022-02-01

在表演性预测中，预测模型的部署触发了数据分布的变化。由于这些转变通常是未知的，因此学习者需要部署模型以获取有关其引起的分布的反馈。我们研究了在性能下发现近乎最佳模型的问题，同时保持低廉的遗憾。从表面上看，这个问题似乎等同于强盗问题。但是，它表现出一种从根本上说的反馈结构，我们将其称为表演反馈：在每次部署后，学习者都会从转移的分布中收到样本，而不仅仅是关于奖励的强盗反馈。我们的主要贡献是一种算法，该算法仅随着分配的复杂性而不是奖励功能的复杂性而实现后悔的界限。该算法仅依赖于移位的平滑度，并且不假定凸度。此外，它的最终迭代保证是近乎最佳的。关键算法的想法是对分布变化的仔细探索，该分布变化为新颖的置信范围构造了未开发模型的风险。从更广泛的角度来看，我们的工作为从土匪文献中利用工具的概念方法建立了一种概念性方法，目的是通过表演性反馈最小化后悔的目的。

translated by 谷歌翻译

Analysis of Thompson Sampling for the multi-armed bandit problem

Shipra Agrawal , Navin Goyal

分类：

2011-11-08

The multi-armed bandit problem is a popular model for studying exploration/exploitation trade-off in sequential decision problems. Many algorithms are now available for this well-studied problem. One of the earliest algorithms, given by W. R. Thompson, dates back to 1933. This algorithm, referred to as Thompson Sampling, is a natural Bayesian algorithm. The basic idea is to choose an arm to play according to its probability of being the best arm. Thompson Sampling algorithm has experimentally been shown to be close to optimal. In addition, it is efficient to implement and exhibits several desirable properties such as small regret for delayed feedback. However, theoretical understanding of this algorithm was quite limited. In this paper, for the first time, we show that Thompson Sampling algorithm achieves logarithmic expected regret for the stochastic multi-armed bandit problem. More precisely, for the stochastic two-armed bandit problem, the expected regret in time T is O( ln T ∆ + 1 ∆ 3 ). And, for the stochastic N -armed bandit problem, the expected regret in time) 2 ln T ). Our bounds are optimal but for the dependence on ∆i and the constant factors in big-Oh.

translated by 谷歌翻译

Double Doubly Robust Thompson Sampling for Generalized Linear Contextual Bandits

Wonyoung Kim , Kyungbok Lee , Myunghee Cho Paik

分类： (统计)机器学习 | 机器学习

2022-09-15

我们建议使用$ \ tilde {o}（\ sqrt {\ kappa^{ - 1} \ phi t} \ phi t}）$ hears $ t $ the $ \ phi $ phi $是$ \ phi $是最olutimut，$ \ phi $是$ \ phi $，我们提出了一种用于广义线性奖励的新颖的上下文强盗算法。上下文协方差和$ \ kappa $的特征值是奖励差异的下限。在几种实际情况下，$ \ phi = o（d）$，我们的结果是带有$ \ sqrt {d} $的广义线性模型（GLM）土匪的第一个遗憾，而无需依赖Auer [2002]的方法。我们使用一个称为双重运动估计器的新型估计器（Doubly-bobust（DR）估计器的子类，但误差较紧，我们就实现了这种结合。 Auer [2002]的方法通过丢弃观察到的奖励来实现独立性，而我们的算法则在使用我们的DDR估计器的所有情况下实现了独立性。我们还提供了一个$ o（\ kappa^{ - 1} \ phi \ log（nt）\ log t）$遗憾在概率的边缘条件下以$ n $武器约束。 Bastani和Bayati [2020]和Bastani等人给出了遗憾的界限。 [2021]在环境中，所有臂都是共同的，但系数是特定的。当所有臂的上下文都不同，但系数很常见时，我们的第一个遗憾是在线性模型或GLM的边缘条件下绑定的。我们使用合成数据和真实示例进行实证研究，证明了我们的算法的有效性。

translated by 谷歌翻译