我们考虑了一个随机的多武器强盗问题,其中奖励会受到对抗性腐败的影响。我们提出了一种新颖的攻击策略,该策略可以操纵UCB原理,以拉动一些非最佳目标臂$ t -o(t)$ times,累积成本将其缩放为$ \ sqrt {\ log t} $,其中$ t $是回合的数量。我们还证明了累积攻击成本的第一个下限。我们的下限将我们的上限匹配到$ \ log \ log t $因子,这表明我们的攻击非常最佳。
translated by 谷歌翻译
在这项工作中,我研究了在多军强盗(MAB)设置中,对抗性扰动的问题。具体而言,我专注于对应用于随机mAB的UCB类型最佳武器标识策略的对抗性攻击。[1]中提出的UCB攻击导致经常拉动目标臂K。我使用[1]的攻击模型来得出选择目标臂K作为最佳臂所需的样品复杂性。我已经证明,[2]中给出的基于UCB的最佳臂识别算法的停止条件可以通过目标臂K在T回合中实现$ \ sigma^2- $ sup-gaussian武器随机奖励。
translated by 谷歌翻译
我们研究对线性随机匪徒的对抗攻击:通过操纵奖励,对手旨在控制匪徒的行为。也许令人惊讶的是,我们首先表明某些攻击目标永远无法实现。这与无上下文的随机匪徒形成了鲜明的对比,并且本质上是由于线性随机陆上的臂之间的相关性。在这一发现的激励下,本文研究了$ k $武装的线性匪徒环境的攻击性。我们首先根据武器上下文向量的几何形状提供了攻击性的完全必要性和充分性表征。然后,我们提出了针对Linucb和鲁棒相消除的两阶段攻击方法。该方法首先断言给定环境是否可攻击;而且,如果是的话,它会付出巨大的奖励,以强迫算法仅使用sublinear成本来拉动目标臂线性时间。数值实验进一步验证了拟议攻击方法的有效性和成本效益。
translated by 谷歌翻译
上下文强盗算法在各种情况下有许多申请人。为了开发值得信赖的情境强盗系统,了解各种对抗性攻击对上下文强盗算法的影响至关重要。在本文中,我们提出了一类新的攻击:动作中毒攻击,其中一个对手可以改变代理选择的动作信号。我们在白盒和黑匣子设置中设计了针对线性上下文强盗算法的动作中毒攻击方案。我们进一步分析了拟议的攻击策略的成本,非常流行和广泛使用的强盗算法:Linucb。我们展示,在白盒和黑匣子设置中,所提出的攻击方案可以强制Linucb代理通过仅度过对数成本而频繁地提取目标手臂。
translated by 谷歌翻译
We study Pareto optimality in multi-objective multi-armed bandit by providing a formulation of adversarial multi-objective multi-armed bandit and properly defining its Pareto regrets that can be generalized to stochastic settings as well. The regrets do not rely on any scalarization functions and reflect Pareto optimality compared to scalarized regrets. We also present new algorithms assuming both with and without prior information of the multi-objective multi-armed bandit setting. The algorithms are shown optimal in adversarial settings and nearly optimal in stochastic settings simultaneously by our established upper bounds and lower bounds on Pareto regrets. Moreover, the lower bound analyses show that the new regrets are consistent with the existing Pareto regret for stochastic settings and extend an adversarial attack mechanism from bandit to the multi-objective one.
translated by 谷歌翻译
广泛观察到,在实际推荐系统中,诸如“点击框架”等“点击框架”的战略行为。通过这种行为的激励,我们在奖励的战略操纵下研究组合多武装匪徒(CMAB)的问题,其中每个臂可以为自己的兴趣修改发出的奖励信号。这种对抗性行为的表征是对先前研究的环境放松,例如对抗性攻击和对抗性腐败。我们提出了一种战略变体的组合UCB算法,其遗憾是最多的$ O(m \ log t + m b_ {max})$的战略操作,其中$ t $是时间范围,$ m $武器数量和$ b_ {max} $是手臂的最大预算。我们为武器预算提供了下限,以引起强盗算法的某些遗憾。在线工人选择对众包系统的大量实验,在线影响合成和实际数据集的最大化和在线建议,以鲁棒性和遗憾的界限提供了我们的理论发现,在各种操纵预算制度中。
translated by 谷歌翻译
我们在存在对抗性腐败的情况下研究线性上下文的强盗问题,在场,每回合的奖励都被对手损坏,腐败级别(即,地平线上的腐败总数)为$ c \ geq 0 $。在这种情况下,最著名的算法受到限制,因为它们要么在计算效率低下,要么需要对腐败做出强烈的假设,或者他们的遗憾至少比没有腐败的遗憾差的$ C $倍。在本文中,为了克服这些局限性,我们提出了一种基于不确定性的乐观原则的新算法。我们算法的核心是加权山脊回归,每个选择动作的重量都取决于其置信度,直到一定的阈值。 We show that for both known $C$ and unknown $C$ cases, our algorithm with proper choice of hyperparameter achieves a regret that nearly matches the lower bounds.因此,我们的算法几乎是两种情况的对数因素的最佳选择。值得注意的是,我们的算法同时对腐败和未腐败的案件($ c = 0 $)实现了近乎最理想的遗憾。
translated by 谷歌翻译
通过图形反馈的在线学习问题已经在文献中进行了广泛的研究,因为它的一般性和对各种学习任务进行建模的潜力。现有作品主要研究对抗和随机反馈。如果对反馈机制的先验知识是不可用的或错误的,那么这种专门设计的算法可能会遭受巨大的损失。为了避免此问题,\ citet {ererez2021towards}尝试针对两个环境进行优化。但是,他们认为反馈图是无方向性的,每个顶点都有一个自循环,这会损害框架的通用性,并且在应用程序中可能无法满足。有了一般的反馈图,在拉动该手臂时可能无法观察到手臂,这使得探索更加昂贵,并且在两种环境中最佳性能的算法更具挑战性。在这项工作中,我们通过新的权衡机制克服了这一困难,并精心设计的探索和剥削比例。我们证明了所提出的算法同时实现$ \ mathrm {poly} \ log t $在随机设置中的遗憾,而在$ versarial设置中,$ \ tilde {o} $ \ tilde {o}的最小值遗憾t $是地平线,$ \ tilde {o} $隐藏参数独立于$ t $以及对数项。据我们所知,这是通用反馈图的第一个最佳世界结果。
translated by 谷歌翻译
本文调查$ \纺织品{污染} $随机多臂爆炸中最佳臂识别问题。在此设置中,从任何臂获得的奖励由来自概率$ \ varepsilon $的对抗性模型的样本所取代。考虑了固定的置信度(无限地平线)设置,其中学习者的目标是识别最大的平均值。由于奖励的对抗污染,每个ARM的平均值仅部分可识别。本文提出了两种算法,基于连续消除的基于间隙的算法和一个,以便在亚高斯匪徒中最佳臂识别。这些算法涉及平均估计,从渐近估计的估计值达到真实均值的偏差上实现最佳误差保证。此外,这些算法渐近地实现了最佳的样本复杂性。具体地,对于基于差距的算法,样本复杂性呈渐近最佳到恒定因子,而对于基于连续的基于算法,​​它是最佳的对数因子。最后,提供了数值实验以说明与现有基线相比的算法的增益。
translated by 谷歌翻译
We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $\Omega(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.
translated by 谷歌翻译
我们考虑了一种有可能无限的武器的随机强盗问题。我们为最佳武器和$ \ delta $的比例写入$ p ^ * $,以获得最佳和次优臂之间的最小含义 - 均值差距。我们在累积遗憾设置中表征了最佳学习率,以及在问题参数$ t $(预算),$ p ^ * $和$ \ delta $的最佳臂识别环境中。为了最大限度地减少累积遗憾,我们提供了订单$ \ OMEGA(\ log(t)/(p ^ * \ delta))$的下限和UCB样式算法,其匹配上限为一个因子$ \ log(1 / \ delta)$。我们的算法需要$ p ^ * $来校准其参数,我们证明了这种知识是必要的,因为在这个设置中调整到$ p ^ * $以来,因此是不可能的。为了获得最佳武器识别,我们还提供了订单$ \ Omega(\ exp(-ct \ delta ^ 2 p ^))的较低限制,以上输出次优臂的概率,其中$ c> 0 $是一个绝对常数。我们还提供了一个消除算法,其上限匹配下限到指数中的订单$ \ log(t)$倍数,并且不需要$ p ^ * $或$ \ delta $ as参数。我们的结果直接适用于竞争$ j $ -th最佳手臂的三个相关问题,识别$ \ epsilon $良好的手臂,并找到一个平均值大于已知订单的大分的手臂。
translated by 谷歌翻译
我们为线性上下文匪徒提出了一种新颖的算法(\ sqrt {dt \ log t})$遗憾,其中$ d $是上下文的尺寸,$ t $是时间范围。我们提出的算法配备了一种新型估计量,其中探索通过显式随机化嵌入。根据随机化的不同,我们提出的估计器从所有武器的上下文或选定的上下文中都取得了贡献。我们为我们的估计器建立了一个自称的绑定,这使累积遗憾的新颖分解为依赖添加剂的术语而不是乘法术语。在我们的问题设置下,我们还证明了$ \ omega(\ sqrt {dt})$的新颖下限。因此,我们提出的算法的遗憾与对数因素的下限相匹配。数值实验支持理论保证,并表明我们所提出的方法的表现优于现有的线性匪徒算法。
translated by 谷歌翻译
我们研究了一个顺序决策问题,其中学习者面临$ k $武装的随机匪徒任务的顺序。对手可能会设计任务,但是对手受到限制,以在$ m $ and的较小(但未知)子集中选择每个任务的最佳组。任务边界可能是已知的(强盗元学习设置)或未知(非平稳的强盗设置)。我们设计了一种基于Burnit subsodular最大化的减少的算法,并表明,在大量任务和少数最佳武器的制度中,它在两种情况下的遗憾都比$ \ tilde {o}的简单基线要小。 \ sqrt {knt})$可以通过使用为非平稳匪徒问题设计的标准算法获得。对于固定任务长度$ \ tau $的强盗元学习问题,我们证明该算法的遗憾被限制为$ \ tilde {o}(nm \ sqrt {m \ tau}+n^{2/3} m \ tau)$。在每个任务中最佳武器的可识别性的其他假设下,我们显示了一个带有改进的$ \ tilde {o}(n \ sqrt {m \ tau}+n^{1/2} {1/2} \ sqrt的强盗元学习算法{m k \ tau})$遗憾。
translated by 谷歌翻译
富达匪徒问题是$ k $的武器问题的变体,其中每个臂的奖励通过提供额外收益的富达奖励来增强,这取决于播放器如何对该臂进行“忠诚”在过去。我们提出了两种忠诚的模型。在忠诚点模型中,额外奖励的数量取决于手臂之前播放的次数。在订阅模型中,额外的奖励取决于手臂的连续绘制的当前数量。我们考虑随机和对抗问题。由于单臂策略在随机问题中并不总是最佳,因此对抗性环境中遗憾的概念需要仔细调整。我们介绍了三个可能的遗憾和调查,这可以是偏执的偏执。我们详细介绍了增加,减少和优惠券的特殊情况(玩家在手臂的每辆M $播放后获得额外的奖励)保真奖励。对于不一定享受载体遗憾的模型,我们提供了最糟糕的下限。对于那些展示Sublinear遗憾的模型,我们提供算法并绑定他们的遗憾。
translated by 谷歌翻译
合作匪徒问题越来越多地成为其在大规模决策中的应用。然而,对此问题的大多数研究专注于具有完美通信的环境,而在大多数现实世界分布式设置中,通信通常是随机网络,具有任意损坏和延迟。在本文中,我们在三个典型的真实沟通场景下研究了合作匪徒学习,即(a)通过随机时变网络的消息传递,(b)通过随机延迟的网络瞬时奖励共享(c )通过对冲损坏的奖励来传递消息,包括拜占庭式沟通。对于每个环境中的每一个,我们提出了实现竞争性能的分散算法,以及在发生的群体后悔的近乎最佳保证。此外,在具有完美通信的环境中,我们提出了一种改进的延迟更新算法,其优于各种网络拓扑的现有最先进的算法。最后,我们在集团后悔呈现紧密的网络依赖性最低限度。我们所提出的算法很简单,以实现和获得竞争性的经验性能。
translated by 谷歌翻译
我们考虑由一组一维系列指数分布指定的多武装强盗问题,其具有单向结构的一组一维系列分布。我们介绍了IMED-UB,通过适应本田和Takemura引入的索引最小经验分解(IMED)算法来实现IMED-UB,这是一种最佳地利用单峰结构的算法[2015]。由于我们的证明技术,我们能够提供对IMED-UB算法的简洁有限时间分析。数值实验表明,IMED-UB与最先进的算法竞争。
translated by 谷歌翻译
在线学习算法广泛用于网络上的搜索和内容优化,必须平衡探索和开发,可能牺牲当前用户的经验,以获得将来会导致未来更好决策的信息。虽然在最坏的情况下,与贪婪算法相比,显式探索具有许多缺点,其通过选择当前看起来最佳的动作始终“利用”。我们在数据中固有的多样性的情况下提出了明确的探索不必要。我们在最近的一系列工作中进行了线性上下围匪盗模型中贪婪算法的平滑分析。我们提高了先前的结果,表明,只要多样性条件保持,贪婪的方法几乎符合任何其他算法的最佳可能性贝叶斯遗憾率,并且这种遗憾是最多的$ \ tilde o(t ^ {1/ 3})$。
translated by 谷歌翻译
我们考虑腐烂奖励的无限多臂匪徒问题,其中手臂的平均奖励是根据任意趋势在每次拉动的手臂上减小的,最大腐烂速率$ \ varrho = o(1)$。我们表明,这个学习问题具有$ \ omega(\ max \ {\ varrho^{1/3} t,\ sqrt {t} \})$ worst-case遗憾的遗憾下降下降,其中$ t $是$ t $。我们表明,匹配的上限$ \ tilde {o}(\ max \ {\ varrho^{1/3} t,\ sqrt {t} \})$,最多可以通过多元素来实现当算法知道最大腐烂速率$ \ varrho $时,一种使用UCB索引的算法,该算法使用UCB索引和一个阈值来决定是否继续拉动手臂或从进一步考虑中移除手臂。我们还表明,$ \ tilde {o}(\ max \ {\ varrho^{1/3} t,t^{3/4} \})$遗憾的上限可以通过不知道的算法来实现$ \ varrho $的值通过使用自适应UCB索引以及自适应阈值值。
translated by 谷歌翻译
In this paper, we address the stochastic contextual linear bandit problem, where a decision maker is provided a context (a random set of actions drawn from a distribution). The expected reward of each action is specified by the inner product of the action and an unknown parameter. The goal is to design an algorithm that learns to play as close as possible to the unknown optimal policy after a number of action plays. This problem is considered more challenging than the linear bandit problem, which can be viewed as a contextual bandit problem with a \emph{fixed} context. Surprisingly, in this paper, we show that the stochastic contextual problem can be solved as if it is a linear bandit problem. In particular, we establish a novel reduction framework that converts every stochastic contextual linear bandit instance to a linear bandit instance, when the context distribution is known. When the context distribution is unknown, we establish an algorithm that reduces the stochastic contextual instance to a sequence of linear bandit instances with small misspecifications and achieves nearly the same worst-case regret bound as the algorithm that solves the misspecified linear bandit instances. As a consequence, our results imply a $O(d\sqrt{T\log T})$ high-probability regret bound for contextual linear bandits, making progress in resolving an open problem in (Li et al., 2019), (Li et al., 2021). Our reduction framework opens up a new way to approach stochastic contextual linear bandit problems, and enables improved regret bounds in a number of instances including the batch setting, contextual bandits with misspecifications, contextual bandits with sparse unknown parameters, and contextual bandits with adversarial corruption.
translated by 谷歌翻译
本文介绍了信息性多臂强盗(IMAB)模型,在每个回合中,玩家选择手臂,观察符号,并以符号的自我信息形式获得未观察到的奖励。因此,手臂的预期奖励是产生其符号的源质量函数的香农熵。玩家的目标是最大程度地提高与武器的熵值相关的预期奖励。在假设字母大小是已知的假设下,为IMAB模型提出了两种基于UCB的算法,该算法考虑了插件熵估计器的偏差。第一种算法在熵估计中乐观地纠正了偏置项。第二算法依赖于数据依赖性置信区间,该置信区间适应具有较小熵值的源。性能保证是通过上限为每种算法的预期遗憾提供的。此外,在Bernoulli案例中,将这些算法的渐近行为与伪遗憾的Lai-Robbins的下限进行了比较。此外,在假设\ textit {cract}字母大小的假设下是未知的,而播放器仅知道其上方的宽度上限,提出了一种基于UCB的算法,在其中,玩家的目的是减少由该算法造成的遗憾。未知的字母尺寸在有限的时间方面。数字结果说明了论文中介绍的算法的预期遗憾。
translated by 谷歌翻译