我们研究固定预算设置中线性匪徒中最佳手臂识别的问题。通过利用G-Optimal设计的属性并将其纳入ARM分配规则,我们设计了一种无参数算法,基于最佳设计的基于设计的线性最佳臂识别(OD-Linbai)。我们提供了OD-Linbai的失败概率的理论分析。 OD-Linbai的性能并非所有最优差距,而是取决于顶部$ d $臂的差距,其中$ d $是线性匪徒实例的有效维度。补充,我们为此问题提供了一个Minimax下限。上限和下限表明,OD-Linbai是最佳的最佳选择,直到指数中的恒定乘法因素,这是对现有方法的显着改进(例如,贝耶斯加普,和平,线性化和GSE),并解决了确定确定该问题的问题。在固定预算设置中学习最好的手臂的困难。最后,数值实验表明,对各种真实和合成数据集的现有算法进行了相当大的经验改进。
translated by 谷歌翻译
我们在随机多臂匪徒问题中使用固定预算和上下文(协变)信息研究最佳武器识别。在观察上下文信息之后,在每一轮中,我们使用过去的观察和当前上下文选择一个治疗臂。我们的目标是确定最好的治疗组,这是一个在上下文分布中被边缘化的最大预期奖励的治疗组,而错误识别的可能性最小。首先,我们为此问题得出半参数的下限,在这里我们将最佳和次优的治疗臂的预期奖励之间的差距视为感兴趣的参数,以及所有其他参数,例如在上下文中的预期奖励,作为滋扰参数。然后,我们开发“上下文RS-AIPW策略”,该策略由随机采样(RS)规则组成,跟踪目标分配比和使用增强反向概率加权(AIPW)估算器的建议规则。我们提出的上下文RS-AIPW策略是最佳的,因为错误识别概率的上限与预算到Infinity时的半参数下限相匹配,并且差距趋于零。
translated by 谷歌翻译
积极的学习方法在减少学习所需的样本数量方面表现出了巨大的希望。随着自动化学习系统被采用到实时的现实世界决策管道中,越来越重要的是,这种算法的设计考虑到了安全性。在这项工作中,我们研究了在互动环境中学习最佳安全决定的复杂性。我们将这个问题减少到约束的线性匪徒问题,我们的目标是找到满足某些(未知)安全限制的最佳手臂。我们提出了一种基于自适应的实验性设计算法,在显示ARM的难度与次优的难度之间,我们表现出了有效的交易。据我们所知,我们的结果是具有安全限制的线性匪徒最佳武器识别。实际上,我们证明了这种方法在合成和现实世界数据集上的表现很好。
translated by 谷歌翻译
在本文中,我们制定了在内核强盗问题(COPE-KB)中的协作纯探索,它为在有限的通信和一般奖励函数下提供了一种用于多智能组件多任务决策的新型模型,并且适用于许多在线学习任务,例如,推荐系统和网络调度。我们考虑两个COPE-KB,即固定信道(FC)和固定预算(FB)的设置,以及设计两个最佳算法COOPKERNECC(FC)和Coopkerhelfb(FB)。我们的算法配备了创新和高效的核化估计,同时实现了计算和通信效率。建立统计和通信度量标准下的上限和下限以证明我们算法的最优性。理论界限成功地量化了任务相似性对学习加速度的影响,并且只取决于内核特征空间的有效维度。我们的分析技术,包括数据尺寸分解,线性结构化实例转换和(通信)圆形加速感应,是新颖的,适用于其他强盗问题。提供了实证评估以验证我们的理论结果,并展示我们算法的性能优势。
translated by 谷歌翻译
在本文中,我们研究了汤普森采样(TS)方法的应用到随机组合多臂匪徒(CMAB)框架中。当所有基本臂的结果分布都是独立的,并获得$ o(m \ log k _ {\ max} \ log t / \ delta_时,我们首先分析一般CMAB模型的标准TS算法。 {\ min})$,其中$ m $是基本武器的数量,$ k _ {\ max} $是最大的超级臂的大小,$ t $是时间范围,而$ \ delta _ {\ min} $是最佳解决方案的预期奖励与任何非最佳解决方案之间的最小差距。这种遗憾的上限比$ o(m(\ log k _ {\ max})^2 \ log t / \ delta _ {\ min})$更好。此外,我们的新颖分析技术可以帮助收紧其他基于UCB的政策(例如ESC)的遗憾界限,因为我们改善了计算累积遗憾的方法。然后,我们考虑Matroid Bandit设置(CMAB模型的特殊类别),在这里我们可以删除跨武器的独立性假设,并实现与下限匹配的遗憾上限。除了遗憾的上限外,我们还指出,一个人不能直接替换确切的离线甲骨文(将离线问题实例的参数作为输入,并在此实例下输出确切的最佳操作),用TS算法中的近似oracle替换了ts算法的近似值。甚至经典的mAb问题。最后,我们使用一些实验来显示TS遗憾与其他现有算法之间的比较,实验结果表明TS优于现有基准。
translated by 谷歌翻译
我们研究了批量线性上下文匪徒的最佳批量遗憾权衡。对于任何批次数$ M $,操作次数$ k $,时间范围$ t $和维度$ d $,我们提供了一种算法,并证明了其遗憾的保证,这是由于技术原因,具有两阶段表达作为时间的时间$ t $ grose。我们还证明了一个令人奇迹的定理,令人惊讶地显示了在问题参数的“问题参数”中的两相遗憾(最高〜对数因子)的最优性,因此建立了确切的批量后悔权衡。与最近的工作\ citep {ruan2020linear}相比,这表明$ m = o(\ log \ log t)$批次实现无需批处理限制的渐近最佳遗憾的渐近最佳遗憾,我们的算法更简单,更易于实际实现。此外,我们的算法实现了所有$ t \ geq d $的最佳遗憾,而\ citep {ruan2020linear}要求$ t $大于$ d $的不切实际的大多项式。沿着我们的分析,我们还证明了一种新的矩阵集中不平等,依赖于他们的动态上限,这是我们的知识,这是其文学中的第一个和独立兴趣。
translated by 谷歌翻译
在本文中,我们在稀疏的随机上下文线性土匪中重新审视了遗憾的最小化问题,其中特征向量可能具有很大的尺寸$ d $,但是奖励功能取决于一些,例如$ s_0 \ ll d $,其中这些功能的这些功能只要。我们提出了阈值拉索匪徒,该算法(i)估算了定义奖励功能及其稀疏支持的向量,即显着特征元素,使用带有阈值的Lasso框架,以及(ii)根据此处选择手臂估计预测其支持。该算法不需要对稀疏索引$ s_0 $的先验知识,并且可以在某些对称假设下不含参数。对于这种简单的算法,我们将非偶然的遗憾上限建立为$ \ mathcal {o}(\ log d + d + \ sqrt {t})$一般,为$ \ mathcal {o} log t)$在所谓的边缘条件下(手臂奖励分离的概率条件)。以前的算法的遗憾将其缩放为$ \ Mathcal {o}(\ log D + \ \ sqrt {t \ log(d t)})$和$ \ mathcal {o}(\ log log t \ log t \ log t \ log t \ log d)$设置分别。通过数值实验,我们确认我们的算法优于现有方法。
translated by 谷歌翻译
我们考虑使用未知差异的双臂高斯匪徒的固定预算最佳臂识别问题。当差异未知时,性能保证与下限的性能保证匹配的算法最紧密的下限和算法的算法很长。当算法不可知到ARM的最佳比例算法。在本文中,我们提出了一种策略,该策略包括在估计的ARM绘制的目标分配概率之后具有随机采样(RS)的采样规则,并且使用增强的反概率加权(AIPW)估计器通常用于因果推断文学。我们将我们的战略称为RS-AIPW战略。在理论分析中,我们首先推导出鞅的大偏差原理,当第二次孵化的均值时,可以使用,并将其应用于我们提出的策略。然后,我们表明,拟议的策略在错误识别的可能性达到了Kaufmann等人的意义上是渐近最佳的。 (2016)当样品尺寸无限大而双臂之间的间隙变为零。
translated by 谷歌翻译
在纯探索问题中,依次收集信息以回答关于随机环境的问题。虽然近年来对线性匪徒的最佳武器识别进行了广泛的研究,但很少有作品专门用于识别一只手臂,即$ \ varepsilon $ close close close to to to to to to n of the $ \ varepsilon $ close(也不是最好的一只)。在这个有几个正确答案的问题中,识别算法应重点放在这些答案之间的一个候选人上,并验证其正确。我们证明,以最高平均值选择答案不允许算法就预期的样本复杂性达到渐近最优性。相反,应识别\ textit {最远的答案}。使用该洞察力仔细选择候选人答案,我们开发了一个简单的过程,以适应最佳臂识别算法,以应对托管线性随机匪徒中的$ \ varepsilon $ best-best-andwer识别。最后,我们为此设置提出了一种渐近最佳算法,该算法证明可以针对现有的改良最佳臂识别算法实现竞争性的经验性能。
translated by 谷歌翻译
富达匪徒问题是$ k $的武器问题的变体,其中每个臂的奖励通过提供额外收益的富达奖励来增强,这取决于播放器如何对该臂进行“忠诚”在过去。我们提出了两种忠诚的模型。在忠诚点模型中,额外奖励的数量取决于手臂之前播放的次数。在订阅模型中,额外的奖励取决于手臂的连续绘制的当前数量。我们考虑随机和对抗问题。由于单臂策略在随机问题中并不总是最佳,因此对抗性环境中遗憾的概念需要仔细调整。我们介绍了三个可能的遗憾和调查,这可以是偏执的偏执。我们详细介绍了增加,减少和优惠券的特殊情况(玩家在手臂的每辆M $播放后获得额外的奖励)保真奖励。对于不一定享受载体遗憾的模型,我们提供了最糟糕的下限。对于那些展示Sublinear遗憾的模型,我们提供算法并绑定他们的遗憾。
translated by 谷歌翻译
我们考虑使用$ K $臂的随机匪徒问题,每一个都与$ [m,m] $范围内支持的有限分布相关。我们不认为$ [m,m] $是已知的范围,并表明学习此范围有成本。确实,出现了与分销相关和无分配后悔界限之间的新权衡,这阻止了同时实现典型的$ \ ln t $和$ \ sqrt {t} $ bunds。例如,仅当与分布相关的遗憾界限至少属于$ \ sqrt {t} $的顺序时,才能实现$ \ sqrt {t} $}无分布遗憾。我们展示了一项策略,以实现新的权衡表明的遗憾。
translated by 谷歌翻译
We study Pareto optimality in multi-objective multi-armed bandit by providing a formulation of adversarial multi-objective multi-armed bandit and properly defining its Pareto regrets that can be generalized to stochastic settings as well. The regrets do not rely on any scalarization functions and reflect Pareto optimality compared to scalarized regrets. We also present new algorithms assuming both with and without prior information of the multi-objective multi-armed bandit setting. The algorithms are shown optimal in adversarial settings and nearly optimal in stochastic settings simultaneously by our established upper bounds and lower bounds on Pareto regrets. Moreover, the lower bound analyses show that the new regrets are consistent with the existing Pareto regret for stochastic settings and extend an adversarial attack mechanism from bandit to the multi-objective one.
translated by 谷歌翻译
我们考虑了一种有可能无限的武器的随机强盗问题。我们为最佳武器和$ \ delta $的比例写入$ p ^ * $,以获得最佳和次优臂之间的最小含义 - 均值差距。我们在累积遗憾设置中表征了最佳学习率,以及在问题参数$ t $(预算),$ p ^ * $和$ \ delta $的最佳臂识别环境中。为了最大限度地减少累积遗憾,我们提供了订单$ \ OMEGA(\ log(t)/(p ^ * \ delta))$的下限和UCB样式算法,其匹配上限为一个因子$ \ log(1 / \ delta)$。我们的算法需要$ p ^ * $来校准其参数,我们证明了这种知识是必要的,因为在这个设置中调整到$ p ^ * $以来,因此是不可能的。为了获得最佳武器识别,我们还提供了订单$ \ Omega(\ exp(-ct \ delta ^ 2 p ^))的较低限制,以上输出次优臂的概率,其中$ c> 0 $是一个绝对常数。我们还提供了一个消除算法,其上限匹配下限到指数中的订单$ \ log(t)$倍数,并且不需要$ p ^ * $或$ \ delta $ as参数。我们的结果直接适用于竞争$ j $ -th最佳手臂的三个相关问题,识别$ \ epsilon $良好的手臂,并找到一个平均值大于已知订单的大分的手臂。
translated by 谷歌翻译
我们考虑一个人口,分成一套社区,并研究通过顺序,随机抽样在人口中识别人群中最大的社区的问题。有多个采样域,也称为\ emph {boxes},该域也会分区群体。每个盒子都可以包括不同社区的个人,每个社区可能又可以跨多个盒子传播。学习代理可以随时使用(用替换)来自任何所选框的随机单独的单个;完成此操作后,代理学会了采样的个人所属的社区,以及此个人是否已被采样。代理的目标是通过优化采样策略以及决策规则来最大限度地减少错误识别最大社区的概率。我们提出并分析了这个问题的新算法,并且还在任何算法下建立了误差概率的信息理论下限。在几个兴趣的情况下,我们算法下误差概率的指数衰减率显示为最佳到恒定因素。所提出的算法通过实际数据集的模拟进一步验证。
translated by 谷歌翻译
在线学习通常需要探索以最大程度地提高长期奖励,但这是以短期“遗憾”为代价的。我们研究如何在多个小组之间分担这种探索成本。例如,在临床试验环境中,分配了亚最佳治疗的患者有效地产生了勘探成本。当患者根据种族或年龄与自然群体相关联时,自然要问任何单一群体所承担的探索成本是否“公平”。如此有动力,我们介绍了“分组”的强盗模型。我们利用公理讨价还价的理论,尤其是纳什议价解决方案,以形式化可能构成跨群体勘探成本的公平分裂的方式。一方面,我们表明,任何遗憾的政策都引起了最不公平的结果:此类政策将在可能的情况下传递最“处于弱势”的群体。更具建设性的方式,我们得出了最佳公平且同时享受“公平价格”的政策。我们通过对华法林剂量的上下文匪徒进行案例研究来说明我们的算法框架的相对优点,我们关注多个种族和年龄段的探索成本。
translated by 谷歌翻译
我们考虑激励探索:一种多臂匪徒的版本,其中武器的选择由自私者控制,而算法只能发布建议。该算法控制信息流,信息不对称可以激励代理探索。先前的工作达到了最佳的遗憾率,直到乘法因素,这些因素根据贝叶斯先验而变得很大,并在武器数量上成倍规模扩展。采样每只手臂的一个更基本的问题一旦遇到了类似的因素。我们专注于激励措施的价格:出于激励兼容的目的,绩效的损失,广泛解释为。我们证明,如果用足够多的数据点初始化,则标准的匪徒汤普森采样是激励兼容的。因此,当收集这些数据点时,由于激励措施的绩效损失仅限于初始回合。这个问题主要降低到样本复杂性的问题:需要多少个回合?我们解决了这个问题,提供了匹配的上限和下限,并在各种推论中实例化。通常,最佳样品复杂性在“信念强度”中的武器数量和指数中是多项式。
translated by 谷歌翻译
级别设置估计问题旨在查找域$ {\ cal x} $的所有点,其中一个未知函数$ f:{\ cal x} \ lightarrow \ mathbb {r} $超过阈值$ \ alpha $ 。估计基于可以在$ {\ cal x} $中顺序和自适应地选择的位置获取的嘈杂函数评估。阈值$ \ alpha $可以是\弹性{显式},并提供先验,或\ \ ich {隐式},相对于最佳函数值定义,即$ \ alpha =(1- \ epsilon)f(x_ \ AST)$关于给定$ \ epsilon> 0 $ why $ f(x_ \ ist)$是最大函数值,并且未知。在这项工作中,我们通过将其与最近的自适应实验设计方法相关联,为近期自适应实验设计方法提供了一种新的再现内核盗窃空间(RKHS)设置。我们假设可以通过RKHS中的函数近似于未知的拼写,并为此设置中隐含和显式案件提供新的算法,具有很强的理论保证。此外,在线性(内核)设置中,我们表明我们的界限几乎是最佳的,即,我们的上限与阈值线性匪徒的现有下限匹配。据我们所知,这项工作提供了第一个实例依赖性非渐近的上限,就匹配信息理论下限的水平设定估计的样本复杂性。
translated by 谷歌翻译
我们考虑使用正常奖励分布的固定预算最佳武器识别问题。在此问题中,预报员将获得$ K $臂(或治疗)和$ t $时间步骤。预报员试图通过使用算法进行的自适应实验来找到最大的均值,以最大的均值定义。该算法的性能是通过简单的遗憾(即估计的最佳臂的质量)来衡量的。常见的简单遗憾可能是指数级至$ t $的,而贝叶斯简单的遗憾在多项式上很小至$ t $。本文表明,贝叶斯的最佳算法使贝叶斯简单的遗憾最小化,并不会对某些参数产生指数的简单遗憾,这一发现与许多结果形成了鲜明的对比,表明贝叶斯和频繁的算法在固定采样制度的上下文中的渐近等效性。虽然贝叶斯最佳算法是用递归方程式来描述的,而递归方程实际上是不可能准确地计算的,但我们通过引入一个称为预期的Bellman改进的关键数量来建立进一步分析的基础。
translated by 谷歌翻译
我们研究汤普森采样(TS)算法的遗憾,指数为家庭土匪,其中奖励分配来自一个一维指数式家庭,该家庭涵盖了许多常见的奖励分布,包括伯努利,高斯,伽玛,伽玛,指数等。我们建议汤普森采样算法,称为expts,它使用新颖的采样分布来避免估计最佳臂。我们为expts提供了严格的遗憾分析,同时产生有限的遗憾和渐近遗憾。特别是,对于带指数级家庭奖励的$ k $臂匪徒,expts of horizo​​n $ t $ sub-ucb(对于有限的时间遗憾的是问题依赖的有限时间标准) $ \ sqrt {\ log k} $,并且对于指数家庭奖励,渐近最佳。此外,我们通过在Expts中使用的采样分配外添加一个贪婪的剥削步骤,提出$^+$,以避免过度估计亚最佳武器。 expts $^+$是随时随地的强盗算法,可用于指数级的家庭奖励分布同时实现最小值和渐近最优性。我们的证明技术在概念上很简单,可以轻松地应用于用特定奖励分布分析标准的汤普森抽样。
translated by 谷歌翻译
我们通过反馈图来重新审视随机在线学习的问题,目的是设计最佳的算法,直至常数,无论是渐近还是有限的时间。我们表明,令人惊讶的是,在这种情况下,最佳有限时间遗憾的概念并不是一个唯一的定义属性,总的来说,它与渐近率是与渐近率分离的。我们讨论了替代选择,并提出了有限时间最优性的概念,我们认为是\ emph {有意义的}。对于这个概念,我们给出了一种算法,在有限的时间和渐近上都承认了准最佳的遗憾。
translated by 谷歌翻译