本文调查$ \纺织品{污染} $随机多臂爆炸中最佳臂识别问题。在此设置中,从任何臂获得的奖励由来自概率$ \ varepsilon $的对抗性模型的样本所取代。考虑了固定的置信度(无限地平线)设置,其中学习者的目标是识别最大的平均值。由于奖励的对抗污染,每个ARM的平均值仅部分可识别。本文提出了两种算法,基于连续消除的基于间隙的算法和一个,以便在亚高斯匪徒中最佳臂识别。这些算法涉及平均估计,从渐近估计的估计值达到真实均值的偏差上实现最佳误差保证。此外,这些算法渐近地实现了最佳的样本复杂性。具体地,对于基于差距的算法,样本复杂性呈渐近最佳到恒定因子,而对于基于连续的基于算法,​​它是最佳的对数因子。最后,提供了数值实验以说明与现有基线相比的算法的增益。
translated by 谷歌翻译
本文研究了固定置信度设置中随机多臂匪徒中最佳的手臂识别(BAI)问题。考虑到指数匪徒的一般类。指数匪徒家族的最先进算法面临计算挑战。为了缓解这些挑战,提出了一个新颖的框架,该框架将BAI问题视为顺序假设测试,并且可以适合针对指数的土匪家族的可拖动分析。基于此框架,设计了BAI算法,以利用规范顺序概率比测试。该算法在两种设置中都具有三个功能:(1)其样本复杂性在渐近上是最佳的,(2)保证它是$ \ delta- $ pac,(3)它解决了最先进的计算挑战 - 艺术方法。具体而言,这些方法仅专注于高斯环境,需要从汤普森(Thompson)的手臂上进行采样,而这些方法被认为是最好的和挑战者的手臂。本文分析表明,识别挑战者在计算上是昂贵的,并且提出的算法对其进行了规定。最后,提供了数值实验来支持分析。
translated by 谷歌翻译
我们提出了置信度序列 - 置信区间序列,其均匀地随时间均匀 - 用于基于I.I.D的流的完整,完全有序集中的任何分布的量级。观察。我们提供用于跟踪固定定量的方法并同时跟踪所有定量。具体而言,我们提供具有小常数的明确表达式,其宽度以尽可能快的$ \ SQRT {t} \ log \ log t} $率,以及实证分布函数的非渐近浓度不等式以相同的速率均匀地持续持续。后者加强了Smirnov迭代对数的实证过程法,延长了DVORETZKY-KIEFER-WOLFOITZ不等式以均匀地保持一段时间。我们提供了一种新的算法和样本复杂性,用于在多武装强盗框架中选择具有大约最佳定量的臂。在仿真中,我们的方法需要比现有方法更少五到五十的样品。
translated by 谷歌翻译
We study the best-arm identification problem in multi-armed bandits with stochastic, potentially private rewards, when the goal is to identify the arm with the highest quantile at a fixed, prescribed level. First, we propose a (non-private) successive elimination algorithm for strictly optimal best-arm identification, we show that our algorithm is $\delta$-PAC and we characterize its sample complexity. Further, we provide a lower bound on the expected number of pulls, showing that the proposed algorithm is essentially optimal up to logarithmic factors. Both upper and lower complexity bounds depend on a special definition of the associated suboptimality gap, designed in particular for the quantile bandit problem, as we show when the gap approaches zero, best-arm identification is impossible. Second, motivated by applications where the rewards are private, we provide a differentially private successive elimination algorithm whose sample complexity is finite even for distributions with infinite support-size, and we characterize its sample complexity. Our algorithms do not require prior knowledge of either the suboptimality gap or other statistical information related to the bandit problem at hand.
translated by 谷歌翻译
多武装强盗环境中最好的武器识别问题是许多真实世界决策问题的一个优秀模式,但它无法捕捉到现实世界中,在学习时通常必须满足安全限制的事实。在这项工作中,我们研究了安全关键环境中最好的武器识别问题,代理的目标是找到许多人的最佳安全选项,同时以保证某些方式达到满足肯定的方式的探索,最初是未知的安全约束。我们首先在奖励和安全约束采用线性结构的情况下分析此问题,并显示近乎匹配的上限和下限。然后,我们分析了更多的常规版本,我们只假设奖励和安全约束可以通过单调函数建模,并在此设置中提出算法,保证安全地学习。我们的结论与实验结果表明我们在方案中的方法的有效性,如安全地识别许多人以便治疗疾病。
translated by 谷歌翻译
我们通过可共享的手臂设置概括了多武器的多臂土匪(MP-MAB)问题,其中几场比赛可以共享同一臂。此外,每个可共享的组都有有限的奖励能力和“每载”奖励分配,这两者都是学习者所不知道的。可共享臂的奖励取决于负载,这是“每载”奖励乘以拉动手臂的戏剧数量或当比赛数量超过容量限制时的奖励能力。当“按负载”奖励遵循高斯分布时,我们证明了样本复杂性的下限,从负载依赖的奖励中学习容量,也遗憾的是这个新的MP-MAB问题的下限。我们设计了一个容量估计器,其样品复杂性上限在奖励手段和能力方面与下限匹配。我们还提出了一种在线学习算法来解决该问题并证明其遗憾的上限。这个遗憾的上界的第一任期与遗憾的下限相同,其第二和第三个术语显然也对应于下边界。广泛的实验验证了我们算法的性能以及其在5G和4G基站选择中的增长。
translated by 谷歌翻译
考虑$ k $过程,每个过程都会生成一系列相同和独立的随机变量。这些过程的概率度量具有必须估计的随机参数。具体而言,它们共享一个参数$ \ theta $,所有概率度量共同。此外,每个过程$ i \ in \ {1,\ dots,k \} $都有一个私有参数$ \ alpha_i $。目的是设计一种主动采样算法,以顺序估算这些参数,以形成所有样品数量最少的共享和私有参数的可靠估计。该采样算法具有三个关键组件:(i)〜数据驱动的采样决策,随着时间的推移,该决策逐渐指定应选择哪些$ k $过程进行采样; (ii)〜停止该过程的时间,该过程指定何时累积数据足以形成可靠的估计并终止采样过程; (iii)〜所有共享和私人参数的估计器。由于已知的顺序估计在分析上是棘手的,因此本文采用\ emph {条件}估计成本函数,从而导致了顺序估计方法,该方法最近被证明可以进行拖延分析。划定了渐近的最佳决策规则(采样,停止和估计),并提供了数值实验,以将所提出的程序的疗效和质量与相关方法进行比较。
translated by 谷歌翻译
本文介绍了信息性多臂强盗(IMAB)模型,在每个回合中,玩家选择手臂,观察符号,并以符号的自我信息形式获得未观察到的奖励。因此,手臂的预期奖励是产生其符号的源质量函数的香农熵。玩家的目标是最大程度地提高与武器的熵值相关的预期奖励。在假设字母大小是已知的假设下,为IMAB模型提出了两种基于UCB的算法,该算法考虑了插件熵估计器的偏差。第一种算法在熵估计中乐观地纠正了偏置项。第二算法依赖于数据依赖性置信区间,该置信区间适应具有较小熵值的源。性能保证是通过上限为每种算法的预期遗憾提供的。此外,在Bernoulli案例中,将这些算法的渐近行为与伪遗憾的Lai-Robbins的下限进行了比较。此外,在假设\ textit {cract}字母大小的假设下是未知的,而播放器仅知道其上方的宽度上限,提出了一种基于UCB的算法,在其中,玩家的目的是减少由该算法造成的遗憾。未知的字母尺寸在有限的时间方面。数字结果说明了论文中介绍的算法的预期遗憾。
translated by 谷歌翻译
我们考虑了一种有可能无限的武器的随机强盗问题。我们为最佳武器和$ \ delta $的比例写入$ p ^ * $,以获得最佳和次优臂之间的最小含义 - 均值差距。我们在累积遗憾设置中表征了最佳学习率,以及在问题参数$ t $(预算),$ p ^ * $和$ \ delta $的最佳臂识别环境中。为了最大限度地减少累积遗憾,我们提供了订单$ \ OMEGA(\ log(t)/(p ^ * \ delta))$的下限和UCB样式算法,其匹配上限为一个因子$ \ log(1 / \ delta)$。我们的算法需要$ p ^ * $来校准其参数,我们证明了这种知识是必要的,因为在这个设置中调整到$ p ^ * $以来,因此是不可能的。为了获得最佳武器识别,我们还提供了订单$ \ Omega(\ exp(-ct \ delta ^ 2 p ^))的较低限制,以上输出次优臂的概率,其中$ c> 0 $是一个绝对常数。我们还提供了一个消除算法,其上限匹配下限到指数中的订单$ \ log(t)$倍数,并且不需要$ p ^ * $或$ \ delta $ as参数。我们的结果直接适用于竞争$ j $ -th最佳手臂的三个相关问题,识别$ \ epsilon $良好的手臂,并找到一个平均值大于已知订单的大分的手臂。
translated by 谷歌翻译
我们在随机匪徒上使用时(协变量)信息时,我们研究了固定信道的最佳武器识别问题。虽然我们可以在每轮中使用上下文信息,但我们对在语境分布上的边缘化平均奖励感兴趣。我们的目标是在给定值的错误率下识别最少数量的采样。我们显示出问题的特定实例的示例复杂性下限。然后,我们提出了一个“跟踪和停止”策略的上下文知识版本,其中ARM的比例绘制追踪一组最佳分配,并证明预期的ARM绘制数与渐近的下限匹配。我们证明,与Garivier&Kaufmann(2016)的结果相比,可以使用上下文信息来提高最佳边缘化平均奖励的效率。我们通过实验证实了上下文信息有助于更快的最佳武器识别。
translated by 谷歌翻译
出现了前两种算法,作为汤普森采样对多臂匪徒模型中最佳手臂识别的适应(Russo,2016),用于武器的参数家族。他们通过在两个候选臂,一个领导者和一个挑战者中随机化来选择下一个要采样的臂。尽管具有良好的经验表现,但仅当手臂是具有已知差异的高斯时,才能获得固定信心最佳手臂识别的理论保证。在本文中,我们提供了对两种方法的一般分析,该方法确定了领导者,挑战者和武器(可能是非参数)分布的理想特性。结果,我们获得了理论上支持的前两种算法,用于具有有限分布的最佳臂识别。我们的证明方法特别证明了用于选择从汤普森采样继承的领导者的采样步骤可以用其他选择代替,例如选择经验最佳的臂。
translated by 谷歌翻译
我们研究固定预算设置中线性匪徒中最佳手臂识别的问题。通过利用G-Optimal设计的属性并将其纳入ARM分配规则,我们设计了一种无参数算法,基于最佳设计的基于设计的线性最佳臂识别(OD-Linbai)。我们提供了OD-Linbai的失败概率的理论分析。 OD-Linbai的性能并非所有最优差距,而是取决于顶部$ d $臂的差距,其中$ d $是线性匪徒实例的有效维度。补充,我们为此问题提供了一个Minimax下限。上限和下限表明,OD-Linbai是最佳的最佳选择,直到指数中的恒定乘法因素,这是对现有方法的显着改进(例如,贝耶斯加普,和平,线性化和GSE),并解决了确定确定该问题的问题。在固定预算设置中学习最好的手臂的困难。最后,数值实验表明,对各种真实和合成数据集的现有算法进行了相当大的经验改进。
translated by 谷歌翻译
积极的学习方法在减少学习所需的样本数量方面表现出了巨大的希望。随着自动化学习系统被采用到实时的现实世界决策管道中,越来越重要的是,这种算法的设计考虑到了安全性。在这项工作中,我们研究了在互动环境中学习最佳安全决定的复杂性。我们将这个问题减少到约束的线性匪徒问题,我们的目标是找到满足某些(未知)安全限制的最佳手臂。我们提出了一种基于自适应的实验性设计算法,在显示ARM的难度与次优的难度之间,我们表现出了有效的交易。据我们所知,我们的结果是具有安全限制的线性匪徒最佳武器识别。实际上,我们证明了这种方法在合成和现实世界数据集上的表现很好。
translated by 谷歌翻译
级别设置估计问题旨在查找域$ {\ cal x} $的所有点,其中一个未知函数$ f:{\ cal x} \ lightarrow \ mathbb {r} $超过阈值$ \ alpha $ 。估计基于可以在$ {\ cal x} $中顺序和自适应地选择的位置获取的嘈杂函数评估。阈值$ \ alpha $可以是\弹性{显式},并提供先验,或\ \ ich {隐式},相对于最佳函数值定义,即$ \ alpha =(1- \ epsilon)f(x_ \ AST)$关于给定$ \ epsilon> 0 $ why $ f(x_ \ ist)$是最大函数值,并且未知。在这项工作中,我们通过将其与最近的自适应实验设计方法相关联,为近期自适应实验设计方法提供了一种新的再现内核盗窃空间(RKHS)设置。我们假设可以通过RKHS中的函数近似于未知的拼写,并为此设置中隐含和显式案件提供新的算法,具有很强的理论保证。此外,在线性(内核)设置中,我们表明我们的界限几乎是最佳的,即,我们的上限与阈值线性匪徒的现有下限匹配。据我们所知,这项工作提供了第一个实例依赖性非渐近的上限,就匹配信息理论下限的水平设定估计的样本复杂性。
translated by 谷歌翻译
我们在随机多臂匪徒问题中使用固定预算和上下文(协变)信息研究最佳武器识别。在观察上下文信息之后,在每一轮中,我们使用过去的观察和当前上下文选择一个治疗臂。我们的目标是确定最好的治疗组,这是一个在上下文分布中被边缘化的最大预期奖励的治疗组,而错误识别的可能性最小。首先,我们为此问题得出半参数的下限,在这里我们将最佳和次优的治疗臂的预期奖励之间的差距视为感兴趣的参数,以及所有其他参数,例如在上下文中的预期奖励,作为滋扰参数。然后,我们开发“上下文RS-AIPW策略”,该策略由随机采样(RS)规则组成,跟踪目标分配比和使用增强反向概率加权(AIPW)估算器的建议规则。我们提出的上下文RS-AIPW策略是最佳的,因为错误识别概率的上限与预算到Infinity时的半参数下限相匹配,并且差距趋于零。
translated by 谷歌翻译
我们在固定的误差率$ \ delta $(固定信道TOP-M识别)下最大的手段识别M武器的问题,用于错过的线性匪盗模型。这个问题是由实际应用的动机,特别是在医学和推荐系统中,由于它们的简单性和有效算法的存在,线性模型很受欢迎,但是数据不可避免地偏离线性。在这项工作中,我们首先在普通Top-M识别问题的任何$ \ delta $ -correct算法的样本复杂性上得出了一个易行的下限。我们表明,知道从线性度偏差的偏差是利用问题的结构所必需的。然后,我们描述了该设置的第一个算法,这既实际,也适应了误操作。我们从其样本复杂度推出了一个上限,证实了这种适应性,与$ \ delta $ $ \ lightarrow $ 0匹配。最后,我们在合成和现实世界数据上评估了我们的算法,表现出尊重的竞争性能到现有的基准。
translated by 谷歌翻译
我们考虑了一个随机的多武器强盗问题,其中奖励会受到对抗性腐败的影响。我们提出了一种新颖的攻击策略,该策略可以操纵UCB原理,以拉动一些非最佳目标臂$ t -o(t)$ times,累积成本将其缩放为$ \ sqrt {\ log t} $,其中$ t $是回合的数量。我们还证明了累积攻击成本的第一个下限。我们的下限将我们的上限匹配到$ \ log \ log t $因子,这表明我们的攻击非常最佳。
translated by 谷歌翻译
在臂分布的标准假设下广泛研究了随机多臂强盗问题(例如,用已知的支持,指数家庭等)。这些假设适用于许多现实世界问题,但有时他们需要知识(例如,在尾部上),从业者可能无法精确访问,提高强盗算法的鲁棒性的问题,以模拟拼盘。在本文中,我们研究了一种通用的Dirichlet采样(DS)算法,基于通过重新采样的武器观测和数​​据相关的探索奖励计算的经验指标的成对比较。我们表明,当该策略的界限和对数后悔具有轻度分量度条件的半界分布时,这种策略的不同变体达到了可证明的最佳遗憾。我们还表明,一项简单的调整在大类无界分布方面实现了坚固性,其成本比对数渐近的遗憾略差。我们终于提供了数字实验,展示了合成农业数据的决策问题中DS的优点。
translated by 谷歌翻译
本文提出了新的偏差不等式,其在多武装强盗模型中的自适应采样下均匀地均匀。使用给定的一维指数家庭中的kullback-leibler发散来测量偏差,并且可以一次考虑几个臂。它们是通过基于分层的每个臂鞅构造而构建的,并通过将那些鞅乘以来获得。我们的偏差不平等允许我们根据广义概率比来分析一大类连续识别问题的概要概率比,并且为臂的装置的某些功能构造紧密的置信区间。
translated by 谷歌翻译
Data depth, introduced by Tukey (1975), is an important tool in data science, robust statistics, and computational geometry. One chief barrier to its broader practical utility is that many common measures of depth are computationally intensive, requiring on the order of $n^d$ operations to exactly compute the depth of a single point within a data set of $n$ points in $d$-dimensional space. Often however, we are not directly interested in the absolute depths of the points, but rather in their \textit{relative ordering}. For example, we may want to find the most central point in a data set (a generalized median), or to identify and remove all outliers (points on the fringe of the data set with low depth). With this observation, we develop a novel and instance-adaptive algorithm for adaptive data depth computation by reducing the problem of exactly computing $n$ depths to an $n$-armed stochastic multi-armed bandit problem which we can efficiently solve. We focus our exposition on simplicial depth, developed by \citet{liu1990notion}, which has emerged as a promising notion of depth due to its interpretability and asymptotic properties. We provide general instance-dependent theoretical guarantees for our proposed algorithms, which readily extend to many other common measures of data depth including majority depth, Oja depth, and likelihood depth. When specialized to the case where the gaps in the data follow a power law distribution with parameter $\alpha<2$, we show that we can reduce the complexity of identifying the deepest point in the data set (the simplicial median) from $O(n^d)$ to $\tilde{O}(n^{d-(d-1)\alpha/2})$, where $\tilde{O}$ suppresses logarithmic factors. We corroborate our theoretical results with numerical experiments on synthetic data, showing the practical utility of our proposed methods.
translated by 谷歌翻译