在强盗多个假设测试中,每个ARM对应于我们希望测试的不同NULL假设,并且目标是设计正确识别大型有趣的武器(真正发现)的自适应算法,同时仅错误地识别少数不感兴趣的武器(虚假的发现)。非强盗多测试中的一个常见度量是错误的发现速率(FDR)。我们为强盗FDR控制提出了一个统一的模块化框架,强调了探索和证据总结的解耦。我们利用了强大的鞅的“e-processage”概念,以确保在通用问题设置中进行任意复合空无效,探索规则和停止时间的FDR控制。特别地,即使臂的奖励分布可能是相关的,有效的FDR控制也可以依赖,可以同时查询多个臂,并且多个(协作或竞争)代理可以是查询臂,也可以是覆盖组合半强盗类型设置。在每次步骤中,每次ARM奖励分配是独立的,并且在每个步骤都会审议了每个ARM奖励分配的环境。我们的框架在这​​个特殊情况下恢复了匹配的样本复杂性保证,在实践中表现相对或更好。对于其他设置,示例复杂性将取决于问题的更精细的细节(正在测试的复合空,探索算法,数据依赖结构,停止规则),我们不会探索这些;我们的贡献是表明FDR保证对这些细节进行了干净,完全不可知。
translated by 谷歌翻译
我们提出了置信度序列 - 置信区间序列,其均匀地随时间均匀 - 用于基于I.I.D的流的完整,完全有序集中的任何分布的量级。观察。我们提供用于跟踪固定定量的方法并同时跟踪所有定量。具体而言,我们提供具有小常数的明确表达式,其宽度以尽可能快的$ \ SQRT {t} \ log \ log t} $率,以及实证分布函数的非渐近浓度不等式以相同的速率均匀地持续持续。后者加强了Smirnov迭代对数的实证过程法,延长了DVORETZKY-KIEFER-WOLFOITZ不等式以均匀地保持一段时间。我们提供了一种新的算法和样本复杂性,用于在多武装强盗框架中选择具有大约最佳定量的臂。在仿真中,我们的方法需要比现有方法更少五到五十的样品。
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
本文提出了新的偏差不等式,其在多武装强盗模型中的自适应采样下均匀地均匀。使用给定的一维指数家庭中的kullback-leibler发散来测量偏差,并且可以一次考虑几个臂。它们是通过基于分层的每个臂鞅构造而构建的,并通过将那些鞅乘以来获得。我们的偏差不平等允许我们根据广义概率比来分析一大类连续识别问题的概要概率比,并且为臂的装置的某些功能构造紧密的置信区间。
translated by 谷歌翻译
我们考虑激励探索:一种多臂匪徒的版本,其中武器的选择由自私者控制,而算法只能发布建议。该算法控制信息流,信息不对称可以激励代理探索。先前的工作达到了最佳的遗憾率,直到乘法因素,这些因素根据贝叶斯先验而变得很大,并在武器数量上成倍规模扩展。采样每只手臂的一个更基本的问题一旦遇到了类似的因素。我们专注于激励措施的价格:出于激励兼容的目的,绩效的损失,广泛解释为。我们证明,如果用足够多的数据点初始化,则标准的匪徒汤普森采样是激励兼容的。因此,当收集这些数据点时,由于激励措施的绩效损失仅限于初始回合。这个问题主要降低到样本复杂性的问题:需要多少个回合?我们解决了这个问题,提供了匹配的上限和下限,并在各种推论中实例化。通常,最佳样品复杂性在“信念强度”中的武器数量和指数中是多项式。
translated by 谷歌翻译
本文衍生了置信区间(CI)和时间统一的置信序列(CS),用于从有限观测值中估算未知平均值的经典问题。我们提出了一种衍生浓度界限的一般方法,可以看作是著名的切尔诺夫方法的概括(和改进)。它的核心是基于推导一类新的复合非负胸腔,通过投注和混合方法与测试的连接很强。我们展示了如何将这些想法扩展到无需更换的情况下,这是另一个经过深入研究的问题。在所有情况下,我们的界限都适应未知的差异,并且基于Hoeffding或经验的Bernstein不平等及其最近的Supermartingale概括,经验上大大优于现有方法。简而言之,我们为四个基本问题建立了一个新的最先进的问题:在有或没有替换的情况下进行采样时,CS和CI进行有限的手段。
translated by 谷歌翻译
Consider the following abstract coin tossing problem: Given a set of $n$ coins with unknown biases, find the most biased coin using a minimal number of coin tosses. This is a common abstraction of various exploration problems in theoretical computer science and machine learning and has been studied extensively over the years. In particular, algorithms with optimal sample complexity (number of coin tosses) have been known for this problem for quite some time. Motivated by applications to processing massive datasets, we study the space complexity of solving this problem with optimal number of coin tosses in the streaming model. In this model, the coins are arriving one by one and the algorithm is only allowed to store a limited number of coins at any point -- any coin not present in the memory is lost and can no longer be tossed or compared to arriving coins. Prior algorithms for the coin tossing problem with optimal sample complexity are based on iterative elimination of coins which inherently require storing all the coins, leading to memory-inefficient streaming algorithms. We remedy this state-of-affairs by presenting a series of improved streaming algorithms for this problem: we start with a simple algorithm which require storing only $O(\log{n})$ coins and then iteratively refine it further and further, leading to algorithms with $O(\log\log{(n)})$ memory, $O(\log^*{(n)})$ memory, and finally a one that only stores a single extra coin in memory -- the same exact space needed to just store the best coin throughout the stream. Furthermore, we extend our algorithms to the problem of finding the $k$ most biased coins as well as other exploration problems such as finding top-$k$ elements using noisy comparisons or finding an $\epsilon$-best arm in stochastic multi-armed bandits, and obtain efficient streaming algorithms for these problems.
translated by 谷歌翻译
关于强盗算法最佳设计的许多文献都是基于最小化预期遗憾的基础。众所周知,在某些指数家庭中最佳的设计可以实现预期的遗憾,即以LAI-ROBBINS下降的速度在ARM游戏数量上进行对数增长。在本文中,我们表明,当人们使用这种优化的设计时,相关算法的遗憾分布必然具有非常沉重的尾巴,特别是cauchy分布的尾巴。此外,对于$ p> 1 $,遗憾分布的$ p $'瞬间增长速度要比多层型的速度快得多,尤其是作为ARM播放总数的力量。我们表明,优化的UCB强盗设计在另一种意义上也是脆弱的,即,当问题甚至略有指定时,遗憾的增长可能比传统理论所建议的要快得多。我们的论点是基于标准的量化想法,并表明最有可能的遗憾变得比预期的要大的方法是最佳手臂在前几只手臂比赛中返回低于平均水平的奖励,从而导致算法相信这一点手臂是最佳的。为了减轻暴露的脆弱性问题,我们表明可以修改UCB算法,以确保对错误指定的理想程度。在此过程中,我们还提供了UCB勘探数量与产生后悔分布的尾声之间的巨大权衡。
translated by 谷歌翻译
我们基于电子价值开发假设检测理论,这是一种与p值不同的证据,允许毫不费力地结合来自常见场景中的几项研究的结果,其中决定执行新研究可能取决于以前的结果。基于E-V值的测试是安全的,即它们在此类可选的延续下保留I型错误保证。我们将增长速率最优性(GRO)定义为可选的连续上下文中的电力模拟,并且我们展示了如何构建GRO E-VARIABLE,以便为复合空缺和替代,强调模型的常规测试问题,并强调具有滋扰参数的模型。 GRO E值采取具有特殊前瞻的贝叶斯因子的形式。我们使用几种经典示例说明了该理论,包括一个样本安全T检验(其中右哈尔前方的右手前锋为GE)和2x2差价表(其中GRE之前与标准前沿不同)。分享渔业,奈曼和杰弗里斯·贝叶斯解释,电子价值观和相应的测试可以提供所有三所学校的追随者可接受的方法。
translated by 谷歌翻译
出现了前两种算法,作为汤普森采样对多臂匪徒模型中最佳手臂识别的适应(Russo,2016),用于武器的参数家族。他们通过在两个候选臂,一个领导者和一个挑战者中随机化来选择下一个要采样的臂。尽管具有良好的经验表现,但仅当手臂是具有已知差异的高斯时,才能获得固定信心最佳手臂识别的理论保证。在本文中,我们提供了对两种方法的一般分析,该方法确定了领导者,挑战者和武器(可能是非参数)分布的理想特性。结果,我们获得了理论上支持的前两种算法,用于具有有限分布的最佳臂识别。我们的证明方法特别证明了用于选择从汤普森采样继承的领导者的采样步骤可以用其他选择代替,例如选择经验最佳的臂。
translated by 谷歌翻译
我们研究了在确认临床试验期间适应从给定治疗中受益的患者亚群的问题。这种自适应临床试验通常被称为自适应富集设计,已在生物统计学中进行了彻底研究,重点是构成(子)种群的有限数量的亚组(通常为两个)和少量的临时分析点。在本文中,我们旨在放宽对此类设计的经典限制,并研究如何从有关自适应和在线实验的最新机器学习文献中纳入想法,以使试验更加灵活和高效。我们发现亚种群选择问题的独特特征 - 最重要的是,(i)通常有兴趣在预算有限的情况下找到具有任何治疗益处的亚群(不一定是最大效果的单个亚组),并且(ii)(ii)在整个亚种群中只能证明有效性 - 在设计算法解决方案时引起了有趣的挑战和新的Desiderata。在这些发现的基础上,我们提出了Adaggi和Adagcpi,这是两个用于亚群构造的元算法,分别侧重于确定良好的亚组和良好的综合亚群。我们从经验上研究了它们在一系列模拟方案中的性能,并获得了对它们在不同设置的(DIS)优势的见解。
translated by 谷歌翻译
考虑两个或更多的预测员,每个预测员都会随着时间的推移为不同的事件进行一系列预测。我们问一个相对基本的问题:我们如何将这些预测员进行比较,无论是在线还是Hoc,同时避免了对如何生成预测或结果的无可助消的假设?这项工作提出了对这个问题的新颖答案。我们设计了一种顺序推理过程,用于估计预测质量的时变差异,通过相对大类的适当评分规则(具有线性等同物的有界分数)来衡量的。得到的置信区间是非溶解有效的,并且可以连续地监测以在任意数据相关的停止时间(“随时有效”)来产生统计上有效的比较;这是通过调整方差 - 自适应Supermartingales,置信度序列和电子过程来实现这一点。由于Shafer和Vovk的游戏理论概率,我们的覆盖担保也是无意义的,因此它们没有对预测或结果的分布假设。与Henzi和Ziegel最近的工作形成鲜明对比,我们的工具可以顺序地测试一个弱null假设关于一个预测器是否平均过度地越过另一个。我们通过比较主要联赛棒球(MLB)游戏和统计后处理方法的预测来展示其有效性。
translated by 谷歌翻译
We investigate the sample complexity of learning the optimal arm for multi-task bandit problems. Arms consist of two components: one that is shared across tasks (that we call representation) and one that is task-specific (that we call predictor). The objective is to learn the optimal (representation, predictor)-pair for each task, under the assumption that the optimal representation is common to all tasks. Within this framework, efficient learning algorithms should transfer knowledge across tasks. We consider the best-arm identification problem for a fixed confidence, where, in each round, the learner actively selects both a task, and an arm, and observes the corresponding reward. We derive instance-specific sample complexity lower bounds satisfied by any $(\delta_G,\delta_H)$-PAC algorithm (such an algorithm identifies the best representation with probability at least $1-\delta_G$, and the best predictor for a task with probability at least $1-\delta_H$). We devise an algorithm OSRL-SC whose sample complexity approaches the lower bound, and scales at most as $H(G\log(1/\delta_G)+ X\log(1/\delta_H))$, with $X,G,H$ being, respectively, the number of tasks, representations and predictors. By comparison, this scaling is significantly better than the classical best-arm identification algorithm that scales as $HGX\log(1/\delta)$.
translated by 谷歌翻译
我们在随机多臂匪徒问题中使用固定预算和上下文(协变)信息研究最佳武器识别。在观察上下文信息之后,在每一轮中,我们使用过去的观察和当前上下文选择一个治疗臂。我们的目标是确定最好的治疗组,这是一个在上下文分布中被边缘化的最大预期奖励的治疗组,而错误识别的可能性最小。首先,我们为此问题得出半参数的下限,在这里我们将最佳和次优的治疗臂的预期奖励之间的差距视为感兴趣的参数,以及所有其他参数,例如在上下文中的预期奖励,作为滋扰参数。然后,我们开发“上下文RS-AIPW策略”,该策略由随机采样(RS)规则组成,跟踪目标分配比和使用增强反向概率加权(AIPW)估算器的建议规则。我们提出的上下文RS-AIPW策略是最佳的,因为错误识别概率的上限与预算到Infinity时的半参数下限相匹配,并且差距趋于零。
translated by 谷歌翻译
动态治疗方案(DTRS)是个性化的,适应性的,多阶段的治疗计划,可将治疗决策适应个人的初始特征,并在随后的每个阶段中的中级结果和特征,在前阶段受到决策的影响。例子包括对糖尿病,癌症和抑郁症等慢性病的个性化一线和二线治疗,这些治疗适应患者对一线治疗,疾病进展和个人特征的反应。尽管现有文献主要集中于估算离线数据(例如从依次随机试验)中的最佳DTR,但我们研究了以在线方式开发最佳DTR的问题,在线与每个人的互动都会影响我们的累积奖励和我们的数据收集,以供我们的数据收集。未来的学习。我们将其称为DTR匪徒问题。我们提出了一种新颖的算法,通过仔细平衡探索和剥削,可以保证当过渡和奖励模型是线性时,可以实现最佳的遗憾。我们证明了我们的算法及其在合成实验和使用现实世界中对重大抑郁症的适应性治疗的案例研究中的好处。
translated by 谷歌翻译
We study the best-arm identification problem in multi-armed bandits with stochastic, potentially private rewards, when the goal is to identify the arm with the highest quantile at a fixed, prescribed level. First, we propose a (non-private) successive elimination algorithm for strictly optimal best-arm identification, we show that our algorithm is $\delta$-PAC and we characterize its sample complexity. Further, we provide a lower bound on the expected number of pulls, showing that the proposed algorithm is essentially optimal up to logarithmic factors. Both upper and lower complexity bounds depend on a special definition of the associated suboptimality gap, designed in particular for the quantile bandit problem, as we show when the gap approaches zero, best-arm identification is impossible. Second, motivated by applications where the rewards are private, we provide a differentially private successive elimination algorithm whose sample complexity is finite even for distributions with infinite support-size, and we characterize its sample complexity. Our algorithms do not require prior knowledge of either the suboptimality gap or other statistical information related to the bandit problem at hand.
translated by 谷歌翻译
Authors are encouraged to submit new papers to INFORMS journals by means of a style file template, which includes the journal title. However, use of a template does not certify that the paper has been accepted for publication in the named journal. INFORMS journal templates are for the exclusive purpose of submitting to an INFORMS journal and should not be used to distribute the papers in print or online or to submit the papers to another publication.
translated by 谷歌翻译
This paper studies systematic exploration for reinforcement learning with rich observations and function approximation. We introduce a new model called contextual decision processes, that unifies and generalizes most prior settings. Our first contribution is a complexity measure, the Bellman rank , that we show enables tractable learning of near-optimal behavior in these processes and is naturally small for many well-studied reinforcement learning settings. Our second contribution is a new reinforcement learning algorithm that engages in systematic exploration to learn contextual decision processes with low Bellman rank. Our algorithm provably learns near-optimal behavior with a number of samples that is polynomial in all relevant parameters but independent of the number of unique observations. The approach uses Bellman error minimization with optimistic exploration and provides new insights into efficient exploration for reinforcement learning with function approximation.
translated by 谷歌翻译
在线学习通常需要探索以最大程度地提高长期奖励,但这是以短期“遗憾”为代价的。我们研究如何在多个小组之间分担这种探索成本。例如,在临床试验环境中,分配了亚最佳治疗的患者有效地产生了勘探成本。当患者根据种族或年龄与自然群体相关联时,自然要问任何单一群体所承担的探索成本是否“公平”。如此有动力,我们介绍了“分组”的强盗模型。我们利用公理讨价还价的理论,尤其是纳什议价解决方案,以形式化可能构成跨群体勘探成本的公平分裂的方式。一方面,我们表明,任何遗憾的政策都引起了最不公平的结果:此类政策将在可能的情况下传递最“处于弱势”的群体。更具建设性的方式,我们得出了最佳公平且同时享受“公平价格”的政策。我们通过对华法林剂量的上下文匪徒进行案例研究来说明我们的算法框架的相对优点,我们关注多个种族和年龄段的探索成本。
translated by 谷歌翻译
我们介绍了一个多臂强盗模型,其中奖励是多个随机变量的总和,每个动作只会改变其中的分布。每次动作之后,代理都会观察所有变量的实现。该模型是由营销活动和推荐系统激励的,在该系统中,变量代表单个客户的结果,例如点击。我们提出了UCB风格的算法,以估计基线上的动作的提升。我们研究了问题的多种变体,包括何时未知基线和受影响的变量,并证明所有这些变量均具有sublrinear后悔界限。我们还提供了较低的界限,以证明我们的建模假设的必要性是合理的。关于合成和现实世界数据集的实验显示了估计不使用这种结构的策略的振奋方法的好处。
translated by 谷歌翻译