像汤普森采样等多武装强盗算法可用于进行自适应实验,其中最大化奖励意味着数据用于逐步为更多参与者分配更有效的武器。这些转让策略增加了统计假设试验的风险,鉴定武器之间的差异,当没有一个时,并且在真正是一个是一个时,武器的差异存在差异。我们为2臂实验仿真,探讨了两种算法,这些算法结合了统计分析的均匀随机化的益处,具有通过Thompson采样(TS)实现的奖励最大化的益处。首先,前两种汤普森采样增加了固定量的均匀随机分配(UR)随时间均匀传播。二,一种新的启发式算法,称为TS Postdiff(差异后概率)。 Ts Postdiff采用贝叶斯方法来混合TS和UR:使用UR分配分配参与者的概率是后部概率,即两个臂之间的差异是“小”(低于某个阈值),允许在存在时探索更多的探索很少或没有奖励获得。我们发现TS PostDiff方法跨多种效果大小进行良好,因此不需要根据真实效果大小的猜测进行调整。
translated by 谷歌翻译
在教育环境中进行随机实验提出了一个问题,即我们如何使用机器学习技术来改善教育干预措施。使用自适应实验中的汤普森采样(TS)(TS)等多臂匪徒(MAB)算法,即使在干预完成之前,也可以通过增加对最佳状态(ARM)的分配可能性来获得更好的结果的机会。这是比传统的A/B测试的优势,该测试可能会分配相等数量的学生为最佳和非最佳条件。问题是勘探探索权衡取舍。尽管自适应政策旨在收集足够的信息来分配更多的学生以可靠地提供更好的武器,但过去的工作表明,这可能还不够探索,无法就武器是否有所不同,得出可靠的结论。因此,在整个实验中提供额外的均匀随机(UR)探索是很有趣的。本文展示了一个真实的自适应实验,该实验是关于学生如何与教师每周的电子邮件提醒互动以建立时间管理习惯的。我们感兴趣的指标是打开电子邮件率,它跟踪由不同主题行的武器。这些是按照不同的分配算法传递的:ur,ts和我们确定为ts {\ dag} - 结合了TS和UR奖励以更新其先验者。我们强调了这些自适应算法的问题 - 在没有显着差异时可能会剥削手臂 - 并解决它们的原因和后果。未来的方向包括研究最佳臂的早期选择不是理想的情况以及自适应算法如何解决它们的情况。
translated by 谷歌翻译
自适应实验可以增加当前学生从教学干预的现场实验中获得更好结果的机会。在此类实验中,在收集更多数据时将学生分配到条件变化的可能性,因此可以将学生分配给可能表现更好的干预措施。数字教育环境降低了进行此类适应性实验的障碍,但很少在教育中应用。原因之一可能是研究人员可以访问很少的现实案例研究,这些案例研究说明了在特定情况下这些实验的优势和缺点。我们通过使用Thompson采样算法进行自适应实验来评估学生在学生中提醒的效果,并将其与传统的统一随机实验进行比较。我们将其作为有关如何进行此类实验的案例研究,并提出了有关自适应随机实验可能或多或少有用的条件的一系列开放问题。
translated by 谷歌翻译
在比较多臂匪徒算法的性能时,通常会忽略缺失数据的潜在影响。实际上,这也影响了他们的实现,在克服此问题的最简单方法是继续根据原始的强盗算法进行采样,而忽略了缺失的结果。我们通过广泛的仿真研究研究了对这种方法的性能的影响,以处理几种强盗算法的缺失数据,假设奖励是随机缺失的。我们专注于具有二元结果的两臂匪徒在患者分配的背景下用于样本量相对较小的临床试验的背景下。但是,我们的结果适用于预计丢失数据的Bandit算法的其他应用。我们评估所得的运营特征,包括预期的奖励。考虑到双臂失踪的不同概率。我们工作的关键发现是,当使用忽略丢失数据的最简单策略时,对多军匪徒策略的预期性能的影响会根据这些策略平衡勘探探索折衷权衡的方式而有所不同。旨在探索的算法继续将样本分配给手臂,而响应却更多(被认为是具有较少观察到的信息的手臂,该算法比其他算法更具吸引力)。相比之下,针对剥削的算法将迅速为来自手臂的样品迅速分配高价值,而当前高平均值的算法如何,与每只手臂的水平观测无关。此外,对于算法更多地关注探索,我们说明,可以使用简单的平均插补方法来缓解缺失响应的问题。
translated by 谷歌翻译
Designing experiments often requires balancing between learning about the true treatment effects and earning from allocating more samples to the superior treatment. While optimal algorithms for the Multi-Armed Bandit Problem (MABP) provide allocation policies that optimally balance learning and earning, they tend to be computationally expensive. The Gittins Index (GI) is a solution to the MABP that can simultaneously attain optimality and computationally efficiency goals, and it has been recently used in experiments with Bernoulli and Gaussian rewards. For the first time, we present a modification of the GI rule that can be used in experiments with exponentially-distributed rewards. We report its performance in simulated 2- armed and 3-armed experiments. Compared to traditional non-adaptive designs, our novel GI modified design shows operating characteristics comparable in learning (e.g. statistical power) but substantially better in earning (e.g. direct benefits). This illustrates the potential that designs using a GI approach to allocate participants have to improve participant benefits, increase efficiencies, and reduce experimental costs in adaptive multi-armed experiments with exponential rewards.
translated by 谷歌翻译
我们解决了在线顺序决策的问题,即在利用当前知识以最大程度地提高绩效和探索新信息以使用多武器的强盗框架获得长期利益之间的权衡平衡。汤普森采样是选择解决这一探索探索困境的动作的启发式方法之一。我们首先提出了一个通用框架,该框架可帮助启发性地调整汤普森采样中的探索与剥削权衡取舍,并使用后部分布中的多个样本进行调整。利用此框架,我们为多臂匪徒问题提出了两种算法,并为累积遗憾提供了理论界限。接下来,我们证明了拟议算法对汤普森采样的累积遗憾表现的经验改善。我们还显示了所提出的算法在现实世界数据集上的有效性。与现有方法相反,我们的框架提供了一种机制,可以根据手头的任务改变探索/开发量。为此,我们将框架扩展到两个其他问题,即,在土匪中最佳的ARM识别和时间敏感学习,并将我们的算法与现有方法进行比较。
translated by 谷歌翻译
在潜在的强盗问题中,学习者可以访问奖励分布,并且 - 对于非平稳的变体 - 环境的过渡模型。奖励分布在手臂和未知的潜在状态下进行条件。目的是利用奖励历史来识别潜在状态,从而使未来的武器选择最佳。潜在的匪徒设置将自己适用于许多实际应用,例如推荐人和决策支持系统,其中丰富的数据允许在线学习的环境模型的离线估算仍然是关键组成部分。在这种情况下,以前的解决方案始终根据代理商对国家的信念选择最高的奖励组,而不是明确考虑信息收集臂的价值。这种信息收集的武器不一定会提供最高的奖励,因此永远不会选择始终选择最高奖励武器的代理商选择。在本文中,我们提出了一种潜在土匪信息收集的方法。鉴于特殊的奖励结构和过渡矩阵,我们表明,鉴于代理商对国家的信念,选择最好的手臂会产生更高的遗憾。此外,我们表明,通过仔细选择武器,我们可以改善对国家分布的估计,从而通过将来通过更好的手臂选择来降低累积后悔。我们在合成和现实世界数据集上评估了我们的方法,显示出对最新方法的遗憾显着改善。
translated by 谷歌翻译
我们在这里采用贝叶斯非参数混合模型,以将多臂匪徒扩展到尤其是汤普森采样,以扩展到存在奖励模型不确定性的场景。在随机的多臂强盗中,播放臂的奖励是由未知分布产生的。奖励不确定性,即缺乏有关奖励生成分布的知识,引起了探索 - 开发权的权衡:强盗代理需要同时了解奖励分布的属性,并顺序决定下一步要采取哪种操作。在这项工作中,我们通过采用贝叶斯非参数高斯混合模型来进行奖励模型不确定性,将汤普森的抽样扩展到场景中,以进行灵活的奖励密度估计。提出的贝叶斯非参数混合物模型汤普森采样依次学习了奖励模型,该模型最能近似于真实但未知的每臂奖励分布,从而实现了成功的遗憾表现。我们基于基于后验分析的新颖的分析得出的,这是一种针对该方法的渐近遗憾。此外,我们从经验上评估了其在多样化和以前难以捉摸的匪徒环境中的性能,例如,在指数级的家族中,奖励不受异常值和不同的每臂奖励分布。我们表明,拟议的贝叶斯非参数汤普森取样优于表现,无论是平均累积的遗憾和遗憾的波动,最先进的替代方案。在存在强盗奖励模型不确定性的情况下,提出的方法很有价值,因为它避免了严格的逐案模型设计选择,但提供了重要的遗憾。
translated by 谷歌翻译
我们考虑了决定如何最好地靶向和优先考虑现有疫苗的问题,这些疫苗可能可以保护对传染病的新变体的保护。顺序实验是一种有前途的方法。但是,由于反馈延迟以及疾病患病率的整体起伏和流动的挑战使得该任务不适用的方法。我们提出了一种可以应对这些挑战的方法,汤普森采样的方法。我们的方法涉及运行汤普森采样,每次观察事件时,都由部分可能性确定的信念更新。为了测试我们的方法,我们根据美国的Covid-19感染数据200天进行了半合成实验。
translated by 谷歌翻译
We introduce a new setting, optimize-and-estimate structured bandits. Here, a policy must select a batch of arms, each characterized by its own context, that would allow it to both maximize reward and maintain an accurate (ideally unbiased) population estimate of the reward. This setting is inherent to many public and private sector applications and often requires handling delayed feedback, small data, and distribution shifts. We demonstrate its importance on real data from the United States Internal Revenue Service (IRS). The IRS performs yearly audits of the tax base. Two of its most important objectives are to identify suspected misreporting and to estimate the "tax gap" -- the global difference between the amount paid and true amount owed. Based on a unique collaboration with the IRS, we cast these two processes as a unified optimize-and-estimate structured bandit. We analyze optimize-and-estimate approaches to the IRS problem and propose a novel mechanism for unbiased population estimation that achieves rewards comparable to baseline approaches. This approach has the potential to improve audit efficacy, while maintaining policy-relevant estimates of the tax gap. This has important social consequences given that the current tax gap is estimated at nearly half a trillion dollars. We suggest that this problem setting is fertile ground for further research and we highlight its interesting challenges. The results of this and related research are currently being incorporated into the continual improvement of the IRS audit selection methods.
translated by 谷歌翻译
大多数在线平台都在努力从与用户的互动中学习,许多人从事探索:为了获取新信息而做出潜在的次优选择。我们研究探索与竞争之间的相互作用:这样的平台如何平衡学习探索和用户的竞争。在这里,用户扮演三个不同的角色:他们是产生收入的客户,他们是学习的数据来源,并且是自私的代理商,可以在竞争平台中进行选择。我们考虑了一种风格化的双重垄断模型,其中两家公司面临着相同的多军强盗问题。用户一一到达,并在两家公司之间进行选择,因此,只有在选择它的情况下,每个公司都在其强盗问题上取得进展。通过理论结果和数值模拟的混合,我们研究了竞争是否会激发更好的Bandit算法的采用,以及它是否导致用户增加福利。我们发现,Stark竞争会导致公司致力于导致低福利的“贪婪”强盗算法。但是,通过向公司提供一些“免费”用户来激励更好的探索策略并增加福利来削弱竞争。我们调查了削弱竞争的两个渠道:放松用户的理性并为一家公司带来首次推广优势。我们的发现与“竞争与创新”关系密切相关,并阐明了数字经济中的第一步优势。
translated by 谷歌翻译
最近在文献中显示,在线学习实验的样本平均值在用于估计平均奖励时偏置。为了纠正偏差,违规评估方法,包括重要性采样和双倍稳健的估算,通常计算条件倾向分数,这对于UCB等非随机策略而言。本文提供了使用Bootstrap衰减样本的过程,这不需要对奖励分配的知识并应用于任何自适应策略。数值实验证明了受欢迎的多武装强盗算法产生的样本的有效偏差,例如探索 - 然后提交(ETC),UCB,Thompson采样(TS)和$ \ epsilon $ -Greedy(例如)。我们分析并提供了ETC算法下的程序的理论理由,包括真实和引导世界中偏差衰减率的渐近融合。
translated by 谷歌翻译
我们提出了一种数据驱动的算法,广告商可以用来自动在线出版商的数字广告广告。该算法使广告客户能够跨越可用的目标受众和AD-Media搜索通过在线实验找到其广告系列的最佳组合。找到最佳受众ad AD组合的问题使许多独特的挑战变得复杂,包括(a)需要积极探索以解决先前的不确定性并加快搜索有利可图的组合,(b)许多组合可供选择,产生高维搜索公式,以及(c)成功概率非常低,通常只有百分之一。我们的算法(指定的LRDL,logistic回归与Debiased Lasso的首字母缩写)通过结合四个元素来解决这些挑战:一个用于主动探索的多层匪徒框架;套索惩罚功能以处理高维度;一个内置的偏见核,可处理套索引起的正则化偏差;以及一个半参数回归模型,用于促进跨武器交叉学习的结果。该算法是作为汤普森采样器实施的,据我们所知,这是第一个实际上可以解决以上所有挑战的方法。具有真实和合成数据的模拟表明该方法是有效的,并记录了其在最近的高维匪徒文献中的几个基准测试中的出色性能。
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
Thompson sampling is one of oldest heuristic to address the exploration / exploitation trade-off, but it is surprisingly unpopular in the literature. We present here some empirical results using Thompson sampling on simulated and real data, and show that it is highly competitive. And since this heuristic is very easy to implement, we argue that it should be part of the standard baselines to compare against.
translated by 谷歌翻译
Bandit算法被广泛用于顺序决策问题,以最大程度地提高累积奖励。一种潜在的应用程序是移动健康,其目标是通过基于通过可穿戴设备获得的用户特定信息来促进用户的健康。重要的考虑因素包括收集数据的类型和频率(例如GPS或连续监视),因为这些因素会严重影响应用程序性能和用户的依从性。为了平衡收集与影响应用程序性能的限制的数据的需求,人们需要能够评估变量的实用性。匪徒反馈数据是顺序相关的,因此为独立数据开发的传统测试程序无法应用。最近,针对参与者批判的匪徒算法开发了统计测试程序。演员批评算法保留了两个独立的模型,一个用于演员,行动选择政策,另一个用于评论家,奖励模型。仅当正确指定评论家模型时,算法的性能以及测试的有效性才能保证。但是,由于功能不正确或缺失协变量,在实践中经常进行错误指定。在这项工作中,我们提出了一种经过改进的参与者批评算法,在这种情况下,对批评者的误解是可靠的,并为参与者参数提供了新颖的测试程序。
translated by 谷歌翻译
节能导航构成了电动汽车的一个重要挑战,因为其有限的电池容量。我们采用贝叶斯方法在用于高效的导航路段的能耗模型。为了学习模型参数,我们开发了一个在线学习框架,并研究了几种勘探战略,如汤普森采样和上界的信心。然后,我们我们的在线学习框架扩展到多代理设置,其中多个车辆自适应导航和学习的能量模型的参数。我们分析汤普森采样和它在单剂和多代理设置性能建立严格的遗憾界限,通过下成批反馈算法的分析。最后,我们证明我们的方法通过实验,在几个真实世界的城市道路网络的性能。
translated by 谷歌翻译
在本文中,我们考虑了在规避风险的标准下线性收益的上下文多臂强盗问题。在每个回合中,每个手臂都会揭示上下文,决策者选择一只手臂拉动并获得相应的奖励。特别是,我们将均值变化视为风险标准,最好的组是具有最大均值奖励的均值。我们将汤普森采样算法应用于脱节模型,并为提出算法的变体提供全面的遗憾分析。对于$ t $ rounds,$ k $ Actions和$ d $ - 维功能向量,我们证明了$ o((1+ \ rho+\ frac {1} {1} {\ rho}){\ rho})d \ ln t \ ln t \ ln的遗憾。 \ frac {k} {\ delta} \ sqrt {d k t^{1+2 \ epsilon} \ ln \ frac {k} {\ delta} \ frac {1} {\ epsilon}} $ 1 - \ \ delta $在带有风险公差$ \ rho $的均值方差标准下,对于任何$ 0 <\ epsilon <\ frac {1} {2} $,$ 0 <\ delta <1 $。我们提出的算法的经验性能通过投资组合选择问题来证明。
translated by 谷歌翻译
神经匪使从业者能够有效地在非线性奖励功能上有效地运行。虽然在一般的上下文匪徒通常利用高斯过程(GP)决策的预测分布,但最成功的神经变体仅在推导中使用最后一层参数。神经内核(NK)的研究最近在深网络和GPS之间建立了对应的对应,考虑到NN的所有参数,并且可以比大多数贝叶斯NN更有效地培训。我们建议直接应用NK诱导的分布,以指导基于上行的束缚或汤普森采样的政策。我们展示了NK匪徒在高度非线性结构化数据上实现最先进的性能。此外,我们分析了实际考虑因素,例如训练频率和模型分区。我们相信我们的工作将有助于更好地了解利用NKS在应用环境中的影响。
translated by 谷歌翻译
强化学习进行推荐和实验的现实应用面临实际挑战:不同匪徒的相对奖励可以在学习代理的一生中发展。要处理这些非机构案件,代理商必须忘记一些历史知识,因为它可能不再与最小化的遗憾有关。我们提出了一种处理非平稳性的解决方案,该解决方案适合于大规模部署,以向业务运营商提供自动适应性优化。我们的解决方案旨在提供可解释的学习,这些学习可以被人类信任,同时响应非平稳性以最大程度地减少遗憾。为此,我们开发了一种自适应的贝叶斯学习代理,该学习者采用了一种新型的动态记忆形式。它可以通过统计假设检验来实现可解释性,通过在比较奖励并动态调整其内存以实现此功能时,通过统计能力的设定点来实现统计能力的设定点。根据设计,代理对不同种类的非平稳性不可知。使用数值模拟,我们将其绩效与现有提案进行比较,并表明在多个非平稳场景下,我们的代理人正确地适应了真实奖励的实际变化。在所有强盗解决方案中,学习和实现最大表现之间都有明确的权衡。与另一种类似强大的方法相比,我们的解决方案在此权衡方面的一个不同点:我们优先考虑可解释性,这依靠更多的学习,而付出了一些遗憾。我们描述了自动优化的大规模部署的体系结构,即服务,我们的代理商在适应不断变化的情况的同时可以实现可解释性。
translated by 谷歌翻译