我们为依次随机实验提出了一种新的扩散 - 反应分析,包括在解决多臂匪徒问题中出现的扩散分析。在使用$ n $时间步骤的实验中,我们让动作规模之间的平均奖励差距到$ 1/\ sqrt {n} $,以将学习任务的难度保留为$ n $的增长。在这个方案中,我们表明,一类顺序随机的马尔可夫实验的行为收敛到扩散极限,作为对随机微分方程的解决方案。因此,扩散极限使我们能够得出顺序实验的随机动力学的精致实例特异性表征。我们使用扩散极限来获得一些关于顺序实验的遗憾和信念演变的新见解,包括汤普森采样。一方面,我们表明,当奖励差距相对较大时,所有随机概率的顺序实验都具有lipchitz连续的依赖性。另一方面,我们发现,汤普森(Thompson)的样本具有渐近性的先验差异,达到了近乎特定实例的遗憾缩放,包括较大的奖励差距。但是,尽管使用非信息先验对汤普森采样产生了良好的遗憾,但我们表明,随着时间的流逝,诱发的后验信仰非常不稳定。
translated by 谷歌翻译
本文提供了强盗实验的决策理论分析。强盗设置对应于动态编程问题,但是直接解决这通常是不可行的。在扩散渐近框架内工作,我们定义了合适的渐近贝叶斯风险概念的强盗设置。对于正常分布的奖励,最小贝叶斯风险可以表征为非线性二阶偏微分方程(PDE)的解决方案。使用实验限制方法,我们表明,该PDE表征也在参数和非参数分布下呈渐近的奖励。该方法进一步描述了它渐近的状态变量足以限制注意力,因此表明了尺寸减少的实际策略。结果是我们可以近似使用PDE定义带状设置的动态编程问题,该PDE可以使用稀疏矩阵例程有效地解决。我们从这些方程中的数值解源于近最佳的政策。拟议的政策大大主导了现有的现有方法,如汤普森采样。该框架还允许对强盗问题进行大量概括,例如时间折扣和纯粹的探索动机。
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
关于强盗算法最佳设计的许多文献都是基于最小化预期遗憾的基础。众所周知,在某些指数家庭中最佳的设计可以实现预期的遗憾,即以LAI-ROBBINS下降的速度在ARM游戏数量上进行对数增长。在本文中,我们表明,当人们使用这种优化的设计时,相关算法的遗憾分布必然具有非常沉重的尾巴,特别是cauchy分布的尾巴。此外,对于$ p> 1 $,遗憾分布的$ p $'瞬间增长速度要比多层型的速度快得多,尤其是作为ARM播放总数的力量。我们表明,优化的UCB强盗设计在另一种意义上也是脆弱的,即,当问题甚至略有指定时,遗憾的增长可能比传统理论所建议的要快得多。我们的论点是基于标准的量化想法,并表明最有可能的遗憾变得比预期的要大的方法是最佳手臂在前几只手臂比赛中返回低于平均水平的奖励,从而导致算法相信这一点手臂是最佳的。为了减轻暴露的脆弱性问题,我们表明可以修改UCB算法,以确保对错误指定的理想程度。在此过程中,我们还提供了UCB勘探数量与产生后悔分布的尾声之间的巨大权衡。
translated by 谷歌翻译
Authors are encouraged to submit new papers to INFORMS journals by means of a style file template, which includes the journal title. However, use of a template does not certify that the paper has been accepted for publication in the named journal. INFORMS journal templates are for the exclusive purpose of submitting to an INFORMS journal and should not be used to distribute the papers in print or online or to submit the papers to another publication.
translated by 谷歌翻译
我们考虑激励探索:一种多臂匪徒的版本,其中武器的选择由自私者控制,而算法只能发布建议。该算法控制信息流,信息不对称可以激励代理探索。先前的工作达到了最佳的遗憾率,直到乘法因素,这些因素根据贝叶斯先验而变得很大,并在武器数量上成倍规模扩展。采样每只手臂的一个更基本的问题一旦遇到了类似的因素。我们专注于激励措施的价格:出于激励兼容的目的,绩效的损失,广泛解释为。我们证明,如果用足够多的数据点初始化,则标准的匪徒汤普森采样是激励兼容的。因此,当收集这些数据点时,由于激励措施的绩效损失仅限于初始回合。这个问题主要降低到样本复杂性的问题:需要多少个回合?我们解决了这个问题,提供了匹配的上限和下限,并在各种推论中实例化。通常,最佳样品复杂性在“信念强度”中的武器数量和指数中是多项式。
translated by 谷歌翻译
本文在动态定价的背景下调查预先存在的离线数据对在线学习的影响。我们在$ t $期间的销售地平线上研究单一产品动态定价问题。每个时段的需求由产品价格根据具有未知参数的线性需求模型确定。我们假设在销售地平线开始之前,卖方已经有一些预先存在的离线数据。离线数据集包含$ N $示例,其中每个标准是由历史价格和相关的需求观察组成的输入输出对。卖方希望利用预先存在的离线数据和顺序在线数据来最大限度地减少在线学习过程的遗憾。我们的特征在于在线学习过程的最佳遗憾的脱机数据的大小,位置和分散的联合效果。具体而言,离线数据的大小,位置和色散由历史样本数量为$ n $,平均历史价格与最佳价格$ \ delta $之间的距离以及历史价格的标准差价Sigma $分别。我们表明最佳遗憾是$ \ widetilde \ theta \ left(\ sqrt {t} \ wedge \ frac {t} {(n \ wedge t)\ delta ^ 2 + n \ sigma ^ 2} \右)$,基于“面对不确定性”原则的“乐观主义”的学习算法,其遗憾是最佳的对数因子。我们的结果揭示了对脱机数据的大小的最佳遗憾率的惊人变换,我们称之为阶段转型。此外,我们的结果表明,离线数据的位置和分散也对最佳遗憾具有内在效果,我们通过逆平面法量化了这种效果。
translated by 谷歌翻译
我们提出了置信度序列 - 置信区间序列,其均匀地随时间均匀 - 用于基于I.I.D的流的完整,完全有序集中的任何分布的量级。观察。我们提供用于跟踪固定定量的方法并同时跟踪所有定量。具体而言,我们提供具有小常数的明确表达式,其宽度以尽可能快的$ \ SQRT {t} \ log \ log t} $率,以及实证分布函数的非渐近浓度不等式以相同的速率均匀地持续持续。后者加强了Smirnov迭代对数的实证过程法,延长了DVORETZKY-KIEFER-WOLFOITZ不等式以均匀地保持一段时间。我们提供了一种新的算法和样本复杂性,用于在多武装强盗框架中选择具有大约最佳定量的臂。在仿真中,我们的方法需要比现有方法更少五到五十的样品。
translated by 谷歌翻译
我们在随机多臂匪徒问题中使用固定预算和上下文(协变)信息研究最佳武器识别。在观察上下文信息之后,在每一轮中,我们使用过去的观察和当前上下文选择一个治疗臂。我们的目标是确定最好的治疗组,这是一个在上下文分布中被边缘化的最大预期奖励的治疗组,而错误识别的可能性最小。首先,我们为此问题得出半参数的下限,在这里我们将最佳和次优的治疗臂的预期奖励之间的差距视为感兴趣的参数,以及所有其他参数,例如在上下文中的预期奖励,作为滋扰参数。然后,我们开发“上下文RS-AIPW策略”,该策略由随机采样(RS)规则组成,跟踪目标分配比和使用增强反向概率加权(AIPW)估算器的建议规则。我们提出的上下文RS-AIPW策略是最佳的,因为错误识别概率的上限与预算到Infinity时的半参数下限相匹配,并且差距趋于零。
translated by 谷歌翻译
在因果推理和强盗文献中,基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序,然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限:这些边界表明,为了获得非反应性最佳程序,应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序,并通过匹配非轴突局部局部最小值下限,在有限样品中建立了实例依赖性最优性。这些结果表明,除了取决于渐近效率方差之外,最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。
translated by 谷歌翻译
大多数在线平台都在努力从与用户的互动中学习,许多人从事探索:为了获取新信息而做出潜在的次优选择。我们研究探索与竞争之间的相互作用:这样的平台如何平衡学习探索和用户的竞争。在这里,用户扮演三个不同的角色:他们是产生收入的客户,他们是学习的数据来源,并且是自私的代理商,可以在竞争平台中进行选择。我们考虑了一种风格化的双重垄断模型,其中两家公司面临着相同的多军强盗问题。用户一一到达,并在两家公司之间进行选择,因此,只有在选择它的情况下,每个公司都在其强盗问题上取得进展。通过理论结果和数值模拟的混合,我们研究了竞争是否会激发更好的Bandit算法的采用,以及它是否导致用户增加福利。我们发现,Stark竞争会导致公司致力于导致低福利的“贪婪”强盗算法。但是,通过向公司提供一些“免费”用户来激励更好的探索策略并增加福利来削弱竞争。我们调查了削弱竞争的两个渠道:放松用户的理性并为一家公司带来首次推广优势。我们的发现与“竞争与创新”关系密切相关,并阐明了数字经济中的第一步优势。
translated by 谷歌翻译
在这项工作中,我们研究了数据驱动的决策,并偏离了经典的相同和独立分布(I.I.D.)假设。我们提出了一个新的框架,其中我们将历史样本从未知和不同的分布中产生,我们将其配置为异质环境。假定这些分布位于具有已知半径的异质球中,并围绕(也是)未知的未来(样本外)分布,将评估决策的表现。我们量化了中央数据驱动的策略(例如样本平均近似值,也可以通过速率优势)来量化的渐近性最坏案例遗憾,这是异质性球半径的函数。我们的工作表明,在问题类别和异质性概念的不同组合中,可实现的性能类型的变化很大。我们通过比较广泛研究的数据驱动问题(例如定价,滑雪租赁和新闻顾问)的异质版本来证明框架的多功能性。在途中,我们在数据驱动的决策和分配强大的优化之间建立了新的联系。
translated by 谷歌翻译
我们考虑一个强盗问题,决策者可以在任何时候在她的考虑设置中添加新的武器。一个新的手臂以“手臂库”为代价,其中包含有限的“手臂类型”,每个手臂都以明显的平均奖励为特征。查询成本反映出返回的手臂是最佳选择的可能性,决策者不知道。此功能封装了定义一系列受操作启发的在线学习问题的特征,例如,在流失的市场中产生的特征,或涉及涉及昂贵资源收购的分配的特征。决策者的目标是最大程度地提高其累积的预期收益,这是一系列拉动的收益,忽略了统计属性以及查询武器的类型。我们研究了储层分布中的两种自然内生性模式,并表征了(紧密的)必要条件,以实现该问题的次线性遗憾。我们还提供了内生性对针对问题的静态版本(无内生性)量身定制算法的影响的粒状分析。在此过程中,我们提出了一种新的算法,并提供了精致的分析,从而为现有文献提供了更严格的范围。我们认为我们的发现可能会引起广泛的兴趣,并指导该地区未来的工作。
translated by 谷歌翻译
在臂分布的标准假设下广泛研究了随机多臂强盗问题(例如,用已知的支持,指数家庭等)。这些假设适用于许多现实世界问题,但有时他们需要知识(例如,在尾部上),从业者可能无法精确访问,提高强盗算法的鲁棒性的问题,以模拟拼盘。在本文中,我们研究了一种通用的Dirichlet采样(DS)算法,基于通过重新采样的武器观测和数​​据相关的探索奖励计算的经验指标的成对比较。我们表明,当该策略的界限和对数后悔具有轻度分量度条件的半界分布时,这种策略的不同变体达到了可证明的最佳遗憾。我们还表明,一项简单的调整在大类无界分布方面实现了坚固性,其成本比对数渐近的遗憾略差。我们终于提供了数字实验,展示了合成农业数据的决策问题中DS的优点。
translated by 谷歌翻译
机器学习通常以经典的概率理论为前提,这意味着聚集是基于期望的。现在有多种原因可以激励人们将经典概率理论作为机器学习的数学基础。我们系统地检查了一系列强大而丰富的此类替代品,即各种称为光谱风险度量,Choquet积分或Lorentz规范。我们提出了一系列的表征结果,并演示了使这个光谱家族如此特别的原因。在此过程中,我们证明了所有连贯的风险度量的自然分层,从它们通过利用重新安排不变性Banach空间理论的结果来诱导的上层概率。我们凭经验证明了这种新的不确定性方法如何有助于解决实用的机器学习问题。
translated by 谷歌翻译
出现了前两种算法,作为汤普森采样对多臂匪徒模型中最佳手臂识别的适应(Russo,2016),用于武器的参数家族。他们通过在两个候选臂,一个领导者和一个挑战者中随机化来选择下一个要采样的臂。尽管具有良好的经验表现,但仅当手臂是具有已知差异的高斯时,才能获得固定信心最佳手臂识别的理论保证。在本文中,我们提供了对两种方法的一般分析,该方法确定了领导者,挑战者和武器(可能是非参数)分布的理想特性。结果,我们获得了理论上支持的前两种算法,用于具有有限分布的最佳臂识别。我们的证明方法特别证明了用于选择从汤普森采样继承的领导者的采样步骤可以用其他选择代替,例如选择经验最佳的臂。
translated by 谷歌翻译
在线学习和决策中的一个核心问题 - 从土匪到强化学习 - 是要了解哪种建模假设会导致样本有效的学习保证。我们考虑了一个普遍的对抗性决策框架,该框架涵盖了(结构化的)匪徒问题,这些问题与对抗性动力学有关。我们的主要结果是通过新的上限和下限显示决策估计系数,这是Foster等人引入的复杂度度量。在与我们环境的随机对应物中,对于对抗性决策而言是必要和足够的遗憾。但是,与随机设置相比,必须将决策估计系数应用于所考虑的模型类(或假设)的凸壳。这就确定了容纳对抗奖励或动态的价格受凸层化模型类的行为的约束,并恢复了许多现有结果 - 既积极又负面。在获得这些保证的途径中,我们提供了新的结构结果,将决策估计系数与其他众所周知的复杂性度量的变体联系起来,包括Russo和Van Roy的信息比以及Lattimore和Gy的探索目标\“ {o} rgy。
translated by 谷歌翻译
我们考虑使用$ K $臂的随机匪徒问题,每一个都与$ [m,m] $范围内支持的有限分布相关。我们不认为$ [m,m] $是已知的范围,并表明学习此范围有成本。确实,出现了与分销相关和无分配后悔界限之间的新权衡,这阻止了同时实现典型的$ \ ln t $和$ \ sqrt {t} $ bunds。例如,仅当与分布相关的遗憾界限至少属于$ \ sqrt {t} $的顺序时,才能实现$ \ sqrt {t} $}无分布遗憾。我们展示了一项策略,以实现新的权衡表明的遗憾。
translated by 谷歌翻译
我们考虑使用未知差异的双臂高斯匪徒的固定预算最佳臂识别问题。当差异未知时,性能保证与下限的性能保证匹配的算法最紧密的下限和算法的算法很长。当算法不可知到ARM的最佳比例算法。在本文中,我们提出了一种策略,该策略包括在估计的ARM绘制的目标分配概率之后具有随机采样(RS)的采样规则,并且使用增强的反概率加权(AIPW)估计器通常用于因果推断文学。我们将我们的战略称为RS-AIPW战略。在理论分析中,我们首先推导出鞅的大偏差原理,当第二次孵化的均值时,可以使用,并将其应用于我们提出的策略。然后,我们表明,拟议的策略在错误识别的可能性达到了Kaufmann等人的意义上是渐近最佳的。 (2016)当样品尺寸无限大而双臂之间的间隙变为零。
translated by 谷歌翻译
Sequential testing, always-valid $p$-values, and confidence sequences promise flexible statistical inference and on-the-fly decision making. However, unlike fixed-$n$ inference based on asymptotic normality, existing sequential tests either make parametric assumptions and end up under-covering/over-rejecting when these fail or use non-parametric but conservative concentration inequalities and end up over-covering/under-rejecting. To circumvent these issues, we sidestep exact at-least-$\alpha$ coverage and focus on asymptotically exact coverage and asymptotic optimality. That is, we seek sequential tests whose probability of ever rejecting a true hypothesis asymptotically approaches $\alpha$ and whose expected time to reject a false hypothesis approaches a lower bound on all tests with asymptotic coverage at least $\alpha$, both under an appropriate asymptotic regime. We permit observations to be both non-parametric and dependent and focus on testing whether the observations form a martingale difference sequence. We propose the universal sequential probability ratio test (uSPRT), a slight modification to the normal-mixture sequential probability ratio test, where we add a burn-in period and adjust thresholds accordingly. We show that even in this very general setting, the uSPRT is asymptotically optimal under mild generic conditions. We apply the results to stabilized estimating equations to test means, treatment effects, etc. Our results also provide corresponding guarantees for the implied confidence sequences. Numerical simulations verify our guarantees and the benefits of the uSPRT over alternatives.
translated by 谷歌翻译