在本文中,我们在稀疏的随机上下文线性土匪中重新审视了遗憾的最小化问题,其中特征向量可能具有很大的尺寸$ d $,但是奖励功能取决于一些,例如$ s_0 \ ll d $,其中这些功能的这些功能只要。我们提出了阈值拉索匪徒,该算法(i)估算了定义奖励功能及其稀疏支持的向量,即显着特征元素,使用带有阈值的Lasso框架,以及(ii)根据此处选择手臂估计预测其支持。该算法不需要对稀疏索引$ s_0 $的先验知识,并且可以在某些对称假设下不含参数。对于这种简单的算法,我们将非偶然的遗憾上限建立为$ \ mathcal {o}(\ log d + d + \ sqrt {t})$一般,为$ \ mathcal {o} log t)$在所谓的边缘条件下(手臂奖励分离的概率条件)。以前的算法的遗憾将其缩放为$ \ Mathcal {o}(\ log D + \ \ sqrt {t \ log(d t)})$和$ \ mathcal {o}(\ log log t \ log t \ log t \ log t \ log d)$设置分别。通过数值实验,我们确认我们的算法优于现有方法。
translated by 谷歌翻译
We consider the stochastic linear contextual bandit problem with high-dimensional features. We analyze the Thompson sampling (TS) algorithm, using special classes of sparsity-inducing priors (e.g. spike-and-slab) to model the unknown parameter, and provide a nearly optimal upper bound on the expected cumulative regret. To the best of our knowledge, this is the first work that provides theoretical guarantees of Thompson sampling in high dimensional and sparse contextual bandits. For faster computation, we use spike-and-slab prior to model the unknown parameter and variational inference instead of MCMC to approximate the posterior distribution. Extensive simulations demonstrate improved performance of our proposed algorithm over existing ones.
translated by 谷歌翻译
具有低维结构的随机高维匪徒问题可用于不同的应用程序,例如在线广告和药物发现。在这项工作中,我们为此类问题提出了一种简单的统一算法,并为我们算法的遗憾上限提供了一个一般分析框架。我们表明,在一些温和的统一假设下,我们的算法可以应用于不同的高维匪徒问题。我们的框架利用低维结构来指导问题中的参数估计,因此我们的算法在套索匪徒中达到了可比的遗憾界限,以及低级别矩阵匪徒的新颖界限,组稀疏矩阵强盗和IN组中一个新问题:多代理拉索强盗。
translated by 谷歌翻译
我们为线性上下文匪徒提出了一种新颖的算法(\ sqrt {dt \ log t})$遗憾,其中$ d $是上下文的尺寸,$ t $是时间范围。我们提出的算法配备了一种新型估计量,其中探索通过显式随机化嵌入。根据随机化的不同,我们提出的估计器从所有武器的上下文或选定的上下文中都取得了贡献。我们为我们的估计器建立了一个自称的绑定,这使累积遗憾的新颖分解为依赖添加剂的术语而不是乘法术语。在我们的问题设置下,我们还证明了$ \ omega(\ sqrt {dt})$的新颖下限。因此,我们提出的算法的遗憾与对数因素的下限相匹配。数值实验支持理论保证,并表明我们所提出的方法的表现优于现有的线性匪徒算法。
translated by 谷歌翻译
我们研究了在高维稀疏线性上下文匪徒中动态批处理学习的问题,在给定的最大批量约束下,决策者在每个批次结束时只能观察奖励,可以动态地决定如何进行奖励。许多人将包括在下一批中(在当前批次结束时)以及每批采用哪些个性化行动选择方案。在各种实际情况下,这种批处理的限制无处不在,包括在临床试验中的营销和医疗选择中的个性化产品。我们通过后悔的下限表征了此问题中的基本学习限制,并提供了匹配的上限(直至日志因素),从而为此问题开了最佳方案。据我们所知,我们的工作为在高维稀疏线性上下文匪徒中对动态批处理学习的理论理解提供了第一个侵入。值得注意的是,即使我们的结果的一种特殊情况 - 当不存在批处理约束时 - 都会产生简单的无探索算法使用Lasso估算器,已经达到了在高维线性匪板中为标准在线学习的最小值最佳遗憾(对于No-Cargin情况),在高维上下文Bandits的新兴文献中似乎未知。
translated by 谷歌翻译
决策者经常面对“许多匪徒”问题,其中必须同时学习相关但异构的情境匪徒实例。例如,大型零售商可能希望在许多商店中动态地学习产品需求,以解决定价或库存问题,这使得可以共同学习为服务类似客户的商店;或者,医院网络可能希望在许多提供商中动态学习患者风险以分配个性化干预措施,这使得可以为服务类似患者群体的医院共同学习。我们研究每个匪徒实例中未知参数可以分解为全局参数加上稀疏实例特定术语的设置。然后,我们提出了一种新颖的两级估计器,通过使用强大的统计数据组合(在类似的实例中学到)和套索回归(将结果进行替代),以样本有效的方式利用这种结构。我们在强盗算法中嵌入了这个估计器,并证明它在上下文维度下,它可以改善渐近遗憾界限。这种改进是数据较差的实例的指数。我们进一步展示了我们的结果如何依赖于强盗实例的基础网络结构。
translated by 谷歌翻译
我们为随机线性匪徒问题提出了一种新的基于自举的在线算法。关键的想法是采用残留的自举勘探,在该探索中,代理商通过重新采样平均奖励估算的残差来估算下一步奖励。我们的算法,随机线性匪徒(\ texttt {linreboot})的残留bootstrap探索,从其重新采样分布中估算了线性奖励,并以最高的奖励估计拉动了手臂。特别是,我们为理论框架做出了一个理论框架,以使基于自举的探索机制在随机线性匪徒问题中脱颖而出。关键见解是,Bootstrap探索的强度基于在线学习模型和残差的重新采样分布之间的乐观情绪。这样的观察使我们能够证明所提出的\ texttt {linreboot}确保了高概率$ \ tilde {o}(d \ sqrt {n})$ sub-linear在温和条件下的遗憾。我们的实验支持\ texttt {重新启动}原理在线性匪徒问题的各种公式中的简易概括性,并显示了\ texttt {linreboot}的显着计算效率。
translated by 谷歌翻译
我们建议使用$ \ tilde {o}(\ sqrt {\ kappa^{ - 1} \ phi t} \ phi t})$ hears $ t $ the $ \ phi $ phi $是$ \ phi $是最olutimut,$ \ phi $是$ \ phi $,我们提出了一种用于广义线性奖励的新颖的上下文强盗算法。上下文协方差和$ \ kappa $的特征值是奖励差异的下限。在几种实际情况下,$ \ phi = o(d)$,我们的结果是带有$ \ sqrt {d} $的广义线性模型(GLM)土匪的第一个遗憾,而无需依赖Auer [2002]的方法。我们使用一个称为双重运动估计器的新型估计器(Doubly-bobust(DR)估计器的子类,但误差较紧,我们就实现了这种结合。 Auer [2002]的方法通过丢弃观察到的奖励来实现独立性,而我们的算法则在使用我们的DDR估计器的所有情况下实现了独立性。我们还提供了一个$ o(\ kappa^{ - 1} \ phi \ log(nt)\ log t)$遗憾在概率的边缘条件下以$ n $武器约束。 Bastani和Bayati [2020]和Bastani等人给出了遗憾的界限。 [2021]在环境中,所有臂都是共同的,但系数是特定的。当所有臂的上下文都不同,但系数很常见时,我们的第一个遗憾是在线性模型或GLM的边缘条件下绑定的。我们使用合成数据和真实示例进行实证研究,证明了我们的算法的有效性。
translated by 谷歌翻译
上下文匪徒的模型选择是一个重要的互补问题,以便对固定式模型类进行后悔最小化。我们考虑最简单的模型选择实例:区分从线性上下文强盗问题中的简单的多武装强盗问题。即使在这种情况下,目前的最先进的方法以次优的方式探索,并且需要强烈的“特征分集”条件。在本文中,我们介绍了一种以数据适应方式探索的新算法,b)提供表单$ \ mathcal {o}的模型选择保证(d ^ {\ alpha} t ^ {1- \ alpha} )$,没有任何功能分集条件,其中$ d $表示线性模型的尺寸,$ t $表示圆数的总轮数。第一个算法享有“最佳世界”属性,恢复两种以后的分布假设,同时恢复两种结果。第二种删除分布假设,扩展了易于模型选择的范围。我们的方法在一些额外的假设下延伸到嵌套线性上下文匪徒之间的模型选择。
translated by 谷歌翻译
动态治疗方案(DTRS)是个性化的,适应性的,多阶段的治疗计划,可将治疗决策适应个人的初始特征,并在随后的每个阶段中的中级结果和特征,在前阶段受到决策的影响。例子包括对糖尿病,癌症和抑郁症等慢性病的个性化一线和二线治疗,这些治疗适应患者对一线治疗,疾病进展和个人特征的反应。尽管现有文献主要集中于估算离线数据(例如从依次随机试验)中的最佳DTR,但我们研究了以在线方式开发最佳DTR的问题,在线与每个人的互动都会影响我们的累积奖励和我们的数据收集,以供我们的数据收集。未来的学习。我们将其称为DTR匪徒问题。我们提出了一种新颖的算法,通过仔细平衡探索和剥削,可以保证当过渡和奖励模型是线性时,可以实现最佳的遗憾。我们证明了我们的算法及其在合成实验和使用现实世界中对重大抑郁症的适应性治疗的案例研究中的好处。
translated by 谷歌翻译
We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $\Omega(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.
translated by 谷歌翻译
匪徒问题的最新作品在顺序决策环境中采用了拉索融合理论。即使有完全观察到的上下文,也存在一些技术挑战,阻碍了现有的套索融合理论的应用:1)证明在有条件的高斯噪声下的受限特征值条件和2)考虑上下文变量与所选动作之间的依赖性。本文研究了缺失协变量对随机线性匪徒遗憾的影响。我们的工作为拟议算法所产生的协变量概率所产生的遗憾提供了高概率的上限,这表明遗憾的是由于缺失而导致的遗憾,最多$ \ zeta_ {min}^2 $,其中$ \ zeta_ { min} $是在上下文向量观察协变量的最小概率。我们说明了我们的算法,用于实验设计的实际应用来通过连续选择的类别区分DNA探针来收集基因表达数据。
translated by 谷歌翻译
我们考虑使用未知差异的双臂高斯匪徒的固定预算最佳臂识别问题。当差异未知时,性能保证与下限的性能保证匹配的算法最紧密的下限和算法的算法很长。当算法不可知到ARM的最佳比例算法。在本文中,我们提出了一种策略,该策略包括在估计的ARM绘制的目标分配概率之后具有随机采样(RS)的采样规则,并且使用增强的反概率加权(AIPW)估计器通常用于因果推断文学。我们将我们的战略称为RS-AIPW战略。在理论分析中,我们首先推导出鞅的大偏差原理,当第二次孵化的均值时,可以使用,并将其应用于我们提出的策略。然后,我们表明,拟议的策略在错误识别的可能性达到了Kaufmann等人的意义上是渐近最佳的。 (2016)当样品尺寸无限大而双臂之间的间隙变为零。
translated by 谷歌翻译
在线学习算法广泛用于网络上的搜索和内容优化,必须平衡探索和开发,可能牺牲当前用户的经验,以获得将来会导致未来更好决策的信息。虽然在最坏的情况下,与贪婪算法相比,显式探索具有许多缺点,其通过选择当前看起来最佳的动作始终“利用”。我们在数据中固有的多样性的情况下提出了明确的探索不必要。我们在最近的一系列工作中进行了线性上下围匪盗模型中贪婪算法的平滑分析。我们提高了先前的结果,表明,只要多样性条件保持,贪婪的方法几乎符合任何其他算法的最佳可能性贝叶斯遗憾率,并且这种遗憾是最多的$ \ tilde o(t ^ {1/ 3})$。
translated by 谷歌翻译
我们研究了情节块MDP中模型估计和无奖励学习的问题。在这些MDP中,决策者可以访问少数潜在状态产生的丰富观察或上下文。我们首先对基于固定行为策略生成的数据估算潜在状态解码功能(从观测到潜在状态的映射)感兴趣。我们在估计此功能的错误率上得出了信息理论的下限,并提出了接近此基本限制的算法。反过来,我们的算法还提供了MDP的所有组件的估计值。然后,我们研究在无奖励框架中学习近乎最佳政策的问题。根据我们有效的模型估计算法,我们表明我们可以以最佳的速度推断出策略(随着收集样品的数量增长大)的最佳策略。有趣的是,我们的分析提供了必要和充分的条件,在这些条件下,利用块结构可以改善样本复杂性,以识别近乎最佳的策略。当满足这些条件时,Minimax无奖励设置中的样本复杂性将通过乘法因子$ n $提高,其中$ n $是可能的上下文数量。
translated by 谷歌翻译
本文研究了在因果图形模型中设计最佳干预措施序列的问题,以最大程度地减少对事后最佳干预的累积后悔。自然,这是一个因果匪徒问题。重点是线性结构方程模型(SEM)和软干预措施的因果匪徒。假定该图的结构是已知的,并且具有$ n $节点。每个节点都假定使用两种线性机制,一种软干预和一种观察性,产生了$ 2^n $可能的干预措施。现有的因果匪徒算法假设,至少完全指定了奖励节点父母的介入分布。但是,有$ 2^n $这样的分布(一个与每个干预措施相对应),即使在中等尺寸的图中也变得越来越高。本文分配了知道这些分布的假设。提出了两种算法,用于常见者(基于UCB)和贝叶斯(基于汤普森采样)的设置。这些算法的关键思想是避免直接估计$ 2^n $奖励分布,而是估算完全指定SEMS($ n $线性)的参数,并使用它们来计算奖励。在这两种算法中,在噪声和参数空间的有界假设下,累积遗憾的是$ \ tilde {\ cal o}(((2d)^l l \ sqrt {t})$,其中$ d $是图的最高度和$ l $是其最长因果路径的长度。
translated by 谷歌翻译
我们在随机多臂匪徒问题中使用固定预算和上下文(协变)信息研究最佳武器识别。在观察上下文信息之后,在每一轮中,我们使用过去的观察和当前上下文选择一个治疗臂。我们的目标是确定最好的治疗组,这是一个在上下文分布中被边缘化的最大预期奖励的治疗组,而错误识别的可能性最小。首先,我们为此问题得出半参数的下限,在这里我们将最佳和次优的治疗臂的预期奖励之间的差距视为感兴趣的参数,以及所有其他参数,例如在上下文中的预期奖励,作为滋扰参数。然后,我们开发“上下文RS-AIPW策略”,该策略由随机采样(RS)规则组成,跟踪目标分配比和使用增强反向概率加权(AIPW)估算器的建议规则。我们提出的上下文RS-AIPW策略是最佳的,因为错误识别概率的上限与预算到Infinity时的半参数下限相匹配,并且差距趋于零。
translated by 谷歌翻译
我们研究了批量线性上下文匪徒的最佳批量遗憾权衡。对于任何批次数$ M $,操作次数$ k $,时间范围$ t $和维度$ d $,我们提供了一种算法,并证明了其遗憾的保证,这是由于技术原因,具有两阶段表达作为时间的时间$ t $ grose。我们还证明了一个令人奇迹的定理,令人惊讶地显示了在问题参数的“问题参数”中的两相遗憾(最高〜对数因子)的最优性,因此建立了确切的批量后悔权衡。与最近的工作\ citep {ruan2020linear}相比,这表明$ m = o(\ log \ log t)$批次实现无需批处理限制的渐近最佳遗憾的渐近最佳遗憾,我们的算法更简单,更易于实际实现。此外,我们的算法实现了所有$ t \ geq d $的最佳遗憾,而\ citep {ruan2020linear}要求$ t $大于$ d $的不切实际的大多项式。沿着我们的分析,我们还证明了一种新的矩阵集中不平等,依赖于他们的动态上限,这是我们的知识,这是其文学中的第一个和独立兴趣。
translated by 谷歌翻译
我们研究固定预算设置中线性匪徒中最佳手臂识别的问题。通过利用G-Optimal设计的属性并将其纳入ARM分配规则,我们设计了一种无参数算法,基于最佳设计的基于设计的线性最佳臂识别(OD-Linbai)。我们提供了OD-Linbai的失败概率的理论分析。 OD-Linbai的性能并非所有最优差距,而是取决于顶部$ d $臂的差距,其中$ d $是线性匪徒实例的有效维度。补充,我们为此问题提供了一个Minimax下限。上限和下限表明,OD-Linbai是最佳的最佳选择,直到指数中的恒定乘法因素,这是对现有方法的显着改进(例如,贝耶斯加普,和平,线性化和GSE),并解决了确定确定该问题的问题。在固定预算设置中学习最好的手臂的困难。最后,数值实验表明,对各种真实和合成数据集的现有算法进行了相当大的经验改进。
translated by 谷歌翻译
我们在存在对抗性腐败的情况下研究线性上下文的强盗问题,在场,每回合的奖励都被对手损坏,腐败级别(即,地平线上的腐败总数)为$ c \ geq 0 $。在这种情况下,最著名的算法受到限制,因为它们要么在计算效率低下,要么需要对腐败做出强烈的假设,或者他们的遗憾至少比没有腐败的遗憾差的$ C $倍。在本文中,为了克服这些局限性,我们提出了一种基于不确定性的乐观原则的新算法。我们算法的核心是加权山脊回归,每个选择动作的重量都取决于其置信度,直到一定的阈值。 We show that for both known $C$ and unknown $C$ cases, our algorithm with proper choice of hyperparameter achieves a regret that nearly matches the lower bounds.因此,我们的算法几乎是两种情况的对数因素的最佳选择。值得注意的是,我们的算法同时对腐败和未腐败的案件($ c = 0 $)实现了近乎最理想的遗憾。
translated by 谷歌翻译