在本文中,我们通过提取最小半径路径研究网络中的瓶颈标识。许多现实世界网络具有随机重量,用于预先提供全面知识。因此,我们将此任务塑造为组合半发布会问题,我们应用了汤普森采样的组合版本,并在相应的贝叶斯遗憾地建立了上限。由于该问题的计算诡计,我们设计了一种替代问题,其近似于原始目标。最后,我们通过对现实世界指导和无向网络的近似配方进行了实验评估了汤普森抽样的性能。
translated by 谷歌翻译
节能导航构成了电动汽车的一个重要挑战,因为其有限的电池容量。我们采用贝叶斯方法在用于高效的导航路段的能耗模型。为了学习模型参数,我们开发了一个在线学习框架,并研究了几种勘探战略,如汤普森采样和上界的信心。然后,我们我们的在线学习框架扩展到多代理设置,其中多个车辆自适应导航和学习的能量模型的参数。我们分析汤普森采样和它在单剂和多代理设置性能建立严格的遗憾界限,通过下成批反馈算法的分析。最后,我们证明我们的方法通过实验,在几个真实世界的城市道路网络的性能。
translated by 谷歌翻译
瓶颈标识是网络分析中的一项艰巨任务,尤其是当网络未完全指定时。为了解决此任务,我们基于组合半伴侣制定了一个统一的在线学习框架,该框架可以执行瓶颈标识,并学习基础网络的规格。在此框架内,我们适应并研究了几种组合半伴侣方法,例如Epsilon-Greedy,Linucb,Bayeasucb和Thompson采样。我们的框架能够采用上下文匪徒的形式采用上下文信息。我们在道路网络的实际应用上评估了我们的框架,并在不同的环境中展示了其有效性。
translated by 谷歌翻译
节能导航构成电动汽车的重要挑战,由于其电池容量有限。我们采用贝叶斯方向来模拟路段的能耗,以实现高效导航。为了学习模型参数,我们开发在线学习框架,并调查诸如Thompson采样和上部束缚等几个勘探策略。然后,我们将在线学习框架扩展到多代理设置,其中多个车辆自适应地导航和学习能量模型的参数。我们分析汤普森采样,并在其表现上建立严格的遗憾。最后,我们通过在卢森堡Sumo流量数据集上的几个现实世界实验展示了我们的方法的表现。
translated by 谷歌翻译
汤普森抽样(TS)吸引了对强盗区域的兴趣。它在20世纪30年代介绍,但近年来尚未经过理论上证明。其在组合多武装强盗(CMAB)设置中的所有分析都需要精确的Oracle来提供任何输入的最佳解决方案。然而,这种Oracle通常是不可行的,因为许多组合优化问题是NP - 硬,并且只有近似oracles可用。一个例子(王和陈,2018)已经表明TS的失败来学习近似Oracle。但是,此Oracle罕见,仅用于特定问题实例。它仍然是一个开放的问题,无论TS的收敛分析是否可以扩展到CMAB中的精确oracle。在本文中,我们在贪婪的Oracle下研究了这个问题,这是一个常见的(近似)Oracle,具有理论上的保证来解决许多(离线)组合优化问题。我们提供了一个问题依赖性遗憾的遗憾下限为$ \ omega(\ log t / delta ^ 2)$,以量化Ts的硬度来解决贪婪的甲骨文的CMAB问题,其中$ T $是时间范围和$ Delta $是一些奖励差距。我们还提供几乎匹配的遗憾上限。这些是TS解决CMAB与常见近似甲骨文的第一个理论结果,并打破TS无法使用近似神谕的误解。
translated by 谷歌翻译
在本文中,我们研究了汤普森采样(TS)方法的应用到随机组合多臂匪徒(CMAB)框架中。当所有基本臂的结果分布都是独立的,并获得$ o(m \ log k _ {\ max} \ log t / \ delta_时,我们首先分析一般CMAB模型的标准TS算法。 {\ min})$,其中$ m $是基本武器的数量,$ k _ {\ max} $是最大的超级臂的大小,$ t $是时间范围,而$ \ delta _ {\ min} $是最佳解决方案的预期奖励与任何非最佳解决方案之间的最小差距。这种遗憾的上限比$ o(m(\ log k _ {\ max})^2 \ log t / \ delta _ {\ min})$更好。此外,我们的新颖分析技术可以帮助收紧其他基于UCB的政策(例如ESC)的遗憾界限,因为我们改善了计算累积遗憾的方法。然后,我们考虑Matroid Bandit设置(CMAB模型的特殊类别),在这里我们可以删除跨武器的独立性假设,并实现与下限匹配的遗憾上限。除了遗憾的上限外,我们还指出,一个人不能直接替换确切的离线甲骨文(将离线问题实例的参数作为输入,并在此实例下输出确切的最佳操作),用TS算法中的近似oracle替换了ts算法的近似值。甚至经典的mAb问题。最后,我们使用一些实验来显示TS遗憾与其他现有算法之间的比较,实验结果表明TS优于现有基准。
translated by 谷歌翻译
现有的组合纯探索方法主要集中在UCB方法上。为了提高算法,他们通常使用ARM SET $ S $内的上限限制的总和来表示$ S $的上限限制,这可能比$ S $的紧密上限限制大得多,并导致由于$ S $中不同武器的经验手段是独立的,因此复杂性要比必要的要高得多。为了应对这一挑战,我们探索了使用独立的随机样品而不是上限置信边界的汤普森采样(TS)的想法,并为(组合)纯探索设计了第一个基于TS的算法TS-TS-explore。在TS-explore中,ARM集合$ S $中的独立随机样品的总和不会超过具有高概率的$ S $的紧密上限限制。因此,它解决了上述挑战,并且比一般组合纯探索中现有的基于UCB的算法的复杂性更高。至于对经典多臂强盗的纯粹探索,我们表明TS-explore实现了渐近最佳的复杂性上限。
translated by 谷歌翻译
我们研究上下文多军匪徒设置中的排名问题。学习代理在每个时间步骤中选择一个有序的项目列表,并观察每个位置的随机结果。在在线推荐系统中,显示最有吸引力的项目的有序列表将不是最佳选择,因为位置和项目依赖性都会带来复杂的奖励功能。一个非常天真的例子是,当所有最有吸引力的物品都来自同一类别时,缺乏多样性。我们为此问题在“排序列表”和“设计UCB”和Thompson采样类型算法中对位置和项目依赖性建模。我们证明,遗憾超过$ t $ rounds和$ l $ positions是$ \ tilde {o}(l \ sqrt {d t})$,它的订单与以前在$ t $和$ t $方面的作品相同仅用$ L $线性增加。我们的工作将现有的研究推广到多个方向,包括位置折扣是特定情况的位置依赖性,并提出了更一般的背景匪徒模型。
translated by 谷歌翻译
在本文中,我们研究了组合半伴侣(CMAB),并专注于减少遗憾的批量$ k $的依赖性,其中$ k $是可以拉动或触发的武器总数每个回合。首先,对于用概率触发的臂(CMAB-T)设置CMAB,我们发现了一个新颖的(定向)触发概率和方差调制(TPVM)条件,可以替代各种应用程序的先前使用的平滑度条件,例如级联bandsistits bandits bandits。 ,在线网络探索和在线影响最大化。在这种新条件下,我们提出了一种具有方差感知置信区间的BCUCB-T算法,并进行遗憾分析,将$ O(k)$ actival降低到$ o(\ log k)$或$ o(\ log^2 k) )$在遗憾中,大大改善了上述申请的后悔界限。其次,为了设置具有独立武器的非触发CMAB,我们提出了一种SESCB算法,该算法利用TPVM条件的非触发版本,并完全消除了对$ k $的依赖,以备受遗憾。作为有价值的副产品,本文使用的遗憾分析可以将几个现有结果提高到$ O(\ log K)$的一倍。最后,实验评估表明,与不同应用中的基准算法相比,我们的表现出色。
translated by 谷歌翻译
我们研究汤普森采样(TS)算法的遗憾,指数为家庭土匪,其中奖励分配来自一个一维指数式家庭,该家庭涵盖了许多常见的奖励分布,包括伯努利,高斯,伽玛,伽玛,指数等。我们建议汤普森采样算法,称为expts,它使用新颖的采样分布来避免估计最佳臂。我们为expts提供了严格的遗憾分析,同时产生有限的遗憾和渐近遗憾。特别是,对于带指数级家庭奖励的$ k $臂匪徒,expts of horizo​​n $ t $ sub-ucb(对于有限的时间遗憾的是问题依赖的有限时间标准) $ \ sqrt {\ log k} $,并且对于指数家庭奖励,渐近最佳。此外,我们通过在Expts中使用的采样分配外添加一个贪婪的剥削步骤,提出$^+$,以避免过度估计亚最佳武器。 expts $^+$是随时随地的强盗算法,可用于指数级的家庭奖励分布同时实现最小值和渐近最优性。我们的证明技术在概念上很简单,可以轻松地应用于用特定奖励分布分析标准的汤普森抽样。
translated by 谷歌翻译
Thompson Sampling is one of the oldest heuristics for multi-armed bandit problems. It is a randomized algorithm based on Bayesian ideas, and has recently generated significant interest after several studies demonstrated it to have better empirical performance compared to the stateof-the-art methods. However, many questions regarding its theoretical performance remained open. In this paper, we design and analyze a generalization of Thompson Sampling algorithm for the stochastic contextual multi-armed bandit problem with linear payoff functions, when the contexts are provided by an adaptive adversary. This is among the most important and widely studied version of the contextual bandits problem. We provide the first theoretical guarantees for the contextual version of Thompson Sampling. We prove a high probability regret bound of Õ(d 3/2 √ T ) (or Õ(d T log(N ))), which is the best regret bound achieved by any computationally efficient algorithm for this problem, and is within a factor of √ d (or log(N )) of the information-theoretic lower bound for this problem.
translated by 谷歌翻译
We consider the stochastic linear contextual bandit problem with high-dimensional features. We analyze the Thompson sampling (TS) algorithm, using special classes of sparsity-inducing priors (e.g. spike-and-slab) to model the unknown parameter, and provide a nearly optimal upper bound on the expected cumulative regret. To the best of our knowledge, this is the first work that provides theoretical guarantees of Thompson sampling in high dimensional and sparse contextual bandits. For faster computation, we use spike-and-slab prior to model the unknown parameter and variational inference instead of MCMC to approximate the posterior distribution. Extensive simulations demonstrate improved performance of our proposed algorithm over existing ones.
translated by 谷歌翻译
信息指导的采样(IDS)最近证明了其作为数据效率增强学习算法的潜力。但是,目前尚不清楚当可用上下文信息时,要优化的信息比的正确形式是什么。我们通过两个上下文强盗问题研究IDS设计:具有图形反馈和稀疏线性上下文匪徒的上下文强盗。我们证明了上下文ID比条件ID的优势,并强调考虑上下文分布的重要性。主要信息是,智能代理人应该在有条件的ID可能是近视的情况下对未来看不见的环境有益的行动进行更多的投资。我们进一步提出了基于Actor-Critic的上下文ID的计算效率版本,并在神经网络上下文的强盗上进行经验评估。
translated by 谷歌翻译
我们解决了在线顺序决策的问题,即在利用当前知识以最大程度地提高绩效和探索新信息以使用多武器的强盗框架获得长期利益之间的权衡平衡。汤普森采样是选择解决这一探索探索困境的动作的启发式方法之一。我们首先提出了一个通用框架,该框架可帮助启发性地调整汤普森采样中的探索与剥削权衡取舍,并使用后部分布中的多个样本进行调整。利用此框架,我们为多臂匪徒问题提出了两种算法,并为累积遗憾提供了理论界限。接下来,我们证明了拟议算法对汤普森采样的累积遗憾表现的经验改善。我们还显示了所提出的算法在现实世界数据集上的有效性。与现有方法相反,我们的框架提供了一种机制,可以根据手头的任务改变探索/开发量。为此,我们将框架扩展到两个其他问题,即,在土匪中最佳的ARM识别和时间敏感学习,并将我们的算法与现有方法进行比较。
translated by 谷歌翻译
通过图形反馈的在线学习问题已经在文献中进行了广泛的研究,因为它的一般性和对各种学习任务进行建模的潜力。现有作品主要研究对抗和随机反馈。如果对反馈机制的先验知识是不可用的或错误的,那么这种专门设计的算法可能会遭受巨大的损失。为了避免此问题,\ citet {ererez2021towards}尝试针对两个环境进行优化。但是,他们认为反馈图是无方向性的,每个顶点都有一个自循环,这会损害框架的通用性,并且在应用程序中可能无法满足。有了一般的反馈图,在拉动该手臂时可能无法观察到手臂,这使得探索更加昂贵,并且在两种环境中最佳性能的算法更具挑战性。在这项工作中,我们通过新的权衡机制克服了这一困难,并精心设计的探索和剥削比例。我们证明了所提出的算法同时实现$ \ mathrm {poly} \ log t $在随机设置中的遗憾,而在$ versarial设置中,$ \ tilde {o} $ \ tilde {o}的最小值遗憾t $是地平线,$ \ tilde {o} $隐藏参数独立于$ t $以及对数项。据我们所知,这是通用反馈图的第一个最佳世界结果。
translated by 谷歌翻译
广泛观察到,在实际推荐系统中,诸如“点击框架”等“点击框架”的战略行为。通过这种行为的激励,我们在奖励的战略操纵下研究组合多武装匪徒(CMAB)的问题,其中每个臂可以为自己的兴趣修改发出的奖励信号。这种对抗性行为的表征是对先前研究的环境放松,例如对抗性攻击和对抗性腐败。我们提出了一种战略变体的组合UCB算法,其遗憾是最多的$ O(m \ log t + m b_ {max})$的战略操作,其中$ t $是时间范围,$ m $武器数量和$ b_ {max} $是手臂的最大预算。我们为武器预算提供了下限,以引起强盗算法的某些遗憾。在线工人选择对众包系统的大量实验,在线影响合成和实际数据集的最大化和在线建议,以鲁棒性和遗憾的界限提供了我们的理论发现,在各种操纵预算制度中。
translated by 谷歌翻译
在本文中,我们研究了半发布反馈下的随机组合多武装强盗问题。虽然在算法上完成了很多工作,但优化线性的预期奖励以及一些一般奖励功能,我们研究了一个问题的变种,其中目标是风险感知。更具体地说,我们考虑最大化条件价值(CVAR)的问题,这是一个仅考虑最坏情况奖励的风险措施。我们提出了新的算法,最大化了从组合匪盗的超级臂上获得的奖励的CVAR,用于两个高斯和有界手臂奖励的两种情况。我们进一步分析了这些算法并提供了遗憾的界限。我们认为,我们的结果在风险感知案例中提供了对组合半强盗问题的第一个理论见解。
translated by 谷歌翻译
我们研究固定预算设置中线性匪徒中最佳手臂识别的问题。通过利用G-Optimal设计的属性并将其纳入ARM分配规则,我们设计了一种无参数算法,基于最佳设计的基于设计的线性最佳臂识别(OD-Linbai)。我们提供了OD-Linbai的失败概率的理论分析。 OD-Linbai的性能并非所有最优差距,而是取决于顶部$ d $臂的差距,其中$ d $是线性匪徒实例的有效维度。补充,我们为此问题提供了一个Minimax下限。上限和下限表明,OD-Linbai是最佳的最佳选择,直到指数中的恒定乘法因素,这是对现有方法的显着改进(例如,贝耶斯加普,和平,线性化和GSE),并解决了确定确定该问题的问题。在固定预算设置中学习最好的手臂的困难。最后,数值实验表明,对各种真实和合成数据集的现有算法进行了相当大的经验改进。
translated by 谷歌翻译
在[Mannor和Shamir,Neurips 2011]中提出的图表反馈的强盗问题由指向图$ G =(v,e)$,其中$ v $是强盗臂的集合,并且一旦触发臂一旦触发,所有入射武器都被观察到。基本问题是图形的结构如何影响Min-Max后悔。我们提出了分数分别捕捉上限和下限的美元弱统治号码$ \ delta ^ * $和$ k $ -packing独立号码的概念。我们表明,两种概念通过将它们与弱主导集合的线性程序和其双分数顶点包装组对齐,通过对齐它们通过对齐它们是固有的连接。基于这一联系,我们利用了强大的二元定理来证明一般遗憾的上限$ o \ left(\ left(\ delta ^ * \ log | v | \右)^ {\ frac {1} {3}} t ^ {\ frac {2} {3}} \右)$和一个下限$ \ oomega \ left(\ left(\ delta ^ * / \ alpha \ over)^ {\ frac {1} {3}} t ^ {\ frac {2} {3}}右)$ where $ \ alpha $是双线性程序的完整性差距。因此,我们的界限紧紧达到一个$ \左(\ log | v | \ over)^ {\ frac {1} {3}} $ thace,其中顶点包装问题包括树和图表有限度。此外,我们表明,对于几个特殊的图形,我们可以摆脱$ \左(\ log | v | \右)^ {\ frac {1} {3}} $ factor并建立最佳遗憾。
translated by 谷歌翻译
我们通过反馈图来重新审视随机在线学习的问题,目的是设计最佳的算法,直至常数,无论是渐近还是有限的时间。我们表明,令人惊讶的是,在这种情况下,最佳有限时间遗憾的概念并不是一个唯一的定义属性,总的来说,它与渐近率是与渐近率分离的。我们讨论了替代选择,并提出了有限时间最优性的概念,我们认为是\ emph {有意义的}。对于这个概念,我们给出了一种算法,在有限的时间和渐近上都承认了准最佳的遗憾。
translated by 谷歌翻译