节能导航构成了电动汽车的一个重要挑战,因为其有限的电池容量。我们采用贝叶斯方法在用于高效的导航路段的能耗模型。为了学习模型参数,我们开发了一个在线学习框架,并研究了几种勘探战略,如汤普森采样和上界的信心。然后,我们我们的在线学习框架扩展到多代理设置,其中多个车辆自适应导航和学习的能量模型的参数。我们分析汤普森采样和它在单剂和多代理设置性能建立严格的遗憾界限,通过下成批反馈算法的分析。最后,我们证明我们的方法通过实验,在几个真实世界的城市道路网络的性能。
translated by 谷歌翻译
节能导航构成电动汽车的重要挑战,由于其电池容量有限。我们采用贝叶斯方向来模拟路段的能耗,以实现高效导航。为了学习模型参数,我们开发在线学习框架,并调查诸如Thompson采样和上部束缚等几个勘探策略。然后,我们将在线学习框架扩展到多代理设置,其中多个车辆自适应地导航和学习能量模型的参数。我们分析汤普森采样,并在其表现上建立严格的遗憾。最后,我们通过在卢森堡Sumo流量数据集上的几个现实世界实验展示了我们的方法的表现。
translated by 谷歌翻译
在本文中,我们通过提取最小半径路径研究网络中的瓶颈标识。许多现实世界网络具有随机重量,用于预先提供全面知识。因此,我们将此任务塑造为组合半发布会问题,我们应用了汤普森采样的组合版本,并在相应的贝叶斯遗憾地建立了上限。由于该问题的计算诡计,我们设计了一种替代问题,其近似于原始目标。最后,我们通过对现实世界指导和无向网络的近似配方进行了实验评估了汤普森抽样的性能。
translated by 谷歌翻译
瓶颈标识是网络分析中的一项艰巨任务,尤其是当网络未完全指定时。为了解决此任务,我们基于组合半伴侣制定了一个统一的在线学习框架,该框架可以执行瓶颈标识,并学习基础网络的规格。在此框架内,我们适应并研究了几种组合半伴侣方法,例如Epsilon-Greedy,Linucb,Bayeasucb和Thompson采样。我们的框架能够采用上下文匪徒的形式采用上下文信息。我们在道路网络的实际应用上评估了我们的框架,并在不同的环境中展示了其有效性。
translated by 谷歌翻译
Thompson Sampling is one of the oldest heuristics for multi-armed bandit problems. It is a randomized algorithm based on Bayesian ideas, and has recently generated significant interest after several studies demonstrated it to have better empirical performance compared to the stateof-the-art methods. However, many questions regarding its theoretical performance remained open. In this paper, we design and analyze a generalization of Thompson Sampling algorithm for the stochastic contextual multi-armed bandit problem with linear payoff functions, when the contexts are provided by an adaptive adversary. This is among the most important and widely studied version of the contextual bandits problem. We provide the first theoretical guarantees for the contextual version of Thompson Sampling. We prove a high probability regret bound of Õ(d 3/2 √ T ) (or Õ(d T log(N ))), which is the best regret bound achieved by any computationally efficient algorithm for this problem, and is within a factor of √ d (or log(N )) of the information-theoretic lower bound for this problem.
translated by 谷歌翻译
汤普森抽样(TS)吸引了对强盗区域的兴趣。它在20世纪30年代介绍,但近年来尚未经过理论上证明。其在组合多武装强盗(CMAB)设置中的所有分析都需要精确的Oracle来提供任何输入的最佳解决方案。然而,这种Oracle通常是不可行的,因为许多组合优化问题是NP - 硬,并且只有近似oracles可用。一个例子(王和陈,2018)已经表明TS的失败来学习近似Oracle。但是,此Oracle罕见,仅用于特定问题实例。它仍然是一个开放的问题,无论TS的收敛分析是否可以扩展到CMAB中的精确oracle。在本文中,我们在贪婪的Oracle下研究了这个问题,这是一个常见的(近似)Oracle,具有理论上的保证来解决许多(离线)组合优化问题。我们提供了一个问题依赖性遗憾的遗憾下限为$ \ omega(\ log t / delta ^ 2)$,以量化Ts的硬度来解决贪婪的甲骨文的CMAB问题,其中$ T $是时间范围和$ Delta $是一些奖励差距。我们还提供几乎匹配的遗憾上限。这些是TS解决CMAB与常见近似甲骨文的第一个理论结果,并打破TS无法使用近似神谕的误解。
translated by 谷歌翻译
我们解决了在线顺序决策的问题,即在利用当前知识以最大程度地提高绩效和探索新信息以使用多武器的强盗框架获得长期利益之间的权衡平衡。汤普森采样是选择解决这一探索探索困境的动作的启发式方法之一。我们首先提出了一个通用框架,该框架可帮助启发性地调整汤普森采样中的探索与剥削权衡取舍,并使用后部分布中的多个样本进行调整。利用此框架,我们为多臂匪徒问题提出了两种算法,并为累积遗憾提供了理论界限。接下来,我们证明了拟议算法对汤普森采样的累积遗憾表现的经验改善。我们还显示了所提出的算法在现实世界数据集上的有效性。与现有方法相反,我们的框架提供了一种机制,可以根据手头的任务改变探索/开发量。为此,我们将框架扩展到两个其他问题,即,在土匪中最佳的ARM识别和时间敏感学习,并将我们的算法与现有方法进行比较。
translated by 谷歌翻译
在本文中,我们研究了汤普森采样(TS)方法的应用到随机组合多臂匪徒(CMAB)框架中。当所有基本臂的结果分布都是独立的,并获得$ o(m \ log k _ {\ max} \ log t / \ delta_时,我们首先分析一般CMAB模型的标准TS算法。 {\ min})$,其中$ m $是基本武器的数量,$ k _ {\ max} $是最大的超级臂的大小,$ t $是时间范围,而$ \ delta _ {\ min} $是最佳解决方案的预期奖励与任何非最佳解决方案之间的最小差距。这种遗憾的上限比$ o(m(\ log k _ {\ max})^2 \ log t / \ delta _ {\ min})$更好。此外,我们的新颖分析技术可以帮助收紧其他基于UCB的政策(例如ESC)的遗憾界限,因为我们改善了计算累积遗憾的方法。然后,我们考虑Matroid Bandit设置(CMAB模型的特殊类别),在这里我们可以删除跨武器的独立性假设,并实现与下限匹配的遗憾上限。除了遗憾的上限外,我们还指出,一个人不能直接替换确切的离线甲骨文(将离线问题实例的参数作为输入,并在此实例下输出确切的最佳操作),用TS算法中的近似oracle替换了ts算法的近似值。甚至经典的mAb问题。最后,我们使用一些实验来显示TS遗憾与其他现有算法之间的比较,实验结果表明TS优于现有基准。
translated by 谷歌翻译
我们考虑非平稳马尔可夫决策过程中的无模型增强学习(RL)。只要其累积变化不超过某些变化预算,奖励功能和国家过渡功能都可以随时间随时间变化。我们提出了重新启动的Q学习,以上置信度范围(RestartQ-UCB),这是第一个用于非平稳RL的无模型算法,并表明它在动态遗憾方面优于现有的解决方案。具体而言,带有freedman型奖励项的restartq-ucb实现了$ \ widetilde {o}(s^{\ frac {1} {3}} {\ frac {\ frac {1} {1} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {\ delta ^{\ frac {1} {3}} h t^{\ frac {2} {3}}} $,其中$ s $和$ a $分别是$ \ delta> 0 $的状态和动作的数字是变化预算,$ h $是每集的时间步数,而$ t $是时间步长的总数。我们进一步提出了一种名为Double-Restart Q-UCB的无参数算法,该算法不需要事先了解变化预算。我们证明我们的算法是\ emph {几乎是最佳},通过建立$ \ omega的信息理论下限(s^{\ frac {1} {1} {3}}} a^{\ frac {1} {1} {3}}}}}} \ delta^{\ frac {1} {3}} h^{\ frac {2} {3}}}} t^{\ frac {2} {3}}} $,是非稳态RL中的第一个下下限。数值实验可以根据累积奖励和计算效率来验证RISTARTQ-UCB的优势。我们在相关产品的多代理RL和库存控制的示例中证明了我们的结果的力量。
translated by 谷歌翻译
我们研究上下文多军匪徒设置中的排名问题。学习代理在每个时间步骤中选择一个有序的项目列表,并观察每个位置的随机结果。在在线推荐系统中,显示最有吸引力的项目的有序列表将不是最佳选择,因为位置和项目依赖性都会带来复杂的奖励功能。一个非常天真的例子是,当所有最有吸引力的物品都来自同一类别时,缺乏多样性。我们为此问题在“排序列表”和“设计UCB”和Thompson采样类型算法中对位置和项目依赖性建模。我们证明,遗憾超过$ t $ rounds和$ l $ positions是$ \ tilde {o}(l \ sqrt {d t})$,它的订单与以前在$ t $和$ t $方面的作品相同仅用$ L $线性增加。我们的工作将现有的研究推广到多个方向,包括位置折扣是特定情况的位置依赖性,并提出了更一般的背景匪徒模型。
translated by 谷歌翻译
多臂强盗(MAB)问题是一个简单而强大的框架,在不确定性下的决策背景下进行了广泛的研究。在许多实际应用程序(例如机器人应用程序)中,选择ARM对应于限制下一个可用臂(动作)选择的物理动作。在此激励的情况下,我们研究了一个称为图形匪徒的mAb的扩展,在该图形上,试图从不同节点收集的奖励来传播图形。该图定义了代理在每个步骤中选择下一个可用节点时的自由度。我们假设图形结构完全可用,但是奖励分布未知。我们建立在基于脱机图的计划算法和乐观原则的基础上,我们设计了一种在线学习算法,该算法可以使用乐观原则来平衡长期探索 - 探索。我们表明我们提出的算法达到$ o(| s | \ sqrt {t} \ log(t)+d | s | s | \ log t)$学习后悔,其中$ | s | $是节点的数量和$ d $是该图的直径,与在类似设置下的最著名的增强学习算法相比,这是优越的。数值实验证实,我们的算法优于几个基准。最后,我们提出了一个由图形匪徒框架建模的合成机器人应用程序,其中机器人在农村/郊区位置网络上移动,使用我们建议的算法提供高速Internet访问。
translated by 谷歌翻译
现有的组合纯探索方法主要集中在UCB方法上。为了提高算法,他们通常使用ARM SET $ S $内的上限限制的总和来表示$ S $的上限限制,这可能比$ S $的紧密上限限制大得多,并导致由于$ S $中不同武器的经验手段是独立的,因此复杂性要比必要的要高得多。为了应对这一挑战,我们探索了使用独立的随机样品而不是上限置信边界的汤普森采样(TS)的想法,并为(组合)纯探索设计了第一个基于TS的算法TS-TS-explore。在TS-explore中,ARM集合$ S $中的独立随机样品的总和不会超过具有高概率的$ S $的紧密上限限制。因此,它解决了上述挑战,并且比一般组合纯探索中现有的基于UCB的算法的复杂性更高。至于对经典多臂强盗的纯粹探索,我们表明TS-explore实现了渐近最佳的复杂性上限。
translated by 谷歌翻译
The multi-armed bandit problem is a popular model for studying exploration/exploitation trade-off in sequential decision problems. Many algorithms are now available for this well-studied problem. One of the earliest algorithms, given by W. R. Thompson, dates back to 1933. This algorithm, referred to as Thompson Sampling, is a natural Bayesian algorithm. The basic idea is to choose an arm to play according to its probability of being the best arm. Thompson Sampling algorithm has experimentally been shown to be close to optimal. In addition, it is efficient to implement and exhibits several desirable properties such as small regret for delayed feedback. However, theoretical understanding of this algorithm was quite limited. In this paper, for the first time, we show that Thompson Sampling algorithm achieves logarithmic expected regret for the stochastic multi-armed bandit problem. More precisely, for the stochastic two-armed bandit problem, the expected regret in time T is O( ln T ∆ + 1 ∆ 3 ). And, for the stochastic N -armed bandit problem, the expected regret in time) 2 ln T ). Our bounds are optimal but for the dependence on ∆i and the constant factors in big-Oh.
translated by 谷歌翻译
信息指导的采样(IDS)最近证明了其作为数据效率增强学习算法的潜力。但是,目前尚不清楚当可用上下文信息时,要优化的信息比的正确形式是什么。我们通过两个上下文强盗问题研究IDS设计:具有图形反馈和稀疏线性上下文匪徒的上下文强盗。我们证明了上下文ID比条件ID的优势,并强调考虑上下文分布的重要性。主要信息是,智能代理人应该在有条件的ID可能是近视的情况下对未来看不见的环境有益的行动进行更多的投资。我们进一步提出了基于Actor-Critic的上下文ID的计算效率版本,并在神经网络上下文的强盗上进行经验评估。
translated by 谷歌翻译
在本文中,我们研究了半发布反馈下的随机组合多武装强盗问题。虽然在算法上完成了很多工作,但优化线性的预期奖励以及一些一般奖励功能,我们研究了一个问题的变种,其中目标是风险感知。更具体地说,我们考虑最大化条件价值(CVAR)的问题,这是一个仅考虑最坏情况奖励的风险措施。我们提出了新的算法,最大化了从组合匪盗的超级臂上获得的奖励的CVAR,用于两个高斯和有界手臂奖励的两种情况。我们进一步分析了这些算法并提供了遗憾的界限。我们认为,我们的结果在风险感知案例中提供了对组合半强盗问题的第一个理论见解。
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
我们在随机和对抗性马尔可夫决策过程(MDP)中研究合作在线学习。也就是说,在每一集中,$ m $代理商同时与MDP互动,并共享信息以最大程度地减少他们的遗憾。我们考虑具有两种随机性的环境:\ emph {Fresh} - 在每个代理的轨迹均已采样i.i.d和\ emph {non-fresh} - 其中所有代理人共享实现(但每个代理的轨迹也受到影响)通过其自己的行动)。更确切地说,通过非志趣相投的随机性,每个成本和过渡的实现都在每个情节开始时都固定了,并且在同一时间同时采取相同行动的代理人观察到相同的成本和下一个状态。我们彻底分析了所有相关设置,强调了模型之间的挑战和差异,并证明了几乎匹配的遗憾下层和上限。据我们所知,我们是第一个考虑具有非伪造随机性或对抗性MDP的合作强化学习(RL)。
translated by 谷歌翻译
在本文中,我们考虑了在规避风险的标准下线性收益的上下文多臂强盗问题。在每个回合中,每个手臂都会揭示上下文,决策者选择一只手臂拉动并获得相应的奖励。特别是,我们将均值变化视为风险标准,最好的组是具有最大均值奖励的均值。我们将汤普森采样算法应用于脱节模型,并为提出算法的变体提供全面的遗憾分析。对于$ t $ rounds,$ k $ Actions和$ d $ - 维功能向量,我们证明了$ o((1+ \ rho+\ frac {1} {1} {\ rho}){\ rho})d \ ln t \ ln t \ ln的遗憾。 \ frac {k} {\ delta} \ sqrt {d k t^{1+2 \ epsilon} \ ln \ frac {k} {\ delta} \ frac {1} {\ epsilon}} $ 1 - \ \ delta $在带有风险公差$ \ rho $的均值方差标准下,对于任何$ 0 <\ epsilon <\ frac {1} {2} $,$ 0 <\ delta <1 $。我们提出的算法的经验性能通过投资组合选择问题来证明。
translated by 谷歌翻译
本文研究了多功能网络网络中分散的多武装强盗问题。当他们面对一套常见的M武器并分享每个ARM奖励的相同均值,问题是由N代理同时解决的。每个代理可以从其邻居接收信息,其中代理之间的邻居关系由其顶点代表代理的定向图描述,并且其定向边缘描绘了邻居关系。针对每个试剂提出了一种完全分散的多武装强盗算法,其曲折了经典共识算法和上置信算法(UCB)算法。结果表明,该算法保证了每个代理,以实现比邻居图强烈连接的经典UCB更好的对数渐近遗憾。如果邻居图无向,则可以进一步提高遗憾。
translated by 谷歌翻译
我们考虑激励探索:一种多臂匪徒的版本,其中武器的选择由自私者控制,而算法只能发布建议。该算法控制信息流,信息不对称可以激励代理探索。先前的工作达到了最佳的遗憾率,直到乘法因素,这些因素根据贝叶斯先验而变得很大,并在武器数量上成倍规模扩展。采样每只手臂的一个更基本的问题一旦遇到了类似的因素。我们专注于激励措施的价格:出于激励兼容的目的,绩效的损失,广泛解释为。我们证明,如果用足够多的数据点初始化,则标准的匪徒汤普森采样是激励兼容的。因此,当收集这些数据点时,由于激励措施的绩效损失仅限于初始回合。这个问题主要降低到样本复杂性的问题:需要多少个回合?我们解决了这个问题,提供了匹配的上限和下限,并在各种推论中实例化。通常,最佳样品复杂性在“信念强度”中的武器数量和指数中是多项式。
translated by 谷歌翻译