已经研究了几十年的上下文多武装匪,并适应了各种应用,如在线广告和个性化推荐。为了解决匪徒的开发探索权衡,有三种主要技术:epsilon - 贪婪,汤普森采样(TS)和上置信度(UCB)。在最近的文献中,线性上下窗匪徒采用了脊回归来估计奖励功能,并将其与TS或UCB策略结合起来的探索。但是,这行作品明确假设奖励基于ARM向量的线性函数,在现实世界数据集中可能不是真的。为了克服这一挑战,已经提出了一系列神经基的强盗算法,其中分配了神经网络以学习基础奖励功能,并且TS或UCB适于探索。在本文中,我们提出了一种具有新的探索策略的神经基匪徒方法。除了利用神经网络(开发网络)外学习奖励功能之外,与目前估计的奖励相比,EE-Net采用另一个神经网络(勘探网络)来自适应地学习潜在的增益。然后,构建决策者以将输出与剥削和探索网络组合起来。我们证明了EE-Net实现了$ \ mathcal {o}(\ sqrt {t \ log t})$后悔,它比现有最先进的神经强盗算法更紧密($ \ mathcal {o}(\基于UCB和TS的SQRT {T} \ log t)$。通过对四世界数据集的广泛实验,我们表明EE-Net优于现有的线性和神经匪徒的方法。
translated by 谷歌翻译
汤普森采样(TS)是解决上下文多武装强盗问题最有效的算法之一。在本文中,我们提出了一种新的算法,称为神经汤普森采样,这适应了深度神经网络,用于勘探和剥削。在我们的算法的核心是一种新的奖励的后分布,其平均值是神经网络近似器,并且其方差建立在相应神经网络的神经切线特征上。我们证明,如果底层奖励函数是有界的,则可以保证所提出的算法来实现$ \ mathcal {o}(t ^ {1/2})$的累积遗憾,它与其他上下文强盗算法的遗憾匹配总轮数量$ t $。各种数据集中其他基准强盗算法的实验比较证实了我们的理论。
translated by 谷歌翻译
我们研究汤普森采样对上下文匪徒的效率。现有的基于汤普森采样的算法需要构建后验分布的拉普拉斯近似(即高斯分布),这是在一般协方差矩阵中的高维应用中效率低下的效率。此外,高斯近似可能不是对一般奖励产生功能的后验分布的良好替代物。我们提出了一种有效的后采样算法,即Langevin Monte Carlo Thompson采样(LMC-TS),该采样(LMC-TS)使用Markov Chain Monte Carlo(MCMC)方法直接从上下文斑块中的后验分布中直接采样。我们的方法在计算上是有效的,因为它只需要执行嘈杂的梯度下降更新而不构建后验分布的拉普拉斯近似。我们证明,所提出的算法实现了相同的sublinear遗憾,作为一种特殊情况的汤普森采样算法,是上下文匪徒的特殊情况,即线性上下文的强盗。我们在不同上下文匪徒模型上对合成数据和现实世界数据集进行实验,这表明直接从后验进行采样既具有计算上有效又具有竞争性能。
translated by 谷歌翻译
上下文匪徒旨在根据其上下文信息在一组最佳奖励的武器中识别最佳奖励。由于武器通常表现出群体行为和群体之间存在相互影响的事实,我们引入了一个新模型,ARM组图(AGG),节点代表武器组和加权边缘组成组之间的相关性。为了利用丰富的信息,我们提出了一种强盗算法,即ag-ucb,在该算法中,神经网络旨在估计奖励,我们建议利用图形神经网络(GNN)来学习具有相关性的ARM组的表示。为了解决匪徒中的剥削 - 探索困境,我们得出了建立在神经网络(剥削)探索的新的上置信度结合(UCB)。此外,我们证明了Agg-UCB可以实现与过度参数化的神经网络结合的近乎最佳的遗憾,并提供GNN的收敛分析,并具有完全连接的层,这可能具有独立的利益。最后,我们对多个公共数据集的最新基准进行了广泛的实验,显示了拟议算法的有效性。
translated by 谷歌翻译
我们研究在上下文多臂强盗(MAB)中识别用户簇。上下文mAB是许多真实应用程序的有效工具,例如内容建议和在线广告。实际上,用户依赖性在用户的操作以及奖励中起着至关重要的作用。聚类相似的用户可以提高奖励估计的质量,从而导致更有效的内容建议和有针对性的广告。与传统的聚类设置不同,我们基于未知的匪徒参数聚类用户,该参数将逐步估算。特别是,我们在上下文mAB中定义了群集检测的问题,并提出了一种带有局部聚类过程的Bandit算法,LocB,LocB。而且,我们就聚类的正确性和效率及其遗憾束缚的理论分析提供了有关LICB的理论分析。最后,我们从各个方面评估了提出的算法,这些算法的表现优于最先进的基准。
translated by 谷歌翻译
在本文中,我们考虑了在规避风险的标准下线性收益的上下文多臂强盗问题。在每个回合中,每个手臂都会揭示上下文,决策者选择一只手臂拉动并获得相应的奖励。特别是,我们将均值变化视为风险标准,最好的组是具有最大均值奖励的均值。我们将汤普森采样算法应用于脱节模型,并为提出算法的变体提供全面的遗憾分析。对于$ t $ rounds,$ k $ Actions和$ d $ - 维功能向量,我们证明了$ o((1+ \ rho+\ frac {1} {1} {\ rho}){\ rho})d \ ln t \ ln t \ ln的遗憾。 \ frac {k} {\ delta} \ sqrt {d k t^{1+2 \ epsilon} \ ln \ frac {k} {\ delta} \ frac {1} {\ epsilon}} $ 1 - \ \ delta $在带有风险公差$ \ rho $的均值方差标准下,对于任何$ 0 <\ epsilon <\ frac {1} {2} $,$ 0 <\ delta <1 $。我们提出的算法的经验性能通过投资组合选择问题来证明。
translated by 谷歌翻译
脱机策略学习(OPL)利用现有数据收集了策略优化的先验,而无需任何活动探索。尽管存在普遍性和近期对此问题的兴趣,但其函数近似设置中的理论和算法基础仍然持续开发。在本文中,我们考虑了在具有神经网络的离线上下文匪徒中的分布换档,优化和泛化轴上的这个问题。特别是,我们提出了一种可从线有效的离线情境匪徒,具有神经网络函数近似,不需要对奖励的任何功能假设。我们表明,我们的方法在较温和的情况下通过不良语境提供了比现有的OPL工作的分支变换。值得注意的是,与任何其他OPL方法不同,我们的方法使用随机梯度血统以在线方式从脱机数据中学习,允许我们利用在线学习的优势进入离线设置。此外,我们表明我们的方法更加计算效率,并且更好地依赖于神经网络的有效维度而不是在线对应物。最后,我们展示了我们在一系列合成和现实世界OPL问题中的方法的实证效果。
translated by 谷歌翻译
随机上下文的匪徒问题,建造了勘探和开发之间的权衡取舍,具有许多真实的应用,包括推荐系统,在线广告和临床试验。与许多其他机器学习算法一样,上下文匪徒算法通常具有一个或多个超参数。例如,在大多数最佳的随机上下文匪徒算法中,有一个未知的探索参数可以控制勘探和开发之间的权衡。适当的超参数选择对于上下文的匪徒算法表现良好至关重要。但是,由于没有预采用的数据集,因此必须使用离线调谐方法在上下文匪徒环境中选择超参数,并且必须实时做出决策。为了解决这个问题,我们首先提出了一个两层匪徒结构,用于自动调整勘探参数并将其进一步推广到联合匪徒框架,该框架可以在上下文的匪徒环境中动态学习多个超参数。我们得出了我们提议的联合匪徒框架的遗憾界限,并表明它可以避免对要调整的超参数的数量成倍依赖。此外,它在某些情况下达到了最佳的遗憾界限。联合匪徒框架足够通用,可以在许多流行的上下文匪徒算法(例如Linucb,Lints,UCB-GLM等)中处理调整任务。在合成数据集和真实数据集上进行了实验,以验证我们提出的框架的有效性。
translated by 谷歌翻译
我们为随机线性匪徒问题提出了一种新的基于自举的在线算法。关键的想法是采用残留的自举勘探,在该探索中,代理商通过重新采样平均奖励估算的残差来估算下一步奖励。我们的算法,随机线性匪徒(\ texttt {linreboot})的残留bootstrap探索,从其重新采样分布中估算了线性奖励,并以最高的奖励估计拉动了手臂。特别是,我们为理论框架做出了一个理论框架,以使基于自举的探索机制在随机线性匪徒问题中脱颖而出。关键见解是,Bootstrap探索的强度基于在线学习模型和残差的重新采样分布之间的乐观情绪。这样的观察使我们能够证明所提出的\ texttt {linreboot}确保了高概率$ \ tilde {o}(d \ sqrt {n})$ sub-linear在温和条件下的遗憾。我们的实验支持\ texttt {重新启动}原理在线性匪徒问题的各种公式中的简易概括性,并显示了\ texttt {linreboot}的显着计算效率。
translated by 谷歌翻译
我们为线性上下文匪徒提出了一种新颖的算法(\ sqrt {dt \ log t})$遗憾,其中$ d $是上下文的尺寸,$ t $是时间范围。我们提出的算法配备了一种新型估计量,其中探索通过显式随机化嵌入。根据随机化的不同,我们提出的估计器从所有武器的上下文或选定的上下文中都取得了贡献。我们为我们的估计器建立了一个自称的绑定,这使累积遗憾的新颖分解为依赖添加剂的术语而不是乘法术语。在我们的问题设置下,我们还证明了$ \ omega(\ sqrt {dt})$的新颖下限。因此,我们提出的算法的遗憾与对数因素的下限相匹配。数值实验支持理论保证,并表明我们所提出的方法的表现优于现有的线性匪徒算法。
translated by 谷歌翻译
In this paper we study the contextual bandit problem (also known as the multi-armed bandit problem with expert advice) for linear payoff functions. For T rounds, K actions, and d dimensional feature vectors, we prove an O T d ln 3 (KT ln(T )/δ) regret bound that holds with probability 1 − δ for the simplest known (both conceptually and computationally) efficient upper confidence bound algorithm for this problem. We also prove a lower bound of Ω( √ T d) for this setting, matching the upper bound up to logarithmic factors.
translated by 谷歌翻译
We consider the stochastic linear contextual bandit problem with high-dimensional features. We analyze the Thompson sampling (TS) algorithm, using special classes of sparsity-inducing priors (e.g. spike-and-slab) to model the unknown parameter, and provide a nearly optimal upper bound on the expected cumulative regret. To the best of our knowledge, this is the first work that provides theoretical guarantees of Thompson sampling in high dimensional and sparse contextual bandits. For faster computation, we use spike-and-slab prior to model the unknown parameter and variational inference instead of MCMC to approximate the posterior distribution. Extensive simulations demonstrate improved performance of our proposed algorithm over existing ones.
translated by 谷歌翻译
在许多真实世界应用程序的组合匪徒如内容缓存,必须在满足最小服务要求的同时最大化奖励。此外,基本ARM可用性随着时间的推移而变化,并且采取的行动需要适应奖励最大化的情况。我们提出了一个名为Contexal Combinatial Volatile Birtits的新的强盗模型,具有组阈值来解决这些挑战。我们的模型通过考虑超级臂作为基础臂组的子集来归档组合匪徒。我们寻求最大化超级手臂奖励,同时满足构成超级臂的所有基座组的阈值。为此,我们定义了一个新的遗憾遗嘱,使超级臂奖励最大化与团体奖励满意度合并。为了便于学习,我们假设基臂的平均结果是由上下文索引的高斯过程的样本,并且预期的奖励是Lipschitz在预期的基础臂结果中连续。我们提出了一种算法,称为阈值组合高斯工艺的上置信度界限(TCGP-UCB),最大化累积奖励和满足组奖励阈值之间的余额,并证明它会导致$ \ tilde {o}(k \ sqrt {t \ overline { \ gamma} _ {t}})$后悔具有高概率,其中$ \ overline {\ gamma} _ {t} $是与第一个$ t $轮中出现的基本arm上下文相关联的最大信息增益$ k $是所有在所有轮匝上任何可行行动的超级臂基数。我们在实验中展示了我们的算法累积了与最先进的组合强盗算法相当的奖励,同时采摘群体满足其阈值的动作。
translated by 谷歌翻译
Thompson Sampling is one of the oldest heuristics for multi-armed bandit problems. It is a randomized algorithm based on Bayesian ideas, and has recently generated significant interest after several studies demonstrated it to have better empirical performance compared to the stateof-the-art methods. However, many questions regarding its theoretical performance remained open. In this paper, we design and analyze a generalization of Thompson Sampling algorithm for the stochastic contextual multi-armed bandit problem with linear payoff functions, when the contexts are provided by an adaptive adversary. This is among the most important and widely studied version of the contextual bandits problem. We provide the first theoretical guarantees for the contextual version of Thompson Sampling. We prove a high probability regret bound of Õ(d 3/2 √ T ) (or Õ(d T log(N ))), which is the best regret bound achieved by any computationally efficient algorithm for this problem, and is within a factor of √ d (or log(N )) of the information-theoretic lower bound for this problem.
translated by 谷歌翻译
我们考虑一个多武装的强盗设置,在每一轮的开始时,学习者接收嘈杂的独立,并且可能偏见,\ emph {评估}每个臂的真正奖励,它选择$ k $武器的目标累积尽可能多的奖励超过$ $ rounds。在假设每轮在每个臂的真正奖励从固定分发中汲取的,我们得出了不同的算法方法和理论保证,具体取决于评估的生成方式。首先,在观察功能是真正奖励的遗传化线性函数时,我们在一般情况下展示$ \ widetilde {o}(t ^ {2/3})$后悔。另一方面,当观察功能是真正奖励的嘈杂线性函数时,我们就可以派生改进的$ \ widetilde {o}(\ sqrt {t})$后悔。最后,我们报告了一个实证验证,确认我们的理论发现,与替代方法进行了彻底的比较,并进一步支持在实践中实现这一环境的兴趣。
translated by 谷歌翻译
我们研究对线性随机匪徒的对抗攻击:通过操纵奖励,对手旨在控制匪徒的行为。也许令人惊讶的是,我们首先表明某些攻击目标永远无法实现。这与无上下文的随机匪徒形成了鲜明的对比,并且本质上是由于线性随机陆上的臂之间的相关性。在这一发现的激励下,本文研究了$ k $武装的线性匪徒环境的攻击性。我们首先根据武器上下文向量的几何形状提供了攻击性的完全必要性和充分性表征。然后,我们提出了针对Linucb和鲁棒相消除的两阶段攻击方法。该方法首先断言给定环境是否可攻击;而且,如果是的话,它会付出巨大的奖励,以强迫算法仅使用sublinear成本来拉动目标臂线性时间。数值实验进一步验证了拟议攻击方法的有效性和成本效益。
translated by 谷歌翻译
顺序决策中的一个核心问题是开发实用且计算上有效的算法,但支持灵活的通用模型的使用。关注上下文匪徒问题,最近的进度在可能的替代品数量(“动作”)很小时提供了可证明的有效算法,并具有很强的经验性能,但是在大型,连续的行动空间中进行决策的保证仍然难以捉摸,导致了重要的重要性理论与实践之间的差距。我们介绍了具有连续线性结构化作用空间的上下文匪徒的第一个有效的通用算法。我们的算法利用了(i)监督学习的计算序列,以及(ii)在动作空间上进行优化,并实现样本复杂性,运行时和内存,独立于动作空间的大小。此外,这是简单而实用的。我们进行大规模的经验评估,并表明我们的方法通常比标准基准相比具有较高的性能和效率。
translated by 谷歌翻译
在本文中,我们考虑了MNL-Bandit问题的上下文变体。更具体地说,我们考虑了一个动态设置优化问题,决策者为消费者提供了一系列产品(各种产品),并在每回合中观察他们的响应。消费者购买产品以最大化其实用性。我们假设一组属性描述了产品,并且产品的平均效用在这些属性的值中是线性的。我们使用广泛使用的多项式logit(MNL)模型对消费者选择行为进行建模,并考虑动态学习模型参数的决策者问题,同时优化累计收入,超过销售范围$ t $。尽管最近这个问题引起了人们的关注,但许多现有方法通常涉及解决棘手的非凸优化问题。他们的理论绩效保证取决于问题依赖性参数,该参数可能非常大。特别是,此问题的现有算法对$ o(\ sqrt {\ kappa d t})$界后后悔,其中$ \ kappa $是问题依赖性常数,可以对属性的数量具有指数依赖性。在本文中,我们提出了一种乐观的算法,并表明遗憾是由$ o(\ sqrt {dt} + \ kappa)$界定的,从而大大提高了现有方法的性能。此外,我们提出了对优化步骤的放松,该步骤允许进行可牵引的决策,同时保留有利的遗憾保证。
translated by 谷歌翻译
本文以非线性功能近似研究基于模型的匪徒和增强学​​习(RL)。我们建议研究与近似局部最大值的收敛性,因为我们表明,即使对于具有确定性奖励的一层神经网络匪徒,全球收敛在统计上也很棘手。对于非线性匪徒和RL,本文介绍了一种基于模型的算法,即具有在线模型学习者(小提琴)的虚拟攀登,该算法可证明其收敛到局部最大值,其样品复杂性仅取决于模型类的顺序Rademacher复杂性。我们的结果意味着在几种具体设置(例如有限或稀疏模型类别的线性匪徒)和两层神经净匪内的新型全球或本地遗憾界限。一个关键的算法洞察力是,即使对于两层神经净模型类别,乐观也可能导致过度探索。另一方面,为了收敛到本地最大值,如果模型还可以合理地预测真实返回的梯度和Hessian的大小,则足以最大化虚拟返回。
translated by 谷歌翻译
ELO评级系统被广泛采用来评估(国际象棋)游戏和体育运动者的技能。最近,它还集成到了评估计算机化AI代理的性能时的机器学习算法中。然而,精确估计ELO评级(对于顶级球员)通常需要许多轮竞争,这可能是昂贵的。在本文中,为了提高ELO评估的样本效率(对于顶级球员),我们提出了一种有效的在线匹配调度算法。具体而言,我们通过Dueling Birits框架识别并匹配顶级播放器并将强盗算法定制到ELO的梯度更新。我们表明它减少了每一步记忆和时间复杂度来恒定,与需要$ O(t)$时间的传统似然最大化方法相比。我们的算法对$ \ tilde {o}(\ sqrt {t})$,Sublinear在竞争回合的数量中有遗憾的保证,并且已经扩展到多维ELO评级,用于处理风情游戏。我们经验证明我们的方法在各种游戏任务上实现了卓越的收敛速度和时间效率。
translated by 谷歌翻译