ELO评级系统被广泛采用来评估(国际象棋)游戏和体育运动者的技能。最近,它还集成到了评估计算机化AI代理的性能时的机器学习算法中。然而,精确估计ELO评级(对于顶级球员)通常需要许多轮竞争,这可能是昂贵的。在本文中,为了提高ELO评估的样本效率(对于顶级球员),我们提出了一种有效的在线匹配调度算法。具体而言,我们通过Dueling Birits框架识别并匹配顶级播放器并将强盗算法定制到ELO的梯度更新。我们表明它减少了每一步记忆和时间复杂度来恒定,与需要$ O(t)$时间的传统似然最大化方法相比。我们的算法对$ \ tilde {o}(\ sqrt {t})$,Sublinear在竞争回合的数量中有遗憾的保证,并且已经扩展到多维ELO评级,用于处理风情游戏。我们经验证明我们的方法在各种游戏任务上实现了卓越的收敛速度和时间效率。
translated by 谷歌翻译
随机上下文的匪徒问题,建造了勘探和开发之间的权衡取舍,具有许多真实的应用,包括推荐系统,在线广告和临床试验。与许多其他机器学习算法一样,上下文匪徒算法通常具有一个或多个超参数。例如,在大多数最佳的随机上下文匪徒算法中,有一个未知的探索参数可以控制勘探和开发之间的权衡。适当的超参数选择对于上下文的匪徒算法表现良好至关重要。但是,由于没有预采用的数据集,因此必须使用离线调谐方法在上下文匪徒环境中选择超参数,并且必须实时做出决策。为了解决这个问题,我们首先提出了一个两层匪徒结构,用于自动调整勘探参数并将其进一步推广到联合匪徒框架,该框架可以在上下文的匪徒环境中动态学习多个超参数。我们得出了我们提议的联合匪徒框架的遗憾界限,并表明它可以避免对要调整的超参数的数量成倍依赖。此外,它在某些情况下达到了最佳的遗憾界限。联合匪徒框架足够通用,可以在许多流行的上下文匪徒算法(例如Linucb,Lints,UCB-GLM等)中处理调整任务。在合成数据集和真实数据集上进行了实验,以验证我们提出的框架的有效性。
translated by 谷歌翻译
我们研究汤普森采样对上下文匪徒的效率。现有的基于汤普森采样的算法需要构建后验分布的拉普拉斯近似(即高斯分布),这是在一般协方差矩阵中的高维应用中效率低下的效率。此外,高斯近似可能不是对一般奖励产生功能的后验分布的良好替代物。我们提出了一种有效的后采样算法,即Langevin Monte Carlo Thompson采样(LMC-TS),该采样(LMC-TS)使用Markov Chain Monte Carlo(MCMC)方法直接从上下文斑块中的后验分布中直接采样。我们的方法在计算上是有效的,因为它只需要执行嘈杂的梯度下降更新而不构建后验分布的拉普拉斯近似。我们证明,所提出的算法实现了相同的sublinear遗憾,作为一种特殊情况的汤普森采样算法,是上下文匪徒的特殊情况,即线性上下文的强盗。我们在不同上下文匪徒模型上对合成数据和现实世界数据集进行实验,这表明直接从后验进行采样既具有计算上有效又具有竞争性能。
translated by 谷歌翻译
汤普森采样(TS)是解决上下文多武装强盗问题最有效的算法之一。在本文中,我们提出了一种新的算法,称为神经汤普森采样,这适应了深度神经网络,用于勘探和剥削。在我们的算法的核心是一种新的奖励的后分布,其平均值是神经网络近似器,并且其方差建立在相应神经网络的神经切线特征上。我们证明,如果底层奖励函数是有界的,则可以保证所提出的算法来实现$ \ mathcal {o}(t ^ {1/2})$的累积遗憾,它与其他上下文强盗算法的遗憾匹配总轮数量$ t $。各种数据集中其他基准强盗算法的实验比较证实了我们的理论。
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
我们考虑一个多武装的强盗设置,在每一轮的开始时,学习者接收嘈杂的独立,并且可能偏见,\ emph {评估}每个臂的真正奖励,它选择$ k $武器的目标累积尽可能多的奖励超过$ $ rounds。在假设每轮在每个臂的真正奖励从固定分发中汲取的,我们得出了不同的算法方法和理论保证,具体取决于评估的生成方式。首先,在观察功能是真正奖励的遗传化线性函数时,我们在一般情况下展示$ \ widetilde {o}(t ^ {2/3})$后悔。另一方面,当观察功能是真正奖励的嘈杂线性函数时,我们就可以派生改进的$ \ widetilde {o}(\ sqrt {t})$后悔。最后,我们报告了一个实证验证,确认我们的理论发现,与替代方法进行了彻底的比较,并进一步支持在实践中实现这一环境的兴趣。
translated by 谷歌翻译
已经研究了几十年的上下文多武装匪,并适应了各种应用,如在线广告和个性化推荐。为了解决匪徒的开发探索权衡,有三种主要技术:epsilon - 贪婪,汤普森采样(TS)和上置信度(UCB)。在最近的文献中,线性上下窗匪徒采用了脊回归来估计奖励功能,并将其与TS或UCB策略结合起来的探索。但是,这行作品明确假设奖励基于ARM向量的线性函数,在现实世界数据集中可能不是真的。为了克服这一挑战,已经提出了一系列神经基的强盗算法,其中分配了神经网络以学习基础奖励功能,并且TS或UCB适于探索。在本文中,我们提出了一种具有新的探索策略的神经基匪徒方法。除了利用神经网络(开发网络)外学习奖励功能之外,与目前估计的奖励相比,EE-Net采用另一个神经网络(勘探网络)来自适应地学习潜在的增益。然后,构建决策者以将输出与剥削和探索网络组合起来。我们证明了EE-Net实现了$ \ mathcal {o}(\ sqrt {t \ log t})$后悔,它比现有最先进的神经强盗算法更紧密($ \ mathcal {o}(\基于UCB和TS的SQRT {T} \ log t)$。通过对四世界数据集的广泛实验,我们表明EE-Net优于现有的线性和神经匪徒的方法。
translated by 谷歌翻译
我们开发了一种使用无遗憾的游戏动态解决凸面优化问题的算法框架。通过转换最小化凸起函数以顺序方式解决Min-Max游戏的辅助问题的问题,我们可以考虑一系列必须在另一个之后选择其行动的两名员工的一系列策略。这些策略的常见选择是所谓的无悔的学习算法,我们描述了许多此类并证明了遗憾。然后,我们表明许多凸面优化的经典一阶方法 - 包括平均迭代梯度下降,弗兰克 - 沃尔夫算法,重球算法和Nesterov的加速方法 - 可以被解释为我们框架的特殊情况由于每个玩家都做出正确选择无悔的策略。证明该框架中的收敛速率变得非常简单,因为它们遵循适当已知的遗憾范围。我们的框架还引发了一些凸优化的特殊情况的许多新的一阶方法。
translated by 谷歌翻译
我们研究$ k $ used的上下文决斗强盗问题,一个顺序决策制定设置,其中学习者使用上下文信息来制作两个决定,但只观察到\ emph {基于优先级的反馈}建议一个决定比另一个决定更好。我们专注于可实现的遗憾最小化问题,其中反馈由一个由给定函数类$ \ mathcal f $规定的成对偏好矩阵生成。我们提供了一种新的算法,实现了最佳反应遗憾的新概念的最佳遗憾,这是一个严格更强烈的性能测量,而不是先前作品所考虑的绩效衡量标准。该算法还在计算上有效,在多项式时间中运行,假设访问在线丢失回归超过$ \ mathcal f $。这可以解决dud \'ik等人的开放问题。[2015]关于Oracle高效,后悔 - 用于上下文决斗匪徒的最佳算法。
translated by 谷歌翻译
我们研究了$ k $武装的决斗匪徒问题,这是传统的多武器匪徒问题的一种变体,其中以成对比较的形式获得了反馈。以前的学习算法专注于$ \ textit {完全自适应} $设置,在每次比较后,算法可以进行更新。 “批处理”决斗匪徒问题是由Web搜索排名和推荐系统等大规模应用程序激励的,在这种应用程序中执行顺序更新可能是不可行的。在这项工作中,我们要问:$ \ textit {是否只使用几个自适应回合有解决方案,该回合与$ k $ armed的决斗匪徒的最佳顺序算法的渐近后悔界限?} $? \ textit {在condorcet条件下} $,这是$ k $武装的决斗匪徒问题的标准设置。我们获得$ O(k^2 \ log^2(k)) + O(k \ log(t))$的渐近遗憾地平线。我们的遗憾界限几乎与在Condorcet条件下完全顺序环境中已知的最佳后悔界限相匹配。最后,在各种现实世界数据集的计算实验中,我们观察到使用$ o(\ log(t))$ rounds的算法与完全顺序的算法(使用$ t $ rounds)的性能几乎相同。
translated by 谷歌翻译
差异化(DP)随机凸优化(SCO)在可信赖的机器学习算法设计中无处不在。本文研究了DP-SCO问题,该问题是从分布中采样并顺序到达的流媒体数据。我们还考虑了连续发布模型,其中与私人信息相关的参数已在每个新数据(通常称为在线算法)上更新和发布。尽管已经开发了许多算法,以实现不同$ \ ell_p $ norm几何的最佳多余风险,但是没有一个现有的算法可以适应流和持续发布设置。为了解决诸如在线凸优化和隐私保护的挑战,我们提出了一种在线弗兰克 - 沃尔夫算法的私人变体,并带有递归梯度,以减少差异,以更新和揭示每个数据上的参数。结合自适应差异隐私分析,我们的在线算法在线性时间中实现了最佳的超额风险,当$ 1 <p \ leq 2 $和最先进的超额风险达到了非私人较低的风险时,当$ 2 <p \ p \ $ 2 <p \ leq \ infty $。我们的算法也可以扩展到$ p = 1 $的情况,以实现几乎与维度无关的多余风险。虽然先前的递归梯度降低结果仅在独立和分布的样本设置中才具有理论保证,但我们在非平稳环境中建立了这样的保证。为了展示我们方法的优点,我们设计了第一个DP算法,用于具有对数遗憾的高维广义线性土匪。使用多种DP-SCO和DP-Bandit算法的比较实验表现出所提出的算法的功效和实用性。
translated by 谷歌翻译
我们考虑带有背包的土匪(从此以后,BWK),这是一种在供应/预算限制下的多臂土匪的通用模型。特别是,强盗算法需要解决一个众所周知的背包问题:找到最佳的物品包装到有限尺寸的背包中。 BWK问题是众多激励示例的普遍概括,范围从动态定价到重复拍卖,再到动态AD分配,再到网络路由和调度。尽管BWK的先前工作集中在随机版本上,但我们开创了可以在对手身上选择结果的另一个极端。与随机版本和“经典”对抗土匪相比,这是一个更加困难的问题,因为遗憾的最小化不再可行。相反,目的是最大程度地减少竞争比率:基准奖励与算法奖励的比率。我们设计了一种具有竞争比O(log t)的算法,相对于动作的最佳固定分布,其中T是时间范围;我们还证明了一个匹配的下限。关键的概念贡献是对问题的随机版本的新观点。我们为随机版本提出了一种新的算法,该算法是基于重复游戏中遗憾最小化的框架,并且与先前的工作相比,它具有更简单的分析。然后,我们为对抗版本分析此算法,并将其用作求解后者的子例程。
translated by 谷歌翻译
我们考虑在具有强盗反馈的未知游戏中的在线无遗憾的学习,其中每个代理只在每次都观察到其奖励 - 所有参与者当前的联合行动 - 而不是其渐变。我们专注于平稳且强烈单调的游戏类,并在其中研究最佳的无遗憾。利用自我协调的障碍功能,我们首先构建在线强盗凸优化算法,并表明它实现了平滑且强烈 - 凹陷的支付下$ \ tilde {\ theta}(\ sqrt {t})$的单代理最佳遗憾职能。然后,如果每个代理在强烈单调的游戏中应用这种无悔的学习算法,则以$ \ tilde {\ theta}的速率,联合动作会收敛于\ texit {last erate}到唯一的纳什均衡(1 / \ sqrt {t})$。在我们的工作之前,同一类游戏中的最熟悉的融合率是$ O(1 / T ^ {1/3})$(通过不同的算法实现),从而留下了最佳无悔的问题学习算法(因为已知的下限为$ \ omega(1 / \ sqrt {t})$)。我们的结果因此通过识别第一双重最佳强盗学习算法来解决这个公开问题并促进强盗游戏 - 理论学习的广泛景观,因为它达到了(达到了日志因子)单王子学习和最佳的最佳遗憾多代理学习中的最后迭代收敛速度。我们还展示了几项模拟研究的结果 - Cournot竞争,凯利拍卖和分布式正则化物流回归 - 以证明我们算法的功效。
translated by 谷歌翻译
我们研究了随机线性匪徒(LB)中的两个模型选择设置。在我们将其称为特征选择的第一个设置中,LB问题的预期奖励是$ M $特征映射(模型)中至少一个的线性跨度。在第二个设置中,LB问题的奖励参数由$ \ MATHBB r ^ d $中表示(可能)重叠球的$ M $模型任意选择。但是,该代理只能访问错过模型,即球的中心和半径的估计。我们将此设置称为参数选择。对于每个设置,我们开发和分析一种基于从匪徒减少到全信息问题的算法。这允许我们获得遗憾的界限(最多超过$ \ sqrt {\ log m} $ factor)而不是已知真实模型的情况。我们参数选择算法的遗憾也以模型不确定性对数进行缩放。最后,我们经验展现了使用合成和现实世界实验的算法的有效性。
translated by 谷歌翻译
凭借其综合理论和实际相关性,逻辑匪徒最近经历了仔细的审查。这项研究工作提供了统计上有效的算法,通过指数巨大的因素来改善以前的策略的遗憾。然而,这种算法非常昂贵,因为它们需要每轮的$ \ omega(t)$操作。另一方面,一种不同的研究系列专注于计算效率($ \ mathcal {o}(1)美元的成本),但在放弃上述指数改进的成本上。遗憾的是,获得两个世界的最佳并非结婚两种方法的问题。相反,我们为Logistic Barits介绍了一个新的学习过程。它产生了信心集,可以在没有牺牲统计密封性的情况下轻松在线维护足够的统计数据。结合高效的规划机制,我们设计了快速算法,后悔性能仍然符合Abeille等人的问题依赖性较低。 (2021)。据我们所知,这些是第一个同时享受统计和计算效率的第一逻辑强盗算法。
translated by 谷歌翻译
我们研究Stackelberg游戏,其中一位校长反复与长寿,非洋流代理商进行互动,而不知道代理商的回报功能。尽管当代理商是近视,非侧心代理会带来额外的并发症时,在Stackelberg游戏中的学习是充分理解的。尤其是,非洋流代理可以从战略上选择当前劣等的行动,以误导校长的学习算法并在未来获得更好的结果。我们提供了一个通用框架,该框架可在存在近视剂的情况下降低非洋白酶的学习来优化强大的匪徒。通过设计和分析微型反应性匪徒算法,我们的还原从校长学习算法的统计效率中进行了差异,以与其在诱导接近最佳的响应中的有效性。我们将此框架应用于Stackelberg Security Games(SSG),需求曲线,战略分类和一般有限的Stackelberg游戏的价格。在每种情况下,我们都表征了近最佳响应中存在的错误的类型和影响,并为此类拼写错误开发了一种鲁棒性的学习算法。在此过程中,我们通过最先进的$ O(n^3)$从SSGS中提高了SSG中的学习复杂性,从通过发现此类游戏的基本结构属性。该结果除了对非洋流药物学习之外,还具有独立的兴趣。
translated by 谷歌翻译
动态治疗方案(DTRS)是个性化的,适应性的,多阶段的治疗计划,可将治疗决策适应个人的初始特征,并在随后的每个阶段中的中级结果和特征,在前阶段受到决策的影响。例子包括对糖尿病,癌症和抑郁症等慢性病的个性化一线和二线治疗,这些治疗适应患者对一线治疗,疾病进展和个人特征的反应。尽管现有文献主要集中于估算离线数据(例如从依次随机试验)中的最佳DTR,但我们研究了以在线方式开发最佳DTR的问题,在线与每个人的互动都会影响我们的累积奖励和我们的数据收集,以供我们的数据收集。未来的学习。我们将其称为DTR匪徒问题。我们提出了一种新颖的算法,通过仔细平衡探索和剥削,可以保证当过渡和奖励模型是线性时,可以实现最佳的遗憾。我们证明了我们的算法及其在合成实验和使用现实世界中对重大抑郁症的适应性治疗的案例研究中的好处。
translated by 谷歌翻译
积极的学习方法在减少学习所需的样本数量方面表现出了巨大的希望。随着自动化学习系统被采用到实时的现实世界决策管道中,越来越重要的是,这种算法的设计考虑到了安全性。在这项工作中,我们研究了在互动环境中学习最佳安全决定的复杂性。我们将这个问题减少到约束的线性匪徒问题,我们的目标是找到满足某些(未知)安全限制的最佳手臂。我们提出了一种基于自适应的实验性设计算法,在显示ARM的难度与次优的难度之间,我们表现出了有效的交易。据我们所知,我们的结果是具有安全限制的线性匪徒最佳武器识别。实际上,我们证明了这种方法在合成和现实世界数据集上的表现很好。
translated by 谷歌翻译
我们为线性上下文匪徒提出了一种新颖的算法(\ sqrt {dt \ log t})$遗憾,其中$ d $是上下文的尺寸,$ t $是时间范围。我们提出的算法配备了一种新型估计量,其中探索通过显式随机化嵌入。根据随机化的不同,我们提出的估计器从所有武器的上下文或选定的上下文中都取得了贡献。我们为我们的估计器建立了一个自称的绑定,这使累积遗憾的新颖分解为依赖添加剂的术语而不是乘法术语。在我们的问题设置下,我们还证明了$ \ omega(\ sqrt {dt})$的新颖下限。因此,我们提出的算法的遗憾与对数因素的下限相匹配。数值实验支持理论保证,并表明我们所提出的方法的表现优于现有的线性匪徒算法。
translated by 谷歌翻译
我们研究了对抗性多臂土匪的元学习。我们考虑在线 - 在线设置,其中玩家(学习者)遇到了一系列多臂强盗情节。根据对手产生的损失,球员的表现被衡量为对每一集中最佳手臂的遗憾。问题的难度取决于对手选择的最佳手臂的经验分布。我们提出了一种算法,可以利用这种经验分布中的非均匀性,并得出与问题有关的遗憾界限。该解决方案包括一个内部学习者,该学习者分别播放每个情节,以及一个外部学习者,它更新了情节之间内部算法的超参数。如果最好的手臂分配远非统一,则它可以通过在每个情节上单独执行的任何在没有元学习的在线执行的在线算法来实现的最佳界限。
translated by 谷歌翻译