智能论文笔记

Universal Caching

Ativ Joshi , Abhishek Sinha

分类：机器学习

2022-05-10

在学习理论中，通常根据静态遗憾度量来衡量在线政策的表现，该指标将在线政策的累积损失与事后看来的最佳基准的累积损失进行了比较。在静态遗憾的定义中，基准策略的行动在整个时间范围内保持固定。自然地，在固定行动通常遭受性能不佳的非统计环境中，产生的遗憾界限变得松散。在本文中，我们调查了在线缓存中更强烈的遗憾最小化概念。特别是，我们允许任何一轮基准的行动由包含任何数量状态的有限状态机决定。流行的缓存政策，例如LRU和FIFO，属于此类。利用信息理论中普遍预测文献中的思想，我们提出了一个有效的在线缓存政策，并具有次线性遗憾。据我们所知，这是在通用环境中以缓存问题而闻名的第一个依赖数据的遗憾。我们通过将最近提供的在线缓存政策与逐步解析算法（即Lempel-Ziv '78）相结合来确定这一结果。我们的方法还产生了更简单的学习理论证明，证明了与早期作品中使用的涉及特定问题的组合论证相反，遗憾的改善。

translated by 谷歌翻译

Optimistic No-regret Algorithms for Discrete Caching

Naram Mhaisen , Abhishek Sinha , Georgios Paschos , Georgios Iosifidis

分类：机器学习

2022-08-15

我们系统地研究了在乐观学习的背景下将整个文件存储在容量有限的缓存中的问题，在这种学习情况下，缓存策略可以访问预测甲骨文（例如，由神经网络提供）。连续的文件请求假定由对手生成，并且对Oracle的准确性没有任何假设。在这种情况下，我们为预测辅助在线缓存提供了通用的下限，并继续设计一套具有一系列性能复杂性权衡的政策。所有提议的政策都均均与甲骨文的准确性相称。我们的结果大大改善了所有最近提供的在线缓存政策，该政策无法利用Oracle预测，仅提供$ O（\ sqrt {t}）$遗憾。在这种追求中，我们据我们所知，我们设计了第一个全面的乐观跟随领导者政策，该政策超出了缓存问题。我们还研究了具有不同尺寸的缓存文件和两部分网络缓存问题的问题。最后，我们通过使用现实世界痕迹进行广泛的数值实验来评估所提出的策略的功效。

translated by 谷歌翻译

Online Subset Selection using $α$-Core with no Augmented Regret

Sourav Sahoo , Samrat Mukhopadhyay , Abhishek Sinha

分类：机器学习 | 人工智能

2022-09-28

我们考虑在线学习设置中的顺序稀疏子集选择的问题。假设集合$ [n] $由$ n $不同的元素组成。在$ t^{\ text {th}} $ round上，单调奖励函数$ f_t：2^{[n]} \ to \ m athbb {r} _+，$，为每个子集分配非阴性奖励$ [n]，向学习者透露$。学习者在奖励功能$ f_t $ for $ f_t $之前（k \ leq n）$选择（也许是随机的）子集$ s_t \ subseteq [n] $ of $ k $元素。由于选择的结果，学习者在$ t^{\ text {th}} $ round上获得了$ f_t（s_t）$的奖励。学习者的目标是设计一项在线子集选择策略，以最大程度地提高其在给定时间范围内产生的预期累积奖励。在这方面，我们提出了一种称为Score的在线学习策略（带有Core的子集选择），以解决大量奖励功能的问题。拟议的分数策略基于$ \ alpha $ core的新概念，这是对合作游戏理论文献中核心概念的概括。我们根据一个名为$ \ alpha $的遗憾的新绩效指标为分数政策建立学习保证。在这个新的指标中，与在线政策相比，离线基准的功能适当增强。我们给出了几个说明性示例，以表明可以使用分数策略有效地学习包括子模型在内的广泛奖励功能。我们还概述了如何在半伴奏反馈模型下使用得分策略，并以许多开放问题的总结结束了论文。

translated by 谷歌翻译

Fast Rates for Nonparametric Online Learning: From Realizability to Learning in Games

Constantinos Daskalakis , Noah Golowich

分类：机器学习 | (统计)机器学习

2021-11-17

我们研究了非参数在线回归中的快速收敛速度，即遗憾的是关于具有有界复杂度的任意函数类来定义后悔。我们的贡献是两倍： - 在绝对损失中的非参数网上回归的可实现设置中，我们提出了一种随机适当的学习算法，该算法在假设类的顺序脂肪破碎尺寸方面获得了近乎最佳的错误。在与一类Littlestone维度$ D $的在线分类中，我们的绑定减少到$ d \ cdot {\ rm poly} \ log t $。这结果回答了一个问题，以及适当的学习者是否可以实现近乎最佳错误的界限;以前，即使在线分类，绑定的最知名错误也是$ \ tilde o（\ sqrt {dt}）$。此外，对于真实值（回归）设置，在这项工作之前，界定的最佳错误甚至没有以不正当的学习者所知。 - 使用上述结果，我们展示了Littlestone维度$ D $的一般总和二进制游戏的独立学习算法，每个玩家达到后悔$ \ tilde o（d ^ {3/4} \ cdot t ^ {1 / 4}）$。该结果概括了Syrgkanis等人的类似结果。（2015）谁表明，在有限的游戏中，最佳遗憾可以从普通的o（\ sqrt {t}）$中的$ o（\ sqrt {t}）为游戏设置中的$ o（t ^ {1/4}）$。要建立上述结果，我们介绍了几种新技术，包括：分层聚合规则，以实现对实际类别的最佳错误，Hanneke等人的适当在线可实现学习者的多尺度扩展。（2021），一种方法来表明这种非参数学习算法的输出是稳定的，并且证明Minimax定理在所有在线学习游戏中保持。

translated by 谷歌翻译

Learning Markov Games with Adversarial Opponents: Efficient Algorithms and Fundamental Limits

Qinghua Liu , Yuanhao Wang , Chi Jin

分类：机器学习 | 人工智能 | (统计)机器学习

2022-03-14

零和游戏中的理想策略不仅应授予玩家的平均奖励，不少于NASH均衡的价值，而且还应在次优时利用（自适应）对手。尽管马尔可夫游戏中的大多数现有作品都专注于以前的目标，但我们是否可以同时实现这两个目标仍然开放。为了解决这个问题，这项工作在马尔可夫游戏中与对抗对手进行了无重组学习，当时与事后最佳的固定政策竞争时。沿着这个方向，我们提出了一组新的正面和负面结果：当每个情节结束时对手的政策被揭示时，我们提出了实现$ \ sqrt {k} $的新的有效算法 - 遗憾的是（遗憾的是） 1）基线政策类别很小或（2）对手的政策类别很小。当两种条件不正确时，这与指数下限相辅相成。当未揭示对手的政策时，即使在最有利的情况下，当两者都是正确的情况下，我们也会证明统计硬度结果。我们的硬度结果比仅涉及计算硬度或需要进一步限制算法的现有硬度结果要强得多。

translated by 谷歌翻译

Non-stationary Bandits and Meta-Learning with a Small Set of Optimal Arms

MohammadJavad Azizi , Thang Duong , Yasin Abbasi-Yadkori , András György , Claire Vernade , Mohammad Ghavamzadeh

分类：机器学习 | (统计)机器学习

2022-02-25

我们研究了一个顺序决策问题，其中学习者面临$ k $武装的随机匪徒任务的顺序。对手可能会设计任务，但是对手受到限制，以在$ m $ and的较小（但未知）子集中选择每个任务的最佳组。任务边界可能是已知的（强盗元学习设置）或未知（非平稳的强盗设置）。我们设计了一种基于Burnit subsodular最大化的减少的算法，并表明，在大量任务和少数最佳武器的制度中，它在两种情况下的遗憾都比$ \ tilde {o}的简单基线要小。 \ sqrt {knt}）$可以通过使用为非平稳匪徒问题设计的标准算法获得。对于固定任务长度$ \ tau $的强盗元学习问题，我们证明该算法的遗憾被限制为$ \ tilde {o}（nm \ sqrt {m \ tau}+n^{2/3} m \ tau）$。在每个任务中最佳武器的可识别性的其他假设下，我们显示了一个带有改进的$ \ tilde {o}（n \ sqrt {m \ tau}+n^{1/2} {1/2} \ sqrt的强盗元学习算法{m k \ tau}）$遗憾。

translated by 谷歌翻译

The Best of Many Worlds: Dual Mirror Descent for Online Allocation Problems

Santiago Balseiro , Haihao Lu , Vahab Mirrokni

分类：机器学习

2020-11-18

资源限制的在线分配问题是收入管理和在线广告中的核心问题。在这些问题中，请求在有限的地平线期间顺序到达，对于每个请求，决策者需要选择消耗一定数量资源并生成奖励的动作。目标是最大限度地提高累计奖励，这是对资源总消费的限制。在本文中，我们考虑一种数据驱动的设置，其中使用决策者未知的输入模型生成每个请求的奖励和资源消耗。我们设计了一般的算法算法，可以在各种输入模型中实现良好的性能，而不知道它们面临的类型类型。特别是，我们的算法在独立和相同的分布式输入以及各种非静止随机输入模型下是渐近的最佳选择，并且当输入是对抗性时，它们达到渐近最佳的固定竞争比率。我们的算法在Lagrangian双色空间中运行：它们为使用在线镜像血管更新的每个资源维护双倍乘数。通过相应地选择参考功能，我们恢复双梯度下降和双乘法权重更新算法。与现有的在线分配问题的现有方法相比，所产生的算法简单，快速，不需要在收入函数，消费函数和动作空间中凸起。我们将应用程序讨论到网络收入管理，在线竞标，重复拍卖，预算限制，与高熵的在线比例匹配，以及具有有限库存的个性化分类优化。

translated by 谷歌翻译

Online Resource Allocation under Horizon Uncertainty

Santiago Balseiro , Christian Kroer , Rachitesh Kumar

分类：机器学习

2022-06-27

我们研究随机的在线资源分配：决策者需要分配有限的资源来为随机生成的顺序派遣请求，以最大程度地提高奖励。通过练习，我们考虑了一个数据驱动的设置，在该设置中，请求独立于决策者未知的分布。过去已经对在线资源分配及其特殊情况进行了广泛的研究，但是这些先前的结果至关重要和普遍地依赖于一个实际上不可能的假设：请求总数（地平线）是决策者事先知道的。在许多应用程序（例如收入管理和在线广告）中，由于需求或用户流量强度的波动，请求的数量可能差异很大。在这项工作中，我们开发了在线算法，这些算法对地平线不确定性是可靠的。与已知的马环境形成鲜明对比的是，我们表明没有算法可以达到与视野不确定性无关的恒定渐近竞争比率。然后，我们引入了一种新型算法，该算法将双镜下降与精心选择的目标消耗序列结合在一起，并证明其达到了有限的竞争比率。从地平线不确定性增长时，我们的竞争比达到了最佳生长速率，我们的算法几乎是最佳的。

translated by 谷歌翻译

On Efficient Online Imitation Learning via Classification

Yichen Li , Chicheng Zhang

分类：机器学习

2022-09-26

模仿学习（IL）是解决顺序决策问题的一般学习范式。互动模仿学习，学习者可以在其中与专家示范的互动查询，与其离线同行或强化学习相比，已证明可以实现可证明的卓越样本效率保证。在这项工作中，我们研究了基于分类的在线模仿学习（abbrev。$ \ textbf {coil} $），以及在这种情况下设计Oracle有效的遗憾最小化算法的基本可行性，重点是一般的不可思议的情况。我们做出以下贡献：（1）我们表明，在$ \ textbf {coil} $问题中，任何适当的在线学习算法都不能保证总体上遗憾的是；（2）我们提出了$ \ textbf {logger} $，一种不当的在线学习算法框架，通过利用混合策略类的新定义，将$ \ textbf {coil} $降低到在线线性优化；（3）我们在$ \ textbf {logger} $框架中设计了两种Oracle效率算法，它们享受不同的样本和互动的复杂性权衡，并进行有限样本分析以显示其对幼稚行为克隆的改进；（4）我们表明，在标准复杂性理论假设下，在$ \ textbf {logger} $框架中，有效的动态遗憾最小化是不可行的。我们的工作将基于分类的在线模仿学习（一个重要的IL设置）置于更牢固的基础上。

translated by 谷歌翻译

Dynamic Regret of Online Markov Decision Processes

Peng Zhao , Long-Fei Li , Zhi-Hua Zhou

分类：机器学习 | (统计)机器学习

2022-08-26

我们研究了在线马尔可夫决策过程（MDP），具有对抗性变化的损失功能和已知过渡。我们选择动态遗憾作为绩效度量，定义为学习者和任何可行的变化策略序列之间的绩效差异。这项措施严格比标准的静态遗憾要强得多，该标准遗憾的是，基准通过固定的政策将学习者的绩效表现为学习者的表现。我们考虑了三种在线MDP的基础模型，包括无情节循环随机路径（SSP），情节SSP和Infinite-Horizon MDP。对于这三个模型，我们提出了新颖的在线集合算法并分别建立了动态遗憾保证，在这种情况下，情节性（无环）SSP的结果在时间范围和某些非平稳性度量方面是最佳的最低限度。此外，当学习者遇到的在线环境是可以预测的时，我们设计了改进的算法并为情节（无环）SSP实现更好的动态遗憾界限；此外，我们证明了无限 - 摩恩MDP的不可能结果。

translated by 谷歌翻译

HTML版本

Robust Dynamic Assortment Optimization in the Presence of Outlier Customers

Xi Chen , Akshay Krishnamurthy , Yining Wang

分类： (统计)机器学习 | 机器学习

2019-10-09

我们考虑具有未知实用程序参数的多项式logit模型（MNL）下的动态分类优化问题。本文研究的主要问题是$ \ varepsilon $ - 污染模型下的模型错误指定，该模型是强大统计和机器学习中的基本模型。特别是，在整个长度$ t $的销售范围内，我们假设客户根据$（1- \ varepsilon）$ - 时间段的$（1- \ varepsilon）的基础多项式logit选择模型进行购买，并进行任意购买取而代之的是在剩余的$ \ varepsilon $ - 分数中的决策。在此模型中，我们通过主动淘汰策略制定了新的强大在线分类优化政策。我们对遗憾建立上限和下界，并表明当分类能力恒定时，我们的政策是$ t $的最佳对数因素。分类能力具有恒定的上限。我们进一步制定了一种完全自适应策略，该政策不需要任何先验知识，即污染参数$ \ varepsilon $。如果存在最佳和亚最佳产品之间存在的亚临时差距，我们还建立了依赖差距的对数遗憾上限和已知的 - $ \ VAREPSILON $和UNKNOWER-$ \ \ VAREPSILON $案例。我们的仿真研究表明，我们的政策表现优于基于上置信度范围（UCB）和汤普森采样的现有政策。

translated by 谷歌翻译

Online Learning via Offline Greedy Algorithms: Applications in Market Design and Optimization

Rad Niazadeh , Negin Golrezaei , Joshua Wang , Fransisca Susan , Ashwinkumar Badanidiyuru

分类：机器学习 | (统计)机器学习

2021-02-18

在随着时间变化的组合环境中的在线决策激励，我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题，我们提供了一个通用框架，该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明，在完整信息设置下，由此产生的在线算法具有$ O（\ sqrt {t}）$（近似）遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展，我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪（t^{2/3}）$（近似）$（近似）的遗憾。展示了我们框架的灵活性，我们将脱机之间的转换应用于收入管理，市场设计和在线优化的几个问题，包括在线平台中的产品排名优化，拍卖中的储备价格优化以及supperular tossodular最大化。。我们还将还原扩展到连续优化的类似贪婪的一阶方法，例如用于最大化连续强的DR单调下调功能，这些功能受到凸约束的约束。我们表明，当应用于这些应用程序时，我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究，在这两种应用中，我们都观察到，转换的数值性能在实际情况下优于理论保证。

translated by 谷歌翻译

Optimal and Efficient Dynamic Regret Algorithms for Non-Stationary Dueling Bandits

Shubham Gupta , Aadirupa Saha

分类：机器学习 | 人工智能

2021-11-06

我们在非稳定性或时间变化偏好下，在$ k $的武器{动态遗憾最小化}中研究了\ mpph {动态遗憾最小化}。这是一个在线学习设置，其中代理在每个轮中选择一对项目，并仅观察该对的相对二进制`的次数“反馈，从该圆的底层偏好矩阵中采样。我们首先研究对抗性偏好序列的静态后悔最小化问题，并使用$ O（\ SQRT {kt}）为高概率遗憾设计了高效的算法。我们接下来使用类似的算法思想，提出一种在非实践中的两种概念下的动态遗为最小化的高效且可透明的最佳算法。特别是，我们建立$ \ to（\ sqrt {skt}）$和$ \ to（{v_t ^ {1/3} k ^ {1/3} t ^ {2/3}}）$动态后悔保证，$ S $是基础偏好关系中的“有效交换机”的总数，以及$ V_T $的衡量标准的“连续变化”非公平性。尽管现实世界系统中的非静止环境实用性，但在这项工作之前尚未研究这些问题的复杂性。我们通过证明在上述非实践概念下的符合下限保证匹配的匹配的算法来证明我们的算法的最优性。最后，我们通过广泛的模拟来证实我们的结果，并比较我们算法在最先进的基线上的功效。

translated by 谷歌翻译

Model Selection in Contextual Stochastic Bandit Problems

Aldo Pacchiano , My Phan , Yasin Abbasi-Yadkori , Anup Rao , Julian Zimmert , Tor Lattimore , Csaba Szepesvari

分类：机器学习 | (统计)机器学习

2020-03-03

We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $\Omega(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.

translated by 谷歌翻译

Making the most of your day: online learning for optimal allocation of time

Etienne Boursier , Tristan Garrec , Vianney Perchet , Marco Scarsini

分类： (统计)机器学习 | 机器学习

2021-02-16

我们在线学习进行在线学习以获得要分配的资源是时间的最佳分配。可能的应用程序的％示例包括计算服务器的作业调度，驾驶员填写一天的驾驶员，租赁房地产的房东等。代理人根据泊松过程顺序地接收任务提案，可以接受或拒绝提出的任务。如果她接受提案，她正忙于任务的持续时间，并获得取决于任务持续时间的奖励。如果她拒绝它，她仍然持有，直到新的任务提案到达。我们研究了代理的遗憾，首先，当她知道她的奖励功能但不知道任务持续时间的分配时，然后她不知道她的奖励功能。这种自然设置与上下文（单武装）匪徒承担相似之处，但与上下文相关的归一化奖励的关键差异取决于整个上下文的分布。

translated by 谷歌翻译

Bandit problems with fidelity rewards

Gábor Lugosi , Ciara Pike-Burke , Pierre-André Savalle

分类： (统计)机器学习 | 机器学习

2021-11-25

富达匪徒问题是$ k $的武器问题的变体，其中每个臂的奖励通过提供额外收益的富达奖励来增强，这取决于播放器如何对该臂进行“忠诚”在过去。我们提出了两种忠诚的模型。在忠诚点模型中，额外奖励的数量取决于手臂之前播放的次数。在订阅模型中，额外的奖励取决于手臂的连续绘制的当前数量。我们考虑随机和对抗问题。由于单臂策略在随机问题中并不总是最佳，因此对抗性环境中遗憾的概念需要仔细调整。我们介绍了三个可能的遗憾和调查，这可以是偏执的偏执。我们详细介绍了增加，减少和优惠券的特殊情况（玩家在手臂的每辆M $播放后获得额外的奖励）保真奖励。对于不一定享受载体遗憾的模型，我们提供了最糟糕的下限。对于那些展示Sublinear遗憾的模型，我们提供算法并绑定他们的遗憾。

translated by 谷歌翻译

Cost-Effective Online Contextual Model Selection

Xuefeng Liu , Fangfang Xia , Rick L. Stevens , Yuxin Chen

分类：机器学习 | 人工智能 | (统计)机器学习

2022-07-13

当使用任意异质数据流提供时，我们如何收集最有用的标签来学习模型选择策略？在本文中，我们将此任务制定为一个在线上下文的活动模型选择问题，在每个回合中，学习者在上下文中都会收到一个未标记的数据点以及上下文。目的是在任何给定上下文中输出最佳模型，而不会获得过多的标签。特别是，我们专注于选择预训练的分类器的任务，并提出一种上下文活动模型选择算法（CAM），该算法依赖于在给定策略类别上定义的新型不确定性采样查询标准用于自适应模型选择。与先前的ART相比，我们的算法不假定全球最佳模型。我们提供严格的理论分析，以实现对抗和随机设置下的遗憾和查询复杂性。我们对几个基准分类数据集的实验证明了该算法在遗憾和查询复杂性方面的有效性。值得注意的是，与CIFAR10上最佳的在线型号选择基线相比，CAMS的标签成本少于标签成本的10％。

translated by 谷歌翻译

Contextual Bandits and Optimistically Universal Learning

Moise Blanchard , Steve Hanneke , Patrick Jaillet

分类： (统计)机器学习 | 机器学习

2022-12-31

We consider the contextual bandit problem on general action and context spaces, where the learner's rewards depend on their selected actions and an observable context. This generalizes the standard multi-armed bandit to the case where side information is available, e.g., patients' records or customers' history, which allows for personalized treatment. We focus on consistency -- vanishing regret compared to the optimal policy -- and show that for large classes of non-i.i.d. contexts, consistency can be achieved regardless of the time-invariant reward mechanism, a property known as universal consistency. Precisely, we first give necessary and sufficient conditions on the context-generating process for universal consistency to be possible. Second, we show that there always exists an algorithm that guarantees universal consistency whenever this is achievable, called an optimistically universal learning rule. Interestingly, for finite action spaces, learnable processes for universal learning are exactly the same as in the full-feedback setting of supervised learning, previously studied in the literature. In other words, learning can be performed with partial feedback without any generalization cost. The algorithms balance a trade-off between generalization (similar to structural risk minimization) and personalization (tailoring actions to specific contexts). Lastly, we consider the case of added continuity assumptions on rewards and show that these lead to universal consistency for significantly larger classes of data-generating processes.

translated by 谷歌翻译

Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization

Peng Zhao , Yu-Jie Zhang , Lijun Zhang , Zhi-Hua Zhou

分类：机器学习

2021-12-29

我们在非静止环境中调查在线凸优化，然后选择\ emph {动态后悔}作为性能测量，定义为在线算法产生的累积损失与任何可行比较器序列之间的差异。让$ t $是$ p_t $ be的路径长度，基本上反映了环境的非平稳性，最先进的动态遗憾是$ \ mathcal {o}（\ sqrt {t（ 1 + p_t）}）$。虽然这一界限被证明是凸函数最佳的最低限度，但在本文中，我们证明可以进一步提高一些简单的问题实例的保证，特别是当在线功能平滑时。具体而言，我们提出了新的在线算法，可以利用平滑度并替换动态遗憾的$ t $替换依据\ {问题依赖性}数量：损耗函数梯度的变化，比较器序列的累积损失，以及比较器序列的累积损失最低术语的最低限度。这些数量是大多数$ \ mathcal {o}（t）$，良性环境中可能更小。因此，我们的结果适应了问题的内在难度，因为边界比现有结果更严格，以便在最坏的情况下保证相同的速率。值得注意的是，我们的算法只需要\ emph {一个}渐变，这与开发的方法共享相同的渐变查询复杂性，以优化静态遗憾。作为进一步的应用，我们将来自全信息设置的结果扩展到具有两点反馈的强盗凸优化，从而达到此类强盗任务的第一个相关的动态遗憾。

translated by 谷歌翻译

Model-Free Non-Stationary RL: Near-Optimal Regret and Applications in Multi-Agent RL and Inventory Control

Weichao Mao , Kaiqing Zhang , Ruihao Zhu , David Simchi-Levi , Tamer Başar

分类：机器学习 | 人工智能 | (统计)机器学习

2020-10-07

我们考虑非平稳马尔可夫决策过程中的无模型增强学习（RL）。只要其累积变化不超过某些变化预算，奖励功能和国家过渡功能都可以随时间随时间变化。我们提出了重新启动的Q学习，以上置信度范围（RestartQ-UCB），这是第一个用于非平稳RL的无模型算法，并表明它在动态遗憾方面优于现有的解决方案。具体而言，带有freedman型奖励项的restartq-ucb实现了$ \ widetilde {o}（s^{\ frac {1} {3}} {\ frac {\ frac {1} {1} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {\ delta ^{\ frac {1} {3}} h t^{\ frac {2} {3}}} $，其中$ s $和$ a $分别是$ \ delta> 0 $的状态和动作的数字是变化预算，$ h $是每集的时间步数，而$ t $是时间步长的总数。我们进一步提出了一种名为Double-Restart Q-UCB的无参数算法，该算法不需要事先了解变化预算。我们证明我们的算法是\ emph {几乎是最佳}，通过建立$ \ omega的信息理论下限（s^{\ frac {1} {1} {3}}} a^{\ frac {1} {1} {3}}}}}} \ delta^{\ frac {1} {3}} h^{\ frac {2} {3}}}} t^{\ frac {2} {3}}} $，是非稳态RL中的第一个下下限。数值实验可以根据累积奖励和计算效率来验证RISTARTQ-UCB的优势。我们在相关产品的多代理RL和库存控制的示例中证明了我们的结果的力量。

translated by 谷歌翻译