智能论文笔记

Minimax Optimal Quantile and Semi-Adversarial Regret via Root-Logarithmic Regularizers

Jeffrey Negrea , Blair Bilodeau , Nicolò Campolongo , Francesco Orabona , Daniel M. Roy

分类： (统计)机器学习 | 机器学习

2021-10-27

分位数（更普遍，KL）遗憾的界限，例如由癌症（Chaudhuri，Freund和Hsu 2009）及其变体实现的界限，放松了竞争最佳个别专家的目标，只能争夺大多数专家对抗性数据。最近，通过考虑可能既完全对抗或随机（i.i.D.），半对抗拉利范式（Bilodeau，Negrea和Roy 2020）提供了对抗性在线学习的替代放松。我们使用FTRL与单独的，新颖的根对数常规常规程序一起实现SIMIMAX最佳遗憾，这两者都可以解释为QuanchEdge的屈服变体。我们扩展了现有的KL遗憾的上限，统一地持有目标分布，可能是具有任意前锋的不可数专家课程;在有限的专家课程（紧密）上为Simitile遗憾提供第一个全信息下限;并为半逆势范式提供适应性最低的最低限度最佳算法，其适应真实，未知的约束更快，导致在现有方法上均匀改进遗憾。

translated by 谷歌翻译

Relaxing the I.I.D. Assumption: Adaptively Minimax Optimal Regret via Root-Entropic Regularization

Blair Bilodeau , Jeffrey Negrea , Daniel M. Roy

分类： (统计)机器学习 | 机器学习

2020-07-13

当在未知约束集中任意变化的分布中生成数据时，我们会考虑使用专家建议的预测。这种半反向的设置包括（在极端）经典的I.I.D.设置时，当未知约束集限制为单身人士时，当约束集是所有分布的集合时，不受约束的对抗设置。对冲状态中，对冲算法（长期以来已知是最佳的最佳速率（速率））最近被证明是对I.I.D.的最佳最小值。数据。在这项工作中，我们建议放松I.I.D.通过在约束集的所有自然顺序上寻求适应性来假设。我们在各个级别的Minimax遗憾中提供匹配的上限和下限，表明确定性学习率的对冲在极端之外是次优的，并证明人们可以在各个级别的各个层面上都能适应Minimax的遗憾。我们使用以下规范化领导者（FTRL）框架实现了这种最佳适应性，并采用了一种新型的自适应正则化方案，该方案隐含地缩放为当前预测分布的熵的平方根，而不是初始预测分布的熵。最后，我们提供了新的技术工具来研究FTRL沿半逆转频谱的统计性能。

translated by 谷歌翻译

Scale-free Unconstrained Online Learning for Curved Losses

Jack J. Mayo , Hédi Hadiji , Tim van Erven

分类：机器学习

2022-02-11

一系列不受限制的在线凸优化中的作品已经调查了同时调整比较器的规范$ u $和梯度的最大规范$ g $的可能性。在完全的一般性中，已知匹配的上限和下界表明，这是不可避免的$ g u^3 $的不可避免的成本，当$ g $或$ u $提前知道时，这是不需要的。令人惊讶的是，Kempka等人的最新结果。（2019年）表明，在特定情况下，不需要这样的适应性价格，例如$ -Lipschitz损失（例如铰链损失）。我们通过表明我们专门研究任何其他常见的在线学习损失，我们的结果涵盖了日志损失，（线性和非参数）逻辑回归，我们实际上从来没有任何代价来为适应性支付的代价，从而跟进这一观察结果，我们会跟进这一观察结果。方形损耗预测，以及（线性和非参数）最小二乘回归。我们还通过提供对$ U $的明确依赖的下限来填补文献中的几个空白。在所有情况下，我们都会获得无标度算法，这些算法在数据恢复下是合理的不变。我们的一般目标是在不关心计算效率的情况下建立可实现的速率，但是对于线性逻辑回归，我们还提供了一种适应性方法，该方法与Agarwal等人的最新非自适应算法一样有效。（2021）。

translated by 谷歌翻译

On the Complexity of Adversarial Decision Making

Dylan J. Foster , Alexander Rakhlin , Ayush Sekhari , Karthik Sridharan

分类：机器学习 | (统计)机器学习

2022-06-27

在线学习和决策中的一个核心问题 - 从土匪到强化学习 - 是要了解哪种建模假设会导致样本有效的学习保证。我们考虑了一个普遍的对抗性决策框架，该框架涵盖了（结构化的）匪徒问题，这些问题与对抗性动力学有关。我们的主要结果是通过新的上限和下限显示决策估计系数，这是Foster等人引入的复杂度度量。在与我们环境的随机对应物中，对于对抗性决策而言是必要和足够的遗憾。但是，与随机设置相比，必须将决策估计系数应用于所考虑的模型类（或假设）的凸壳。这就确定了容纳对抗奖励或动态的价格受凸层化模型类的行为的约束，并恢复了许多现有结果 - 既积极又负面。在获得这些保证的途径中，我们提供了新的结构结果，将决策估计系数与其他众所周知的复杂性度量的变体联系起来，包括Russo和Van Roy的信息比以及Lattimore和Gy的探索目标\“ {o} rgy。

translated by 谷歌翻译

Adaptation to the Range in $K$-Armed Bandits

Hédi Hadiji , Gilles Stoltz

分类： (统计)机器学习

2020-06-05

我们考虑使用$ K $臂的随机匪徒问题，每一个都与$ [m，m] $范围内支持的有限分布相关。我们不认为$ [m，m] $是已知的范围，并表明学习此范围有成本。确实，出现了与分销相关和无分配后悔界限之间的新权衡，这阻止了同时实现典型的$ \ ln t $和$ \ sqrt {t} $ bunds。例如，仅当与分布相关的遗憾界限至少属于$ \ sqrt {t} $的顺序时，才能实现$ \ sqrt {t} $}无分布遗憾。我们展示了一项策略，以实现新的权衡表明的遗憾。

translated by 谷歌翻译

Parameter-free Mirror Descent

Andrew Jacobsen , Ashok Cutkosky

分类：机器学习 | (统计)机器学习

2022-02-26

我们开发了一个修改的在线镜下降框架，该框架适用于在无界域中构建自适应和无参数的算法。我们利用这项技术来开发第一个不受限制的在线线性优化算法，从而达到了最佳的动态遗憾，我们进一步证明，基于以下规范化领导者的自然策略无法取得相似的结果。我们还将镜像下降框架应用于构建新的无参数隐式更新，以及简化和改进的无限规模算法。

translated by 谷歌翻译

PDE-Based Optimal Strategy for Unconstrained Online Learning

Zhiyu Zhang , Ashok Cutkosky , Ioannis Paschalidis

分类：机器学习

2022-01-19

不受限制的在线线性优化（OLO）是研究机器学习模型培训的实用问题。现有作品提出了许多基于潜在的算法，但总的来说，这些潜在功能的设计在很大程度上取决于猜测。为了简化此工作流程，我们提出了一个框架，该框架通过求解部分微分方程（PDE）来生成新的潜在功能。具体来说，当损失是1-lipschitz时，我们的框架会产生一种新颖的算法，并随时随地遗憾绑定$ c \ sqrt {t}+|| || u || \ sqrt {2t} [\ sqrt {\ sqrt {\ log（1+|| |||/c）}+2] $，其中$ c $是用户指定的常数，$ u $是任何比较器未知和无限的先验者。这样的界限实现了最佳的损失重格折衷，而没有不切实际的tuble俩。此外，匹配的下限表明，包括常量乘数$ \ sqrt {2} $在内的领先订单项很紧。据我们所知，提出的算法是第一个实现此类最佳性的算法。

translated by 谷歌翻译

Top Two Algorithms Revisited

Marc Jourdan , Rémy Degenne , Dorian Baudry , Rianne de Heide , Emilie Kaufmann

分类： (统计)机器学习 | 机器学习

2022-06-13

出现了前两种算法，作为汤普森采样对多臂匪徒模型中最佳手臂识别的适应（Russo，2016），用于武器的参数家族。他们通过在两个候选臂，一个领导者和一个挑战者中随机化来选择下一个要采样的臂。尽管具有良好的经验表现，但仅当手臂是具有已知差异的高斯时，才能获得固定信心最佳手臂识别的理论保证。在本文中，我们提供了对两种方法的一般分析，该方法确定了领导者，挑战者和武器（可能是非参数）分布的理想特性。结果，我们获得了理论上支持的前两种算法，用于具有有限分布的最佳臂识别。我们的证明方法特别证明了用于选择从汤普森采样继承的领导者的采样步骤可以用其他选择代替，例如选择经验最佳的臂。

translated by 谷歌翻译

Between Stochastic and Adversarial Online Convex Optimization: Improved Regret Bounds via Smoothness

Sarah Sachs , Hédi Hadiji , Tim van Erven , Cristóbal Guzmán

分类：机器学习 | (统计)机器学习

2022-02-15

在线学习中，随机数据和对抗性数据是两个广泛研究的设置。但是许多优化任务都不是I.I.D.也不完全对抗，这使得对这些极端之间的世界有更好的理论理解具有根本的利益。在这项工作中，我们在在随机I.I.D.之间插值的环境中建立了在线凸优化的新颖遗憾界限。和完全的对抗损失。通过利用预期损失的平滑度，这些边界用梯度的方差取代对最大梯度长度的依赖，这是以前仅以线性损失而闻名的。此外，它们削弱了I.I.D.假设通过允许对抗中毒的回合，以前在专家和强盗设置中考虑过。我们的结果将其扩展到在线凸优化框架。在完全I.I.D.中情况，我们的界限与随机加速的结果相匹配，并且在完全对抗的情况下，它们优雅地恶化以符合Minimax的遗憾。我们进一步提供了下限，表明所有中级方案的遗憾上限都很紧张，从随机方差和损失梯度的对抗变异方面。

translated by 谷歌翻译

Isotuning With Applications To Scale-Free Online Learning

Laurent Orseau , Marcus Hutter

分类：机器学习 | 人工智能

2021-12-29

我们扩展并结合了一些文献的工具，以设计快速，自适应，随时和无规模的在线学习算法。无尺寸的遗憾界限必须以最大损失线性缩放，既朝向大损失，缺乏较小亏损。自适应遗憾界限表明，算法可以利用易于数据，并且可能具有恒定的遗憾。我们寻求开发快速算法，依赖于尽可能少的参数，特别是它们应该是随时随地的，因此不依赖于时间范围。我们的第一和主要工具，IsoTuning是平衡遗憾权衡的想法的概括。我们开发了一套工具来轻松设计和分析这些学习率，并表明它们自动适应遗憾（无论是常量，$ O（\ log t）$，$ o（\ sqrt {t}）$，在Hindsight的最佳学习率的因子2中，对于相同的观察量的因子2中。第二种工具是在线校正，其允许我们获得许多算法的中心界限，以防止当域太大或仅部分约束时遗憾地被空隙。最后一个工具null更新，防止算法执行过多的更大的更新，这可能导致无限的后悔，甚至无效更新。我们使用这些工具开发一般理论并将其应用于几种标准算法。特别是，我们（几乎完全）恢复对无限域的FTRL的小损失的适应性，设计和证明无镜面下降的无缝的自适应保证（至少当Bregman发散在其第二个参数中凸出），延伸Adapt-ML-PROSIA令无规模的保证，并为Prod，Adahedge，Boa和软贝内斯提供了其他几个小贡献。

translated by 谷歌翻译

Off-policy estimation of linear functionals: Non-asymptotic theory for semi-parametric efficiency

Wenlong Mou , Martin J. Wainwright , Peter L. Bartlett

分类： (统计)机器学习

2022-09-26

在因果推理和强盗文献中，基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序，然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限：这些边界表明，为了获得非反应性最佳程序，应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序，并通过匹配非轴突局部局部最小值下限，在有限样品中建立了实例依赖性最优性。这些结果表明，除了取决于渐近效率方差之外，最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。

translated by 谷歌翻译

Adversarially Robust Multi-Armed Bandit Algorithm with Variance-Dependent Regret Bounds

Shinji Ito , Taira Tsuchiya , Junya Honda

分类：机器学习 | (统计)机器学习

2022-06-14

本文考虑了多臂强盗（MAB）问题，并提供了一种新的最佳世界（BOBW）算法，该算法在随机和对抗性设置中几乎最佳地工作。在随机设置中，某些现有的BOBW算法获得了$ o的紧密依赖性遗憾界限（\ sum_ {i：\ delta_i> 0} \ frac {\ log t} {\ log t} {\ delta_i} {\ delta_i}）手臂$ i $和时间范围$ t $。如Audibert等。 [2007]但是，在具有低变化的臂的随机环境中，可以改善性能。实际上，他们提供了一种随机mab算法，具有$ o的差距依赖性遗憾界限t）损失方差$ \ sigma_i^2 $ a臂$ i $。在本文中，我们提出了具有差距依赖性界限的第一个BOBW算法，表明即使在可能的对抗环境中，这些方差信息也可以使用。此外，我们的间隙变量依赖性结合中的领先常数因子仅是（几乎）下界值的两倍。此外，所提出的算法在对抗环境中享有多个与数据有关的遗憾界限，并且在具有对抗性腐败的随机设置中很好地工作。所提出的算法基于以下规范化的领导方法，并采用了自适应学习率，取决于损失的经验预测误差，这导致了差距变化依赖性的遗憾界限，反映了武器的方差。

translated by 谷歌翻译

Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization

Peng Zhao , Yu-Jie Zhang , Lijun Zhang , Zhi-Hua Zhou

分类：机器学习

2021-12-29

我们在非静止环境中调查在线凸优化，然后选择\ emph {动态后悔}作为性能测量，定义为在线算法产生的累积损失与任何可行比较器序列之间的差异。让$ t $是$ p_t $ be的路径长度，基本上反映了环境的非平稳性，最先进的动态遗憾是$ \ mathcal {o}（\ sqrt {t（ 1 + p_t）}）$。虽然这一界限被证明是凸函数最佳的最低限度，但在本文中，我们证明可以进一步提高一些简单的问题实例的保证，特别是当在线功能平滑时。具体而言，我们提出了新的在线算法，可以利用平滑度并替换动态遗憾的$ t $替换依据\ {问题依赖性}数量：损耗函数梯度的变化，比较器序列的累积损失，以及比较器序列的累积损失最低术语的最低限度。这些数量是大多数$ \ mathcal {o}（t）$，良性环境中可能更小。因此，我们的结果适应了问题的内在难度，因为边界比现有结果更严格，以便在最坏的情况下保证相同的速率。值得注意的是，我们的算法只需要\ emph {一个}渐变，这与开发的方法共享相同的渐变查询复杂性，以优化静态遗憾。作为进一步的应用，我们将来自全信息设置的结果扩展到具有两点反馈的强盗凸优化，从而达到此类强盗任务的第一个相关的动态遗憾。

translated by 谷歌翻译

Fast Rate Learning in Stochastic First Price Bidding

Juliette Achddou , Olivier Cappé , Aurélien Garivier

分类：机器学习 | (统计)机器学习

2021-07-05

一流拍卖基本上基于Vickrey拍卖的基于程序化广告的传统竞标方法。就学习而言，首次拍卖更具挑战性，因为最佳招标策略不仅取决于物品的价值，还需要一些其他出价的知识。他们已经升级了续集学习的几种作品，其中许多人考虑以对抗方式选择买方或对手最大出价的型号。即使在最简单的设置中，这也会导致算法，其后悔在$ \ sqrt {t} $方面与时间纵横为$ t $。专注于买方对静止随机环境扮演的情况，我们展示了如何实现显着较低的遗憾：当对手的最大竞标分布是已知的，我们提供了一种遗留算法，其后悔可以低至$ \ log ^ 2（t ）$;在必须顺序地学习分发的情况下，对于任何$ \ epsilon> 0 $来说，该算法的概括可以达到$ t ^ {1/3 + \ epsilon} $。为了获得这些结果，我们介绍了两种可能对自己兴趣感兴趣的新颖思想。首先，通过在发布的价格设置中获得的结果进行输，我们提供了一个条件，其中一流的挡板效用在其最佳状态下局部二次。其次，我们利用观察到，在小子间隔上，可以更准确地控制经验分布函数的变化的浓度，而不是使用经典的DVORETZKY-Kiefer-Wolfowitz不等式来控制。数值模拟确认，我们的算法比各种出价分布中提出的替代方案更快地收敛，包括在实际的程序化广告平台上收集的出价。

translated by 谷歌翻译

KL-UCB-switch: optimal regret bounds for stochastic bandits from both a distribution-dependent and a distribution-free viewpoints

Aurélien Garivier , Hédi Hadiji , Pierre Menard , Gilles Stoltz

分类： (统计)机器学习 | 机器学习

2018-05-14

我们考虑$ k $武装的随机土匪，并考虑到$ t $ t $的累积后悔界限。我们对同时获得最佳订单$ \ sqrt {kt} $的策略感兴趣，并与发行依赖的遗憾相关，即与$ \ kappa \ ln t $相匹配，该遗憾是最佳的。和Robbins（1985）以及Burnetas和Katehakis（1996），其中$ \ kappa $是最佳问题依赖性常数。这个常数的$ \ kappa $取决于所考虑的模型$ \ Mathcal {d} $（武器上可能的分布家族）。 M \'Enard and Garivier（2017）提供了在一维指数式家庭给出的模型的参数案例中实现这种双重偏见的策略，而Lattimore（2016，2018）为（Sub）高斯分布的家族而做到了这一点。差异小于$ 1 $。我们将此结果扩展到超过$ [0,1] $的所有分布的非参数案例。我们通过结合Audibert和Bubeck（2009）的MOSS策略来做到这一点，该策略享受了最佳订单$ \ sqrt {kt} $的无分配遗憾，以及Capp \'e等人的KL-UCB策略。（2013年），我们为此提供了对最佳分布$ \ kappa \ ln t $遗憾的首次分析。我们能够在努力简化证明（以前已知的遗憾界限，因此进行的新分析）时，能够获得这种非参数两次审查结果；因此，本贡献的第二个优点是为基于$ k $武装的随机土匪提供基于索引的策略的经典后悔界限的证明。

translated by 谷歌翻译

On lower bounds for the bias-variance trade-off

Alexis Derumigny , Johannes Schmidt-Hieber

分类： (统计)机器学习

2020-05-30

对于高维和非参数统计模型，速率最优估计器平衡平方偏差和方差是一种常见的现象。虽然这种平衡被广泛观察到，但很少知道是否存在可以避免偏差和方差之间的权衡的方法。我们提出了一般的策略，以获得对任何估计方差的下限，偏差小于预先限定的界限。这表明偏差差异折衷的程度是不可避免的，并且允许量化不服从其的方法的性能损失。该方法基于许多抽象的下限，用于涉及关于不同概率措施的预期变化以及诸如Kullback-Leibler或Chi-Sque-diversence的信息措施的变化。其中一些不平等依赖于信息矩阵的新概念。在该物品的第二部分中，将抽象的下限应用于几种统计模型，包括高斯白噪声模型，边界估计问题，高斯序列模型和高维线性回归模型。对于这些特定的统计应用，发生不同类型的偏差差异发生，其实力变化很大。对于高斯白噪声模型中集成平方偏置和集成方差之间的权衡，我们将较低界限的一般策略与减少技术相结合。这允许我们将原始问题与估计的估计器中的偏差折衷联动，以更简单的统计模型中具有额外的对称性属性。在高斯序列模型中，发生偏差差异的不同相位转换。虽然偏差和方差之间存在非平凡的相互作用，但是平方偏差的速率和方差不必平衡以实现最小估计速率。

translated by 谷歌翻译

Fast Rates for Nonparametric Online Learning: From Realizability to Learning in Games

Constantinos Daskalakis , Noah Golowich

分类：机器学习 | (统计)机器学习

2021-11-17

我们研究了非参数在线回归中的快速收敛速度，即遗憾的是关于具有有界复杂度的任意函数类来定义后悔。我们的贡献是两倍： - 在绝对损失中的非参数网上回归的可实现设置中，我们提出了一种随机适当的学习算法，该算法在假设类的顺序脂肪破碎尺寸方面获得了近乎最佳的错误。在与一类Littlestone维度$ D $的在线分类中，我们的绑定减少到$ d \ cdot {\ rm poly} \ log t $。这结果回答了一个问题，以及适当的学习者是否可以实现近乎最佳错误的界限;以前，即使在线分类，绑定的最知名错误也是$ \ tilde o（\ sqrt {dt}）$。此外，对于真实值（回归）设置，在这项工作之前，界定的最佳错误甚至没有以不正当的学习者所知。 - 使用上述结果，我们展示了Littlestone维度$ D $的一般总和二进制游戏的独立学习算法，每个玩家达到后悔$ \ tilde o（d ^ {3/4} \ cdot t ^ {1 / 4}）$。该结果概括了Syrgkanis等人的类似结果。（2015）谁表明，在有限的游戏中，最佳遗憾可以从普通的o（\ sqrt {t}）$中的$ o（\ sqrt {t}）为游戏设置中的$ o（t ^ {1/4}）$。要建立上述结果，我们介绍了几种新技术，包括：分层聚合规则，以实现对实际类别的最佳错误，Hanneke等人的适当在线可实现学习者的多尺度扩展。（2021），一种方法来表明这种非参数学习算法的输出是稳定的，并且证明Minimax定理在所有在线学习游戏中保持。

translated by 谷歌翻译

A Best-of-Both-Worlds Algorithm for Bandits with Delayed Feedback

Saeed Masoudian , Julian Zimmert , Yevgeny Seldin

分类：机器学习 | (统计)机器学习

2022-06-29

我们提出了对Zimmert和Seldin [2020]算法的修改调整，用于对抗性的多型匪徒，并具有延迟的反馈，除了Zimmert和Seldin的最小值最佳对抗性遗憾保证外，还可以同时获得近乎遗憾的遗憾。有固定的延迟。具体而言，对抗性遗憾保证是$ \ Mathcal {o}（\ sqrt {tk} + \ sqrt {dt \ log k}）$，其中$ t $是时间范围，$ k $是武器数量，并且$ d $是固定的延迟，而随机遗憾保证是$ \ Mathcal {o} \ left（\ sum_ {i \ neq i^*}（\ frac {1} {\ delta_i} \ log log（t） frac {d} {\ delta_ {i} \ log k}） + d k^{1/3} \ log k \ right）$，其中$ \ delta_i $是次优差距。我们还向任意延迟的情况提供了算法的扩展，该算法基于对最大延迟$ d_ {max} $的甲骨文知识，并获得$ \ mathcal {o}（\ sqrt {\ sqrt {tk} + \ sqrt { d \ log k} + d_ {max} k^{1/3} \ log k）$在对抗性方案中遗憾，其中$ d $是总延迟，$ \ mathcal {o} \ left（\ sum_ {\ sum_ { i \ neq i^*}（\ frac {1} {\ delta_i} \ log（t） + \ frac {\ sigma_ {max}}} {\ delta_ {i} {1/3} \ log k \ right）$在随机制度中遗憾，其中$ \ sigma_ {max} $是最大的杰出观测值。最后，我们提出了一个下限，与Zimmert和Seldin [2020]在对抗环境中的跳过技术所达到的遗憾上限相匹配。

translated by 谷歌翻译

Online Learning via Offline Greedy Algorithms: Applications in Market Design and Optimization

Rad Niazadeh , Negin Golrezaei , Joshua Wang , Fransisca Susan , Ashwinkumar Badanidiyuru

分类：机器学习 | (统计)机器学习

2021-02-18

在随着时间变化的组合环境中的在线决策激励，我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题，我们提供了一个通用框架，该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明，在完整信息设置下，由此产生的在线算法具有$ O（\ sqrt {t}）$（近似）遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展，我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪（t^{2/3}）$（近似）$（近似）的遗憾。展示了我们框架的灵活性，我们将脱机之间的转换应用于收入管理，市场设计和在线优化的几个问题，包括在线平台中的产品排名优化，拍卖中的储备价格优化以及supperular tossodular最大化。。我们还将还原扩展到连续优化的类似贪婪的一阶方法，例如用于最大化连续强的DR单调下调功能，这些功能受到凸约束的约束。我们表明，当应用于这些应用程序时，我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究，在这两种应用中，我们都观察到，转换的数值性能在实际情况下优于理论保证。

translated by 谷歌翻译

The Fragility of Optimized Bandit Algorithms

Lin Fan , Peter W. Glynn

分类：机器学习

2021-09-28

关于强盗算法最佳设计的许多文献都是基于最小化预期遗憾的基础。众所周知，在某些指数家庭中最佳的设计可以实现预期的遗憾，即以LAI-ROBBINS下降的速度在ARM游戏数量上进行对数增长。在本文中，我们表明，当人们使用这种优化的设计时，相关算法的遗憾分布必然具有非常沉重的尾巴，特别是cauchy分布的尾巴。此外，对于$ p> 1 $，遗憾分布的$ p $'瞬间增长速度要比多层型的速度快得多，尤其是作为ARM播放总数的力量。我们表明，优化的UCB强盗设计在另一种意义上也是脆弱的，即，当问题甚至略有指定时，遗憾的增长可能比传统理论所建议的要快得多。我们的论点是基于标准的量化想法，并表明最有可能的遗憾变得比预期的要大的方法是最佳手臂在前几只手臂比赛中返回低于平均水平的奖励，从而导致算法相信这一点手臂是最佳的。为了减轻暴露的脆弱性问题，我们表明可以修改UCB算法，以确保对错误指定的理想程度。在此过程中，我们还提供了UCB勘探数量与产生后悔分布的尾声之间的巨大权衡。

translated by 谷歌翻译