智能论文笔记

Bregman Deviations of Generic Exponential Families

Sayak Ray Chowdhury , Patrick Saux , Odalric-Ambrym Maillard , Aditya Gopalan

分类：机器学习

2022-01-18

我们重新审视混合技术的方法，也称为拉普拉斯法，以研究通用指数家族中的浓度现象。将与家族的对数分区功能相关的Bregman差异的性质与超级木制混合物的方法相关联，我们建立了一个通用的结合，以控制家族参数与参数的有限样本估算之间的Bregman差异。我们的界限是时间均匀的，并且看起来很大，将经典信息增益扩展到指数式家庭，我们称之为Bregman信息收益。对于从业者而言，我们实例化了这本小说绑定到几个古典家庭，例如高斯，伯努利，指数，威布尔，帕雷托，帕尔托，泊松和卡方和卡方，从而产生了置信度的明确形式和布雷格曼信息的收益。我们从数值上进一步将所得的置信度界限与最先进的替代方案进行比较，以使其均匀浓度，并表明这种新颖的方法会产生竞争结果。最后，我们强调了集中界对某些说明性应用的好处。

translated by 谷歌翻译

Mixture Martingales Revisited with Applications to Sequential Tests and Confidence Intervals

Emilie Kaufmann , Wouter Koolen

分类： (统计)机器学习 | 机器学习

2018-11-28

本文提出了新的偏差不等式，其在多武装强盗模型中的自适应采样下均匀地均匀。使用给定的一维指数家庭中的kullback-leibler发散来测量偏差，并且可以一次考虑几个臂。它们是通过基于分层的每个臂鞅构造而构建的，并通过将那些鞅乘以来获得。我们的偏差不平等允许我们根据广义概率比来分析一大类连续识别问题的概要概率比，并且为臂的装置的某些功能构造紧密的置信区间。

translated by 谷歌翻译

From Optimality to Robustness: Dirichlet Sampling Strategies in Stochastic Bandits

Dorian Baudry , Patrick Saux , Odalric-Ambrym Maillard

分类： (统计)机器学习 | 机器学习

2021-11-18

在臂分布的标准假设下广泛研究了随机多臂强盗问题（例如，用已知的支持，指数家庭等）。这些假设适用于许多现实世界问题，但有时他们需要知识（例如，在尾部上），从业者可能无法精确访问，提高强盗算法的鲁棒性的问题，以模拟拼盘。在本文中，我们研究了一种通用的Dirichlet采样（DS）算法，基于通过重新采样的武器观测和数据相关的探索奖励计算的经验指标的成对比较。我们表明，当该策略的界限和对数后悔具有轻度分量度条件的半界分布时，这种策略的不同变体达到了可证明的最佳遗憾。我们还表明，一项简单的调整在大类无界分布方面实现了坚固性，其成本比对数渐近的遗憾略差。我们终于提供了数字实验，展示了合成农业数据的决策问题中DS的优点。

translated by 谷歌翻译

Estimating means of bounded random variables by betting

Ian Waudby-Smith , Aaditya Ramdas

分类： (统计)机器学习

2020-10-19

本文衍生了置信区间（CI）和时间统一的置信序列（CS），用于从有限观测值中估算未知平均值的经典问题。我们提出了一种衍生浓度界限的一般方法，可以看作是著名的切尔诺夫方法的概括（和改进）。它的核心是基于推导一类新的复合非负胸腔，通过投注和混合方法与测试的连接很强。我们展示了如何将这些想法扩展到无需更换的情况下，这是另一个经过深入研究的问题。在所有情况下，我们的界限都适应未知的差异，并且基于Hoeffding或经验的Bernstein不平等及其最近的Supermartingale概括，经验上大大优于现有方法。简而言之，我们为四个基本问题建立了一个新的最先进的问题：在有或没有替换的情况下进行采样时，CS和CI进行有限的手段。

translated by 谷歌翻译

Risk-aware linear bandits with convex loss

Patrick Saux , Odalric-Ambrym Maillard

分类： (统计)机器学习 | 机器学习

2022-09-15

在决策问题（例如多臂强盗）中，代理商通过优化某些反馈来顺序学习。尽管对平均奖励标准进行了广泛的研究，但其他反映对不利结果的措施，例如均值变化或有条件的危险价值（CVAR），对关键应用程序（医疗保健，农业）可能会引起人们的关注。在没有上下文信息的情况下，已经提出了在强盗反馈下采取此类风险感知措施的算法。在这项工作中，我们研究了上下文匪徒，通过最小化凸丢失，可以将这种风险度量作为上下文的线性函数引起。适合此框架的一个典型示例是预期度量，它作为不对称最小二乘问题的解决方案获得。使用超级马特林加尔的混合物方法，我们得出置信序列以估计此类风险度量。然后，我们提出一种乐观的UCB算法来学习最佳的风险感知动作，后悔的保证与广义线性匪徒相似。这种方法需要在每一轮算法上解决凸问题，我们可以通过仅允许通过在线梯度下降获得的近似解决方案来放松，以稍高的遗憾。我们通过评估数值实验的所得算法来结束。

translated by 谷歌翻译

Sequential estimation of quantiles with applications to A/B-testing and best-arm identification

Steven R. Howard , Aaditya Ramdas

分类： (统计)机器学习

2019-06-24

我们提出了置信度序列 - 置信区间序列，其均匀地随时间均匀 - 用于基于I.I.D的流的完整，完全有序集中的任何分布的量级。观察。我们提供用于跟踪固定定量的方法并同时跟踪所有定量。具体而言，我们提供具有小常数的明确表达式，其宽度以尽可能快的$ \ SQRT {t} \ log \ log t} $率，以及实证分布函数的非渐近浓度不等式以相同的速率均匀地持续持续。后者加强了Smirnov迭代对数的实证过程法，延长了DVORETZKY-KIEFER-WOLFOITZ不等式以均匀地保持一段时间。我们提供了一种新的算法和样本复杂性，用于在多武装强盗框架中选择具有大约最佳定量的臂。在仿真中，我们的方法需要比现有方法更少五到五十的样品。

translated by 谷歌翻译

Adaptation to the Range in $K$-Armed Bandits

Hédi Hadiji , Gilles Stoltz

分类： (统计)机器学习

2020-06-05

我们考虑使用$ K $臂的随机匪徒问题，每一个都与$ [m，m] $范围内支持的有限分布相关。我们不认为$ [m，m] $是已知的范围，并表明学习此范围有成本。确实，出现了与分销相关和无分配后悔界限之间的新权衡，这阻止了同时实现典型的$ \ ln t $和$ \ sqrt {t} $ bunds。例如，仅当与分布相关的遗憾界限至少属于$ \ sqrt {t} $的顺序时，才能实现$ \ sqrt {t} $}无分布遗憾。我们展示了一项策略，以实现新的权衡表明的遗憾。

translated by 谷歌翻译

KL-UCB-switch: optimal regret bounds for stochastic bandits from both a distribution-dependent and a distribution-free viewpoints

Aurélien Garivier , Hédi Hadiji , Pierre Menard , Gilles Stoltz

分类： (统计)机器学习 | 机器学习

2018-05-14

我们考虑$ k $武装的随机土匪，并考虑到$ t $ t $的累积后悔界限。我们对同时获得最佳订单$ \ sqrt {kt} $的策略感兴趣，并与发行依赖的遗憾相关，即与$ \ kappa \ ln t $相匹配，该遗憾是最佳的。和Robbins（1985）以及Burnetas和Katehakis（1996），其中$ \ kappa $是最佳问题依赖性常数。这个常数的$ \ kappa $取决于所考虑的模型$ \ Mathcal {d} $（武器上可能的分布家族）。 M \'Enard and Garivier（2017）提供了在一维指数式家庭给出的模型的参数案例中实现这种双重偏见的策略，而Lattimore（2016，2018）为（Sub）高斯分布的家族而做到了这一点。差异小于$ 1 $。我们将此结果扩展到超过$ [0,1] $的所有分布的非参数案例。我们通过结合Audibert和Bubeck（2009）的MOSS策略来做到这一点，该策略享受了最佳订单$ \ sqrt {kt} $的无分配遗憾，以及Capp \'e等人的KL-UCB策略。（2013年），我们为此提供了对最佳分布$ \ kappa \ ln t $遗憾的首次分析。我们能够在努力简化证明（以前已知的遗憾界限，因此进行的新分析）时，能够获得这种非参数两次审查结果；因此，本贡献的第二个优点是为基于$ k $武装的随机土匪提供基于索引的策略的经典后悔界限的证明。

translated by 谷歌翻译

Sequential Estimation of Convex Functionals and Divergences

Tudor Manole , Aaditya Ramdas

分类： (统计)机器学习

2021-03-16

我们提出了一种统一的技术，用于顺序估计分布之间的凸面分歧，包括内核最大差异等积分概率度量，$ \ varphi $ - 像Kullback-Leibler发散，以及最佳运输成本，例如Wassersein距离的权力。这是通过观察到经验凸起分歧（部分有序）反向半角分离的实现来实现的，而可交换过滤耦合，其具有这些方法的最大不等式。这些技术似乎是对置信度序列和凸分流的现有文献的互补和强大的补充。我们构建一个离线到顺序设备，将各种现有的离线浓度不等式转换为可以连续监测的时间均匀置信序列，在任意停止时间提供有效的测试或置信区间。得到的顺序边界仅在相应的固定时间范围内支付迭代对数价格，保留对问题参数的相同依赖性（如适用的尺寸或字母大小）。这些结果也适用于更一般的凸起功能，如负差分熵，实证过程的高度和V型统计。

translated by 谷歌翻译

Top Two Algorithms Revisited

Marc Jourdan , Rémy Degenne , Dorian Baudry , Rianne de Heide , Emilie Kaufmann

分类： (统计)机器学习 | 机器学习

2022-06-13

出现了前两种算法，作为汤普森采样对多臂匪徒模型中最佳手臂识别的适应（Russo，2016），用于武器的参数家族。他们通过在两个候选臂，一个领导者和一个挑战者中随机化来选择下一个要采样的臂。尽管具有良好的经验表现，但仅当手臂是具有已知差异的高斯时，才能获得固定信心最佳手臂识别的理论保证。在本文中，我们提供了对两种方法的一般分析，该方法确定了领导者，挑战者和武器（可能是非参数）分布的理想特性。结果，我们获得了理论上支持的前两种算法，用于具有有限分布的最佳臂识别。我们的证明方法特别证明了用于选择从汤普森采样继承的领导者的采样步骤可以用其他选择代替，例如选择经验最佳的臂。

translated by 谷歌翻译

Sharper Sub-Weibull Concentrations

Huiming Zhang , Haoyu Wei

分类： (统计)机器学习

2021-02-04

在机器学习和高维统计领域的有限样本理论中，恒定指定的浓度不平等至关重要。我们获得了独立亚网络随机变量总和的更清晰和常数的浓度不平等，这导致了两个尾巴的混合物：尺寸的小偏差和较大偏差的小偏差。这些界限是新的，并通过更清晰的常数改善了现有的界限。另外，如果应保留斜体，则新的子韦布尔参数。请检查整个文本。还提出了提出的，它可以为随机变量（向量）恢复紧密浓度不平等。对于统计应用，我们给出了$ \ ell_2 $ - 估计系数在负二项式回归中的估计系数时，当重尾协变量是稀疏结构分布的亚weibull时，这是负二项式回归的新结果。在应用随机矩阵时，我们得出了Bai-Yin定理的非反应版本，用于具有指数尾巴边界的亚weibull条目。最后，通过为没有第二瞬间条件的对数截断的Z-测验器演示一个子静电区域，我们讨论并定义了独立观测值的sub-weibull类型稳健估计器$ \ {x_i \} _ {i = 1 }^{n} $没有指数矩条件。

translated by 谷歌翻译

On the Statistical Complexity of Sample Amplification

Brian Axelrod , Shivam Garg , Yanjun Han , Vatsal Sharan , Gregory Valiant

分类：机器学习

2022-01-12

鉴于$ n $ i.i.d.从未知的分发$ P $绘制的样本，何时可以生成更大的$ n + m $ samples，这些标题不能与$ n + m $ i.i.d区别区别。从$ p $绘制的样品？（AXELROD等人2019）将该问题正式化为样本放大问题，并为离散分布和高斯位置模型提供了最佳放大程序。然而，这些程序和相关的下限定制到特定分布类，对样本扩增的一般统计理解仍然很大程度上。在这项工作中，我们通过推出通常适用的放大程序，下限技术和与现有统计概念的联系来放置对公司统计基础的样本放大问题。我们的技术适用于一大类分布，包括指数家庭，并在样本放大和分配学习之间建立严格的联系。

translated by 谷歌翻译

On lower bounds for the bias-variance trade-off

Alexis Derumigny , Johannes Schmidt-Hieber

分类： (统计)机器学习

2020-05-30

对于高维和非参数统计模型，速率最优估计器平衡平方偏差和方差是一种常见的现象。虽然这种平衡被广泛观察到，但很少知道是否存在可以避免偏差和方差之间的权衡的方法。我们提出了一般的策略，以获得对任何估计方差的下限，偏差小于预先限定的界限。这表明偏差差异折衷的程度是不可避免的，并且允许量化不服从其的方法的性能损失。该方法基于许多抽象的下限，用于涉及关于不同概率措施的预期变化以及诸如Kullback-Leibler或Chi-Sque-diversence的信息措施的变化。其中一些不平等依赖于信息矩阵的新概念。在该物品的第二部分中，将抽象的下限应用于几种统计模型，包括高斯白噪声模型，边界估计问题，高斯序列模型和高维线性回归模型。对于这些特定的统计应用，发生不同类型的偏差差异发生，其实力变化很大。对于高斯白噪声模型中集成平方偏置和集成方差之间的权衡，我们将较低界限的一般策略与减少技术相结合。这允许我们将原始问题与估计的估计器中的偏差折衷联动，以更简单的统计模型中具有额外的对称性属性。在高斯序列模型中，发生偏差差异的不同相位转换。虽然偏差和方差之间存在非平凡的相互作用，但是平方偏差的速率和方差不必平衡以实现最小估计速率。

translated by 谷歌翻译

Sparse Continuous Distributions and Fenchel-Young Losses

André F. T. Martins , Marcos Treviso , António Farinhas , Pedro M. Q. Aguiar , Mário A. T. Figueiredo , Mathieu Blondel , Vlad Niculae

分类：机器学习 | 人工智能 | (统计)机器学习

2021-08-04

指数族在机器学习中广泛使用，包括连续和离散域中的许多分布（例如，通过SoftMax变换，Gaussian，Dirichlet，Poisson和分类分布）。这些家庭中的每个家庭的分布都有固定的支持。相比之下，对于有限域而言，最近在SoftMax稀疏替代方案（例如Sparsemax，$ \ alpha $ -entmax和Fusedmax）的稀疏替代方案中导致了带有不同支持的分布。本文基于几种技术贡献，开发了连续分布的稀疏替代方案：首先，我们定义了$ \ omega $ regultion的预测图和任意域的Fenchel-young损失（可能是无限或连续的）。对于线性参数化的家族，我们表明，Fenchel-Young损失的最小化等效于统计的矩匹配，从而概括了指数家族的基本特性。当$ \ omega $是带有参数$ \ alpha $的Tsallis negentropy时，我们将获得````trabormed rompential指数）''，其中包括$ \ alpha $ -entmax和sparsemax和sparsemax（$ \ alpha = 2 $）。对于二次能量函数，产生的密度为$ \ beta $ -Gaussians，椭圆形分布的实例，其中包含特殊情况，即高斯，双重量级，三人级和epanechnikov密度，我们为差异而得出了差异的封闭式表达式， Tsallis熵和Fenchel-Young损失。当$ \ Omega $是总变化或Sobolev正常化程序时，我们将获得Fusedmax的连续版本。最后，我们引入了连续的注意机制，从\ {1、4/3、3/3、3/2、2 \} $中得出有效的梯度反向传播算法。使用这些算法，我们证明了我们的稀疏连续分布，用于基于注意力的音频分类和视觉问题回答，表明它们允许参加时间间隔和紧凑区域。

translated by 谷歌翻译

Learning to Optimize Via Posterior Sampling

Daniel Russo , Benjamin Van Roy

分类：

2013-01-11

Authors are encouraged to submit new papers to INFORMS journals by means of a style file template, which includes the journal title. However, use of a template does not certify that the paper has been accepted for publication in the named journal. INFORMS journal templates are for the exclusive purpose of submitting to an INFORMS journal and should not be used to distribute the papers in print or online or to submit the papers to another publication.

translated by 谷歌翻译

Tight Concentrations and Confidence Sequences from the Regret of Universal Portfolio

Francesco Orabona , Kwang-Sung Jun

分类： (统计)机器学习 | 机器学习

2021-10-27

统计中的一个经典问题是对样品对随机变量的预期估计。这引起了导出浓度不平等和置信序列的紧密联系的问题，即随着时间的推移均匀保持的置信区间。Jun和Orabona [Colt'19]已经展示了如何轻松将在线投注算法的遗憾保证转化为时均匀的集中度不平等。在本文中，我们表明我们可以进一步发展：我们表明，普遍投资组合算法的遗憾引起了新的隐式时间均匀浓度和最先进的经验计算出的置信序列。特别是，即使使用单个样本，我们的数值获得的置信序列也永远不会空置，并满足迭代对数定律。

translated by 谷歌翻译

Convergence Rates for the MAP of an Exponential Family and Stochastic Mirror Descent -- an Open Problem

Rémi Le Priol , Frederik Kunstner , Damien Scieur , Simon Lacoste-Julien

分类： (统计)机器学习 | 机器学习

2021-11-12

我们以非渐近方式考虑最大似然估计（MLE）的预期对数估计（MLE）的预期似然估计（MLE）的最佳次数（MAL）的缀合物最大（MAP）的问题。令人惊讶的是，我们在文献中没有找到对这个问题的一般解决方案。特别是，当前的理论不适用于高斯或有趣的少数样本制度。在表现出问题的各个方面之后，我们显示我们可以将地图解释为在日志可能性上运行随机镜像下降（SMD）。然而，现代收敛结果不适用于指数家庭的标准例子，突出趋同文献中的孔。我们认为解决这一非常根本的问题可能会对统计和优化社区带来进展。

translated by 谷歌翻译

The Fragility of Optimized Bandit Algorithms

Lin Fan , Peter W. Glynn

分类：机器学习

2021-09-28

关于强盗算法最佳设计的许多文献都是基于最小化预期遗憾的基础。众所周知，在某些指数家庭中最佳的设计可以实现预期的遗憾，即以LAI-ROBBINS下降的速度在ARM游戏数量上进行对数增长。在本文中，我们表明，当人们使用这种优化的设计时，相关算法的遗憾分布必然具有非常沉重的尾巴，特别是cauchy分布的尾巴。此外，对于$ p> 1 $，遗憾分布的$ p $'瞬间增长速度要比多层型的速度快得多，尤其是作为ARM播放总数的力量。我们表明，优化的UCB强盗设计在另一种意义上也是脆弱的，即，当问题甚至略有指定时，遗憾的增长可能比传统理论所建议的要快得多。我们的论点是基于标准的量化想法，并表明最有可能的遗憾变得比预期的要大的方法是最佳手臂在前几只手臂比赛中返回低于平均水平的奖励，从而导致算法相信这一点手臂是最佳的。为了减轻暴露的脆弱性问题，我们表明可以修改UCB算法，以确保对错误指定的理想程度。在此过程中，我们还提供了UCB勘探数量与产生后悔分布的尾声之间的巨大权衡。

translated by 谷歌翻译

Finite-Time Regret of Thompson Sampling Algorithms for Exponential Family Multi-Armed Bandits

Tianyuan Jin , Pan Xu , Xiaokui Xiao , Anima Anandkumar

分类： (统计)机器学习 | 机器学习

2022-06-07

我们研究汤普森采样（TS）算法的遗憾，指数为家庭土匪，其中奖励分配来自一个一维指数式家庭，该家庭涵盖了许多常见的奖励分布，包括伯努利，高斯，伽玛，伽玛，指数等。我们建议汤普森采样算法，称为expts，它使用新颖的采样分布来避免估计最佳臂。我们为expts提供了严格的遗憾分析，同时产生有限的遗憾和渐近遗憾。特别是，对于带指数级家庭奖励的$ k $臂匪徒，expts of horizon $ t $ sub-ucb（对于有限的时间遗憾的是问题依赖的有限时间标准） $ \ sqrt {\ log k} $，并且对于指数家庭奖励，渐近最佳。此外，我们通过在Expts中使用的采样分配外添加一个贪婪的剥削步骤，提出$^+$，以避免过度估计亚最佳武器。 expts $^+$是随时随地的强盗算法，可用于指数级的家庭奖励分布同时实现最小值和渐近最优性。我们的证明技术在概念上很简单，可以轻松地应用于用特定奖励分布分析标准的汤普森抽样。

translated by 谷歌翻译

From Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses

Daniil Tiapkin , Denis Belomestny , Eric Moulines , Alexey Naumov , Sergey Samsonov , Yunhao Tang , Michal Valko , Pierre Menard

分类： (统计)机器学习 | 机器学习

2022-05-16

我们提出了在表格，依赖阶段的，情节的马尔可夫决策过程中使用贝叶斯-UCBVI算法进行增强学习的：Kaufmann等人的贝叶斯-UCB算法的自然扩展。（2012年）用于多军匪徒。我们的方法将Q值函数后部的分位数用作最佳Q值函数上的上限。对于贝叶斯-UCBVI，我们证明了一个遗憾的是$ \ wideTilde {o}（\ sqrt {h^3sat}）$，其中$ h $是一集的长度，$ s $是$ s $的数量，$ a $ a $动作数量，$ t $情节数，与$ \ omega（\ sqrt {h^3sat}）$符合poly-$ \ $ \ log $ enter $ h，s，s，a，a，a，a，a ，适用于足够大的$ t $的t $。据我们所知，这是第一种获得对地平线$ h $（和$ s $）的最佳依赖性的算法，而无需涉及伯恩斯坦的奖金或噪音。对于我们的分析而言，至关重要的是一种新的细粒抗浓缩，以具有独立感兴趣的加权dirichlet总和。然后，我们解释了如何轻松地将贝叶斯-UCBVI延伸到表格环境之外，从而在我们的算法和贝叶斯引导之间表现出牢固的联系（Rubin，1981）。

translated by 谷歌翻译