我们研究了对对抗性产生的二进制序列进行校准概率预测的问题。遵循Foster和Vohra(1998)的开创性论文,自然通常被建模为自适应对手,除了预报员可以部署的随机化外,预报掌握了所有活动的所有活动。许多论文提出了随机预测策略,以实现$ o(1/\ sqrt {t})$的$ \ epsilon $ actibration错误率,我们通常证明这很紧张。另一方面,众所周知,如果没有随机化,或者大自然也可以看到预报员的随机化;在这两种情况下,校准误差都可能为$ \ omega(1)$。受到“两种选择的力量”和不精确概率理论的同样开创性作品的启发,我们研究了标准在线校准问题的一个小变体。对手为预报提供了对附近的两个概率预测的选择,或者等效地预测宽度很小,最接近显示结果的端点用于判断校准。这两种选择的功率或不精确的预测,具有重要功率的预报器 - 我们表明,即使不部署任何随机化,也可以达到更快的$ \ epsilon $ actailon $ calibration $(1/t)$。
translated by 谷歌翻译
我们研究了非参数在线回归中的快速收敛速度,即遗憾的是关于具有有界复杂度的任意函数类来定义后悔。我们的贡献是两倍: - 在绝对损失中的非参数网上回归的可实现设置中,我们提出了一种随机适当的学习算法,该算法在假设类的顺序脂肪破碎尺寸方面获得了近乎最佳的错误。在与一类Littlestone维度$ D $的在线分类中,我们的绑定减少到$ d \ cdot {\ rm poly} \ log t $。这结果回答了一个问题,以及适当的学习者是否可以实现近乎最佳错误的界限;以前,即使在线分类,绑定的最知名错误也是$ \ tilde o(\ sqrt {dt})$。此外,对于真实值(回归)设置,在这项工作之前,界定的最佳错误甚至没有以不正当的学习者所知。 - 使用上述结果,我们展示了Littlestone维度$ D $的一般总和二进制游戏的独立学习算法,每个玩家达到后悔$ \ tilde o(d ^ {3/4} \ cdot t ^ {1 / 4})$。该结果概括了Syrgkanis等人的类似结果。 (2015)谁表明,在有限的游戏中,最佳遗憾可以从普通的o(\ sqrt {t})$中的$ o(\ sqrt {t})为游戏设置中的$ o(t ^ {1/4})$。要建立上述结果,我们介绍了几种新技术,包括:分层聚合规则,以实现对实际类别的最佳错误,Hanneke等人的适当在线可实现学习者的多尺度扩展。 (2021),一种方法来表明这种非参数学习算法的输出是稳定的,并且证明Minimax定理在所有在线学习游戏中保持。
translated by 谷歌翻译
我们认为一个面对买家的卖家,他们有能力推迟他们的决定,我们称之为耐心。每种买家的类型都由价值和耐心组成,并采样了I.I.D。来自分布。卖方使用张贴的价格,希望从销售给买方来最大化她的收入。在本文中,我们将此环境正式化,并描述了由此产生的Stackelberg平衡,卖方首先承诺她的策略,然后买家最能做出回应。在此之后,我们展示了如何计算最佳纯和混合策略。然后,我们考虑一个学习环境,卖方无法通过购买者的类型访问分销。我们的主要结果是以下内容。我们通过计算此设置的脂肪震动维度来得出一个用于学习近似最佳纯策略的样本复杂性。此外,我们为近似最佳混合策略提供了一般的样本复杂性。我们还考虑在线环境,并在最佳纯策略和最佳混合策略方面获得了消失的遗憾。
translated by 谷歌翻译
In a mixed generalized linear model, the objective is to learn multiple signals from unlabeled observations: each sample comes from exactly one signal, but it is not known which one. We consider the prototypical problem of estimating two statistically independent signals in a mixed generalized linear model with Gaussian covariates. Spectral methods are a popular class of estimators which output the top two eigenvectors of a suitable data-dependent matrix. However, despite the wide applicability, their design is still obtained via heuristic considerations, and the number of samples $n$ needed to guarantee recovery is super-linear in the signal dimension $d$. In this paper, we develop exact asymptotics on spectral methods in the challenging proportional regime in which $n, d$ grow large and their ratio converges to a finite constant. By doing so, we are able to optimize the design of the spectral method, and combine it with a simple linear estimator, in order to minimize the estimation error. Our characterization exploits a mix of tools from random matrices, free probability and the theory of approximate message passing algorithms. Numerical simulations for mixed linear regression and phase retrieval display the advantage enabled by our analysis over existing designs of spectral methods.
translated by 谷歌翻译
我们为依次随机实验提出了一种新的扩散 - 反应分析,包括在解决多臂匪徒问题中出现的扩散分析。在使用$ n $时间步骤的实验中,我们让动作规模之间的平均奖励差距到$ 1/\ sqrt {n} $,以将学习任务的难度保留为$ n $的增长。在这个方案中,我们表明,一类顺序随机的马尔可夫实验的行为收敛到扩散极限,作为对随机微分方程的解决方案。因此,扩散极限使我们能够得出顺序实验的随机动力学的精致实例特异性表征。我们使用扩散极限来获得一些关于顺序实验的遗憾和信念演变的新见解,包括汤普森采样。一方面,我们表明,当奖励差距相对较大时,所有随机概率的顺序实验都具有lipchitz连续的依赖性。另一方面,我们发现,汤普森(Thompson)的样本具有渐近性的先验差异,达到了近乎特定实例的遗憾缩放,包括较大的奖励差距。但是,尽管使用非信息先验对汤普森采样产生了良好的遗憾,但我们表明,随着时间的流逝,诱发的后验信仰非常不稳定。
translated by 谷歌翻译
在本文中,我们研究了强大的马尔可夫决策过程(MDPS)的最佳稳健策略和价值功能的非反应性和渐近性能,其中仅从生成模型中求解了最佳的稳健策略和价值功能。尽管在KL不确定性集和$(s,a)$ - 矩形假设的设置中限制了以前专注于可靠MDP的非反应性能的工作,但我们改善了它们的结果,还考虑了其​​他不确定性集,包括$ L_1 $和$ L_1 $和$ \ chi^2 $球。我们的结果表明,当我们假设$(s,a)$ - 矩形在不确定性集上时,示例复杂度大约为$ \ widetilde {o} \ left(\ frac {| \ mathcal {| \ mathcal {s} |^2 | \ mathcal { a} |} {\ varepsilon^2 \ rho^2(1- \ gamma)^4} \ right)$。此外,我们将结果从$(s,a)$ - 矩形假设扩展到$ s $矩形假设。在这种情况下,样本复杂性随选择不确定性集而变化,通常比$(s,a)$矩形假设下的情况大。此外,我们还表明,在$(s,a)$和$ s $ retectangular的假设下,从理论和经验的角度来看,最佳的鲁棒值函数是渐近的正常,典型的速率$ \ sqrt {n} $。
translated by 谷歌翻译
我们在分布式框架中得出最小值测试错误,其中数据被分成多个机器,并且它们与中央机器的通信仅限于$ b $位。我们研究了高斯白噪声下的$ d $ - 和无限维信号检测问题。我们还得出达到理论下限的分布式测试算法。我们的结果表明,分布式测试受到从根本上不同的现象,这些现象在分布式估计中未观察到。在我们的发现中,我们表明,可以访问共享随机性的测试协议在某些制度中的性能比不进行的测试协议可以更好地表现。我们还观察到,即使仅使用单个本地计算机上可用的信息,一致的非参数分布式测试始终是可能的,即使只有$ 1 $的通信和相应的测试优于最佳本地测试。此外,我们还得出了自适应非参数分布测试策略和相应的理论下限。
translated by 谷歌翻译
寻找统一的复杂性度量和样本效率学习的算法是增强学习研究的核心主题(RL)。 Foster等人最近提出了决策估计系数(DEC)。 (2021)作为样品有效的NO-REGRET RL的必要和足够的复杂度度量。本文通过DEC框架朝着RL的统一理论取得了进步。首先,我们提出了两项​​新的DEC类型复杂性度量:探索性DEC(EDEC)和无奖励DEC(RFDEC)。我们表明,它们对于样本有效的PAC学习和无奖励学习是必要的,因此扩展了原始DEC,该DEC仅捕获了无需重新学习。接下来,我们为所有三个学习目标设计新的统一样品效率算法。我们的算法实例化估计到决策的变体(E2D)元算法具有强大而通用的模型估计值。即使在无重组的设置中,我们的算法E2D-TA也会在Foster等人的算法上提高。 (2021)需要对DEC的变体进行边界,该变体可能是过于大的,或者设计特定问题的估计值。作为应用程序,我们恢复了现有的,并获得了使用单个算法的各种可拖动RL问题的新样品学习结果。最后,作为一种连接,我们根据后采样或最大似然估计重新分析了两种现有的基于乐观模型的算法,表明它们在与DEC相似的结构条件下具有与E2D-TA相似的遗憾界限。
translated by 谷歌翻译
我们考虑带有背包的土匪(从此以后,BWK),这是一种在供应/预算限制下的多臂土匪的通用模型。特别是,强盗算法需要解决一个众所周知的背包问题:找到最佳的物品包装到有限尺寸的背包中。 BWK问题是众多激励示例的普遍概括,范围从动态定价到重复拍卖,再到动态AD分配,再到网络路由和调度。尽管BWK的先前工作集中在随机版本上,但我们开创了可以在对手身上选择结果的另一个极端。与随机版本和“经典”对抗土匪相比,这是一个更加困难的问题,因为遗憾的最小化不再可行。相反,目的是最大程度地减少竞争比率:基准奖励与算法奖励的比率。我们设计了一种具有竞争比O(log t)的算法,相对于动作的最佳固定分布,其中T是时间范围;我们还证明了一个匹配的下限。关键的概念贡献是对问题的随机版本的新观点。我们为随机版本提出了一种新的算法,该算法是基于重复游戏中遗憾最小化的框架,并且与先前的工作相比,它具有更简单的分析。然后,我们为对抗版本分析此算法,并将其用作求解后者的子例程。
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
In non-smooth stochastic optimization, we establish the non-convergence of the stochastic subgradient descent (SGD) to the critical points recently called active strict saddles by Davis and Drusvyatskiy. Such points lie on a manifold $M$ where the function $f$ has a direction of second-order negative curvature. Off this manifold, the norm of the Clarke subdifferential of $f$ is lower-bounded. We require two conditions on $f$. The first assumption is a Verdier stratification condition, which is a refinement of the popular Whitney stratification. It allows us to establish a reinforced version of the projection formula of Bolte \emph{et.al.} for Whitney stratifiable functions, and which is of independent interest. The second assumption, termed the angle condition, allows to control the distance of the iterates to $M$. When $f$ is weakly convex, our assumptions are generic. Consequently, generically in the class of definable weakly convex functions, the SGD converges to a local minimizer.
translated by 谷歌翻译
为了识别专业知识,预测者不应通过其校准评分来测试,这总是可以任意地使其缩小,而应通过其勃起得分进行测试。布里尔分数是校准得分和改进得分的总和;后者衡量了以相同的预测分类为垃圾箱的好成绩,因此证明了“专业知识”。这就提出了一个问题,即人们是否可以在不失去专业知识的情况下获得校准,我们称这是“量化”。我们提供了一种简单的方法,可以通过确定性的在线程序来计算任何预测。我们还表明,可以通过校准的随机过程来实现量化,然后将结果扩展到同时对多个过程进行定位,并确定不断校准的过程。
translated by 谷歌翻译
基于中央限制定理(CLT)的置信区间是经典统计的基石。尽管仅渐近地有效,但它们是无处不在的,因为它们允许在非常弱的假设下进行统计推断,即使不可能进行非反应性推断,通常也可以应用于问题。本文引入了这种渐近置信区间的时间均匀类似物。为了详细说明,我们的方法采用置信序列(CS)的形式 - 随着时间的推移均匀有效的置信区间序列。 CSS在任意停止时间时提供有效的推断,与需要预先确定样本量的经典置信区间不同,因此没有受到“窥视”数据的惩罚。文献中现有的CSS是非肿瘤的,因此不享受上述渐近置信区间的广泛适用性。我们的工作通过给出“渐近CSS”的定义来弥合差距,并得出仅需要类似CLT的假设的通用渐近CS。虽然CLT在固定样本量下近似于高斯的样本平均值的分布,但我们使用强大的不变性原理(来自Komlos,Major和Tusnady的1970年代的开创性工作),按照整个样品平均过程均匀地近似于整个样品平均过程。隐性的高斯过程。我们通过在观察性研究中基于双重稳健的估计量来得出非参数渐近级别的CSS来证明它们的实用性,即使在固定的时间方案中,也可能不存在非催化方法(由于混淆偏见)。这些使双重强大的因果推断可以连续监测并自适应地停止。
translated by 谷歌翻译
当今许多大型系统的设计,从交通路由环境到智能电网,都依赖游戏理论平衡概念。但是,随着$ n $玩家游戏的大小通常会随着$ n $而成倍增长,标准游戏理论分析实际上是不可行的。最近的方法通过考虑平均场游戏,匿名$ n $玩家游戏的近似值,在这种限制中,玩家的数量是无限的,而人口的状态分布,而不是每个单独的球员的状态,是兴趣。然而,迄今为止研究最多的平均场平衡的平均场nash平衡的实际可计算性通常取决于有益的非一般结构特性,例如单调性或收缩性能,这是已知的算法收敛所必需的。在这项工作中,我们通过开发均值相关和与粗相关的平衡的概念来研究平均场比赛的替代途径。我们证明,可以使用三种经典算法在\ emph {ash All Games}中有效地学习它们,而无需对游戏结构进行任何其他假设。此外,我们在文献中已经建立了对应关系,从而获得了平均场 - $ n $玩家过渡的最佳范围,并经验证明了这些算法在简单游戏中的收敛性。
translated by 谷歌翻译
本文衍生了置信区间(CI)和时间统一的置信序列(CS),用于从有限观测值中估算未知平均值的经典问题。我们提出了一种衍生浓度界限的一般方法,可以看作是著名的切尔诺夫方法的概括(和改进)。它的核心是基于推导一类新的复合非负胸腔,通过投注和混合方法与测试的连接很强。我们展示了如何将这些想法扩展到无需更换的情况下,这是另一个经过深入研究的问题。在所有情况下,我们的界限都适应未知的差异,并且基于Hoeffding或经验的Bernstein不平等及其最近的Supermartingale概括,经验上大大优于现有方法。简而言之,我们为四个基本问题建立了一个新的最先进的问题:在有或没有替换的情况下进行采样时,CS和CI进行有限的手段。
translated by 谷歌翻译
如果预测类的概率(顶级标签)是校准的,则在顶部标签上进行条件,则据说多类分类器将是顶级标签的校准。在密切相关和流行的置信度校准概念中,这种条件不存在,我们认为这使得置信校准难以解释决策。我们提出顶级标签校准作为置信校准的纠正。此外,我们概述了一个多类对二进制(M2B)还原框架,该框架统一了信心,顶级标签和班级校准等。顾名思义,M2B通过将多类校准减少到众多二元校准问题来起作用,每个二进制校准问题都可以使用简单的二进制校准例程来解决。我们将M2B框架实例化使用经过良好研究的直方图(HB)二进制校准器,并证明整体过程是多类校准的,而无需对基础数据分布进行任何假设。在CIFAR-10和CIFAR-100上具有四个深净体系结构的经验评估中,我们发现M2B + HB程序比其他方法(例如温度缩放)获得了较低的顶级标签和类别校准误差。这项工作的代码可在\ url {https://github.com/aigen/df-posthoc-calibration}中获得。
translated by 谷歌翻译
我们研究$ k $ used的上下文决斗强盗问题,一个顺序决策制定设置,其中学习者使用上下文信息来制作两个决定,但只观察到\ emph {基于优先级的反馈}建议一个决定比另一个决定更好。我们专注于可实现的遗憾最小化问题,其中反馈由一个由给定函数类$ \ mathcal f $规定的成对偏好矩阵生成。我们提供了一种新的算法,实现了最佳反应遗憾的新概念的最佳遗憾,这是一个严格更强烈的性能测量,而不是先前作品所考虑的绩效衡量标准。该算法还在计算上有效,在多项式时间中运行,假设访问在线丢失回归超过$ \ mathcal f $。这可以解决dud \'ik等人的开放问题。[2015]关于Oracle高效,后悔 - 用于上下文决斗匪徒的最佳算法。
translated by 谷歌翻译
我们提供了第一个子线性空间和次线性遗憾算法,用于在线学习,并通过专家建议(反对遗忘的对手),解决了Srinivas,Woodruff,Xu和Zhou最近提出的一个公开问题(STOC 2022)。我们还通过证明对自适应对手的任何子线性遗憾算法的线性记忆下限,证明了遗忘和(强)适应对手之间的分离。我们的算法基于一个新颖的泳池选择程序,该程序绕过了传统的在线学习领导者选择的智慧,以及将任何弱的子线性遗憾$ O(t)$算法转变为$ t^{1- \ alpha} $遗憾算法,这可能具有独立的利益。我们的下边界利用了零和游戏中无需重新学习和平衡计算的连接,从而证明了与自适应对手相对于自适应对手的强大界限。
translated by 谷歌翻译
部分可观察性 - 代理只能观察有关系统真正潜在状态的部分信息 - 在增强学习(RL)的现实应用中无处不在。从理论上讲,在最坏情况下,由于指数样本的复杂性下限,在最坏情况下学习了近距离观察性的近乎最佳政策。最近的工作已经确定了几个可通过多项式样本学习的可学性亚类,例如部分可观察到的马尔可夫决策过程(POMDPS)具有某些可揭示或可分解性条件。但是,这一研究仍处于起步阶段,(1)缺乏统一的结构条件,从而缺乏样品效率学习; (2)现有的已知拖拉子类的样品复杂性远非锋利; (3)与完全可观察的RL相比,可用的样品效率算法更少。本文在预测状态表示(PSRS)的一般环境中,上面的所有三个方面都在部分可观察到的RL方向前进。首先,我们提出了一种称为\ emph {b稳定性}的自然和统一的结构条件。 B稳定的PSR包括绝大多数已知的可牵引子类,例如弱揭示的POMDP,低级别的未来pomdps,可解码的POMDP和常规PSR。接下来,我们证明可以在相关问题参数中使用多项式样本学习任何B稳定PSR。当在上述子类中实例化时,我们的样本复杂性比当前最好的复杂性大大改善。最后,我们的结果是通过三种算法同时实现的:乐观的最大似然估计,估计到决策和基于模型的乐观后验采样。后两种算法是用于POMDPS/PSR的样品有效学习的新算法。
translated by 谷歌翻译
富达匪徒问题是$ k $的武器问题的变体,其中每个臂的奖励通过提供额外收益的富达奖励来增强,这取决于播放器如何对该臂进行“忠诚”在过去。我们提出了两种忠诚的模型。在忠诚点模型中,额外奖励的数量取决于手臂之前播放的次数。在订阅模型中,额外的奖励取决于手臂的连续绘制的当前数量。我们考虑随机和对抗问题。由于单臂策略在随机问题中并不总是最佳,因此对抗性环境中遗憾的概念需要仔细调整。我们介绍了三个可能的遗憾和调查,这可以是偏执的偏执。我们详细介绍了增加,减少和优惠券的特殊情况(玩家在手臂的每辆M $播放后获得额外的奖励)保真奖励。对于不一定享受载体遗憾的模型,我们提供了最糟糕的下限。对于那些展示Sublinear遗憾的模型,我们提供算法并绑定他们的遗憾。
translated by 谷歌翻译