我们研究了与中央服务器和多个客户的联合学习多臂强盗设置中最佳手臂识别的问题。每个客户都与多臂强盗相关联,其中每个手臂在具有未知均值和已知方差的高斯分布之后,每个手臂都能产生{\ em I.i.d。} \奖励。假定所有客户的武器集相同。我们定义了两个最佳手臂的概念 - 本地和全球。客户的当地最好的手臂是客户本地手臂中最大的手臂,而全球最佳手臂是所有客户平均平均值最大的手臂。我们假设每个客户只能从当地的手臂上观察奖励,从而估计其当地最好的手臂。客户在上行链路上与中央服务器进行通信,该上行链路需要每个上行链路的使用费用为$ C \ ge0 $单位。在服务器上估算了全球最佳手臂。目的是确定当地最佳武器和全球最佳臂,总成本最少,定义为所有客户的ARM选择总数和总通信成本的总和,但在错误概率上取决于上限。我们提出了一种基于连续消除的新型算法{\ sc fedelim},仅在指数时间步骤中进行通信,并获得高概率依赖性实例依赖性上限,以其总成本。我们论文的关键要点是,对于任何$ c \ geq 0 $,错误概率和错误概率足够小,{\ sc fedelim}下的ARM选择总数(分别为\ the总费用)最多为〜$ 2 $(reves 。〜 $ 3 $)乘以其在每个时间步骤中通信的变体下的ARM选择总数的最大总数。此外,我们证明后者在期望最高的恒定因素方面是最佳的,从而证明{\ sc fedelim}中的通信几乎是无成本的。我们从数值验证{\ sc fedelim}的功效。
translated by 谷歌翻译