当动作集具有良好的曲率时,我们在任何线性匪徒算法产生的设计矩阵的特征矩阵上介绍了一个非呈现的下限。具体而言,我们表明,每当算法的预期累积后悔为$ o(\ sqrt {n})$时,预期设计矩阵的最低特征值将随着$ \ omega(\ sqrt {n})$的增长而生长为$ n $是学习范围,动作空间在最佳臂周围具有恒定的Hessian。这表明,这种作用空间在离散(即分离良好的)动作空间中迫使多项式下限而不是对数下限,如\ cite {lattimore2017end}所示。此外,虽然先前的结果仅在渐近方案(如$ n \ to \ infty $)中保留,但我们对这些``本地富裕的''动作空间的结果随时都在。此外,在温和的技术假设下,我们以高概率获得了对最小本本特征值的相似下限。我们将结果应用于两个实用的方案 - \ emph {model selection}和\ emph {clustering}在线性匪徒中。对于模型选择,我们表明了一个基于时期的线性匪徒算法适应了真实模型的复杂性,以时代数量的速率指数,借助我们的新频谱结合。对于聚类,我们考虑了一个多代理框架,我们通过利用光谱结果,该框架来证明该框架,该框架,该框架,该框架通过光谱结果,该频谱结果,该框架的结果,该频谱结果,该框架的结果,该频谱结果该框架,该框架的结果不需要强制探索 - 代理商可以运行线性匪徒算法并立即估算其基本参数,从而产生低遗憾。
translated by 谷歌翻译