多ARM强盗(MAB)是一种经典的在线学习框架,可以研究在不确定的环境中的顺序决策。然而,MAB框架忽略了决策者不能直接采取行动(例如,拉臂)的情况。在许多应用中,这是一种实际重要的场景,例如频谱共享,众脉和边缘计算。在这些申请中,决策者将激励其他自私的代理商进行预期的行动(即,在决策者代表武器上撤销)。本文在此方案中建立了激励的在线学习(IOL)框架。设计IOL框架的关键挑战是未知环境学习和非对称信息启示的紧密耦合。为了解决这个问题,我们基于该特殊的拉格朗日功能,我们提出了一种对IOL框架的社会最优机制。我们的机制满足各种理想的属性,如代理公平,激励兼容性和自愿参与。它达到了与需要额外信息的最先进的基准相同的渐近性能。我们的分析还推出了IOL框架中人群的力量:更大的代理人群使我们的机制能够更接近社会绩效的理论上限。数值结果表明了我们在大型边缘计算中的机制的优点。
translated by 谷歌翻译