我们研究了在$ n $均质代理之间分配$ t $依次到达项目的问题,即每个代理必须收到所有项目的预先指定的分数,目的是最大化代理商的总估值,分配给他们的项目的总估值。假定代理在每轮中对该项目的估值为I.I.D。但是它们的分布是中央计划者未知的先验。因此,中央规划师需要从观察到的价值中隐含地学习这些分布,以便选择良好的分配策略。但是,这里的另一个挑战是,代理商是战略性的,并激励他们误导其估值,以便获得更好的分配。这使我们的工作与在线拍卖设计设置不同,这些设置通常假设已知的估值分布和/或涉及付款,也可以从不考虑战略代理的在线学习环境中进行付款。为此,我们的主要贡献是一种基于在线学习的分配机制,大约是贝叶斯激励兼容的,当所有代理人都是真实的时,与最佳离线分配政策相比,在所有代理商的效用中保证了sublinear的遗憾。
translated by 谷歌翻译