许多支付平台持有大规模的营销活动,为鼓励用户通过他们的申请进行奖励。为了最大限度地提高投资回报,在两阶段程序中通常会解决激励拨款。在训练响应估计模型以估计用户的移动支付概率(MPP)之后,应用线性编程过程来获得最佳激励分配。然而,由先前偏置分配策略生成的训练集中的大量偏置数据导致偏置估计。此偏差劣化响应模型的性能并误导线性编程过程,显着降低了所产生的分配策略的性能。为了克服这种障碍,我们提出了偏置校正对抗性网络。我们的方法利用了在全随机分配策略下获得的一小集非偏见数据来培训一个无偏的模型,然后使用它来减少对抗性学习的偏差。离线和在线实验结果表明,我们的方法优于最先进的方法,并显着提高了现实世界营销活动中所产生的分配政策的绩效。
translated by 谷歌翻译