许多支付平台持有大规模的营销活动,为鼓励用户通过他们的申请进行奖励。为了最大限度地提高投资回报,在两阶段程序中通常会解决激励拨款。在训练响应估计模型以估计用户的移动支付概率(MPP)之后,应用线性编程过程来获得最佳激励分配。然而,由先前偏置分配策略生成的训练集中的大量偏置数据导致偏置估计。此偏差劣化响应模型的性能并误导线性编程过程,显着降低了所产生的分配策略的性能。为了克服这种障碍,我们提出了偏置校正对抗性网络。我们的方法利用了在全随机分配策略下获得的一小集非偏见数据来培训一个无偏的模型,然后使用它来减少对抗性学习的偏差。离线和在线实验结果表明,我们的方法优于最先进的方法,并显着提高了现实世界营销活动中所产生的分配政策的绩效。
translated by 谷歌翻译
Marketing is an important mechanism to increase user engagement and improve platform revenue, and heterogeneous causal learning can help develop more effective strategies. Most decision-making problems in marketing can be formulated as resource allocation problems and have been studied for decades. Existing works usually divide the solution procedure into two fully decoupled stages, i.e., machine learning (ML) and operation research (OR) -- the first stage predicts the model parameters and they are fed to the optimization in the second stage. However, the error of the predicted parameters in ML cannot be respected and a series of complex mathematical operations in OR lead to the increased accumulative errors. Essentially, the improved precision on the prediction parameters may not have a positive correlation on the final solution due to the side-effect from the decoupled design. In this paper, we propose a novel approach for solving resource allocation problems to mitigate the side-effects. Our key intuition is that we introduce the decision factor to establish a bridge between ML and OR such that the solution can be directly obtained in OR by only performing the sorting or comparison operations on the decision factor. Furthermore, we design a customized loss function that can conduct direct heterogeneous causal learning on the decision factor, an unbiased estimation of which can be guaranteed when the loss converges. As a case study, we apply our approach to two crucial problems in marketing: the binary treatment assignment problem and the budget allocation problem with multiple treatments. Both large-scale simulations and online A/B Tests demonstrate that our approach achieves significant improvement compared with state-of-the-art.
translated by 谷歌翻译
一个良好的动作效果预测模型,称为环境模型,对于在机器人控制,推荐系统和患者治疗选择等许多领域中实现样本有效的决策政策学习非常重要。我们可以使用这种模型进行无限的试验来确定适当的行动,以便可以节省现实世界中的查询成本。它要求模型正确处理看不见的数据,也称为反事实数据。但是,标准数据拟合技术不会自动实现这种概括能力,通常会导致不可靠的模型。在这项工作中,我们在模型学习中引入了反事实风险最小化(CQRM),以推广到特定目标策略查询的反事实数据集。由于目标策略在政策学习中可能是各种各样且未知的,因此我们提出了一个对抗性CQRM目标,其中模型在对抗性策略查询的反事实数据上学习,并最终得出可拖延的解决方案Galileo。我们还发现,对抗性CQRM与对抗模型学习密切相关,从而解释了后者的有效性。我们将伽利略应用于综合任务和现实应用程序中。结果表明,伽利略对反事实数据做出了准确的预测,从而显着改善了现实世界测试的策略。
translated by 谷歌翻译
我们研究了一个定价设置,其中每个客户都基于客户和/或产品特征提供了一种预测客户对该产品的估值的产品特征。通常只有历史销售记录,我们遵守每个客户是否以规定的价格购买产品,而不是客户的真实估值。因此,数据受到历史销售政策的影响,历史销售政策在没有进行实际实验的可能性的情况下估算未来损失/遗憾的困难/遗憾的损失/遗憾,而是优化诸如收入管理等下游任务的新政策。我们研究如何制定损失功能,该功能可用于直接优化定价策略,而不是通过中间需求估计阶段,这可能在实践中被偏见,因为模型拼写,正常化或校准差。虽然在估值数据可用时提出了现有方法,但我们提出了观察数据设置的损失函数。为实现这一目标,我们将机器学习的想法适应损坏的标签,我们可以考虑每个观察到的客户的结果(购买或不按规定的价格购买),作为客户估值的(已知)概率转变。从这种转变,我们派生了一类合适的无偏损失功能。在此类中,我们识别最小方差估计器,那些对不良需求函数估计的稳健性,并在估计的需求功能有用时提供指导。此外,我们还表明,当应用于我们的上下文定价环境时,在违规评估文学中流行的估计人员在这类损失职能范围内,并且当每个估算师在实践中可能表现良好时,还提供管理层。
translated by 谷歌翻译
旨在估算每个广告接触点在转换旅程中的贡献的多点触摸归因(MTA)对于预算分配和自动广告至关重要。现有方法首先训练模型,以通过历史数据来预测广告旅程的转换概率,并使用反事实预测来计算每个接触点的归因。这些作品的假设是转换预测模型是公正的,即,它可以对任何随机分配的旅程(包括事实和反事实)提供准确的预测。然而,由于根据用户偏好推荐裸露的广告,因此这个假设并不总是存在。用户的这种混杂偏见将导致反事实预测中的分布(OOD)问题,并导致归因中的概念漂移。在本文中,我们定义了因果MTA任务,并提出Causalmta来消除用户偏好的影响。它从系统地消除了静态和动态偏好的混杂偏见,以使用历史数据来学习转换预测模型。我们还提供理论分析,以证明Causalmta可以学习具有足够数据的无偏见模型。电子商务公司的公共数据集和印象数据的广泛实验表明,Causalmta不仅比最先进的方法实现了更好的预测性能,而且还可以在不同的广告渠道上产生有意义的属性信用。
translated by 谷歌翻译
实时竞标是编程广告的新范式。广告商希望做出使用\ textbf {需求端平台}来提高其广告活动的性能的聪明选择。现有的方法正在努力为由于随机招标行为而为优化提供令人满意的解决方案。在本文中,我们提出了具有功能优化的RTB的多代理增强学习体系结构。我们设计了四个代理商竞标环境:基于三个Lagrange-Multiplier的功能优化代理和一个基线代理(没有功能优化的任何属性)首先,已将许多属性分配给每个代理,包括偏见或无偏的胜利概率,Lagrange乘数,然后单击单击 - 通过率。为了评估拟议的RTB策略的性能,我们证明了十个顺序模拟拍卖活动的结果。结果表明,具有功能性动作和奖励的代理商分别具有偏见和公正的获胜信息,具有最重要的平均获胜率和赢得盈余。实验评估表明,我们的方法显着提高了运动的功效和盈利能力。
translated by 谷歌翻译
在线算法是算法设计中的重要分支。设计具有有界竞争比率的在线算法(在最坏情况性能方面)可能是艰难的并且通常依赖于特定于问题的假设。由生成对抗净净净(GAN)的对抗训练的启发和在线算法的竞争比率基于最坏情况的输入,我们采用深度神经网络来学习从头开始进行资源分配和定价问题的在线算法对于最坏情况的输入,可以最小化离线最佳和学习的在线算法之间的性能差距的目标。具体而言,我们分别利用两个神经网络作为算法和对手,让他们播放零和游戏,而对验证负责产生最坏情况的输入,而算法基于对手提供的输入学习最佳策略。为了确保算法网络的更好收敛(到所需的在线算法),我们提出了一种新颖的每轮更新方法来处理顺序决策,以便在不同的回合中断复杂依赖性,以便可以为每种可能的动作完成更新,而不是只有采样的行动。据我们所知,我们的作品是首次使用深度神经网络来设计一个在最坏情况性能保证的角度的在线算法。实证研究表明,我们的更新方法确保了纳什均衡的融合,并且学习算法在各种设置下优于最先进的在线算法。
translated by 谷歌翻译
因果推论在电子商务和精确医学等各个领域都有广泛的应用,其性能在很大程度上取决于对个体治疗效果(ITE)的准确估计。通常,通过在其各个样品空间中分别对处理和控制响应函数进行建模来预测ITE。但是,这种方法通常会在实践中遇到两个问题,即治疗偏见引起的治疗组和对照组之间的分布分布以及其人口规模的显着样本失衡。本文提出了深层的整个空间跨网络(DESCN),以从端到端的角度进行建模治疗效果。 DESCN通过多任务学习方式捕获了治疗倾向,反应和隐藏治疗效果的综合信息。我们的方法共同学习了整个样品空间中的治疗和反应功能,以避免治疗偏见,并采用中间伪治疗效应预测网络来减轻样品失衡。从电子商务凭证分销业务的合成数据集和大规模生产数据集进行了广泛的实验。结果表明,DESCN可以成功提高ITE估计的准确性并提高提升排名的性能。发布生产数据集和源代码的样本是为了促进社区的未来研究,据我们所知,这是首个大型公共偏见的因果推理数据集。
translated by 谷歌翻译
我们利用离线增强学习(RL)模型在现实世界中有预算限制的情况下进行连续的目标促销。在我们的应用程序中,移动应用程序旨在通过向客户发送现金奖金并在每个时间段内控制此类现金奖金的成本来促进客户保留。为了实现多任务目标,我们提出了预算限制的加强学习,以进行顺序促销(BCRLSP)框架,以确定要发送给用户的现金奖金的价值。我们首先找出目标策略和相关的Q值,这些Q值是使用RL模型最大化用户保留率的。然后添加线性编程(LP)模型以满足促销成本的限制。我们通过最大化从RL模型中汲取的动作的Q值来解决LP问题。在部署期间,我们将离线RL模型与LP模型相结合,以在预算约束下生成强大的策略。使用在线和离线实验,我们通过证明BCRLSP达到的长期客户保留率和比各种基线更低的成本来证明我们方法的功效。利用近乎实时的成本控制方法,提出的框架可以轻松地使用嘈杂的行为政策和/或满足灵活的预算约束。
translated by 谷歌翻译
实际上,决策算法通常经过表现出各种偏见的数据培训。决策者通常旨在根据假定或期望公正的基础真相目标做出决策,即同样分布在社会显着的群体中。在许多实际设置中,无法直接观察到地面真相,相反,我们必须依靠数据中的地面真相(即偏置标签)的有偏见的代理度量。此外,通常会选择性地标记数据,即,即使是有偏见的标签,也仅对获得积极决策的数据的一小部分观察到。为了克服标签和选择偏见,最近的工作提议学习随机性,通过i)在每个时间步长的在线培训新政策,ii)执行公平性作为绩效的限制。但是,现有方法仅使用标记的数据,忽略了大量未标记的数据,因此在不同时间学到的决策策略的不稳定性和差异很大。在本文中,我们提出了一种基于实用公平决策的各种自动编码器的新方法。我们的方法学习了一个无偏的数据表示,利用标记和未标记的数据,并使用表示形式在在线过程中学习策略。使用合成数据,我们从经验上验证我们的方法根据差异较低的地面真相会收敛到最佳(公平)策略。在现实世界实验中,我们进一步表明,我们的培训方法不仅提供了更稳定的学习过程,而且还产生了比以前的方法更高的公平性和效用的政策。
translated by 谷歌翻译
瀑布推荐系统(RS)是移动应用程序中RS的流行形式,是推荐的项目流,这些项目由连续页面组成,可以通过滚动浏览。在Waterfall RS中,当用户完成浏览页面时,Edge(例如,手机)将向Cloud Server发送请求,以获取新的建议页面,称为分页请求机制。 RSS通常将大量项目放入一页中,以减少众多分页请求中的过度资源消耗,但是,这将降低RSS根据用户的实时兴趣及时续订建议的能力,并导致贫穷的用户。经验。直观地,在页面内插入其他请求以更新频率的建议可以减轻问题。但是,以前的尝试,包括非自适应策略(例如,统一插入请求)最终会导致资源过度消费。为此,我们设想了一项名为智能请求策略设计(IRSD)的Edge Intelligence的新学习任务。它旨在通过根据用户的实时意图确定请求插入的适当情况来提高瀑布RSS的有效性。此外,我们提出了一种新的自适应请求插入策略的范式,名为基于Uplift的On-Ending Smart请求框架(AdareQuest)。 AdareQuest 1)通过将实时行为与基于基于注意力的神经网络相匹配的历史兴趣来捕获用户意图的动态变化。 2)估计根据因果推理插入的请求带来的用户购买的反事实提升。 3)通过在在线资源约束下最大化效用功能来确定最终请求插入策略。我们在离线数据集和在线A/B测试上进行了广泛的实验,以验证AdareQuest的有效性。
translated by 谷歌翻译
推荐系统(RS)是一个重要的在线应用程序,每天都会影响数十亿个用户。主流RS排名框架由两个部分组成:多任务学习模型(MTL),该模型可预测各种用户反馈,即点击,喜欢,分享和多任务融合模型(MTF),该模型(MTF)结合了多任务就用户满意度而言,输出分为最终排名得分。关于融合模型的研究并不多,尽管它对最终建议作为排名的最后一个关键过程有很大的影响。为了优化长期用户满意度,而不是贪婪地获得即时回报,我们将MTF任务作为Markov决策过程(MDP),并在推荐会话中提出,并建议基于批处理加固学习(RL)基于多任务融合框架(BATCHRL-MTF)包括批处理RL框架和在线探索。前者利用批处理RL从固定的批处理数据离线学习最佳推荐政策,以达到长期用户满意度,而后者则探索了潜在的高价值动作在线,以突破本地最佳难题。通过对用户行为的全面调查,我们通过从用户粘性和用户活动性的两个方面的微妙启发式方法对用户满意度进行了建模。最后,我们对十亿个样本级别的现实数据集进行了广泛的实验,以显示模型的有效性。我们建议保守的离线政策估计器(保守 - 访问器)来测试我们的模型离线。此外,我们在真实推荐环境中进行在线实验,以比较不同模型的性能。作为成功在MTF任务中应用的少数批次RL研究之一,我们的模型也已部署在一个大规模的工业短视频平台上,为数亿用户提供服务。
translated by 谷歌翻译
In computational advertising, a challenging problem is how to recommend the bid for advertisers to achieve the best return on investment (ROI) given budget constraint. This paper presents a bid recommendation scenario that discovers the concavity changes in click prediction curves. The recommended bid is derived based on the turning point from significant increase (i.e. concave downward) to slow increase (convex upward). Parametric learning based method is applied by solving the corresponding constraint optimization problem. Empirical studies on real-world advertising scenarios clearly demonstrate the performance gains for business metrics (including revenue increase, click increase and advertiser ROI increase).
translated by 谷歌翻译
随机双动态编程(SDDP)是一种用于解决多级随机优化的最新方法,广泛用于建模现实世界流程优化任务。不幸的是,SDDP具有最糟糕的复杂性,其在决策变量的数量中呈指数级级别,这严重限制了仅限于低维度问题的适用性。为了克服这一限制,我们通过引入培训神经模型来扩展SDDP,该培训神经模型将在内部低维空间内将问题实例映射到内在的低维空间内的分型线性值函数,该尺寸低维空间是专门用于与基础SDDP求解器进行交互的架构成型,因此可以在新实例上加速优化性能。通过解决连续问题,提出的神经随机双动态编程($ \ nu $ -sddp)不断自我提高。实证调查表明,$ \ nu $ -sddp可以显着降低解决问题的问题,而不会在一系列合成和实际过程优化问题上牺牲竞争对手的解决方案质量。
translated by 谷歌翻译
机器学习模型在许多领域都表现出了有希望的表现。但是,担心他们可能会偏向特定的群体,阻碍了他们在高级申请中的采用。因此,必须确保机器学习模型中的公平性。以前的大多数努力都需要访问敏感属性以减轻偏见。尽管如此,由于人们对隐私和法律依从性的认识日益增加,获得具有敏感属性的大规模数据通常是不可行的。因此,一个重要的研究问题是如何在隐私下做出公平的预测?在本文中,我们研究了半私人环境中公平分类的新问题,其中大多数敏感属性都是私有的,只有少量的干净敏感属性可用。为此,我们提出了一个新颖的框架Fairsp,可以首先学会通过利用有限的清洁敏感属性来纠正隐私保证下的嘈杂敏感属性。然后,它以对抗性方式共同建模校正和清洁数据以进行歧义和预测。理论分析表明,当大多数敏感属性都是私有的时,提出的模型可以确保公平。现实世界数据集的实验结果证明了所提出的模型在隐私下做出公平预测并保持高精度的有效性。
translated by 谷歌翻译
移动通知系统在各种应用程序中起着重要作用,以通信,向用户发送警报和提醒,以告知他们有关新闻,事件或消息的信息。在本文中,我们将近实时的通知决策问题制定为马尔可夫决策过程,在该过程中,我们对奖励中的多个目标进行了优化。我们提出了一个端到端的离线增强学习框架,以优化顺序通知决策。我们使用基于保守的Q学习的双重Q网络方法来应对离线学习的挑战,从而减轻了分配转移问题和Q值高估。我们说明了完全部署的系统,并通过离线和在线实验证明了拟议方法的性能和好处。
translated by 谷歌翻译
在推荐系统中,一个普遍的挑战是冷门问题,在系统中,相互作用非常有限。为了应对这一挑战,最近,许多作品将元优化的想法介绍到建议方案中,即学习仅通过过去的几个交互项目来学习用户偏好。核心想法是为所有用户学习全局共享的元启动参数,并分别为每个用户迅速调整其本地参数。他们的目的是在各种用户的偏好学习中得出一般知识,以便通过博学的先验和少量培训数据迅速适应未来的新用户。但是,以前的作品表明,推荐系统通常容易受到偏见和不公平的影响。尽管元学习成功地通过冷启动提高了推荐性能,但公平性问题在很大程度上被忽略了。在本文中,我们提出了一个名为Clover的全面的公平元学习框架,以确保元学习的推荐模型的公平性。我们系统地研究了三种公平性 - 个人公平,反事实公平和推荐系统中的群体公平,并建议通过多任务对抗学习方案满足所有三种类型。我们的框架提供了一种通用的培训范式,适用于不同的元学习推荐系统。我们证明了三叶草对三个现实世界数据集的代表性元学习用户偏好估计器的有效性。经验结果表明,三叶草可以实现全面的公平性,而不会恶化整体的冷淡建议性能。
translated by 谷歌翻译
在信息爆炸的时代,推荐系统通过促进内容探索在人们的日常生活中起着重要作用。众所周知,用户的活动性,即行为数量,倾向于遵循长尾分布,大多数用户的积极性低。在实践中,我们观察到,在联合培训后,尾巴用户的质量推荐率明显低于首席用户。我们进一步确定,由于数据有限,因此在尾巴用户上训练的模型仍然取得了较低的结果。尽管长尾分布在推荐系统中无处不在,但在研究和行业中,提高尾巴用户的推荐性能仍然仍然是挑战。直接应用长尾分配的相关方法可能有可能伤害首席用户的经验,这是不起作用的,因为一小部分具有高积极性的首席用户贡献了平台收入的一部分。在本文中,我们提出了一种新颖的方法,可以显着提高尾巴用户的建议性能,同时至少在基本模型上为首席用户提供至少可比的性能。这种方法的本质是一种新颖的梯度聚合技术,该技术将所有用户共享的常识知识分为主干模型,然后为Head用户和Tail用户个性化提供单独的插件预测网络。至于常识学习,我们利用因果关系理论的向后调整来消除梯度估计,从而掩盖了混杂因素的骨干训练,即用户的积极性。我们对两个公共建议基准数据集和一个从支撑台平台收集的大规模工业数据集进行了广泛的实验。实证研究验证了我们方法的合理性和有效性。
translated by 谷歌翻译
在电子商务平台中,如果赞助搜索显示出意外的广告项目,则用户不太可能使用有机搜索,这将是该平台的隐藏成本。为了将隐藏成本纳入拍卖机制,这有助于为该平台创造积极的增长,我们转向储备价设计,以决定我们是否出售流量,并在收入和用户体验之间建立健康的关系。我们提出了一个动态的储备价格设计框架,以更有效地销售流量,并以最低的用户体验成本销售流量,同时向广告商保留长期激励措施,以真实地揭示其估值。还提出了分布式算法在生产环境中使用十亿个比例数据计算储备价。离线评估和在线AB测试的实验表明,这是一种简单有效的方法,可适当地用于工业生产中。它已经完全部署在Lazada赞助的搜索的生产中。
translated by 谷歌翻译
机上的机器学习使本地客户端推荐模型的轻量级部署可以减轻基于云的推荐人的负担,并同时结合了更多实时用户功能。然而,考虑到其强大的模型能力以及从十亿级项目库中产生的有效候选人,该行业的基于云的建议仍然非常重要。以前的尝试将两种范式的优点整合起来主要诉诸于顺序机制,该机制在基于云的建议之上构建了在设备上的推荐人。但是,当用户兴趣发生巨大变化时,这种设计是不灵活的:设备模型被有限的项目缓存粘住,而基于大型项目池的基于云的推荐则没有新的重新汇总反馈。为了克服这个问题,我们提出了一个元控制器,以动态管理推荐装置推荐人与基于云的推荐人之间的协作,并从因果角度引入一种新颖的有效样本构造,以解决元控制者的数据集缺失问题。在反事实样本和扩展培训的基础上,在工业推荐方案中进行的广泛实验显示了在设备云协作中Meta控制器的承诺。
translated by 谷歌翻译