个性化交互式系统(例如推荐系统)需要选择取决于上下文的相关项目。生产系统需要从非常大的目录中迅速识别这些项目,这些目录可以使用最大的内部产品搜索技术有效地解决。通过放松离散问题,可以实现最大内部产品搜索的离线优化,从而导致政策学习或增强样式学习算法。不幸的是,这种放松步骤需要在整个目录上计算一个总和,从而使梯度评估的复杂性(因此每个随机梯度下降迭代)在目录大小中线性线性。在许多现实世界中,该计算是站不住脚的示例,例如大型目录推荐系统严重限制了该方法在实践中的实用性。在本文中,我们展示了如何产生这些政策学习算法的出色近似值,以对数与目录大小进行对数。我们的贡献是基于结合三个新颖想法的结合:对政策梯度,自我正常化的重要性采样估计器以及在训练时使用快速最大内部产品搜索的新蒙特卡洛估计。广泛的实验表明,我们的算法比幼稚的方法更快,但产生同样好的策略。
translated by 谷歌翻译
工业推荐系统处理极大的行动空间 - 许多数百万的项目推荐。此外,他们需要为数十亿用户服务,他们在任何时间点都是独一无止的,制作复杂的用户状态空间。幸运的是,可以学习大量记录的隐式反馈(例如,用户点击,停留时间)。然而,从记录的反馈中学习,才受到仅通过以前版本的推荐器选择的建议的反馈而导致的偏差。在这项工作中,我们展示了在YouTube的生产Top-K推荐系统中解决此类偏差的一般配方,以策略梯度为基础的算法,即加强。本文的贡献是:(1)缩放到生产推荐系统,以数百万的订单为行动空间; (2)申请违规纠正以解决从多种行为策略收集的记录反馈中学习数据偏差; (3)提出新的Top-K违规纠正,以占我们的政策一次推荐多个项目; (4)展示勘探的价值。我们展示了我们通过一系列模拟和youtube上的多个实时实验的方法。
translated by 谷歌翻译
我们介绍了概率等级和奖励模型(PRR),这是一个可扩展的概率模型,用于个性化的Slate建议。我们的模型允许在以下无处不在的推荐系统方案中对用户兴趣的最新估计:向用户显示了k个建议的板岩,用户最多可以选择这些K项目中的一个。推荐系统的目标是找到用户最感兴趣的K项目,以最大程度地提高用户与Slate交互的可能性。我们的贡献是表明,我们可以通过结合奖励(无论是否单击板岩,以及等级)而更有效地学习建议成功的可能性。我们的方法比仅使用奖励和仅使用等级的用户偏好方法的盗销方法更有效地学习。它还提供了与独立的逆点分数方法相似或更好的估计性能,并且更可扩展。我们的方法是在大量数据集中的速度和准确性方面的最高速度,最多100万个项目。最后,我们的方法允许快速交付由最大内部产品搜索(MIPS)提供动力的建议,使其适用于极低的延迟域,例如计算广告。
translated by 谷歌翻译
Counterfactual reasoning from logged data has become increasingly important for many applications such as web advertising or healthcare. In this paper, we address the problem of learning stochastic policies with continuous actions from the viewpoint of counterfactual risk minimization (CRM). While the CRM framework is appealing and well studied for discrete actions, the continuous action case raises new challenges about modelization, optimization, and~offline model selection with real data which turns out to be particularly challenging. Our paper contributes to these three aspects of the CRM estimation pipeline. First, we introduce a modelling strategy based on a joint kernel embedding of contexts and actions, which overcomes the shortcomings of previous discretization approaches. Second, we empirically show that the optimization aspect of counterfactual learning is important, and we demonstrate the benefits of proximal point algorithms and differentiable estimators. Finally, we propose an evaluation protocol for offline policies in real-world logged systems, which is challenging since policies cannot be replayed on test data, and we release a new large-scale dataset along with multiple synthetic, yet realistic, evaluation setups.
translated by 谷歌翻译
在上下文土匪中,非政策评估(OPE)已在现实世界中迅速采用,因为它仅使用历史日志数据就可以离线评估新政策。不幸的是,当动作数量较大时,现有的OPE估计器(其中大多数是基于反相反的得分加权)会严重降解,并且可能会遭受极端偏见和差异。这挫败了从推荐系统到语言模型的许多应用程序中使用OPE。为了克服这个问题,我们提出了一个新的OPE估计器,即当动作嵌入在动作空间中提供结构时,利用边缘化的重要性权重。我们表征了所提出的估计器的偏差,方差和平方平方误差,并分析了动作嵌入提供了比常规估计器提供统计益处的条件。除了理论分析外,我们还发现,即使由于大量作用,现有估计量崩溃,经验性绩效的改善也可以实现可靠的OPE。
translated by 谷歌翻译
Recommender systems aim to answer the following question: given the items that a user has interacted with, what items will this user likely interact with next? Historically this problem is often framed as a predictive task via (self-)supervised learning. In recent years, we have seen more emphasis placed on approaching the recommendation problem from a policy optimization perspective: learning a policy that maximizes some reward function (e.g., user engagement). However, it is commonly the case in recommender systems that we are only able to train a new policy given data collected from a previously-deployed policy. The conventional way to address such a policy mismatch is through importance sampling correction, which unfortunately comes with its own limitations. In this paper, we suggest an alternative approach, which involves the use of local policy improvement without off-policy correction. Drawing from a number of related results in the fields of causal inference, bandits, and reinforcement learning, we present a suite of methods that compute and optimize a lower bound of the expected reward of the target policy. Crucially, this lower bound is a function that is easy to estimate from data, and which does not involve density ratios (such as those appearing in importance sampling correction). We argue that this local policy improvement paradigm is particularly well suited for recommender systems, given that in practice the previously-deployed policy is typically of reasonably high quality, and furthermore it tends to be re-trained frequently and gets continuously updated. We discuss some practical recipes on how to apply some of the proposed techniques in a sequential recommendation setting.
translated by 谷歌翻译
到目前为止,大多数关于推荐系统的研究专注于通过促进相关和个性化内容维持长期用户参与和满足感。但是,评估这种内容的质量和可靠性仍然非常具有挑战性。在本文中,我们提出了FEBR(基于专家的建议框架),是评估在线平台上建议内容的质量的学徒学习框架。该框架在推荐评估环境中挖掘专家(假设可靠)的演示轨迹,以恢复未知的实用程序功能。此功能用于学习描述专家行为的最佳策略,然后在框架中使用,以提供高质量和个性化的建议。我们通过用户兴趣模拟环境(使用RECSIM)评估我们的解决方案的性能。我们模拟了上述专家政策下的互动,以进行视频推荐,并将其效率与标准推荐方法进行比较。结果表明,我们的方法在内容质量方面提供了显着的收益,由专家评估并由用户观察,同时保持与基线方法几乎相同的表格。
translated by 谷歌翻译
多臂匪徒(MAB)提供了一种原则性的在线学习方法,以达到探索和剥削之间的平衡。由于表现出色和反馈学习低,没有学习在多种情况下采取行动,因此多臂匪徒在诸如推荐系统等应用程序中引起了广泛的关注。同样,在推荐系统中,协作过滤(CF)可以说是推荐系统中最早,最具影响力的方法。至关重要的是,新用户和不断变化的推荐项目池是推荐系统需要解决的挑战。对于协作过滤,经典方法是训练模型离线,然后执行在线测试,但是这种方法无法再处理用户偏好的动态变化,即所谓的冷启动。那么,如何在没有有效信息的情况下有效地向用户推荐项目?为了解决上述问题,已经提出了一个基于多臂强盗的协作过滤推荐系统,名为BanditMF。 BANDITMF旨在解决多军强盗算法和协作过滤中的两个挑战:(1)如何在有效信息稀缺的条件下解决冷启动问题以进行协作过滤,(2)强大社会关系域中的强盗算法问题是由独立估计与每个用户相关的未知参数并忽略用户之间的相关性引起的。
translated by 谷歌翻译
离线政策优化可能会对许多现实世界的决策问题产生重大影响,因为在线学习在许多应用中可能是不可行的。重要性采样及其变体是离线策略评估中一种常用的估计器类型,此类估计器通常不需要关于价值函数或决策过程模型功能类的属性和代表性能力的假设。在本文中,我们确定了一种重要的过度拟合现象,以优化重要性加权收益,在这种情况下,学到的政策可以基本上避免在最初的状态空间的一部分中做出一致的决策。我们提出了一种算法,以避免通过新的每个国家 - 邻居标准化约束过度拟合,并提供对拟议算法的理论理由。我们还显示了以前尝试这种方法的局限性。我们在以医疗风格的模拟器为中测试算法,该模拟器是从真实医院收集的记录数据集和连续的控制任务。这些实验表明,与最先进的批处理学习算法相比,所提出的方法的过度拟合和更好的测试性能。
translated by 谷歌翻译
移动通知系统在各种应用程序中起着重要作用,以通信,向用户发送警报和提醒,以告知他们有关新闻,事件或消息的信息。在本文中,我们将近实时的通知决策问题制定为马尔可夫决策过程,在该过程中,我们对奖励中的多个目标进行了优化。我们提出了一个端到端的离线增强学习框架,以优化顺序通知决策。我们使用基于保守的Q学习的双重Q网络方法来应对离线学习的挑战,从而减轻了分配转移问题和Q值高估。我们说明了完全部署的系统,并通过离线和在线实验证明了拟议方法的性能和好处。
translated by 谷歌翻译
我们研究了从记录的匪徒反馈中进行额外学习的增强合奏模型。为了实现这一目标,我们提出了一种新的增强算法,该算法直接优化了对政策预期奖励的估计。我们分析了该算法,并证明,只要满足“弱”的学习条件,每轮增强的经验风险会随着每一轮增强而降低(可能是指数迅速)。我们进一步展示了基础学习者如何减少标准监督学习问题。实验表明,我们的算法可以胜过仅在观察到的奖励上回归的深层外部学习和方法,从而证明了增强和选择正确的学习目标的好处。
translated by 谷歌翻译
在本文中,我们为游戏制定了一个推荐系统,该游戏为基于他们的互动行为来说潜在的物品,以最大限度地为游戏提供商的收入最大限度地提高。我们的方法是基于强化学习的技术构建,并在IEEE大数据杯挑战上公开可用的离线数据集培训。离线数据集的限制和高维数的诅咒构成解决这个问题的重要障碍。我们所提出的方法侧重于通过解决这些主要困难来提高全面奖励和表现。更具体地,我们利用稀疏PCA来提取用户行为的重要特征。然后,我们的Q学习系统从已加工的离线数据集培训。要利用所提供的数据集中的所有可能的信息,我们将用户功能群集到不同的组,并为每个组构建一​​个独立的Q-table。此外,为了解决评估指标的未知公式的挑战,我们设计了根据游戏提供商可能实现的潜在价值和我们从Live评分环境获得的实际评估指标的小集合的潜在价值自我评估的公制。我们的实验表明,我们的拟议度量标准与挑战组织者发表的结果一致。我们已经实施了拟议的培训管道,结果表明,我们的方法在总奖励和训练速度方面优于当前最先进的方法。通过解决主要挑战并利用最先进的技术,我们已经取得了最佳的公共排行榜导致挑战。此外,我们所提出的方法达到估计得分约为20%,并且可以比当前最先进的方法的最佳最佳方法更快地培训30倍。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
虚拟支持代理商已经普及,作为企业提供更好,更可访问的客户服务的一种方式。此域中的一些挑战包括模糊的用户查询以及更改支持主题和用户行为(非实用性)。但是,我们这样做可以访问用户提供的部分反馈(点击,调查和其他事件),这些反馈可以利用来改善用户体验。适应的学习技术,如上下文匪徒,是对这个问题设置的自然拟合。在本文中,我们讨论了Microsoft Virtual代理的上下文匪徒(CB)的实际实现。它包括基于神经线性匪徒(NLB)和基于多武装匪徒(MAB)集合的内容建议的意图消歧。我们的解决方案已部署到生产并改进了Microsoft虚拟代理的关键业务指标,由A / B实验确认。结果包括问题分辨率的相对增加12%,并且对人类运营商的升级相对减少超过4%。虽然我们目前的用例侧重于Intent消费歧义和支持机器人的上下文建议,但我们认为我们的方法可以扩展到其他域。
translated by 谷歌翻译
由于其可扩展性,两阶段推荐人被今天的许多最大的在线平台使用,包括YouTube,Linkedin和Pinterest。这些系统以两个步骤产生建议:(i)多个提名者调整为低预测延迟,从整个项目池中预先选择一个小候选者的小组; (ii)较慢但更准确的排名进一步缩小指定项目,并为用户服务。尽管他们受欢迎,但两级推荐人的文献相对稀缺,算法经常被视为他们的部分的总和。这种治疗假定了通过单独组分的行为解释了两级性能。事实并非如此:使用综合性和现实世界数据,我们证明了排名人员和提名人之间的互动大大影响了整体性能。通过这些调查结果,我们推出了概括下限,表明独立提名培训可能导致均匀随机建议的表现。我们发现,仔细设计项目池,每个项目池分配给不同的提名人,减轻了这些问题。随着手动搜索良好的池分配很难,我们建议使用基于专家的混合方法来学习一个。这显着改善了K的精度和召回。
translated by 谷歌翻译
推荐系统(RS)向用户显示的内容会影响他们。 Therefore, when choosing a recommender to deploy, one is implicitly also choosing to induce specific internal states in users.更重要的是,通过长匹马优化培训的系统将有直接的激励措施来操纵用户:在这项工作中,我们专注于转移用户偏好的动力,因此他们更容易满足。我们认为 - 在部署之前 - 系统设计师应:估计推荐人会引起的转变;评估这种转变是否是不受欢迎的;也许甚至可以积极优化以避免有问题的转变。这些步骤涉及两种具有挑战性的成分:估算需要预测假设算法如何影响用户偏好,如果部署 - 我们通过使用历史用户交互数据来训练隐含其偏好动态的预测用户模型来实现此操作;评估和优化另外需要指标来评估这种影响是操纵还是其他不必要的 - 我们使用“安全转移”的概念,该概念定义了行为安全的信任区域:例如,用户无需移动的自然方式而无需使用系统的干扰可以被视为“安全”。在模拟实验中,我们表明我们学习的偏好动力学模型可有效估计用户偏好以及它们如何对新推荐人的反应。此外,我们表明,在信托区域中优化的推荐人可以避免在仍在产生参与的同时避免操纵行为。
translated by 谷歌翻译
Softmax政策的政策梯度(PG)估计与子最佳饱和初始化无效,当密度集中在次良动作时发生。从策略初始化或策略已经收敛后发生的环境的突然变化可能会出现次优策略饱和度,并且SoftMax PG估计器需要大量更新以恢复有效的策略。这种严重问题导致高样本低效率和对新情况的适应性差。为缓解此问题,我们提出了一种新的政策梯度估计,用于软MAX策略,该估计在批评中利用批评中的偏差和奖励信号中存在的噪声来逃避策略参数空间的饱和区域。我们对匪徒和古典MDP基准测试任务进行了分析和实验,表明我们的估算变得更加坚固,以便对政策饱和度更加强大。
translated by 谷歌翻译
作为加强学习(RL)通过奖励信号铸造的基于会议或顺序推荐是一个有前途的研究方向,旨在最大化累积利润的推荐系统(RS)。然而,由于违规培训,巨大的动作空间和缺乏足够的奖励信号,RL算法中的RL算法直接使用RL算法是不切实际的。最近的RL用于RS试图通过结合RL和(自我)监督的连续学习来解决这些挑战的方法,但仍然遭受某些限制。例如,由于缺少负奖励信号,Q值的估计趋于向正值偏置。此外,Q值也大量取决于序列的特定时间戳。为了解决上述问题,我们提出了培训RL组件的负面采样策略,并将其与监督顺序学习结合起来。我们称这种方法监督负面Q-Learning(SNQN)。基于采样(否定)动作(项目),我们可以计算平均案例的积极动作的“优势”,这可以进一步用于学习监督的顺序部分的标准化重量。这导致了另一个学习框架:监督优势演员 - 评论家(SA2C)。我们使用四个最先进的顺序推荐模型实例化SNQN和SA2C,并在两个现实世界数据集中进行实验。实验结果表明,拟议的方法比最先进的监督方法和现有的自我监督的RL方法达到明显更好的性能。代码将是开放的。
translated by 谷歌翻译
历史互动是推荐模型培训的默认选择,通常表现出高稀疏性,即大多数用户项目对都是未观察到的缺失数据。标准选择是将缺失的数据视为负训练样本,并估计用户项目对之间的相互作用以及观察到的相互作用。通过这种方式,在训练过程中不可避免地会误标记一些潜在的互动,这将损害模型的保真度,阻碍模型回忆起错误标签的项目,尤其是长尾尾。在这项工作中,我们从新的不确定性的新角度研究了标签的问题,该问题描述了缺失数据的固有随机性。随机性促使我们超越了相互作用的可能性,并接受了不确定性建模。为此,我们提出了一个新的不确定性不确定性建议(AUR)框架,该框架由新的不确定性估计器以及正常的推荐模型组成。根据核心不确定性理论,我们得出了一个新的建议目标来学习估计量。由于错误标签的机会反映了一对的潜力,因此AUR根据不确定性提出了建议,该建议被证明是为了改善较不受欢迎的项目的建议性能而不会牺牲整体性能。我们在三个代表性推荐模型上实例化AUR:来自主流模型体系结构的矩阵分解(MF),LightGCN和VAE。两个现实世界数据集的广泛结果验证了AUR W.R.T.的有效性。更好的建议结果,尤其是在长尾项目上。
translated by 谷歌翻译
在基于学术和行业的研究中,在线评估方法都被视为推荐系统等交互式应用程序的黄金标准。自然,这样做的原因是,我们可以直接测量依赖干预措施的实用程序指标,这是向用户显示的建议。然而,由于多种原因,在线评估方法是昂贵的,并且对于可靠的离线评估程序仍然存在明确的需求。在行业中,离线指标通常被用作一线评估,以生成有前途的候选模型来在线评估。在学术工作中,对在线系统的有限访问使离线指标是验证新方法的事实上的方法。存在两个类别的离线指标:基于代理的方法和反事实方法。头等舱通常与我们关心的在线指标相关,而后一类仅根据在现实世界中无法实现的假设提供理论保证。在这里,我们表明基于模拟的比较为离线指标提供了前进的方向,并认为它们是可取的评估手段。
translated by 谷歌翻译