组合推荐人(CR)系统一次在结果页面中一次将项目列表馈送给用户,其中用户行为受到上下文信息和项目的影响。 CR被称为组合优化问题,目的是最大程度地提高整个列表的建议奖励。尽管它很重要,但由于在线环境中的效率,动态和个性化要求,建立实用的CR系统仍然是一个挑战。特别是,我们将问题分为两个子问题,即列表生成和列表评估。新颖和实用的模型体系结构是为这些子问题设计的,旨在共同优化有效性和效率。为了适应在线案例,给出了形成参与者批判性增强框架的自举算法,以探索在长期用户互动中更好的推荐模式。离线和在线实验结果证明了拟议的JDREC框架的功效。 JDREC已应用于在线JD建议中,将点击率提高了2.6%,平台的合成价值提高了5.03%。我们将发布本研究中使用的大规模数据集,以为研究界做出贡献。
translated by 谷歌翻译
推荐系统(RS)是一个重要的在线应用程序,每天都会影响数十亿个用户。主流RS排名框架由两个部分组成:多任务学习模型(MTL),该模型可预测各种用户反馈,即点击,喜欢,分享和多任务融合模型(MTF),该模型(MTF)结合了多任务就用户满意度而言,输出分为最终排名得分。关于融合模型的研究并不多,尽管它对最终建议作为排名的最后一个关键过程有很大的影响。为了优化长期用户满意度,而不是贪婪地获得即时回报,我们将MTF任务作为Markov决策过程(MDP),并在推荐会话中提出,并建议基于批处理加固学习(RL)基于多任务融合框架(BATCHRL-MTF)包括批处理RL框架和在线探索。前者利用批处理RL从固定的批处理数据离线学习最佳推荐政策,以达到长期用户满意度,而后者则探索了潜在的高价值动作在线,以突破本地最佳难题。通过对用户行为的全面调查,我们通过从用户粘性和用户活动性的两个方面的微妙启发式方法对用户满意度进行了建模。最后,我们对十亿个样本级别的现实数据集进行了广泛的实验,以显示模型的有效性。我们建议保守的离线政策估计器(保守 - 访问器)来测试我们的模型离线。此外,我们在真实推荐环境中进行在线实验,以比较不同模型的性能。作为成功在MTF任务中应用的少数批次RL研究之一,我们的模型也已部署在一个大规模的工业短视频平台上,为数亿用户提供服务。
translated by 谷歌翻译
工业推荐系统处理极大的行动空间 - 许多数百万的项目推荐。此外,他们需要为数十亿用户服务,他们在任何时间点都是独一无止的,制作复杂的用户状态空间。幸运的是,可以学习大量记录的隐式反馈(例如,用户点击,停留时间)。然而,从记录的反馈中学习,才受到仅通过以前版本的推荐器选择的建议的反馈而导致的偏差。在这项工作中,我们展示了在YouTube的生产Top-K推荐系统中解决此类偏差的一般配方,以策略梯度为基础的算法,即加强。本文的贡献是:(1)缩放到生产推荐系统,以数百万的订单为行动空间; (2)申请违规纠正以解决从多种行为策略收集的记录反馈中学习数据偏差; (3)提出新的Top-K违规纠正,以占我们的政策一次推荐多个项目; (4)展示勘探的价值。我们展示了我们通过一系列模拟和youtube上的多个实时实验的方法。
translated by 谷歌翻译
在本文中,我们为游戏制定了一个推荐系统,该游戏为基于他们的互动行为来说潜在的物品,以最大限度地为游戏提供商的收入最大限度地提高。我们的方法是基于强化学习的技术构建,并在IEEE大数据杯挑战上公开可用的离线数据集培训。离线数据集的限制和高维数的诅咒构成解决这个问题的重要障碍。我们所提出的方法侧重于通过解决这些主要困难来提高全面奖励和表现。更具体地,我们利用稀疏PCA来提取用户行为的重要特征。然后,我们的Q学习系统从已加工的离线数据集培训。要利用所提供的数据集中的所有可能的信息,我们将用户功能群集到不同的组,并为每个组构建一​​个独立的Q-table。此外,为了解决评估指标的未知公式的挑战,我们设计了根据游戏提供商可能实现的潜在价值和我们从Live评分环境获得的实际评估指标的小集合的潜在价值自我评估的公制。我们的实验表明,我们的拟议度量标准与挑战组织者发表的结果一致。我们已经实施了拟议的培训管道,结果表明,我们的方法在总奖励和训练速度方面优于当前最先进的方法。通过解决主要挑战并利用最先进的技术,我们已经取得了最佳的公共排行榜导致挑战。此外,我们所提出的方法达到估计得分约为20%,并且可以比当前最先进的方法的最佳最佳方法更快地培训30倍。
translated by 谷歌翻译
如今,数据驱动的深度神经模式已经在点击率(CTR)预测上已经显示出显着的进展。不幸的是,当数据不足时,这种模型的有效性可能会失败。为了处理这个问题,研究人员经常采用勘探战略来审查基于估计奖励的项目,例如UCB或汤普森采样。在CTR预测的开发和探索的背景下,最近的研究已经尝试利用预测不确定性以及模型预测作为奖励得分。但是,我们认为这种方法可以使最终排名分数偏离原始分布,从而影响在线系统中的模型性能。在本文中,我们提出了一种名为\ textbf {a} dversarial \ textbf {g} vlient driven \ textbf {e} xploration(年龄)的新颖探索方法。具体地,我们提出了一个伪探索模块来模拟渐变更新过程,其可以近似模型的探索项目的样本的影响。此外,为了更好的探索效率,我们提出了一种动态阈值单元,以消除具有低电位CTR的样本的效果。在开放式学术数据集上证明了我们方法的有效性。同时,年龄也部署在现实世界展示广告平台中,所有在线指标都得到了显着改善。
translated by 谷歌翻译
Current advances in recommender systems have been remarkably successful in optimizing immediate engagement. However, long-term user engagement, a more desirable performance metric, remains difficult to improve. Meanwhile, recent reinforcement learning (RL) algorithms have shown their effectiveness in a variety of long-term goal optimization tasks. For this reason, RL is widely considered as a promising framework for optimizing long-term user engagement in recommendation. Despite being a promising approach, the application of RL heavily relies on well-designed rewards, but designing rewards related to long-term user engagement is quite difficult. To mitigate the problem, we propose a novel paradigm, Preference-based Recommender systems (PrefRec), which allows RL recommender systems to learn from preferences about users' historical behaviors rather than explicitly defined rewards. Such preferences are easily accessible through techniques such as crowdsourcing, as they do not require any expert knowledge. With PrefRec, we can fully exploit the advantages of RL in optimizing long-term goals, while avoiding complex reward engineering. PrefRec uses the preferences to automatically train a reward function in an end-to-end manner. The reward function is then used to generate learning signals to train the recommendation policy. Furthermore, we design an effective optimization method for PrefRec, which uses an additional value function, expectile regression and reward model pre-training to improve the performance. Extensive experiments are conducted on a variety of long-term user engagement optimization tasks. The results show that PrefRec significantly outperforms previous state-of-the-art methods in all the tasks.
translated by 谷歌翻译
作为加强学习(RL)通过奖励信号铸造的基于会议或顺序推荐是一个有前途的研究方向,旨在最大化累积利润的推荐系统(RS)。然而,由于违规培训,巨大的动作空间和缺乏足够的奖励信号,RL算法中的RL算法直接使用RL算法是不切实际的。最近的RL用于RS试图通过结合RL和(自我)监督的连续学习来解决这些挑战的方法,但仍然遭受某些限制。例如,由于缺少负奖励信号,Q值的估计趋于向正值偏置。此外,Q值也大量取决于序列的特定时间戳。为了解决上述问题,我们提出了培训RL组件的负面采样策略,并将其与监督顺序学习结合起来。我们称这种方法监督负面Q-Learning(SNQN)。基于采样(否定)动作(项目),我们可以计算平均案例的积极动作的“优势”,这可以进一步用于学习监督的顺序部分的标准化重量。这导致了另一个学习框架:监督优势演员 - 评论家(SA2C)。我们使用四个最先进的顺序推荐模型实例化SNQN和SA2C,并在两个现实世界数据集中进行实验。实验结果表明,拟议的方法比最先进的监督方法和现有的自我监督的RL方法达到明显更好的性能。代码将是开放的。
translated by 谷歌翻译
最近的研究表明,神经组合优化(NCO)在许多组合优化问题(如路由)中具有优于传统算法的优点,但是对于涉及相互条件的动作空间的包装,诸如打包的更加复杂的优化任务的效率较低。在本文中,我们提出了一种经常性的条件查询学习(RCQL)方法来解决2D和3D包装问题。我们首先通过经常性编码器嵌入状态,然后采用先前操作的条件查询注意。条件查询机制填充了学习步骤之间的信息差距,将问题塑造为Markov决策过程。从复发中受益,单个RCQL模型能够处理不同尺寸的包装问题。实验结果表明,RCQL可以有效地学习用于离线和在线条带包装问题(SPP)的强烈启发式,优于空间利用率范围广泛的基线。 RCQL与最先进的方法相比,在离线2D 40盒案例中将平均箱间隙比率降低1.83%,3.84%。同时,我们的方法还实现了5.64%的空间利用率,对于1000件物品的空间利用率比现有技术更高。
translated by 谷歌翻译
本文介绍了寻求信息(是)任务,概念和算法的信息重新分类。拟议的分类系统提供了新的维度,以研究寻求任务和方法的信息。新尺寸包括搜索迭代,搜索目标类型和程序的数量,以实现这些目标。寻求任务的信息沿着这些尺寸呼叫合适的计算解决方案的差异。然后,该文章评论了符合每个新类别的机器学习解决方案。该论文结束了对系统的评估活动进行了审查。
translated by 谷歌翻译
瀑布推荐系统(RS)是移动应用程序中RS的流行形式,是推荐的项目流,这些项目由连续页面组成,可以通过滚动浏览。在Waterfall RS中,当用户完成浏览页面时,Edge(例如,手机)将向Cloud Server发送请求,以获取新的建议页面,称为分页请求机制。 RSS通常将大量项目放入一页中,以减少众多分页请求中的过度资源消耗,但是,这将降低RSS根据用户的实时兴趣及时续订建议的能力,并导致贫穷的用户。经验。直观地,在页面内插入其他请求以更新频率的建议可以减轻问题。但是,以前的尝试,包括非自适应策略(例如,统一插入请求)最终会导致资源过度消费。为此,我们设想了一项名为智能请求策略设计(IRSD)的Edge Intelligence的新学习任务。它旨在通过根据用户的实时意图确定请求插入的适当情况来提高瀑布RSS的有效性。此外,我们提出了一种新的自适应请求插入策略的范式,名为基于Uplift的On-Ending Smart请求框架(AdareQuest)。 AdareQuest 1)通过将实时行为与基于基于注意力的神经网络相匹配的历史兴趣来捕获用户意图的动态变化。 2)估计根据因果推理插入的请求带来的用户购买的反事实提升。 3)通过在在线资源约束下最大化效用功能来确定最终请求插入策略。我们在离线数据集和在线A/B测试上进行了广泛的实验,以验证AdareQuest的有效性。
translated by 谷歌翻译
Recommender systems aim to answer the following question: given the items that a user has interacted with, what items will this user likely interact with next? Historically this problem is often framed as a predictive task via (self-)supervised learning. In recent years, we have seen more emphasis placed on approaching the recommendation problem from a policy optimization perspective: learning a policy that maximizes some reward function (e.g., user engagement). However, it is commonly the case in recommender systems that we are only able to train a new policy given data collected from a previously-deployed policy. The conventional way to address such a policy mismatch is through importance sampling correction, which unfortunately comes with its own limitations. In this paper, we suggest an alternative approach, which involves the use of local policy improvement without off-policy correction. Drawing from a number of related results in the fields of causal inference, bandits, and reinforcement learning, we present a suite of methods that compute and optimize a lower bound of the expected reward of the target policy. Crucially, this lower bound is a function that is easy to estimate from data, and which does not involve density ratios (such as those appearing in importance sampling correction). We argue that this local policy improvement paradigm is particularly well suited for recommender systems, given that in practice the previously-deployed policy is typically of reasonably high quality, and furthermore it tends to be re-trained frequently and gets continuously updated. We discuss some practical recipes on how to apply some of the proposed techniques in a sequential recommendation setting.
translated by 谷歌翻译
多臂匪徒(MAB)提供了一种原则性的在线学习方法,以达到探索和剥削之间的平衡。由于表现出色和反馈学习低,没有学习在多种情况下采取行动,因此多臂匪徒在诸如推荐系统等应用程序中引起了广泛的关注。同样,在推荐系统中,协作过滤(CF)可以说是推荐系统中最早,最具影响力的方法。至关重要的是,新用户和不断变化的推荐项目池是推荐系统需要解决的挑战。对于协作过滤,经典方法是训练模型离线,然后执行在线测试,但是这种方法无法再处理用户偏好的动态变化,即所谓的冷启动。那么,如何在没有有效信息的情况下有效地向用户推荐项目?为了解决上述问题,已经提出了一个基于多臂强盗的协作过滤推荐系统,名为BanditMF。 BANDITMF旨在解决多军强盗算法和协作过滤中的两个挑战:(1)如何在有效信息稀缺的条件下解决冷启动问题以进行协作过滤,(2)强大社会关系域中的强盗算法问题是由独立估计与每个用户相关的未知参数并忽略用户之间的相关性引起的。
translated by 谷歌翻译
我们介绍了概率等级和奖励模型(PRR),这是一个可扩展的概率模型,用于个性化的Slate建议。我们的模型允许在以下无处不在的推荐系统方案中对用户兴趣的最新估计:向用户显示了k个建议的板岩,用户最多可以选择这些K项目中的一个。推荐系统的目标是找到用户最感兴趣的K项目,以最大程度地提高用户与Slate交互的可能性。我们的贡献是表明,我们可以通过结合奖励(无论是否单击板岩,以及等级)而更有效地学习建议成功的可能性。我们的方法比仅使用奖励和仅使用等级的用户偏好方法的盗销方法更有效地学习。它还提供了与独立的逆点分数方法相似或更好的估计性能,并且更可扩展。我们的方法是在大量数据集中的速度和准确性方面的最高速度,最多100万个项目。最后,我们的方法允许快速交付由最大内部产品搜索(MIPS)提供动力的建议,使其适用于极低的延迟域,例如计算广告。
translated by 谷歌翻译
到目前为止,大多数关于推荐系统的研究专注于通过促进相关和个性化内容维持长期用户参与和满足感。但是,评估这种内容的质量和可靠性仍然非常具有挑战性。在本文中,我们提出了FEBR(基于专家的建议框架),是评估在线平台上建议内容的质量的学徒学习框架。该框架在推荐评估环境中挖掘专家(假设可靠)的演示轨迹,以恢复未知的实用程序功能。此功能用于学习描述专家行为的最佳策略,然后在框架中使用,以提供高质量和个性化的建议。我们通过用户兴趣模拟环境(使用RECSIM)评估我们的解决方案的性能。我们模拟了上述专家政策下的互动,以进行视频推荐,并将其效率与标准推荐方法进行比较。结果表明,我们的方法在内容质量方面提供了显着的收益,由专家评估并由用户观察,同时保持与基线方法几乎相同的表格。
translated by 谷歌翻译
用户嵌入(用户的矢量化表示)对于推荐系统至关重要。已经提出了许多方法来为用户构建代表性,以找到用于检索任务的类似项目,并且已被证明在工业推荐系统中也有效。最近,人们发现使用多个嵌入式代表用户的能力,希望每个嵌入代表用户对某个主题的兴趣。通过多息表示,重要的是要对用户对不同主题的喜好进行建模以及偏好如何随时间变化。但是,现有方法要么无法估算用户对每个利息的亲和力,要么不合理地假设每个用户的每一个利息随时间而逐渐消失,从而损害了候选人检索的召回。在本文中,我们提出了多功能偏好(MIP)模型,这种方法不仅可以通过更有效地使用用户的顺序参与来为用户产生多种利益因此,可以按比例地从每个利息中检索候选人。在各种工业规模的数据集上进行了广泛的实验,以证明我们方法的有效性。
translated by 谷歌翻译
由于需要捕捉用户的不断发展的兴趣并优化他们的长期体验,越来越多的推荐系统已经开始模拟推荐作为马尔可夫决策过程,并采用加强学习来解决问题。不应该研究推荐系统的公平性遵循静态评估的相同趋势和一次性干预动态监测和不间断控制吗?在本文中,我们首先描绘了最新的推荐系统的发展,然后讨论了如何烘焙进入强化学习技术以供推荐。此外,我们认为,为了进一步进一步进展,建议公平,我们可能希望考虑多方代(游戏理论)优化,多目标(Pareto)优化和基于仿真的优化,在随机的一般框架中游戏。
translated by 谷歌翻译
这项调查旨在全面概述用户与推荐系统之间的相互作用和M&S应用程序之间的相互作用的最新趋势(M&S),以改善工业推荐引擎的性能。我们从实施模拟器的框架开发的动机开始,以及它们用于培训和测试不同类型(包括强化学习)的推荐系统的使用。此外,我们根据现有模拟器的功能,认可和工业有效性提供了新的一致分类,并总结了研究文献中发现的模拟器。除其他事情外,我们还讨论了模拟器的构建块:合成数据(用户,项目,用户项目响应)的生成,用于模拟质量评估的方法和数据集(包括监视的方法)和/或关闭可能的模拟到现实差距),以及用于汇总实验仿真结果的方法。最后,这项调查考虑了该领域的新主题和开放问题。
translated by 谷歌翻译
捆绑式推荐系统向用户推荐一组物品(例如裤子,衬衫和鞋子),但他们经常遇到两个问题:重大的互动稀疏性和大型输出空间。在这项工作中,我们扩展了多轮对话建议(MCR)以减轻这些问题。 MCR是使用对话范式通过询问标签(例如类别或属性)的用户偏好来引起用户兴趣的MCR,并在多个回合中处理用户反馈,是一个新兴的建议设置,以获取用户反馈并缩小输出空间,但具有缩小的输出空间没有在捆绑建议的背景下探索。在这项工作中,我们提出了一个名为Bundle MCR的新颖推荐任务。我们首先提出了一个新框架,以将MCR作为Markov决策过程(MDP),其中有多个代理,用于用户建模,咨询和反馈处理。在此框架下,我们向(1)推荐项目,(2)提出问题和(3)基于捆绑感的对话状态来管理对话。此外,要有效地训练Bunt,我们提出了两阶段的培训策略。在离线预训练阶段,Bunt使用多个披肩任务进行训练,以模仿对话中的捆绑互动。然后,在在线微调阶段,用户交互增强了Bunt代理。我们在多个离线数据集以及人类评估上进行的实验显示了将MCR框架扩展到捆绑设置的价值以及我们的Bunt设计的有效性。
translated by 谷歌翻译
我们解决了3D箱包装问题的具有挑战性但实际上有用的变体(3D-BPP)。在我们的问题中,代理有关于要包装到垃圾箱的物品的信息有限,并且必须在无缓冲或重新调整的情况下立即包装项目。该项目的展示位置也受到碰撞避免和物理稳定的限制。我们将此在线3D-BPP制定为受限制的马尔可夫决策过程。为了解决问题,我们提出了演员 - 评论家框架下有效且易于实施的受限约束的深度加强学习(DRL)方法。特别地,我们介绍了一种可行性预测器来预测放置动作的可行性掩模,并使用它来调制训练期间actor输出的动作概率。这些监督和转型为DRL促进了代理人有效学习可行的政策。我们的方法也可以推广例如,能够处理具有不同方向的护目理或物品。我们进行了广泛的评估,表明学习政策显着优于最先进的方法。用户学习表明我们的方法达到了人级表现。
translated by 谷歌翻译
随着强化学习(RL)的最新流行率,在推荐平台(例如电子商务和新闻提要网站)中利用RL来利用RL进行广泛的兴趣。为了获得更好的分配,将最近基于RL的广告分配方法的输入从点单项目升级到列表项目的布置。但是,这也导致了国家行动对的高维空间,因此很难以良好的概括能力学习列表表示。这进一步阻碍了RL药物的探索,并导致样本效率差。为了解决这个问题,我们提出了一种基于RL的新方法,用于广告分配,该方法通过利用Meituan食品交付平台上的任务特定信号来学习更好的列表表示形式。具体而言,我们根据对ADS分配的先前领域知识分别提出基于重建,预测和对比度学习的三个不同的辅助任务。我们在Meituan食品输送平台上进行了广泛的实验,以评估拟议的辅助任务的有效性。离线和在线实验结果都表明,与最先进的基线相比,提出的方法可以学习更好的列表表示形式,并获得更高的平台收入。
translated by 谷歌翻译