工业推荐系统处理极大的行动空间 - 许多数百万的项目推荐。此外,他们需要为数十亿用户服务,他们在任何时间点都是独一无止的,制作复杂的用户状态空间。幸运的是,可以学习大量记录的隐式反馈(例如,用户点击,停留时间)。然而,从记录的反馈中学习,才受到仅通过以前版本的推荐器选择的建议的反馈而导致的偏差。在这项工作中,我们展示了在YouTube的生产Top-K推荐系统中解决此类偏差的一般配方,以策略梯度为基础的算法,即加强。本文的贡献是:(1)缩放到生产推荐系统,以数百万的订单为行动空间; (2)申请违规纠正以解决从多种行为策略收集的记录反馈中学习数据偏差; (3)提出新的Top-K违规纠正,以占我们的政策一次推荐多个项目; (4)展示勘探的价值。我们展示了我们通过一系列模拟和youtube上的多个实时实验的方法。
translated by 谷歌翻译
Recommender systems aim to answer the following question: given the items that a user has interacted with, what items will this user likely interact with next? Historically this problem is often framed as a predictive task via (self-)supervised learning. In recent years, we have seen more emphasis placed on approaching the recommendation problem from a policy optimization perspective: learning a policy that maximizes some reward function (e.g., user engagement). However, it is commonly the case in recommender systems that we are only able to train a new policy given data collected from a previously-deployed policy. The conventional way to address such a policy mismatch is through importance sampling correction, which unfortunately comes with its own limitations. In this paper, we suggest an alternative approach, which involves the use of local policy improvement without off-policy correction. Drawing from a number of related results in the fields of causal inference, bandits, and reinforcement learning, we present a suite of methods that compute and optimize a lower bound of the expected reward of the target policy. Crucially, this lower bound is a function that is easy to estimate from data, and which does not involve density ratios (such as those appearing in importance sampling correction). We argue that this local policy improvement paradigm is particularly well suited for recommender systems, given that in practice the previously-deployed policy is typically of reasonably high quality, and furthermore it tends to be re-trained frequently and gets continuously updated. We discuss some practical recipes on how to apply some of the proposed techniques in a sequential recommendation setting.
translated by 谷歌翻译
到目前为止,大多数关于推荐系统的研究专注于通过促进相关和个性化内容维持长期用户参与和满足感。但是,评估这种内容的质量和可靠性仍然非常具有挑战性。在本文中,我们提出了FEBR(基于专家的建议框架),是评估在线平台上建议内容的质量的学徒学习框架。该框架在推荐评估环境中挖掘专家(假设可靠)的演示轨迹,以恢复未知的实用程序功能。此功能用于学习描述专家行为的最佳策略,然后在框架中使用,以提供高质量和个性化的建议。我们通过用户兴趣模拟环境(使用RECSIM)评估我们的解决方案的性能。我们模拟了上述专家政策下的互动,以进行视频推荐,并将其效率与标准推荐方法进行比较。结果表明,我们的方法在内容质量方面提供了显着的收益,由专家评估并由用户观察,同时保持与基线方法几乎相同的表格。
translated by 谷歌翻译
移动通知系统在各种应用程序中起着重要作用,以通信,向用户发送警报和提醒,以告知他们有关新闻,事件或消息的信息。在本文中,我们将近实时的通知决策问题制定为马尔可夫决策过程,在该过程中,我们对奖励中的多个目标进行了优化。我们提出了一个端到端的离线增强学习框架,以优化顺序通知决策。我们使用基于保守的Q学习的双重Q网络方法来应对离线学习的挑战,从而减轻了分配转移问题和Q值高估。我们说明了完全部署的系统,并通过离线和在线实验证明了拟议方法的性能和好处。
translated by 谷歌翻译
我们介绍了概率等级和奖励模型(PRR),这是一个可扩展的概率模型,用于个性化的Slate建议。我们的模型允许在以下无处不在的推荐系统方案中对用户兴趣的最新估计:向用户显示了k个建议的板岩,用户最多可以选择这些K项目中的一个。推荐系统的目标是找到用户最感兴趣的K项目,以最大程度地提高用户与Slate交互的可能性。我们的贡献是表明,我们可以通过结合奖励(无论是否单击板岩,以及等级)而更有效地学习建议成功的可能性。我们的方法比仅使用奖励和仅使用等级的用户偏好方法的盗销方法更有效地学习。它还提供了与独立的逆点分数方法相似或更好的估计性能,并且更可扩展。我们的方法是在大量数据集中的速度和准确性方面的最高速度,最多100万个项目。最后,我们的方法允许快速交付由最大内部产品搜索(MIPS)提供动力的建议,使其适用于极低的延迟域,例如计算广告。
translated by 谷歌翻译
推荐系统(RS)是一个重要的在线应用程序,每天都会影响数十亿个用户。主流RS排名框架由两个部分组成:多任务学习模型(MTL),该模型可预测各种用户反馈,即点击,喜欢,分享和多任务融合模型(MTF),该模型(MTF)结合了多任务就用户满意度而言,输出分为最终排名得分。关于融合模型的研究并不多,尽管它对最终建议作为排名的最后一个关键过程有很大的影响。为了优化长期用户满意度,而不是贪婪地获得即时回报,我们将MTF任务作为Markov决策过程(MDP),并在推荐会话中提出,并建议基于批处理加固学习(RL)基于多任务融合框架(BATCHRL-MTF)包括批处理RL框架和在线探索。前者利用批处理RL从固定的批处理数据离线学习最佳推荐政策,以达到长期用户满意度,而后者则探索了潜在的高价值动作在线,以突破本地最佳难题。通过对用户行为的全面调查,我们通过从用户粘性和用户活动性的两个方面的微妙启发式方法对用户满意度进行了建模。最后,我们对十亿个样本级别的现实数据集进行了广泛的实验,以显示模型的有效性。我们建议保守的离线政策估计器(保守 - 访问器)来测试我们的模型离线。此外,我们在真实推荐环境中进行在线实验,以比较不同模型的性能。作为成功在MTF任务中应用的少数批次RL研究之一,我们的模型也已部署在一个大规模的工业短视频平台上,为数亿用户提供服务。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
个性化交互式系统(例如推荐系统)需要选择取决于上下文的相关项目。生产系统需要从非常大的目录中迅速识别这些项目,这些目录可以使用最大的内部产品搜索技术有效地解决。通过放松离散问题,可以实现最大内部产品搜索的离线优化,从而导致政策学习或增强样式学习算法。不幸的是,这种放松步骤需要在整个目录上计算一个总和,从而使梯度评估的复杂性(因此每个随机梯度下降迭代)在目录大小中线性线性。在许多现实世界中,该计算是站不住脚的示例,例如大型目录推荐系统严重限制了该方法在实践中的实用性。在本文中,我们展示了如何产生这些政策学习算法的出色近似值,以对数与目录大小进行对数。我们的贡献是基于结合三个新颖想法的结合:对政策梯度,自我正常化的重要性采样估计器以及在训练时使用快速最大内部产品搜索的新蒙特卡洛估计。广泛的实验表明,我们的算法比幼稚的方法更快,但产生同样好的策略。
translated by 谷歌翻译
虚拟支持代理商已经普及,作为企业提供更好,更可访问的客户服务的一种方式。此域中的一些挑战包括模糊的用户查询以及更改支持主题和用户行为(非实用性)。但是,我们这样做可以访问用户提供的部分反馈(点击,调查和其他事件),这些反馈可以利用来改善用户体验。适应的学习技术,如上下文匪徒,是对这个问题设置的自然拟合。在本文中,我们讨论了Microsoft Virtual代理的上下文匪徒(CB)的实际实现。它包括基于神经线性匪徒(NLB)和基于多武装匪徒(MAB)集合的内容建议的意图消歧。我们的解决方案已部署到生产并改进了Microsoft虚拟代理的关键业务指标,由A / B实验确认。结果包括问题分辨率的相对增加12%,并且对人类运营商的升级相对减少超过4%。虽然我们目前的用例侧重于Intent消费歧义和支持机器人的上下文建议,但我们认为我们的方法可以扩展到其他域。
translated by 谷歌翻译
Current advances in recommender systems have been remarkably successful in optimizing immediate engagement. However, long-term user engagement, a more desirable performance metric, remains difficult to improve. Meanwhile, recent reinforcement learning (RL) algorithms have shown their effectiveness in a variety of long-term goal optimization tasks. For this reason, RL is widely considered as a promising framework for optimizing long-term user engagement in recommendation. Despite being a promising approach, the application of RL heavily relies on well-designed rewards, but designing rewards related to long-term user engagement is quite difficult. To mitigate the problem, we propose a novel paradigm, Preference-based Recommender systems (PrefRec), which allows RL recommender systems to learn from preferences about users' historical behaviors rather than explicitly defined rewards. Such preferences are easily accessible through techniques such as crowdsourcing, as they do not require any expert knowledge. With PrefRec, we can fully exploit the advantages of RL in optimizing long-term goals, while avoiding complex reward engineering. PrefRec uses the preferences to automatically train a reward function in an end-to-end manner. The reward function is then used to generate learning signals to train the recommendation policy. Furthermore, we design an effective optimization method for PrefRec, which uses an additional value function, expectile regression and reward model pre-training to improve the performance. Extensive experiments are conducted on a variety of long-term user engagement optimization tasks. The results show that PrefRec significantly outperforms previous state-of-the-art methods in all the tasks.
translated by 谷歌翻译
作为加强学习(RL)通过奖励信号铸造的基于会议或顺序推荐是一个有前途的研究方向,旨在最大化累积利润的推荐系统(RS)。然而,由于违规培训,巨大的动作空间和缺乏足够的奖励信号,RL算法中的RL算法直接使用RL算法是不切实际的。最近的RL用于RS试图通过结合RL和(自我)监督的连续学习来解决这些挑战的方法,但仍然遭受某些限制。例如,由于缺少负奖励信号,Q值的估计趋于向正值偏置。此外,Q值也大量取决于序列的特定时间戳。为了解决上述问题,我们提出了培训RL组件的负面采样策略,并将其与监督顺序学习结合起来。我们称这种方法监督负面Q-Learning(SNQN)。基于采样(否定)动作(项目),我们可以计算平均案例的积极动作的“优势”,这可以进一步用于学习监督的顺序部分的标准化重量。这导致了另一个学习框架:监督优势演员 - 评论家(SA2C)。我们使用四个最先进的顺序推荐模型实例化SNQN和SA2C,并在两个现实世界数据集中进行实验。实验结果表明,拟议的方法比最先进的监督方法和现有的自我监督的RL方法达到明显更好的性能。代码将是开放的。
translated by 谷歌翻译
大多数用于边缘计算的强化学习(RL)推荐系统必须在推荐选择期间同步,或者依赖于算法的未经警告拼凑集合。在这项工作中,我们构建了异步凝固策略梯度算法\ citep {kostas2020aSynchronchronous},为此问题提出了一个原则的解决方案。我们提出的算法类可以通过Internet分发,并实时地运行。当给定边缘无法响应具有足够速度的数据请求时,这不是问题;该算法旨在在边缘设置中函数和学习,网络问题是此设置的一部分。结果是一个原则性的理论地接地的RL算法,旨在分布在该异步环境中并学习。在这项工作中,我们详细描述了这种算法和建议的架构类,并且证明它们在异步设置中的实践中运行良好,即使网络质量降低。
translated by 谷歌翻译
This paper surveys the eld of reinforcement learning from a computer-science perspective. It is written to be accessible to researchers familiar with machine learning. Both the historical basis of the eld and a broad selection of current work are summarized. Reinforcement learning is the problem faced by an agent that learns behavior through trial-and-error interactions with a dynamic environment. The work described here has a resemblance to work in psychology, but di ers considerably in the details and in the use of the word \reinforcement." The paper discusses central issues of reinforcement learning, including trading o exploration and exploitation, establishing the foundations of the eld via Markov decision theory, learning from delayed reinforcement, constructing empirical models to accelerate learning, making use of generalization and hierarchy, and coping with hidden state. It concludes with a survey of some implemented systems and an assessment of the practical utility of current methods for reinforcement learning.
translated by 谷歌翻译
本文考虑如何为策略评估任务提供额外的数据收集,如何补充脱机强化学习(RL)数据。在政策评估中,任务是估计对兴趣环境的评估政策的预期回报。在离线策略评估上的事先工作通常仅考虑静态数据集。我们考虑一个设置,我们可以收集少量附加数据,以与潜在的更大的离线RL数据集组合。我们展示只需运行评估政策 - 策略数据收集 - 此设置是子最优。然后,我们介绍了两个新的数据收集策略进行策略评估,两者都考虑在收集未来数据时考虑先前收集的数据,以便在收集的整个数据集中减少分发班次(或采样错误)。我们的经验结果表明,与政策采样相比,我们的策略产生了具有较低采样误差的数据,并且通常导致任何总数据集大小的策略评估中的较低平均平方误差。我们还表明,这些策略可以从初始禁止策略数据开始,收集其他数据,然后使用初始和新数据来产生低均衡的错误策略评估,而无需使用脱策校正。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolutionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policybased methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
在本文中,我们为游戏制定了一个推荐系统,该游戏为基于他们的互动行为来说潜在的物品,以最大限度地为游戏提供商的收入最大限度地提高。我们的方法是基于强化学习的技术构建,并在IEEE大数据杯挑战上公开可用的离线数据集培训。离线数据集的限制和高维数的诅咒构成解决这个问题的重要障碍。我们所提出的方法侧重于通过解决这些主要困难来提高全面奖励和表现。更具体地,我们利用稀疏PCA来提取用户行为的重要特征。然后,我们的Q学习系统从已加工的离线数据集培训。要利用所提供的数据集中的所有可能的信息,我们将用户功能群集到不同的组,并为每个组构建一​​个独立的Q-table。此外,为了解决评估指标的未知公式的挑战,我们设计了根据游戏提供商可能实现的潜在价值和我们从Live评分环境获得的实际评估指标的小集合的潜在价值自我评估的公制。我们的实验表明,我们的拟议度量标准与挑战组织者发表的结果一致。我们已经实施了拟议的培训管道,结果表明,我们的方法在总奖励和训练速度方面优于当前最先进的方法。通过解决主要挑战并利用最先进的技术,我们已经取得了最佳的公共排行榜导致挑战。此外,我们所提出的方法达到估计得分约为20%,并且可以比当前最先进的方法的最佳最佳方法更快地培训30倍。
translated by 谷歌翻译
在上下文土匪中,非政策评估(OPE)已在现实世界中迅速采用,因为它仅使用历史日志数据就可以离线评估新政策。不幸的是,当动作数量较大时,现有的OPE估计器(其中大多数是基于反相反的得分加权)会严重降解,并且可能会遭受极端偏见和差异。这挫败了从推荐系统到语言模型的许多应用程序中使用OPE。为了克服这个问题,我们提出了一个新的OPE估计器,即当动作嵌入在动作空间中提供结构时,利用边缘化的重要性权重。我们表征了所提出的估计器的偏差,方差和平方平方误差,并分析了动作嵌入提供了比常规估计器提供统计益处的条件。除了理论分析外,我们还发现,即使由于大量作用,现有估计量崩溃,经验性绩效的改善也可以实现可靠的OPE。
translated by 谷歌翻译
在基于学术和行业的研究中,在线评估方法都被视为推荐系统等交互式应用程序的黄金标准。自然,这样做的原因是,我们可以直接测量依赖干预措施的实用程序指标,这是向用户显示的建议。然而,由于多种原因,在线评估方法是昂贵的,并且对于可靠的离线评估程序仍然存在明确的需求。在行业中,离线指标通常被用作一线评估,以生成有前途的候选模型来在线评估。在学术工作中,对在线系统的有限访问使离线指标是验证新方法的事实上的方法。存在两个类别的离线指标:基于代理的方法和反事实方法。头等舱通常与我们关心的在线指标相关,而后一类仅根据在现实世界中无法实现的假设提供理论保证。在这里,我们表明基于模拟的比较为离线指标提供了前进的方向,并认为它们是可取的评估手段。
translated by 谷歌翻译
我们考虑了顺序建议的问题,在每个步骤中,代理在每个步骤中都向用户提出了一些$ n $不同的项目,从较大的尺寸$ k >> n $的目录中。用户对建议有未知的偏好,并且代理采取顺序的操作,以优化(在我们的情况下最小化)一些与用户相关的成本,并在强化学习的帮助下。板岩的可能项目组合是$ \ binom {k} {n} $,这是一个巨大的数字渲染值迭代方法。我们证明,实际上只能使用每个州与$ K $相关的$ Q $功能分解Slate-MDP,以更紧凑,更有效的方式描述问题。基于此,我们提出了一种新颖的无模型SARSA和Q学习算法,该算法在没有任何以前的用户知识的情况下每步执行$ n $平行的迭代。我们称此方法\ texttt {slatefree},即免费封闭式,并以数字显示其收敛非常快,达到了任意用户配置文件的确切最佳,并且它优于文献中的替代方案。
translated by 谷歌翻译