当不可用的数据不可用时,在电子商务行业中通常使用强盗算法来培训机器学习(ML)系统。但是,行业的设置提出了各种挑战,使实践中实施强盗算法的挑战是非平凡的。在本文中,我们详细阐述了非政策优化,延迟奖励,概念漂移,奖励设计和业务规则限制的挑战。我们的主要贡献是对开放匪徒(OBP)框架的扩展。我们为一些上述挑战提供模拟组件,以使未来的从业者,研究人员和教育工作者提供资源,以应对电子商务行业遇到的挑战。
translated by 谷歌翻译
强化学习进行推荐和实验的现实应用面临实际挑战:不同匪徒的相对奖励可以在学习代理的一生中发展。要处理这些非机构案件,代理商必须忘记一些历史知识,因为它可能不再与最小化的遗憾有关。我们提出了一种处理非平稳性的解决方案,该解决方案适合于大规模部署,以向业务运营商提供自动适应性优化。我们的解决方案旨在提供可解释的学习,这些学习可以被人类信任,同时响应非平稳性以最大程度地减少遗憾。为此,我们开发了一种自适应的贝叶斯学习代理,该学习者采用了一种新型的动态记忆形式。它可以通过统计假设检验来实现可解释性,通过在比较奖励并动态调整其内存以实现此功能时,通过统计能力的设定点来实现统计能力的设定点。根据设计,代理对不同种类的非平稳性不可知。使用数值模拟,我们将其绩效与现有提案进行比较,并表明在多个非平稳场景下,我们的代理人正确地适应了真实奖励的实际变化。在所有强盗解决方案中,学习和实现最大表现之间都有明确的权衡。与另一种类似强大的方法相比,我们的解决方案在此权衡方面的一个不同点:我们优先考虑可解释性,这依靠更多的学习,而付出了一些遗憾。我们描述了自动优化的大规模部署的体系结构,即服务,我们的代理商在适应不断变化的情况的同时可以实现可解释性。
translated by 谷歌翻译
Thompson sampling is one of oldest heuristic to address the exploration / exploitation trade-off, but it is surprisingly unpopular in the literature. We present here some empirical results using Thompson sampling on simulated and real data, and show that it is highly competitive. And since this heuristic is very easy to implement, we argue that it should be part of the standard baselines to compare against.
translated by 谷歌翻译
在潜在的强盗问题中,学习者可以访问奖励分布,并且 - 对于非平稳的变体 - 环境的过渡模型。奖励分布在手臂和未知的潜在状态下进行条件。目的是利用奖励历史来识别潜在状态,从而使未来的武器选择最佳。潜在的匪徒设置将自己适用于许多实际应用,例如推荐人和决策支持系统,其中丰富的数据允许在线学习的环境模型的离线估算仍然是关键组成部分。在这种情况下,以前的解决方案始终根据代理商对国家的信念选择最高的奖励组,而不是明确考虑信息收集臂的价值。这种信息收集的武器不一定会提供最高的奖励,因此永远不会选择始终选择最高奖励武器的代理商选择。在本文中,我们提出了一种潜在土匪信息收集的方法。鉴于特殊的奖励结构和过渡矩阵,我们表明,鉴于代理商对国家的信念,选择最好的手臂会产生更高的遗憾。此外,我们表明,通过仔细选择武器,我们可以改善对国家分布的估计,从而通过将来通过更好的手臂选择来降低累积后悔。我们在合成和现实世界数据集上评估了我们的方法,显示出对最新方法的遗憾显着改善。
translated by 谷歌翻译
考虑在线学习算法同时做出决策并从反馈中学习。此类算法被广泛部署在产品和数字内容的推荐系统中。本文展示了在线学习算法偏见的偏低替代方案,以及它如何塑造建议系统的需求。首先,我们考虑$ k $武装的土匪。我们证明,$ \ varepsilon $ - 果岭选择一个无风险的手臂,而不是一个具有均等预期奖励的风险臂,概率是任意接近一个的概率。这是对不良奖励估计的武器采样的结果。通过实验,我们表明其他在线学习算法也表现出风险规避。在推荐系统环境中,我们表明,该算法对用户的嘈杂奖励减少的内容受到算法的青睐。结合使战略内容创建者朝着相似的预期质量的内容驱动战略性创建者的平衡力,对内容的优势不一定更好,挥发性较小,被夸大了。
translated by 谷歌翻译
富达匪徒问题是$ k $的武器问题的变体,其中每个臂的奖励通过提供额外收益的富达奖励来增强,这取决于播放器如何对该臂进行“忠诚”在过去。我们提出了两种忠诚的模型。在忠诚点模型中,额外奖励的数量取决于手臂之前播放的次数。在订阅模型中,额外的奖励取决于手臂的连续绘制的当前数量。我们考虑随机和对抗问题。由于单臂策略在随机问题中并不总是最佳,因此对抗性环境中遗憾的概念需要仔细调整。我们介绍了三个可能的遗憾和调查,这可以是偏执的偏执。我们详细介绍了增加,减少和优惠券的特殊情况(玩家在手臂的每辆M $播放后获得额外的奖励)保真奖励。对于不一定享受载体遗憾的模型,我们提供了最糟糕的下限。对于那些展示Sublinear遗憾的模型,我们提供算法并绑定他们的遗憾。
translated by 谷歌翻译
本文介绍了一种新型的非平稳动态定价算法设计,定价代理面临不完整的需求信息和市场环境转移。代理商进行了价格实验,以了解每种产品的需求曲线和最大化价格,同时意识到市场环境的变化,以避免提供次优价的高机会成本。拟议的酸P扩展了来自统计机器学习的信息指导的采样(IDS)算法,以包括微观经济选择理论,并采用新颖的定价策略审核程序,以避免在市场环境转移后避免次优定价。拟议的酸P在一系列市场环境变化中胜过包括上置信度结合(UCB)和汤普森采样(TS)在内的匪徒算法。
translated by 谷歌翻译
我们考虑了一个特殊的强盗问题,即批量炸匪。通过推荐制度和电子商务平台的自然限制,我们假设学习代理观察在一定时间内在分组中分批的响应。与以前的工作不同,我们考虑一个更实际相关的批量学习场景。我们为候选政策的遗憾提供了政策 - 不可知的遗憾分析,并展示上下界限。我们的主要理论结果表明,批量学习的影响可以根据在线行为来衡量。最后,我们通过进行经验实验并反映最佳批量尺寸选择来证明理论结果的一致性。
translated by 谷歌翻译
我们考虑了一个特殊的匪徒问题的情况,即批处理匪徒,其中代理在一定时间段内观察批次的响应。与以前的工作不同,我们考虑了一个更实际相关的以批量学习为中心的情况。也就是说,我们提供了政策不足的遗憾分析,并为候选政策的遗憾展示了上和下限。我们的主要理论结果表明,批处理学习的影响是相对于在线行为的遗憾,批处理大小的多重因素。首先,我们研究了随机线性匪徒的两个设置:有限且无限多手臂的土匪。尽管两种设置的遗憾界限都是相同的,但前者的设置结果在温和的假设下保持。另外,我们为2臂匪徒问题作为重要见解提供了更强大的结果。最后,我们通过进行经验实验并反思最佳批量选择来证明理论结果的一致性。
translated by 谷歌翻译
由于其可扩展性,两阶段推荐人被今天的许多最大的在线平台使用,包括YouTube,Linkedin和Pinterest。这些系统以两个步骤产生建议:(i)多个提名者调整为低预测延迟,从整个项目池中预先选择一个小候选者的小组; (ii)较慢但更准确的排名进一步缩小指定项目,并为用户服务。尽管他们受欢迎,但两级推荐人的文献相对稀缺,算法经常被视为他们的部分的总和。这种治疗假定了通过单独组分的行为解释了两级性能。事实并非如此:使用综合性和现实世界数据,我们证明了排名人员和提名人之间的互动大大影响了整体性能。通过这些调查结果,我们推出了概括下限,表明独立提名培训可能导致均匀随机建议的表现。我们发现,仔细设计项目池,每个项目池分配给不同的提名人,减轻了这些问题。随着手动搜索良好的池分配很难,我们建议使用基于专家的混合方法来学习一个。这显着改善了K的精度和召回。
translated by 谷歌翻译
工业推荐系统处理极大的行动空间 - 许多数百万的项目推荐。此外,他们需要为数十亿用户服务,他们在任何时间点都是独一无止的,制作复杂的用户状态空间。幸运的是,可以学习大量记录的隐式反馈(例如,用户点击,停留时间)。然而,从记录的反馈中学习,才受到仅通过以前版本的推荐器选择的建议的反馈而导致的偏差。在这项工作中,我们展示了在YouTube的生产Top-K推荐系统中解决此类偏差的一般配方,以策略梯度为基础的算法,即加强。本文的贡献是:(1)缩放到生产推荐系统,以数百万的订单为行动空间; (2)申请违规纠正以解决从多种行为策略收集的记录反馈中学习数据偏差; (3)提出新的Top-K违规纠正,以占我们的政策一次推荐多个项目; (4)展示勘探的价值。我们展示了我们通过一系列模拟和youtube上的多个实时实验的方法。
translated by 谷歌翻译
亚马逊客户服务每年为数百万客户联系提供实时支持。尽管Bot-Resolver有助于自动化一些流量,但我们仍然看到对人类代理商的需求很高,也称为主题专家(SME)。客户在不同域中的问题(返回策略,设备故障排除等)进行宣传。根据他们的培训,并非所有中小型企业都有资格处理所有联系人。与合格的中小型企业的路由联系是一个非平凡的问题,因为中小企业的域名资格受训练质量的影响,并且可以随着时间的推移而改变。为了在同时学习真正的资格状态的同时,我们建议使用非参数上下文的强盗算法(K-Boot)以及资格控制(EC)算法来制定路由问题。 K-Boot模型以$ K $ -NN选择的类似样品和Bootstrap Thompson采样进行探索,并以类似的样本进行奖励。 EC通过最初符合系统的资格过滤武器(SME),并动态验证该信息的可靠性。提出的K-boot是一种通用匪徒算法,EC适用于其他土匪。我们的仿真研究表明,K-boot在最新的匪徒模型上进行性能,并且当存在随机弹性信号时,EC会提高K-Boot性能。
translated by 谷歌翻译
In an era of countless content offerings, recommender systems alleviate information overload by providing users with personalized content suggestions. Due to the scarcity of explicit user feedback, modern recommender systems typically optimize for the same fixed combination of implicit feedback signals across all users. However, this approach disregards a growing body of work highlighting that (i) implicit signals can be used by users in diverse ways, signaling anything from satisfaction to active dislike, and (ii) different users communicate preferences in different ways. We propose applying the recent Interaction Grounded Learning (IGL) paradigm to address the challenge of learning representations of diverse user communication modalities. Rather than taking a fixed, human-designed reward function, IGL is able to learn personalized reward functions for different users and then optimize directly for the latent user satisfaction. We demonstrate the success of IGL with experiments using simulations as well as with real-world production traces.
translated by 谷歌翻译
We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $\Omega(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.
translated by 谷歌翻译
虚拟支持代理商已经普及,作为企业提供更好,更可访问的客户服务的一种方式。此域中的一些挑战包括模糊的用户查询以及更改支持主题和用户行为(非实用性)。但是,我们这样做可以访问用户提供的部分反馈(点击,调查和其他事件),这些反馈可以利用来改善用户体验。适应的学习技术,如上下文匪徒,是对这个问题设置的自然拟合。在本文中,我们讨论了Microsoft Virtual代理的上下文匪徒(CB)的实际实现。它包括基于神经线性匪徒(NLB)和基于多武装匪徒(MAB)集合的内容建议的意图消歧。我们的解决方案已部署到生产并改进了Microsoft虚拟代理的关键业务指标,由A / B实验确认。结果包括问题分辨率的相对增加12%,并且对人类运营商的升级相对减少超过4%。虽然我们目前的用例侧重于Intent消费歧义和支持机器人的上下文建议,但我们认为我们的方法可以扩展到其他域。
translated by 谷歌翻译
这项调查旨在全面概述用户与推荐系统之间的相互作用和M&S应用程序之间的相互作用的最新趋势(M&S),以改善工业推荐引擎的性能。我们从实施模拟器的框架开发的动机开始,以及它们用于培训和测试不同类型(包括强化学习)的推荐系统的使用。此外,我们根据现有模拟器的功能,认可和工业有效性提供了新的一致分类,并总结了研究文献中发现的模拟器。除其他事情外,我们还讨论了模拟器的构建块:合成数据(用户,项目,用户项目响应)的生成,用于模拟质量评估的方法和数据集(包括监视的方法)和/或关闭可能的模拟到现实差距),以及用于汇总实验仿真结果的方法。最后,这项调查考虑了该领域的新主题和开放问题。
translated by 谷歌翻译
在古典语境匪徒问题中,在每轮$ t $,学习者观察一些上下文$ c $,选择一些动作$ i $执行,并收到一些奖励$ r_ {i,t}(c)$。我们考虑此问题的变体除了接收奖励$ r_ {i,t}(c)$之外,学习者还要学习其他一些上下文$的$ r_ {i,t}(c')$的值C'$ in设置$ \ mathcal {o} _i(c)$;即,通过在不同的上下文下执行该行动来实现的奖励\ mathcal {o} _i(c)$。这种变体出现在若干战略设置中,例如学习如何在非真实的重复拍卖中出价,最热衷于随着许多平台转换为运行的第一价格拍卖。我们将此问题称为交叉学习的上下文匪徒问题。古典上下围匪徒问题的最佳算法达到$ \ tilde {o}(\ sqrt {ckt})$遗憾针对所有固定策略,其中$ c $是上下文的数量,$ k $的行动数量和$ $次数。我们设计并分析了交叉学习的上下文匪徒问题的新算法,并表明他们的遗憾更好地依赖上下文的数量。在选择动作时学习所有上下文的奖励的完整交叉学习下,即设置$ \ mathcal {o} _i(c)$包含所有上下文,我们显示我们的算法实现后悔$ \ tilde {o}( \ sqrt {kt})$,删除$ c $的依赖。对于任何其他情况,即在部分交叉学习下,$ | \ mathcal {o} _i(c)| <c $ for $(i,c)$,遗憾界限取决于如何设置$ \ mathcal o_i(c)$影响上下文之间的交叉学习的程度。我们从Ad Exchange运行一流拍卖的广告交换中模拟了我们的真实拍卖数据的算法,并表明了它们优于传统的上下文强盗算法。
translated by 谷歌翻译
可以将相当多的现实问题提出为决策问题,其中必须反复从一组替代方案中做出适当的选择。多次专家判断,无论是人为的还是人为的,都可以帮助做出正确的决定,尤其是在探索替代解决方案的昂贵时。由于专家意见可能会偏离,因此可以通过汇总独立判断来解决找到正确的替代方案的问题作为集体决策问题(CDM)。当前的最新方法集中于有效地找到最佳专家,因此如果所有专家均不合格或过于偏见,则表现不佳,从而可能破坏决策过程。在本文中,我们提出了一种基于上下文多臂匪徒问题(CMAB)的新算法方法,以识别和抵消这种偏见的专业知识。我们探索同质,异质和两极分化的专家小组,并表明这种方法能够有效利用集体专业知识,优于最先进的方法,尤其是当提供的专业知识质量降低时。我们的新型CMAB启发方法实现了更高的最终表现,并且在收敛的同时比以前的自适应算法更快。
translated by 谷歌翻译
我们研究了一个顺序决策问题,其中学习者面临$ k $武装的随机匪徒任务的顺序。对手可能会设计任务,但是对手受到限制,以在$ m $ and的较小(但未知)子集中选择每个任务的最佳组。任务边界可能是已知的(强盗元学习设置)或未知(非平稳的强盗设置)。我们设计了一种基于Burnit subsodular最大化的减少的算法,并表明,在大量任务和少数最佳武器的制度中,它在两种情况下的遗憾都比$ \ tilde {o}的简单基线要小。 \ sqrt {knt})$可以通过使用为非平稳匪徒问题设计的标准算法获得。对于固定任务长度$ \ tau $的强盗元学习问题,我们证明该算法的遗憾被限制为$ \ tilde {o}(nm \ sqrt {m \ tau}+n^{2/3} m \ tau)$。在每个任务中最佳武器的可识别性的其他假设下,我们显示了一个带有改进的$ \ tilde {o}(n \ sqrt {m \ tau}+n^{1/2} {1/2} \ sqrt的强盗元学习算法{m k \ tau})$遗憾。
translated by 谷歌翻译
我们研究了在偏见的可观察性模型下,在对抗性匪徒问题中的在线学习问题,称为政策反馈。在这个顺序决策问题中,学习者无法直接观察其奖励,而是看到由另一个未知策略并行运行的奖励(行为策略)。学习者必须在这种情况下面临另一个挑战:由于他们的控制之外的观察结果有限,学习者可能无法同样估算每个政策的价值。为了解决这个问题,我们提出了一系列算法,以保证任何比较者政策与行为政策之间的自然不匹配概念的范围,从而提高了对观察结果良好覆盖的比较者的绩效。我们还为对抗性线性上下文匪徒的设置提供了扩展,并通过一组实验验证理论保证。我们的关键算法想法是调整最近在非政策强化学习背景下流行的悲观奖励估计量的概念。
translated by 谷歌翻译