推荐系统在塑造现代网络生态系统中起关键作用。这些系统在(1)提出建议之间交替(2)收集用户对这些建议的响应,以及(3)根据此反馈重新审判建议算法。在此过程中,推荐系统会影响随后用于更新它的用户行为数据,从而创建反馈循环。最近的工作表明,反馈循环可能会损害建议质量并使用户行为均匀,从而在部署推荐系统时提高道德和绩效问题。为了解决这些问题,我们提出了反馈循环(CAFL)的因果调整,该算法可证明使用因果推理打破反馈回路,并可以应用于优化培训损失的任何建议算法。我们的主要观察结果是,如果原因是因果量的原因,即推荐系统不会遭受反馈循环的影响,即对用户评级的建议分布。此外,我们可以通过调整推荐系统对用户偏好的预测来计算从观察数据中计算此干预分布。使用模拟环境,我们证明CAFL与先前的校正方法相比提高了建议质量。
translated by 谷歌翻译
传统的推荐系统旨在根据观察到的群体的评级估算用户对物品的评级。与所有观察性研究一样,隐藏的混乱,这是影响物品曝光和用户评级的因素,导致估计系统偏差。因此,推荐制度研究的新趋势是否定混杂者对因果视角的影响。观察到建议中的混淆通常是在物品中共享的,因此是多原因混淆,我们将推荐模拟为多原因多结果(MCMO)推理问题。具体而言,为了解决混淆偏见,我们估计渲染项目曝光独立伯努利试验的用户特定的潜变量。生成分布由具有分解逻辑似然性的DNN参数化,并且通过变分推理估计难治性后续。控制这些因素作为替代混淆,在温和的假设下,可以消除多因素混淆所产生的偏差。此外,我们表明MCMO建模可能导致由于与高维因果空间相关的稀缺观察而导致高方差。幸运的是,我们理论上证明了作为预处理变量的推出用户特征可以大大提高样本效率并减轻过度装箱。模拟和现实世界数据集的实证研究表明,建议的深度因果额外推荐者比艺术最先进的因果推荐人员对未观察到的混乱更具稳健性。代码和数据集在https://github.com/yaochenzhu/deep-deconf发布。
translated by 谷歌翻译
隐式反馈已被广泛用于构建商业推荐系统。由于观察到的反馈代表用户的点击日志,因此真实相关性和观察到的反馈之间存在语义差距。更重要的是,观察到的反馈通常偏向流行项目,从而高估了流行项目的实际相关性。尽管现有的研究使用反向倾向加权(IPW)或因果推理开发了公正的学习方法,但它们仅专注于消除项目的流行偏见。在本文中,我们提出了一种新颖的无偏建议学习模型,即双边自我非偏置推荐剂(Biser),以消除推荐模型引起的项目的暴露偏见。具体而言,双方由两个关键组成部分组成:(i)自我内向倾向加权(SIPW)逐渐减轻项目的偏见而不会产生高计算成本; (ii)双边无偏学习(BU),以弥合模型预测中两个互补模型之间的差距,即基于用户和项目的自动编码器,从而减轻了SIPW的较高差异。广泛的实验表明,Biser在几个数据集上始终优于最先进的无偏建议型号,包括外套,Yahoo! R3,Movielens和Citeulike。
translated by 谷歌翻译
因果图作为因果建模的有效和强大的工具,通常被假定为有向的无环图(DAG)。但是,推荐系统通常涉及反馈循环,该反馈循环定义为推荐项目的循环过程,将用户反馈纳入模型更新以及重复该过程。结果,重要的是将循环纳入因果图中,以准确地对推荐系统进行动态和迭代数据生成过程。但是,反馈回路并不总是有益的,因为随着时间的流逝,它们可能会鼓励越来越狭窄的内容暴露,如果无人看管的话,可能会导致回声室。结果,重要的是要了解何时会导致Echo Chambers以及如何减轻回声室而不会损害建议性能。在本文中,我们设计了一个带有循环的因果图,以描述推荐的动态过程。然后,我们采取马尔可夫工艺来分析回声室的数学特性,例如导致回声腔的条件。受理论分析的启发,我们提出了一个动态的因果协作过滤($ \ partial $ ccf)模型,该模型估算了用户基于后门调整的项目的干预后偏好,并通过反事实推理减轻了Echo Echo Chamber。在现实世界数据集上进行了多个实验,结果表明,我们的框架可以比其他最先进的框架更好地减轻回声室,同时通过基本建议模型实现可比的建议性能。
translated by 谷歌翻译
设计为与时间变化的偏好保持一致的内容的推荐系统需要正确地计算建议对人类行为和心理状况的反馈影响。我们认为,建模建议对人们偏好的影响必须基于心理合理的模型。我们为开发接地动态偏好模型提供了一种方法。我们通过模型来证明这种方法,这些模型从心理学文献中捕获了三种经典效果:裸露,操作条件和享乐调整。我们进行基于仿真的研究,以表明心理模型表现出可以为系统设计提供信息的不同行为。我们的研究对建议系统中的动态用户建模有两个直接影响。首先,我们概述的方法广泛适用于心理基础动态偏好模型。它使我们能够根据他们对心理基础及其难以置信的预测的有限讨论来批评最近的贡献。其次,我们讨论动态偏好模型对建议系统评估和设计的含义。在一个示例中,我们表明参与度和多样性指标可能无法捕获理想的建议系统性能。
translated by 谷歌翻译
这项工作研究了针对推荐系统的有偏见反馈中学习无偏算法的问题。我们从理论和算法的角度解决了这个问题。无偏学习的最新著作通过各种技术(例如元学习,知识蒸馏和信息瓶颈)推进了最新技术。尽管取得了经验成功,但大多数人缺乏理论保证,在理论和最近的算法之间形成了不可忽略的差距。为此,我们首先从分配转移的角度查看无偏见的推荐问题。我们理论上分析了公正学习的概括界限,并提出了它们与最近无偏学习目标的密切关系。基于理论分析,我们进一步提出了一个原则性的框架,对抗性自我训练(AST),以无偏见。对现实世界和半合成数据集的经验评估证明了拟议的AST的有效性。
translated by 谷歌翻译
如今,可以在许多电子商务平台上找到自动建议,并且此类建议可以为消费者和提供商创造巨大的价值。但是,通常并非所有推荐的物品都具有相同的利润率,因此,提供商可能会诱使促进最大化其利润的项目。在短期内,消费者可能会接受非最佳建议,但从长远来看,他们可能会失去信任。最终,这导致了设计平衡推荐策略的问题,这些策略既考虑消费者和提供商的价值,并带来持续的业务成功。这项工作提出了一个基于基于代理的建模的仿真框架,旨在帮助提供者探索不同推荐策略的纵向动态。在我们的模型中,消费者代理人收到了提供者的建议,并且建议的质量随着时间的推移影响消费者的信任。我们设计了几种推荐策略,可以使提供商的利润更大,或者对消费者公用事业。我们的模拟表明,一种混合​​策略会增加消费者公用事业的权重,但没有忽略盈利能力,从长远来看会导致累计利润最高。与纯粹的消费者或面向利润的策略相比,这种混合策略的利润增加了约20%。我们还发现,社交媒体可以加强观察到的现象。如果消费者严重依赖社交媒体,最佳战略的累积利润进一步增加。为了确保可重复性并培养未来的研究,我们将公开共享我们的灵活模拟框架。
translated by 谷歌翻译
推荐系统正面临审查,因为它们对我们可以获得的机会的影响越来越大。目前对公平的审计仅限于敏感群体水平的粗粒度评估。我们建议审核嫉妒 - 狂喜,一个与个别偏好对齐的更精细的标准:每个用户都应该更喜欢他们的建议给其他用户的建议。由于审计要求估计用户超出现有建议的用户的偏好,因此我们将审计作为多武装匪徒的新纯粹探索问题。我们提出了一种采样的效率算法,具有理论上的保证,它不会恶化用户体验。我们还研究了现实世界推荐数据集实现的权衡。
translated by 谷歌翻译
历史互动是推荐模型培训的默认选择,通常表现出高稀疏性,即大多数用户项目对都是未观察到的缺失数据。标准选择是将缺失的数据视为负训练样本,并估计用户项目对之间的相互作用以及观察到的相互作用。通过这种方式,在训练过程中不可避免地会误标记一些潜在的互动,这将损害模型的保真度,阻碍模型回忆起错误标签的项目,尤其是长尾尾。在这项工作中,我们从新的不确定性的新角度研究了标签的问题,该问题描述了缺失数据的固有随机性。随机性促使我们超越了相互作用的可能性,并接受了不确定性建模。为此,我们提出了一个新的不确定性不确定性建议(AUR)框架,该框架由新的不确定性估计器以及正常的推荐模型组成。根据核心不确定性理论,我们得出了一个新的建议目标来学习估计量。由于错误标签的机会反映了一对的潜力,因此AUR根据不确定性提出了建议,该建议被证明是为了改善较不受欢迎的项目的建议性能而不会牺牲整体性能。我们在三个代表性推荐模型上实例化AUR:来自主流模型体系结构的矩阵分解(MF),LightGCN和VAE。两个现实世界数据集的广泛结果验证了AUR W.R.T.的有效性。更好的建议结果,尤其是在长尾项目上。
translated by 谷歌翻译
基于用户交互数据的优化推荐系统主要被视为处理选择偏差的问题,其中大多数现有工作都假设来自不同用户的交互是独立的。但是,已经表明,实际上用户反馈通常受到其他用户的早期交互的影响,例如通过平均评分,每项项目的视图或销售量等。这种现象被称为潮流效应。与以前的文献相反,我们认为潮流效应不应被视为统计偏见的问题。实际上,我们证明了这种效果使单个相互作用及其样本平均无偏见。然而,我们表明它可以使估计量不一致,从而引入了一系列与相关性估计的融合的不同问题。我们的理论分析研究了潮流效应提出一致性问题的条件,并探讨了减轻这些问题的几种方法。这项工作旨在表明,潮流效应带来了一个不足的开放问题,从根本上讲,这与建议的选择偏见从根本上截然不同。
translated by 谷歌翻译
建议制度,依靠历史观察数据来模仿用户和物品之间的复杂关系,取得了巨大的成功,在现实世界中取得了巨大的成功。选择偏见是现有的现有观测数据基于方法的最重要问题之一,其实际上是由多种类型的不观察室的暴露策略引起的(例如促销和假期效应)。虽然已经提出了各种方法来解决这个问题,但它们主要依赖于隐含的脱叠技术,但没有明确建立未观察的曝光策略。通过明确重建曝光策略(简称休息),我们将推荐问题正式化为反事实推理,并提出了脱叠的社会推荐方法。在休息时,我们假设项目的曝光由潜在曝光策略,用户和项目控制。基于上述生成过程,首先通过识别分析提供我们方法的理论保证。其次,在社交网络和项目的帮助下,我们采用了变分自动编码器来重建潜在的曝光策略。第三,我们通过利用回收的曝光策略制定基于反事实推理的建议算法。四个现实世界数据集的实验,包括三个已发布的数据集和一个私人微信官方帐户数据集,展示了几种最先进的方法的显着改进。
translated by 谷歌翻译
推荐系统在市场中使用时发挥了双重作用:它们可以帮助用户从大型游泳池中选择最需要的物品,并有助于将有限数量的物品分配给最想要它们的用户。尽管在许多现实世界中的推荐设置中,能力限制的流行率普遍存在,但缺乏将它们纳入这些系统设计的原则性方式。在此激励的情况下,我们提出了一个交互式框架,系统提供商可以通过机会主义探索分配来提高向用户的建议质量,从而最大程度地利用用户奖励并使用适当的定价机制尊重容量约束。我们将问题建模为低排名组合的多臂匪徒问题的实例,并在手臂上进行了选择约束。我们采用一种集成方法,使用协作过滤,组合匪徒和最佳资源分配中的技术,以提供一种算法,可证明可以实现次线性遗憾,即$ \ tilde {\ mathcal {\ sqrt {o}}(\ sqrt {\ sqrt {n+m(n+m){n+m(n+m) )rt})$ in $ t $ rounds,用于$ n $用户,$ m $项目和排名$ r $ ney奖励矩阵的问题。关于合成和现实世界数据的实证研究也证明了我们方法的有效性和性能。
translated by 谷歌翻译
工业推荐系统处理极大的行动空间 - 许多数百万的项目推荐。此外,他们需要为数十亿用户服务,他们在任何时间点都是独一无止的,制作复杂的用户状态空间。幸运的是,可以学习大量记录的隐式反馈(例如,用户点击,停留时间)。然而,从记录的反馈中学习,才受到仅通过以前版本的推荐器选择的建议的反馈而导致的偏差。在这项工作中,我们展示了在YouTube的生产Top-K推荐系统中解决此类偏差的一般配方,以策略梯度为基础的算法,即加强。本文的贡献是:(1)缩放到生产推荐系统,以数百万的订单为行动空间; (2)申请违规纠正以解决从多种行为策略收集的记录反馈中学习数据偏差; (3)提出新的Top-K违规纠正,以占我们的政策一次推荐多个项目; (4)展示勘探的价值。我们展示了我们通过一系列模拟和youtube上的多个实时实验的方法。
translated by 谷歌翻译
我们介绍了概率等级和奖励模型(PRR),这是一个可扩展的概率模型,用于个性化的Slate建议。我们的模型允许在以下无处不在的推荐系统方案中对用户兴趣的最新估计:向用户显示了k个建议的板岩,用户最多可以选择这些K项目中的一个。推荐系统的目标是找到用户最感兴趣的K项目,以最大程度地提高用户与Slate交互的可能性。我们的贡献是表明,我们可以通过结合奖励(无论是否单击板岩,以及等级)而更有效地学习建议成功的可能性。我们的方法比仅使用奖励和仅使用等级的用户偏好方法的盗销方法更有效地学习。它还提供了与独立的逆点分数方法相似或更好的估计性能,并且更可扩展。我们的方法是在大量数据集中的速度和准确性方面的最高速度,最多100万个项目。最后,我们的方法允许快速交付由最大内部产品搜索(MIPS)提供动力的建议,使其适用于极低的延迟域,例如计算广告。
translated by 谷歌翻译
Large-scale online recommendation systems must facilitate the allocation of a limited number of items among competing users while learning their preferences from user feedback. As a principled way of incorporating market constraints and user incentives in the design, we consider our objectives to be two-fold: maximal social welfare with minimal instability. To maximize social welfare, our proposed framework enhances the quality of recommendations by exploring allocations that optimistically maximize the rewards. To minimize instability, a measure of users' incentives to deviate from recommended allocations, the algorithm prices the items based on a scheme derived from the Walrasian equilibria. Though it is known that these equilibria yield stable prices for markets with known user preferences, our approach accounts for the inherent uncertainty in the preferences and further ensures that the users accept their recommendations under offered prices. To the best of our knowledge, our approach is the first to integrate techniques from combinatorial bandits, optimal resource allocation, and collaborative filtering to obtain an algorithm that achieves sub-linear social welfare regret as well as sub-linear instability. Empirical studies on synthetic and real-world data also demonstrate the efficacy of our strategy compared to approaches that do not fully incorporate all these aspects.
translated by 谷歌翻译
Decias的推荐模型最近引起了学术和行业社区的越来越多的关注。现有模型主要基于反向倾向得分(IPS)的技术。但是,在建议域中,鉴于观察到的用户项目暴露数据的稀疏性质和嘈杂性,IP很难估算。为了缓解这个问题,在本文中,我们假设用户偏好可以由少量潜在因素主导,并建议通过增加曝光密度来集群用户以计算更准确的IPS。基本上,这种方法与应用统计的分层模型的精神相似。但是,与以前的启发式分层策略不同,我们通过向用户呈现低级嵌入的用户来学习群集标准,这是建议模型中的用户表示未来。最后,我们发现我们的模型与前两种类型的Debias推荐模型有牢固的联系。我们基于实际数据集进行了广泛的实验,以证明该方法的有效性。
translated by 谷歌翻译
推荐系统通常会从各种用户行为中学习用户兴趣,包括点击和点击后行为(例如,喜欢和喜欢)。但是,这些行为不可避免地表现出受欢迎程度的偏见,从而导致一些不公平的问题:1)对于具有相似质量,更受欢迎的物品的物品会获得更多的曝光; 2)更糟糕的是,受欢迎程度较低的流行物品可能会获得更多的曝光率。现有关于缓解流行偏见的工作会盲目消除偏见,通常忽略项目质量的影响。我们认为,不同用户行为(例如,转换率)之间的关系实际上反映了项目质量。因此,为了处理不公平的问题,我们建议通过考虑多种用户行为来减轻流行性偏见。在这项工作中,我们研究了多行为推荐中相互作用生成过程背后的因果关系。具体来说,我们发现:1)项目受欢迎程度是暴露的项目和用户的点击交互之间的混杂因素,导致第一个不公平; 2)一些隐藏的混杂因素(例如,项目生产者的声誉)影响了项目的流行和质量,导致第二次不公平。为了减轻这些混杂问题,我们提出了一个因果框架来估计因果效应,该因果效应利用后门调整以阻止混杂因素引起的后门路径。在推论阶段,我们消除了受欢迎程度的负面影响,并利用质量的良好效果进行推荐。在两个现实世界数据集上的实验验证了我们提出的框架的有效性,这在不牺牲建议准确性的情况下增强了公平性。
translated by 谷歌翻译
多臂匪徒(MAB)提供了一种原则性的在线学习方法,以达到探索和剥削之间的平衡。由于表现出色和反馈学习低,没有学习在多种情况下采取行动,因此多臂匪徒在诸如推荐系统等应用程序中引起了广泛的关注。同样,在推荐系统中,协作过滤(CF)可以说是推荐系统中最早,最具影响力的方法。至关重要的是,新用户和不断变化的推荐项目池是推荐系统需要解决的挑战。对于协作过滤,经典方法是训练模型离线,然后执行在线测试,但是这种方法无法再处理用户偏好的动态变化,即所谓的冷启动。那么,如何在没有有效信息的情况下有效地向用户推荐项目?为了解决上述问题,已经提出了一个基于多臂强盗的协作过滤推荐系统,名为BanditMF。 BANDITMF旨在解决多军强盗算法和协作过滤中的两个挑战:(1)如何在有效信息稀缺的条件下解决冷启动问题以进行协作过滤,(2)强大社会关系域中的强盗算法问题是由独立估计与每个用户相关的未知参数并忽略用户之间的相关性引起的。
translated by 谷歌翻译
最近提出的协作度量学习(CML)范式由于其简单性和有效性引起了人们对推荐系统(RS)领域的广泛兴趣。通常,CML的现有文献在很大程度上取决于\ textit {负抽样}策略,以减轻成对计算的耗时负担。但是,在这项工作中,通过进行理论分析,我们发现负抽样会导致对概括误差的偏差估计。具体而言,我们表明,基于抽样的CML将在概括性结合中引入一个偏差项,该术语是由per-use \ textit {total方差}(TV)量化的,在负面采样和地面真相分布引起的分布之间。这表明,即使有足够大的训练数据,优化基于采样的CML损耗函数也不能确保小概括误差。此外,我们表明偏见术语将消失,而无需负面抽样策略。在此激励的情况下,我们提出了一种有效的替代方案,而没有对CML进行负面采样的cml,name \ textit {无抽样协作度量学习}(SFCML),以消除实际意义上的采样偏见。最后,超过七个基准数据集的全面实验表达了所提出的算法的优势。
translated by 谷歌翻译
Recommender systems provide users with personalized suggestions for products or services. These systems often rely on Collaborating Filtering (CF), where past transactions are analyzed in order to establish connections between users and products. The two more successful approaches to CF are latent factor models, which directly profile both users and products, and neighborhood models, which analyze similarities between products or users. In this work we introduce some innovations to both approaches. The factor and neighborhood models can now be smoothly merged, thereby building a more accurate combined model. Further accuracy improvements are achieved by extending the models to exploit both explicit and implicit feedback by the users. The methods are tested on the Netflix data. Results are better than those previously published on that dataset. In addition, we suggest a new evaluation metric, which highlights the differences among methods, based on their performance at a top-K recommendation task.
translated by 谷歌翻译