单击后键盘转换为指示用户偏好的强信号,是构建推荐系统的良性。但是,由于选择偏差,即,观察到的单击事件通常会发生在用户的首选项目,准确地估计点击后击率(CVR)是具有挑战性的。目前,大多数现有方法利用反事实学习到Debias推荐系统。其中,双重稳健(DR)估计器通过以双重稳健的方式组合基于误差估算的(EIB)估计和逆倾向分数(IPS)估计来实现竞争性能。然而,不准确的误差估算可能导致其比IPS估计器更高的方差。更糟糕的是,现有方法通常使用简单的模型 - 不可知方法来估计归纳错误,这不足以近似于近似于动态改变的模型相关目标(即预测模型的梯度方向)。为了解决这些问题,我们首先导出DR估算器的偏差和方差。基于它,已经提出了一种更强大的双重稳健(MRDR)估计器,以进一步降低其差异,同时保持其双重稳健性。此外,我们为MRDR估算器提出了一种新的双重学习方法,可以将误差归纳转换为一般的CVR估计。此外,我们经验验证所提出的学习方案可以进一步消除估算学习的高方差问题。为了评估其有效性,在半合成数据集和两个现实世界数据集上进行了广泛的实验。结果证明了所提出的方法的优越性在最先进的方法中。代码可在https://github.com/guosyjlu/mrdr-dl上获得。
translated by 谷歌翻译
在推荐系统中,一个常见的问题是收集到的数据中存在各种偏见,这会恶化推荐模型的概括能力,并导致预测不准确。在RS的许多任务中都研究了双重鲁棒(DR)学习,其优势是,当单个插补或单个倾向模型准确时,可以实现公正的学习。在本文中,我们提出了一个多重鲁棒(MR)估计量,该估计量可以利用多个候选的插补和倾向模型来实现无偏见。具体而言,当任何插补或倾向模型或这些模型的线性组合都是准确的时,MR估计器是公正的。理论分析表明,提出的MR是仅具有单个插补和倾向模型的DR的增强版本,并且具有较小的偏见。受到MR的概括误差的启发,我们进一步提出了一种新型的多重健壮学习方法,并稳定。我们对现实世界和半合成数据集进行了广泛的实验,这些实验证明了所提出的方法比最先进的方法的优越性。
translated by 谷歌翻译
隐式反馈已被广泛用于构建商业推荐系统。由于观察到的反馈代表用户的点击日志,因此真实相关性和观察到的反馈之间存在语义差距。更重要的是,观察到的反馈通常偏向流行项目,从而高估了流行项目的实际相关性。尽管现有的研究使用反向倾向加权(IPW)或因果推理开发了公正的学习方法,但它们仅专注于消除项目的流行偏见。在本文中,我们提出了一种新颖的无偏建议学习模型,即双边自我非偏置推荐剂(Biser),以消除推荐模型引起的项目的暴露偏见。具体而言,双方由两个关键组成部分组成:(i)自我内向倾向加权(SIPW)逐渐减轻项目的偏见而不会产生高计算成本; (ii)双边无偏学习(BU),以弥合模型预测中两个互补模型之间的差距,即基于用户和项目的自动编码器,从而减轻了SIPW的较高差异。广泛的实验表明,Biser在几个数据集上始终优于最先进的无偏建议型号,包括外套,Yahoo! R3,Movielens和Citeulike。
translated by 谷歌翻译
这项工作研究了针对推荐系统的有偏见反馈中学习无偏算法的问题。我们从理论和算法的角度解决了这个问题。无偏学习的最新著作通过各种技术(例如元学习,知识蒸馏和信息瓶颈)推进了最新技术。尽管取得了经验成功,但大多数人缺乏理论保证,在理论和最近的算法之间形成了不可忽略的差距。为此,我们首先从分配转移的角度查看无偏见的推荐问题。我们理论上分析了公正学习的概括界限,并提出了它们与最近无偏学习目标的密切关系。基于理论分析,我们进一步提出了一个原则性的框架,对抗性自我训练(AST),以无偏见。对现实世界和半合成数据集的经验评估证明了拟议的AST的有效性。
translated by 谷歌翻译
推荐系统通常会从各种用户行为中学习用户兴趣,包括点击和点击后行为(例如,喜欢和喜欢)。但是,这些行为不可避免地表现出受欢迎程度的偏见,从而导致一些不公平的问题:1)对于具有相似质量,更受欢迎的物品的物品会获得更多的曝光; 2)更糟糕的是,受欢迎程度较低的流行物品可能会获得更多的曝光率。现有关于缓解流行偏见的工作会盲目消除偏见,通常忽略项目质量的影响。我们认为,不同用户行为(例如,转换率)之间的关系实际上反映了项目质量。因此,为了处理不公平的问题,我们建议通过考虑多种用户行为来减轻流行性偏见。在这项工作中,我们研究了多行为推荐中相互作用生成过程背后的因果关系。具体来说,我们发现:1)项目受欢迎程度是暴露的项目和用户的点击交互之间的混杂因素,导致第一个不公平; 2)一些隐藏的混杂因素(例如,项目生产者的声誉)影响了项目的流行和质量,导致第二次不公平。为了减轻这些混杂问题,我们提出了一个因果框架来估计因果效应,该因果效应利用后门调整以阻止混杂因素引起的后门路径。在推论阶段,我们消除了受欢迎程度的负面影响,并利用质量的良好效果进行推荐。在两个现实世界数据集上的实验验证了我们提出的框架的有效性,这在不牺牲建议准确性的情况下增强了公平性。
translated by 谷歌翻译
历史互动是推荐模型培训的默认选择,通常表现出高稀疏性,即大多数用户项目对都是未观察到的缺失数据。标准选择是将缺失的数据视为负训练样本,并估计用户项目对之间的相互作用以及观察到的相互作用。通过这种方式,在训练过程中不可避免地会误标记一些潜在的互动,这将损害模型的保真度,阻碍模型回忆起错误标签的项目,尤其是长尾尾。在这项工作中,我们从新的不确定性的新角度研究了标签的问题,该问题描述了缺失数据的固有随机性。随机性促使我们超越了相互作用的可能性,并接受了不确定性建模。为此,我们提出了一个新的不确定性不确定性建议(AUR)框架,该框架由新的不确定性估计器以及正常的推荐模型组成。根据核心不确定性理论,我们得出了一个新的建议目标来学习估计量。由于错误标签的机会反映了一对的潜力,因此AUR根据不确定性提出了建议,该建议被证明是为了改善较不受欢迎的项目的建议性能而不会牺牲整体性能。我们在三个代表性推荐模型上实例化AUR:来自主流模型体系结构的矩阵分解(MF),LightGCN和VAE。两个现实世界数据集的广泛结果验证了AUR W.R.T.的有效性。更好的建议结果,尤其是在长尾项目上。
translated by 谷歌翻译
旨在估算每个广告接触点在转换旅程中的贡献的多点触摸归因(MTA)对于预算分配和自动广告至关重要。现有方法首先训练模型,以通过历史数据来预测广告旅程的转换概率,并使用反事实预测来计算每个接触点的归因。这些作品的假设是转换预测模型是公正的,即,它可以对任何随机分配的旅程(包括事实和反事实)提供准确的预测。然而,由于根据用户偏好推荐裸露的广告,因此这个假设并不总是存在。用户的这种混杂偏见将导致反事实预测中的分布(OOD)问题,并导致归因中的概念漂移。在本文中,我们定义了因果MTA任务,并提出Causalmta来消除用户偏好的影响。它从系统地消除了静态和动态偏好的混杂偏见,以使用历史数据来学习转换预测模型。我们还提供理论分析,以证明Causalmta可以学习具有足够数据的无偏见模型。电子商务公司的公共数据集和印象数据的广泛实验表明,Causalmta不仅比最先进的方法实现了更好的预测性能,而且还可以在不同的广告渠道上产生有意义的属性信用。
translated by 谷歌翻译
随着深度学习技术扩展到现实世界推荐任务,已经开发出许多深度神经网络的协作滤波(CF)模型基于各种神经结构,例如多层的神经架构将用户项目交互项目投影到潜伏特征空间中Perceptron,自动编码器和图形神经网络。然而,大多数现有的协作过滤系统不充分设计用于处理缺失的数据。特别是,为了在训练阶段注入负信号,这些解决方案很大程度上依赖于未观察到的用户项交互,并且简单地将它们视为负实例,这带来了推荐性能下降。为了解决问题,我们开发了一个协作反射增强的AutoEncoder网络(Cranet),它能够探索从观察到和未观察的用户项交互的可转移知识。 Cranet的网络架构由具有反射接收器网络的集成结构和信息融合自动统计器模块形成,其推荐框架具有在互动和非互动项目上编码隐式用户的成对偏好的能力。另外,基于参数正规化的捆绑重量方案旨在对两级颅骨模型进行鲁棒联合训练。我们终于在对应于两个推荐任务的四个不同基准数据集上进行了实验验证了Cranet,以表明,与各种最先进的推荐技术相比,脱叠用户项交互的负信号提高了性能。我们的源代码可在https://github.com/akaxlh/cranet上获得。
translated by 谷歌翻译
在上下文土匪中,非政策评估(OPE)已在现实世界中迅速采用,因为它仅使用历史日志数据就可以离线评估新政策。不幸的是,当动作数量较大时,现有的OPE估计器(其中大多数是基于反相反的得分加权)会严重降解,并且可能会遭受极端偏见和差异。这挫败了从推荐系统到语言模型的许多应用程序中使用OPE。为了克服这个问题,我们提出了一个新的OPE估计器,即当动作嵌入在动作空间中提供结构时,利用边缘化的重要性权重。我们表征了所提出的估计器的偏差,方差和平方平方误差,并分析了动作嵌入提供了比常规估计器提供统计益处的条件。除了理论分析外,我们还发现,即使由于大量作用,现有估计量崩溃,经验性绩效的改善也可以实现可靠的OPE。
translated by 谷歌翻译
Decias的推荐模型最近引起了学术和行业社区的越来越多的关注。现有模型主要基于反向倾向得分(IPS)的技术。但是,在建议域中,鉴于观察到的用户项目暴露数据的稀疏性质和嘈杂性,IP很难估算。为了缓解这个问题,在本文中,我们假设用户偏好可以由少量潜在因素主导,并建议通过增加曝光密度来集群用户以计算更准确的IPS。基本上,这种方法与应用统计的分层模型的精神相似。但是,与以前的启发式分层策略不同,我们通过向用户呈现低级嵌入的用户来学习群集标准,这是建议模型中的用户表示未来。最后,我们发现我们的模型与前两种类型的Debias推荐模型有牢固的联系。我们基于实际数据集进行了广泛的实验,以证明该方法的有效性。
translated by 谷歌翻译
传统的推荐系统旨在根据观察到的群体的评级估算用户对物品的评级。与所有观察性研究一样,隐藏的混乱,这是影响物品曝光和用户评级的因素,导致估计系统偏差。因此,推荐制度研究的新趋势是否定混杂者对因果视角的影响。观察到建议中的混淆通常是在物品中共享的,因此是多原因混淆,我们将推荐模拟为多原因多结果(MCMO)推理问题。具体而言,为了解决混淆偏见,我们估计渲染项目曝光独立伯努利试验的用户特定的潜变量。生成分布由具有分解逻辑似然性的DNN参数化,并且通过变分推理估计难治性后续。控制这些因素作为替代混淆,在温和的假设下,可以消除多因素混淆所产生的偏差。此外,我们表明MCMO建模可能导致由于与高维因果空间相关的稀缺观察而导致高方差。幸运的是,我们理论上证明了作为预处理变量的推出用户特征可以大大提高样本效率并减轻过度装箱。模拟和现实世界数据集的实证研究表明,建议的深度因果额外推荐者比艺术最先进的因果推荐人员对未观察到的混乱更具稳健性。代码和数据集在https://github.com/yaochenzhu/deep-deconf发布。
translated by 谷歌翻译
在推荐系统中,一个普遍的挑战是冷门问题,在系统中,相互作用非常有限。为了应对这一挑战,最近,许多作品将元优化的想法介绍到建议方案中,即学习仅通过过去的几个交互项目来学习用户偏好。核心想法是为所有用户学习全局共享的元启动参数,并分别为每个用户迅速调整其本地参数。他们的目的是在各种用户的偏好学习中得出一般知识,以便通过博学的先验和少量培训数据迅速适应未来的新用户。但是,以前的作品表明,推荐系统通常容易受到偏见和不公平的影响。尽管元学习成功地通过冷启动提高了推荐性能,但公平性问题在很大程度上被忽略了。在本文中,我们提出了一个名为Clover的全面的公平元学习框架,以确保元学习的推荐模型的公平性。我们系统地研究了三种公平性 - 个人公平,反事实公平和推荐系统中的群体公平,并建议通过多任务对抗学习方案满足所有三种类型。我们的框架提供了一种通用的培训范式,适用于不同的元学习推荐系统。我们证明了三叶草对三个现实世界数据集的代表性元学习用户偏好估计器的有效性。经验结果表明,三叶草可以实现全面的公平性,而不会恶化整体的冷淡建议性能。
translated by 谷歌翻译
半监督学习(SSL)从根本上是一个缺失的标签问题,与广泛的随机假设完全既贴心又无标记的标签完全失踪,而不是随机(mnar)问题(mnar)问题更现实和挑战数据共享相同的类分布。与现有的SSL解决方案不同,这些解决方案忽略了“类”在引起非随机性中的作用,例如,用户更有可能将流行类标记为“类别”,我们将“类”明确地纳入SSL。我们的方法是三倍:1)我们建议使用偏置标记的数据来利用未标记的数据来利用未标记的数据来训练改进的分类器。 2)鼓励罕见的课堂培训,其模型是低回调但高精度,丢弃了太多的伪标记的数据,我们提出了类动态降低(或增加)伪标签分配阈值的class感知插补(CAI)稀有(或频繁)的课程。 3)总体而言,我们将CAP和CAI集成到训练无偏的SSL模型的双重稳健估计器中。在各种MNAR设置和消融中,我们的方法不仅显着优于现有基线,而且超过了其他标签偏置删除SSL方法。请通过以下方式查看我们的代码:https://github.com/joyhuyy1412/cadr-fixmatch。
translated by 谷歌翻译
点击率(CTR)预测的目标是预测用户单击项目的可能性,在推荐系统中变得越来越重要。最近,一些具有自动从他/她的行为中提取用户兴趣的深度学习模型取得了巨大的成功。在这些工作中,注意机制用于选择用户在历史行为中感兴趣的项目,从而提高CTR预测指标的性能。通常,这些细心的模块可以通过使用梯度下降与基本预测变量共同训练。在本文中,我们将用户兴趣建模视为特征选择问题,我们称之为用户兴趣选择。对于这样一个问题,我们在包装法的框架下提出了一种新颖的方法,该方法被称为Meta-wrapper。更具体地说,我们使用可区分的模块作为包装运算符,然后将其学习问题重新提出为连续的二元优化。此外,我们使用元学习算法来求解优化并理论上证明其收敛性。同时,我们还提供了理论分析,以表明我们提出的方法1)效率基于包装器的特征选择,而2)可以更好地抵抗过度拟合。最后,在三个公共数据集上进行的广泛实验表明了我们方法在提高CTR预测的性能方面的优势。
translated by 谷歌翻译
隐式反馈的无处不是建立推荐系统不可或缺的反馈。但是,它实际上并没有反映用户的实际满意度。例如,在电子商务中,一大部分点击不转化为购买,许多购买结束了否定审查。因此,考虑隐性反馈中的不可避免的噪声是重要的。但是,建议的一点工作已经考虑了隐性反馈的嘈杂性。在这项工作中,我们探讨了向建议学习的识别隐含反馈的中心主题,包括培训和推论。通过观察正常推荐培训的过程,我们发现嘈杂的反馈通常在早期阶段中具有大的损失值。灵感来自这一观察,我们提出了一种新的培训策略,称为自适应去噪培训(ADT),其自适应地修剪了两个范式的嘈杂相互作用(即截断损失和重新减免)。此外,我们考虑额外的反馈(例如,评级)作为辅助信号,提出三种策略,将额外的反馈纳入ADT:FineTuning,预热训练和碰撞推断。我们在广泛使用的二进制交叉熵丢失上实例化了两个范式,并在三个代表推荐模型上测试它们。在三个基准测试中的广泛实验表明ADT在不使用额外反馈的情况下显着提高了正常培训的建议质量。此外,提出的三种策略用于使用额外反馈的主要原因是增强ADT的去噪能力。
translated by 谷歌翻译
Jain等人引入的倾向模型。2016年已成为处理极端多标签分类(XMLC)中缺失和长尾标签的标准方法。在本文中,我们对这种方法进行批判性修订,表明尽管具有理论性,但其在当代XMLC作品中的应用仍是有争议的。我们详尽地讨论了基于倾向的方法的缺陷,并提出了几种食谱,其中一些与搜索引擎和推荐系统中使用的解决方案有关,我们认为这构成了XMLC中遵循的有希望的替代方案。
translated by 谷歌翻译
Recommender systems aim to answer the following question: given the items that a user has interacted with, what items will this user likely interact with next? Historically this problem is often framed as a predictive task via (self-)supervised learning. In recent years, we have seen more emphasis placed on approaching the recommendation problem from a policy optimization perspective: learning a policy that maximizes some reward function (e.g., user engagement). However, it is commonly the case in recommender systems that we are only able to train a new policy given data collected from a previously-deployed policy. The conventional way to address such a policy mismatch is through importance sampling correction, which unfortunately comes with its own limitations. In this paper, we suggest an alternative approach, which involves the use of local policy improvement without off-policy correction. Drawing from a number of related results in the fields of causal inference, bandits, and reinforcement learning, we present a suite of methods that compute and optimize a lower bound of the expected reward of the target policy. Crucially, this lower bound is a function that is easy to estimate from data, and which does not involve density ratios (such as those appearing in importance sampling correction). We argue that this local policy improvement paradigm is particularly well suited for recommender systems, given that in practice the previously-deployed policy is typically of reasonably high quality, and furthermore it tends to be re-trained frequently and gets continuously updated. We discuss some practical recipes on how to apply some of the proposed techniques in a sequential recommendation setting.
translated by 谷歌翻译
学习的推荐系统可能会无意间泄露有关其培训数据的信息,从而导致侵犯隐私行为。我们调查了推荐系统通过成员推理面临的隐私威胁。在这种攻击中,对手旨在推断用户的数据是否用于训练目标推荐人。为了实现这一目标,以前的工作使用了阴影推荐人来为攻击模型得出训练数据,然后通过计算用户历史互动和推荐项目之间的差异向量来预测成员资格。最先进的方法面临两个具有挑战性的问题:(1)由于阴影和目标推荐人之间的差距,攻击模型的培训数据偏见,并且(2)推荐人中的隐藏状态没有观察到,导致估计不准确差矢量。为了解决上述局限性,我们提出了针对推荐系统(DL-MIA)框架的成员推理攻击的偏见学习,该框架具有四个主要组件:(1)差异向量生成器,(2)分发式编码器,(3)重量估算器和(4)攻击模型。为了减轻推荐人之间的差距,设计了基于变异的自动编码器(VAE)的分解编码器,以识别推荐人不变和特定功能。为了减少估计偏差,我们设计了一个权重估计器,为每个差异向量分配了真实级别的得分,以指示估计精度。我们对三个现实世界数据集的一般推荐人和顺序推荐人评估了DL-MIA。实验结果表明,DL-MIA有效地减轻了同时减轻培训和估计的偏见,并实现了最先进的攻击性能。
translated by 谷歌翻译
在逆倾向评分(IPS)上的逆倾斜度评分(IP)中的近偏见学习的最新进展将消除隐含反馈中的偏差。虽然理论上声音在纠正通过处理单击文档作为相关的单击文档而引入的偏差时,但IP忽略了由(隐式)将不键入的偏差视为无关紧要的偏差。在这项工作中,我们首先经过严格证明这种使用点击数据导致相关文件之间的不必要的成对比较,这防止了不偏析的Ranker Optimization。基于证据,我们推出了一个简单且良好的合理的新加权方案,称为倾向比评分(PRS),它提供了两次点击和非点击次数的处理。除了纠正点击偏见外,PRS避免了LTR培训中的相关相关文档比较,并享有较低的可变性。我们广泛的经验评估确认,PRS可确保更有效地使用点击数据和来自一组LTR基准的合成数据中的性能,以及来自Gmail搜索的真实大规模数据。
translated by 谷歌翻译
基于用户交互数据的优化推荐系统主要被视为处理选择偏差的问题,其中大多数现有工作都假设来自不同用户的交互是独立的。但是,已经表明,实际上用户反馈通常受到其他用户的早期交互的影响,例如通过平均评分,每项项目的视图或销售量等。这种现象被称为潮流效应。与以前的文献相反,我们认为潮流效应不应被视为统计偏见的问题。实际上,我们证明了这种效果使单个相互作用及其样本平均无偏见。然而,我们表明它可以使估计量不一致,从而引入了一系列与相关性估计的融合的不同问题。我们的理论分析研究了潮流效应提出一致性问题的条件,并探讨了减轻这些问题的几种方法。这项工作旨在表明,潮流效应带来了一个不足的开放问题,从根本上讲,这与建议的选择偏见从根本上截然不同。
translated by 谷歌翻译