Unbiased learning to rank (ULTR) studies the problem of mitigating various biases from implicit user feedback data such as clicks, and has been receiving considerable attention recently. A popular ULTR approach for real-world applications uses a two-tower architecture, where click modeling is factorized into a relevance tower with regular input features, and a bias tower with bias-relevant inputs such as the position of a document. A successful factorization will allow the relevance tower to be exempt from biases. In this work, we identify a critical issue that existing ULTR methods ignored - the bias tower can be confounded with the relevance tower via the underlying true relevance. In particular, the positions were determined by the logging policy, i.e., the previous production model, which would possess relevance information. We give both theoretical analysis and empirical results to show the negative effects on relevance tower due to such a correlation. We then propose three methods to mitigate the negative confounding effects by better disentangling relevance and bias. Empirical results on both controlled public datasets and a large-scale industry dataset show the effectiveness of the proposed approaches.
translated by 谷歌翻译
在逆倾向评分(IPS)上的逆倾斜度评分(IP)中的近偏见学习的最新进展将消除隐含反馈中的偏差。虽然理论上声音在纠正通过处理单击文档作为相关的单击文档而引入的偏差时,但IP忽略了由(隐式)将不键入的偏差视为无关紧要的偏差。在这项工作中,我们首先经过严格证明这种使用点击数据导致相关文件之间的不必要的成对比较,这防止了不偏析的Ranker Optimization。基于证据,我们推出了一个简单且良好的合理的新加权方案,称为倾向比评分(PRS),它提供了两次点击和非点击次数的处理。除了纠正点击偏见外,PRS避免了LTR培训中的相关相关文档比较,并享有较低的可变性。我们广泛的经验评估确认,PRS可确保更有效地使用点击数据和来自一组LTR基准的合成数据中的性能,以及来自Gmail搜索的真实大规模数据。
translated by 谷歌翻译
公正的学习排名(ULTR)旨在从有偏见的用户点击日志中训练公正的排名模型。当前的大多数超级方法基于检查假设(EH),该假设假设可以将点击概率分解为两个标量函数,一种与排名特征有关,另一个与偏见因素有关。不幸的是,在实践中,特征,偏见因素和点击之间的相互作用很复杂,通常不能以这种独立的方式分解。使用EH拟合点击数据可能会导致模型错误指定并带来近似错误。在本文中,我们提出了一个基于向量的EH,并将点击概率作为两个向量函数的点产物提出。该解决方案由于其在拟合任意点击功能方面的普遍性而完成。基于它,我们提出了一个名为Vectorization的新型模型,以通过将嵌入在基础向量上投射到基础向量上,以适应性地学习相关性嵌入和排序文档。广泛的实验表明,我们的方法在复杂的真实点击以及简单的模拟点击上大大优于最新的超级方法。
translated by 谷歌翻译
我们介绍了概率等级和奖励模型(PRR),这是一个可扩展的概率模型,用于个性化的Slate建议。我们的模型允许在以下无处不在的推荐系统方案中对用户兴趣的最新估计:向用户显示了k个建议的板岩,用户最多可以选择这些K项目中的一个。推荐系统的目标是找到用户最感兴趣的K项目,以最大程度地提高用户与Slate交互的可能性。我们的贡献是表明,我们可以通过结合奖励(无论是否单击板岩,以及等级)而更有效地学习建议成功的可能性。我们的方法比仅使用奖励和仅使用等级的用户偏好方法的盗销方法更有效地学习。它还提供了与独立的逆点分数方法相似或更好的估计性能,并且更可扩展。我们的方法是在大量数据集中的速度和准确性方面的最高速度,最多100万个项目。最后,我们的方法允许快速交付由最大内部产品搜索(MIPS)提供动力的建议,使其适用于极低的延迟域,例如计算广告。
translated by 谷歌翻译
如今,推荐系统已经影响了人民生活的各个方面。为了提供个性化的高质量推荐结果,常规系统通常会训练一点的排名来预测目标的绝对值,并利用一个明显的浅塔来估计和减轻位置偏差的影响。然而,利用这种训练范例,优化目标与排名度量的批量不同,从排名上排名的项目的相对顺序而不是每个项目的预测精度。此外,由于现有系统倾向于在更高位置推荐更多相关项目,因此浅塔基的方法难以将用户反馈精确地将用户反馈归因于位置或相关性的影响。因此,如果我们设法解决上述问题,我们将有一个令人兴奋的机会来获得增强的性能。对等级算法进行无偏见的学习,这些算法是基于嘈杂的反馈准确地验证的算法,是吸引人的候选者,并且已经应用​​于许多具有单个分类标签的许多应用程序,例如用户单击信号。尽管如此,现有的无偏见的LTR方法无法正确处理包含分类和连续标签的多个反馈。因此,我们设计一种新颖的无偏不倚的LTR算法来解决挑战,该挑战是创新地模型以一对方式偏置位置偏差,并引入了分组信任偏置,以明确地分离位置偏差,信任偏差和用户相关性。公共基准数据集和内部实时流量的实验结果显示了分类和连续标签的所提出方法的卓越结果。
translated by 谷歌翻译
隐式反馈已被广泛用于构建商业推荐系统。由于观察到的反馈代表用户的点击日志,因此真实相关性和观察到的反馈之间存在语义差距。更重要的是,观察到的反馈通常偏向流行项目,从而高估了流行项目的实际相关性。尽管现有的研究使用反向倾向加权(IPW)或因果推理开发了公正的学习方法,但它们仅专注于消除项目的流行偏见。在本文中,我们提出了一种新颖的无偏建议学习模型,即双边自我非偏置推荐剂(Biser),以消除推荐模型引起的项目的暴露偏见。具体而言,双方由两个关键组成部分组成:(i)自我内向倾向加权(SIPW)逐渐减轻项目的偏见而不会产生高计算成本; (ii)双边无偏学习(BU),以弥合模型预测中两个互补模型之间的差距,即基于用户和项目的自动编码器,从而减轻了SIPW的较高差异。广泛的实验表明,Biser在几个数据集上始终优于最先进的无偏建议型号,包括外套,Yahoo! R3,Movielens和Citeulike。
translated by 谷歌翻译
大多数用于点击速率(CTR)预测的现有方法取决于超薄的假设,即点击概率是观察概率和相关概率的乘积。但是,由于这两个概率之间存在复杂相互作用,因此这些方法不能应用于其他场景,例如,查询自动完成(QAC)和路由推荐。我们提出了一般的脱结框架,而无需简化变量之间的关系,可以处理CTR预测中的所有场景。仿真实验表明:在最简单的情况下,我们的方法与最先进的方法保持了类似的AUC;在其他情况下,与现有方法相比,我们的方法实现了相当大的改进。同时,在网上实验中,框架也始终如一地提高了显着的改进。
translated by 谷歌翻译
这项工作研究了针对推荐系统的有偏见反馈中学习无偏算法的问题。我们从理论和算法的角度解决了这个问题。无偏学习的最新著作通过各种技术(例如元学习,知识蒸馏和信息瓶颈)推进了最新技术。尽管取得了经验成功,但大多数人缺乏理论保证,在理论和最近的算法之间形成了不可忽略的差距。为此,我们首先从分配转移的角度查看无偏见的推荐问题。我们理论上分析了公正学习的概括界限,并提出了它们与最近无偏学习目标的密切关系。基于理论分析,我们进一步提出了一个原则性的框架,对抗性自我训练(AST),以无偏见。对现实世界和半合成数据集的经验评估证明了拟议的AST的有效性。
translated by 谷歌翻译
在线学习排名(OL2R)近年来吸引了巨大的研究兴趣,因为它在避免在离线监督排名模型学习中避免昂贵的相关标签来吸引昂贵的相关标签。这样的解决方案探讨了未知数(例如,故意呈现顶部位置的选定结果)以改善其相关性估计。然而,这触发了对其排名公平的担忧:不同的物品组可能在OL2R过程中接受差异治疗。但是现有的公平排名解决方案通常需要事先需要了解结果相关性或表演的排名,这与OL2R的设置相矛盾,因此不能直接应用于保证公平性。在这项工作中,我们提出了一般的框架,以实现由奥尔200R小组暴露定义的公平性。关键的想法是为了校准公平控制,相关学习和在线排名质量的探索和开发。特别是,当模型正在探索一组相关性反馈的结果时,我们将探索限制在随机排列的子集中,其中维护跨组的公平性,而反馈仍然不偏见。理论上,我们证明了这种策略在OL2R遗憾地介绍了最小的扭曲,以获得公平性。在两个公共学习中进行了广泛的实证分析,以对基准数据集进行排名,以展示所提出的解决方案的有效性与现有的公平OL2R解决方案相比。
translated by 谷歌翻译
学习 - 排名问题旨在排名,以最大限度地曝光与用户查询相关的那些。这种排名系统的理想特性是保证指定项目组之间的一些公平概念。虽然最近在学习排名系统的背景下审议了公平性,但目前的方法无法提供拟议的排名政策的公平性的担保。本文解决了这一差距,并介绍了智能预测,并优化了公平排名(SPOFR),综合优化和学习框架,以便进行公平受限学习。端到端的SPOFR框架包括受约束的优化子模型,并产生保证的排名策略,以满足公平限制,同时允许对公平实用权概况进行精细控制。SPOFR显示出在既定的性能指标方面显着提高当前最先进的公平学习系统。
translated by 谷歌翻译
电子商务搜索的关键是如何最好地利用大型但嘈杂的日志数据。在本文中,我们在Instacart介绍了基于嵌入的杂货搜索模型。该系统通过基于两个塔式变压器的编码器体系结构学习查询和产品表示。为了解决冷门问题,我们专注于基于内容的功能。为了在嘈杂的数据上有效地培训模型,我们提出了一种自我分歧学习方法和级联培训方法。Accon是一个离线人类评估数据集,我们在召回@20方面取得了10%的相对改善,对于在线A/B测试,我们每次搜索(CAPS)获得4.1%的Cart-Addds(CAPS)和1.5%的总商品价值(GMV)改进。我们描述了如何训练和部署基于嵌入的搜索模型,并对我们方法的有效性进行详细分析。
translated by 谷歌翻译
搜索引擎通过选择和排名结果列表来故意影响用户行为。用户由于其出色的位置和通常是最相关的文档而获得最高结果。搜索引擎排名算法需要确定相关性,同时纳入搜索引擎本身的影响。本文介绍了我们在Thumbtack了解排名的影响的努力,包括随机计划的经验结果。在消费市场的背景下,我们讨论了模型选择,实验设计,偏置计算和机器学习模型适应的实用细节。我们包括一个新的讨论,即对排名偏差如何不仅影响标签,而且还会影响模型特征。随机计划导致改进的模型,动机的内部方案分析并启用了面向用户的方案工具。
translated by 谷歌翻译
传统的推荐系统旨在根据观察到的群体的评级估算用户对物品的评级。与所有观察性研究一样,隐藏的混乱,这是影响物品曝光和用户评级的因素,导致估计系统偏差。因此,推荐制度研究的新趋势是否定混杂者对因果视角的影响。观察到建议中的混淆通常是在物品中共享的,因此是多原因混淆,我们将推荐模拟为多原因多结果(MCMO)推理问题。具体而言,为了解决混淆偏见,我们估计渲染项目曝光独立伯努利试验的用户特定的潜变量。生成分布由具有分解逻辑似然性的DNN参数化,并且通过变分推理估计难治性后续。控制这些因素作为替代混淆,在温和的假设下,可以消除多因素混淆所产生的偏差。此外,我们表明MCMO建模可能导致由于与高维因果空间相关的稀缺观察而导致高方差。幸运的是,我们理论上证明了作为预处理变量的推出用户特征可以大大提高样本效率并减轻过度装箱。模拟和现实世界数据集的实证研究表明,建议的深度因果额外推荐者比艺术最先进的因果推荐人员对未观察到的混乱更具稳健性。代码和数据集在https://github.com/yaochenzhu/deep-deconf发布。
translated by 谷歌翻译
点击率(CTR)预测的目标是预测用户单击项目的可能性,在推荐系统中变得越来越重要。最近,一些具有自动从他/她的行为中提取用户兴趣的深度学习模型取得了巨大的成功。在这些工作中,注意机制用于选择用户在历史行为中感兴趣的项目,从而提高CTR预测指标的性能。通常,这些细心的模块可以通过使用梯度下降与基本预测变量共同训练。在本文中,我们将用户兴趣建模视为特征选择问题,我们称之为用户兴趣选择。对于这样一个问题,我们在包装法的框架下提出了一种新颖的方法,该方法被称为Meta-wrapper。更具体地说,我们使用可区分的模块作为包装运算符,然后将其学习问题重新提出为连续的二元优化。此外,我们使用元学习算法来求解优化并理论上证明其收敛性。同时,我们还提供了理论分析,以表明我们提出的方法1)效率基于包装器的特征选择,而2)可以更好地抵抗过度拟合。最后,在三个公共数据集上进行的广泛实验表明了我们方法在提高CTR预测的性能方面的优势。
translated by 谷歌翻译
公平性是在算法决策中的重要考虑因素。当具有较高优异的代理人获得比具有较低优点的试剂更差的代理人时,发生不公平。我们的中心点是,不公平的主要原因是不确定性。制定决策的主体或算法永远无法访问代理的真实优点,而是使用仅限于不完全预测优点的代理功能(例如,GPA,星形评级,推荐信)。这些都没有完全捕捉代理人的优点;然而,现有的方法主要基于观察到的特征和结果直接定义公平概念。我们的主要观点是明确地承认和模拟不确定性更为原则。观察到的特征的作用是产生代理商的优点的后部分布。我们使用这个观点来定义排名中近似公平的概念。我们称之为algorithm $ \ phi $ -fair(对于$ \ phi \ in [0,1] $)如果它具有以下所有代理商$ x $和所有$ k $:如果代理商$ x $最高$ k $代理以概率至少为$ \ rho $(根据后部优点分配),那么该算法将代理商在其排名中以概率排名,至少$ \ phi \ rho $。我们展示了如何计算最佳地互惠对校长进行近似公平性的排名。除了理论表征外,我们还提出了对模拟研究中的方法的潜在影响的实证分析。对于真实世界的验证,我们在纸质建议系统的背景下应用了这种方法,我们在KDD 2020会议上建立和界定。
translated by 谷歌翻译
Jain等人引入的倾向模型。2016年已成为处理极端多标签分类(XMLC)中缺失和长尾标签的标准方法。在本文中,我们对这种方法进行批判性修订,表明尽管具有理论性,但其在当代XMLC作品中的应用仍是有争议的。我们详尽地讨论了基于倾向的方法的缺陷,并提出了几种食谱,其中一些与搜索引擎和推荐系统中使用的解决方案有关,我们认为这构成了XMLC中遵循的有希望的替代方案。
translated by 谷歌翻译
在上下文土匪中,非政策评估(OPE)已在现实世界中迅速采用,因为它仅使用历史日志数据就可以离线评估新政策。不幸的是,当动作数量较大时,现有的OPE估计器(其中大多数是基于反相反的得分加权)会严重降解,并且可能会遭受极端偏见和差异。这挫败了从推荐系统到语言模型的许多应用程序中使用OPE。为了克服这个问题,我们提出了一个新的OPE估计器,即当动作嵌入在动作空间中提供结构时,利用边缘化的重要性权重。我们表征了所提出的估计器的偏差,方差和平方平方误差,并分析了动作嵌入提供了比常规估计器提供统计益处的条件。除了理论分析外,我们还发现,即使由于大量作用,现有估计量崩溃,经验性绩效的改善也可以实现可靠的OPE。
translated by 谷歌翻译
众所周知,端到端的神经NLP体系结构很难理解,这引起了近年来为解释性建模的许多努力。模型解释的基本原则是忠诚,即,解释应准确地代表模型预测背后的推理过程。这项调查首先讨论了忠诚的定义和评估及其对解释性的意义。然后,我们通过将方法分为五类来介绍忠实解释的最新进展:相似性方法,模型内部结构的分析,基于反向传播的方法,反事实干预和自我解释模型。每个类别将通过其代表性研究,优势和缺点来说明。最后,我们从它们的共同美德和局限性方面讨论了上述所有方法,并反思未来的工作方向忠实的解释性。对于有兴趣研究可解释性的研究人员,这项调查将为该领域提供可访问且全面的概述,为进一步探索提供基础。对于希望更好地了解自己的模型的用户,该调查将是一项介绍性手册,帮助选择最合适的解释方法。
translated by 谷歌翻译
Causal inference is the process of using assumptions, study designs, and estimation strategies to draw conclusions about the causal relationships between variables based on data. This allows researchers to better understand the underlying mechanisms at work in complex systems and make more informed decisions. In many settings, we may not fully observe all the confounders that affect both the treatment and outcome variables, complicating the estimation of causal effects. To address this problem, a growing literature in both causal inference and machine learning proposes to use Instrumental Variables (IV). This paper serves as the first effort to systematically and comprehensively introduce and discuss the IV methods and their applications in both causal inference and machine learning. First, we provide the formal definition of IVs and discuss the identification problem of IV regression methods under different assumptions. Second, we categorize the existing work on IV methods into three streams according to the focus on the proposed methods, including two-stage least squares with IVs, control function with IVs, and evaluation of IVs. For each stream, we present both the classical causal inference methods, and recent developments in the machine learning literature. Then, we introduce a variety of applications of IV methods in real-world scenarios and provide a summary of the available datasets and algorithms. Finally, we summarize the literature, discuss the open problems and suggest promising future research directions for IV methods and their applications. We also develop a toolkit of IVs methods reviewed in this survey at https://github.com/causal-machine-learning-lab/mliv.
translated by 谷歌翻译
最近的深度学习技术和精心设计的DEBIA算法,公正的排名学习(ULTR)问题已大大提高。但是,由于从那些流行的基准数据集中观察到的以下缺点,因此现有基准数据集的有希望的结果可能不会扩展到实际情况:(1)过时的语义功能提取,其中最先进的大规模预训练的预培训的语言由于原始文本的缺失,无法利用像伯特这样的模型;(2)不完整的显示功能,用于深入研究Ultr,例如,缺少显示的文档的摘要,用于分析单击必要的偏见; (3)缺乏现实世界的用户反馈,导致经验研究中合成数据集的普遍性。为了克服上述缺点,我们介绍了Baidu-ultr数据集。它涉及随机采样12亿次搜索会议和7,008个专家注释的查询,该查询比现有的搜索范围大。 Baidu-ultr提供:(1)原始语义功能和一个预先训练的语言模型,以方便使用; (2)足够的显示信息,例如位置,显示高度并显示了抽象,从而可以全面研究具有先进技术的不同偏见,例如因果发现和元学习; (3)搜索结果页面(SERP)等丰富的用户反馈,例如住宅时间,允许用户参与优化并促进ULTR中多任务学习的探索。在本文中,我们介绍了Baidu-Ultr的设计原理以及在此新数据资源上的基准超级算法的性能,有利于探索长尾查询和排名预培训任务的排名。 BAIDU-ULTR数据集和相应的基线实现可在https://github.com/chuxiaokai/baidu_ultr_dataset上获得。
translated by 谷歌翻译