公正的学习排名(ULTR)旨在从有偏见的用户点击日志中训练公正的排名模型。当前的大多数超级方法基于检查假设(EH),该假设假设可以将点击概率分解为两个标量函数,一种与排名特征有关,另一个与偏见因素有关。不幸的是,在实践中,特征,偏见因素和点击之间的相互作用很复杂,通常不能以这种独立的方式分解。使用EH拟合点击数据可能会导致模型错误指定并带来近似错误。在本文中,我们提出了一个基于向量的EH,并将点击概率作为两个向量函数的点产物提出。该解决方案由于其在拟合任意点击功能方面的普遍性而完成。基于它,我们提出了一个名为Vectorization的新型模型,以通过将嵌入在基础向量上投射到基础向量上,以适应性地学习相关性嵌入和排序文档。广泛的实验表明,我们的方法在复杂的真实点击以及简单的模拟点击上大大优于最新的超级方法。
translated by 谷歌翻译
在逆倾向评分(IPS)上的逆倾斜度评分(IP)中的近偏见学习的最新进展将消除隐含反馈中的偏差。虽然理论上声音在纠正通过处理单击文档作为相关的单击文档而引入的偏差时,但IP忽略了由(隐式)将不键入的偏差视为无关紧要的偏差。在这项工作中,我们首先经过严格证明这种使用点击数据导致相关文件之间的不必要的成对比较,这防止了不偏析的Ranker Optimization。基于证据,我们推出了一个简单且良好的合理的新加权方案,称为倾向比评分(PRS),它提供了两次点击和非点击次数的处理。除了纠正点击偏见外,PRS避免了LTR培训中的相关相关文档比较,并享有较低的可变性。我们广泛的经验评估确认,PRS可确保更有效地使用点击数据和来自一组LTR基准的合成数据中的性能,以及来自Gmail搜索的真实大规模数据。
translated by 谷歌翻译
Unbiased learning to rank (ULTR) studies the problem of mitigating various biases from implicit user feedback data such as clicks, and has been receiving considerable attention recently. A popular ULTR approach for real-world applications uses a two-tower architecture, where click modeling is factorized into a relevance tower with regular input features, and a bias tower with bias-relevant inputs such as the position of a document. A successful factorization will allow the relevance tower to be exempt from biases. In this work, we identify a critical issue that existing ULTR methods ignored - the bias tower can be confounded with the relevance tower via the underlying true relevance. In particular, the positions were determined by the logging policy, i.e., the previous production model, which would possess relevance information. We give both theoretical analysis and empirical results to show the negative effects on relevance tower due to such a correlation. We then propose three methods to mitigate the negative confounding effects by better disentangling relevance and bias. Empirical results on both controlled public datasets and a large-scale industry dataset show the effectiveness of the proposed approaches.
translated by 谷歌翻译
大多数用于点击速率(CTR)预测的现有方法取决于超薄的假设,即点击概率是观察概率和相关概率的乘积。但是,由于这两个概率之间存在复杂相互作用,因此这些方法不能应用于其他场景,例如,查询自动完成(QAC)和路由推荐。我们提出了一般的脱结框架,而无需简化变量之间的关系,可以处理CTR预测中的所有场景。仿真实验表明:在最简单的情况下,我们的方法与最先进的方法保持了类似的AUC;在其他情况下,与现有方法相比,我们的方法实现了相当大的改进。同时,在网上实验中,框架也始终如一地提高了显着的改进。
translated by 谷歌翻译
我们提出了一种以最小计算成本提高广泛检索模型的性能的框架。它利用由基本密度检索方法提取的预先提取的文档表示,并且涉及训练模型以共同评分每个查询的一组检索到的候选文档,同时在其他候选的上下文中暂时转换每个文档的表示。以及查询本身。当基于其与查询的相似性进行评分文档表示时,该模型因此意识到其“对等”文档的表示。我们表明,我们的方法导致基本方法的检索性能以及彼此隔离的评分候选文档进行了大量改善,如在一对培训环境中。至关重要的是,与基于伯特式编码器的术语交互重型器不同,它在运行时在任何第一阶段方法的顶部引发可忽略不计的计算开销,允许它与任何最先进的密集检索方法容易地结合。最后,同时考虑给定查询的一组候选文档,可以在检索中进行额外的有价值的功能,例如评分校准和减轻排名中的社会偏差。
translated by 谷歌翻译
在线学习排名(OL2R)近年来吸引了巨大的研究兴趣,因为它在避免在离线监督排名模型学习中避免昂贵的相关标签来吸引昂贵的相关标签。这样的解决方案探讨了未知数(例如,故意呈现顶部位置的选定结果)以改善其相关性估计。然而,这触发了对其排名公平的担忧:不同的物品组可能在OL2R过程中接受差异治疗。但是现有的公平排名解决方案通常需要事先需要了解结果相关性或表演的排名,这与OL2R的设置相矛盾,因此不能直接应用于保证公平性。在这项工作中,我们提出了一般的框架,以实现由奥尔200R小组暴露定义的公平性。关键的想法是为了校准公平控制,相关学习和在线排名质量的探索和开发。特别是,当模型正在探索一组相关性反馈的结果时,我们将探索限制在随机排列的子集中,其中维护跨组的公平性,而反馈仍然不偏见。理论上,我们证明了这种策略在OL2R遗憾地介绍了最小的扭曲,以获得公平性。在两个公共学习中进行了广泛的实证分析,以对基准数据集进行排名,以展示所提出的解决方案的有效性与现有的公平OL2R解决方案相比。
translated by 谷歌翻译
搜索会话中的上下文信息对于捕获用户的搜索意图很重要。已经提出了各种方法来对用户行为序列进行建模,以改善会话中的文档排名。通常,(搜索上下文,文档)对的训练样本在每个训练时期随机采样。实际上,了解用户的搜索意图和判断文档的相关性的困难从一个搜索上下文到另一个搜索上下文有很大差异。混合不同困难的训练样本可能会使模型的优化过程感到困惑。在这项工作中,我们为上下文感知文档排名提出了一个课程学习框架,其中排名模型以易于恐惧的方式学习搜索上下文和候选文档之间的匹配信号。这样一来,我们旨在将模型逐渐指向全球最佳。为了利用正面和负面示例,设计了两个课程。两个真实查询日志数据集的实验表明,我们提出的框架可以显着提高几种现有方法的性能,从而证明课程学习对上下文感知文档排名的有效性。
translated by 谷歌翻译
Deep Learning and Machine Learning based models have become extremely popular in text processing and information retrieval. However, the non-linear structures present inside the networks make these models largely inscrutable. A significant body of research has focused on increasing the transparency of these models. This article provides a broad overview of research on the explainability and interpretability of natural language processing and information retrieval methods. More specifically, we survey approaches that have been applied to explain word embeddings, sequence modeling, attention modules, transformers, BERT, and document ranking. The concluding section suggests some possible directions for future research on this topic.
translated by 谷歌翻译
为了更好地利用搜索日志和建模用户的行为模式,提出了许多点击模型来提取用户的隐式交互反馈。大多数传统点击模型都是基于概率图形模型(PGM)框架,该框架需要手动设计的依赖项,并且可能会过度简化用户行为。最近,提出了基于神经网络的方法来通过增强表达能力并允许灵活的依赖性来提高用户行为的预测准确性。但是,他们仍然遭受数据稀疏性和冷启动问题的困扰。在本文中,我们提出了一个新颖的图形增强点击模型(GraphCM),用于Web搜索。首先,我们将每个查询或文档视为顶点,并分别针对查询和文档提出新颖的均匀图构造方法,以完全利用会议内和会议间信息,以解决稀疏性和冷启动问题。其次,在考试假设之后,我们分别对吸引力估计量和检查预测值进行了建模,以输出吸引力得分和检查概率,在该分数中,应用图形神经网络和邻居相互作用技术用于提取在预构建的同质图中编码的辅助信息。最后,我们将组合功能应用于将考试概率和吸引力得分整合到点击预测中。在三个现实世界会话数据集上进行的广泛实验表明,GraphCM不仅胜过了最先进的模型,而且还可以在解决数据稀疏性和冷启动问题方面取得卓越的性能。
translated by 谷歌翻译
我们介绍了概率等级和奖励模型(PRR),这是一个可扩展的概率模型,用于个性化的Slate建议。我们的模型允许在以下无处不在的推荐系统方案中对用户兴趣的最新估计:向用户显示了k个建议的板岩,用户最多可以选择这些K项目中的一个。推荐系统的目标是找到用户最感兴趣的K项目,以最大程度地提高用户与Slate交互的可能性。我们的贡献是表明,我们可以通过结合奖励(无论是否单击板岩,以及等级)而更有效地学习建议成功的可能性。我们的方法比仅使用奖励和仅使用等级的用户偏好方法的盗销方法更有效地学习。它还提供了与独立的逆点分数方法相似或更好的估计性能,并且更可扩展。我们的方法是在大量数据集中的速度和准确性方面的最高速度,最多100万个项目。最后,我们的方法允许快速交付由最大内部产品搜索(MIPS)提供动力的建议,使其适用于极低的延迟域,例如计算广告。
translated by 谷歌翻译
学习 - 排名问题旨在排名,以最大限度地曝光与用户查询相关的那些。这种排名系统的理想特性是保证指定项目组之间的一些公平概念。虽然最近在学习排名系统的背景下审议了公平性,但目前的方法无法提供拟议的排名政策的公平性的担保。本文解决了这一差距,并介绍了智能预测,并优化了公平排名(SPOFR),综合优化和学习框架,以便进行公平受限学习。端到端的SPOFR框架包括受约束的优化子模型,并产生保证的排名策略,以满足公平限制,同时允许对公平实用权概况进行精细控制。SPOFR显示出在既定的性能指标方面显着提高当前最先进的公平学习系统。
translated by 谷歌翻译
非政策学习是使用另一个策略收集的数据优化政策而无需部署政策的框架。在推荐系统中,由于记录数据的不平衡问题尤其具有挑战性:建议某些项目比其他项目更频繁地记录。推荐项目列表时,这将进一步延续,因为动作空间是组合的。为了应对这一挑战,我们研究了对学习排名的悲观非政策优化。关键想法是在点击模型的参数上计算较低的置信度范围,然后以最高的悲观估计值返回列表。这种方法在计算上是有效的,我们对其进行了分析。我们研究其贝叶斯和频繁的变体,并通过合并经验贝叶斯来克服未知先验的局限性。为了展示我们方法的经验有效性,我们将其与使用反向倾向得分或忽略不确定性的非政策优化器进行了比较。我们的方法的表现优于所有基线,也是强大的,并且也是一般的。
translated by 谷歌翻译
点击率(CTR)预测的目标是预测用户单击项目的可能性,在推荐系统中变得越来越重要。最近,一些具有自动从他/她的行为中提取用户兴趣的深度学习模型取得了巨大的成功。在这些工作中,注意机制用于选择用户在历史行为中感兴趣的项目,从而提高CTR预测指标的性能。通常,这些细心的模块可以通过使用梯度下降与基本预测变量共同训练。在本文中,我们将用户兴趣建模视为特征选择问题,我们称之为用户兴趣选择。对于这样一个问题,我们在包装法的框架下提出了一种新颖的方法,该方法被称为Meta-wrapper。更具体地说,我们使用可区分的模块作为包装运算符,然后将其学习问题重新提出为连续的二元优化。此外,我们使用元学习算法来求解优化并理论上证明其收敛性。同时,我们还提供了理论分析,以表明我们提出的方法1)效率基于包装器的特征选择,而2)可以更好地抵抗过度拟合。最后,在三个公共数据集上进行的广泛实验表明了我们方法在提高CTR预测的性能方面的优势。
translated by 谷歌翻译
搜索引擎通过选择和排名结果列表来故意影响用户行为。用户由于其出色的位置和通常是最相关的文档而获得最高结果。搜索引擎排名算法需要确定相关性,同时纳入搜索引擎本身的影响。本文介绍了我们在Thumbtack了解排名的影响的努力,包括随机计划的经验结果。在消费市场的背景下,我们讨论了模型选择,实验设计,偏置计算和机器学习模型适应的实用细节。我们包括一个新的讨论,即对排名偏差如何不仅影响标签,而且还会影响模型特征。随机计划导致改进的模型,动机的内部方案分析并启用了面向用户的方案工具。
translated by 谷歌翻译
如何从未标记的数据中采样高质量的负面实例,即负抽样,对于培训隐式协作过滤和对比度学习模型很重要。尽管以前的研究提出了一些样本信息实例的方法,但很少有用于将假阴性与无偏见的负面抽样区分开。根据我们对否定分数的订单关系分析,我们首先得出了真正的负面阴性的阶级有条件密度。接下来,我们为负分类设计了贝叶斯分类器,从中定义了一个模型 - 不合稳定后验概率估计值,即实例为真为负面作为定量负信号度量。我们还提出了一项贝叶斯最佳抽样规则,以采样高质量的负面因素。提出的贝叶斯阴性采样(BNS)算法具有线性时间复杂性。实验研究以更好的采样质量和更好的建议性能来验证BNS优于同龄人的优势。
translated by 谷歌翻译
如今,推荐系统已经影响了人民生活的各个方面。为了提供个性化的高质量推荐结果,常规系统通常会训练一点的排名来预测目标的绝对值,并利用一个明显的浅塔来估计和减轻位置偏差的影响。然而,利用这种训练范例,优化目标与排名度量的批量不同,从排名上排名的项目的相对顺序而不是每个项目的预测精度。此外,由于现有系统倾向于在更高位置推荐更多相关项目,因此浅塔基的方法难以将用户反馈精确地将用户反馈归因于位置或相关性的影响。因此,如果我们设法解决上述问题,我们将有一个令人兴奋的机会来获得增强的性能。对等级算法进行无偏见的学习,这些算法是基于嘈杂的反馈准确地验证的算法,是吸引人的候选者,并且已经应用​​于许多具有单个分类标签的许多应用程序,例如用户单击信号。尽管如此,现有的无偏见的LTR方法无法正确处理包含分类和连续标签的多个反馈。因此,我们设计一种新颖的无偏不倚的LTR算法来解决挑战,该挑战是创新地模型以一对方式偏置位置偏差,并引入了分组信任偏置,以明确地分离位置偏差,信任偏差和用户相关性。公共基准数据集和内部实时流量的实验结果显示了分类和连续标签的所提出方法的卓越结果。
translated by 谷歌翻译
对排名进行机器学习方法的关键挑战是利益性能度量与可通过基于梯度的方法进行优化的替代损失功能之间的差距。出现这种间隙,因为排名指标通常涉及不分辨率的分类操作w.r.t.模型参数。先前的作品已经提出了与排名指标或简单平滑版本松散相关的代理,并且通常无法扩展到现实世界的应用程序。我们提出了一类新的替代替代品的Pirank,用于排名,基于NeuralOrtor [1]采用连续的温度控制的排放,对分拣操作员进行分拣操作员。我们表明,Pirank恰好恢复了零温度限制的所需度量,进一步提出了分割和征服的延伸,在理论和实践中,对大型名单尺寸有利地缩放。经验上,我们展示了培训期间更大名单大小的作用,并表明Pirank显着提高了公开可用的互联网规模学习的基准的可比方法。
translated by 谷歌翻译
最近的深度学习技术和精心设计的DEBIA算法,公正的排名学习(ULTR)问题已大大提高。但是,由于从那些流行的基准数据集中观察到的以下缺点,因此现有基准数据集的有希望的结果可能不会扩展到实际情况:(1)过时的语义功能提取,其中最先进的大规模预训练的预培训的语言由于原始文本的缺失,无法利用像伯特这样的模型;(2)不完整的显示功能,用于深入研究Ultr,例如,缺少显示的文档的摘要,用于分析单击必要的偏见; (3)缺乏现实世界的用户反馈,导致经验研究中合成数据集的普遍性。为了克服上述缺点,我们介绍了Baidu-ultr数据集。它涉及随机采样12亿次搜索会议和7,008个专家注释的查询,该查询比现有的搜索范围大。 Baidu-ultr提供:(1)原始语义功能和一个预先训练的语言模型,以方便使用; (2)足够的显示信息,例如位置,显示高度并显示了抽象,从而可以全面研究具有先进技术的不同偏见,例如因果发现和元学习; (3)搜索结果页面(SERP)等丰富的用户反馈,例如住宅时间,允许用户参与优化并促进ULTR中多任务学习的探索。在本文中,我们介绍了Baidu-Ultr的设计原理以及在此新数据资源上的基准超级算法的性能,有利于探索长尾查询和排名预培训任务的排名。 BAIDU-ULTR数据集和相应的基线实现可在https://github.com/chuxiaokai/baidu_ultr_dataset上获得。
translated by 谷歌翻译
In recent years, deep neural networks have yielded immense success on speech recognition, computer vision and natural language processing. However, the exploration of deep neural networks on recommender systems has received relatively less scrutiny. In this work, we strive to develop techniques based on neural networks to tackle the key problem in recommendation -collaborative filtering -on the basis of implicit feedback.Although some recent work has employed deep learning for recommendation, they primarily used it to model auxiliary information, such as textual descriptions of items and acoustic features of musics. When it comes to model the key factor in collaborative filtering -the interaction between user and item features, they still resorted to matrix factorization and applied an inner product on the latent features of users and items.By replacing the inner product with a neural architecture that can learn an arbitrary function from data, we present a general framework named NCF, short for Neural networkbased Collaborative Filtering. NCF is generic and can express and generalize matrix factorization under its framework. To supercharge NCF modelling with non-linearities, we propose to leverage a multi-layer perceptron to learn the user-item interaction function. Extensive experiments on two real-world datasets show significant improvements of our proposed NCF framework over the state-of-the-art methods. Empirical evidence shows that using deeper layers of neural networks offers better recommendation performance.
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译