基于用户交互数据的优化推荐系统主要被视为处理选择偏差的问题,其中大多数现有工作都假设来自不同用户的交互是独立的。但是,已经表明,实际上用户反馈通常受到其他用户的早期交互的影响,例如通过平均评分,每项项目的视图或销售量等。这种现象被称为潮流效应。与以前的文献相反,我们认为潮流效应不应被视为统计偏见的问题。实际上,我们证明了这种效果使单个相互作用及其样本平均无偏见。然而,我们表明它可以使估计量不一致,从而引入了一系列与相关性估计的融合的不同问题。我们的理论分析研究了潮流效应提出一致性问题的条件,并探讨了减轻这些问题的几种方法。这项工作旨在表明,潮流效应带来了一个不足的开放问题,从根本上讲,这与建议的选择偏见从根本上截然不同。
translated by 谷歌翻译
在本文中,我们提出了一种方法,用于预测社交媒体对等体之间的信任链接,其中一个是在多识别信任建模的人工智能面积。特别是,我们提出了一种数据驱动的多面信任信任建模,该信任建模包括许多不同的特征以进行全面分析。我们专注于展示类似用户的聚类如何实现关键新功能:支持更个性化的,从而为用户提供更准确的预测。在信任感知项目推荐任务中说明,我们在大yelp数据集的上下文中评估所提出的框架。然后,我们讨论如何提高社交媒体的可信关系的检测可以帮助在最近爆发的社交网络环境中支持在线用户的违法行为和谣言的传播。我们的结论是关于一个特别易受资助的用户基础,老年人的反思,以说明关于用户组的推理价值,期望通过通过数据分析获得的洞察力集成已知偏好的一些未来方向。
translated by 谷歌翻译
推荐系统在塑造现代网络生态系统中起关键作用。这些系统在(1)提出建议之间交替(2)收集用户对这些建议的响应,以及(3)根据此反馈重新审判建议算法。在此过程中,推荐系统会影响随后用于更新它的用户行为数据,从而创建反馈循环。最近的工作表明,反馈循环可能会损害建议质量并使用户行为均匀,从而在部署推荐系统时提高道德和绩效问题。为了解决这些问题,我们提出了反馈循环(CAFL)的因果调整,该算法可证明使用因果推理打破反馈回路,并可以应用于优化培训损失的任何建议算法。我们的主要观察结果是,如果原因是因果量的原因,即推荐系统不会遭受反馈循环的影响,即对用户评级的建议分布。此外,我们可以通过调整推荐系统对用户偏好的预测来计算从观察数据中计算此干预分布。使用模拟环境,我们证明CAFL与先前的校正方法相比提高了建议质量。
translated by 谷歌翻译
传统的推荐系统旨在根据观察到的群体的评级估算用户对物品的评级。与所有观察性研究一样,隐藏的混乱,这是影响物品曝光和用户评级的因素,导致估计系统偏差。因此,推荐制度研究的新趋势是否定混杂者对因果视角的影响。观察到建议中的混淆通常是在物品中共享的,因此是多原因混淆,我们将推荐模拟为多原因多结果(MCMO)推理问题。具体而言,为了解决混淆偏见,我们估计渲染项目曝光独立伯努利试验的用户特定的潜变量。生成分布由具有分解逻辑似然性的DNN参数化,并且通过变分推理估计难治性后续。控制这些因素作为替代混淆,在温和的假设下,可以消除多因素混淆所产生的偏差。此外,我们表明MCMO建模可能导致由于与高维因果空间相关的稀缺观察而导致高方差。幸运的是,我们理论上证明了作为预处理变量的推出用户特征可以大大提高样本效率并减轻过度装箱。模拟和现实世界数据集的实证研究表明,建议的深度因果额外推荐者比艺术最先进的因果推荐人员对未观察到的混乱更具稳健性。代码和数据集在https://github.com/yaochenzhu/deep-deconf发布。
translated by 谷歌翻译
如今,可以在许多电子商务平台上找到自动建议,并且此类建议可以为消费者和提供商创造巨大的价值。但是,通常并非所有推荐的物品都具有相同的利润率,因此,提供商可能会诱使促进最大化其利润的项目。在短期内,消费者可能会接受非最佳建议,但从长远来看,他们可能会失去信任。最终,这导致了设计平衡推荐策略的问题,这些策略既考虑消费者和提供商的价值,并带来持续的业务成功。这项工作提出了一个基于基于代理的建模的仿真框架,旨在帮助提供者探索不同推荐策略的纵向动态。在我们的模型中,消费者代理人收到了提供者的建议,并且建议的质量随着时间的推移影响消费者的信任。我们设计了几种推荐策略,可以使提供商的利润更大,或者对消费者公用事业。我们的模拟表明,一种混合​​策略会增加消费者公用事业的权重,但没有忽略盈利能力,从长远来看会导致累计利润最高。与纯粹的消费者或面向利润的策略相比,这种混合策略的利润增加了约20%。我们还发现,社交媒体可以加强观察到的现象。如果消费者严重依赖社交媒体,最佳战略的累积利润进一步增加。为了确保可重复性并培养未来的研究,我们将公开共享我们的灵活模拟框架。
translated by 谷歌翻译
设计为与时间变化的偏好保持一致的内容的推荐系统需要正确地计算建议对人类行为和心理状况的反馈影响。我们认为,建模建议对人们偏好的影响必须基于心理合理的模型。我们为开发接地动态偏好模型提供了一种方法。我们通过模型来证明这种方法,这些模型从心理学文献中捕获了三种经典效果:裸露,操作条件和享乐调整。我们进行基于仿真的研究,以表明心理模型表现出可以为系统设计提供信息的不同行为。我们的研究对建议系统中的动态用户建模有两个直接影响。首先,我们概述的方法广泛适用于心理基础动态偏好模型。它使我们能够根据他们对心理基础及其难以置信的预测的有限讨论来批评最近的贡献。其次,我们讨论动态偏好模型对建议系统评估和设计的含义。在一个示例中,我们表明参与度和多样性指标可能无法捕获理想的建议系统性能。
translated by 谷歌翻译
我们考虑了顺序评估的问题,在该问题中,评估者以序列观察候选人,并以在线,不可撤销的方式为这些候选人分配分数。受到在这种环境中研究顺序偏见的心理学文献的激励 - 即,评估结果与候选人出现的顺序之间的依赖性 - 我们为评估者的评级过程提出了一个自然模型,该模型捕获了缺乏固有的校准固有的校准这样的任务。我们进行众包实验,以展示模型的各个方面。然后,我们开始研究如何通过将其作为统计推断问题来纠正模型下的顺序偏差。我们提出了一个接近线性的时间,在线算法,以确保两个规范的排名指标可以保证。我们还通过在两个指标中建立匹配的下限来证明我们的算法在理论上是最佳信息。最后,我们表明我们的算法优于使用报告得分引起的排名的事实上的方法。
translated by 谷歌翻译
This paper considers ranking inference of $n$ items based on the observed data on the top choice among $M$ randomly selected items at each trial. This is a useful modification of the Plackett-Luce model for $M$-way ranking with only the top choice observed and is an extension of the celebrated Bradley-Terry-Luce model that corresponds to $M=2$. Under a uniform sampling scheme in which any $M$ distinguished items are selected for comparisons with probability $p$ and the selected $M$ items are compared $L$ times with multinomial outcomes, we establish the statistical rates of convergence for underlying $n$ preference scores using both $\ell_2$-norm and $\ell_\infty$-norm, with the minimum sampling complexity. In addition, we establish the asymptotic normality of the maximum likelihood estimator that allows us to construct confidence intervals for the underlying scores. Furthermore, we propose a novel inference framework for ranking items through a sophisticated maximum pairwise difference statistic whose distribution is estimated via a valid Gaussian multiplier bootstrap. The estimated distribution is then used to construct simultaneous confidence intervals for the differences in the preference scores and the ranks of individual items. They also enable us to address various inference questions on the ranks of these items. Extensive simulation studies lend further support to our theoretical results. A real data application illustrates the usefulness of the proposed methods convincingly.
translated by 谷歌翻译
排名和分数是判断使用的两个常见数据类型,以表达对象集合中对质量的偏好和/或质量的看法。存在许多模型以单独研究每种类型的数据,但没有统一的统计模型同时捕获两个数据类型,而不首先执行数据转换。我们提出了Mallows-Binomial模型来缩短这种差距,它通过量化的参数来与二项式分数模型相结合,这些差距通过量化的参数来量化对象质量,共识等级和法官之间的共识水平。我们提出了一种有效的树搜索算法来计算模型参数的精确MLE,分析和通过模拟研究模型的统计特性,并通过模拟将我们的模型应用于来自授予面板审查的实例,从而将其分数和部分排名的拨款。 。此外,我们展示了如何使用模型输出来排序对象的信心。拟议的模型被证明是从分数和排名中明智地结合信息,以量化对象质量并衡量具有适当统计不确定性的相互达成的共识。
translated by 谷歌翻译
合奏方法(例如随机森林)由于其高预测精度而在应用中很受欢迎。现有文献将随机的森林预测视为无限顺序不完整的U统计量,以量化其不确定性。但是,这些方法集中在每棵树的小次采样大小上,这在理论上是有效但实际上有限的。本文基于不完整的U统计数据,开发了公正的方差估计器,该估计量可以与整体样本量相当,从而使统计推断在更广泛的实际应用中成为可能。仿真结果表明,我们的估计量没有额外的计算成本,估计器的偏见和更准确的覆盖率。我们还提出了一项局部平滑过程,以减少估计器的变化,当树木数量相对较小时,该过程显示出改善的数值性能。此外,我们研究了在特定方案下提出的方差估计器的比率一致性。特别是,我们开发了一种新的“双U统计”公式,以分析估算器差异的HOFFING分解。
translated by 谷歌翻译
Recommender systems can strongly influence which information we see online, e.g., on social media, and thus impact our beliefs, decisions, and actions. At the same time, these systems can create substantial business value for different stakeholders. Given the growing potential impact of such AI-based systems on individuals, organizations, and society, questions of fairness have gained increased attention in recent years. However, research on fairness in recommender systems is still a developing area. In this survey, we first review the fundamental concepts and notions of fairness that were put forward in the area in the recent past. Afterward, through a review of more than 150 scholarly publications, we present an overview of how research in this field is currently operationalized, e.g., in terms of general research methodology, fairness measures, and algorithmic approaches. Overall, our analysis of recent works points to specific research gaps. In particular, we find that in many research works in computer science, very abstract problem operationalizations are prevalent, and questions of the underlying normative claims and what represents a fair recommendation in the context of a given application are often not discussed in depth. These observations call for more interdisciplinary research to address fairness in recommendation in a more comprehensive and impactful manner.
translated by 谷歌翻译
这项工作研究了针对推荐系统的有偏见反馈中学习无偏算法的问题。我们从理论和算法的角度解决了这个问题。无偏学习的最新著作通过各种技术(例如元学习,知识蒸馏和信息瓶颈)推进了最新技术。尽管取得了经验成功,但大多数人缺乏理论保证,在理论和最近的算法之间形成了不可忽略的差距。为此,我们首先从分配转移的角度查看无偏见的推荐问题。我们理论上分析了公正学习的概括界限,并提出了它们与最近无偏学习目标的密切关系。基于理论分析,我们进一步提出了一个原则性的框架,对抗性自我训练(AST),以无偏见。对现实世界和半合成数据集的经验评估证明了拟议的AST的有效性。
translated by 谷歌翻译
Testing the significance of a variable or group of variables $X$ for predicting a response $Y$, given additional covariates $Z$, is a ubiquitous task in statistics. A simple but common approach is to specify a linear model, and then test whether the regression coefficient for $X$ is non-zero. However, when the model is misspecified, the test may have poor power, for example when $X$ is involved in complex interactions, or lead to many false rejections. In this work we study the problem of testing the model-free null of conditional mean independence, i.e. that the conditional mean of $Y$ given $X$ and $Z$ does not depend on $X$. We propose a simple and general framework that can leverage flexible nonparametric or machine learning methods, such as additive models or random forests, to yield both robust error control and high power. The procedure involves using these methods to perform regressions, first to estimate a form of projection of $Y$ on $X$ and $Z$ using one half of the data, and then to estimate the expected conditional covariance between this projection and $Y$ on the remaining half of the data. While the approach is general, we show that a version of our procedure using spline regression achieves what we show is the minimax optimal rate in this nonparametric testing problem. Numerical experiments demonstrate the effectiveness of our approach both in terms of maintaining Type I error control, and power, compared to several existing approaches.
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
Recommender systems provide users with personalized suggestions for products or services. These systems often rely on Collaborating Filtering (CF), where past transactions are analyzed in order to establish connections between users and products. The two more successful approaches to CF are latent factor models, which directly profile both users and products, and neighborhood models, which analyze similarities between products or users. In this work we introduce some innovations to both approaches. The factor and neighborhood models can now be smoothly merged, thereby building a more accurate combined model. Further accuracy improvements are achieved by extending the models to exploit both explicit and implicit feedback by the users. The methods are tested on the Netflix data. Results are better than those previously published on that dataset. In addition, we suggest a new evaluation metric, which highlights the differences among methods, based on their performance at a top-K recommendation task.
translated by 谷歌翻译
JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact
translated by 谷歌翻译
公平性是在算法决策中的重要考虑因素。当具有较高优异的代理人获得比具有较低优点的试剂更差的代理人时,发生不公平。我们的中心点是,不公平的主要原因是不确定性。制定决策的主体或算法永远无法访问代理的真实优点,而是使用仅限于不完全预测优点的代理功能(例如,GPA,星形评级,推荐信)。这些都没有完全捕捉代理人的优点;然而,现有的方法主要基于观察到的特征和结果直接定义公平概念。我们的主要观点是明确地承认和模拟不确定性更为原则。观察到的特征的作用是产生代理商的优点的后部分布。我们使用这个观点来定义排名中近似公平的概念。我们称之为algorithm $ \ phi $ -fair(对于$ \ phi \ in [0,1] $)如果它具有以下所有代理商$ x $和所有$ k $:如果代理商$ x $最高$ k $代理以概率至少为$ \ rho $(根据后部优点分配),那么该算法将代理商在其排名中以概率排名,至少$ \ phi \ rho $。我们展示了如何计算最佳地互惠对校长进行近似公平性的排名。除了理论表征外,我们还提出了对模拟研究中的方法的潜在影响的实证分析。对于真实世界的验证,我们在纸质建议系统的背景下应用了这种方法,我们在KDD 2020会议上建立和界定。
translated by 谷歌翻译
现代纵向研究在许多时间点收集特征数据,通常是相同的样本大小顺序。这些研究通常受到{辍学}和积极违规的影响。我们通过概括近期增量干预的效果(转换倾向分数而不是设置治疗价值)来解决这些问题,以适应多种结果和主题辍学。当条件忽略(不需要治疗阳性)时,我们给出了识别表达式的增量干预效果,并导出估计这些效果的非参数效率。然后我们提出了高效的非参数估计器,表明它们以快速参数速率收敛并产生均匀的推理保证,即使在较慢的速率下灵活估计滋扰函数。我们还研究了新型无限时间范围设置中的更传统的确定性效果的增量干预效应的方差比,其中时间点的数量可以随着样本大小而生长,并显示增量干预效果在统计精度下产生近乎指数的收益这个设置。最后,我们通过模拟得出结论,并在研究低剂量阿司匹林对妊娠结果的研究中进行了方法。
translated by 谷歌翻译
推荐系统正面临审查,因为它们对我们可以获得的机会的影响越来越大。目前对公平的审计仅限于敏感群体水平的粗粒度评估。我们建议审核嫉妒 - 狂喜,一个与个别偏好对齐的更精细的标准:每个用户都应该更喜欢他们的建议给其他用户的建议。由于审计要求估计用户超出现有建议的用户的偏好,因此我们将审计作为多武装匪徒的新纯粹探索问题。我们提出了一种采样的效率算法,具有理论上的保证,它不会恶化用户体验。我们还研究了现实世界推荐数据集实现的权衡。
translated by 谷歌翻译
在上下文土匪中,非政策评估(OPE)已在现实世界中迅速采用,因为它仅使用历史日志数据就可以离线评估新政策。不幸的是,当动作数量较大时,现有的OPE估计器(其中大多数是基于反相反的得分加权)会严重降解,并且可能会遭受极端偏见和差异。这挫败了从推荐系统到语言模型的许多应用程序中使用OPE。为了克服这个问题,我们提出了一个新的OPE估计器,即当动作嵌入在动作空间中提供结构时,利用边缘化的重要性权重。我们表征了所提出的估计器的偏差,方差和平方平方误差,并分析了动作嵌入提供了比常规估计器提供统计益处的条件。除了理论分析外,我们还发现,即使由于大量作用,现有估计量崩溃,经验性绩效的改善也可以实现可靠的OPE。
translated by 谷歌翻译