Airbnb is a two-sided marketplace, bringing together hosts who own listings for rent, with prospective guests from around the globe. Applying neural network-based learning to rank techniques has led to significant improvements in matching guests with hosts. These improvements in ranking were driven by a core strategy: order the listings by their estimated booking probabilities, then iterate on techniques to make these booking probability estimates more and more accurate. Embedded implicitly in this strategy was an assumption that the booking probability of a listing could be determined independently of other listings in search results. In this paper we discuss how this assumption, pervasive throughout the commonly-used learning to rank frameworks, is false. We provide a theoretical foundation correcting this assumption, followed by efficient neural network architectures based on the theory. Explicitly accounting for possible similarities between listings, and reducing them to diversify the search results generated strong positive impact. We discuss these metric wins as part of the online A/B tests of the theory. Our method provides a practical way to diversify search results for large-scale production ranking systems.
translated by 谷歌翻译
公平性是在算法决策中的重要考虑因素。当具有较高优异的代理人获得比具有较低优点的试剂更差的代理人时,发生不公平。我们的中心点是,不公平的主要原因是不确定性。制定决策的主体或算法永远无法访问代理的真实优点,而是使用仅限于不完全预测优点的代理功能(例如,GPA,星形评级,推荐信)。这些都没有完全捕捉代理人的优点;然而,现有的方法主要基于观察到的特征和结果直接定义公平概念。我们的主要观点是明确地承认和模拟不确定性更为原则。观察到的特征的作用是产生代理商的优点的后部分布。我们使用这个观点来定义排名中近似公平的概念。我们称之为algorithm $ \ phi $ -fair(对于$ \ phi \ in [0,1] $)如果它具有以下所有代理商$ x $和所有$ k $:如果代理商$ x $最高$ k $代理以概率至少为$ \ rho $(根据后部优点分配),那么该算法将代理商在其排名中以概率排名,至少$ \ phi \ rho $。我们展示了如何计算最佳地互惠对校长进行近似公平性的排名。除了理论表征外,我们还提出了对模拟研究中的方法的潜在影响的实证分析。对于真实世界的验证,我们在纸质建议系统的背景下应用了这种方法,我们在KDD 2020会议上建立和界定。
translated by 谷歌翻译
Recommender systems can strongly influence which information we see online, e.g., on social media, and thus impact our beliefs, decisions, and actions. At the same time, these systems can create substantial business value for different stakeholders. Given the growing potential impact of such AI-based systems on individuals, organizations, and society, questions of fairness have gained increased attention in recent years. However, research on fairness in recommender systems is still a developing area. In this survey, we first review the fundamental concepts and notions of fairness that were put forward in the area in the recent past. Afterward, through a review of more than 150 scholarly publications, we present an overview of how research in this field is currently operationalized, e.g., in terms of general research methodology, fairness measures, and algorithmic approaches. Overall, our analysis of recent works points to specific research gaps. In particular, we find that in many research works in computer science, very abstract problem operationalizations are prevalent, and questions of the underlying normative claims and what represents a fair recommendation in the context of a given application are often not discussed in depth. These observations call for more interdisciplinary research to address fairness in recommendation in a more comprehensive and impactful manner.
translated by 谷歌翻译
学习 - 排名问题旨在排名,以最大限度地曝光与用户查询相关的那些。这种排名系统的理想特性是保证指定项目组之间的一些公平概念。虽然最近在学习排名系统的背景下审议了公平性,但目前的方法无法提供拟议的排名政策的公平性的担保。本文解决了这一差距,并介绍了智能预测,并优化了公平排名(SPOFR),综合优化和学习框架,以便进行公平受限学习。端到端的SPOFR框架包括受约束的优化子模型,并产生保证的排名策略,以满足公平限制,同时允许对公平实用权概况进行精细控制。SPOFR显示出在既定的性能指标方面显着提高当前最先进的公平学习系统。
translated by 谷歌翻译
Alphazero,Leela Chess Zero和Stockfish Nnue革新了计算机国际象棋。本书对此类引擎的技术内部工作进行了完整的介绍。该书分为四个主要章节 - 不包括第1章(简介)和第6章(结论):第2章引入神经网络,涵盖了所有用于构建深层网络的基本构建块,例如Alphazero使用的网络。内容包括感知器,后传播和梯度下降,分类,回归,多层感知器,矢量化技术,卷积网络,挤压网络,挤压和激发网络,完全连接的网络,批处理归一化和横向归一化和跨性线性单位,残留层,剩余层,过度效果和底漆。第3章介绍了用于国际象棋发动机以及Alphazero使用的经典搜索技术。内容包括minimax,alpha-beta搜索和蒙特卡洛树搜索。第4章展示了现代国际象棋发动机的设计。除了开创性的Alphago,Alphago Zero和Alphazero我们涵盖Leela Chess Zero,Fat Fritz,Fat Fritz 2以及有效更新的神经网络(NNUE)以及MAIA。第5章是关于实施微型α。 Shexapawn是国际象棋的简约版本,被用作为此的示例。 Minimax搜索可以解决六ap峰,并产生了监督学习的培训位置。然后,作为比较,实施了类似Alphazero的训练回路,其中通过自我游戏进行训练与强化学习结合在一起。最后,比较了类似α的培训和监督培训。
translated by 谷歌翻译
This work shows how to leverage causal inference to understand the behavior of complex learning systems interacting with their environment and predict the consequences of changes to the system. Such predictions allow both humans and algorithms to select the changes that would have improved the system performance. This work is illustrated by experiments on the ad placement system associated with the Bing search engine.
translated by 谷歌翻译
本文介绍了寻求信息(是)任务,概念和算法的信息重新分类。拟议的分类系统提供了新的维度,以研究寻求任务和方法的信息。新尺寸包括搜索迭代,搜索目标类型和程序的数量,以实现这些目标。寻求任务的信息沿着这些尺寸呼叫合适的计算解决方案的差异。然后,该文章评论了符合每个新类别的机器学习解决方案。该论文结束了对系统的评估活动进行了审查。
translated by 谷歌翻译
推荐系统是帮助用户以个性化方式找到信息过载的兴趣项目,使用关于各用户的需求和偏好的知识。在会话推荐方法中,这些需求和偏好由系统中的交互式多匝对话框中的。文献中的一种常见方法来驱动这些对话框是逐步向用户逐步询问他们关于期望和不期望的项目特征或关于单个项目的偏好。在这种情况下,在该上下文中的核心研究目标是效率,在找到令人满意的项目之前对所需交互的数量进行评估。这通常是通过对向用户询问的最佳下一个问题的推断来实现。如今,对对话效率的研究几乎完全是经验的,旨在说明,例如,选择问题的一个策略优于给定的应用程序中的另一个策略。通过这项工作,我们将实证研究补充了理论,域名的对话建议的独立模型。该模型旨在涵盖一系列应用方案,使我们能够以正式的方式调查会话方法的效率,特别是关于设计最佳相互作用策略的计算复杂性。通过如此理论分析,我们表明,找到高效的会话策略是NP - 硬,并且在PSPace中,但对于特定类型的目录,上限降低到Polylogspace。从实际的角度来看,该结果意味着目录特征可以强烈影响个人对话策略的效率,因此在设计新策略时应考虑。从真实世界派生的数据集的初步实证分析与我们的研究结果对齐。
translated by 谷歌翻译
我们研究了基于消费者的决策积极学习非参数选择模型的问题。我们提出一个负面结果,表明这种选择模型可能无法识别。为了克服可识别性问题,我们介绍了选择模型的有向无环图(DAG)表示,从某种意义上说,该模型可以捕获有关选择模型的更多信息,从而可以从理论上识别信息。然后,我们考虑在主动学习环境中学习与此DAG表示的近似的问题。我们设计了一种有效的主动学习算法,以估计非参数选择模型的DAG表示,该模型在多项式时间内运行时,当随机均匀地绘制频繁排名。我们的算法通过主动和反复提供各种项目并观察所选项目来了解最受欢迎的频繁偏好项目的分布。我们表明,与相应的非活动学习估计算法相比,我们的算法可以更好地恢复有关消费者偏好的合成和公开数据集的一组频繁偏好。这证明了我们的算法和主动学习方法的价值。
translated by 谷歌翻译
如今,可以在许多电子商务平台上找到自动建议,并且此类建议可以为消费者和提供商创造巨大的价值。但是,通常并非所有推荐的物品都具有相同的利润率,因此,提供商可能会诱使促进最大化其利润的项目。在短期内,消费者可能会接受非最佳建议,但从长远来看,他们可能会失去信任。最终,这导致了设计平衡推荐策略的问题,这些策略既考虑消费者和提供商的价值,并带来持续的业务成功。这项工作提出了一个基于基于代理的建模的仿真框架,旨在帮助提供者探索不同推荐策略的纵向动态。在我们的模型中,消费者代理人收到了提供者的建议,并且建议的质量随着时间的推移影响消费者的信任。我们设计了几种推荐策略,可以使提供商的利润更大,或者对消费者公用事业。我们的模拟表明,一种混合​​策略会增加消费者公用事业的权重,但没有忽略盈利能力,从长远来看会导致累计利润最高。与纯粹的消费者或面向利润的策略相比,这种混合策略的利润增加了约20%。我们还发现,社交媒体可以加强观察到的现象。如果消费者严重依赖社交媒体,最佳战略的累积利润进一步增加。为了确保可重复性并培养未来的研究,我们将公开共享我们的灵活模拟框架。
translated by 谷歌翻译
尽管发展了排名优化技术,但点式模型仍然是点击率(CTR)预测的主导方法。它可以归因于点式模型的校准能力,因为可以将预测视为点击概率。在实践中,通常还以排名能力来评估CTR预测模型,基于排名损失(例如,成对或列表损失)的预测模型通常比点置损失更好。先前的研究已经实验了两种损失的直接组合,以从损失中获得收益并观察到改善的性能。但是,先前的研究将输出logit的含义作为点击率,这可能会导致次优的解决方案。为了解决这个问题,我们提出了一种可以共同优化排名和校准能力的方法(简称JRC)。 JRC通过将样品的logit值与不同的标签进行对比,并约束预测概率是logit减法的函数,从而提高了排名能力。我们进一步表明JRC巩固了对逻辑的解释,其中逻辑在其中建模关节分布。通过这样的解释,我们证明JRC近似优化了上下文化的混合歧视生成目标。公共和工业数据集以及在线A/B测试的实验表明,我们的方法提高了排名和校准能力。自2022年5月以来,JRC已被部署在阿里巴巴的展示广告平台上,并获得了显着改进的绩效。
translated by 谷歌翻译
鉴于大型语言模型的广泛能力,应该有可能朝着一般的文本的助手工作,这些助手与人类价值一致,这意味着它是有帮助,诚实的和无害的。在此方向上的初始遗传,我们研究简单的基线技术和评估,例如提示。我们发现,从模型规模增加适度的干预措施的好处,概括为各种对准评估,并不会损害大型模型的性能。接下来,我们调查与对齐,比较仿制,二进制歧视和排名偏好建模相关的几个培训目标的缩放趋势。我们发现排名优先级模型比模仿学习更好地表现得多,并且通常以模型大小更有利地缩放。相比之下,二进制歧视通常与模仿学习非常类似地执行和缩放。最后,我们研究了一种“偏好模型预训练阶段的培训阶段,其目的是在对人偏好的芬明时提高样本效率。
translated by 谷歌翻译
在线学习排名(OL2R)近年来吸引了巨大的研究兴趣,因为它在避免在离线监督排名模型学习中避免昂贵的相关标签来吸引昂贵的相关标签。这样的解决方案探讨了未知数(例如,故意呈现顶部位置的选定结果)以改善其相关性估计。然而,这触发了对其排名公平的担忧:不同的物品组可能在OL2R过程中接受差异治疗。但是现有的公平排名解决方案通常需要事先需要了解结果相关性或表演的排名,这与OL2R的设置相矛盾,因此不能直接应用于保证公平性。在这项工作中,我们提出了一般的框架,以实现由奥尔200R小组暴露定义的公平性。关键的想法是为了校准公平控制,相关学习和在线排名质量的探索和开发。特别是,当模型正在探索一组相关性反馈的结果时,我们将探索限制在随机排列的子集中,其中维护跨组的公平性,而反馈仍然不偏见。理论上,我们证明了这种策略在OL2R遗憾地介绍了最小的扭曲,以获得公平性。在两个公共学习中进行了广泛的实证分析,以对基准数据集进行排名,以展示所提出的解决方案的有效性与现有的公平OL2R解决方案相比。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
我们考虑了顺序评估的问题,在该问题中,评估者以序列观察候选人,并以在线,不可撤销的方式为这些候选人分配分数。受到在这种环境中研究顺序偏见的心理学文献的激励 - 即,评估结果与候选人出现的顺序之间的依赖性 - 我们为评估者的评级过程提出了一个自然模型,该模型捕获了缺乏固有的校准固有的校准这样的任务。我们进行众包实验,以展示模型的各个方面。然后,我们开始研究如何通过将其作为统计推断问题来纠正模型下的顺序偏差。我们提出了一个接近线性的时间,在线算法,以确保两个规范的排名指标可以保证。我们还通过在两个指标中建立匹配的下限来证明我们的算法在理论上是最佳信息。最后,我们表明我们的算法优于使用报告得分引起的排名的事实上的方法。
translated by 谷歌翻译
业务分析(BA)的广泛采用带来了财务收益和提高效率。但是,当BA以公正的影响为决定时,这些进步同时引起了人们对法律和道德挑战的不断增加。作为对这些关注的回应,对算法公平性的新兴研究涉及算法输出,这些算法可能会导致不同的结果或其他形式的对人群亚组的不公正现象,尤其是那些在历史上被边缘化的人。公平性是根据法律合规,社会责任和效用是相关的;如果不充分和系统地解决,不公平的BA系统可能会导致社会危害,也可能威胁到组织自己的生存,其竞争力和整体绩效。本文提供了有关算法公平的前瞻性,注重BA的评论。我们首先回顾有关偏见来源和措施的最新研究以及偏见缓解算法。然后,我们对公用事业关系的详细讨论进行了详细的讨论,强调经常假设这两种构造之间经常是错误的或短视的。最后,我们通过确定企业学者解决有效和负责任的BA的关键的有影响力的公开挑战的机会来绘制前进的道路。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
对排名进行机器学习方法的关键挑战是利益性能度量与可通过基于梯度的方法进行优化的替代损失功能之间的差距。出现这种间隙,因为排名指标通常涉及不分辨率的分类操作w.r.t.模型参数。先前的作品已经提出了与排名指标或简单平滑版本松散相关的代理,并且通常无法扩展到现实世界的应用程序。我们提出了一类新的替代替代品的Pirank,用于排名,基于NeuralOrtor [1]采用连续的温度控制的排放,对分拣操作员进行分拣操作员。我们表明,Pirank恰好恢复了零温度限制的所需度量,进一步提出了分割和征服的延伸,在理论和实践中,对大型名单尺寸有利地缩放。经验上,我们展示了培训期间更大名单大小的作用,并表明Pirank显着提高了公开可用的互联网规模学习的基准的可比方法。
translated by 谷歌翻译
Virtually all machine learning tasks are characterized using some form of loss function, and "good performance" is typically stated in terms of a sufficiently small average loss, taken over the random draw of test data. While optimizing for performance on average is intuitive, convenient to analyze in theory, and easy to implement in practice, such a choice brings about trade-offs. In this work, we survey and introduce a wide variety of non-traditional criteria used to design and evaluate machine learning algorithms, place the classical paradigm within the proper historical context, and propose a view of learning problems which emphasizes the question of "what makes for a desirable loss distribution?" in place of tacit use of the expected loss.
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译