内容创作者竞争用户的关注。它们的影响力至关重要取决于开发人员在在线平台上做出的算法选择。为了最大程度地提高曝光率,许多创作者从策略上适应了,如庞大的搜索引擎优化行业这样的例子所证明。这将为有限的用户注意池竞争。我们在所谓的曝光游戏中正式化了这些动态,这是一种由算法引起的激励模型,包括现代化分解和(深)两位塔体系结构。我们证明,看似无害的算法选择 - 例如,非负和不受约束的分解 - 在曝光游戏中(NASH)平衡的存在和特征显着影响。我们将像我们这样的创建者行为模型用于(前ANTE)前部署审核。这样的审核可以确定所需内容和激励内容之间的错位,从而补充了诸如内容过滤和节制之类的事后措施。为此,我们提出了用于在曝光游戏中找到平衡的工具,并说明了Movielens和LastFM数据集的审核结果。除此之外,我们发现策略生产的内容在算法探索和内容多样性之间表现出强烈的依赖,以及模型表达和对基于性别的用户和创建者群体的偏见。
translated by 谷歌翻译
Recommender systems can strongly influence which information we see online, e.g., on social media, and thus impact our beliefs, decisions, and actions. At the same time, these systems can create substantial business value for different stakeholders. Given the growing potential impact of such AI-based systems on individuals, organizations, and society, questions of fairness have gained increased attention in recent years. However, research on fairness in recommender systems is still a developing area. In this survey, we first review the fundamental concepts and notions of fairness that were put forward in the area in the recent past. Afterward, through a review of more than 150 scholarly publications, we present an overview of how research in this field is currently operationalized, e.g., in terms of general research methodology, fairness measures, and algorithmic approaches. Overall, our analysis of recent works points to specific research gaps. In particular, we find that in many research works in computer science, very abstract problem operationalizations are prevalent, and questions of the underlying normative claims and what represents a fair recommendation in the context of a given application are often not discussed in depth. These observations call for more interdisciplinary research to address fairness in recommendation in a more comprehensive and impactful manner.
translated by 谷歌翻译
数字推荐系统(例如Spotify和Netflix)不仅会影响消费者的行为,还会影响生产者的激励措施:生产商试图提供系统推荐的内容。但是将产生什么内容?在本文中,我们研究了内容推荐系统中的供应方均衡。我们将用户和内容建模为$ d $维矢量,并推荐与每个用户具有最高点产品的内容。我们模型的主要特征是生产者的决策空间高维,用户群是异质的。这引起了平衡的新定性现象:首先是流派的形成,生产者专门竞争用户的亚集。使用二元参数,我们得出了这种专业化的必要条件。其次,我们表明生产商可以在平衡下实现正利润,这在完美的竞争中通常是不可能的。我们得出了足够的条件,并证明它与内容的专业化密切相关。在这两种结果中,用户的几何形状与生产者成本的结构之间的相互作用都会影响供应方均衡的结构。从概念上讲,我们的工作是研究推荐系统如何塑造生产者之间供应方竞争的起点。
translated by 谷歌翻译
我们考虑战略设置,其中几个用户在重复的在线互动中聘用,辅助最小化的代理商代表他们反复发挥“游戏”。我们研究了代理人的重复游戏的动态和平均结果,并将其视为诱导用户之间的元游戏。我们的主要焦点是用户可以在此元游戏中从“操纵”他们自己的代理商中可以受益于他们自己的代理商。我们正式定义了普通游戏的这种“用户代理元荟萃游戏”模型,讨论了自动化代理动态的不同概念下的属性,并分析了2x2游戏中用户的均衡,其中动态收敛到a单均衡。
translated by 谷歌翻译
学习问题通常表现出一个有趣的反馈机制,其中人口数据对竞争决策者的行为作出反应。本文为这种现象制定了一种新的游戏理论框架,称为多人执行预测。我们专注于两个不同的解决方案概念,即(i)表现稳定稳定的均衡和(ii)纳什均衡的比赛。后者均衡可以说是更具信息性的,但只有在游戏是单调时才有效地发现。我们表明,在温和的假设下,可以通过各种算法有效地发现所需稳定的均衡,包括重复再培训和重复(随机)梯度播放。然后,我们为游戏的强大单调性建立透明的充分条件,并使用它们开发用于查找纳什均衡的算法。我们研究了衍生免费方法和自适应梯度算法,其中每个玩家在学习其分发和梯度步骤的学习的分配和梯度步骤之间交替。合成和半合成数值实验说明了结果。
translated by 谷歌翻译
We study the problem of computing an approximate Nash equilibrium of continuous-action game without access to gradients. Such game access is common in reinforcement learning settings, where the environment is typically treated as a black box. To tackle this problem, we apply zeroth-order optimization techniques that combine smoothed gradient estimators with equilibrium-finding dynamics. We model players' strategies using artificial neural networks. In particular, we use randomized policy networks to model mixed strategies. These take noise in addition to an observation as input and can flexibly represent arbitrary observation-dependent, continuous-action distributions. Being able to model such mixed strategies is crucial for tackling continuous-action games that lack pure-strategy equilibria. We evaluate the performance of our method using an approximation of the Nash convergence metric from game theory, which measures how much players can benefit from unilaterally changing their strategy. We apply our method to continuous Colonel Blotto games, single-item and multi-item auctions, and a visibility game. The experiments show that our method can quickly find high-quality approximate equilibria. Furthermore, they show that the dimensionality of the input noise is crucial for performance. To our knowledge, this paper is the first to solve general continuous-action games with unrestricted mixed strategies and without any gradient information.
translated by 谷歌翻译
当今许多大型系统的设计,从交通路由环境到智能电网,都依赖游戏理论平衡概念。但是,随着$ n $玩家游戏的大小通常会随着$ n $而成倍增长,标准游戏理论分析实际上是不可行的。最近的方法通过考虑平均场游戏,匿名$ n $玩家游戏的近似值,在这种限制中,玩家的数量是无限的,而人口的状态分布,而不是每个单独的球员的状态,是兴趣。然而,迄今为止研究最多的平均场平衡的平均场nash平衡的实际可计算性通常取决于有益的非一般结构特性,例如单调性或收缩性能,这是已知的算法收敛所必需的。在这项工作中,我们通过开发均值相关和与粗相关的平衡的概念来研究平均场比赛的替代途径。我们证明,可以使用三种经典算法在\ emph {ash All Games}中有效地学习它们,而无需对游戏结构进行任何其他假设。此外,我们在文献中已经建立了对应关系,从而获得了平均场 - $ n $玩家过渡的最佳范围,并经验证明了这些算法在简单游戏中的收敛性。
translated by 谷歌翻译
我们开发了一个统一的随机近似框架,用于分析游戏中多学院在线学习的长期行为。我们的框架基于“原始偶尔”,镜像的Robbins-Monro(MRM)模板,该模板涵盖了各种各样的流行游戏理论学习算法(梯度方法,乐观的变体,Exp3算法,用于基于付费的反馈,在有限游戏等中)。除了提供这些算法的综合视图外,提出的MRM蓝图还使我们能够在连续和有限的游戏中获得渐近和有限时间的广泛新收敛结果。
translated by 谷歌翻译
设计为与时间变化的偏好保持一致的内容的推荐系统需要正确地计算建议对人类行为和心理状况的反馈影响。我们认为,建模建议对人们偏好的影响必须基于心理合理的模型。我们为开发接地动态偏好模型提供了一种方法。我们通过模型来证明这种方法,这些模型从心理学文献中捕获了三种经典效果:裸露,操作条件和享乐调整。我们进行基于仿真的研究,以表明心理模型表现出可以为系统设计提供信息的不同行为。我们的研究对建议系统中的动态用户建模有两个直接影响。首先,我们概述的方法广泛适用于心理基础动态偏好模型。它使我们能够根据他们对心理基础及其难以置信的预测的有限讨论来批评最近的贡献。其次,我们讨论动态偏好模型对建议系统评估和设计的含义。在一个示例中,我们表明参与度和多样性指标可能无法捕获理想的建议系统性能。
translated by 谷歌翻译
最近的多人游戏的理论和应用方面的最新进步,从电子运动到多种子体生成的对抗网络,我们专注于团队零和游戏中的最大优化。在这类游戏中,玩家分为两支队伍,在同一支队内等等,对手团队的相反标志。与TextBook二手零和游戏不同,在我们的类中找到纳什均衡可以被证明是CLS-Hard,即,它不太可能具有用于计算NASH均衡的多项式时间算法。此外,在该广义框架中,使用梯度下降上升(GDA),其乐观变体和额外梯度,我们建立了即使是渐近的最后一次迭代或时间平均收敛到纳什均衡。具体来说,我们展示了一个诱导效用是\ emph {non}的团队游戏系列\ \ emph {non}有吸引力的\ {per-se}混合的纳什均衡,作为底层优化景观的严格鞍点。利用控制理论的技术,我们通过设计局部收敛的修改GDA来补充这些负面结果,以纳入均衡。最后,我们讨论了我们的框架与AI架构的联系,其中与多助理生成对冲网络这样的团队竞争结构。
translated by 谷歌翻译
在本文中,我们提出了一种方法,用于预测社交媒体对等体之间的信任链接,其中一个是在多识别信任建模的人工智能面积。特别是,我们提出了一种数据驱动的多面信任信任建模,该信任建模包括许多不同的特征以进行全面分析。我们专注于展示类似用户的聚类如何实现关键新功能:支持更个性化的,从而为用户提供更准确的预测。在信任感知项目推荐任务中说明,我们在大yelp数据集的上下文中评估所提出的框架。然后,我们讨论如何提高社交媒体的可信关系的检测可以帮助在最近爆发的社交网络环境中支持在线用户的违法行为和谣言的传播。我们的结论是关于一个特别易受资助的用户基础,老年人的反思,以说明关于用户组的推理价值,期望通过通过数据分析获得的洞察力集成已知偏好的一些未来方向。
translated by 谷歌翻译
大多数算法研究到目前为止,多智能经纪信息设计的研究专注于没有代理商外部性的限制情况;一些例外调查了真正的战略游戏,如零和游戏和二价格拍卖,但只关注最佳的公共信令。本文启动了\ emph {public}和\ emph {privy}信号传导的算法信息设计,其中of基本的外部性,即单例拥塞游戏,在今天的数字经济中的应用范围广,机器调度,路由,对于公共和私人信令等,我们表明,当资源数量是常数时,可以有效地计算最佳信息设计。为了我们的知识,这是一系列高效的\ EMPH {精确}算法,用于在简明地代表的许多玩家游戏中的信息设计。我们的结果符合新颖的技术,如开发某些“减少形式”,以便在公共信令中紧凑地表征均衡或代表私人信令中的球员边际信仰。当有许多资源时,我们会显示计算难扰性结果。为了克服多个均衡问题,这里我们介绍了均衡 - \ EMPH {忽视}硬度的新概念,这条规定了计算良好信令方案的任何可能性,而不管均衡选择规则如何。
translated by 谷歌翻译
排名已成为双面在线市场的主要界面。许多人指出,排名不仅影响用户的满意度(例如,客户,听众,雇主,旅行者),而且排名中的位置将曝光率分配给排名项目(例如,例如文章,产品,歌曲,求职者,餐馆,酒店)。这已经提出了对项目的公平性问题,大多数现有作品通过将项目的暴露与项目相关性明确链接在一起,从而解决了公平性。但是,我们认为,这种链接功能的任何特定选择都可能很难捍卫,我们表明结果排名仍然不公平。为了避免这些缺点,我们开发了一种植根于公平分裂原则的新的公理方法。这不仅避免了选择链接功能的需求,而且更有意义地量化了对曝光范围之外的项目的影响。我们对统一排名的嫉妒性和主导地位的公理假设,对于公平排名政策,每个项目都应该比其他任何项目的排名分配,并且任何项目都不应受到排名的不利影响。为了计算按照这些公理的公平政策,我们提出了一个与纳什社会福利有关的新排名目标。我们表明,该解决方案已保证其嫉妒性,其对每个项目的统一排名的主导地位以及帕累托的最优性。相比之下,我们表明,基于暴露的公平性可以产生大量嫉妒,并对这些物品产生高度不同的影响。除了这些理论上的结果外,我们还从经验上说明了我们的框架如何控制基于影响的个人项目公平和用户实用程序之间的权衡。
translated by 谷歌翻译
In this paper, we consider the problem of adjusting the exploration rate when using value-of-information-based exploration. We do this by converting the value-of-information optimization into a problem of finding equilibria of a flow for a changing exploration rate. We then develop an efficient path-following scheme for converging to these equilibria and hence uncovering optimal action-selection policies. Under this scheme, the exploration rate is automatically adapted according to the agent's experiences. Global convergence is theoretically assured. We first evaluate our exploration-rate adaptation on the Nintendo GameBoy games Centipede and Millipede. We demonstrate aspects of the search process. We show that our approach yields better policies in fewer episodes than conventional search strategies relying on heuristic, annealing-based exploration-rate adjustments. We then illustrate that these trends hold for deep, value-of-information-based agents that learn to play ten simple games and over forty more complicated games for the Nintendo GameBoy system. Performance either near or well above the level of human play is observed.
translated by 谷歌翻译
在本文中,我们提出了连续时间游戏理论镜中下降(MD)动态的二阶扩展,称为MD2,其收敛于MED(但不一定是严格的)变分性稳定状态(VSS)而不使用常见辅助技术,如平均或折扣。我们表明MD2在轻微修改后享有无悔的趋势以及对强大的VSS的指数汇率。此外,MD2可用于导出许多新颖的原始空间动态。最后,使用随机近似技术,我们提供了对内部仅噪声的离散时间MD2的收敛保证。提供了所选模拟以说明我们的结果。
translated by 谷歌翻译
现有的制定公平计算定义的努力主要集中在平等的分布概念上,在这种情况下,平等是由系统中给出的资源或决策定义的。然而,现有的歧视和不公正通常是社会关系不平等的结果,而不是资源分配不平等。在这里,我们展示了对公平和平等的现有计算和经济定义的优化,无法防止不平等的社会关系。为此,我们提供了一个在简单的招聘市场中具有自我融合平衡的示例,该市场在关系上不平等,但满足了现有的公平分布概念。在此过程中,我们引入了公然的关系不公平的概念,对完整信息游戏进行了讨论,并讨论了该定义如何有助于启动一种将关系平等纳入计算系统的新方法。
translated by 谷歌翻译
经验和实验证据表明,人工智能算法学会收取超竞争价格。在本文中,我们开发了一种理论模型来通过自适应学习算法研究勾结。使用流体近似技术,我们表征了一般游戏的连续时间学习成果,并确定勾结的主要驱动力:协调偏见。在一个简单的主导策略游戏中,我们展示了算法估计之间的相关性如何导致持续的偏见,从长远来看持续犯罪行动。我们证明,使用反事实收益来告知其更新的算法避免了这种偏见并融合了主导策略。我们设计了一种带有反馈的机制:设计师揭示了事前信息以帮助反事实计算。我们表明,这种机制实现了社会最佳。最后,我们将我们的框架应用于文献中研究和拍卖的两个模拟,并分析结果合理化。
translated by 谷歌翻译
如今,可以在许多电子商务平台上找到自动建议,并且此类建议可以为消费者和提供商创造巨大的价值。但是,通常并非所有推荐的物品都具有相同的利润率,因此,提供商可能会诱使促进最大化其利润的项目。在短期内,消费者可能会接受非最佳建议,但从长远来看,他们可能会失去信任。最终,这导致了设计平衡推荐策略的问题,这些策略既考虑消费者和提供商的价值,并带来持续的业务成功。这项工作提出了一个基于基于代理的建模的仿真框架,旨在帮助提供者探索不同推荐策略的纵向动态。在我们的模型中,消费者代理人收到了提供者的建议,并且建议的质量随着时间的推移影响消费者的信任。我们设计了几种推荐策略,可以使提供商的利润更大,或者对消费者公用事业。我们的模拟表明,一种混合​​策略会增加消费者公用事业的权重,但没有忽略盈利能力,从长远来看会导致累计利润最高。与纯粹的消费者或面向利润的策略相比,这种混合策略的利润增加了约20%。我们还发现,社交媒体可以加强观察到的现象。如果消费者严重依赖社交媒体,最佳战略的累积利润进一步增加。为了确保可重复性并培养未来的研究,我们将公开共享我们的灵活模拟框架。
translated by 谷歌翻译
推荐系统正面临审查,因为它们对我们可以获得的机会的影响越来越大。目前对公平的审计仅限于敏感群体水平的粗粒度评估。我们建议审核嫉妒 - 狂喜,一个与个别偏好对齐的更精细的标准:每个用户都应该更喜欢他们的建议给其他用户的建议。由于审计要求估计用户超出现有建议的用户的偏好,因此我们将审计作为多武装匪徒的新纯粹探索问题。我们提出了一种采样的效率算法,具有理论上的保证,它不会恶化用户体验。我们还研究了现实世界推荐数据集实现的权衡。
translated by 谷歌翻译
尽管自1970年代以来就已经知道,普通付款游戏中的全球最佳策略概况是纳什均衡,但全球最优性是严格的要求,它限制了结果的适用性。在这项工作中,我们表明任何本地最佳的对称策略概况也是(全局)NASH平衡。此外,我们证明了这一结果对通用收益和本地最佳的扰动是可靠的。应用于机器学习,我们的结果为任何梯度方法提供了全球保证,该方法在对称策略空间中找到了局部最佳。尽管该结果表明单方面偏差的稳定性,但我们仍然确定了广泛的游戏类别,这些游戏混合了当地的最佳选择,在不对称的偏差下是不稳定的。我们通过在一系列对称游戏中运行学习算法来分析不稳定性的普遍性,并通过讨论结果对多代理RL,合作逆RL和分散的POMDP的适用性来得出结论。
translated by 谷歌翻译