智能论文笔记

An Experimental Study on Learning Correlated Equilibrium in Routing Games

Yixian Zhu , Ketan Savla

分类：机器学习

2022-07-31

我们在重复的路由游戏中研究路线选择，其中不确定的自然状态决定了链接延迟功能，并且代理会收到私人路线建议。该状态在I.I.D.在公开分布中的每一轮方式中，这些建议是由随机策略产生的，该策略的映射是公开的。在一次性的环境中，据说代理商会遵守建议，如果它给予后验期间的旅行时间最少。重复设置的合理扩展是，一轮遵循建议的可能性与以前的一轮遗憾有关。如果对默认选择的遗憾是令人满意的类型，并且在过去和所有代理商中平均，那么在听话建议政策下的渐近结果与单次射击结果相吻合。我们报告一次与一位参与者进行的一项实验的发现，一次在计算机上重复选择路线选择决策。在每一轮中，都会向参与者显示每条路线的旅行时间分配，一项由听话政策产生的路线建议以及建议以推荐质量的先前参与者的平均经验。进入路线选择后，揭示了实际的旅行时间。参与者通过提交审查来评估推荐质量。这与历史评论相结合，以更新下一轮的评级。来自33个参与者的数据分析有100轮，表明显示额定评级与平均遗憾之间的中等负相关，以及评级与遵循建议的可能性之间的强正相关性。总体而言，在听话推荐政策下，在实验结束时，额定值与非常高的以下建议相结合。

translated by 谷歌翻译

Learning Correlated Equilibria in Mean-Field Games

Paul Muller , Romuald Elie , Mark Rowland , Mathieu Lauriere , Julien Perolat , Sarah Perrin , Matthieu Geist , Georgios Piliouras , Olivier Pietquin , Karl Tuyls

分类： (统计)机器学习

2022-08-22

当今许多大型系统的设计，从交通路由环境到智能电网，都依赖游戏理论平衡概念。但是，随着$ n $玩家游戏的大小通常会随着$ n $而成倍增长，标准游戏理论分析实际上是不可行的。最近的方法通过考虑平均场游戏，匿名$ n $玩家游戏的近似值，在这种限制中，玩家的数量是无限的，而人口的状态分布，而不是每个单独的球员的状态，是兴趣。然而，迄今为止研究最多的平均场平衡的平均场nash平衡的实际可计算性通常取决于有益的非一般结构特性，例如单调性或收缩性能，这是已知的算法收敛所必需的。在这项工作中，我们通过开发均值相关和与粗相关的平衡的概念来研究平均场比赛的替代途径。我们证明，可以使用三种经典算法在\ emph {ash All Games}中有效地学习它们，而无需对游戏结构进行任何其他假设。此外，我们在文献中已经建立了对应关系，从而获得了平均场 - $ n $玩家过渡的最佳范围，并经验证明了这些算法在简单游戏中的收敛性。

translated by 谷歌翻译

Algorithmic Information Design in Multi-Player Games: Possibility and Limits in Singleton Congestion

Chenghan Zhou , Thanh H. Nguyen , Haifeng Xu

分类：人工智能

2021-09-25

大多数算法研究到目前为止，多智能经纪信息设计的研究专注于没有代理商外部性的限制情况;一些例外调查了真正的战略游戏，如零和游戏和二价格拍卖，但只关注最佳的公共信令。本文启动了\ emph {public}和\ emph {privy}信号传导的算法信息设计，其中of基本的外部性，即单例拥塞游戏，在今天的数字经济中的应用范围广，机器调度，路由，对于公共和私人信令等，我们表明，当资源数量是常数时，可以有效地计算最佳信息设计。为了我们的知识，这是一系列高效的\ EMPH {精确}算法，用于在简明地代表的许多玩家游戏中的信息设计。我们的结果符合新颖的技术，如开发某些“减少形式”，以便在公共信令中紧凑地表征均衡或代表私人信令中的球员边际信仰。当有许多资源时，我们会显示计算难扰性结果。为了克服多个均衡问题，这里我们介绍了均衡 - \ EMPH {忽视}硬度的新概念，这条规定了计算良好信令方案的任何可能性，而不管均衡选择规则如何。

translated by 谷歌翻译

Deviation-Based Learning: Training Recommender Systems Using Informed User Choice

Junpei Komiyama , Shunya Noda

分类： (统计)机器学习

2021-09-20

本文提出了一种新的培训建议系统的方法，称为基于偏差的学习。建议者和理性用户有不同的知识。推荐人通过观察用户在收到建议时采取的行动来学习用户知识。最终学习如果推荐人总是建议选择：在推荐人完成学习之前，用户开始盲目地遵循建议，他们的选择并不能反映他们的知识。如果推荐人预测多种替代方案将产生类似的回报，那么学习率和社会福利会大大提高。

translated by 谷歌翻译

From Outcome-Based to Language-Based Preferences

Valerio Capraro , Joseph Y. Halpern , Matjaz Perc

分类：人工智能

2022-06-15

我们回顾了有关模型的文献，这些文献试图解释具有金钱回报的正常形式游戏所描述的社交互动中的人类行为。我们首先涵盖社会和道德偏好。然后，我们专注于日益增长的研究，表明人们对描述行动的语言做出反应，尤其是在激活道德问题时。最后，我们认为行为经济学正处于向基于语言的偏好转变的范式中，这将需要探索新的模型和实验设置。

translated by 谷歌翻译

Competing Bandits: The Perils of Exploration Under Competition

Guy Aridor , Yishay Mansour , Aleksandrs Slivkins , Zhiwei Steven Wu

分类：机器学习

2020-07-20

大多数在线平台都在努力从与用户的互动中学习，许多人从事探索：为了获取新信息而做出潜在的次优选择。我们研究探索与竞争之间的相互作用：这样的平台如何平衡学习探索和用户的竞争。在这里，用户扮演三个不同的角色：他们是产生收入的客户，他们是学习的数据来源，并且是自私的代理商，可以在竞争平台中进行选择。我们考虑了一种风格化的双重垄断模型，其中两家公司面临着相同的多军强盗问题。用户一一到达，并在两家公司之间进行选择，因此，只有在选择它的情况下，每个公司都在其强盗问题上取得进展。通过理论结果和数值模拟的混合，我们研究了竞争是否会激发更好的Bandit算法的采用，以及它是否导致用户增加福利。我们发现，Stark竞争会导致公司致力于导致低福利的“贪婪”强盗算法。但是，通过向公司提供一些“免费”用户来激励更好的探索策略并增加福利来削弱竞争。我们调查了削弱竞争的两个渠道：放松用户的理性并为一家公司带来首次推广优势。我们的发现与“竞争与创新”关系密切相关，并阐明了数字经济中的第一步优势。

translated by 谷歌翻译

Personalized multi-faceted trust modeling to determine trust links in social media and its potential for misinformation management

Alexandre Parmentier , Robin Cohen , Xueguang Ma , Gaurav Sahu , Queenie Chen

分类：人工智能

2021-11-11

在本文中，我们提出了一种方法，用于预测社交媒体对等体之间的信任链接，其中一个是在多识别信任建模的人工智能面积。特别是，我们提出了一种数据驱动的多面信任信任建模，该信任建模包括许多不同的特征以进行全面分析。我们专注于展示类似用户的聚类如何实现关键新功能：支持更个性化的，从而为用户提供更准确的预测。在信任感知项目推荐任务中说明，我们在大yelp数据集的上下文中评估所提出的框架。然后，我们讨论如何提高社交媒体的可信关系的检测可以帮助在最近爆发的社交网络环境中支持在线用户的违法行为和谣言的传播。我们的结论是关于一个特别易受资助的用户基础，老年人的反思，以说明关于用户组的推理价值，期望通过通过数据分析获得的洞察力集成已知偏好的一些未来方向。

translated by 谷歌翻译

Advancing Human-AI Complementarity: The Impact of User Expertise and Algorithmic Tuning on Joint Decision Making

Kori Inkpen , Shreya Chappidi , Keri Mallari , Besmira Nushi , Divya Ramesh , Pietro Michelucci , Vani Mandava , Libuše Hannah Vepřek , Gabrielle Quinn

分类：人工智能

2022-08-16

人为决策的合作努力实现超出人类或人工智能表现的团队绩效。但是，许多因素都会影响人类团队的成功，包括用户的领域专业知识，AI系统的心理模型，对建议的信任等等。这项工作检查了用户与三种模拟算法模型的互动，所有这些模型都具有相似的精度，但对其真正的正面和真实负率进行了不同的调整。我们的研究检查了在非平凡的血管标签任务中的用户性能，参与者表明给定的血管是流动还是停滞。我们的结果表明，虽然AI-Assistant的建议可以帮助用户决策，但用户相对于AI的基线性能和AI错误类型的补充调整等因素会显着影响整体团队的整体绩效。新手用户有所改善，但不能达到AI的准确性。高度熟练的用户通常能够识别何时应遵循AI建议，并通常保持或提高其性能。与AI相似的准确性水平的表演者在AI建议方面是最大的变化。此外，我们发现用户对AI的性能亲戚的看法也对给出AI建议时的准确性是否有所提高产生重大影响。这项工作提供了有关与人类协作有关的因素的复杂性的见解，并提供了有关如何开发以人为中心的AI算法来补充用户在决策任务中的建议。

translated by 谷歌翻译

How and Why to Manipulate Your Own Agent

Yoav Kolumbus , Noam Nisan

分类：人工智能 | 机器学习

2021-12-14

我们考虑战略设置，其中几个用户在重复的在线互动中聘用，辅助最小化的代理商代表他们反复发挥“游戏”。我们研究了代理人的重复游戏的动态和平均结果，并将其视为诱导用户之间的元游戏。我们的主要焦点是用户可以在此元游戏中从“操纵”他们自己的代理商中可以受益于他们自己的代理商。我们正式定义了普通游戏的这种“用户代理元荟萃游戏”模型，讨论了自动化代理动态的不同概念下的属性，并分析了2x2游戏中用户的均衡，其中动态收敛到a单均衡。

translated by 谷歌翻译

Hindsight and Sequential Rationality of Correlated Play

Dustin Morrill , Ryan D'Orazio , Reca Sarfati , Marc Lanctot , James R. Wright , Amy Greenwald , Michael Bowling

分类：人工智能

2020-12-10

在最近在两人，零和游戏中取得成功的驱动下，人工智能在游戏中的工作越来越重视产生基于平衡策略的算法。但是，这种方法在培养通用游戏或两个以上玩家的能力的玩家中的效果较小，而不是在两人游戏中的零和零游戏中。一个有吸引力的替代方法是考虑自适应算法，以确保相对于修改行为可以实现的方面的强劲表现。这种方法还导致了游戏理论分析，但是在关节学习动力学而不是均衡的代理行为引起的相关性游戏中。我们在一般的顺序决策环境中发展并倡导这一对学习的事后理性理性框架。为此，我们在广泛的游戏中重新检查了介导的平衡和偏差类型，从而获得了更完整的理解和解决过去的误解。我们提出了一组示例，说明了文献中每种平衡的独特优势和劣势，并证明没有可牵引的概念可以包含所有其他概念。这一探究线在与反事实遗憾最小化（CFR）家族中算法相对应的偏差和平衡类的定义中达到顶点，将它们与文献中的所有其他人联系起来。更详细地研究CFR进一步导致相关游戏中合理性的新递归定义，该定义以自然适用于后代评估的方式扩展了顺序合理性。

translated by 谷歌翻译

No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium

Andrea Celli , Alberto Marchesi , Gabriele Farina , Nicola Gatti

分类：人工智能 | 机器学习

2020-04-01

在正常游戏中，简单，未耦合的无regret动态与相关的平衡是多代理系统理论的著名结果。具体而言，已知20多年来，当所有玩家都试图在重复的正常游戏中最大程度地减少其内部遗憾时，游戏的经验频率会收敛于正常形式相关的平衡。广泛的形式（即树形）游戏通过对顺序和同时移动以及私人信息进行建模，从而推广正常形式的游戏。由于游戏中部分信息的顺序性质和存在，因此广泛的形式相关性具有与正常形式的属性明显不同，而正常形式的相关性仍然是开放的研究方向。已经提出了广泛的形式相关平衡（EFCE）作为自然的广泛形式与正常形式相关平衡。但是，目前尚不清楚EFCE是否是由于未耦合的代理动力学而出现的。在本文中，我们给出了第一个未耦合的无regret动态，该动态将$ n $ n $ - 玩家的General-sum大型游戏收敛于EFCE，并带有完美的回忆。首先，我们在广泛的游戏中介绍了触发遗憾的概念，这扩展了正常游戏中的内部遗憾。当每个玩家的触发后悔低时，游戏的经验频率接近EFCE。然后，我们给出有效的无触发式算法。我们的算法在每个决策点在每个决策点上都会从每个决策点构建播放器的全球策略，从而将触发遗憾分解为本地子问题。

translated by 谷歌翻译

Auctions Between Regret-Minimizing Agents

Yoav Kolumbus , Noam Nisan

分类：人工智能 | 机器学习

2021-10-22

我们分析了一种方案，其中软件代理作为后悔最小化算法代表他们的用户参与重复拍卖。我们研究了第一个价格和第二次价格拍卖，以及他们的广义版本（例如，作为用于广告拍卖的版本）。利用理论分析和模拟，我们展示了，令人惊讶的是，在二次价格拍卖中，球员的激励措施将他们的真正估值释放到自己的学习代理，而在第一次价格拍卖中，这是所有球员如实的主要战略向他们的代理商报告他们的估值。

translated by 谷歌翻译

Balancing Consumer and Business Value of Recommender Systems: A Simulation-based Analysis

Nada Ghanem , Stephan Leitner , Dietmar Jannach

分类：人工智能

2022-03-10

如今，可以在许多电子商务平台上找到自动建议，并且此类建议可以为消费者和提供商创造巨大的价值。但是，通常并非所有推荐的物品都具有相同的利润率，因此，提供商可能会诱使促进最大化其利润的项目。在短期内，消费者可能会接受非最佳建议，但从长远来看，他们可能会失去信任。最终，这导致了设计平衡推荐策略的问题，这些策略既考虑消费者和提供商的价值，并带来持续的业务成功。这项工作提出了一个基于基于代理的建模的仿真框架，旨在帮助提供者探索不同推荐策略的纵向动态。在我们的模型中，消费者代理人收到了提供者的建议，并且建议的质量随着时间的推移影响消费者的信任。我们设计了几种推荐策略，可以使提供商的利润更大，或者对消费者公用事业。我们的模拟表明，一种混合策略会增加消费者公用事业的权重，但没有忽略盈利能力，从长远来看会导致累计利润最高。与纯粹的消费者或面向利润的策略相比，这种混合策略的利润增加了约20％。我们还发现，社交媒体可以加强观察到的现象。如果消费者严重依赖社交媒体，最佳战略的累积利润进一步增加。为了确保可重复性并培养未来的研究，我们将公开共享我们的灵活模拟框架。

translated by 谷歌翻译

Fine-tuning language models to find agreement among humans with diverse preferences

Michiel A. Bakker , Martin J. Chadwick , Hannah R. Sheahan , Michael Henry Tessler , Lucy Campbell-Gillingham , Jan Balaguer , Nat McAleese , Amelia Glaese , John Aslanides , Matthew M. Botvinick

分类：机器学习 | 自然语言处理

2022-11-28

Recent work in large language modeling (LLMs) has used fine-tuning to align outputs with the preferences of a prototypical user. This work assumes that human preferences are static and homogeneous across individuals, so that aligning to a a single "generic" user will confer more general alignment. Here, we embrace the heterogeneity of human preferences to consider a different challenge: how might a machine help people with diverse views find agreement? We fine-tune a 70 billion parameter LLM to generate statements that maximize the expected approval for a group of people with potentially diverse opinions. Human participants provide written opinions on thousands of questions touching on moral and political issues (e.g., "should we raise taxes on the rich?"), and rate the LLM's generated candidate consensus statements for agreement and quality. A reward model is then trained to predict individual preferences, enabling it to quantify and rank consensus statements in terms of their appeal to the overall group, defined according to different aggregation (social welfare) functions. The model produces consensus statements that are preferred by human users over those from prompted LLMs (>70%) and significantly outperforms a tight fine-tuned baseline that lacks the final ranking step. Further, our best model's consensus statements are preferred over the best human-generated opinions (>65%). We find that when we silently constructed consensus statements from only a subset of group members, those who were excluded were more likely to dissent, revealing the sensitivity of the consensus to individual contributions. These results highlight the potential to use LLMs to help groups of humans align their values with one another.

translated by 谷歌翻译

Improving Human Decision-Making with Machine Learning

Hamsa Bastani , Osbert Bastani , Wichinpong Park Sinchaisri

分类：机器学习

2021-08-19

工人花费大量时间学习如何做出正确的决定。但是，评估给定决策的功效可能很复杂 - 例如，决策结果通常是长期的，并且以复杂的方式与原始决策有关。令人惊讶的是，即使学习良好的决策策略很困难，它们通常可以以简单明了的形式表达。为了关注顺序决策，我们设计了一种新颖的机器学习算法，该算法能够从跟踪数据中提取“最佳实践”，并以可解释的“提示”的形式向人类传达其见解。我们的算法选择了最能弥合人类工人所采取的行动与最佳政策所采取的行动之间差距的提示，以说明行动对实现更高绩效的影响的方式。我们通过一系列参与者管理虚拟厨房的一系列随机对照实验来评估我们的方法。我们的实验表明，我们算法产生的提示可以显着改善相对于直观基准的人类性能。此外，我们讨论了许多经验见解，这些见解可以帮助告知针对人类界面的算法设计。例如，我们发现参与者不仅盲目地遵循我们的技巧的证据。相反，他们将他们与自己的经验结合在一起，以发现改善性能的其他策略。

translated by 谷歌翻译

Allocation Schemes in Analytic Evaluation: Applicant-Centric Holistic or Attribute-Centric Segmented?

Jingyan Wang , Carmel Baharav , Nihar B. Shah , Anita Williams Woolley , R Ravi

分类：人工智能 | 机器学习

2022-09-18

招聘和大学录取等许多申请涉及申请人的评估和选择。这些任务在根本上是困难的，并且需要从多个不同方面（我们称为“属性”）结合证据。在这些应用程序中，申请人的数量通常很大，一个常见的做法是以分布式方式将任务分配给多个评估人员。具体而言，在经常使用的整体分配中，每个评估者都会分配申请人的子集，并要求评估其分配的申请人的所有相关信息。但是，这样的评估过程受到诸如错误校准的问题的约束（评估人员仅见一小部分申请人，并且可能没有良好的相对质量感）和歧视（评估者受到有关申请人无关的信息的影响）。我们确定基于属性的评估允许替代分配方案。具体而言，我们考虑分配每个评估者更多的申请人，但每个申请人的属性更少，称为分割分配。我们通过理论和实验方法比较了分段分配与几个维度的整体分配。我们在这两种方法之间建立了各种折衷方案，并确定一种方法在其中一种方法比另一种方法更准确地评估。

translated by 谷歌翻译

Efficient Deviation Types and Learning for Hindsight Rationality in Extensive-Form Games

Dustin Morrill , Ryan D'Orazio , Marc Lanctot , James R. Wright , Michael Bowling , Amy Greenwald

分类：人工智能

2021-02-13

事后观察合理性是一种玩一般游戏的方法，该游戏规定了针对一组偏差的单个代理的无重格学习动态，并进一步描述了具有介导的平衡的多个代理商之间的共同理性行为。为了在依次的决策设置中发展事后理性学习，我们将行为偏差形式化为一般偏差，尊重广泛形式游戏的结构。将时间选择的概念整合到反事实遗憾的最小化（CFR）中，我们介绍了广泛的遗憾最小化（EFR）算法，该算法对于任何给定的行为偏差都具有与集合的复杂性紧密相关的计算相关的行为偏差。我们识别行为偏差子集，部分序列偏差类型，这些类型还包含先前研究的类型并导致长度中等的游戏中有效的EFR实例。此外，我们对基准游戏中不同偏差类型实例化的EFR进行了彻底的经验分析，我们发现更强大的类型通常会引起更好的性能。

translated by 谷歌翻译

Committing to Interdependence: Implications from Game Theory for Human-Robot Trust

Yosef S. Razin , Karen M. Feigh

分类：机器人

2021-11-12

人机互动和博弈论在相对隔离中，在彼此相对隔离三十年来发展了不同的信任理论。人机互动专注于信任模型的潜在尺寸，层，相关性和前一种，而游戏理论集中在奇异信任决策背后的心理学和策略。这两个领域都努力了解过度信任和信任校准，以及如何衡量信任期望，风险和脆弱性。本文介绍了关闭这些字段之间的差距的初始步骤。使用相互依存理论和社会心理学的见解和实验结果，这项工作开始分析大型游戏理论竞争数据集，以证明各种人类信任交互的最强预测因子是承诺和信任的相互依存导出的变量我们开发了。然后，它提出了对人类主题的第二次研究，以获得更现实的信任情景，涉及人类和人机信任。在竞争数据和我们的实验数据中，我们证明了相互依存的指标更好地捕获了博弈论所提出的理性或规范性心理推理的社会“超级”。这项工作进一步探讨了相互依存的理论 - 以其对承诺，胁迫和合作的关注 - 解决了人机信托内的许多拟议的基础构建和前所，在机器人取代人类时缩小了新的光线的关键相似之处和差异在信任互动中。

translated by 谷歌翻译

Learning to Play No-Press Diplomacy with Best Response Policy Iteration

Thomas Anthony , Tom Eccles , Andrea Tacchetti , János Kramár , Ian Gemp , Thomas C. Hudson , Nicolas Porcel , Marc Lanctot , Julien Pérolat , Richard Everett

分类：机器学习 | 人工智能 | (统计)机器学习

2020-06-08

深度加强学习（RL）的最新进展导致许多2人零和游戏中的相当大的进展，如去，扑克和星际争霸。这种游戏的纯粹对抗性质允许概念上简单地应用R1方法。然而，现实世界的设置是许多代理商，代理交互是复杂的共同利益和竞争方面的混合物。我们认为外交，一个旨在突出由多种代理交互导致的困境的7人棋盘游戏。它还具有大型组合动作空间和同时移动，这对RL算法具有具有挑战性。我们提出了一个简单但有效的近似最佳响应操作员，旨在处理大型组合动作空间并同时移动。我们还介绍了一系列近似虚构游戏的政策迭代方法。通过这些方法，我们成功地将RL申请到外交：我们认为我们的代理商令人信服地令人信服地表明，游戏理论均衡分析表明新过程产生了一致的改进。

translated by 谷歌翻译

Learning Strategies in Decentralized Matching Markets under Uncertain Preferences

Xiaowu Dai , Michael I. Jordan

分类：机器学习 | (统计)机器学习

2020-10-29

当代理偏好未知的先验时，我们研究了在共享资源的稀缺时决策的问题问题，并且必须从数据中学到。将双面匹配市场作为一个跑步的例子，我们专注于分散的环境，代理商不会与中央权威分享他们的学习偏好。我们的方法基于再生内核希尔伯特空间中的偏好的表示，以及偏好的学习算法，其由于市场代理商之间的竞争而占不确定性的偏好。在规律性条件下，我们表明我们的偏好估算器以极少的最佳速率收敛。考虑到这一结果，我们推出了最佳策略，最大化代理商的预期收益，我们通过考虑机会成本来校准不确定的状态。我们还获得了激励兼容性属性，并表明学习策略的结果具有稳定性。最后，我们证明了一个公平性质，称赞根据学到的策略存在没有合理的嫉妒。

translated by 谷歌翻译