大多数算法研究到目前为止,多智能经纪信息设计的研究专注于没有代理商外部性的限制情况;一些例外调查了真正的战略游戏,如零和游戏和二价格拍卖,但只关注最佳的公共信令。本文启动了\ emph {public}和\ emph {privy}信号传导的算法信息设计,其中of基本的外部性,即单例拥塞游戏,在今天的数字经济中的应用范围广,机器调度,路由,对于公共和私人信令等,我们表明,当资源数量是常数时,可以有效地计算最佳信息设计。为了我们的知识,这是一系列高效的\ EMPH {精确}算法,用于在简明地代表的许多玩家游戏中的信息设计。我们的结果符合新颖的技术,如开发某些“减少形式”,以便在公共信令中紧凑地表征均衡或代表私人信令中的球员边际信仰。当有许多资源时,我们会显示计算难扰性结果。为了克服多个均衡问题,这里我们介绍了均衡 - \ EMPH {忽视}硬度的新概念,这条规定了计算良好信令方案的任何可能性,而不管均衡选择规则如何。
translated by 谷歌翻译
计算NASH平衡策略是多方面强化学习中的一个核心问题,在理论和实践中都受到广泛关注。但是,到目前为止,可证明的保证金仅限于完全竞争性或合作的场景,或者在大多数实际应用中实现难以满足的强大假设。在这项工作中,我们通过调查Infinite-Horizo​​n \ Emph {对抗性团队Markov Games},这是一场自然而充分动机的游戏,其中一组相同兴奋的玩家 - 在没有任何明确的情况下,这是一个自然而有动机的游戏,这是一场自然而有动机的游戏,而偏离了先前的结果。协调或交流 - 正在与对抗者竞争。这种设置允许对零和马尔可夫潜在游戏进行统一处理,并作为模拟更现实的战略互动的一步,这些互动具有竞争性和合作利益。我们的主要贡献是第一种计算固定$ \ epsilon $ - Approximate Nash Equilibria在对抗性团队马尔可夫游戏中具有计算复杂性的算法,在游戏的所有自然参数中都是多项式的,以及$ 1/\ epsilon $。拟议的算法特别自然和实用,它基于为团队中的每个球员执行独立的政策梯度步骤,并与对手侧面的最佳反应同时;反过来,通过解决精心构造的线性程序来获得对手的政策。我们的分析利用非标准技术来建立具有非convex约束的非线性程序的KKT最佳条件,从而导致对诱导的Lagrange乘数的自然解释。在此过程中,我们大大扩展了冯·斯坦格尔(Von Stengel)和科勒(GEB`97)引起的对抗(正常形式)团队游戏中最佳政策的重要特征。
translated by 谷歌翻译
主导的行动是自然的(也许是最简单的)多代理概括的子最优动作,如标准单代理决策中的那样。因此类似于标准强盗学习,多代理系统中的基本学习问题是如果他们只能观察到他们播放动作的回报的嘈杂的强盗反馈,那么代理商可以学会有效地消除所有主导的动作。令人惊讶的是,尽管有一个看似简单的任务,我们展示了一个相当负面的结果;也就是说,标准没有遗憾的算法 - 包括整个双平均算法的家庭 - 可呈指数级地取消逐渐消除所有主导的行动。此外,具有较强的交换后悔的算法也遭受了类似的指数低效率。为了克服这些障碍,我们开发了一种新的算法,调整EXP3,历史奖励减少(exp3-DH); Exp3-DH逐渐忘记仔细量身定制的速率。我们证明,当所有代理运行Exp3-DH(A.K.A.,在多代理学习中自行发行)时,所有主导的行动都可以在多项多轮内迭代地消除。我们的实验结果进一步证明了Exp3-DH的效率,即使是那些专门用于在游戏中学习的最先进的强盗算法,也无法有效地消除所有主导的行动。
translated by 谷歌翻译
当今许多大型系统的设计,从交通路由环境到智能电网,都依赖游戏理论平衡概念。但是,随着$ n $玩家游戏的大小通常会随着$ n $而成倍增长,标准游戏理论分析实际上是不可行的。最近的方法通过考虑平均场游戏,匿名$ n $玩家游戏的近似值,在这种限制中,玩家的数量是无限的,而人口的状态分布,而不是每个单独的球员的状态,是兴趣。然而,迄今为止研究最多的平均场平衡的平均场nash平衡的实际可计算性通常取决于有益的非一般结构特性,例如单调性或收缩性能,这是已知的算法收敛所必需的。在这项工作中,我们通过开发均值相关和与粗相关的平衡的概念来研究平均场比赛的替代途径。我们证明,可以使用三种经典算法在\ emph {ash All Games}中有效地学习它们,而无需对游戏结构进行任何其他假设。此外,我们在文献中已经建立了对应关系,从而获得了平均场 - $ n $玩家过渡的最佳范围,并经验证明了这些算法在简单游戏中的收敛性。
translated by 谷歌翻译
Models for the processes by which ideas and influence propagate through a social network have been studied in a number of domains, including the diffusion of medical and technological innovations, the sudden and widespread adoption of various strategies in game-theoretic settings, and the effects of "word of mouth" in the promotion of new products. Motivated by the design of viral marketing strategies, Domingos and Richardson posed a fundamental algorithmic problem for such social network processes: if we can try to convince a subset of individuals to adopt a new product or innovation, and the goal is to trigger a large cascade of further adoptions, which set of individuals should we target?We consider this problem in several of the most widely studied models in social network analysis. The optimization problem of selecting the most influential nodes is NP-hard here. The two conference papers upon which this article is based (KDD 2003 and ICALP 2005) provide the first provable approximation guarantees for efficient algorithms. Using an The present article is an expanded version of two conference papers [51,52], which appeared in KDD 2003 and ICALP 2005, respectively.
translated by 谷歌翻译
We study the problem of training a principal in a multi-agent general-sum game using reinforcement learning (RL). Learning a robust principal policy requires anticipating the worst possible strategic responses of other agents, which is generally NP-hard. However, we show that no-regret dynamics can identify these worst-case responses in poly-time in smooth games. We propose a framework that uses this policy evaluation method for efficiently learning a robust principal policy using RL. This framework can be extended to provide robustness to boundedly rational agents too. Our motivating application is automated mechanism design: we empirically demonstrate our framework learns robust mechanisms in both matrix games and complex spatiotemporal games. In particular, we learn a dynamic tax policy that improves the welfare of a simulated trade-and-barter economy by 15%, even when facing previously unseen boundedly rational RL taxpayers.
translated by 谷歌翻译
\ emph {ex ante}相关性正在成为\ emph {顺序对抗团队游戏}的主流方法,其中一组球员在零和游戏中面对另一支球队。众所周知,团队成员的不对称信息同时使平衡计算\ textsf {apx} - hard和团队的策略在游戏树上不可直接表示。后一个问题阻止采用成功的2个玩家零和游戏的成功工具,例如,\ emph {e.g。},抽象,无regret学习和子游戏求解。这项工作表明,我们可以通过弥合顺序对抗团队游戏和2次玩家游戏之间的差距来恢复这种弱点。特别是,我们提出了一种新的,合适的游戏表示形式,我们称之为\ emph {Team-Public-information},其中团队被代表为单个协调员,他只知道整个团队的共同信息,并向每个成员开出一个行动对于任何可能的私人状态。最终的表示形式是高度\ emph {可解释},是一棵2播放器树,在设计抽象时,团队的策略具有直接解释和更具表现力的行为,并且具有更高的表现力。此外,我们证明了代表性的回报等效性,并提供了直接从广泛形式开始的技术,从而在没有信息损失的情况下产生了更紧凑的表示形式。最后,我们在应用于标准测试床上的技术时对技术进行了实验评估,并将它们的性能与当前的最新状态进行了比较。
translated by 谷歌翻译
合理验证是指检查系统中的代理在系统中选择形成游戏理论平衡的策略的假设,该问题是检查哪种时间逻辑属性。可以将合理验证理解为模型检查多种系统系统的对应物,但是对于某些时间逻辑规范语言(例如CTL)和具有LTL规格的多项式空间,可以在多项式时间内完成经典模型检查,但合理验证却更加困难:虽然很难:合理验证的关键决策问题是2与LTL规格的Exptime-Complete,即使使用显式状态系统表示。在这种背景下,我们在本文中的贡献是三倍。首先,我们表明,可以通过将规格限制为GR(1),这可以大大降低合理验证的复杂性,GR(1)是LTL的片段,可以代表反应性系统的宽泛且实际上有用的响应属性类别。特别是,我们表明,对于许多相关设置,可以在多项式空间甚至多项式时间内完成合理验证。其次,在考虑均值付费公用事业功能给出的玩家的目标时,我们为合理验证提供了改进的复杂性结果;可以说是并发系统中最广泛使用的定量目标方法。最后,我们考虑了满足社会福利约束的计算结果的问题。为此,我们考虑了实用和平等主义的社会福利,并表明计算此类结果是Pspace-Complete或NP完整的。
translated by 谷歌翻译
尽管自1970年代以来就已经知道,普通付款游戏中的全球最佳策略概况是纳什均衡,但全球最优性是严格的要求,它限制了结果的适用性。在这项工作中,我们表明任何本地最佳的对称策略概况也是(全局)NASH平衡。此外,我们证明了这一结果对通用收益和本地最佳的扰动是可靠的。应用于机器学习,我们的结果为任何梯度方法提供了全球保证,该方法在对称策略空间中找到了局部最佳。尽管该结果表明单方面偏差的稳定性,但我们仍然确定了广泛的游戏类别,这些游戏混合了当地的最佳选择,在不对称的偏差下是不稳定的。我们通过在一系列对称游戏中运行学习算法来分析不稳定性的普遍性,并通过讨论结果对多代理RL,合作逆RL和分散的POMDP的适用性来得出结论。
translated by 谷歌翻译
由于机器学习,统计和科学的应用,多边缘最佳运输(MOT)引起了极大的兴趣。但是,在大多数应用中,MOT的成功受到缺乏有效算法的严重限制。实际上,MOT一般需要在边际K及其支撑大小n的数量中指数时间n。本文开发了一个关于“结构”在poly(n,k)时间中可溶解的一般理论。我们开发了一个统一的算法框架,用于通过表征不同算法所需的“结构”来解决poly(n,k)时间中的MOT,这是根据双重可行性甲骨文的简单变体所需的。该框架有几个好处。首先,它使我们能够证明当前是最流行的MOT算法的Sinkhorn算法比其他算法要在poly(n,k)时间中求解MOT所需的结构更严格。其次,我们的框架使得为给定的MOT问题开发poly(n,k)时间算法变得更加简单。特别是(大约)解决双重可行性Oracle是必要和足够的 - 这更适合标准算法技术。我们通过为三个通用类成本结构类别的poly(n,k)时间算法开发poly(n,k)时间算法来说明这种易用性:(1)图形结构; (2)设定优化结构; (3)低阶和稀疏结构。对于结构(1),我们恢复了Sindhorn具有poly(n,k)运行时的已知结果;此外,我们为计算精确且稀疏的解决方案提供了第一个poly(n,k)时间算法。对于结构(2) - (3),我们给出了第一个poly(n,k)时间算法,甚至用于近似计算。这三个结构一起涵盖了许多MOT的当前应用。
translated by 谷歌翻译
最近的多人游戏的理论和应用方面的最新进步,从电子运动到多种子体生成的对抗网络,我们专注于团队零和游戏中的最大优化。在这类游戏中,玩家分为两支队伍,在同一支队内等等,对手团队的相反标志。与TextBook二手零和游戏不同,在我们的类中找到纳什均衡可以被证明是CLS-Hard,即,它不太可能具有用于计算NASH均衡的多项式时间算法。此外,在该广义框架中,使用梯度下降上升(GDA),其乐观变体和额外梯度,我们建立了即使是渐近的最后一次迭代或时间平均收敛到纳什均衡。具体来说,我们展示了一个诱导效用是\ emph {non}的团队游戏系列\ \ emph {non}有吸引力的\ {per-se}混合的纳什均衡,作为底层优化景观的严格鞍点。利用控制理论的技术,我们通过设计局部收敛的修改GDA来补充这些负面结果,以纳入均衡。最后,我们讨论了我们的框架与AI架构的联系,其中与多助理生成对冲网络这样的团队竞争结构。
translated by 谷歌翻译
我们研究了一个多领导的单追随者拥塞游戏,多个用户(领导者)选择一个资源中的一个资源,并且在观察实现的负载后,对手(单追随器)攻击最大负载的资源,导致额外的资源领导者的成本。对于领导者之间产生的战略游戏,我们表明纯净的纳什均衡可能无法存在,因此,我们考虑了近似均衡。作为我们的第一主要结果,我们展示了$ k $的存在,可以始终保证$ k $的均衡,其中$ k \约1.1974 $是立方多项式方程的独特解决方案。为此,我们提供了一种多项式时间组合算法,其计算$ k $的均衡。因子$ k $很紧,这意味着有一个实例不承认任何$ \ alpha <k $的$ \ alpha $。因此,$ \ alpha = k $是$ \ alpha $的最小可能值,使得可以保证$ \ alpha $-ruckimate均衡的存在,以查找考虑游戏的任何实例。其次,我们专注于给定固定实例的近似均衡。我们展示了如何有效地计算最佳近似平衡,即在给定实例的所有$ \ alpha $中具有最小的$ \ alpha $。
translated by 谷歌翻译
迄今为止,游戏中的学习研究主要集中在正常形式游戏上。相比之下,我们以广泛的形式游戏(EFG),尤其是在许多代理商远远落后的EFG中对学习的理解,尽管它们与许多现实世界的应用更加接近。我们考虑了网络零和广泛表单游戏的天然类别,该游戏结合了代理收益的全球零和属性,图形游戏的有效表示以及EFG的表达能力。我们检查了这些游戏中乐观梯度上升(OGA)的收敛属性。我们证明,这种在线学习动力学的时间平均值表现出$ O(1/t)$ rate contergence convergence contergence contergence。此外,我们表明,对于某些与游戏有关的常数$ c> 0 $,日常行为也与速率$ o(c^{ - t})$收敛到nash。
translated by 谷歌翻译
在真实的拍卖中,广泛观察到的现象是胜利者的诅咒 - 获胜者的高价暗示意味着获胜者经常过度估计良好的销售价值,导致突起的负效用。 Eyster和Rabin的Ominominal工作[CommoleTrica'05]介绍了一种旨在解释这一观察到的异常的行为模型。我们举办展示这一偏见“诅咒代理”的代理商。我们采用其模型在相互依存的价值设定中,并旨在设计防止被诅咒的药剂获得负效用的机制。我们设计被诅咒的前后IC的机制,即使他们被诅咒而激励代理人,同时确保结果是单独理性的 - 代理商支付的价格不仅仅是代理商的真实价格价值。由于代理人可能会过度估计良好的价值,因此这种机制可能要求卖方对代理商进行积极转移,以防止代理商过度支付。对于收入最大化,我们提供了最佳的确定性和匿名机制。对于福利最大化,我们需要前后预算平衡(EPBB),因为阳性转移可能导致负收入。我们提出了一种掩蔽操作,采用任何确定性机制,并强加卖方不会使阳性转移,实施EPBB。我们表明,在典型的设置中,EPBB意味着该机制不能制造任何正传输,这意味着应用于全面有效机制上的掩蔽操作会导致社会最佳的EPBB机制。这进一步意味着,如果估值函数是代理信号的最大值,则最佳EPBB机制获得零福利。相比之下,我们表明,对于包括加权估值和L_P-NURMS的总和凹版估值,福利最佳EPBB机制获得最佳福利的一半,因为当代理的数量变大。
translated by 谷歌翻译
我们考虑战略设置,其中几个用户在重复的在线互动中聘用,辅助最小化的代理商代表他们反复发挥“游戏”。我们研究了代理人的重复游戏的动态和平均结果,并将其视为诱导用户之间的元游戏。我们的主要焦点是用户可以在此元游戏中从“操纵”他们自己的代理商中可以受益于他们自己的代理商。我们正式定义了普通游戏的这种“用户代理元荟萃游戏”模型,讨论了自动化代理动态的不同概念下的属性,并分析了2x2游戏中用户的均衡,其中动态收敛到a单均衡。
translated by 谷歌翻译
计算纳什均衡在多智能体游戏中是博弈论和计算机科学界面的长期挑战。众所周知,N个玩家和K策略中的一般正常形式游戏需要指数空间只是简单地写下。这种多代理的这种诅咒促使简洁游戏的研究可以有效地写下来。简洁游戏的规范示例是图形游戏,该图形游戏将播放器塑造为图形中的节点,只与他们的邻居与马尔可夫随机字段直接类似的邻居进行交互。图形游戏在无线,金融和社交网络中找到了应用程序。然而,计算图形游戏的纳什平衡已经证明了具有挑战性。即使对于PolyATRIX游戏,也可以将对代理人的资助的模型作为与代理邻居的交互的交互之和,所以证明计算epsilon近似NASH平衡是epsilon的PPAD,用于epsilon小于常数。这项工作的重点是通过考虑平均水平图模型i.e随机图来避免这种计算硬度。我们提供了一种用于计算PolyAtrix游戏的ePsilon近似NASH平衡的QuaSiewolynomial时间近似方案(QPTA),其具有高于Poly(k,1 / epsilon,ln(n))$的随机图。此外,通过相同的运行时间,我们可以计算epsilon - 近似的纳什均衡,即epsilon - 近似于游戏任何纳什均衡的最大社会福利。我们的主要技术创新是一种用于纳什均衡问题的新型等级凸面计划的“加速舍入”。我们加速的舍入也为MAX-2CSP的同一类随机图中的MAX-2CSP提供了更快的算法,这可能具有独立兴趣。
translated by 谷歌翻译
我们研究了一个知情的发件人面临的重复信息设计问题,该问题试图影响自我利益接收者的行为。我们考虑接收器面临顺序决策(SDM)问题的设置。在每回合中,发件人都会观察SDM问题中随机事件的实现。这会面临如何逐步向接收者披露此类信息以说服他们遵循(理想的)行动建议的挑战。我们研究了发件人不知道随机事件概率的情况,因此,他们必须在说服接收器的同时逐渐学习它们。首先,我们提供了发件人说服力信息结构集的非平凡的多面近似。这对于设计有效的学习算法至关重要。接下来,我们证明了一个负面的结果:没有学习算法可以说服力。因此,我们通过关注算法来保证接收者对以下建议的遗憾会增长,从而放松说服力。在全反馈设置(发件人观察所有随机事件实现)中,我们提供了一种算法,其中包括$ \ tilde {o}(\ sqrt {t})$ sexter和接收者遗憾。取而代之的是,在Bandit反馈设置中 - 发件人仅观察SDM问题中实际发生的随机事件的实现 - 我们设计了一种算法,给定一个$ \ alpha \ in [1/2,1] $作为输入,确保$ \ tilde {o}({t^\ alpha})$和$ \ tilde {o}(t^{\ max \ arpha,1- \ frac {\ frac {\ alpha} })$遗憾,分别为发件人和接收器。该结果补充了下限,表明这种遗憾的权衡本质上是紧张的。
translated by 谷歌翻译
计算Wassersein BaryCenters(A.K.A.最佳运输重构)是由于数据科学的许多应用,最近引起了相当大的关注的几何问题。虽然存在任何固定维度的多项式时间算法,但所有已知的运行时间都在维度中呈指数级。这是一个开放的问题,无论是这种指数依赖性是否可改进到多项式依赖性。本文证明,除非P = NP,答案是否定的。这揭示了Wassersein的BaryCenter计算的“维度诅咒”,其不会发生最佳运输计算。此外,我们对计算Wassersein的硬度结果延伸到近似计算,看似简单的问题案例,以及在其他最佳运输指标中平均概率分布。
translated by 谷歌翻译
我们开发了一个统一的随机近似框架,用于分析游戏中多学院在线学习的长期行为。我们的框架基于“原始偶尔”,镜像的Robbins-Monro(MRM)模板,该模板涵盖了各种各样的流行游戏理论学习算法(梯度方法,乐观的变体,Exp3算法,用于基于付费的反馈,在有限游戏等中)。除了提供这些算法的综合视图外,提出的MRM蓝图还使我们能够在连续和有限的游戏中获得渐近和有限时间的广泛新收敛结果。
translated by 谷歌翻译
要利用战略承诺,这是玩游戏的有用策略,领导者必须学习有关追随者的回报功能的足够信息。但是,这使追随者有机会提供虚假信息并影响最终的游戏结果。通过对学习领导者的精心虚假的回报功能,与他的真实行为相比,追随者可能会引起更多使他受益的结果。我们通过广泛的游戏中这种战略行为研究追随者的最佳操纵。追随者的不同态度被考虑在内。乐观的追随者在所有游戏成果中最大限度地发挥了他的真实用途,这些效用可以由某些回报功能引起。悲观的追随者只考虑了导致独特游戏结果的错误报告的回报功能。对于本文中考虑的所有设置,我们表征了可以成功诱导的所有可能的游戏结果。我们证明,追随者可以找到误会其私人收益信息的最佳方法是多项式时间的。我们的工作完全解决了该追随者在广泛的游戏树上的最佳操纵问题。
translated by 谷歌翻译