我们根据使用Bradley-Terry模型的成对比较来研究个体,团队或对象的排名。该模型中排名的最大样本估计通常是使用大约一个世纪前首次引入的简单迭代算法制成的。在这里,我们描述了一种替代性和类似简单的迭代,该迭代可以更快地解决相同的问题 - 在某些情况下,超过一百倍。我们在应用程序集合的应用程序中使用应用程序来证明该算法,并得出有关其收敛性的一些结果。
translated by 谷歌翻译
基于对成对之间的一系列比较,对个人或团队进行排名的任务是在各种情况下出现的,包括体育比赛和对动物和人类之间的优势层次结构的分析。鉴于竞争对手击败其他人的数据,挑战是将竞争对手从最佳到最糟糕进行排名。在这里,我们研究计算排名的问题时,当存在多种相互冲突的比较模式,例如动物之间多种类型的优势行为。我们假设我们不知道每种行为传达有关排名的信息,或者它们是否完全传达任何信息。尽管如此,我们表明,在这种情况下可以根据期望最大化算法和修改后的Bradley-Terry模型的组合来计算在这种情况下的排名,并提出一种快速的方法。我们为动物和人类竞争提供了一些示例申请。
translated by 谷歌翻译
在这项工作中,我们通过利用观察到的游戏点(如目标)的差异(例如目标)来开发一对一对一游戏的团队(或玩家)的新算法,也称为胜利的边际(MOV)。我们的目的是获得ELO式算法,其操作易于实施,直观地理解。这是三个步骤完成的:首先,我们在团队技能和离散MOV变量之间定义概率模型:这概括了智能算法的模型,其中MOV变量被离散分为三类(Win / Loss / Draw) 。其次,通过手头的正式概率模型,通过随机梯度来实现最大似然规则所需的优化;这对于评级更新产生简单的在线方程,其常规形式与ELO算法的那些特征相同:主要差异在于定义的分数和预期分数的方式。第三,我们提出了一种简单的方法来估计模型的系数,从而定义算法的操作;它以历史数据以封闭形式完成,因此该算法针对感兴趣的运动量身定制,并且定义其操作的系数以完全透明的方式确定。还提出了基于替代,优化的找到系数的策略。我们展示了基于英国英超联赛协会足球的结果和全国足球联盟的美国足球的结果。
translated by 谷歌翻译
JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
The highest grossing media franchise of all times, with over \$90 billion in total revenue, is Pokemon. The video games belong to the class of Japanese Role Playing Games (J-RPG). Developing a powerful AI agent for these games is very hard because they present big challenges to MinMax, Monte Carlo Tree Search and statistical Machine Learning, as they are vastly different from the well explored in AI literature games. An AI agent for one of these games means significant progress in AI agents for the entire class. Further, the key principles of such work can hopefully inspire approaches to several domains that require excellent teamwork under conditions of extreme uncertainty, including managing a team of doctors, robots or employees in an ever changing environment, like a pandemic stricken region or a war-zone. In this paper we first explain the mechanics of the game and we perform a game analysis. We continue by proposing unique AI algorithms based on our understanding that the two biggest challenges in the game are keeping a balanced team and dealing with three sources of uncertainty. Later on, we describe why evaluating the performance of such agents is challenging and we present the results of our approach. Our AI agent performed significantly better than all previous attempts and peaked at the 33rd place in the world, in one of the most popular battle formats, while running on only 4 single socket servers.
translated by 谷歌翻译
Stochastic blockmodels have been proposed as a tool for detecting community structure in networks as well as for generating synthetic networks for use as benchmarks. Most blockmodels, however, ignore variation in vertex degree, making them unsuitable for applications to real-world networks, which typically display broad degree distributions that can significantly distort the results.Here we demonstrate how the generalization of blockmodels to incorporate this missing element leads to an improved objective function for community detection in complex networks. We also propose a heuristic algorithm for community detection using this objective function or its non-degree-corrected counterpart and show that the degree-corrected version dramatically outperforms the uncorrected one in both real-world and synthetic networks.
translated by 谷歌翻译
具有很多玩家的非合作和合作游戏具有许多应用程序,但是当玩家数量增加时,通常仍然很棘手。由Lasry和Lions以及Huang,Caines和Malham \'E引入的,平均野外运动会(MFGS)依靠平均场外近似值,以使玩家数量可以成长为无穷大。解决这些游戏的传统方法通常依赖于以完全了解模型的了解来求解部分或随机微分方程。最近,增强学习(RL)似乎有望解决复杂问题。通过组合MFGS和RL,我们希望在人口规模和环境复杂性方面能够大规模解决游戏。在这项调查中,我们回顾了有关学习MFG中NASH均衡的最新文献。我们首先确定最常见的设置(静态,固定和进化)。然后,我们为经典迭代方法(基于最佳响应计算或策略评估)提供了一个通用框架,以确切的方式解决MFG。在这些算法和与马尔可夫决策过程的联系的基础上,我们解释了如何使用RL以无模型的方式学习MFG解决方案。最后,我们在基准问题上介绍了数值插图,并以某些视角得出结论。
translated by 谷歌翻译
胜利预测对于了解电子竞技中的技能建模,团队合作和对接至关重要。在本文中,我们提出了GCN-WP,这是基于图形卷积网络的电子竞技的半监督胜利预测模型。该模型在一个赛季(1年)的过程中了解了电子竞技联盟的结构,并在另一个类似的联赛上做出了预测。该模型集成了有关比赛和玩家的30多个功能,并采用图形卷积根据他们的附近进行分类。与机器学习或LOL的技能评级模型相比,我们的模型可实现最先进的预测准确性。该框架是可以推广的,因此可以轻松地扩展到其他多人游戏在线游戏。
translated by 谷歌翻译
The Elo algorithm, due to its simplicity, is widely used for rating in sports competitions as well as in other applications where the rating/ranking is a useful tool for predicting future results. However, despite its widespread use, a detailed understanding of the convergence properties of the Elo algorithm is still lacking. Aiming to fill this gap, this paper presents a comprehensive (stochastic) analysis of the Elo algorithm, considering round-robin (one-on-one) competitions. Specifically, analytical expressions are derived characterizing the behavior/evolution of the skills and of important performance metrics. Then, taking into account the relationship between the behavior of the algorithm and the step-size value, which is a hyperparameter that can be controlled, some design guidelines as well as discussions about the performance of the algorithm are provided. To illustrate the applicability of the theoretical findings, experimental results are shown, corroborating the very good match between analytical predictions and those obtained from the algorithm using real-world data (from the Italian SuperLega, Volleyball League).
translated by 谷歌翻译
本文提出了一个贝叶斯模型,以比较任何度量的多个数据集上的多种算法。该模型基于Bradley-Terry模型,该模型计算出一种算法在不同数据集上的性能要好于另一个算法的次数。由于其贝叶斯基础,贝叶斯布拉德利·特里模型(BBT)的特征与经常主义的方法不同,可以比较多个数据集上的多种算法,例如Demsar(2006)对平均等级的测试,以及Benavoli等人。 (2016)多个成对的Wilcoxon测试,具有P-调整程序。特别是,贝叶斯的方法允许对算法发表更多细微的陈述,而不是声称差异是统计学意义的。贝叶斯的方法还允许定义何时出于实际目的或实际等效区域(绳索)等效的何时等效。与Benavoli等人提出的贝叶斯签名的等级比较程序不同。 (2017年),我们的方法可以为任何度量标准定义绳索,因为它基于概率声明,而不是基于该度量的差异。本文还提出了一个局部绳索概念,该概念评估了在某些交叉验证中对某些其他算法的平均值的平均度量之间的正差异是否应真正被视为基于效应大小的第一种算法比第二个算法更好。该局部绳索提案与贝叶斯的使用无关,可以根据等级的常见方式使用。可以使用实现BBT的R软件包和Python程序。
translated by 谷歌翻译
对成对比较的排名聚集在选举,体育比赛,建议和信息检索中表现出了令人鼓舞的结果。但是,与众多有关计算和统计特征的研究工作相反,对这种算法的安全问题几乎没有关注。在巨额利润的推动下,潜在的对手具有强大的动力和动力来操纵排名清单。同时,文献中没有很好地研究等级聚集方法的内在脆弱性。为了充分了解可能的风险,我们专注于有目的的对手,他们希望通过修改本文中的成对数据来指定汇总结果。从动力学系统的角度来看,具有目标排名列表的攻击行为是属于对手和受害者组成的固定点。为了执行目标攻击,我们将对手和受害者之间的相互作用作为游戏理论框架,由两个连续的操作员组成,同时建立了NASH平衡。然后,构建了针对Hodgerank和RankCentrality的两个程序,以产生原始数据的修改。此外,我们证明,一旦对手掌握了完整的信息,受害者将产生目标排名列表。值得注意的是,所提出的方法允许对手只保留不完整的信息或不完美的反馈并执行有目的的攻击。一系列玩具模拟和几个现实世界数据实验证明了建议的目标攻击策略的有效性。这些实验结果表明,所提出的方法可以实现攻击者的目标,即扰动排名列表的领先候选人是对手指定的。
translated by 谷歌翻译
Alphazero,Leela Chess Zero和Stockfish Nnue革新了计算机国际象棋。本书对此类引擎的技术内部工作进行了完整的介绍。该书分为四个主要章节 - 不包括第1章(简介)和第6章(结论):第2章引入神经网络,涵盖了所有用于构建深层网络的基本构建块,例如Alphazero使用的网络。内容包括感知器,后传播和梯度下降,分类,回归,多层感知器,矢量化技术,卷积网络,挤压网络,挤压和激发网络,完全连接的网络,批处理归一化和横向归一化和跨性线性单位,残留层,剩余层,过度效果和底漆。第3章介绍了用于国际象棋发动机以及Alphazero使用的经典搜索技术。内容包括minimax,alpha-beta搜索和蒙特卡洛树搜索。第4章展示了现代国际象棋发动机的设计。除了开创性的Alphago,Alphago Zero和Alphazero我们涵盖Leela Chess Zero,Fat Fritz,Fat Fritz 2以及有效更新的神经网络(NNUE)以及MAIA。第5章是关于实施微型α。 Shexapawn是国际象棋的简约版本,被用作为此的示例。 Minimax搜索可以解决六ap峰,并产生了监督学习的培训位置。然后,作为比较,实施了类似Alphazero的训练回路,其中通过自我游戏进行训练与强化学习结合在一起。最后,比较了类似α的培训和监督培训。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
深度加强学习(RL)的最新进展导致许多2人零和游戏中的相当大的进展,如去,扑克和星际争霸。这种游戏的纯粹对抗性质允许概念上简单地应用R1方法。然而,现实世界的设置是许多代理商,代理交互是复杂的共同利益和竞争方面的混合物。我们认为外交,一个旨在突出由多种代理交互导致的困境的7人棋盘游戏。它还具有大型组合动作空间和同时移动,这对RL算法具有具有挑战性。我们提出了一个简单但有效的近似最佳响应操作员,旨在处理大型组合动作空间并同时移动。我们还介绍了一系列近似虚构游戏的政策迭代方法。通过这些方法,我们成功地将RL申请到外交:我们认为我们的代理商令人信服地令人信服地表明,游戏理论均衡分析表明新过程产生了一致的改进。
translated by 谷歌翻译
社区检测和层级提取通常被认为是网络上的单独推理任务。考虑到研究真实数据时只有其中一个可以是一种过度简化。在这项工作中,我们提出了一种基于社区和分层结构之间的相互作用的生成模型。它假设每个节点在交互机制中的偏好和具有相同偏好的节点更有可能相互作用,而仍然允许异构交互。算法实现是有效的,因为它利用网络数据集的稀疏性。我们展示了我们对综合和实世界数据的方法,并比较了与社区检测和排名提取的两个标准方法的性能。我们发现该算法在不同场景中准确地检索每个节点的偏好,我们表明它可以区分表现出与大多数不同的节点的小子集。结果,该模型可以识别网络是否具有整体优选的交互机制。这在没有明确的“先验”信息的情况下是相关的,关于结构良好地解释了观察到的网络数据集。我们的模型允许从业者自动从数据中学习。
translated by 谷歌翻译
ELO评级系统被广泛采用来评估(国际象棋)游戏和体育运动者的技能。最近,它还集成到了评估计算机化AI代理的性能时的机器学习算法中。然而,精确估计ELO评级(对于顶级球员)通常需要许多轮竞争,这可能是昂贵的。在本文中,为了提高ELO评估的样本效率(对于顶级球员),我们提出了一种有效的在线匹配调度算法。具体而言,我们通过Dueling Birits框架识别并匹配顶级播放器并将强盗算法定制到ELO的梯度更新。我们表明它减少了每一步记忆和时间复杂度来恒定,与需要$ O(t)$时间的传统似然最大化方法相比。我们的算法对$ \ tilde {o}(\ sqrt {t})$,Sublinear在竞争回合的数量中有遗憾的保证,并且已经扩展到多维ELO评级,用于处理风情游戏。我们经验证明我们的方法在各种游戏任务上实现了卓越的收敛速度和时间效率。
translated by 谷歌翻译
Models for the processes by which ideas and influence propagate through a social network have been studied in a number of domains, including the diffusion of medical and technological innovations, the sudden and widespread adoption of various strategies in game-theoretic settings, and the effects of "word of mouth" in the promotion of new products. Motivated by the design of viral marketing strategies, Domingos and Richardson posed a fundamental algorithmic problem for such social network processes: if we can try to convince a subset of individuals to adopt a new product or innovation, and the goal is to trigger a large cascade of further adoptions, which set of individuals should we target?We consider this problem in several of the most widely studied models in social network analysis. The optimization problem of selecting the most influential nodes is NP-hard here. The two conference papers upon which this article is based (KDD 2003 and ICALP 2005) provide the first provable approximation guarantees for efficient algorithms. Using an The present article is an expanded version of two conference papers [51,52], which appeared in KDD 2003 and ICALP 2005, respectively.
translated by 谷歌翻译
对接系统对于在线多人游戏中创建公平匹配至关重要,这直接影响玩家的满足感和游戏体验。大多数对接系统在很大程度上取决于对玩家游戏技能的精确估计来构建公平的游戏。但是,新手的技能等级通常是不准确的,因为当前的对接评级算法需要大量游戏才能学习新玩家的真正技能。在早期阶段使用这些不可靠的技能得分通常会导致团队绩效方面的差异,这会导致负面的游戏体验。这被称为对接评级算法的“冷启动”问题。为了克服这个难题,本文提出了QuickSkill,这是一个基于深度学习的新手技能估算框架,以快速探究在线多人游戏中新玩家的能力。 QuickSkill提取了玩家最初的几款游戏中的顺序性能功能,以通过专用的神经网络来预测他/她的未来技能评级,从而在玩家的早期游戏阶段进行准确的技能估计。通过使用Quickskill进行对接,可以在最初的冷门时期大大改善游戏公平性。我们在离线和在线场景中都在流行的移动多人游戏中进行实验。使用两个现实世界中的匿名游戏数据集获得的结果表明,提议的QuickSkill提供了对新手游戏技能的精确估计,从而导致团队技能差异明显降低和更好的玩家游戏体验。据我们所知,提议的Quickskill是第一个解决传统技能评级算法的冷门问题的框架。
translated by 谷歌翻译
网络研究中最根本的问题之一是社区检测。随机块模型(SBM)是一种流行的模型,具有不同的估计方法,其社区检测一致性结果揭晓。但是,SBM受到强烈假设的限制:同一社区中的所有节点在随机上都是等效的,这可能不适合实际应用。我们引入了成对协变量调整后的随机块模型(PCABM),这是SBM的概括,该模型包含成对协变量信息。我们研究协变量和社区分配系数的最大似然估计。结果表明,在适当的稀疏条件下,协变量和社区分配的系数估计均一致。引入了带有调节的光谱聚类(SCWA),以有效地求解PCABM。在某些条件下,我们得出了SCWA下社区检测的错误限制,并表明它是社区检测一致的。此外,研究了模型的选择,并研究了成对协变量的特征选择,并提出了两种相应的算法。当可访问协变量信息时,PCABM与SBM或学位校正的随机块模型(DCBM)进行比较。
translated by 谷歌翻译