智能论文笔记

Scalable Deep Reinforcement Learning Algorithms for Mean Field Games

Mathieu Laurière , Sarah Perrin , Sertan Girgin , Paul Muller , Ayush Jain , Theophile Cabannes , Georgios Piliouras , Julien Pérolat , Romuald Élie , Olivier Pietquin

分类：机器学习 | (统计)机器学习

2022-03-22

已经引入了平均野外游戏（MFG），以有效地近似战略代理人。最近，MFG中学习平衡的问题已经获得了动力，尤其是使用无模型增强学习（RL）方法。使用RL进一步扩展的一个限制因素是，解决MFG的现有算法需要混合近似数量的策略或$ Q $价值。在非线性函数近似的情况下，这远非微不足道的属性，例如，例如神经网络。我们建议解决这一缺点的两种方法。第一个从历史数据蒸馏到神经网络的混合策略，将其应用于虚拟游戏算法。第二种是基于正规化的在线混合方法，不需要记忆历史数据或以前的估计。它用于扩展在线镜下降。我们从数值上证明，这些方法有效地可以使用深RL算法来求解各种MFG。此外，我们表明这些方法的表现优于文献中的SOTA基准。

translated by 谷歌翻译

Developing, Evaluating and Scaling Learning Agents in Multi-Agent Environments

Ian Gemp , Thomas Anthony , Yoram Bachrach , Avishkar Bhoopchand , Kalesha Bullard , Jerome Connor , Vibhavari Dasagi , Bart De Vylder , Edgar Duenez-Guzman , Romuald Elie

分类：人工智能

2022-09-22

DeepMind的游戏理论与多代理团队研究多学科学习的几个方面，从计算近似值到游戏理论中的基本概念，再到在富裕的空间环境中模拟社会困境，并在困难的团队协调任务中培训3-D类人动物。我们小组的一个签名目的是使用DeepMind在DeepMind中提供的资源和专业知识，以深入强化学习来探索复杂环境中的多代理系统，并使用这些基准来提高我们的理解。在这里，我们总结了我们团队的最新工作，并提出了一种分类法，我们认为这重点介绍了多代理研究中许多重要的开放挑战。

translated by 谷歌翻译

Learning Correlated Equilibria in Mean-Field Games

Paul Muller , Romuald Elie , Mark Rowland , Mathieu Lauriere , Julien Perolat , Sarah Perrin , Matthieu Geist , Georgios Piliouras , Olivier Pietquin , Karl Tuyls

分类： (统计)机器学习

2022-08-22

当今许多大型系统的设计，从交通路由环境到智能电网，都依赖游戏理论平衡概念。但是，随着$ n $玩家游戏的大小通常会随着$ n $而成倍增长，标准游戏理论分析实际上是不可行的。最近的方法通过考虑平均场游戏，匿名$ n $玩家游戏的近似值，在这种限制中，玩家的数量是无限的，而人口的状态分布，而不是每个单独的球员的状态，是兴趣。然而，迄今为止研究最多的平均场平衡的平均场nash平衡的实际可计算性通常取决于有益的非一般结构特性，例如单调性或收缩性能，这是已知的算法收敛所必需的。在这项工作中，我们通过开发均值相关和与粗相关的平衡的概念来研究平均场比赛的替代途径。我们证明，可以使用三种经典算法在\ emph {ash All Games}中有效地学习它们，而无需对游戏结构进行任何其他假设。此外，我们在文献中已经建立了对应关系，从而获得了平均场 - $ n $玩家过渡的最佳范围，并经验证明了这些算法在简单游戏中的收敛性。

translated by 谷歌翻译

Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning

Julien Perolat , Bart de Vylder , Daniel Hennes , Eugene Tarassov , Florian Strub , Vincent de Boer , Paul Muller , Jerome T. Connor , Neil Burch , Thomas Anthony

分类：人工智能

2022-06-30

我们介绍了DeepNash，这是一种能够学习从头开始播放不完美的信息游戏策略的自主代理，直到人类的专家级别。 Stratego是人工智能（AI）尚未掌握的少数标志性棋盘游戏之一。这个受欢迎的游戏具有$ 10^{535} $节点的巨大游戏树，即，$ 10^{175} $倍的$倍于GO。它具有在不完美的信息下需要决策的其他复杂性，类似于德克萨斯州Hold'em扑克，该扑克的游戏树较小（以$ 10^{164} $节点为单位）。 Stratego中的决策是在许多离散的动作上做出的，而动作与结果之间没有明显的联系。情节很长，在球员获胜之前经常有数百次动作，而Stratego中的情况则不能像扑克中那样轻松地分解成管理大小的子问题。由于这些原因，Stratego几十年来一直是AI领域的巨大挑战，现有的AI方法几乎没有达到业余比赛水平。 Deepnash使用游戏理论，无模型的深钢筋学习方法，而无需搜索，该方法学会通过自我播放来掌握Stratego。 DeepNash的关键组成部分的正则化NASH Dynamics（R-NAD）算法通过直接修改基础多项式学习动力学来收敛到近似NASH平衡，而不是围绕它“循环”。 Deepnash在Stratego中击败了现有的最先进的AI方法，并在Gravon Games平台上获得了年度（2022年）和历史前3名，并与人类专家竞争。

translated by 谷歌翻译

An overview of active learning methods for insurance with fairness appreciation

Romuald Elie , Caroline Hillairet , François Hu , Marc Juillard

分类： (统计)机器学习 | 机器学习

2021-12-17

本文解决了在水模型部署民主化中采用了机器学习的一些挑战。第一个挑战是减少了在主动学习的帮助下减少了标签努力（因此关注数据质量），模型推断与Oracle之间的反馈循环：如在保险中，未标记的数据通常丰富，主动学习可能会成为一个重要的资产减少标签成本。为此目的，本文在研究其对合成和真实数据集的实证影响之前，阐述了各种古典主动学习方法。保险中的另一个关键挑战是模型推论中的公平问题。我们将在此主动学习框架中介绍和整合一个用于多级任务的后处理公平，以解决这两个问题。最后对不公平数据集的数值实验突出显示所提出的设置在模型精度和公平性之间存在良好的折衷。

translated by 谷歌翻译

A Novel Occupancy Mapping Framework for Risk-Aware Path Planning in Unstructured Environments

Johann Laconte , Abderrahim Kasmi , François Pomerleau , Roland Chapuis , Laurent Malaterre , Christophe Debain , Romuald Aufrère

分类：机器人

2020-11-16

在自治机器人的背景下，最重要的任务之一是在导航期间防止对机器人的潜在损坏。为此目的，通常认为必须处理已知的概率障碍，然后计算与每个障碍物碰撞的概率。然而，在复杂的场景或非结构化环境中，可能难以检测这种障碍。在这些情况下，使用公制地图，其中每个位置存储占用的信息。最常见的公制地图类型是贝叶斯占用地图。然而，由于其离散性，这种类型的地图对计算持续路径的风险评估不太适合。因此，我们介绍了一种名为Lambda领域的新型地图，专门用于风险评估。我们首先提出了一种方法来计算这样的地图和对路径的通用风险的期望。然后，我们用一个用例展示了我们的通用配方的益处，该用例将风险定义为路径上的预期碰撞力。使用这种风险定义和Lambda领域，我们表明我们的框架能够在具有物理度量的同时进行经典路径规划。此外，Lambda领域为处理非结构化环境（如高草）提供了一种自然的方式。如果标准环境表示始终会产生围绕此类障碍的轨迹，我们的框架允许机器人在意识到所采取的风险时穿过草地。

translated by 谷歌翻译