在多游戏设置中运行的机器人必须同时对共享环境的人类或机器人代理的环境和行为进行建模。通常使用同时定位和映射(SLAM)进行这种建模;但是,SLAM算法通常忽略了多人相互作用。相比之下,运动计划文献经常使用动态游戏理论来在具有完美本地化的已知环境中明确对多个代理的非合作相互作用进行建模。在这里,我们介绍了GTP-Slam,这是一种基于迭代最佳响应的小说最佳SLAM算法,可以准确执行状态定位和映射重建,同时使用游戏理论先验来捕获未知场景中多个代理之间固有的非合作互动。通过将基本的大满贯问题作为潜在游戏,我们继承了强有力的融合保证。经验结果表明,当部署在现实的交通模拟中时,我们的方法比在广泛的噪声水平上的标准捆绑捆绑调整算法更准确地进行本地化和映射。
translated by 谷歌翻译
Many autonomous agents, such as intelligent vehicles, are inherently required to interact with one another. Game theory provides a natural mathematical tool for robot motion planning in such interactive settings. However, tractable algorithms for such problems usually rely on a strong assumption, namely that the objectives of all players in the scene are known. To make such tools applicable for ego-centric planning with only local information, we propose an adaptive model-predictive game solver, which jointly infers other players' objectives online and computes a corresponding generalized Nash equilibrium (GNE) strategy. The adaptivity of our approach is enabled by a differentiable trajectory game solver whose gradient signal is used for maximum likelihood estimation (MLE) of opponents' objectives. This differentiability of our pipeline facilitates direct integration with other differentiable elements, such as neural networks (NNs). Furthermore, in contrast to existing solvers for cost inference in games, our method handles not only partial state observations but also general inequality constraints. In two simulated traffic scenarios, we find superior performance of our approach over both existing game-theoretic methods and non-game-theoretic model-predictive control (MPC) approaches. We also demonstrate our approach's real-time planning capabilities and robustness in two hardware experiments.
translated by 谷歌翻译
我们研究了覆盖的阶段 - 避免多个代理的动态游戏,其中多个代理相互作用,并且每种希望满足不同的目标条件,同时避免失败状态。 Reach-避免游戏通常用于表达移动机器人运动计划中发现的安全关键最优控制问题。虽然这些运动计划问题存在各种方法,但我们专注于找到时间一致的解决方案,其中计划未来的运动仍然是最佳的,尽管先前的次优行动。虽然摘要,时间一致性封装了一个非常理想的财产:即使机器人早期从计划发出的机器人的运动发散,即,由于例如内在的动态不确定性或外在环境干扰,即使机器人的运动分歧,时间一致的运动计划也保持最佳。我们的主要贡献是一种计算 - 避免多种代理的算法算法,避免呈现时间一致的解决方案。我们展示了我们在两位和三位玩家模拟驾驶场景中的方法,其中我们的方法为所有代理商提供了安全控制策略。
translated by 谷歌翻译
游戏理论运动计划者是控制多个高度交互式机器人系统的有效解决方案。大多数现有的游戏理论规划师不切实际地假设所有代理都可以使用先验的目标功能知识。为了解决这个问题,我们提出了一个容忍度的退缩水平游戏理论运动计划者,该计划者利用了与意图假设的可能性相互交流。具体而言,机器人传达其目标函数以结合意图。离散的贝叶斯过滤器旨在根据观察到的轨迹与传达意图的轨迹之间的差异来实时推断目标。在仿真中,我们考虑了三种安全至关重要的自主驾驶场景,即超车,车道交叉和交叉点,以证明我们计划者在存在通信网络中存在错误的传输情况下利用替代意图假设来产生安全轨迹的能力。
translated by 谷歌翻译
密集的安全导航,城市驾驶环境仍然是一个开放的问题和一个活跃的研究领域。与典型的预测 - 计划方法不同,游戏理论规划考虑了一辆车的计划如何影响另一个车辆的行为。最近的工作表明,在具有非线性目标和约束的普通和游戏中找到当地纳什均衡所需的时间重大改进。当狡辩到驾驶时,这些作品假设场景中的所有车辆一起玩游戏,这可能导致密集流量的难治性计算时间。我们通过假设代理商在他们的观察附近玩游戏的代理商来制定分散的游戏理论规划方法,我们认为我们认为是人类驾驶的更合理的假设。游戏是并行播放的,以进行交互图的所有强烈连接的组件,显着减少了每个游戏中的玩家和约束的数量,从而减少了规划所需的时间。我们证明我们的方法可以通过比较智能驱动程序模型和集中式游戏理论规划在互动数据集中的环形交叉路口时,通过比较智能驱动程序模型和集中式游戏理论规划的性能来实现无碰撞,高效的驾驶。我们的实现可在http://github.com/sisl/decnashplanning获取。
translated by 谷歌翻译
尽管动态游戏为建模代理的互动提供了丰富的范式,但为现实世界应用程序解决这些游戏通常具有挑战性。许多现实的交互式设置涉及一般的非线性状态和输入约束,它们彼此之间的决策相结合。在这项工作中,我们使用约束的游戏理论框架开发了一个高效且快速的计划者,用于在受限设置中进行交互式计划。我们的关键见解是利用代理的目标和约束功能的特殊结构,这些功能在多代理交互中进行快速和可靠的计划。更确切地说,我们确定了代理成本功能的结构,在该结构下,由此产生的动态游戏是受约束潜在动态游戏的实例。受限的潜在动态游戏是一类游戏,而不是解决一组耦合的约束最佳控制问题,而是通过解决单个约束最佳控制问题来找到NASH平衡。这简化了限制的交互式轨迹计划。我们比较了涉及四个平面代理的导航设置中方法的性能,并表明我们的方法平均比最先进的速度快20倍。我们进一步在涉及一个四型和两个人的导航设置中对我们提出的方法提供了实验验证。
translated by 谷歌翻译
Dynamic game arises as a powerful paradigm for multi-robot planning, for which safety constraint satisfaction is crucial. Constrained stochastic games are of particular interest, as real-world robots need to operate and satisfy constraints under uncertainty. Existing methods for solving stochastic games handle chance constraints using exponential penalties with hand-tuned weights. However, finding a suitable penalty weight is nontrivial and requires trial and error. In this paper, we propose the chance-constrained iterative linear-quadratic stochastic games (CCILQGames) algorithm. CCILQGames solves chance-constrained stochastic games using the augmented Lagrangian method. We evaluate our algorithm in three autonomous driving scenarios, including merge, intersection, and roundabout. Experimental results and Monte Carlo tests show that CCILQGames can generate safe and interactive strategies in stochastic environments.
translated by 谷歌翻译
We develop a hierarchical controller for head-to-head autonomous racing. We first introduce a formulation of a racing game with realistic safety and fairness rules. A high-level planner approximates the original formulation as a discrete game with simplified state, control, and dynamics to easily encode the complex safety and fairness rules and calculates a series of target waypoints. The low-level controller takes the resulting waypoints as a reference trajectory and computes high-resolution control inputs by solving an alternative formulation with simplified objectives and constraints. We consider two approaches for the low-level planner, constructing two hierarchical controllers. One approach uses multi-agent reinforcement learning (MARL), and the other solves a linear-quadratic Nash game (LQNG) to produce control inputs. The controllers are compared against three baselines: an end-to-end MARL controller, a MARL controller tracking a fixed racing line, and an LQNG controller tracking a fixed racing line. Quantitative results show that the proposed hierarchical methods outperform their respective baseline methods in terms of head-to-head race wins and abiding by the rules. The hierarchical controller using MARL for low-level control consistently outperformed all other methods by winning over 88% of head-to-head races and more consistently adhered to the complex racing rules. Qualitatively, we observe the proposed controllers mimicking actions performed by expert human drivers such as shielding/blocking, overtaking, and long-term planning for delayed advantages. We show that hierarchical planning for game-theoretic reasoning produces competitive behavior even when challenged with complex rules and constraints.
translated by 谷歌翻译
自主赛车奖的代理商对反对者的行为做出反应,并以敏捷的操纵向沿着赛道前进,同时惩罚过度侵略性和过度保守的代理商。了解其他代理的意图对于在对抗性多代理环境中部署自主系统至关重要。当前的方法要么过分简化代理的动作空间的离散化,要么无法识别行动的长期影响并成为近视。我们的工作重点是应对这两个挑战。首先,我们提出了一种新颖的降低方法,该方法封装了不同的代理行为,同时保留了代理作用的连续性。其次,我们将两种代理赛车游戏制定为遗憾的最小化问题,并通过遗憾的预测模型为可行的反事实遗憾最小化提供了解决方案。最后,我们在规模的自动驾驶汽车上实验验证了我们的发现。我们证明,使用拟议的游戏理论规划师使用代理表征与客观空间显着提高了对不同对手的获胜率,并且在看不见的环境中,改进可以转移到看不见的对手。
translated by 谷歌翻译
一般而言,融合是人类驱动因素和自治车辆的具有挑战性的任务,特别是在密集的交通中,因为合并的车辆通常需要与其他车辆互动以识别或创造间隙并安全合并。在本文中,我们考虑了强制合并方案的自主车辆控制问题。我们提出了一种新的游戏 - 理论控制器,称为领导者跟随者游戏控制器(LFGC),其中自主EGO车辆和其他具有先验不确定驾驶意图的车辆之间的相互作用被建模为部分可观察到的领导者 - 跟随游戏。 LFGC估计基于观察到的轨迹的其他车辆在线在线,然后预测其未来的轨迹,并计划使用模型预测控制(MPC)来同时实现概率保证安全性和合并目标的自我车辆自己的轨迹。为了验证LFGC的性能,我们在模拟和NGSIM数据中测试它,其中LFGC在合并中展示了97.5%的高成功率。
translated by 谷歌翻译
We propose a multi-agent reinforcement learning dynamics, and analyze its convergence properties in infinite-horizon discounted Markov potential games. We focus on the independent and decentralized setting, where players can only observe the realized state and their own reward in every stage. Players do not have knowledge of the game model, and cannot coordinate with each other. In each stage of our learning dynamics, players update their estimate of a perturbed Q-function that evaluates their total contingent payoff based on the realized one-stage reward in an asynchronous manner. Then, players independently update their policies by incorporating a smoothed optimal one-stage deviation strategy based on the estimated Q-function. A key feature of the learning dynamics is that the Q-function estimates are updated at a faster timescale than the policies. We prove that the policies induced by our learning dynamics converge to a stationary Nash equilibrium in Markov potential games with probability 1. Our results demonstrate that agents can reach a stationary Nash equilibrium in Markov potential games through simple learning dynamics under the minimum information environment.
translated by 谷歌翻译
现代机器人需要准确的预测才能在现实世界中做出最佳决策。例如,自动驾驶汽车需要对其他代理商的未来行动进行准确的预测来计划安全轨迹。当前方法在很大程度上依赖历史时间序列来准确预测未来。但是,完全依靠观察到的历史是有问题的,因为它可能被噪声损坏,有离群值或不能完全代表所有可能的结果。为了解决这个问题,我们提出了一个新的框架,用于生成用于机器人控制的强大预测。为了建模影响未来预测的现实世界因素,我们介绍了对手的概念,对敌人观察到了历史时间序列,以增加机器人的最终控制成本。具体而言,我们将这种交互作用建模为机器人的预报器和这个假设对手之间的零和两人游戏。我们证明,我们建议的游戏可以使用基于梯度的优化技术来解决本地NASH均衡。此外,我们表明,经过我们方法训练的预报员在分布外现实世界中的变化数据上的效果要比基线比基线更好30.14%。
translated by 谷歌翻译
主动同时定位和映射(SLAM)是规划和控制机器人运动以构建周围环境中最准确,最完整的模型的问题。自从三十多年前出现了积极感知的第一项基础工作以来,该领域在不同科学社区中受到了越来越多的关注。这带来了许多不同的方法和表述,并回顾了当前趋势,对于新的和经验丰富的研究人员来说都是非常有价值的。在这项工作中,我们在主动大满贯中调查了最先进的工作,并深入研究了仍然需要注意的公开挑战以满足现代应用程序的需求。为了实现现实世界的部署。在提供了历史观点之后,我们提出了一个统一的问题制定并审查经典解决方案方案,该方案将问题分解为三个阶段,以识别,选择和执行潜在的导航措施。然后,我们分析替代方法,包括基于深入强化学习的信念空间规划和现代技术,以及审查有关多机器人协调的相关工作。该手稿以讨论新的研究方向的讨论,解决可再现的研究,主动的空间感知和实际应用,以及其他主题。
translated by 谷歌翻译
本文开发了一个分布式可区分的动态游戏(DDDG)框架,该框架可以从演示中学习多机器人协调。我们将多机器人协调表示为动态游戏,其中机器人的行为由其自身的动态和目标决定,这也取决于他人的行为。因此,可以通过调整每个机器人的客观和动力学来调整协调。提出的DDDG使每个机器人能够以分布式方式自动调整其单个动力学和目标,从而最大程度地减少其轨迹和演示之间的不匹配。此过程需要前向通道的新分布式设计,在该设计中,所有机器人都协作寻求NASH均衡行为,以及一个向后通行,在该阶段通过通信图传播梯度。我们在仿真中测试了DDDG,并给定不同任务配置的四个小组。结果证明了DDDG从演示中学习多机器人协调的能力
translated by 谷歌翻译
DeepMind的游戏理论与多代理团队研究多学科学习的几个方面,从计算近似值到游戏理论中的基本概念,再到在富裕的空间环境中模拟社会困境,并在困难的团队协调任务中培训3-D类人动物。我们小组的一个签名目的是使用DeepMind在DeepMind中提供的资源和专业知识,以深入强化学习来探索复杂环境中的多代理系统,并使用这些基准来提高我们的理解。在这里,我们总结了我们团队的最新工作,并提出了一种分类法,我们认为这重点介绍了多代理研究中许多重要的开放挑战。
translated by 谷歌翻译
无人驾驶汽车(UAV)在许多领域都受雇于摄影,紧急,娱乐,国防,农业,林业,采矿和建筑。在过去的十年中,无人机技术在许多施工项目阶段中找到了应用程序,从现场映射,进度监控,建筑物检查,损坏评估和材料交付等等。尽管已经对无人机在各种施工相关的过程中的优势进行了广泛的研究,但关于提高任务能力和效率的无人机协作的研究仍然很少。本文提出了一种基于塔格狩猎游戏和粒子群优化(PSO)的多个无人机的新合作路径计划算法。首先,定义了每个无人机的成本函数,并包含多个目标和约束。然后,开发了无人机游戏框架,以将多功能路径计划制定到寻找回报优势均衡的问题。接下来,提出了基于PSO的算法来获得无人机的最佳路径。由三个无人机检查的大型建筑工地的仿真结果表明,在检查任务期间,提出的算法在为无人机形成的可行和高效飞行路径生成可行,高效的飞行路径上的有效性。
translated by 谷歌翻译
尽管自1970年代以来就已经知道,普通付款游戏中的全球最佳策略概况是纳什均衡,但全球最优性是严格的要求,它限制了结果的适用性。在这项工作中,我们表明任何本地最佳的对称策略概况也是(全局)NASH平衡。此外,我们证明了这一结果对通用收益和本地最佳的扰动是可靠的。应用于机器学习,我们的结果为任何梯度方法提供了全球保证,该方法在对称策略空间中找到了局部最佳。尽管该结果表明单方面偏差的稳定性,但我们仍然确定了广泛的游戏类别,这些游戏混合了当地的最佳选择,在不对称的偏差下是不稳定的。我们通过在一系列对称游戏中运行学习算法来分析不稳定性的普遍性,并通过讨论结果对多代理RL,合作逆RL和分散的POMDP的适用性来得出结论。
translated by 谷歌翻译
现代应用要求机器人符合多个通常相互冲突的规则,并与其他代理商互动。我们将Posetal Games作为一类游戏,每个玩家通过部分有序的一组指标表达了对结果的偏好。这允许人们将每个玩家的分层优先级与环境的交互性质组合。通过语境化标准游戏理论概念,我们为参与者的偏好提供了两个足够的条件,以便在有限作用集中证明纯NASH均衡的存在。此外,我们在偏好结构上定义正式操作,并将其链接到游戏解决方案的细化,显示如何系统地缩小均衡集合。所提出的结果展示在驾驶游戏中,自主车辆从有限组轨迹中选择。结果证明了对每个玩家最小禁区的结果的可解释性。
translated by 谷歌翻译
在博弈论中的精髓结果是von Neumann的Minmax定理,这些定理使得零和游戏承认基本上独特的均衡解决方案。古典学习结果对本定理构建,以表明在线无后悔动态会聚到零和游戏中的时间平均意义上的均衡。在过去几年中,一个关键的研究方向专注于表征这种动态的日常行为。一般结果在这个方向上表明,广泛的在线学习动态是循环的,并且在零和游戏中正式的Poincar {e}复发。在具有时间不变均衡的定期零和游戏的情况下,我们分析了这些在线学习行为的稳健性。该模型概括了通常的重复游戏制定,同时也是参与者之间反复竞争的现实和自然模型,这取决于外源性环境变化,如日期效果,周到一周的趋势和季节性。有趣的是,即使在最简单的这种情况下,也可能失败的时间平均收敛性,尽管有均衡是固定的。相比之下,使用新颖的分析方法,我们表明Poincar \'{E}尽管这些动态系统的复杂性,非自主性质,但是普及的复发概括。
translated by 谷歌翻译
我们考虑使用有限的地平线上具有随机动力学的通用N-N-玩家线性季度游戏,并证明了自然策略梯度方法与NASH平衡的全球收敛性。为了证明该方法的收敛性,我们需要系统中有一定数量的噪声。我们给出了一个条件,基本上是在模型参数方面对噪声的协方差的下限,以确保收敛。我们通过数值实验说明了我们的结果,以表明即使在策略梯度方法可能不会在确定性设置中收敛的情况下,噪声的添加也会导致收敛。
translated by 谷歌翻译