本文开发了一个分布式可区分的动态游戏(DDDG)框架,该框架可以从演示中学习多机器人协调。我们将多机器人协调表示为动态游戏,其中机器人的行为由其自身的动态和目标决定,这也取决于他人的行为。因此,可以通过调整每个机器人的客观和动力学来调整协调。提出的DDDG使每个机器人能够以分布式方式自动调整其单个动力学和目标,从而最大程度地减少其轨迹和演示之间的不匹配。此过程需要前向通道的新分布式设计,在该设计中,所有机器人都协作寻求NASH均衡行为,以及一个向后通行,在该阶段通过通信图传播梯度。我们在仿真中测试了DDDG,并给定不同任务配置的四个小组。结果证明了DDDG从演示中学习多机器人协调的能力
translated by 谷歌翻译
尽管动态游戏为建模代理的互动提供了丰富的范式,但为现实世界应用程序解决这些游戏通常具有挑战性。许多现实的交互式设置涉及一般的非线性状态和输入约束,它们彼此之间的决策相结合。在这项工作中,我们使用约束的游戏理论框架开发了一个高效且快速的计划者,用于在受限设置中进行交互式计划。我们的关键见解是利用代理的目标和约束功能的特殊结构,这些功能在多代理交互中进行快速和可靠的计划。更确切地说,我们确定了代理成本功能的结构,在该结构下,由此产生的动态游戏是受约束潜在动态游戏的实例。受限的潜在动态游戏是一类游戏,而不是解决一组耦合的约束最佳控制问题,而是通过解决单个约束最佳控制问题来找到NASH平衡。这简化了限制的交互式轨迹计划。我们比较了涉及四个平面代理的导航设置中方法的性能,并表明我们的方法平均比最先进的速度快20倍。我们进一步在涉及一个四型和两个人的导航设置中对我们提出的方法提供了实验验证。
translated by 谷歌翻译
游戏理论运动计划者是控制多个高度交互式机器人系统的有效解决方案。大多数现有的游戏理论规划师不切实际地假设所有代理都可以使用先验的目标功能知识。为了解决这个问题,我们提出了一个容忍度的退缩水平游戏理论运动计划者,该计划者利用了与意图假设的可能性相互交流。具体而言,机器人传达其目标函数以结合意图。离散的贝叶斯过滤器旨在根据观察到的轨迹与传达意图的轨迹之间的差异来实时推断目标。在仿真中,我们考虑了三种安全至关重要的自主驾驶场景,即超车,车道交叉和交叉点,以证明我们计划者在存在通信网络中存在错误的传输情况下利用替代意图假设来产生安全轨迹的能力。
translated by 谷歌翻译
形成控制问题是群体智能领域中最关心的主题之一,通常通过常规数学方法来解决。然而,在本文中,我们提出了一种元疗法方法,该方法利用了一种自然的共同进化策略来解决一群导弹的形成控制问题。导弹群是由具有异质参考目标的二阶系统建模的,并将指数误差函数作为目标函数,以使群体融合到满足某些形成要求的最佳平衡状态。为了关注本地最佳和不稳定进化的问题,我们纳入了一种新颖的基于模型的政策约束和人口适应策略,从而大大减轻了绩效退化。通过在网络通信领域中应用Molloy reed标准,我们开发了一种自适应拓扑方法,该方法可以通过理论和实验验证节点失败及其有效性下的连通性及其有效性。实验结果有助于提议的形成控制方法的有效性。更重要的是,我们表明将通用形成控制问题视为马尔可夫决策过程(MDP)并通过迭代学习解决它是可行的。
translated by 谷歌翻译
Many autonomous agents, such as intelligent vehicles, are inherently required to interact with one another. Game theory provides a natural mathematical tool for robot motion planning in such interactive settings. However, tractable algorithms for such problems usually rely on a strong assumption, namely that the objectives of all players in the scene are known. To make such tools applicable for ego-centric planning with only local information, we propose an adaptive model-predictive game solver, which jointly infers other players' objectives online and computes a corresponding generalized Nash equilibrium (GNE) strategy. The adaptivity of our approach is enabled by a differentiable trajectory game solver whose gradient signal is used for maximum likelihood estimation (MLE) of opponents' objectives. This differentiability of our pipeline facilitates direct integration with other differentiable elements, such as neural networks (NNs). Furthermore, in contrast to existing solvers for cost inference in games, our method handles not only partial state observations but also general inequality constraints. In two simulated traffic scenarios, we find superior performance of our approach over both existing game-theoretic methods and non-game-theoretic model-predictive control (MPC) approaches. We also demonstrate our approach's real-time planning capabilities and robustness in two hardware experiments.
translated by 谷歌翻译
本文开发了连续的蓬松蛋白可区分编程(连续PDP)的方法,该方法使机器人能够从少数稀疏的关键帧中学习目标函数。带有一些时间戳记的密钥帧是所需的任务空间输出,预计机器人将顺序遵循。密钥帧的时间戳可能与机器人的实际执行时间不同。该方法共同找到一个目标函数和一个盘绕函数,以使机器人的产生轨迹顺序遵循关键帧,并以最小的差异损失。连续的PDP通过有效求解机器人轨迹相对于未知参数的梯度,可以最大程度地减少投影梯度下降的差异损失。该方法首先在模拟机器人臂上进行评估,然后应用于6-DOF四极管,以在未建模的环境中学习目标函数。结果表明,该方法的效率,其处理密钥帧和机器人执行之间的时间错位的能力以及将客观学习对看不见的运动条件的概括。
translated by 谷歌翻译
在这项工作中,我们提出了一种新型的安全且可扩展的分散解决方案,以在存在随机干扰的情况下进行多代理控制。使用随机控制屏障功能在数学上编码安全性,并通过求解二次程序来计算安全控制。通过增强每个代理的优化变量,复制变量,为其邻居增强,可以实现权力下放。这使我们能够将集中式多代理优化问题解脱出来。但是,为了确保安全,邻近的代理商必须就“我们俩安全的安全”达成共识,这产生了共识。为了实现安全共识解决方案,我们结合了一种基于ADMM的方法。具体而言,我们提出了一个合并的CADMM-OSQP隐式神经网络层,该网络层解决了局部二次程序的迷你批次以及总体共识问题,作为单个优化问题。该层在每个时间步骤中都嵌入了Deep FBSDES网络体系结构中,以促进端到端可区分,安全和分散的随机最佳控制。在模拟中的几个具有挑战性的多机器人任务中,证明了所提出的方法的功效。通过对避免碰撞限制指定的安全要求强加要求,可以在整个培训过程中确保所有代理的安全操作。与集中式方法相比,我们还可以在计算和内存节省方面表现出卓越的可伸缩性。
translated by 谷歌翻译
大型人口系统的分析和控制对研究和工程的各个领域引起了极大的兴趣,从机器人群的流行病学到经济学和金融。一种越来越流行和有效的方法来实现多代理系统中的顺序决策,这是通过多机构增强学习,因为它允许对高度复杂的系统进行自动和无模型的分析。但是,可伸缩性的关键问题使控制和增强学习算法的设计变得复杂,尤其是在具有大量代理的系统中。尽管强化学习在许多情况下都发现了经验成功,但许多代理商的问题很快就变得棘手了,需要特别考虑。在这项调查中,我们将阐明当前的方法,以通过多代理强化学习以及通过诸如平均场游戏,集体智能或复杂的网络理论等研究领域进行仔细理解和分析大型人口系统。这些经典独立的主题领域提供了多种理解或建模大型人口系统的方法,这可能非常适合将来的可拖动MARL算法制定。最后,我们调查了大规模控制的潜在应用领域,并确定了实用系统中学习算法的富有成果的未来应用。我们希望我们的调查可以为理论和应用科学的初级和高级研究人员提供洞察力和未来的方向。
translated by 谷歌翻译
具有很多玩家的非合作和合作游戏具有许多应用程序,但是当玩家数量增加时,通常仍然很棘手。由Lasry和Lions以及Huang,Caines和Malham \'E引入的,平均野外运动会(MFGS)依靠平均场外近似值,以使玩家数量可以成长为无穷大。解决这些游戏的传统方法通常依赖于以完全了解模型的了解来求解部分或随机微分方程。最近,增强学习(RL)似乎有望解决复杂问题。通过组合MFGS和RL,我们希望在人口规模和环境复杂性方面能够大规模解决游戏。在这项调查中,我们回顾了有关学习MFG中NASH均衡的最新文献。我们首先确定最常见的设置(静态,固定和进化)。然后,我们为经典迭代方法(基于最佳响应计算或策略评估)提供了一个通用框架,以确切的方式解决MFG。在这些算法和与马尔可夫决策过程的联系的基础上,我们解释了如何使用RL以无模型的方式学习MFG解决方案。最后,我们在基准问题上介绍了数值插图,并以某些视角得出结论。
translated by 谷歌翻译
本文介绍了狐猴,这是一种从合作任务演示中学习可扩展的多机器人控制政策的算法。我们建议对多机器人系统的港口港口描述,以利用互连系统中的通用物理约束并实现闭环稳定性。我们使用结合自我注意机制和神经普通微分方程的体系结构代表多机器人控制策略。前者在机器人团队中处理时变的沟通,而后者则尊重连续的机器人动力学。我们的表示是通过施工分配的,使学习的控制政策能够部署在不同大小的机器人团队中。我们证明,狐猴可以从多机导航和羊群任务的演示中学习互动和合作行为。
translated by 谷歌翻译
直接政策搜索作为现代强化学习(RL)的工作人员之一,其在连续控制任务中的应用最近引起了不断的关注。在这项工作中,我们研究了用于学习线性风险敏感和鲁棒控制器的政策梯度(PG)方法的收敛理论。特别地,我们开发PG方法,可以通过采样系统轨迹以无衍生方式实现,并建立全球收敛性和样本复杂性,这导致风险敏感和强大控制中的两个基本环境的解决方案:有限地平线线性指数二次高斯,以及有限地平线线性二次干扰衰减问题。作为副产品,我们的结果还为解决零和线性二次动态游戏的PG方法的全局融合提供了第一种样本复杂性,这是一种非透明的极限优化问题,该问题用作多功能钢筋中的基线设置学习(Marl)与连续空间。我们的算法的一个特征是在学习阶段,保留了一定程度的控制器的鲁棒性/风险敏感性,因此我们被称为隐式正则化属性,并且是安全关键控制系统的基本要求。
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
本文考虑了安全协调一个配备传感器的机器人团队的问题,以减少有关动态过程的不确定性,而该过程将使目标消除信息增益和能源成本。优化这种权衡是可取的,但是在机器人轨迹集中导致非占主酮目标函数。因此,基于协调下降的普通多机器人计划者失去了其性能保证。此外,处理非单调性的方法在受到机器人间碰撞避免约束时会失去其性能保证。由于需要保留性能保证和安全保证,这项工作提出了一种分布式计划者的层次结构方法,该方法使用本地搜索,并根据控制屏障功能提供了基于控制屏障功能的当地搜索和分散的控制器,以确保安全并鼓励及时到达传感位置。通过大量的模拟,硬件测试和硬件实验,我们证明了所提出的方法比基于坐标下降的算法在感应和能源成本之间取得更好的权衡。
translated by 谷歌翻译
共享工作空间中无线轨迹的生成对于大多数多机器人应用程序至关重要。但是,许多基于模型预测控制(MPC)的广泛使用的方法缺乏基础优化的可行性的理论保证。此外,当以分布式的方式应用无中央协调员时,僵局通常会无限期地互相阻挡。尽管存在诸如引入随机扰动之类的启发式方法,但没有进行深入的分析来验证这些措施。为此,我们提出了一种系统的方法,称为Infinite-Horizo​​n模型预测性控制,并通过死锁解决。 MPC用警告范围对拟议的修改后的Voronoi进行了配方,作为凸优化。基于此公式,对僵局的状况进行了正式分析,并证明与力平衡相似。提出了一个检测分辨率方案,该方案可以在甚至在发生之前有效地在网上检测到僵局,并且一旦检测到,便利用自适应分辨率方案来解决僵局,并在绩效上进行理论保证。此外,所提出的计划算法可确保在输入和模型约束下每个时间步骤的基础优化的递归可行性,对于所有机器人都是并发的,并且只需要本地通信。全面的模拟和实验研究是通过大规模多机器人系统进行的。与其他最先进的方法相比,尤其是在拥挤和高速场景中,成功率的显着提高了成功率。
translated by 谷歌翻译
我们考虑使用有限的地平线上具有随机动力学的通用N-N-玩家线性季度游戏,并证明了自然策略梯度方法与NASH平衡的全球收敛性。为了证明该方法的收敛性,我们需要系统中有一定数量的噪声。我们给出了一个条件,基本上是在模型参数方面对噪声的协方差的下限,以确保收敛。我们通过数值实验说明了我们的结果,以表明即使在策略梯度方法可能不会在确定性设置中收敛的情况下,噪声的添加也会导致收敛。
translated by 谷歌翻译
Dynamic game arises as a powerful paradigm for multi-robot planning, for which safety constraint satisfaction is crucial. Constrained stochastic games are of particular interest, as real-world robots need to operate and satisfy constraints under uncertainty. Existing methods for solving stochastic games handle chance constraints using exponential penalties with hand-tuned weights. However, finding a suitable penalty weight is nontrivial and requires trial and error. In this paper, we propose the chance-constrained iterative linear-quadratic stochastic games (CCILQGames) algorithm. CCILQGames solves chance-constrained stochastic games using the augmented Lagrangian method. We evaluate our algorithm in three autonomous driving scenarios, including merge, intersection, and roundabout. Experimental results and Monte Carlo tests show that CCILQGames can generate safe and interactive strategies in stochastic environments.
translated by 谷歌翻译
We propose a learning-based methodology to reconstruct private information held by a population of interacting agents in order to predict an exact outcome of the underlying multi-agent interaction process, here identified as a stationary action profile. We envision a scenario where an external observer, endowed with a learning procedure, is allowed to make queries and observe the agents' reactions through private action-reaction mappings, whose collective fixed point corresponds to a stationary profile. By adopting a smart query process to iteratively collect sensible data and update parametric estimates, we establish sufficient conditions to assess the asymptotic properties of the proposed learning-based methodology so that, if convergence happens, it can only be towards a stationary action profile. This fact yields two main consequences: i) learning locally-exact surrogates of the action-reaction mappings allows the external observer to succeed in its prediction task, and ii) working with assumptions so general that a stationary profile is not even guaranteed to exist, the established sufficient conditions hence act also as certificates for the existence of such a desirable profile. Extensive numerical simulations involving typical competitive multi-agent control and decision making problems illustrate the practical effectiveness of the proposed learning-based approach.
translated by 谷歌翻译
我们研究了覆盖的阶段 - 避免多个代理的动态游戏,其中多个代理相互作用,并且每种希望满足不同的目标条件,同时避免失败状态。 Reach-避免游戏通常用于表达移动机器人运动计划中发现的安全关键最优控制问题。虽然这些运动计划问题存在各种方法,但我们专注于找到时间一致的解决方案,其中计划未来的运动仍然是最佳的,尽管先前的次优行动。虽然摘要,时间一致性封装了一个非常理想的财产:即使机器人早期从计划发出的机器人的运动发散,即,由于例如内在的动态不确定性或外在环境干扰,即使机器人的运动分歧,时间一致的运动计划也保持最佳。我们的主要贡献是一种计算 - 避免多种代理的算法算法,避免呈现时间一致的解决方案。我们展示了我们在两位和三位玩家模拟驾驶场景中的方法,其中我们的方法为所有代理商提供了安全控制策略。
translated by 谷歌翻译
许多经济比赛和机器学习方法可以作为竞争优化问题,其中多个代理可以最大限度地减少其各自的目标函数,这取决于所有代理的行动。虽然梯度下降是单代理优化的可靠基本工作,但它通常会导致竞争优化的振荡。在这项工作中,我们提出了PolyATrix竞争梯度下降(PCGD)作为解决涉及任意数量的代理的通用和竞争优化的方法。我们的方法的更新是通过二次正则化的局部Polypatrix近似的纳什均衡,并且可以通过求解方程的线性系统有效地计算。我们证明了PCGD的本地融合以获得$ N $ -Player General Sum Games的稳定定点,并显示它不需要将步长调整到玩家交互的强度。我们使用PCGD优化多功能钢筋学习的政策,并展示其在蛇,马尔可夫足球和电力市场游戏中的优势。由PCGD优先效果培训的代理经过培训,具有同步梯度下降,辛渐变调整和蛇和马尔可夫足球比赛的Extragradient以及电力市场游戏,PCGD列达速度比同时梯度下降和自特殊方法。
translated by 谷歌翻译
密集的安全导航,城市驾驶环境仍然是一个开放的问题和一个活跃的研究领域。与典型的预测 - 计划方法不同,游戏理论规划考虑了一辆车的计划如何影响另一个车辆的行为。最近的工作表明,在具有非线性目标和约束的普通和游戏中找到当地纳什均衡所需的时间重大改进。当狡辩到驾驶时,这些作品假设场景中的所有车辆一起玩游戏,这可能导致密集流量的难治性计算时间。我们通过假设代理商在他们的观察附近玩游戏的代理商来制定分散的游戏理论规划方法,我们认为我们认为是人类驾驶的更合理的假设。游戏是并行播放的,以进行交互图的所有强烈连接的组件,显着减少了每个游戏中的玩家和约束的数量,从而减少了规划所需的时间。我们证明我们的方法可以通过比较智能驱动程序模型和集中式游戏理论规划在互动数据集中的环形交叉路口时,通过比较智能驱动程序模型和集中式游戏理论规划的性能来实现无碰撞,高效的驾驶。我们的实现可在http://github.com/sisl/decnashplanning获取。
translated by 谷歌翻译