在多机构强化学习(MARL)中,独立学习者是那些不观察系统中其他代理商的行为的学习者。由于信息的权力下放,设计独立的学习者将发挥均匀的态度是有挑战性的。本文研究了使用满足动态来指导独立学习者在随机游戏中近似平衡的可行性。对于$ \ epsilon \ geq 0 $,$ \ epsilon $ -SATISFICING策略更新规则是任何规则,指示代理在$ \ epsilon $ best-best-reversponding to to to the其余参与者的策略时不要更改其策略; $ \ epsilon $ -SATISFIFICING路径定义为当每个代理使用某些$ \ epsilon $ -SATISFIFICING策略更新规则来选择其下一个策略时,获得的联合策略序列。我们建立了关于$ \ epsilon $ - 偏离型路径的结构性结果,这些路径是$ \ epsilon $ equilibium in Symmetric $ n $ - 玩家游戏和带有两个玩家的一般随机游戏。然后,我们为$ n $玩家对称游戏提出了一种独立的学习算法,并为自我玩法的$ \ epsilon $ equilibrium提供了高可能性保证。此保证仅使用对称性,利用$ \ epsilon $ satisficing路径的先前未开发的结构。
translated by 谷歌翻译