平均野外游戏(MFGS)提供了一个可在数学上拖动的框架,用于通过利用平均场理论来简化代理之间的相互作用来建模大规模多代理系统。它使应用逆增强学习(IRL)能够通过从展示的行为中恢复奖励信号来预测大人群的行为。但是,现有的MFG的IRL方法无能为力,无法确定各个代理的行为中的不确定性。本文提出了一个新颖的框架,平均场对抗IRL(MF-AIRL),该框架能够解决示范中的不确定性。我们在最大熵IRL和新的平衡概念上建立MF-AIRL。我们通过不完美的演示评估了对模拟任务的方法。实验结果证明了MF-AIRL比奖励恢复中现有方法的优越性。
translated by 谷歌翻译
具有很多玩家的非合作和合作游戏具有许多应用程序,但是当玩家数量增加时,通常仍然很棘手。由Lasry和Lions以及Huang,Caines和Malham \'E引入的,平均野外运动会(MFGS)依靠平均场外近似值,以使玩家数量可以成长为无穷大。解决这些游戏的传统方法通常依赖于以完全了解模型的了解来求解部分或随机微分方程。最近,增强学习(RL)似乎有望解决复杂问题。通过组合MFGS和RL,我们希望在人口规模和环境复杂性方面能够大规模解决游戏。在这项调查中,我们回顾了有关学习MFG中NASH均衡的最新文献。我们首先确定最常见的设置(静态,固定和进化)。然后,我们为经典迭代方法(基于最佳响应计算或策略评估)提供了一个通用框架,以确切的方式解决MFG。在这些算法和与马尔可夫决策过程的联系的基础上,我们解释了如何使用RL以无模型的方式学习MFG解决方案。最后,我们在基准问题上介绍了数值插图,并以某些视角得出结论。
translated by 谷歌翻译
最近的平均野外游戏(MFG)形式主义促进了对许多代理环境中近似NASH均衡的棘手计算。在本文中,我们考虑具有有限摩托目标目标的离散时间有限的MFG。我们表明,所有具有非恒定固定点运算符的离散时间有限的MFG无法正如现有MFG文献中通常假设的,禁止通过固定点迭代收敛。取而代之的是,我们将熵验证和玻尔兹曼策略纳入固定点迭代中。结果,我们获得了现有方法失败的近似固定点的可证明的融合,并达到了近似NASH平衡的原始目标。所有提出的方法均可在其可剥削性方面进行评估,这两个方法都具有可牵引的精确溶液和高维问题的启发性示例,在这些示例中,精确方法变得棘手。在高维场景中,我们采用了既定的深入强化学习方法,并从经验上将虚拟的游戏与我们的近似值结合在一起。
translated by 谷歌翻译
我们研究逆增强学习(IRL)和模仿学习(IM),这是从专家所证明的轨迹中恢复奖励或政策功能的问题。我们提出了一种新的方法来通过在最大的熵框架中添加权重功能来改善学习过程,并具有学习和恢复专家政策的随机性(或有限理性)的动机。我们的框架和算法允许学习奖励(或政策)功能以及添加到马尔可夫决策过程中的熵条款的结构,从而增强了学习过程。我们使用人类和模拟演示以及通过离散和连续的IRL/IM任务进行的数值实验表明,我们的方法表现优于先前的算法。
translated by 谷歌翻译
主动推断是建模生物学和人造药物的行为的概率框架,该框架源于最小化自由能的原理。近年来,该框架已成功地应用于各种情况下,其目标是最大程度地提高奖励,提供可比性,有时甚至是卓越的性能与替代方法。在本文中,我们通过演示如何以及何时进行主动推理代理执行最佳奖励的动作来阐明奖励最大化和主动推断之间的联系。确切地说,我们展示了主动推理为Bellman方程提供最佳解决方案的条件 - 这种公式是基于模型的增强学习和控制的几种方法。在部分观察到的马尔可夫决策过程中,标准的主动推理方案可以为计划视野1的最佳动作产生最佳动作,但不能超越。相比之下,最近开发的递归活跃推理方案(复杂的推理)可以在任何有限的颞范围内产生最佳作用。我们通过讨论主动推理和强化学习之间更广泛的关系来补充分析。
translated by 谷歌翻译
已经引入了平均野外游戏(MFG),以有效地近似战略代理人。最近,MFG中学习平衡的问题已经获得了动力,尤其是使用无模型增强学习(RL)方法。使用RL进一步扩展的一个限制因素是,解决MFG的现有算法需要混合近似数量的策略或$ Q $价值。在非线性函数近似的情况下,这远非微不足道的属性,例如,例如神经网络。我们建议解决这一缺点的两种方法。第一个从历史数据蒸馏到神经网络的混合策略,将其应用于虚拟游戏算法。第二种是基于正规化的在线混合方法,不需要记忆历史数据或以前的估计。它用于扩展在线镜下降。我们从数值上证明,这些方法有效地可以使用深RL算法来求解各种MFG。此外,我们表明这些方法的表现优于文献中的SOTA基准。
translated by 谷歌翻译
在许多顺序决策问题(例如,机器人控制,游戏播放,顺序预测),人类或专家数据可用包含有关任务的有用信息。然而,来自少量专家数据的模仿学习(IL)可能在具有复杂动态的高维环境中具有挑战性。行为克隆是一种简单的方法,由于其简单的实现和稳定的收敛而被广泛使用,但不利用涉及环境动态的任何信息。由于对奖励和政策近似器或偏差,高方差梯度估计器,难以在实践中难以在实践中努力训练的许多现有方法。我们介绍了一种用于动态感知IL的方法,它通过学习单个Q函数来避免对抗训练,隐含地代表奖励和策略。在标准基准测试中,隐式学习的奖励显示与地面真实奖励的高正面相关性,说明我们的方法也可以用于逆钢筋学习(IRL)。我们的方法,逆软Q学习(IQ-Learn)获得了最先进的结果,在离线和在线模仿学习设置中,显着优于现有的现有方法,这些方法都在所需的环境交互和高维空间中的可扩展性中,通常超过3倍。
translated by 谷歌翻译
我们研究了设计AI代理商的问题,该代理可以学习有效地与潜在的次优伴侣有效合作,同时无法访问联合奖励功能。这个问题被建模为合作焦论双代理马尔可夫决策过程。我们假设仅在游戏的Stackelberg制定中的两个代理中的第一个控制,其中第二代理正在作用,以便在鉴于第一代理的政策给出预期的效用。第一个代理人应该如何尽快学习联合奖励功能,因此联合政策尽可能接近最佳?在本文中,我们分析了如何在这一交互式的两个代理方案中获得对奖励函数的知识。我们展示当学习代理的策略对转换函数有显着影响时,可以有效地学习奖励功能。
translated by 谷歌翻译
在过去的十年中,多智能经纪人强化学习(Marl)已经有了重大进展,但仍存在许多挑战,例如高样本复杂性和慢趋同稳定的政策,在广泛的部署之前需要克服,这是可能的。然而,在实践中,许多现实世界的环境已经部署了用于生成策略的次优或启发式方法。一个有趣的问题是如何最好地使用这些方法作为顾问,以帮助改善多代理领域的加强学习。在本文中,我们提供了一个原则的框架,用于将动作建议纳入多代理设置中的在线次优顾问。我们描述了在非传记通用随机游戏环境中提供多种智能强化代理(海军上将)的问题,并提出了两种新的基于Q学习的算法:海军上将决策(海军DM)和海军上将 - 顾问评估(Admiral-AE) ,这使我们能够通过适当地纳入顾问(Admiral-DM)的建议来改善学习,并评估顾问(Admiral-AE)的有效性。我们从理论上分析了算法,并在一般加上随机游戏中提供了关于他们学习的定点保证。此外,广泛的实验说明了这些算法:可以在各种环境中使用,具有对其他相关基线的有利相比的性能,可以扩展到大状态行动空间,并且对来自顾问的不良建议具有稳健性。
translated by 谷歌翻译
Current approaches to multi-agent cooperation rely heavily on centralized mechanisms or explicit communication protocols to ensure convergence. This paper studies the problem of distributed multi-agent learning without resorting to centralized components or explicit communication. It examines the use of distribution matching to facilitate the coordination of independent agents. In the proposed scheme, each agent independently minimizes the distribution mismatch to the corresponding component of a target visitation distribution. The theoretical analysis shows that under certain conditions, each agent minimizing its individual distribution mismatch allows the convergence to the joint policy that generated the target distribution. Further, if the target distribution is from a joint policy that optimizes a cooperative task, the optimal policy for a combination of this task reward and the distribution matching reward is the same joint policy. This insight is used to formulate a practical algorithm (DM$^2$), in which each individual agent matches a target distribution derived from concurrently sampled trajectories from a joint expert policy. Experimental validation on the StarCraft domain shows that combining (1) a task reward, and (2) a distribution matching reward for expert demonstrations for the same task, allows agents to outperform a naive distributed baseline. Additional experiments probe the conditions under which expert demonstrations need to be sampled to obtain the learning benefits.
translated by 谷歌翻译
Inferring reward functions from human behavior is at the center of value alignment - aligning AI objectives with what we, humans, actually want. But doing so relies on models of how humans behave given their objectives. After decades of research in cognitive science, neuroscience, and behavioral economics, obtaining accurate human models remains an open research topic. This begs the question: how accurate do these models need to be in order for the reward inference to be accurate? On the one hand, if small errors in the model can lead to catastrophic error in inference, the entire framework of reward learning seems ill-fated, as we will never have perfect models of human behavior. On the other hand, if as our models improve, we can have a guarantee that reward accuracy also improves, this would show the benefit of more work on the modeling side. We study this question both theoretically and empirically. We do show that it is unfortunately possible to construct small adversarial biases in behavior that lead to arbitrarily large errors in the inferred reward. However, and arguably more importantly, we are also able to identify reasonable assumptions under which the reward inference error can be bounded linearly in the error in the human model. Finally, we verify our theoretical insights in discrete and continuous control tasks with simulated and human data.
translated by 谷歌翻译
While reinforcement learning algorithms provide automated acquisition of optimal policies, practical application of such methods requires a number of design decisions, such as manually designing reward functions that not only define the task, but also provide sufficient shaping to accomplish it. In this paper, we view reinforcement learning as inferring policies that achieve desired outcomes, rather than as a problem of maximizing rewards. To solve this inference problem, we establish a novel variational inference formulation that allows us to derive a well-shaped reward function which can be learned directly from environment interactions. From the corresponding variational objective, we also derive a new probabilistic Bellman backup operator and use it to develop an off-policy algorithm to solve goal-directed tasks. We empirically demonstrate that this method eliminates the need to hand-craft reward functions for a suite of diverse manipulation and locomotion tasks and leads to effective goal-directed behaviors.
translated by 谷歌翻译
强化学习(RL)旨在在给定环境中从奖励功能中训练代理商,但逆增强学习(IRL)试图从观察专家的行为中恢复奖励功能。众所周知,总的来说,各种奖励功能会导致相同的最佳政策,因此,IRL定义不明。但是,(Cao等,2021)表明,如果我们观察到两个或多个具有不同折现因子或在不同环境中起作用的专家,则可以在某些条件下确定奖励功能,直至常数。这项工作首先根据等级条件显示了表格MDP的多位专家的等效可识别性声明,该声明易于验证,也被证明是必要的。然后,我们将结果扩展到各种不同的方案,即,在奖励函数可以表示为给定特征的线性组合,使其更容易解释,或者当我们可以访问近似过渡矩阵时,我们会表征奖励可识别性。即使奖励无法识别,我们也提供了特征的条件,当给定环境中的多个专家的数据允许在新环境中概括和训练最佳代理。在各种数值实验中,我们对奖励可识别性和概括性的理论结果得到了验证。
translated by 谷歌翻译
本文讨论了一种学习最佳Q功能的基本问题的新方法。在这种方法中,最佳Q函数被配制为源自经典Bellman最优方程的非线性拉格朗日函数的鞍点。该论文表明,尽管非线性具有非线性,但拉格朗日人仍然具有很强的双重性,这为Q-function学习的一般方法铺平了道路。作为演示,本文根据二元性理论开发了模仿学习算法,并将算法应用于最先进的机器翻译基准。然后,该论文转弯以证明有关拉格朗日鞍点的最佳性的对称性破坏现象,这证明了开发拉格朗日方法的很大程度上被忽视的方向。
translated by 谷歌翻译
Mean-field games have been used as a theoretical tool to obtain an approximate Nash equilibrium for symmetric and anonymous $N$-player games in literature. However, limiting applicability, existing theoretical results assume variations of a "population generative model", which allows arbitrary modifications of the population distribution by the learning algorithm. Instead, we show that $N$ agents running policy mirror ascent converge to the Nash equilibrium of the regularized game within $\tilde{\mathcal{O}}(\varepsilon^{-2})$ samples from a single sample trajectory without a population generative model, up to a standard $\mathcal{O}(\frac{1}{\sqrt{N}})$ error due to the mean field. Taking a divergent approach from literature, instead of working with the best-response map we first show that a policy mirror ascent map can be used to construct a contractive operator having the Nash equilibrium as its fixed point. Next, we prove that conditional TD-learning in $N$-agent games can learn value functions within $\tilde{\mathcal{O}}(\varepsilon^{-2})$ time steps. These results allow proving sample complexity guarantees in the oracle-free setting by only relying on a sample path from the $N$ agent simulator. Furthermore, we demonstrate that our methodology allows for independent learning by $N$ agents with finite sample guarantees.
translated by 谷歌翻译
在阻碍强化学习(RL)到现实世界中的问题的原因之一,两个因素至关重要:与培训相比,数据有限和测试环境的不匹配。在本文中,我们试图通过分配强大的离线RL的问题同时解决这些问题。特别是,我们学习了一个从源环境中获得的历史数据,并优化了RL代理,并在扰动的环境中表现良好。此外,我们考虑将算法应用于大规模问题的线性函数近似。我们证明我们的算法可以实现$ O(1/\ sqrt {k})$的次级临时性,具体取决于线性函数尺寸$ d $,这似乎是在此设置中使用样品复杂性保证的第一个结果。进行了不同的实验以证明我们的理论发现,显示了我们算法与非持bust算法的优越性。
translated by 谷歌翻译
逆强化学习(IRL)试图推断出一种成本函数,以解释专家演示的基本目标和偏好。本文介绍了向后的地平线逆增强学习(RHIRL),这是一种新的IRL算法,用于具有黑盒动态模型的高维,嘈杂,连续的系统。 Rhirl解决了IRL的两个主要挑战:可伸缩性和鲁棒性。为了处理高维的连续系统,Rhirl以退缩的地平线方式与当地的专家演示相匹配,并将其“针迹”一起“缝制”本地解决方案以学习成本;因此,它避免了“维度的诅咒”。这与早期的算法形成鲜明对比,这些算法与在整个高维状态空间中与全球范围内的专家示威相匹配。为了与不完美的专家示范和系统控制噪声保持强大的态度,Rhirl在轻度条件下学习了与系统动力学的状态依赖性成本函数。基准任务的实验表明,在大多数情况下,Rhirl的表现都优于几种领先的IRL算法。我们还证明,Rhirl的累积误差随任务持续时间线性增长。
translated by 谷歌翻译
我们介绍了一种改进政策改进的方法,该方法在基于价值的强化学习(RL)的贪婪方法与基于模型的RL的典型计划方法之间进行了插值。新方法建立在几何视野模型(GHM,也称为伽马模型)的概念上,该模型对给定策略的折现状态验证分布进行了建模。我们表明,我们可以通过仔细的基本策略GHM的仔细组成,而无需任何其他学习,可以评估任何非马尔科夫策略,以固定的概率在一组基本马尔可夫策略之间切换。然后,我们可以将广义政策改进(GPI)应用于此类非马尔科夫政策的收集,以获得新的马尔可夫政策,通常将其表现优于其先驱。我们对这种方法提供了彻底的理论分析,开发了转移和标准RL的应用,并在经验上证明了其对标准GPI的有效性,对充满挑战的深度RL连续控制任务。我们还提供了GHM培训方法的分析,证明了关于先前提出的方法的新型收敛结果,并显示了如何在深度RL设置中稳定训练这些模型。
translated by 谷歌翻译
随机游戏的学习可以说是多功能钢筋学习(MARL)中最标准和最基本的环境。在本文中,我们考虑在非渐近制度的随机游戏中分散的Marl。特别是,我们在大量的一般总和随机游戏(SGS)中建立了完全分散的Q学习算法的有限样本复杂性 - 弱循环SGS,包括对所有代理商的普通合作MARL设置具有相同的奖励(马尔可夫团队问题是一个特例。我们专注于实用的同时具有挑战性地设置完全分散的Marl,既不奖励也没有其他药剂的作用,每个试剂都可以观察到。事实上,每个特工都完全忘记了其他决策者的存在。表格和线性函数近似情况都已考虑。在表格设置中,我们分析了分散的Q学习算法的样本复杂性,以收敛到马尔可夫完美均衡(NASH均衡)。利用线性函数近似,结果用于收敛到线性近似平衡 - 我们提出的均衡的新概念 - 这描述了每个代理的策略是线性空间内的最佳回复(到其他代理)。还提供了数值实验,用于展示结果。
translated by 谷歌翻译
致密的大图限制和平均野外游戏的最新进展已开始实现具有大量代理的广泛动态顺序游戏的可扩展分析。到目前为止,结果已经主要限于Graphon平均现场系统,其具有连续延时扩散或跳跃动态,通常没有控制,并且很少专注于计算方法。我们提出了一种新的离散时间制定,用于Graphon均值野外游戏,作为具有薄弱相互作用的非线性密集图Markov游戏的极限。在理论方面,我们在足够大的系统中给出了Graphon均值场解决方案的广泛且严格的存在和近似性质。在实践方面,我们通过引入代理等价类或将Graphon均值字段系统重新格式化为经典平均字段系统来提供Graphon均值的一般学习方案。通过反复找到正则化的最佳控制解决方案及其生成的平均字段,我们成功地获得了与许多代理商的其他不可行的大密集图游戏中的合理的近似纳入均衡。经验上,我们能够证明一些例子,即有限代理行为越来越接近我们计算的均衡的平均场行为,因为图形或系统尺寸增长,验证了我们的理论。更一般地说,我们成功地与序贯蒙特卡罗方法结合使用政策梯度强化学习。
translated by 谷歌翻译