DeepMind的游戏理论与多代理团队研究多学科学习的几个方面,从计算近似值到游戏理论中的基本概念,再到在富裕的空间环境中模拟社会困境,并在困难的团队协调任务中培训3-D类人动物。我们小组的一个签名目的是使用DeepMind在DeepMind中提供的资源和专业知识,以深入强化学习来探索复杂环境中的多代理系统,并使用这些基准来提高我们的理解。在这里,我们总结了我们团队的最新工作,并提出了一种分类法,我们认为这重点介绍了多代理研究中许多重要的开放挑战。
translated by 谷歌翻译
虽然深度加强学习(RL)代理商在获得机器人学的灵平行为方面表现出令人难以置信的潜力,但由于培训和执行环境之间的不匹配,它们倾向于在现实世界中部署时出现错误。相比之下,经典的机器人社区开发了一系列控制器,可以在真实的推导下,在现实世界中的大多数州都可以安全地操作。然而,这些控制器缺乏对分析建模和近似的局限性的复杂任务所需的灵活性。在本文中,我们提出了贝叶斯控制器融合(BCF),这是一种新颖的不确定性感知部署策略,这些策略结合了深度RL政策和传统手工控制器的优势。在本框架中,我们可以执行零拍摄的SIM-Teal Transfer,其中我们的不确定性的配方允许机器人通过利用手工制作的控制器来可靠地在分配状态下行动,同时获得所学习系统的灵敏度。我们在两个现实世界的连续控制任务上显示了有希望的结果,其中BCF优于独立的政策和控制器,超越了可以独立实现的。在HTTPS://bit.ly/bcf_deploy上提供演示我们系统的补充视频。
translated by 谷歌翻译