强化学习(RL)算法已经在复杂任务上展示了有希望的结果,但是通常需要不切实际的样本数量,因为它们从头开始学习。 Meta-RL旨在通过以前的任务中的经验来解决这一挑战,以便更快地解决新任务。然而,在实践中,这些算法在元培训过程中通常还需要大量的政策经验,这使得它们不适用于很多问题。为此,我们建议通过模仿解决以前看到的任务的专家政策来学习强化学习程序。这涉及嵌套优化,在内部循环中使用RL,在外部循环中使用监督模仿学习。由于外循环模仿学习可以通过非政策数据来完成,我们可以在元学习样本效率方面取得显着的进步。在本文中,我们展示了这种一般的想法可以用于元强化学习和从多任务演示数据学习快速RL程序。前者的结果是,在元培训期间,可以利用针对先前任务学习的策略而无需大量的政策数据,而在人员易于提供示范的情况下,这种方法特别有用。在许多连续控制meta-RL问题中,与先前的工作相比,我们证明了meta-RL样本效率的显着提高,以及通过视觉观察扩展到域的能力。
translated by 谷歌翻译
深度Q-Learning(DQL)是一组用于控制的时间差分算法,采用三种技术统称为“致命三元组”,用于强化学习:自举,离线学习和函数逼近。先前的工作已经证明,这些可以共同导致Q学习算法的发生,但是发生不同的条件并不是很清楚。在本文中,我们基于Q值更新的线性近似给出了一个简单的分析,我们认为这可以提供在致命三元组下的分歧。分析中的中心点是考虑何时逼近深Qupdate的前导顺序是否是支持范围内的收缩。基于此分析,我们开发了一种算法,该算法允许在没有任何常规使用的技巧(例如目标网络,自适应梯度优化器或使用多个Q函数)的情况下进行连续控制的稳定深度Q学习。我们证明了我们的算法在OpenAI Gym的标准MuJoCobenchmarks上执行了上述或接近最先进的算法。
translated by 谷歌翻译
强化学习算法通常需要数百万个环境交互才能在稀疏奖励设置中学习成功的策略。 HindsightExperience Replay(HER)作为一种技术被引入,通过重新设想不成功的轨迹作为成功的轨迹,通过取代原先预期的目标来提高样本效率。但是,此方法不适用于目标配置未知且必须从观察中推断的视域。在这项工作中,我们展示了如何使用在相对较少的目标快照上训练的生成模型来成功幻觉成功的视觉轨迹。据我们所知,这是第一项工作,代理政策仅以其国家为条件。 Wethen将此模型应用于离散和连续设置中的强化学习代理。我们在3D环境和模拟机器人应用程序中显示导航和拾取任务的结果。我们的方法显示了标准RL算法和从先前工作得到的基线的标记改进。
translated by 谷歌翻译
随着机器人和其他智能代理从简单的环境和问题转移到更复杂的非结构化设置,手动编程他们的行为变得越来越具有挑战性和昂贵。通常,教师更容易展示所需的行为,而不是尝试手动启动它。这种从示范中学习的过程,以及算法的研究,被称为模仿学习。这项工作提供了模仿学习的介绍。它涵盖了基本的假设,方法以及它们之间的关系;为解决问题而开发的丰富算法集;关于有效工具和实施的建议。我们打算将本文服务于两个受众。首先,我们希望机器学习专家能够熟悉模仿学习的挑战,尤其是机器人技术的挑战,以及它与更熟悉的框架(如统计监督学习理论和强化学习)之间有趣的理论和实践区别。其次,我们希望应用人工智能中的神经病学家和专家对模仿学习的框架和工具有广泛的了解。
translated by 谷歌翻译
我们为星际争霸II提供了一种新颖的模块化架构。架构在多个模块之间分配责任,每个模块控制游戏的一个方面,例如构建顺序选择或策略。集中式调度程序会查看所有模块建议的宏,并确定它们的执行顺序。更新程序会跟踪环境更改并实例化可执行操作的宏。该框架中的模块可以通过人工设计,规划或强化学习独立或联合进行优化。我们应用深度强化学习技术来训练模块化代理中的两个模块中的两个,并进行自我游戏,达到94%或87%的胜率。在Zerg vs. Zerg比赛中更加“(5级)内置暴雪机器人,有或没有战争迷雾。
translated by 谷歌翻译
我们考虑从执行任务的人的单个视频在真实机器人上学习基于多阶段视觉的任务的问题,同时利用子任务与其他对象的演示数据。这个问题带来了许多重大挑战。没有远程操作的视频演示很容易为人类提供,但不提供任何直接监督。来自原始像素的学习策略实现了完全的通用性,但需要学习具有许多参数的大型函数准直器。最后,当被视为单片技能时,复合任务可以获得不切实际的演示数据量。为了应对这些挑战,我们提出了一种方法,既可以学习视频演示中的原始行为,也可以通过“观察”人类演示者来动态组合这些行为以执行多阶段任务。我们在模拟Sawyer机器人和真实PR2机器人上的结果表明我们用新颖的物体和原始像素输入来学习各种订单履行和厨房保存任务的方法。
translated by 谷歌翻译
通用智能机器人必须能够自主学习并且能够完成多项任务才能在现实世界中部署。然而,标准强化学习方法学习单独的任务特定策略并假设每项任务的奖励功能已知apriori 。我们提出了一个框架,可以从非策略数据中学习事件提示,并可以在测试时灵活地组合这些事件提示来完成不同的任务。这些事件提示标签不是先验已知的,而是使用学习模型(例如计算机视觉检测器)进行标记,然后使用动作条件预测模型及时“备份”。我们展示了模拟机器人汽车和真实世界的遥控车可以自动收集数据并且没有任何人工提供的标签,超出了探测器所需的标签,然后在测试时能够完成各种不同的任务。可以在http://github.com/gkahn13/CAPs上找到实验和代码的视频
translated by 谷歌翻译
Meta-reinforcement学习(Meta-RL)中的学分分配仍然很难理解。现有方法要么忽略对适应前行为的信用分配,要么天真地实施。这导致在训练期间样本效率差,以及无效的任务识别策略。本文对基于梯度的Meta-RL中的信用分配进行了理论分析。在获得的洞察力的基础上,我们开发了一种新的元学习算法,该算法既解决了信用分配不良的问题,也解决了以前的元策略梯度难以估计的问题。通过在元策略搜索期间控制预适应和适应策略的统计距离,所提出的算法赋予高效且稳定的元学习。我们的方法可以实现卓越的预适应策略行为,并且在样本效率,挂钟时间和渐近性能方面始终优于以前的Meta-RL算法。
translated by 谷歌翻译
基于运动捕捉的数据驱动角色动画可以产生高度自然的行为,并且当与物理模拟相结合时,可以提供对物理扰动,环境变化和形态差异的自然程序响应。运动捕捉仍然是最受欢迎的运动数据源,但收集mocap数据通常需要重度仪表化的环境和演员。在本文中,我们提出了一种方法,使物理模拟角色能够从视频(SFV)中学习技能。我们的方法基于深度姿态估计和深度加强学习,允许数据驱动的动画利用来自网络的大量公开可用的视频剪辑,例如来自YouTube的视频剪辑。这具有能够简单地通过查找期望行为的视频记录来快速且容易地设计字符控制器的潜力。由此产生的控制器对于扰动是鲁棒的,可以适应新的设置,可以执行基本的对象交互,并且可以通过强化学习重新定向到新的形态。我们进一步证明了我们的方法可以通过从观察到的姿势初始化的学习控制器的前向模拟来预测来自静止图像的潜在人类运动。我们的框架能够学习广泛的动态技能,包括运动,杂技和martialarts。
translated by 谷歌翻译
已经提出了用于广泛应用的对抗性学习方法,但是对抗性模型的训练可以是众所周知的不稳定的。有效地平衡发生器和识别器的性能是至关重要的,因为实现非常高精度的鉴别器将产生相对无信息的梯度。在这项工作中,我们提出了一种简单而通用的技术,通过信息瓶颈来约束信息流中的信息流。通过对观察与鉴别器的内部表示之间的相互信息进行约束,我们可以有效地调制鉴别器的准确性并保持有用和信息化的梯度。我们证明了我们提出的变分鉴别器瓶颈(VDB)导致了对抗学习算法的三个不同应用领域的显着改进。我们的主要评估研究VDB动态学习动态连续控制技能的适用性,例如跑步。 Weshow我们的方法可以直接从\ emph {raw} videodemonstrations学习这些技能,大大优于以前的对抗模仿学习方法。 VDB还可以与对抗性逆向强化学习相结合,以学习可以在新设置中转移和重新优化的简约奖励功能。最后,我们证明了VDBcan可以更有效地训练GAN以产生图像,并改进了许多先前的稳定方法。
translated by 谷歌翻译