强化学习算法通常需要数百万个环境交互才能在稀疏奖励设置中学习成功的策略。 HindsightExperience Replay(HER)作为一种技术被引入,通过重新设想不成功的轨迹作为成功的轨迹,通过取代原先预期的目标来提高样本效率。但是,此方法不适用于目标配置未知且必须从观察中推断的视域。在这项工作中,我们展示了如何使用在相对较少的目标快照上训练的生成模型来成功幻觉成功的视觉轨迹。据我们所知,这是第一项工作,代理政策仅以其国家为条件。 Wethen将此模型应用于离散和连续设置中的强化学习代理。我们在3D环境和模拟机器人应用程序中显示导航和拾取任务的结果。我们的方法显示了标准RL算法和从先前工作得到的基线的标记改进。
translated by 谷歌翻译
随着机器人和其他智能代理从简单的环境和问题转移到更复杂的非结构化设置,手动编程他们的行为变得越来越具有挑战性和昂贵。通常,教师更容易展示所需的行为,而不是尝试手动启动它。这种从示范中学习的过程,以及算法的研究,被称为模仿学习。这项工作提供了模仿学习的介绍。它涵盖了基本的假设,方法以及它们之间的关系;为解决问题而开发的丰富算法集;关于有效工具和实施的建议。我们打算将本文服务于两个受众。首先,我们希望机器学习专家能够熟悉模仿学习的挑战,尤其是机器人技术的挑战,以及它与更熟悉的框架(如统计监督学习理论和强化学习)之间有趣的理论和实践区别。其次,我们希望应用人工智能中的神经病学家和专家对模仿学习的框架和工具有广泛的了解。
translated by 谷歌翻译
我们为星际争霸II提供了一种新颖的模块化架构。架构在多个模块之间分配责任,每个模块控制游戏的一个方面,例如构建顺序选择或策略。集中式调度程序会查看所有模块建议的宏,并确定它们的执行顺序。更新程序会跟踪环境更改并实例化可执行操作的宏。该框架中的模块可以通过人工设计,规划或强化学习独立或联合进行优化。我们应用深度强化学习技术来训练模块化代理中的两个模块中的两个,并进行自我游戏,达到94%或87%的胜率。在Zerg vs. Zerg比赛中更加“(5级)内置暴雪机器人,有或没有战争迷雾。
translated by 谷歌翻译
我们考虑从执行任务的人的单个视频在真实机器人上学习基于多阶段视觉的任务的问题,同时利用子任务与其他对象的演示数据。这个问题带来了许多重大挑战。没有远程操作的视频演示很容易为人类提供,但不提供任何直接监督。来自原始像素的学习策略实现了完全的通用性,但需要学习具有许多参数的大型函数准直器。最后,当被视为单片技能时,复合任务可以获得不切实际的演示数据量。为了应对这些挑战,我们提出了一种方法,既可以学习视频演示中的原始行为,也可以通过“观察”人类演示者来动态组合这些行为以执行多阶段任务。我们在模拟Sawyer机器人和真实PR2机器人上的结果表明我们用新颖的物体和原始像素输入来学习各种订单履行和厨房保存任务的方法。
translated by 谷歌翻译
通用智能机器人必须能够自主学习并且能够完成多项任务才能在现实世界中部署。然而,标准强化学习方法学习单独的任务特定策略并假设每项任务的奖励功能已知apriori 。我们提出了一个框架,可以从非策略数据中学习事件提示,并可以在测试时灵活地组合这些事件提示来完成不同的任务。这些事件提示标签不是先验已知的,而是使用学习模型(例如计算机视觉检测器)进行标记,然后使用动作条件预测模型及时“备份”。我们展示了模拟机器人汽车和真实世界的遥控车可以自动收集数据并且没有任何人工提供的标签,超出了探测器所需的标签,然后在测试时能够完成各种不同的任务。可以在http://github.com/gkahn13/CAPs上找到实验和代码的视频
translated by 谷歌翻译
Meta-reinforcement学习(Meta-RL)中的学分分配仍然很难理解。现有方法要么忽略对适应前行为的信用分配,要么天真地实施。这导致在训练期间样本效率差,以及无效的任务识别策略。本文对基于梯度的Meta-RL中的信用分配进行了理论分析。在获得的洞察力的基础上,我们开发了一种新的元学习算法,该算法既解决了信用分配不良的问题,也解决了以前的元策略梯度难以估计的问题。通过在元策略搜索期间控制预适应和适应策略的统计距离,所提出的算法赋予高效且稳定的元学习。我们的方法可以实现卓越的预适应策略行为,并且在样本效率,挂钟时间和渐近性能方面始终优于以前的Meta-RL算法。
translated by 谷歌翻译
基于运动捕捉的数据驱动角色动画可以产生高度自然的行为,并且当与物理模拟相结合时,可以提供对物理扰动,环境变化和形态差异的自然程序响应。运动捕捉仍然是最受欢迎的运动数据源,但收集mocap数据通常需要重度仪表化的环境和演员。在本文中,我们提出了一种方法,使物理模拟角色能够从视频(SFV)中学习技能。我们的方法基于深度姿态估计和深度加强学习,允许数据驱动的动画利用来自网络的大量公开可用的视频剪辑,例如来自YouTube的视频剪辑。这具有能够简单地通过查找期望行为的视频记录来快速且容易地设计字符控制器的潜力。由此产生的控制器对于扰动是鲁棒的,可以适应新的设置,可以执行基本的对象交互,并且可以通过强化学习重新定向到新的形态。我们进一步证明了我们的方法可以通过从观察到的姿势初始化的学习控制器的前向模拟来预测来自静止图像的潜在人类运动。我们的框架能够学习广泛的动态技能,包括运动,杂技和martialarts。
translated by 谷歌翻译
已经提出了用于广泛应用的对抗性学习方法,但是对抗性模型的训练可以是众所周知的不稳定的。有效地平衡发生器和识别器的性能是至关重要的,因为实现非常高精度的鉴别器将产生相对无信息的梯度。在这项工作中,我们提出了一种简单而通用的技术,通过信息瓶颈来约束信息流中的信息流。通过对观察与鉴别器的内部表示之间的相互信息进行约束,我们可以有效地调制鉴别器的准确性并保持有用和信息化的梯度。我们证明了我们提出的变分鉴别器瓶颈(VDB)导致了对抗学习算法的三个不同应用领域的显着改进。我们的主要评估研究VDB动态学习动态连续控制技能的适用性,例如跑步。 Weshow我们的方法可以直接从\ emph {raw} videodemonstrations学习这些技能,大大优于以前的对抗模仿学习方法。 VDB还可以与对抗性逆向强化学习相结合,以学习可以在新设置中转移和重新优化的简约奖励功能。最后,我们证明了VDBcan可以更有效地训练GAN以产生图像,并改进了许多先前的稳定方法。
translated by 谷歌翻译
基于模型的强化学习方法承诺具有数据效率。然而,由于学习动力学模型中的挑战能够充分匹配现实世界的动态,他们很难达到与无模型方法相同的渐近性能。我们提出基于模型的策略优化(MB-MPO),这种方法放弃了对准确学习动力学模型的强烈依赖。使用学习动态模型的集合,MB-MPO元学习一种策略,该策略可以通过一个策略梯度步骤快速适应整体中的任何模型。这引导了元策略向内部化集合中的一致动态预测,同时最大限度地减轻了行为的负担w.r.t.该模型不同于适应步骤。我们的实验表明MB-MPO比以前的基于模型的方法更加健壮的模型缺陷。最后,我们证明我们的方法能够匹配无模型方法的渐近性能,同时需要更少的经验。
translated by 谷歌翻译
基于模型的强化学习(RL)方法可以大致归类为全局模型方法,其依赖于在广泛的状态中提供敏感预测的学习模型,或局部模型方法,其有效地改进用于策略改进的简单模型。虽然预测当前行动将导致的未来状态是困难的,但本地模型方法只是试图理解当前政策邻域中的系统动力学,使得有可能产生局部改进而无法在未来学习准确预测。这个主要思想在于此。本文是我们可以学习表示,使得迭代能够根据当前政策中的数据回顾性地推断出简单动态,从而使本地模型能够用于复杂系统中的策略学习。为此,我们专注于使用概率图形模型(PGM)结构学习表示,这允许我们设计一种有效的局部模型方法,该方法使用PGM作为全局事先推断来自真实世界推出的动态。我们将我们的方法与其他基于模型和无模型的RL方法进行比较,这些方法包括一套机器人任务,包括直接从相机图像在realSawyer机器人手臂上的操作任务。我们的结果视频可在https://sites.google.com/view/solar-iclips上找到
translated by 谷歌翻译