模仿学习研究社区最近取得了重大进展,以使人工代理人仅凭视频演示模仿行为。然而,由于视频观察的高维质性质,针对此问题开发的当前最新方法表现出很高的样本复杂性。为了解决这个问题,我们在这里介绍了一种新的算法,称为使用状态观察者VGAIFO-SO从观察中获得的,称为视觉生成对抗性模仿。 Vgaifo-So以此为核心,试图使用一种新型的自我监管的状态观察者来解决样本效率低下,该观察者从高维图像中提供了较低维度的本体感受状态表示的估计。我们在几个连续的控制环境中进行了实验表明,Vgaifo-SO比其他IFO算法更有效地从仅视频演示中学习,有时甚至可以实现与观察(Gaifo)算法的生成对抗性模仿(Gaifo)算法的性能,该算法有特权访问访问权限示威者的本体感知状态信息。
translated by 谷歌翻译
需要大量人类努力和迭代的奖励功能规范仍然是通过深入的强化学习来学习行为的主要障碍。相比之下,提供所需行为的视觉演示通常会提供一种更简单,更自然的教师的方式。我们考虑为代理提供了一个固定的视觉演示数据集,说明了如何执行任务,并且必须学习使用提供的演示和无监督的环境交互来解决任务。此设置提出了许多挑战,包括对视觉观察的表示,由于缺乏固定的奖励或学习信号而导致的,由于高维空间而引起的样本复杂性以及学习不稳定。为了解决这些挑战,我们开发了一种基于变异模型的对抗模仿学习(V-Mail)算法。基于模型的方法为表示学习,实现样本效率并通过实现派利学习来提高对抗性训练的稳定性提供了强烈的信号。通过涉及几种基于视觉的运动和操纵任务的实验,我们发现V-Mail以样本有效的方式学习了成功的视觉运动策略,与先前的工作相比,稳定性更高,并且还可以实现较高的渐近性能。我们进一步发现,通过传输学习模型,V-Mail可以从视觉演示中学习新任务,而无需任何其他环境交互。所有结果在内的所有结果都可以在\ url {https://sites.google.com/view/variational-mail}在线找到。
translated by 谷歌翻译
我们调查视觉跨实施的模仿设置,其中代理商学习来自其他代理的视频(例如人类)的策略,示范相同的任务,但在其实施例中具有缺点差异 - 形状,动作,终效应器动态等。在这项工作中,我们证明可以从对这些差异强大的跨实施例证视频自动发现和学习基于视觉的奖励功能。具体而言,我们介绍了一种用于跨实施的跨实施的自我监督方法(XIRL),它利用时间周期 - 一致性约束来学习深度视觉嵌入,从而从多个专家代理的示范的脱机视频中捕获任务进度,每个都执行相同的任务不同的原因是实施例差异。在我们的工作之前,从自我监督嵌入产生奖励通常需要与参考轨迹对齐,这可能难以根据STARK实施例的差异来获取。我们凭经验显示,如果嵌入式了解任务进度,则只需在学习的嵌入空间中占据当前状态和目标状态之间的负距离是有用的,作为培训与加强学习的培训政策的奖励。我们发现我们的学习奖励功能不仅适用于在训练期间看到的实施例,而且还概括为完全新的实施例。此外,在将现实世界的人类示范转移到模拟机器人时,我们发现XIRL比当前最佳方法更具样本。 https://x-irl.github.io提供定性结果,代码和数据集
translated by 谷歌翻译
现代无模式加固学习方法最近展示了许多问题的令人印象深刻的结果。然而,由于具有高样本复杂性,这种复杂的畴仍然是挑战。为了解决这一问题,目前的方法采用了国家动作对形式的专家演示,这很难获得真实世界的环境,例如学习视频。在本文中,我们走向更现实的环境和探索唯一的模仿学习。为了解决此设置,我们培训逆动力学模型,并使用它来预测仅用于状态演示的操作。逆动力学模型和策略是联合培训的。我们的方法与状态动作方法相符,并且单独占RL的差异。不依赖于专家行动,我们能够以不同的动态,形态和物体的示威学习。在https://people.eecs.berkeley.edu/~ilija/soil提供的视频。
translated by 谷歌翻译
最近,目睹了利用专家国家在模仿学习(IL)中的各种成功应用。然而,来自视觉输入(ILFVI)的另一个IL设定 - IL,它通过利用在线视觉资源而具有更大的承诺,它具有低数据效率和良好的性能,从政策学习方式和高度产生了差 - 宣称视觉输入。我们提出了由禁止策略学习方式,数据增强和编码器技术组成的OPIFVI(视觉输入的偏离策略模仿),分别分别解决所提到的挑战。更具体地,为了提高数据效率,OPIFVI以脱策方式进行IL,可以多次使用采样数据。此外,我们提高了opifvi与光谱归一化的稳定性,以减轻脱助政策培训的副作用。我们认为代理商的ILFVI表现不佳的核心因素可能不会从视觉输入中提取有意义的功能。因此,Opifvi采用计算机愿望的数据增强,以帮助列车编码器,可以更好地从视觉输入中提取功能。另外,对编码器的梯度背交量的特定结构旨在稳定编码器训练。最后,我们证明OPIFVI能够实现专家级性能和优于现有的基线,无论是通过使用Deepmind控制套件的广泛实验,无论视觉演示还是视觉观测。
translated by 谷歌翻译
本文考虑了从专家演示中学习机器人运动和操纵任务。生成对抗性模仿学习(GAIL)训练一个区分专家与代理转换区分开的歧视者,进而使用歧视器输出定义的奖励来优化代理商的策略生成器。这种生成的对抗训练方法非常强大,但取决于歧视者和发电机培训之间的微妙平衡。在高维问题中,歧视训练可能很容易过度拟合或利用与任务 - 核定功能进行过渡分类的关联。这项工作的一个关键见解是,在合适的潜在任务空间中进行模仿学习使训练过程稳定,即使在挑战高维问题中也是如此。我们使用动作编码器模型来获得低维的潜在动作空间,并使用对抗性模仿学习(Lapal)训练潜在政策。可以从州行动对脱机来训练编码器模型,以获得任务无关的潜在动作表示或与歧视器和发电机培训同时在线获得,以获得任务意识到的潜在行动表示。我们证明了Lapal训练是稳定的,具有近乎单的性能的改进,并在大多数运动和操纵任务中实现了专家性能,而Gail基线收敛速度较慢,并且在高维环境中无法实现专家的表现。
translated by 谷歌翻译
仿制学习(IL)是一个框架,了解从示范中模仿专家行为。最近,IL显示了高维和控制任务的有希望的结果。然而,IL通常遭受环境互动方面的样本低效率,这严重限制了它们对模拟域的应用。在工业应用中,学习者通常具有高的相互作用成本,与环境的互动越多,对环境的损害越多,学习者本身就越多。在本文中,我们努力通过引入逆钢筋学习的新颖方案来提高样本效率。我们的方法,我们调用\ texit {model redion函数基础的模仿学习}(mrfil),使用一个集合动态模型作为奖励功能,是通过专家演示培训的内容。关键的想法是通过在符合专家示范分布时提供积极奖励,为代理商提供与漫长地平线相匹配的演示。此外,我们展示了新客观函数的收敛保证。实验结果表明,与IL方法相比,我们的算法达到了竞争性能,并显着降低了环境交互。
translated by 谷歌翻译
模仿学习在有效地学习政策方面对复杂的决策问题有着巨大的希望。当前的最新算法经常使用逆增强学习(IRL),在给定一组专家演示的情况下,代理会替代奖励功能和相关的最佳策略。但是,这种IRL方法通常需要在复杂控制问题上进行实质性的在线互动。在这项工作中,我们提出了正规化的最佳运输(ROT),这是一种新的模仿学习算法,基于最佳基于最佳运输轨迹匹配的最新进展。我们的主要技术见解是,即使只有少量演示,即使只有少量演示,也可以自适应地将轨迹匹配的奖励与行为克隆相结合。我们对横跨DeepMind Control Suite,OpenAI Robotics和Meta-World基准的20个视觉控制任务进行的实验表明,与先前最新的方法相比,平均仿真达到了90%的专家绩效的速度,达到了90%的专家性能。 。在现实世界的机器人操作中,只有一次演示和一个小时的在线培训,ROT在14个任务中的平均成功率为90.1%。
translated by 谷歌翻译
可推广的对象操纵技能对于智能和多功能机器人在现实世界中的复杂场景中工作至关重要。尽管在强化学习方面取得了最新进展,但学习可以处理一类几何多样的铰接物体的可推广的操纵政策仍然非常具有挑战性。在这项工作中,我们通过以任务不合时宜的方式模仿学习来解决此类别级别的对象操纵政策学习问题,我们假设没有手工制作的密集奖励,而只是最终的奖励。鉴于这个新颖且具有挑战性的概括性政策学习问题,我们确定了几个关键问题,这些问题可能使以前的模仿学习算法失败,并阻碍了概括是看不见的实例。然后,我们提出了几种一般但至关重要的技术,包括从演示中学习的生成性对抗性自我象征学习,歧视者的逐步增长以及对专家缓冲区的实例平衡,可以准确地指出和解决这些问题,并可以受益于类别级别的操纵政策学习,而不管有什么问题任务。我们对Maniskill基准测试的实验表明,所有任务都有显着的改进,而我们的消融研究进一步验证了每种提出的技术的贡献。
translated by 谷歌翻译
由于部分可观察性,高维视觉感知和延迟奖励,在MINECRAFT等开放世界游戏中的学习理性行为仍然是挑战,以便对加固学习(RL)研究造成挑战性,高维视觉感知和延迟奖励。为了解决这个问题,我们提出了一种具有代表学习和模仿学习的样本有效的等级RL方法,以应对感知和探索。具体来说,我们的方法包括两个层次结构,其中高级控制器学习控制策略来控制选项,低级工作人员学会解决每个子任务。为了提高子任务的学习,我们提出了一种技术组合,包括1)动作感知表示学习,其捕获了行动和表示之间的基础关系,2)基于鉴别者的自模仿学习,以实现有效的探索,以及3)合奏行为克隆一致性筛选政策鲁棒性。广泛的实验表明,Juewu-MC通过大边缘显着提高了样品效率并优于一组基线。值得注意的是,我们赢得了神经脂溢斯矿业锦标赛2021年研究竞赛的冠军,并实现了最高的绩效评分。
translated by 谷歌翻译
仿制学习(IL)是一种有效的学习范例,利用代理和环境之间的交互。它不需要显式奖励信号,而是尝试使用专家演示恢复所需的策略。通常,IL方法可以分类为行为克隆(BC)和逆钢筋学习(IRL)。在这项工作中,提出了一种基于概率密度估计的新型奖励功能,用于IRL,这可以显着降低现有IRL方法的复杂性。此外,我们证明,只要确定性,我们源自奖励函数的理论上最佳政策与专家政策相同。因此,可以优雅地将IRL问题变为概率密度估计问题。基于所提出的奖励函数,我们展示了一个“观看 - 尝试学习”样式框架命名概率密度估计的基于仿真学习(PDEIL),其可以在离散和连续的动作空间中工作。最后,在健身房环境中的综合实验表明,Pdeil比现有算法恢复靠近地面真理的奖励更有效。
translated by 谷歌翻译
自动驾驶汽车和自主驾驶研究一直受到现代人工智能应用中主要有希望的前景。根据先进的驾驶员辅助系统(ADAS)的演变,自动驾驶车辆和自主驱动系统的设计变得复杂和安全至关重要。通常,智能系统同时和有效地激活ADAS功能。因此,必须考虑可靠的ADAS功能协调,安全地控制驱动系统。为了处理这个问题,本文提出了一种随机的对抗性模仿学习(RAIL)算法。铁路是一种新的无衍生仿制学习方法,用于具有各种ADAS功能协调的自主驾驶;因此,它模仿决策者的运作,可以使用各种ADAS功能控制自动驾驶。该方法能够培训涉及激光雷达数据的决策者,并控制多车道复合道环境中的自主驾驶。基于仿真的评估验证了所提出的方法实现了所需的性能。
translated by 谷歌翻译
加强学习是机器人获得从经验中获得技能的强大框架,但通常需要大量的在线数据收集。结果,很难收集机器人概括所需的足够多样化的经验。另一方面,人类的视频是一种易于获得的广泛和有趣的经历来源。在本文中,我们考虑问题:我们可以直接进行强化学习,以便在人类收集的经验吗?这种问题特别困难,因为这种视频没有用动作注释并相对于机器人的实施例展示了大量的视觉畴偏移。为了解决这些挑战,我们提出了一种与视频(RLV)的强化学习框架。 RLV使用人类收集的经验结合机器人收集的数据来了解策略和价值函数。在我们的实验中,我们发现RLV能够利用此类视频来学习基于视觉的愿景技能,以不到一半的样本作为从头开始学习的RL方法。
translated by 谷歌翻译
Exploration in environments with sparse rewards has been a persistent problem in reinforcement learning (RL). Many tasks are natural to specify with a sparse reward, and manually shaping a reward function can result in suboptimal performance. However, finding a non-zero reward is exponentially more difficult with increasing task horizon or action dimensionality. This puts many real-world tasks out of practical reach of RL methods. In this work, we use demonstrations to overcome the exploration problem and successfully learn to perform long-horizon, multi-step robotics tasks with continuous control such as stacking blocks with a robot arm. Our method, which builds on top of Deep Deterministic Policy Gradients and Hindsight Experience Replay, provides an order of magnitude of speedup over RL on simulated robotics tasks. It is simple to implement and makes only the additional assumption that we can collect a small set of demonstrations. Furthermore, our method is able to solve tasks not solvable by either RL or behavior cloning alone, and often ends up outperforming the demonstrator policy.
translated by 谷歌翻译
本文解决了逆增强学习(IRL)的问题 - 从观察其行为中推断出代理的奖励功能。 IRL可以为学徒学习提供可概括和紧凑的代表,并能够准确推断人的偏好以帮助他们。 %并提供更准确的预测。但是,有效的IRL具有挑战性,因为许多奖励功能可以与观察到的行为兼容。我们专注于如何利用先前的强化学习(RL)经验,以使学习这些偏好更快,更高效。我们提出了IRL算法基础(通过样本中的连续功能意图推断行为获取行为),该算法利用多任务RL预培训和后继功能,使代理商可以为跨越可能的目标建立强大的基础,从而跨越可能的目标。给定的域。当仅接触一些专家演示以优化新颖目标时,代理商会使用其基础快速有效地推断奖励功能。我们的实验表明,我们的方法非常有效地推断和优化显示出奖励功能,从而准确地从少于100个轨迹中推断出奖励功能。
translated by 谷歌翻译
仅国家模仿学习的最新进展将模仿学习的适用性扩展到现实世界中的范围,从而减轻了观察专家行动的需求。但是,现有的解决方案只学会从数据中提取州对行动映射策略,而无需考虑专家如何计划到目标。这阻碍了利用示威游行并限制政策的灵活性的能力。在本文中,我们介绍了解耦政策优化(DEPO),该策略优化(DEPO)明确将策略脱离为高级状态计划者和逆动力学模型。借助嵌入式的脱钩策略梯度和生成对抗训练,DEPO可以将知识转移到不同的动作空间或状态过渡动态,并可以将规划师推广到无示威的状态区域。我们的深入实验分析表明,DEPO在学习最佳模仿性能的同时学习通用目标状态计划者的有效性。我们证明了DEPO通过预训练跨任务转移的吸引力,以及与各种技能共同培训的潜力。
translated by 谷歌翻译
样本效率对于仿制学习方法来说至关重要,以适用于现实世界应用。许多研究通过延长对抗性模仿的违法行为来提高样本效率,无论这些违规延迟是否可以改变原始目标或涉及复杂的优化。我们重新审视对抗性模仿的基础,并提出了一种不需要对抗性培训或最小最大优化的脱营式样本有效方法。我们的配方在两个主要见解中大写:(1)Bellman方程和静止状态 - 动作分配方程之间的相似性使我们能够推导出一种新的时间差异(TD)学习方法; (2)使用确定性政策简化了TD学习。结合,这些见解产生了一种实用的算法,确定性和鉴别的模仿(D2仿真),其通过第一分区样本来分为两个重放缓冲区,然后通过禁止策略加强学习学习确定性政策。我们的经验结果表明,D2模仿在实现良好的样本效率方面有效,表现出对许多控制任务的对抗模仿的几种违规延伸方法。
translated by 谷歌翻译
技能链是一种希望通过顺序结合以前学习的技能来合成复杂行为的有希望的方法。然而,当政策遭遇在培训期间从未见过的起始状态时,幼稚的技能组成失败。对于成功的技能链接,先前的方法试图扩大策略的起始状态分布。然而,这些方法需要覆盖更大的状态分布,因为更多的策略进行测序,因此仅限于短的技能序列。在本文中,我们通过在对抗学习框架中规范终端状态分布来提出连锁多个初始状态分布的多重政策。我们评估了我们对家具组件的两个复杂的长地平衡任务的方法。我们的结果表明,我们的方法建立了第一种无模型加强学习算法来解决这些任务;而先前的技能链接方法失败。代码和视频可在https://clvrai.com/skill-chaining上获得
translated by 谷歌翻译
Poor sample efficiency continues to be the primary challenge for deployment of deep Reinforcement Learning (RL) algorithms for real-world applications, and in particular for visuo-motor control. Model-based RL has the potential to be highly sample efficient by concurrently learning a world model and using synthetic rollouts for planning and policy improvement. However, in practice, sample-efficient learning with model-based RL is bottlenecked by the exploration challenge. In this work, we find that leveraging just a handful of demonstrations can dramatically improve the sample-efficiency of model-based RL. Simply appending demonstrations to the interaction dataset, however, does not suffice. We identify key ingredients for leveraging demonstrations in model learning -- policy pretraining, targeted exploration, and oversampling of demonstration data -- which forms the three phases of our model-based RL framework. We empirically study three complex visuo-motor control domains and find that our method is 150%-250% more successful in completing sparse reward tasks compared to prior approaches in the low data regime (100K interaction steps, 5 demonstrations). Code and videos are available at: https://nicklashansen.github.io/modemrl
translated by 谷歌翻译
现有的模仿学习(IL)方法,例如逆增强学习(IRL)通常具有双环培训过程,在学习奖励功能和政策之间交替,并且倾向于遭受较长的训练时间和较高的差异。在这项工作中,我们确定了可区分物理模拟器的好处,并提出了一种新的IL方法,即通过可区分的物理学(ILD)模仿学习,从而摆脱了双环设计,并在最终性能,收敛速度,融合速度,融合速度,融合速度上取得了重大改善和稳定性。提出的ILD将可区分的物理模拟器作为物理学将其纳入其策略学习的计算图中。它通过从参数化策略中采样动作来展开动力学,只需最大程度地减少专家轨迹与代理轨迹之间的距离,并通过时间物理操作员将梯度回到策略中。有了物理学的先验,ILD政策不仅可以转移到看不见的环境规范中,而且可以在各种任务上产生更高的最终表现。此外,ILD自然形成了单环结构,从而显着提高了稳定性和训练速度。为了简化时间物理操作引起的复杂优化景观,ILD在优化过程中动态选择每个状态的学习目标。在我们的实验中,我们表明ILD在各种连续控制任务中都超过了最先进的方法,只需要一个专家演示。此外,ILD可以应用于具有挑战性的可变形对象操纵任务,并可以推广到看不见的配置。
translated by 谷歌翻译