加强学习(RL)为决策提供了一个强大的框架,但是其实践中的应用通常需要精心设计的奖励功能。对抗性模仿学习(AIL)阐明了自动策略获取,而无需从环境中访问奖励信号。在这项工作中,我们提出了自动编码的对抗模仿学习(AEAIL),这是一个强大而可扩展的AIL框架。为了从演示中诱导专家政策,AEAIL利用自动编码器的重建误差作为奖励信号,该奖励信号比以前的基于歧视者提供了更多的优化策略信息。随后,我们使用派生的目标函数来训练自动编码器和代理策略。实验表明,与穆约科克环境中的最先进方法相比,我们的AEAIL表现优越。更重要的是,当专家演示嘈杂时,AEAIL表现出更好的鲁棒性。具体而言,我们的方法分别获得了$ 16.4 \%$ $和$ 47.2 \%$相对改进的总体,而最佳基线Fairl和PWIL分别在清洁和嘈杂的专家数据上。视频结果,开源代码和数据集可在https://sites.google.com/view/auto-encoding-imitation中找到。
translated by 谷歌翻译
模仿学习算法已被解释为差异最小化问题的变体。比较专家和学习者之间的入住措施的能力对于他们从示范中学习的有效性至关重要。在本文中,我们通过将模仿学习作为最小化占用度量之间的距离距离来介绍可进行的解决方案。该公式结合了最佳运输指标在比较非重叠分布与在对手学习的特征空间中定义的余弦距离成本中的宝贵特性。这导致了高度歧视性的评论家网络和最佳运输计划,随后指导模仿学习。我们使用奖励度量和sindhorn距离度量度量评估了所提出的方法。有关实施和复制结果,请参阅以下存储库https://github.com/gpapagiannis/sinkhorn-imitation。
translated by 谷歌翻译
机器人的共同适应一直是一项长期的研究努力,其目的是将系统的身体和行为适应给定的任务,灵感来自动物的自然演变。共同适应有可能消除昂贵的手动硬件工程,并提高系统性能。共同适应的标准方法是使用奖励功能来优化行为和形态。但是,众所周知,定义和构建这种奖励功能是困难的,并且通常是一项重大的工程工作。本文介绍了关于共同适应问题的新观点,我们称之为共同构图:寻找形态和政策,使模仿者可以紧密匹配演示者的行为。为此,我们提出了一种通过匹配示威者的状态分布来适应行为和形态的共同模拟方法。具体而言,我们专注于两种代理之间的状态和动作空间不匹配的挑战性情况。我们发现,共同映射会增加各种任务和设置的行为相似性,并通过将人的步行,慢跑和踢到模拟的人形生物转移来证明共同映射。
translated by 谷歌翻译
我们为模仿学习提供了一个新的框架 - 将模仿视为政策和奖励之间的基于两人排名的游戏。在这个游戏中,奖励代理商学会了满足行为之间的成对性能排名,而政策代理人则学会最大程度地提高这种奖励。在模仿学习中,很难获得近乎最佳的专家数据,即使在无限数据的限制下,也不能像偏好一样对轨迹进行总订购。另一方面,仅从偏好中学习就具有挑战性,因为需要大量偏好来推断高维奖励功能,尽管偏好数据通常比专家演示更容易收集。经典的逆增强学习(IRL)的配方从专家演示中学习,但没有提供从离线偏好中纳入学习的机制,反之亦然。我们将提出的排名游戏框架实例化,并具有新颖的排名损失,从而使算法可以同时从专家演示和偏好中学习,从而获得两种方式的优势。我们的实验表明,所提出的方法可实现最新的样本效率,并可以从观察(LFO)设置中学习以前无法解决的任务。
translated by 谷歌翻译
Behavioural cloning (BC) is a commonly used imitation learning method to infer a sequential decision-making policy from expert demonstrations. However, when the quality of the data is not optimal, the resulting behavioural policy also performs sub-optimally once deployed. Recently, there has been a surge in offline reinforcement learning methods that hold the promise to extract high-quality policies from sub-optimal historical data. A common approach is to perform regularisation during training, encouraging updates during policy evaluation and/or policy improvement to stay close to the underlying data. In this work, we investigate whether an offline approach to improving the quality of the existing data can lead to improved behavioural policies without any changes in the BC algorithm. The proposed data improvement approach - Trajectory Stitching (TS) - generates new trajectories (sequences of states and actions) by `stitching' pairs of states that were disconnected in the original data and generating their connecting new action. By construction, these new transitions are guaranteed to be highly plausible according to probabilistic models of the environment, and to improve a state-value function. We demonstrate that the iterative process of replacing old trajectories with new ones incrementally improves the underlying behavioural policy. Extensive experimental results show that significant performance gains can be achieved using TS over BC policies extracted from the original data. Furthermore, using the D4RL benchmarking suite, we demonstrate that state-of-the-art results are obtained by combining TS with two existing offline learning methodologies reliant on BC, model-based offline planning (MBOP) and policy constraint (TD3+BC).
translated by 谷歌翻译
在许多顺序决策问题(例如,机器人控制,游戏播放,顺序预测),人类或专家数据可用包含有关任务的有用信息。然而,来自少量专家数据的模仿学习(IL)可能在具有复杂动态的高维环境中具有挑战性。行为克隆是一种简单的方法,由于其简单的实现和稳定的收敛而被广泛使用,但不利用涉及环境动态的任何信息。由于对奖励和政策近似器或偏差,高方差梯度估计器,难以在实践中难以在实践中努力训练的许多现有方法。我们介绍了一种用于动态感知IL的方法,它通过学习单个Q函数来避免对抗训练,隐含地代表奖励和策略。在标准基准测试中,隐式学习的奖励显示与地面真实奖励的高正面相关性,说明我们的方法也可以用于逆钢筋学习(IRL)。我们的方法,逆软Q学习(IQ-Learn)获得了最先进的结果,在离线和在线模仿学习设置中,显着优于现有的现有方法,这些方法都在所需的环境交互和高维空间中的可扩展性中,通常超过3倍。
translated by 谷歌翻译
我们研究了离线模仿学习(IL)的问题,在该问题中,代理商旨在学习最佳的专家行为政策,而无需其他在线环境互动。取而代之的是,该代理来自次优行为的补充离线数据集。解决此问题的先前工作要么要求专家数据占据离线数据集的大部分比例,要么需要学习奖励功能并在以后执行离线加强学习(RL)。在本文中,我们旨在解决问题,而无需进行奖励学习和离线RL培训的其他步骤,当时示范包含大量次优数据。基于行为克隆(BC),我们引入了一个额外的歧视者,以区分专家和非专家数据。我们提出了一个合作框架,以增强这两个任务的学习,基于此框架,我们设计了一种新的IL算法,其中歧视者的输出是BC损失的权重。实验结果表明,与基线算法相比,我们提出的算法可获得更高的回报和更快的训练速度。
translated by 谷歌翻译
需要大量人类努力和迭代的奖励功能规范仍然是通过深入的强化学习来学习行为的主要障碍。相比之下,提供所需行为的视觉演示通常会提供一种更简单,更自然的教师的方式。我们考虑为代理提供了一个固定的视觉演示数据集,说明了如何执行任务,并且必须学习使用提供的演示和无监督的环境交互来解决任务。此设置提出了许多挑战,包括对视觉观察的表示,由于缺乏固定的奖励或学习信号而导致的,由于高维空间而引起的样本复杂性以及学习不稳定。为了解决这些挑战,我们开发了一种基于变异模型的对抗模仿学习(V-Mail)算法。基于模型的方法为表示学习,实现样本效率并通过实现派利学习来提高对抗性训练的稳定性提供了强烈的信号。通过涉及几种基于视觉的运动和操纵任务的实验,我们发现V-Mail以样本有效的方式学习了成功的视觉运动策略,与先前的工作相比,稳定性更高,并且还可以实现较高的渐近性能。我们进一步发现,通过传输学习模型,V-Mail可以从视觉演示中学习新任务,而无需任何其他环境交互。所有结果在内的所有结果都可以在\ url {https://sites.google.com/view/variational-mail}在线找到。
translated by 谷歌翻译
样本效率对于仿制学习方法来说至关重要,以适用于现实世界应用。许多研究通过延长对抗性模仿的违法行为来提高样本效率,无论这些违规延迟是否可以改变原始目标或涉及复杂的优化。我们重新审视对抗性模仿的基础,并提出了一种不需要对抗性培训或最小最大优化的脱营式样本有效方法。我们的配方在两个主要见解中大写:(1)Bellman方程和静止状态 - 动作分配方程之间的相似性使我们能够推导出一种新的时间差异(TD)学习方法; (2)使用确定性政策简化了TD学习。结合,这些见解产生了一种实用的算法,确定性和鉴别的模仿(D2仿真),其通过第一分区样本来分为两个重放缓冲区,然后通过禁止策略加强学习学习确定性政策。我们的经验结果表明,D2模仿在实现良好的样本效率方面有效,表现出对许多控制任务的对抗模仿的几种违规延伸方法。
translated by 谷歌翻译
当将强化学习(RL)代理部署到物理系统中时,我们必须确保这些代理非常了解基本的约束。但是,在许多现实世界中,遵循的限制因素(例如,人类)通常很难在数学上和RL代理商上指定。为了解决这些问题,约束逆强化学习(CIRL)考虑了约束马尔可夫决策过程(CMDP)的形式主义,并通过学习约束功能来估算专家示范中的约束。作为一个新兴的研究主题,Cirl没有共同的基准测试,以前的作品通过手工制作的环境(例如,网格世界)测试了其算法。在本文中,我们在两个主要的应用域:机器人控制和自动驾驶的背景下构建了CIRL基准。我们为每个环境设计相关的约束,并经验研究不同算法基于尊重这些约束的专家轨迹恢复这些约束的能力。为了处理随机动力学,我们提出了一种差异方法,以扩展约束分布,并通过将其与基准上的其他cirl基线进行比较来证明其性能。基准,包括复制CIRL算法性能的信息,可在https://github.com/guiliang/guiliang/cirl-benchmarks-public上公开获得
translated by 谷歌翻译
模仿学习研究社区最近取得了重大进展,以使人工代理人仅凭视频演示模仿行为。然而,由于视频观察的高维质性质,针对此问题开发的当前最新方法表现出很高的样本复杂性。为了解决这个问题,我们在这里介绍了一种新的算法,称为使用状态观察者VGAIFO-SO从观察中获得的,称为视觉生成对抗性模仿。 Vgaifo-So以此为核心,试图使用一种新型的自我监管的状态观察者来解决样本效率低下,该观察者从高维图像中提供了较低维度的本体感受状态表示的估计。我们在几个连续的控制环境中进行了实验表明,Vgaifo-SO比其他IFO算法更有效地从仅视频演示中学习,有时甚至可以实现与观察(Gaifo)算法的生成对抗性模仿(Gaifo)算法的性能,该算法有特权访问访问权限示威者的本体感知状态信息。
translated by 谷歌翻译
本文考虑了从专家演示中学习机器人运动和操纵任务。生成对抗性模仿学习(GAIL)训练一个区分专家与代理转换区分开的歧视者,进而使用歧视器输出定义的奖励来优化代理商的策略生成器。这种生成的对抗训练方法非常强大,但取决于歧视者和发电机培训之间的微妙平衡。在高维问题中,歧视训练可能很容易过度拟合或利用与任务 - 核定功能进行过渡分类的关联。这项工作的一个关键见解是,在合适的潜在任务空间中进行模仿学习使训练过程稳定,即使在挑战高维问题中也是如此。我们使用动作编码器模型来获得低维的潜在动作空间,并使用对抗性模仿学习(Lapal)训练潜在政策。可以从州行动对脱机来训练编码器模型,以获得任务无关的潜在动作表示或与歧视器和发电机培训同时在线获得,以获得任务意识到的潜在行动表示。我们证明了Lapal训练是稳定的,具有近乎单的性能的改进,并在大多数运动和操纵任务中实现了专家性能,而Gail基线收敛速度较慢,并且在高维环境中无法实现专家的表现。
translated by 谷歌翻译
自动驾驶汽车和自主驾驶研究一直受到现代人工智能应用中主要有希望的前景。根据先进的驾驶员辅助系统(ADAS)的演变,自动驾驶车辆和自主驱动系统的设计变得复杂和安全至关重要。通常,智能系统同时和有效地激活ADAS功能。因此,必须考虑可靠的ADAS功能协调,安全地控制驱动系统。为了处理这个问题,本文提出了一种随机的对抗性模仿学习(RAIL)算法。铁路是一种新的无衍生仿制学习方法,用于具有各种ADAS功能协调的自主驾驶;因此,它模仿决策者的运作,可以使用各种ADAS功能控制自动驾驶。该方法能够培训涉及激光雷达数据的决策者,并控制多车道复合道环境中的自主驾驶。基于仿真的评估验证了所提出的方法实现了所需的性能。
translated by 谷歌翻译
尽管理论上的行为克隆(BC)遭受了复杂错误,但其可扩展性和简单性仍然使其成为一种有吸引力的模仿学习算法。相比之下,对抗性训练的模仿方法通常不会共享相同的问题,但需要与环境进行互动。同时,大多数模仿学习方法仅利用最佳数据集,这可能比其次优的数据集更昂贵。出现的一个问题是,我们可以以原则上的方式使用次优数据集,否则会闲置吗?我们提出了一个基于可扩展模型的离线模仿学习算法框架,该算法框架利用次优和最佳策略收集的数据集,并表明其最坏情况下的次优率在时间范围内相对于专家样本而变线。我们从经验上验证了我们的理论结果,并表明所提出的方法\ textit {始终}在模拟连续控制域的低数据状态下优于BC。
translated by 谷歌翻译
Adversarial Imitation Learning (AIL) is a class of popular state-of-the-art Imitation Learning algorithms commonly used in robotics. In AIL, an artificial adversary's misclassification is used as a reward signal that is optimized by any standard Reinforcement Learning (RL) algorithm. Unlike most RL settings, the reward in AIL is $differentiable$ but current model-free RL algorithms do not make use of this property to train a policy. The reward is AIL is also shaped since it comes from an adversary. We leverage the differentiability property of the shaped AIL reward function and formulate a class of Actor Residual Critic (ARC) RL algorithms. ARC algorithms draw a parallel to the standard Actor-Critic (AC) algorithms in RL literature and uses a residual critic, $C$ function (instead of the standard $Q$ function) to approximate only the discounted future return (excluding the immediate reward). ARC algorithms have similar convergence properties as the standard AC algorithms with the additional advantage that the gradient through the immediate reward is exact. For the discrete (tabular) case with finite states, actions, and known dynamics, we prove that policy iteration with $C$ function converges to an optimal policy. In the continuous case with function approximation and unknown dynamics, we experimentally show that ARC aided AIL outperforms standard AIL in simulated continuous-control and real robotic manipulation tasks. ARC algorithms are simple to implement and can be incorporated into any existing AIL implementation with an AC algorithm. Video and link to code are available at: https://sites.google.com/view/actor-residual-critic.
translated by 谷歌翻译
模仿学习在有效地学习政策方面对复杂的决策问题有着巨大的希望。当前的最新算法经常使用逆增强学习(IRL),在给定一组专家演示的情况下,代理会替代奖励功能和相关的最佳策略。但是,这种IRL方法通常需要在复杂控制问题上进行实质性的在线互动。在这项工作中,我们提出了正规化的最佳运输(ROT),这是一种新的模仿学习算法,基于最佳基于最佳运输轨迹匹配的最新进展。我们的主要技术见解是,即使只有少量演示,即使只有少量演示,也可以自适应地将轨迹匹配的奖励与行为克隆相结合。我们对横跨DeepMind Control Suite,OpenAI Robotics和Meta-World基准的20个视觉控制任务进行的实验表明,与先前最新的方法相比,平均仿真达到了90%的专家绩效的速度,达到了90%的专家性能。 。在现实世界的机器人操作中,只有一次演示和一个小时的在线培训,ROT在14个任务中的平均成功率为90.1%。
translated by 谷歌翻译
Current approaches to multi-agent cooperation rely heavily on centralized mechanisms or explicit communication protocols to ensure convergence. This paper studies the problem of distributed multi-agent learning without resorting to centralized components or explicit communication. It examines the use of distribution matching to facilitate the coordination of independent agents. In the proposed scheme, each agent independently minimizes the distribution mismatch to the corresponding component of a target visitation distribution. The theoretical analysis shows that under certain conditions, each agent minimizing its individual distribution mismatch allows the convergence to the joint policy that generated the target distribution. Further, if the target distribution is from a joint policy that optimizes a cooperative task, the optimal policy for a combination of this task reward and the distribution matching reward is the same joint policy. This insight is used to formulate a practical algorithm (DM$^2$), in which each individual agent matches a target distribution derived from concurrently sampled trajectories from a joint expert policy. Experimental validation on the StarCraft domain shows that combining (1) a task reward, and (2) a distribution matching reward for expert demonstrations for the same task, allows agents to outperform a naive distributed baseline. Additional experiments probe the conditions under which expert demonstrations need to be sampled to obtain the learning benefits.
translated by 谷歌翻译
如何从每个轨迹数据中提取尽可能多的学习信号是强化学习(RL)中的关键问题,其中样本效率低下对实际应用构成了严重挑战。最近的作品表明,使用表现力的政策函数近似器和对未来轨迹信息的调理 - 例如在决策变压器(DT)中重播或退回的未来状态 - 可以高效地学习多任务策略,在哪里有时在线RL被离线行为克隆完全替换,例如序列建模。我们展示所有这些方法都正在进行后视信息匹配(他) - 培训策略,可以输出与未来状态信息的一些统计数据匹配的轨迹的其余轨迹。我们呈现出用于解决任何问题的广义决策变压器(GDT),并显示特征功能的选择和抗因果聚合器的不同选择性不仅恢复DT为特殊情况,而且还导致新的分类DT(CDT)和BI - 用于匹配未来不同统计数据的DT(BDT)。为了评估CDT和BDT,我们将离线多任务状态边缘匹配(SMM)和仿制学习(IL)定义为两个普遍的他问题,提出了Wasserstein距离损失作为两者的度量,并对Mujoco连续控制进行了经验研究它们基准。 CDT简单地取代了DT中的反因果衬合的反因果求和,使得第一种有效的离线多任务SMM算法概括为看不见甚至合成的多模态状态特征分布。使用反因果第二变压器作为聚合器的BDT可以学习模拟未来的任何统计数据,并在离线多任务IL中占DT变体。我们的广义配方来自他和GDT大大扩大了强大的序列建模架构在现代RL中的作用。
translated by 谷歌翻译
在离线强化学习(离线RL)中,主要挑战之一是处理学习策略与给定数据集之间的分布转变。为了解决这个问题,最近的离线RL方法试图引入保守主义偏见,以鼓励在高信心地区学习。无模型方法使用保守的正常化或特殊网络结构直接对策略或价值函数学习进行这样的偏见,但它们约束的策略搜索限制了脱机数据集之外的泛化。基于模型的方法使用保守量量化学习前瞻性动态模型,然后生成虚构的轨迹以扩展脱机数据集。然而,由于离线数据集中的有限样本,保守率量化通常在支撑区域内遭受全面化。不可靠的保守措施将误导基于模型的想象力,以不受欢迎的地区,导致过多的行为。为了鼓励更多的保守主义,我们提出了一种基于模型的离线RL框架,称为反向离线模型的想象(ROMI)。我们与新颖的反向策略结合使用逆向动力学模型,该模型可以生成导致脱机数据集中的目标目标状态的卷展栏。这些反向的想象力提供了无通知的数据增强,以便无模型策略学习,并使远程数据集的保守概括。 ROMI可以有效地与现成的无模型算法组合,以实现基于模型的概括,具有适当的保守主义。经验结果表明,我们的方法可以在离线RL基准任务中产生更保守的行为并实现最先进的性能。
translated by 谷歌翻译
如何在演示相对较大时更加普遍地进行模仿学习一直是强化学习(RL)的持续存在问题。糟糕的示威活动导致狭窄和偏见的日期分布,非马洛维亚人类专家演示使代理商难以学习,而过度依赖子最优轨迹可以使代理商努力提高其性能。为了解决这些问题,我们提出了一种名为TD3FG的新算法,可以平稳地过渡从专家到学习从经验中学习。我们的算法在Mujoco环境中实现了有限的有限和次优的演示。我们使用行为克隆来将网络作为参考动作发生器训练,并在丢失函数和勘探噪声方面使用它。这种创新可以帮助代理商从示威活动中提取先验知识,同时降低了糟糕的马尔科维亚特性的公正的不利影响。与BC +微调和DDPGFD方法相比,它具有更好的性能,特别是当示范相对有限时。我们调用我们的方法TD3FG意味着来自发电机的TD3。
translated by 谷歌翻译