我们研究离线元加强学习,这是一种实用的强化学习范式,从离线数据中学习以适应新任务。离线数据的分布由行为政策和任务共同确定。现有的离线元强化学习算法无法区分这些因素,从而使任务表示不稳定,不稳定行为策略。为了解决这个问题,我们为任务表示形式提出了一个对比度学习框架,这些框架对培训和测试中行为策略的分布不匹配是可靠的。我们设计了双层编码器结构,使用相互信息最大化来形式化任务表示学习,得出对比度学习目标,并引入了几种方法以近似负面对的真实分布。对各种离线元强化学习基准的实验证明了我们方法比先前方法的优势,尤其是在对分布外行为策略的概括方面。该代码可在https://github.com/pku-ai-ged/corro中找到。
translated by 谷歌翻译
元强化学习(RL)方法可以使用比标准RL少的数据级的元培训策略,但元培训本身既昂贵又耗时。如果我们可以在离线数据上进行元训练,那么我们可以重复使用相同的静态数据集,该数据集将一次标记为不同任务的奖励,以在元测试时间适应各种新任务的元训练策略。尽管此功能将使Meta-RL成为现实使用的实用工具,但离线META-RL提出了除在线META-RL或标准离线RL设置之外的其他挑战。 Meta-RL学习了一种探索策略,该策略收集了用于适应的数据,并元培训策略迅速适应了新任务的数据。由于该策略是在固定的离线数据集上进行了元训练的,因此当适应学识渊博的勘探策略收集的数据时,它可能表现得不可预测,这与离线数据有系统地不同,从而导致分布变化。我们提出了一种混合脱机元元素算法,该算法使用带有奖励的脱机数据来进行自适应策略,然后收集其他无监督的在线数据,而无需任何奖励标签来桥接这一分配变化。通过不需要在线收集的奖励标签,此数据可以便宜得多。我们将我们的方法比较了在模拟机器人的运动和操纵任务上进行离线元rl的先前工作,并发现使用其他无监督的在线数据收集可以显着提高元训练政策的自适应能力,从而匹配完全在线的表现。在一系列具有挑战性的域上,需要对新任务进行概括。
translated by 谷歌翻译
Deep reinforcement learning algorithms require large amounts of experience to learn an individual task. While in principle meta-reinforcement learning (meta-RL) algorithms enable agents to learn new skills from small amounts of experience, several major challenges preclude their practicality. Current methods rely heavily on on-policy experience, limiting their sample efficiency. The also lack mechanisms to reason about task uncertainty when adapting to new tasks, limiting their effectiveness in sparse reward problems. In this paper, we address these challenges by developing an offpolicy meta-RL algorithm that disentangles task inference and control. In our approach, we perform online probabilistic filtering of latent task variables to infer how to solve a new task from small amounts of experience. This probabilistic interpretation enables posterior sampling for structured and efficient exploration. We demonstrate how to integrate these task variables with off-policy RL algorithms to achieve both metatraining and adaptation efficiency. Our method outperforms prior algorithms in sample efficiency by 20-100X as well as in asymptotic performance on several meta-RL benchmarks.
translated by 谷歌翻译
当相互作用数据稀缺时,深厚的增强学习(RL)算法遭受了严重的性能下降,这限制了其现实世界的应用。最近,视觉表示学习已被证明是有效的,并且有望提高RL样品效率。这些方法通常依靠对比度学习和数据扩展来训练状态预测的过渡模型,这与在RL中使用模型的方式不同 - 基于价值的计划。因此,学到的模型可能无法与环境保持良好状态并产生一致的价值预测,尤其是当国家过渡不是确定性的情况下。为了解决这个问题,我们提出了一种称为价值一致表示学习(VCR)的新颖方法,以学习与决策直接相关的表示形式。更具体地说,VCR训练一个模型,以预测基于当前的状态(也称为“想象的状态”)和一系列动作。 VCR没有将这个想象中的状态与环境返回的真实状态保持一致,而是在两个状态上应用$ q $ - 价值头,并获得了两个行动值分布。然后将距离计算并最小化以迫使想象的状态产生与真实状态相似的动作值预测。我们为离散和连续的动作空间开发了上述想法的两个实现。我们对Atari 100K和DeepMind Control Suite基准测试进行实验,以验证其提高样品效率的有效性。已经证明,我们的方法实现了无搜索RL算法的新最新性能。
translated by 谷歌翻译
强化学习(RL)通过与环境相互作用的试验过程解决顺序决策问题。尽管RL在玩复杂的视频游戏方面取得了巨大的成功,但在现实世界中,犯错误总是不希望的。为了提高样本效率并从而降低错误,据信基于模型的增强学习(MBRL)是一个有前途的方向,它建立了环境模型,在该模型中可以进行反复试验,而无需实际成本。在这项调查中,我们对MBRL进行了审查,重点是Deep RL的最新进展。对于非壮观环境,学到的环境模型与真实环境之间始终存在概括性错误。因此,非常重要的是分析环境模型中的政策培训与实际环境中的差异,这反过来又指导了更好的模型学习,模型使用和政策培训的算法设计。此外,我们还讨论了其他形式的RL,包括离线RL,目标条件RL,多代理RL和Meta-RL的最新进展。此外,我们讨论了MBRL在现实世界任务中的适用性和优势。最后,我们通过讨论MBRL未来发展的前景来结束这项调查。我们认为,MBRL在被忽略的现实应用程序中具有巨大的潜力和优势,我们希望这项调查能够吸引更多关于MBRL的研究。
translated by 谷歌翻译
Meta-Renifiltive学习(Meta-RL)已被证明是利用事先任务的经验,以便快速学习新的相关任务的成功框架,但是,当前的Meta-RL接近在稀疏奖励环境中学习的斗争。尽管现有的Meta-RL算法可以学习适应新的稀疏奖励任务的策略,但是使用手形奖励功能来学习实际适应策略,或者需要简单的环境,其中随机探索足以遇到稀疏奖励。在本文中,我们提出了对Meta-RL的后视抢购的制定,该rl抢购了在Meta培训期间的经验,以便能够使用稀疏奖励完全学习。我们展示了我们的方法在套件挑战稀疏奖励目标达到的环境中,以前需要密集的奖励,以便在Meta训练中解决。我们的方法使用真正的稀疏奖励功能来解决这些环境,性能与具有代理密集奖励功能的培训相当。
translated by 谷歌翻译
现有的离线增强学习(RL)方法面临一些主要挑战,尤其是学识渊博的政策与行为政策之间的分配转变。离线Meta-RL正在成为应对这些挑战的一种有前途的方法,旨在从一系列任务中学习信息丰富的元基础。然而,如我们的实证研究所示,离线元RL在具有良好数据集质量的任务上的单个任务RL方法可能胜过,这表明必须在“探索”不合时宜的情况下进行精细的平衡。通过遵循元元素和“利用”离线数据集的分配状态行为,保持靠近行为策略。通过这种经验分析的激励,我们探索了基于模型的离线元RL,并具有正则政策优化(MERPO),该策略优化(MERPO)学习了一种用于有效任务结构推理的元模型,并提供了提供信息的元元素,以安全地探索过分分布状态 - 行为。特别是,我们使用保守的政策评估和正规政策改进,设计了一种新的基于元指数的基于元指数的基于元模型的参与者批判性(RAC),作为MERPO的关键构建块作为Merpo的关键构建块;而其中的内在权衡是通过在两个正规机构之间达到正确的平衡来实现的,一个是基于行为政策,另一个基于元政策。从理论上讲,我们学识渊博的政策可以保证对行为政策和元政策都有保证的改进,从而确保通过离线元RL对新任务的绩效提高。实验证实了Merpo优于现有的离线META-RL方法的出色性能。
translated by 谷歌翻译
如何从每个轨迹数据中提取尽可能多的学习信号是强化学习(RL)中的关键问题,其中样本效率低下对实际应用构成了严重挑战。最近的作品表明,使用表现力的政策函数近似器和对未来轨迹信息的调理 - 例如在决策变压器(DT)中重播或退回的未来状态 - 可以高效地学习多任务策略,在哪里有时在线RL被离线行为克隆完全替换,例如序列建模。我们展示所有这些方法都正在进行后视信息匹配(他) - 培训策略,可以输出与未来状态信息的一些统计数据匹配的轨迹的其余轨迹。我们呈现出用于解决任何问题的广义决策变压器(GDT),并显示特征功能的选择和抗因果聚合器的不同选择性不仅恢复DT为特殊情况,而且还导致新的分类DT(CDT)和BI - 用于匹配未来不同统计数据的DT(BDT)。为了评估CDT和BDT,我们将离线多任务状态边缘匹配(SMM)和仿制学习(IL)定义为两个普遍的他问题,提出了Wasserstein距离损失作为两者的度量,并对Mujoco连续控制进行了经验研究它们基准。 CDT简单地取代了DT中的反因果衬合的反因果求和,使得第一种有效的离线多任务SMM算法概括为看不见甚至合成的多模态状态特征分布。使用反因果第二变压器作为聚合器的BDT可以学习模拟未来的任何统计数据,并在离线多任务IL中占DT变体。我们的广义配方来自他和GDT大大扩大了强大的序列建模架构在现代RL中的作用。
translated by 谷歌翻译
Meta强化学习(META-RL)旨在学习一项政策,同时并迅速适应新任务。它需要大量从培训任务中汲取的数据,以推断任务之间共享的共同结构。如果没有沉重的奖励工程,长期任务中的稀疏奖励加剧了元RL样品效率的问题。 Meta-RL中的另一个挑战是任务之间难度级别的差异,这可能会导致一个简单的任务主导共享策略的学习,从而排除政策适应新任务。这项工作介绍了一个新颖的目标功能,可以在培训任务中学习动作翻译。从理论上讲,我们可以验证带有操作转换器的传输策略的值可以接近源策略的值和我们的目标函数(大约)上限的值差。我们建议将动作转换器与基于上下文的元元算法相结合,以更好地收集数据,并在元训练期间更有效地探索。我们的方法从经验上提高了稀疏奖励任务上元RL算法的样本效率和性能。
translated by 谷歌翻译
具有相同任务的不同环境的概括对于在实际场景中成功应用视觉增强学习(RL)至关重要。然而,从高维观察中,视觉干扰(在真实场景中很常见)可能会对视觉RL中学习的表示形式有害,从而降低概括的性能。为了解决这个问题,我们提出了一种新颖的方法,即特征奖励序列预测(Cresp),以通过学习奖励序列分布(RSD)提取与任务相关的信息,因为奖励信号在RL中与任务相关,并且不变为Visual分心。具体而言,要通过RSD有效捕获与任务相关的信息,Cresp引入了一个辅助任务(即预测RSD的特征功能),以学习与任务相关的表示,因为我们可以很好地通过利用高维分布来实现高维分布相应的特征函数。实验表明,Cresp显着提高了在看不见的环境上的概括性能,在具有不同视觉分散注意力的DeepMind Control任务上表现优于几个最新的。
translated by 谷歌翻译
在没有高保真模拟环境的情况下,学习有效的加强学习(RL)政策可以解决现实世界中的复杂任务。在大多数情况下,我们只有具有简化动力学的不完善的模拟器,这不可避免地导致RL策略学习中的SIM到巨大差距。最近出现的离线RL领域为直接从预先收集的历史数据中学习政策提供了另一种可能性。但是,为了达到合理的性能,现有的离线RL算法需要不切实际的离线数据,并具有足够的州行动空间覆盖范围进行培训。这提出了一个新问题:是否有可能通过在线RL中的不完美模拟器中的离线RL中的有限数据中的学习结合到无限制的探索,以解决两种方法的缺点?在这项研究中,我们提出了动态感知的混合离线和对线增强学习(H2O)框架,以为这个问题提供肯定的答案。 H2O引入了动态感知的政策评估方案,该方案可以自适应地惩罚Q函数在模拟的状态行动对上具有较大的动态差距,同时也允许从固定的现实世界数据集中学习。通过广泛的模拟和现实世界任务以及理论分析,我们证明了H2O与其他跨域在线和离线RL算法相对于其他跨域的表现。 H2O提供了全新的脱机脱机RL范式,该范式可能会阐明未来的RL算法设计,以解决实用的现实世界任务。
translated by 谷歌翻译
Model-based reinforcement learning (RL) methods are appealing in the offline setting because they allow an agent to reason about the consequences of actions without interacting with the environment. Prior methods learn a 1-step dynamics model, which predicts the next state given the current state and action. These models do not immediately tell the agent which actions to take, but must be integrated into a larger RL framework. Can we model the environment dynamics in a different way, such that the learned model does directly indicate the value of each action? In this paper, we propose Contrastive Value Learning (CVL), which learns an implicit, multi-step model of the environment dynamics. This model can be learned without access to reward functions, but nonetheless can be used to directly estimate the value of each action, without requiring any TD learning. Because this model represents the multi-step transitions implicitly, it avoids having to predict high-dimensional observations and thus scales to high-dimensional tasks. Our experiments demonstrate that CVL outperforms prior offline RL methods on complex continuous control benchmarks.
translated by 谷歌翻译
Transformer, originally devised for natural language processing, has also attested significant success in computer vision. Thanks to its super expressive power, researchers are investigating ways to deploy transformers to reinforcement learning (RL) and the transformer-based models have manifested their potential in representative RL benchmarks. In this paper, we collect and dissect recent advances on transforming RL by transformer (transformer-based RL or TRL), in order to explore its development trajectory and future trend. We group existing developments in two categories: architecture enhancement and trajectory optimization, and examine the main applications of TRL in robotic manipulation, text-based games, navigation and autonomous driving. For architecture enhancement, these methods consider how to apply the powerful transformer structure to RL problems under the traditional RL framework, which model agents and environments much more precisely than deep RL methods, but they are still limited by the inherent defects of traditional RL algorithms, such as bootstrapping and "deadly triad". For trajectory optimization, these methods treat RL problems as sequence modeling and train a joint state-action model over entire trajectories under the behavior cloning framework, which are able to extract policies from static datasets and fully use the long-sequence modeling capability of the transformer. Given these advancements, extensions and challenges in TRL are reviewed and proposals about future direction are discussed. We hope that this survey can provide a detailed introduction to TRL and motivate future research in this rapidly developing field.
translated by 谷歌翻译
我们提出了一种新型的参数化技能学习算法,旨在学习可转移的参数化技能并将其合成为新的动作空间,以支持长期任务中的有效学习。我们首先提出了新颖的学习目标 - 以轨迹为中心的多样性和平稳性 - 允许代理商能够重复使用的参数化技能。我们的代理商可以使用这些学习的技能来构建时间扩展的参数化行动马尔可夫决策过程,我们为此提出了一种层次的参与者 - 批判算法,旨在通过学习技能有效地学习高级控制政策。我们从经验上证明,所提出的算法使代理能够解决复杂的长途障碍源环境。
translated by 谷歌翻译
在离线强化学习(离线RL)中,主要挑战之一是处理学习策略与给定数据集之间的分布转变。为了解决这个问题,最近的离线RL方法试图引入保守主义偏见,以鼓励在高信心地区学习。无模型方法使用保守的正常化或特殊网络结构直接对策略或价值函数学习进行这样的偏见,但它们约束的策略搜索限制了脱机数据集之外的泛化。基于模型的方法使用保守量量化学习前瞻性动态模型,然后生成虚构的轨迹以扩展脱机数据集。然而,由于离线数据集中的有限样本,保守率量化通常在支撑区域内遭受全面化。不可靠的保守措施将误导基于模型的想象力,以不受欢迎的地区,导致过多的行为。为了鼓励更多的保守主义,我们提出了一种基于模型的离线RL框架,称为反向离线模型的想象(ROMI)。我们与新颖的反向策略结合使用逆向动力学模型,该模型可以生成导致脱机数据集中的目标目标状态的卷展栏。这些反向的想象力提供了无通知的数据增强,以便无模型策略学习,并使远程数据集的保守概括。 ROMI可以有效地与现成的无模型算法组合,以实现基于模型的概括,具有适当的保守主义。经验结果表明,我们的方法可以在离线RL基准任务中产生更保守的行为并实现最先进的性能。
translated by 谷歌翻译
深度强化学习(DRL)代理通常对在训练环境中看不见的视觉变化敏感。为了解决此问题,我们利用RL的顺序性质来学习可靠的表示,这些表示仅根据无监督的多视图设置编码与任务相关的信息。具体而言,我们引入了时间数据的多视图信息瓶颈(MIB)目标的新颖对比版本。我们以这个辅助目标来训练RL代理,以学习可以压缩任务 - 无关的信息并预测与任务相关的动态的强大表示形式。这种方法使我们能够训练具有强大的视觉分散注意力的高性能政策,并且可以很好地推广到看不见的环境。我们证明,当背景被自然视频替换时,我们的方法可以在DeepMind Control Suite的各种视觉控制任务上实现SOTA性能。此外,我们表明我们的方法优于公认的基准,用于概括在Procgen基准上看不见的环境。我们的代码是开源的,可在https:// github上找到。 com/bu依赖-lab/dribo。
translated by 谷歌翻译
元增强学习(Meta-RL)从以前任务提取知识,并实现对新任务的快速调整。尽管最近的进展,但Meta-RL的有效探索仍然是稀疏奖励任务中的关键挑战,因为它需要快速寻找在荟萃培训和适应方面的信息相关的经验。为了解决这一挑战,我们明确地模拟了Meta-RL的探索政策学习问题,该探索政策学习问题与开发政策学习分开,并介绍了一种新的赋权驱动探索目标,旨在最大限度地提高任务识别的信息收益。我们派生了相应的内在奖励并开发了一个新的off-Policy Meta-RL框架,它通过分享任务推断的知识有效地学习单独的上下文感知探索和开发策略。实验评估表明,我们的META-RL方法显着优于各种稀疏奖励Mujoco机器人任务和更复杂的稀疏奖励元世界任务的最先进的基线。
translated by 谷歌翻译
离线增强学习(RL)可以从静态数据集中学习控制策略,但是像标准RL方法一样,它需要每个过渡的奖励注释。在许多情况下,将大型数据集标记为奖励可能会很高,尤其是如果人类标签必须提供这些奖励,同时收集多样的未标记数据可能相对便宜。我们如何在离线RL中最好地利用这种未标记的数据?一种自然解决方案是从标记的数据中学习奖励函数,并使用它标记未标记的数据。在本文中,我们发现,也许令人惊讶的是,一种简单得多的方法,它简单地将零奖励应用于未标记的数据可以导致理论和实践中的有效数据共享,而无需学习任何奖励模型。虽然这种方法起初可能看起来很奇怪(并且不正确),但我们提供了广泛的理论和经验分析,说明了它如何摆脱奖励偏见,样本复杂性和分配变化,通常会导致良好的结果。我们表征了这种简单策略有效的条件,并进一步表明,使用简单的重新加权方法扩展它可以进一步缓解通过使用不正确的奖励标签引入的偏见。我们的经验评估证实了模拟机器人运动,导航和操纵设置中的这些发现。
translated by 谷歌翻译
这项工作探讨了如何从具有深度加强学习方法的基于图像的观测中学习鲁棒和最广泛的状态表示。解决了在现有的Bisimulation度量工作中的计算复杂性,严格假设和表示崩溃挑战,我们设计了简单的状态表示(SIMSR)运算符,该操作员实现了等效功能,同时通过与Bisimulation度量进行比较来降低顺序的复杂性。SIMSR使我们能够设计一种基于随机逼近的方法,该方法几乎可以从观察到潜在表示空间的观察中学习映射函数(编码器)。除了理论分析外,我们在Visual Mujoco任务中尝试并与最近的最先进解决方案进行了实验。结果表明,我们的模型通常达到更好的性能,具有更好的鲁棒性和良好的概率。
translated by 谷歌翻译
大多数强化学习(RL)方法仅专注于从头开始学习一项任务,并且无法使用先验知识来更有效地学习其他任务。最近,提出了基于上下文的元元技术作为解决此问题的可能解决方案。但是,它们通常不如常规RL效率低,并且在培训期间可能需要许多试用器。为了解决这个问题,我们提出了一种新型的META-RL方法,该方法与现有的Meta-RL算法相比,可以实现竞争性能,同时需要更少的环境相互作用。通过将上下文变量与在后继功能框架中分解奖励的想法相结合,我们的方法不仅可以同时学习多个任务的高质量政策,而且可以迅速通过少量培训来适应新任务。与最先进的元rl基线相比,我们从经验上显示了我们方法对几个连续控制任务的有效性和数据效率。
translated by 谷歌翻译