强化学习在许多应用中取得了巨大的成功。然而,样本效率仍然是一个关键挑战,突出的方法需要训练数百万(甚至数十亿)的环境步骤。最近,基于样本的基于图像的RL算法存在显着进展;然而,Atari游戏基准上的一致人级表现仍然是一个难以捉摸的目标。我们提出了一种在Muzero上建立了基于模式的基于模型的Visual RL算法,我们名称为高效零。我们的方法达到了194.3%的人类性能和Atari 100K基准的109.0%的中位数,只有两个小时的实时游戏体验,并且在DMControl 100k基准测试中的某些任务中优于状态萨克。这是第一次算法在atari游戏中实现超级人类性能,具有如此少的数据。高效零的性能也在2亿帧的比赛中靠近DQN的性能,而我们使用的数据减少了500倍。高效零的低样本复杂性和高性能可以使RL更接近现实世界的适用性。我们以易于理解的方式实现我们的算法,它可以在https://github.com/yewr/effionszero中获得。我们希望它将加速更广泛社区中MCT的RL算法的研究。
translated by 谷歌翻译
当相互作用数据稀缺时,深厚的增强学习(RL)算法遭受了严重的性能下降,这限制了其现实世界的应用。最近,视觉表示学习已被证明是有效的,并且有望提高RL样品效率。这些方法通常依靠对比度学习和数据扩展来训练状态预测的过渡模型,这与在RL中使用模型的方式不同 - 基于价值的计划。因此,学到的模型可能无法与环境保持良好状态并产生一致的价值预测,尤其是当国家过渡不是确定性的情况下。为了解决这个问题,我们提出了一种称为价值一致表示学习(VCR)的新颖方法,以学习与决策直接相关的表示形式。更具体地说,VCR训练一个模型,以预测基于当前的状态(也称为“想象的状态”)和一系列动作。 VCR没有将这个想象中的状态与环境返回的真实状态保持一致,而是在两个状态上应用$ q $ - 价值头,并获得了两个行动值分布。然后将距离计算并最小化以迫使想象的状态产生与真实状态相似的动作值预测。我们为离散和连续的动作空间开发了上述想法的两个实现。我们对Atari 100K和DeepMind Control Suite基准测试进行实验,以验证其提高样品效率的有效性。已经证明,我们的方法实现了无搜索RL算法的新最新性能。
translated by 谷歌翻译
Constructing agents with planning capabilities has long been one of the main challenges in the pursuit of artificial intelligence. Tree-based planning methods have enjoyed huge success in challenging domains, such as chess and Go, where a perfect simulator is available. However, in real-world problems the dynamics governing the environment are often complex and unknown. In this work we present the MuZero algorithm which, by combining a tree-based search with a learned model, achieves superhuman performance in a range of challenging and visually complex domains, without any knowledge of their underlying dynamics. MuZero learns a model that, when applied iteratively, predicts the quantities most directly relevant to planning: the reward, the action-selection policy, and the value function. When evaluated on 57 different Atari games -the canonical video game environment for testing AI techniques, in which model-based planning approaches have historically struggled -our new algorithm achieved a new state of the art. When evaluated on Go, chess and shogi, without any knowledge of the game rules, MuZero matched the superhuman performance of the AlphaZero algorithm that was supplied with the game rules.
translated by 谷歌翻译
We present CURL: Contrastive Unsupervised Representations for Reinforcement Learning. CURL extracts high-level features from raw pixels using contrastive learning and performs offpolicy control on top of the extracted features. CURL outperforms prior pixel-based methods, both model-based and model-free, on complex tasks in the DeepMind Control Suite and Atari Games showing 1.9x and 1.2x performance gains at the 100K environment and interaction steps benchmarks respectively. On the DeepMind Control Suite, CURL is the first image-based algorithm to nearly match the sample-efficiency of methods that use state-based features. Our code is open-sourced and available at https://www. github.com/MishaLaskin/curl.
translated by 谷歌翻译
我们研究自我监督学习(SSL)是否可以从像素中改善在线增强学习(RL)。我们扩展了对比度增强学习框架(例如卷曲),该框架共同优化了SSL和RL损失,并进行了大量的实验,并具有各种自我监督的损失。我们的观察结果表明,现有的RL的SSL框架未能在使用相同数量的数据和增强时利用图像增强来实现对基准的有意义的改进。我们进一步执行进化搜索,以找到RL的多个自我监督损失的最佳组合,但是发现即使是这种损失组合也无法有意义地超越仅利用精心设计的图像增强的方法。通常,在现有框架下使用自制损失降低了RL性能。我们在多个不同环境中评估了该方法,包括现实世界的机器人环境,并确认没有任何单一的自我监督损失或图像增强方法可以主导所有环境,并且当前的SSL和RL联合优化框架是有限的。最后,我们从经验上研究了SSL + RL的预训练框架以及使用不同方法学到的表示的特性。
translated by 谷歌翻译
自成立以来,建立在广泛任务中表现出色的普通代理的任务一直是强化学习的重要目标。这个问题一直是对Alarge工作体系的研究的主题,并且经常通过观察Atari 57基准中包含的广泛范围环境的分数来衡量的性能。 Agent57是所有57场比赛中第一个超过人类基准的代理商,但这是以数据效率差的代价,需要实现近800亿帧的经验。以Agent57为起点,我们采用了各种各样的形式,以降低超过人类基线所需的经验200倍。在减少数据制度和Propose有效的解决方案时,我们遇到了一系列不稳定性和瓶颈,以构建更强大,更有效的代理。我们还使用诸如Muesli和Muzero之类的高性能方法证明了竞争性的性能。 TOOUR方法的四个关键组成部分是(1)近似信任区域方法,该方法可以从TheOnline网络中稳定引导,(2)损失和优先级的归一化方案,在学习具有广泛量表的一组值函数时,可以提高鲁棒性, (3)改进的体系结构采用了NFNET的技术技术来利用更深的网络而无需标准化层,并且(4)政策蒸馏方法可使瞬时贪婪的策略加班。
translated by 谷歌翻译
基于像素的控制的学习表示,最近在加固学习中获得了重大关注。已经提出了广泛的方法来实现高效学习,导致类似于完整状态设置中的复杂性。然而,超越仔细策划的像素数据集(以居中作物,适当的照明,清晰的背景等)仍然具有挑战性。在本文中,我们采用更困难的环境,纳入背景干扰者,作为解决这一挑战的第一步。我们提出了一种简单的基线方法,可以学习有意义的表示,没有基于度量的学习,没有数据增强,没有世界模型学习,也没有对比学习。然后,我们分析何时何种以及为什么先前提出的方法可能会失败或减少与此更难设置中的基线相同的表现,以及为什么我们应该仔细考虑扩展在井策良好环境之外的这种方法。我们的研究结果表明,基于奖励密度,问题的规划地平线,任务 - 无关组件等的规划等的粮食基准,对评估算法至关重要。基于这些观察,我们提出了在评估基准任务的算法时考虑不同的指标。我们希望在调查如何最佳地将RL应用于现实世界任务时激励研究人员对重新思考代表学习来激发研究人员。
translated by 谷歌翻译
我们提出BYOL-QUENPLORE,这是一种在视觉复杂环境中进行好奇心驱动的探索的概念上简单但一般的方法。Byol-explore通过优化潜在空间中的单个预测损失而没有其他辅助目标,从而学习了世界代表,世界动态和探索政策。我们表明,BYOL探索在DM-HARD-8中有效,DM-HARD-8是一种具有挑战性的部分可观察的连续操作硬探索基准,具有视觉富含3-D环境。在这个基准上,我们完全通过使用Byol-explore的内在奖励来纯粹通过增强外部奖励来解决大多数任务,而先前的工作只能通过人类的示威来脱颖而出。作为Byol-explore的一般性的进一步证据,我们表明它在Atari的十个最难的探索游戏中实现了超人的性能,同时设计比其他竞争力代理人要简单得多。
translated by 谷歌翻译
横跨街机学习环境,彩虹实现了对人类和现代RL算法的竞争程度。然而,获得这种性能水平需要大量的数据和硬件资源,在该区域进行研究计算地昂贵并且在实际应用中使用通常是不可行的。本文的贡献是三倍:我们(1)提出了一种改进的彩虹版本,寻求大大减少彩虹的数据,培训时间和计算要求,同时保持其竞争性能; (2)我们通过实验通过对街机学习环境的实验来证明我们的方法的有效性,以及(3)我们进行了许多消融研究,以研究个体提出的修改的效果。我们改进的Rainbow版本达到了靠近经典彩虹的中位数的人为规范化分数,而使用20倍的数据,只需要7.5小时的单个GPU培训时间。我们还提供了我们的全部实施,包括预先训练的型号。
translated by 谷歌翻译
We propose a simple data augmentation technique that can be applied to standard model-free reinforcement learning algorithms, enabling robust learning directly from pixels without the need for auxiliary losses or pre-training. The approach leverages input perturbations commonly used in computer vision tasks to transform input examples, as well as regularizing the value function and policy. Existing model-free approaches, such as Soft Actor-Critic (SAC) [22], are not able to train deep networks effectively from image pixels. However, the addition of our augmentation method dramatically improves SAC's performance, enabling it to reach state-of-the-art performance on the DeepMind control suite, surpassing model-based [23,38,24] methods and recently proposed contrastive learning [50]. Our approach, which we dub DrQ: Data-regularized Q, can be combined with any model-free reinforcement learning algorithm. We further demonstrate this by applying it to DQN [43] and significantly improve its data-efficiency on the Atari 100k [31] benchmark. An implementation can be found at https://sites. google.com/view/data-regularized-q.
translated by 谷歌翻译
强化学习(RL)通过与环境相互作用的试验过程解决顺序决策问题。尽管RL在玩复杂的视频游戏方面取得了巨大的成功,但在现实世界中,犯错误总是不希望的。为了提高样本效率并从而降低错误,据信基于模型的增强学习(MBRL)是一个有前途的方向,它建立了环境模型,在该模型中可以进行反复试验,而无需实际成本。在这项调查中,我们对MBRL进行了审查,重点是Deep RL的最新进展。对于非壮观环境,学到的环境模型与真实环境之间始终存在概括性错误。因此,非常重要的是分析环境模型中的政策培训与实际环境中的差异,这反过来又指导了更好的模型学习,模型使用和政策培训的算法设计。此外,我们还讨论了其他形式的RL,包括离线RL,目标条件RL,多代理RL和Meta-RL的最新进展。此外,我们讨论了MBRL在现实世界任务中的适用性和优势。最后,我们通过讨论MBRL未来发展的前景来结束这项调查。我们认为,MBRL在被忽略的现实应用程序中具有巨大的潜力和优势,我们希望这项调查能够吸引更多关于MBRL的研究。
translated by 谷歌翻译
In recent years there have been many successes of using deep representations in reinforcement learning. Still, many of these applications use conventional architectures, such as convolutional networks, LSTMs, or auto-encoders. In this paper, we present a new neural network architecture for model-free reinforcement learning. Our dueling network represents two separate estimators: one for the state value function and one for the state-dependent action advantage function. The main benefit of this factoring is to generalize learning across actions without imposing any change to the underlying reinforcement learning algorithm. Our results show that this architecture leads to better policy evaluation in the presence of many similar-valued actions. Moreover, the dueling architecture enables our RL agent to outperform the state-of-the-art on the Atari 2600 domain.
translated by 谷歌翻译
Deep reinforcement learning is poised to revolutionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policybased methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
基于模型的强化学习的关键承诺之一是使用世界内部模型拓展到新颖的环境和任务中的预测。然而,模型的代理商的泛化能力尚不清楚,因为现有的工作在基准测试概括时专注于无模型剂。在这里,我们明确测量模型的代理的泛化能力与其无模型对应物相比。我们专注于Muzero(Schrittwieser等,2020),强大的基于模型的代理商的分析,并评估其在过程和任务泛化方面的性能。我们确定了一个程序概括规划,自我监督代表学习和程序数据分集的三个因素 - 并表明通过组合这些技术,我们实现了普通的最先进的概括性和数据效率(Cobbe等人。,2019)。但是,我们发现这些因素并不总是为Meta-World中的任务泛化基准提供相同的益处(Yu等人,2019),表明转移仍然是一个挑战,可能需要不同的方法而不是程序泛化。总的来说,我们建议建立一个推广的代理需要超越单任务,无模型范例,并朝着在丰富,程序,多任务环境中培训的基于自我监督的模型的代理。
translated by 谷歌翻译
众所周知,从像素观察中进行的非质量增强学习(RL)是不稳定的。结果,许多成功的算法必须结合不同领域的实践和辅助损失,以在复杂的环境中学习有意义的行为。在这项工作中,我们提供了新颖的分析,表明这些不稳定性是通过卷积编码器和低质量奖励进行时间差异学习而产生的。我们表明,这种新的视觉致命三合会导致不稳定的训练和过早的融合归化解决方案,这是一种现象,我们将灾难性的自相传为。基于我们的分析,我们提出了A-LIX,这是一种为编码器梯度提供适应性正则化的方法,该梯度明确防止使用双重目标防止灾难性的自我抗辩发生。通过应用A-LIX,我们在DeepMind Control和Atari 100K基准测试方面显着优于先前的最先进,而无需任何数据增强或辅助损失。
translated by 谷歌翻译
通过回顾一封来自情节记忆的过去的经验,可以通过回忆过去的经验来实现钢筋学习的样本效率。我们提出了一种新的基于模型的轨迹的集体记忆,解决了集体控制的当前限制。我们的记忆估计轨迹值,指导代理人朝着良好的政策。基于内存构建,我们通过动态混合控制统一模型的基于动态和习惯学习来构建互补学习模型,进入单个架构。实验表明,我们的模型可以比各种环境中的其他强力加强学习代理更快,更好地学习,包括随机和非马尔可夫环境。
translated by 谷歌翻译
深度强化学习(RL)导致了许多最近和开创性的进步。但是,这些进步通常以培训的基础体系结构的规模增加以及用于训练它们的RL算法的复杂性提高,而均以增加规模的成本。这些增长反过来又使研究人员更难迅速原型新想法或复制已发表的RL算法。为了解决这些问题,这项工作描述了ACME,这是一个用于构建新型RL算法的框架,这些框架是专门设计的,用于启用使用简单的模块化组件构建的代理,这些组件可以在各种执行范围内使用。尽管ACME的主要目标是为算法开发提供一个框架,但第二个目标是提供重要或最先进算法的简单参考实现。这些实现既是对我们的设计决策的验证,也是对RL研究中可重复性的重要贡献。在这项工作中,我们描述了ACME内部做出的主要设计决策,并提供了有关如何使用其组件来实施各种算法的进一步详细信息。我们的实验为许多常见和最先进的算法提供了基准,并显示了如何为更大且更复杂的环境扩展这些算法。这突出了ACME的主要优点之一,即它可用于实现大型,分布式的RL算法,这些算法可以以较大的尺度运行,同时仍保持该实现的固有可读性。这项工作提出了第二篇文章的版本,恰好与模块化的增加相吻合,对离线,模仿和从演示算法学习以及作为ACME的一部分实现的各种新代理。
translated by 谷歌翻译
Transformer, originally devised for natural language processing, has also attested significant success in computer vision. Thanks to its super expressive power, researchers are investigating ways to deploy transformers to reinforcement learning (RL) and the transformer-based models have manifested their potential in representative RL benchmarks. In this paper, we collect and dissect recent advances on transforming RL by transformer (transformer-based RL or TRL), in order to explore its development trajectory and future trend. We group existing developments in two categories: architecture enhancement and trajectory optimization, and examine the main applications of TRL in robotic manipulation, text-based games, navigation and autonomous driving. For architecture enhancement, these methods consider how to apply the powerful transformer structure to RL problems under the traditional RL framework, which model agents and environments much more precisely than deep RL methods, but they are still limited by the inherent defects of traditional RL algorithms, such as bootstrapping and "deadly triad". For trajectory optimization, these methods treat RL problems as sequence modeling and train a joint state-action model over entire trajectories under the behavior cloning framework, which are able to extract policies from static datasets and fully use the long-sequence modeling capability of the transformer. Given these advancements, extensions and challenges in TRL are reviewed and proposals about future direction are discussed. We hope that this survey can provide a detailed introduction to TRL and motivate future research in this rapidly developing field.
translated by 谷歌翻译
众所周知,深厚的强化学习者是效率低下的样本,这大大限制了其在现实世界中的应用。最近,已经设计了许多基于模型的方法来解决这个问题,以了解世界模型是最突出的方法之一。但是,尽管与模拟环境的几乎无限互动听起来很吸引人,但世界模型必须在较长时间内准确。在序列建模任务中变形金刚的成功的动机,我们介绍了Iris,这是一种数据效率的代理,它在由离散自动编码器和自动回归变压器组成的世界模型中学习。在Atari 100k基准中,艾里斯(Iris)的平均正常化得分为1.046,而在26场比赛中的10场比赛中,艾里斯(Iris)的平均正常化得分为1.046。我们的方法为无需lookahead搜索的方法设定了新的技术状态,甚至超过了Muzero。为了培养有关变压器和世界模型的未来研究,用于样品有效的增强学习,我们在https://github.com/eloialonso/iris上发布了代码库。
translated by 谷歌翻译
多目标增强学习被广泛应用于计划和机器人操纵中。多进球强化学习的两个主要挑战是稀疏的奖励和样本效率低下。 Hindsight Experience重播(她)旨在通过进球重新标记来应对这两个挑战。但是,与她相关的作品仍然需要数百万个样本和庞大的计算。在本文中,我们提出了多步事化经验重播(MHER),并根据$ n $ step Relabeling合并了多步重新标记的回报,以提高样品效率。尽管$ n $ step Relableling具有优势,但我们从理论上和实验上证明了$ n $ step Relabeling引入的非政策$ n $步骤偏置可能会导致许多环境的性能差。为了解决上述问题,提出了两种偏差降低的MHER算法,Mher($ \ lambda $)和基于模型的Mher(Mmher)。 Mher($ \ lambda $)利用$ \ lambda $返回,而Mmher从基于模型的价值扩展中受益。对众多多目标机器人任务的实验结果表明,我们的解决方案可以成功减轻$ n $ n $步骤的偏见,并获得比她的样本效率明显更高,并且课程引导她,而她几乎没有其他计算。
translated by 谷歌翻译