通过比较它们在大型任务套件上的相对性能来主要评估深度加强学习(RL)算法。大多数已发布的Deep RL基准的结果比较了总体性能的积分估计,如任务的平均值和中位数分数,忽略了使用有限次训练运行所暗示的统计不确定性。从街机学习环境(ALE)开始,转向计算苛刻的基准导致只评估每项任务的少量运行的实践,加剧了点估计中的统计不确定性。在本文中,我们认为,在少数运行深处的RL政权中的可靠评估不能忽视结果中的不确定性,而无需冒着现场降低进展的风险。我们使用对Atari 100k基准测试的案例研究来说明这一点,在那里我们在单独从点估计中汲取的结论之间发现了大量差异与更全面的统计分析。旨在提高现场对报告的据报道的诸如少数经营的业绩的信心,我们倡导报告总绩效的间隔估计,并提出性能概况来解释结果的可变性,以及现在更强大和高效的总数的绩效作为狭隘的平均分数,在结果中取得小的不确定性。使用此类统计工具,我们在包括ALE,Procgen和DeepMind控制套件的其他广泛使用的RL基准测试中仔细审查了现有算法的性能评估,再次在先前的比较中显示差异。我们的调查结果呼吁改变我们如何评估深度RL的性能,我们提出了更严格的评估方法,伴随着开源库的最新,以防止不可靠的结果停滞不前。
translated by 谷歌翻译
多机构增强学习(MARL)已成为解决分散决策问题的有用方法。近年来提出的许多突破性算法一直在稳步增长。在这项工作中,我们仔细研究了这一快速发展,重点是在合作Marl的大量研究中采用的评估方法。通过对先前工作进行详细的荟萃分析,涵盖了从2016年至2022年接受出版的75篇论文,我们引起了人们对真正进步率的质疑的令人担忧的趋势。我们在更广泛的背景下进一步考虑了这些趋势,并从单一AGENT RL文献中获得了有关类似问题的灵感,这些建议以及仍然适用于MARL的建议。将这些建议与我们分析的新见解相结合,我们提出了合作MARL的标准化绩效评估方案。我们认为,这样的标准协议,如果被广泛采用,将大大提高未来研究的有效性和信誉,使复制和可重复性更加容易,并提高该领域的能力,通过能够通过能够准确评估进度的速度进行跨不同作品的合理比较。最后,我们在我们的项目网站上公开发布荟萃分析数据,以供未来的评估研究:https://sites.google.com/view/marl-andard-protocol
translated by 谷歌翻译
众所周知,从像素观察中进行的非质量增强学习(RL)是不稳定的。结果,许多成功的算法必须结合不同领域的实践和辅助损失,以在复杂的环境中学习有意义的行为。在这项工作中,我们提供了新颖的分析,表明这些不稳定性是通过卷积编码器和低质量奖励进行时间差异学习而产生的。我们表明,这种新的视觉致命三合会导致不稳定的训练和过早的融合归化解决方案,这是一种现象,我们将灾难性的自相传为。基于我们的分析,我们提出了A-LIX,这是一种为编码器梯度提供适应性正则化的方法,该梯度明确防止使用双重目标防止灾难性的自我抗辩发生。通过应用A-LIX,我们在DeepMind Control和Atari 100K基准测试方面显着优于先前的最先进,而无需任何数据增强或辅助损失。
translated by 谷歌翻译
In recent years, significant progress has been made in solving challenging problems across various domains using deep reinforcement learning (RL). Reproducing existing work and accurately judging the improvements offered by novel methods is vital to sustaining this progress. Unfortunately, reproducing results for state-of-the-art deep RL methods is seldom straightforward. In particular, non-determinism in standard benchmark environments, combined with variance intrinsic to the methods, can make reported results tough to interpret. Without significance metrics and tighter standardization of experimental reporting, it is difficult to determine whether improvements over the prior state-of-the-art are meaningful. In this paper, we investigate challenges posed by reproducibility, proper experimental techniques, and reporting procedures. We illustrate the variability in reported metrics and results when comparing against common baselines and suggest guidelines to make future results in deep RL more reproducible. We aim to spur discussion about how to ensure continued progress in the field by minimizing wasted effort stemming from results that are non-reproducible and easily misinterpreted.
translated by 谷歌翻译
Off-policy reinforcement learning (RL) using a fixed offline dataset of logged interactions is an important consideration in real world applications. This paper studies offline RL using the DQN Replay Dataset comprising the entire replay experience of a DQN agent on 60 Atari 2600 games. We demonstrate that recent off-policy deep RL algorithms, even when trained solely on this fixed dataset, outperform the fully-trained DQN agent. To enhance generalization in the offline setting, we present Random Ensemble Mixture (REM), a robust Q-learning algorithm that enforces optimal Bellman consistency on random convex combinations of multiple Q-value estimates. Offline REM trained on the DQN Replay Dataset surpasses strong RL baselines. Ablation studies highlight the role of offline dataset size and diversity as well as the algorithm choice in our positive results. Overall, the results here present an optimistic view that robust RL algorithms used on sufficiently large and diverse offline datasets can lead to high quality policies. To provide a testbed for offline RL and reproduce our results, the DQN Replay Dataset is released at offline-rl.github.io.
translated by 谷歌翻译
Experience replay lets online reinforcement learning agents remember and reuse experiences from the past. In prior work, experience transitions were uniformly sampled from a replay memory. However, this approach simply replays transitions at the same frequency that they were originally experienced, regardless of their significance. In this paper we develop a framework for prioritizing experience, so as to replay important transitions more frequently, and therefore learn more efficiently. We use prioritized experience replay in Deep Q-Networks (DQN), a reinforcement learning algorithm that achieved human-level performance across many Atari games. DQN with prioritized experience replay achieves a new stateof-the-art, outperforming DQN with uniform replay on 41 out of 49 games.
translated by 谷歌翻译
近年来,应用深入的强化学习(RL)在解决各种领域的具有挑战性的问题方面取得了重大进展。然而,由于算法的不稳定性和方差以及基准环境中的随机性,各种方法的收敛性遭受了不一致的影响。特别是,尽管该代理商的性能平均可能会有所改善,但在训练的后期阶段可能会突然恶化。在这项工作中,我们通过提供有关所获得的历史或参考基准策略的保守更新来研究增强代理学习过程的方法。我们的方法称为珠穆朗玛峰,通过参考策略的信心范围获得了高度改善的信心。通过广泛的经验分析,我们证明了我们方法在绩效和稳定方面的好处,并在连续控制和ATARI基准方面有了显着改善。
translated by 谷歌翻译
软件测试活动旨在找到软件产品的可能缺陷,并确保该产品满足其预期要求。一些软件测试接近的方法缺乏自动化或部分自动化,这增加了测试时间和整体软件测试成本。最近,增强学习(RL)已成功地用于复杂的测试任务中,例如游戏测试,回归测试和测试案例优先级,以自动化该过程并提供持续的适应。从业者可以通过从头开始实现RL算法或使用RL框架来使用RL。开发人员已广泛使用这些框架来解决包括软件测试在内的各个领域中的问题。但是,据我们所知,尚无研究从经验上评估RL框架中实用算法的有效性和性能。在本文中,我们凭经验研究了精心选择的RL算法在两个重要的软件测试任务上的应用:在连续集成(CI)和游戏测试的上下文中测试案例的优先级。对于游戏测试任务,我们在简单游戏上进行实验,并使用RL算法探索游戏以检测错误。结果表明,一些选定的RL框架,例如Tensorforce优于文献的最新方法。为了确定测试用例的优先级,我们在CI环境上运行实验,其中使用来自不同框架的RL算法来对测试用例进行排名。我们的结果表明,在某些情况下,预实算算法之间的性能差异很大,激励了进一步的研究。此外,建议对希望选择RL框架的研究人员进行一些基准问题的经验评估,以确保RL算法按预期执行。
translated by 谷歌翻译
本文探讨了在深度参与者批评的增强学习模型中同时学习价值功能和政策的问题。我们发现,由于这两个任务之间的噪声水平差异差异,共同学习这些功能的共同实践是亚最佳选择。取而代之的是,我们表明独立学习这些任务,但是由于蒸馏阶段有限,可以显着提高性能。此外,我们发现可以使用较低的\ textIt {方差}返回估计值来降低策略梯度噪声水平。鉴于,值学习噪声水平降低了较低的\ textit {bias}估计值。这些见解共同为近端策略优化的扩展提供了信息,我们称为\ textit {dual Network Archituction}(DNA),这极大地超过了其前身。DNA还超过了受欢迎的彩虹DQN算法在测试的五个环境中的四个环境中的性能,即使在更困难的随机控制设置下也是如此。
translated by 谷歌翻译
大多数强化学习算法都利用了经验重播缓冲液,以反复对代理商过去观察到的样本进行训练。这样可以防止灾难性的遗忘,但是仅仅对每个样本都分配了同等的重要性是一种天真的策略。在本文中,我们提出了一种根据样本可以从样本中学到多少样本确定样本优先级的方法。我们将样本的学习能力定义为随着时间的推移,与该样品相关的训练损失的稳定减少。我们开发了一种算法,以优先考虑具有较高学习能力的样本,同时将优先级较低,为那些难以学习的样本,通常是由噪声或随机性引起的。我们从经验上表明,我们的方法比随机抽样更强大,而且比仅在训练损失方面优先排序更好,即时间差损失,这是在香草优先的经验重播中使用的。
translated by 谷歌翻译
Progress in continual reinforcement learning has been limited due to several barriers to entry: missing code, high compute requirements, and a lack of suitable benchmarks. In this work, we present CORA, a platform for Continual Reinforcement Learning Agents that provides benchmarks, baselines, and metrics in a single code package. The benchmarks we provide are designed to evaluate different aspects of the continual RL challenge, such as catastrophic forgetting, plasticity, ability to generalize, and sample-efficient learning. Three of the benchmarks utilize video game environments (Atari, Procgen, NetHack). The fourth benchmark, CHORES, consists of four different task sequences in a visually realistic home simulator, drawn from a diverse set of task and scene parameters. To compare continual RL methods on these benchmarks, we prepare three metrics in CORA: Continual Evaluation, Isolated Forgetting, and Zero-Shot Forward Transfer. Finally, CORA includes a set of performant, open-source baselines of existing algorithms for researchers to use and expand on. We release CORA and hope that the continual RL community can benefit from our contributions, to accelerate the development of new continual RL algorithms.
translated by 谷歌翻译
In this article we introduce the Arcade Learning Environment (ALE): both a challenge problem and a platform and methodology for evaluating the development of general, domain-independent AI technology. ALE provides an interface to hundreds of Atari 2600 game environments, each one different, interesting, and designed to be a challenge for human players. ALE presents significant research challenges for reinforcement learning, model learning, model-based planning, imitation learning, transfer learning, and intrinsic motivation. Most importantly, it provides a rigorous testbed for evaluating and comparing approaches to these problems. We illustrate the promise of ALE by developing and benchmarking domain-independent agents designed using well-established AI techniques for both reinforcement learning and planning. In doing so, we also propose an evaluation methodology made possible by ALE, reporting empirical results on over 55 different games. All of the software, including the benchmark agents, is publicly available.
translated by 谷歌翻译
依赖于太多的实验来学习良好的行动,目前的强化学习(RL)算法在现实世界的环境中具有有限的适用性,这可能太昂贵,无法探索探索。我们提出了一种批量RL算法,其中仅使用固定的脱机数据集来学习有效策略,而不是与环境的在线交互。批量RL中的有限数据产生了在培训数据中不充分表示的状态/行动的价值估计中的固有不确定性。当我们的候选政策从生成数据的候选政策发散时,这导致特别严重的外推。我们建议通过两个直接的惩罚来减轻这个问题:减少这种分歧的政策限制和减少过于乐观估计的价值约束。在全面的32个连续动作批量RL基准测试中,我们的方法对最先进的方法进行了比较,无论如何收集离线数据如何。
translated by 谷歌翻译
深度神经网络是当今离线增强学习中最常用的功能近似值。先前的工作表明,接受TD学习和梯度下降训练的神经网可以表现出隐式正则化,可以通过这些网络的参数化不足来表征。具体而言,已经观察到在训练期间,倒数第二个特征层的排名(也称为\ textit {有效等级})急剧崩溃。反过来,这种崩溃被认为是为了降低模型在学习后期进一步适应的能力,从而导致最终表现降低。有效等级和绩效之间的这种关联使离线RL的有效等级引人注目,主要用于离线政策评估。在这项工作中,我们对三个离线RL数据集的有效等级与绩效之间的关系进行了仔细的实证研究:Bsuite,Atari和DeepMind Lab。我们观察到,直接关联仅存在于受限的设置中,并且在更广泛的超参数扫描中消失。此外,我们从经验上确定了三个学习的阶段,这些阶段解释了隐式正则化对学习动力学的影响,并发现单独进行引导不足以解释有效等级的崩溃。此外,我们表明其他几个因素可能会混淆有效的等级与绩效之间的关系,并得出结论,在简单假设下研究这种关联可能会产生高度误导。
translated by 谷歌翻译
由于其令人鼓舞的性能,在各种控制任务中的令人鼓舞的表现,深增强学习(Deep RL)一直在受到更高的关注。然而,在训练神经网络中的常规正则化技术(例如,$ L_2 $正则化,辍学)已经在RL方法中被忽略,可能是因为代理通常在相同的环境中进行培训和评估,因为Deep RL社区重点关注更多-Level算法设计。在这项工作中,我们在连续控制任务中提出了具有多种策略优化算法的正则化技术的第一综合研究。有趣的是,我们发现策略网络上的传统正则化技术通常可以带来大量改进,特别是在更难的任务上。我们的研究结果显示在训练HyperParameter变化方面是强大的。我们还将这些技术与更广泛使用的熵正则化进行了比较。此外,我们还研究正规化不同的组件,并发现策略网络通常是最佳的。我们进一步分析了为什么正则化可能有助于从四个观点来帮助推广 - 样本复杂性,奖励分配,重量规范和噪音鲁棒性。我们希望我们的研究为未来的规则策略优化算法提供指导。我们的代码可在https://github.com/xuanlinli17/ICLRR2021_RLREG上获得。
translated by 谷歌翻译
自成立以来,建立在广泛任务中表现出色的普通代理的任务一直是强化学习的重要目标。这个问题一直是对Alarge工作体系的研究的主题,并且经常通过观察Atari 57基准中包含的广泛范围环境的分数来衡量的性能。 Agent57是所有57场比赛中第一个超过人类基准的代理商,但这是以数据效率差的代价,需要实现近800亿帧的经验。以Agent57为起点,我们采用了各种各样的形式,以降低超过人类基线所需的经验200倍。在减少数据制度和Propose有效的解决方案时,我们遇到了一系列不稳定性和瓶颈,以构建更强大,更有效的代理。我们还使用诸如Muesli和Muzero之类的高性能方法证明了竞争性的性能。 TOOUR方法的四个关键组成部分是(1)近似信任区域方法,该方法可以从TheOnline网络中稳定引导,(2)损失和优先级的归一化方案,在学习具有广泛量表的一组值函数时,可以提高鲁棒性, (3)改进的体系结构采用了NFNET的技术技术来利用更深的网络而无需标准化层,并且(4)政策蒸馏方法可使瞬时贪婪的策略加班。
translated by 谷歌翻译
近年来,稀疏神经网络的使用迅速增长,尤其是在计算机视觉中。它们的吸引力在很大程度上源于培训和存储所需的参数数量以及学习效率的提高。有些令人惊讶的是,很少有努力探索他们在深度强化学习中的使用(DRL)。在这项工作中,我们进行了系统的调查,以在各种DRL代理和环境上应用许多现有的稀疏培训技术。我们的结果证实了计算机视觉域中稀疏训练的发现 - 稀疏网络在DRL域中对相同的参数计数的稀疏网络表现更好。我们提供了有关DRL中各种组件如何受到稀疏网络的影响的详细分析,并通过建议有希望的途径提高稀疏训练方法的有效性以及推进其在DRL中的使用来结论。
translated by 谷歌翻译
The deep reinforcement learning community has made several independent improvements to the DQN algorithm. However, it is unclear which of these extensions are complementary and can be fruitfully combined. This paper examines six extensions to the DQN algorithm and empirically studies their combination. Our experiments show that the combination provides state-of-the-art performance on the Atari 2600 benchmark, both in terms of data efficiency and final performance. We also provide results from a detailed ablation study that shows the contribution of each component to overall performance.
translated by 谷歌翻译
许多深厚的增强学习算法依赖于简单的探索形式,例如经常在连续控制域中使用的加性动作噪声。通常,该动作噪声的缩放因子被选为高参数,并在训练过程中保持恒定。在本文中,我们分析了学到的政策如何受到噪声类型,比例和缩放系数的影响。我们考虑了两种最突出的动作类型:高斯和ornstein-uhlenbeck噪声,并通过系统地改变噪声类型和规模参数以及测量感兴趣的变量(例如预期的政策回报和策略回报)来执行巨大的实验活动。探索期间的状态空间覆盖范围。对于后者,我们提出了一个新颖的状态空间覆盖量$ \ operatatorName {x} _ {\ Mathcal {u} \ text {rel}} $,对边界人工制品比以前提出的措施更强大。较大的噪声尺度通常会增加状态空间覆盖率。但是,我们发现使用较大的噪声量表增加空间覆盖范围通常是无益的。相反,在训练过程中降低噪声量表可以减少差异并通常改善学习绩效。我们得出的结论是,最好的噪声类型和尺度是环境取决于的,并且根据我们的观察结果,得出了指导选择动作噪声作为进一步优化的起点的启发式规则。
translated by 谷歌翻译
深度强化学习(RL)导致了许多最近和开创性的进步。但是,这些进步通常以培训的基础体系结构的规模增加以及用于训练它们的RL算法的复杂性提高,而均以增加规模的成本。这些增长反过来又使研究人员更难迅速原型新想法或复制已发表的RL算法。为了解决这些问题,这项工作描述了ACME,这是一个用于构建新型RL算法的框架,这些框架是专门设计的,用于启用使用简单的模块化组件构建的代理,这些组件可以在各种执行范围内使用。尽管ACME的主要目标是为算法开发提供一个框架,但第二个目标是提供重要或最先进算法的简单参考实现。这些实现既是对我们的设计决策的验证,也是对RL研究中可重复性的重要贡献。在这项工作中,我们描述了ACME内部做出的主要设计决策,并提供了有关如何使用其组件来实施各种算法的进一步详细信息。我们的实验为许多常见和最先进的算法提供了基准,并显示了如何为更大且更复杂的环境扩展这些算法。这突出了ACME的主要优点之一,即它可用于实现大型,分布式的RL算法,这些算法可以以较大的尺度运行,同时仍保持该实现的固有可读性。这项工作提出了第二篇文章的版本,恰好与模块化的增加相吻合,对离线,模仿和从演示算法学习以及作为ACME的一部分实现的各种新代理。
translated by 谷歌翻译