Training agents via off-policy deep reinforcement learning (RL) requires a large memory, named replay memory, that stores past experiences used for learning. These experiences are sampled, uniformly or non-uniformly, to create the batches used for training. When calculating the loss function, off-policy algorithms assume that all samples are of the same importance. In this paper, we hypothesize that training can be enhanced by assigning different importance for each experience based on their temporal-difference (TD) error directly in the training objective. We propose a novel method that introduces a weighting factor for each experience when calculating the loss function at the learning stage. In addition to improving convergence speed when used with uniform sampling, the method can be combined with prioritization methods for non-uniform sampling. Combining the proposed method with prioritization methods improves sampling efficiency while increasing the performance of TD-based off-policy RL algorithms. The effectiveness of the proposed method is demonstrated by experiments in six environments of the OpenAI Gym suite. The experimental results demonstrate that the proposed method achieves a 33%~76% reduction of convergence speed in three environments and an 11% increase in returns and a 3%~10% increase in success rate for other three environments.
translated by 谷歌翻译
一种被称为优先体验重播(PER)的广泛研究的深钢筋学习(RL)技术使代理可以从与其时间差异(TD)误差成正比的过渡中学习。尽管已经表明,PER是离散作用域中深度RL方法总体性能的最关键组成部分之一,但许多经验研究表明,在连续控制中,它的表现非常低于参与者 - 批评算法。从理论上讲,我们表明,无法有效地通过具有较大TD错误的过渡对演员网络进行训练。结果,在Q网络下计算的近似策略梯度与在最佳Q功能下计算的实际梯度不同。在此激励的基础上,我们引入了一种新颖的经验重播抽样框架,用于演员批评方法,该框架还认为稳定性和最新发现的问题是Per的经验表现不佳。引入的算法提出了对演员和评论家网络的有效和高效培训的改进的新分支。一系列广泛的实验验证了我们的理论主张,并证明了引入的方法显着优于竞争方法,并获得了与标准的非政策参与者 - 批评算法相比,获得最先进的结果。
translated by 谷歌翻译
大多数强化学习算法都利用了经验重播缓冲液,以反复对代理商过去观察到的样本进行训练。这样可以防止灾难性的遗忘,但是仅仅对每个样本都分配了同等的重要性是一种天真的策略。在本文中,我们提出了一种根据样本可以从样本中学到多少样本确定样本优先级的方法。我们将样本的学习能力定义为随着时间的推移,与该样品相关的训练损失的稳定减少。我们开发了一种算法,以优先考虑具有较高学习能力的样本,同时将优先级较低,为那些难以学习的样本,通常是由噪声或随机性引起的。我们从经验上表明,我们的方法比随机抽样更强大,而且比仅在训练损失方面优先排序更好,即时间差损失,这是在香草优先的经验重播中使用的。
translated by 谷歌翻译
Experience replay lets online reinforcement learning agents remember and reuse experiences from the past. In prior work, experience transitions were uniformly sampled from a replay memory. However, this approach simply replays transitions at the same frequency that they were originally experienced, regardless of their significance. In this paper we develop a framework for prioritizing experience, so as to replay important transitions more frequently, and therefore learn more efficiently. We use prioritized experience replay in Deep Q-Networks (DQN), a reinforcement learning algorithm that achieved human-level performance across many Atari games. DQN with prioritized experience replay achieves a new stateof-the-art, outperforming DQN with uniform replay on 41 out of 49 games.
translated by 谷歌翻译
在环境中的多进球强化学习中,代理商通过利用从与环境的互动中获得的经验来学习实现多个目标的政策。由于缺乏成功的经验,培训代理人凭借稀疏的二元奖励特别具有挑战性。为了解决这个问题,事后观察体验重播(她)从失败的经历中获得了成功的经验。但是,在不考虑实现目标财产的情况下产生成功的经验效率较低。在本文中,提出了一种基于集群的采样策略,利用实现目标的财产。提出的采样策略小组以不同的方式实现了目标和样本经历。对于分组,使用K-均值聚类算法。集群的质心是从定义为未实现的原始目标的失败目标的分布中获得的。该方法通过使用OpenAI健身房的三个机器人控制任务进行实验来验证。实验的结果表明,所提出的方法显着减少了在这三个任务中的两个中收敛所需的时期数量,并略微增加了其余一个任务的成功率。还表明,提出的方法可以与她的其他抽样策略结合使用。
translated by 谷歌翻译
深Q学习网络(DQN)是一种成功的方式,将增强学习与深神经网络结合在一起,并导致广泛应用强化学习。当将DQN或其他强化学习算法应用于现实世界问题时,一个具有挑战性的问题是数据收集。因此,如何提高数据效率是强化学习研究中最重要的问题之一。在本文中,我们提出了一个框架,该框架使用深q网络中的最大均值损失(m $^2 $ dqn)。我们没有在训练步骤中抽样一批体验,而是从体验重播中采样了几批,并更新参数,以使这些批次的最大td-Error最小化。所提出的方法可以通过替换损耗函数来与DQN算法的大多数现有技术结合使用。我们在几个健身游戏中使用了最广泛的技术DQN(DDQN)之一来验证该框架的有效性。结果表明,我们的方法会导致学习速度和性能的实质性提高。
translated by 谷歌翻译
优先经验重播(ER)已被经验证明可以提高许多领域的样本效率,并引起了极大的关注。但是,几乎没有理论上的理解,为什么这种优先的抽样有助于其局限性。在这项工作中,我们深入研究了优先的ER。在有监督的学习环境中,我们显示了基于错误的优先采样方法,用于平方误差和均匀采样,用于立方功率损失。然后,我们提供理论上的见解,说明为什么在早期学习过程中均匀抽样时它会提高收敛速度。基于洞察力,我们进一步指出了优先ER方法的两个局限性:1)过时的优先级和2)样品空间的覆盖范围不足。为了减轻局限性,我们提出了基于模型的随机梯度Langevin动力学采样方法。我们表明,我们的方法确实提供了分布的状态,该状态接近通过Brute-Force方法估计的理想优先采样分布,该分布没有两个局限性。我们对离散和连续控制问题进行实验,以显示我们的方法的功效,并检查我们方法在自主驾驶应用中的实际含义。
translated by 谷歌翻译
政策深度加强学习算法具有低数据利用率,需要重大的政策改进体验。本文提出了一种具有优先级轨迹重放(PTR-PPO)的近端策略优化算法,该轨道重播(PTR-PPO)结合了策略和违规方法来提高采样效率,通过优先考虑旧政策产生的轨迹的重播。我们首先根据轨迹的特点设计三个轨迹优先级:前两个是基于一步经验广义优势估计(GAE)值的最大和平均轨迹优先级,以及基于标准化未折衷奖励的最后一次奖励轨迹优先级。然后,我们将优先轨迹重放纳入PPO算法,提出了一个截断的重要性重量方法,克服了多步体验的大量重量引起的高方差,并在违规条件下为PPO设计了政策改进损失函数。我们评估PTR-PPO在一套ATARI离散控制任务中的性能,实现最先进的性能。此外,通过在训练期间分析优先存储器中各个位置的优先级的热图,我们发现内存大小和卷展展览长度可以对轨迹优先级的分布产生重大影响,并且因此在算法的性能上。
translated by 谷歌翻译
在无模型的深度加强学习(RL)算法中,利用嘈杂的值估计监督政策评估和优化对样品效率有害。由于这种噪声是异源的,因此可以在优化过程中使用基于不确定性的权重来缓解其效果。以前的方法依赖于采样的合奏,这不会捕获不确定性的所有方面。我们对在RL的嘈杂监管中提供了对不确定性的不确定性来源的系统分析,并引入了诸如将概率集合和批处理逆差加权组合的贝叶斯框架的逆差异RL。我们提出了一种方法,其中两个互补的不确定性估计方法占Q值和环境随机性,以更好地减轻嘈杂监督的负面影响。我们的结果表明,对离散和连续控制任务的采样效率方面显着改进。
translated by 谷歌翻译
已经提出了几种算法,以非均匀地对深钢筋学习(RL)剂的重播缓冲液进行采样,以加速学习,但是几乎没有提供这些抽样方案的理论基础。除其他外,优先的经验重播似乎是一种超级参数敏感的启发式,尽管它可以提供良好的性能。在这项工作中,我们将重播缓冲液抽样问题视为估算梯度的重要性采样。这允许得出理论上最佳的采样分布,从而获得最佳的理论收敛速度。详细阐述了理想抽样方案的知识,我们展示了优先经验重播的新理论基础。最佳采样分布非常棘手,我们进行了几个近似值,可在实践中提供良好的结果,并介绍Laber(大批次经验重播),这是一种易于编码和有效的方法来抽样重播缓冲区。与其他优先级方案相比,Laber可以与深层Q-NETWORKS,分布RL代理或参与者 - 批判性方法结合使用,在各种Atari游戏和Pybullet环境中,可以提高性能。
translated by 谷歌翻译
与政策策略梯度技术相比,使用先前收集的数据的无模型的无模型深钢筋学习(RL)方法可以提高采样效率。但是,当利益政策的分布与收集数据的政策之间的差异时,非政策学习变得具有挑战性。尽管提出了良好的重要性抽样和范围的政策梯度技术来补偿这种差异,但它们通常需要一系列长轨迹,以增加计算复杂性并引起其他问题,例如消失或爆炸梯度。此外,由于需要行动概率,它们对连续动作领域的概括严格受到限制,这不适合确定性政策。为了克服这些局限性,我们引入了一种替代的非上政策校正算法,用于连续作用空间,参与者 - 批判性非政策校正(AC-OFF-POC),以减轻先前收集的数据引入的潜在缺陷。通过由代理商对随机采样批次过渡的状态的最新动作决策计算出的新颖差异度量,该方法不需要任何策略的实际或估计的行动概率,并提供足够的一步重要性抽样。理论结果表明,引入的方法可以使用固定的独特点获得收缩映射,从而可以进行“安全”的非政策学习。我们的经验结果表明,AC-Off-POC始终通过有效地安排学习率和Q学习和政策优化的学习率,以比竞争方法更少的步骤改善最新的回报。
translated by 谷歌翻译
准确的价值估计对于禁止禁止增强学习是重要的。基于时间差学学习的算法通常容易容易出现过度或低估的偏差。在本文中,我们提出了一种称为自适应校准批评者(ACC)的一般方法,该方法使用最近的高方差,但不偏见的on-Police Rollouts来缓解低方差时间差目标的偏差。我们将ACC应用于截断的分位数批评,这是一种连续控制的算法,允许使用每个环境调谐的超参数调节偏差。生成的算法在训练渲染渲染超参数期间自适应调整参数不必要,并在Openai健身房连续控制基准测试中设置一个新的算法中,这些算法在所有环境中没有调整HyperParameters的所有算法中。此外,我们证明ACC通过进一步将其进一步应用于TD3并在此设置中显示出改进的性能而相当一般。
translated by 谷歌翻译
The deep reinforcement learning community has made several independent improvements to the DQN algorithm. However, it is unclear which of these extensions are complementary and can be fruitfully combined. This paper examines six extensions to the DQN algorithm and empirically studies their combination. Our experiments show that the combination provides state-of-the-art performance on the Atari 2600 benchmark, both in terms of data efficiency and final performance. We also provide results from a detailed ablation study that shows the contribution of each component to overall performance.
translated by 谷歌翻译
多目标增强学习被广泛应用于计划和机器人操纵中。多进球强化学习的两个主要挑战是稀疏的奖励和样本效率低下。 Hindsight Experience重播(她)旨在通过进球重新标记来应对这两个挑战。但是,与她相关的作品仍然需要数百万个样本和庞大的计算。在本文中,我们提出了多步事化经验重播(MHER),并根据$ n $ step Relabeling合并了多步重新标记的回报,以提高样品效率。尽管$ n $ step Relableling具有优势,但我们从理论上和实验上证明了$ n $ step Relabeling引入的非政策$ n $步骤偏置可能会导致许多环境的性能差。为了解决上述问题,提出了两种偏差降低的MHER算法,Mher($ \ lambda $)和基于模型的Mher(Mmher)。 Mher($ \ lambda $)利用$ \ lambda $返回,而Mmher从基于模型的价值扩展中受益。对众多多目标机器人任务的实验结果表明,我们的解决方案可以成功减轻$ n $ n $步骤的偏见,并获得比她的样本效率明显更高,并且课程引导她,而她几乎没有其他计算。
translated by 谷歌翻译
人类环境通常由明确和复杂的规则集调节。将强化学习(RL)代理集成到这样的环境中,激励在规则密集和异常的环境中表现良好的学习机制的发展,例如在受监管道路上自动驾驶。在本文中,我们提出了一种通过将体验缓冲区分区的经验组织经验,以根据每次解释标记的群集。我们呈现与模块化规则集和9个学习任务兼容的离散和连续导航环境。对于具有可解释的规则集的环境,我们将基于规则的解释转换为基于案例的解释,通过将状态转换分配到标有解释标记的群集。这使我们可以以课程和任务为导向的方式进行样本,专注于事件的稀有性,重要性和含义。我们标记这个概念解释 - 意识(XA)。我们使用内部和群集内部优先级执行XA体验重放(XAER),并引入DQN,TD3和SAC的XA兼容版本。与传统优先考虑体验重放基线相比,性能与这些算法的XA版本始终如一,表明可以使用解释工程代替具有可解释功能的环境的奖励工程。
translated by 谷歌翻译
在这项工作中,我们提出并评估了一种新的增强学习方法,紧凑体验重放(编者),它使用基于相似转换集的复发的预测目标值的时间差异学习,以及基于两个转换的经验重放的新方法记忆。我们的目标是减少在长期累计累计奖励的经纪人培训所需的经验。它与强化学习的相关性与少量观察结果有关,即它需要实现类似于文献中的相关方法获得的结果,这通常需要数百万视频框架来培训ATARI 2600游戏。我们举报了在八个挑战街机学习环境(ALE)挑战游戏中,为仅10万帧的培训试验和大约25,000次迭代的培训试验中报告了培训试验。我们还在与基线的同一游戏中具有相同的实验协议的DQN代理呈现结果。为了验证从较少数量的观察结果近似于良好的政策,我们还将其结果与从啤酒的基准上呈现的数百万帧中获得的结果进行比较。
translated by 谷歌翻译
我们将记住和忘记的经验重播(Ref-ER)算法扩展到多代理增强学习(MARL)。参考器被证明超过了最先进的算法状态,以连续控制从OpenAI健身房到复杂的流体流动。在MARL中,代理之间的依赖项包括在州值估计器中,环境动力学是通过参考文献使用的重要性权重对其建模的。在协作环境中,当使用个人奖励估算值时,我们发现最佳性能,并且我们忽略了其他动作对过渡图的影响。我们基准在斯坦福大学智能系统实验室(SISL)环境中进行参考文献的性能。我们发现,采用单个馈送前馈神经网络来进行策略和参考文献中的价值函数,优于依靠复杂的神经网络体系结构的最先进的算法状态。
translated by 谷歌翻译
在时间差异增强学习算法中,价值估计的差异会导致最大目标值的不稳定性和高估。已经提出了许多算法来减少高估,包括最近的几种集合方法,但是,没有通过解决估计方差作为高估的根本原因来表现出样品效率学习的成功。在本文中,我们提出了一种简单的集合方法,将目标值估计为集合均值。尽管它很简单,但卑鄙的(还是在Atari学习环境基准测试的实验中显示出明显的样本效率)。重要的是,我们发现大小5的合奏充分降低了估计方差以消除滞后目标网络,从而消除了它作为偏见的来源并进一步获得样本效率。我们以直观和经验的方式为曲线的设计选择证明了合理性,包括独立经验抽样的必要性。在一组26个基准ATARI环境中,曲线均优于所有经过测试的基线,包括最佳的基线,日出,在16/26环境中的100K交互步骤,平均为68​​%。在21/26的环境中,曲线还优于500k步骤的Rainbow DQN,平均为49%,并使用200K($ \ pm $ 100k)的交互步骤实现平均人级绩效。我们的实施可从https://github.com/indylab/meanq获得。
translated by 谷歌翻译
Off-policy reinforcement learning (RL) using a fixed offline dataset of logged interactions is an important consideration in real world applications. This paper studies offline RL using the DQN Replay Dataset comprising the entire replay experience of a DQN agent on 60 Atari 2600 games. We demonstrate that recent off-policy deep RL algorithms, even when trained solely on this fixed dataset, outperform the fully-trained DQN agent. To enhance generalization in the offline setting, we present Random Ensemble Mixture (REM), a robust Q-learning algorithm that enforces optimal Bellman consistency on random convex combinations of multiple Q-value estimates. Offline REM trained on the DQN Replay Dataset surpasses strong RL baselines. Ablation studies highlight the role of offline dataset size and diversity as well as the algorithm choice in our positive results. Overall, the results here present an optimistic view that robust RL algorithms used on sufficiently large and diverse offline datasets can lead to high quality policies. To provide a testbed for offline RL and reproduce our results, the DQN Replay Dataset is released at offline-rl.github.io.
translated by 谷歌翻译
Deep reinforcement learning (RL) has achieved several high profile successes in difficult decision-making problems. However, these algorithms typically require a huge amount of data before they reach reasonable performance. In fact, their performance during learning can be extremely poor. This may be acceptable for a simulator, but it severely limits the applicability of deep RL to many real-world tasks, where the agent must learn in the real environment. In this paper we study a setting where the agent may access data from previous control of the system. We present an algorithm, Deep Q-learning from Demonstrations (DQfD), that leverages small sets of demonstration data to massively accelerate the learning process even from relatively small amounts of demonstration data and is able to automatically assess the necessary ratio of demonstration data while learning thanks to a prioritized replay mechanism. DQfD works by combining temporal difference updates with supervised classification of the demonstrator's actions. We show that DQfD has better initial performance than Prioritized Dueling Double Deep Q-Networks (PDD DQN) as it starts with better scores on the first million steps on 41 of 42 games and on average it takes PDD DQN 83 million steps to catch up to DQfD's performance. DQfD learns to out-perform the best demonstration given in 14 of 42 games. In addition, DQfD leverages human demonstrations to achieve state-of-the-art results for 11 games. Finally, we show that DQfD performs better than three related algorithms for incorporating demonstration data into DQN.
translated by 谷歌翻译