大自然的一个迷人方面在于它能够产生大型和多样化的生物体,这些生物都在他们的利基中都很高兴。相比之下,大多数AI算法专注于向给定问题找到一个有效的解决方案。除了表现外,旨在实现多样性是处理勘探开发权衡的便捷方式,在学习中发挥着核心作用。当返回的集合包含对所考虑的问题的几个工作解决方案时,它还允许增加鲁棒性,使其适用于机器人等真实应用。质量 - 多样性(QD)方法是为此目的设计的进化算法。本文提出了一种新颖的QD - PG,它结合了政策梯度算法的强度和质量多样性方法,在连续控制环境中产生了各种和高性能的神经政策的集合。这项工作的主要贡献是引入多样性政策梯度(DPG),该梯度(DPG)利用时刻级别的信息以采样有效的方式培养更多样化的策略。具体而言,QD-PG从地图 - E LITES网格中选择神经控制器,并使用两个基于梯度的突变运算符来提高质量和多样性,从而产生稳定的人口更新。我们的结果表明,QD - PG产生了各种解决方案的集合,解决了具有挑战性的勘探和控制问题,同时是比其进化竞争对手更高的样本效率的两个数量级。
translated by 谷歌翻译
在过去的几年中,深层神经进化和深厚的增强学习受到了很多关注。一些作品比较了它们,突出了他们的利弊,但是新兴趋势在于结合起来,从而从两全其美的世界中受益。在本文中,我们通过将文献组织成相关的作品组,并将每个组中的所有现有组合都组织成一个通用框架,从而对这种新兴趋势进行了调查。我们系统地涵盖了所有易于使用的论文,无论其出版状态如何,重点是组合机制,而不是实验结果。总的来说,我们总共涵盖了45种算法比2017年更新。我们希望这项工作将通过促进对方法之间的关系的理解,从而有利于该领域的增长,从而导致更深入的分析,概述缺失有用的比较并提出新机制的新组合。
translated by 谷歌翻译
When searching for policies, reward-sparse environments often lack sufficient information about which behaviors to improve upon or avoid. In such environments, the policy search process is bound to blindly search for reward-yielding transitions and no early reward can bias this search in one direction or another. A way to overcome this is to use intrinsic motivation in order to explore new transitions until a reward is found. In this work, we use a recently proposed definition of intrinsic motivation, Curiosity, in an evolutionary policy search method. We propose Curiosity-ES, an evolutionary strategy adapted to use Curiosity as a fitness metric. We compare Curiosity with Novelty, a commonly used diversity metric, and find that Curiosity can generate higher diversity over full episodes without the need for an explicit diversity criterion and lead to multiple policies which find reward.
translated by 谷歌翻译
Hierarchical Reinforcement Learning (HRL) algorithms have been demonstrated to perform well on high-dimensional decision making and robotic control tasks. However, because they solely optimize for rewards, the agent tends to search the same space redundantly. This problem reduces the speed of learning and achieved reward. In this work, we present an Off-Policy HRL algorithm that maximizes entropy for efficient exploration. The algorithm learns a temporally abstracted low-level policy and is able to explore broadly through the addition of entropy to the high-level. The novelty of this work is the theoretical motivation of adding entropy to the RL objective in the HRL setting. We empirically show that the entropy can be added to both levels if the Kullback-Leibler (KL) divergence between consecutive updates of the low-level policy is sufficiently small. We performed an ablative study to analyze the effects of entropy on hierarchy, in which adding entropy to high-level emerged as the most desirable configuration. Furthermore, a higher temperature in the low-level leads to Q-value overestimation and increases the stochasticity of the environment that the high-level operates on, making learning more challenging. Our method, SHIRO, surpasses state-of-the-art performance on a range of simulated robotic control benchmark tasks and requires minimal tuning.
translated by 谷歌翻译
机器学习算法中多个超参数的最佳设置是发出大多数可用数据的关键。为此目的,已经提出了几种方法,例如进化策略,随机搜索,贝叶斯优化和启发式拇指规则。在钢筋学习(RL)中,学习代理在与其环境交互时收集的数据的信息内容严重依赖于许多超参数的设置。因此,RL算法的用户必须依赖于基于搜索的优化方法,例如网格搜索或Nelder-Mead单简单算法,这对于大多数R1任务来说是非常效率的,显着减慢学习曲线和离开用户的速度有目的地偏见数据收集的负担。在这项工作中,为了使RL算法更加用户独立,提出了一种使用贝叶斯优化的自主超参数设置的新方法。来自过去剧集和不同的超参数值的数据通过执行行为克隆在元学习水平上使用,这有助于提高最大化获取功能的加强学习变体的有效性。此外,通过紧密地整合在加强学习代理设计中的贝叶斯优化,还减少了收敛到给定任务的最佳策略所需的状态转换的数量。与其他手动调整和基于优化的方法相比,计算实验显示了有希望的结果,这突出了改变算法超级参数来增加所生成数据的信息内容的好处。
translated by 谷歌翻译
深入学习的强化学习(RL)的结合导致了一系列令人印象深刻的壮举,许多相信(深)RL提供了一般能力的代理。然而,RL代理商的成功往往对培训过程中的设计选择非常敏感,这可能需要繁琐和易于易于的手动调整。这使得利用RL对新问题充满挑战,同时也限制了其全部潜力。在许多其他机器学习领域,AutomL已经示出了可以自动化这样的设计选择,并且在应用于RL时也会产生有希望的初始结果。然而,自动化强化学习(AutorL)不仅涉及Automl的标准应用,而且还包括RL独特的额外挑战,其自然地产生了不同的方法。因此,Autorl已成为RL中的一个重要研究领域,提供来自RNA设计的各种应用中的承诺,以便玩游戏等游戏。鉴于RL中考虑的方法和环境的多样性,在不同的子领域进行了大部分研究,从Meta学习到进化。在这项调查中,我们寻求统一自动的领域,我们提供常见的分类法,详细讨论每个区域并对研究人员来说是一个兴趣的开放问题。
translated by 谷歌翻译
培训代理商的训练人群在加强学习方面表现出了巨大的希望,可以稳定训练,改善探索和渐近性能以及产生各种解决方案。但是,从业人员通常不考虑基于人群的培训,因为它被认为是过速的(依次实施),或者在计算上昂贵(如果代理在独立加速器上并行训练)。在这项工作中,我们比较了实施和重新审视以前的研究,以表明对汇编和矢量化的明智使用允许与培训单个代理相比,在单台机器上进行基于人群的培训。我们还表明,当提供一些加速器时,我们的协议扩展到诸如高参数调谐等应用的大型人口大小。我们希望这项工作和公众发布我们的代码将鼓励从业者更频繁地使用基于人群的学习来进行研究和应用。
translated by 谷歌翻译
在本文中,我们介绍了潜在的探索(LGE),这是一种基于探索加固学习(RL)的探索范式的简单而通用的方法。最初引入了Go-explore,并具有强大的域知识约束,以将状态空间划分为单元。但是,在大多数实际情况下,从原始观察中汲取域知识是复杂而乏味的。如果细胞分配不足以提供信息,则可以完全无法探索环境。我们认为,可以通过利用学习的潜在表示,可以将Go-explore方法推广到任何环境,而无需细胞。因此,我们表明LGE可以灵活地与学习潜在表示的任何策略相结合。我们表明,LGE虽然比Go-explore更简单,但在多个硬探索环境上纯粹的探索方面,更强大,并且优于所有最先进的算法。 LGE实现可在https://github.com/qgallouedec/lge上作为开源。
translated by 谷歌翻译
教机器人通过加强学习(RL)在复杂的三维环境环境下学习多样化的运动技能仍然具有挑战性。已经表明,在将其转移到复杂设置之前,在简单设置中的培训代理可以改善培训过程,但到目前为止,仅在相对简单的运动技能的背景下。在这项工作中,我们适应了增强的配对开放式开拓者(EPOET)方法,以训练更复杂的代理,以在复杂的三维地形上有效行走。首先,为了产生更加坚固且多样化的三维训练地形,并增加了复杂性,我们扩展了组成模式产生的网络 - 增强拓扑的神经进化(CPPN-NEAT)方法,并包括随机形状。其次,我们将Epoet与软性演员 - 批评外的优化相结合,产生Epoet-SAC,以确保代理商可以学习更多多样化的技能,以解决更具挑战性的任务。我们的实验结果表明,新生成的三维地形具有足够的多样性和复杂性来指导学习,Epoet成功地学习了这些地形上的复杂运动技能,并且我们提出的EPOET-SAC方法在Epoet上略有改进。
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
在稀疏的奖励设置学习最优策略是困难的,因为学习代理人也鲜有其行动的质量没有反馈。在这些情况下,一个好的策略是专注于探索,希望能导致回报信号,以改善的发现。一个能够处理这种设置的学习算法必须能够(1)探讨可能的代理行为和(2)利用任何可能发现的奖励。高效勘探算法已经被提出,需要在被称为是一个值得探讨的空间中定义一个行为空间,即联营公司代理其产生的行为。需要定义这个空间是这些算法的限制。在这项工作中,我们介绍了STAX,旨在学习上的即时行为空间,并探索它的同时有效地优化发现任何报酬的算法。它通过分离的探索,并通过交替的两步过程中从奖励的剥削行为空间的学习这样做。在第一步骤中,建立STAX多样化策略的所有组成成分,同时学习策略评估过程中产生的高维观测值的低维表示。在开发步骤中,发射器用于优化发现有价值的解决方案的性能。在三个不同的稀疏奖励的环境进行的实验显示,STAX执行同等于现有基准,同时要求有关任务的要少得多的先验信息,因为它建立自主的行为空间。
translated by 谷歌翻译
机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件,例如,感知算法感知环境,并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此,通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作,同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中,并通过传感器读数推断位置。在我们的工作中,我们开发了一种深度学习方法,以直接优化信标的放置和位置推断以达到本地化精度。然后,我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中,我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器,有效地直接优化了物理设计和控制参数,以直接优化任务性能。然后,我们对此进行跟进,以允许对离散形态参数(例如四肢的数字和配置)进行优化。最后,我们通过探索优化的软机器人的制造和部署来得出结论。
translated by 谷歌翻译
最近已结合了进化算法(EAS)和深度加强学习(DRL)以集成两个解决方案的优势以获得更好的政策学习。然而,在现有的混合方法中,EA用于直接培训策略网络,这将导致对政策绩效的样本效率和不可预测的影响。为了更好地整合这两种方法并避免引入EA引起的缺点,我们致力于设计更有效和合理的结合EA和DRL的方法。在本文中,我们提出了进化行动选择 - 双胞胎延迟深度确定性政策梯度(EAS-TD3),是EA和DRL的新组合。在EAS中,我们专注于优化策略网络选择的动作,并尝试通过进化算法来指导策略学习的高质量行动。我们对挑战的连续控制任务进行了几个实验。结果表明,EAS-TD3在其他最先进的方法中显示出优异的性能。
translated by 谷歌翻译
强化学习和最近的深度增强学习是解决如Markov决策过程建模的顺序决策问题的流行方法。问题和选择算法和超参数的RL建模需要仔细考虑,因为不同的配置可能需要完全不同的性能。这些考虑因素主要是RL专家的任务;然而,RL在研究人员和系统设计师不是RL专家的其他领域中逐渐变得流行。此外,许多建模决策,例如定义状态和动作空间,批次的大小和批量更新的频率以及时间戳的数量通常是手动进行的。由于这些原因,RL框架的自动化不同组成部分具有重要意义,近年来它引起了很多关注。自动RL提供了一个框架,其中RL的不同组件包括MDP建模,算法选择和超参数优化是自动建模和定义的。在本文中,我们探讨了可以在自动化RL中使用的文献和目前的工作。此外,我们讨论了Autorl中的挑战,打开问题和研究方向。
translated by 谷歌翻译
Meta-Renifiltive学习(Meta-RL)已被证明是利用事先任务的经验,以便快速学习新的相关任务的成功框架,但是,当前的Meta-RL接近在稀疏奖励环境中学习的斗争。尽管现有的Meta-RL算法可以学习适应新的稀疏奖励任务的策略,但是使用手形奖励功能来学习实际适应策略,或者需要简单的环境,其中随机探索足以遇到稀疏奖励。在本文中,我们提出了对Meta-RL的后视抢购的制定,该rl抢购了在Meta培训期间的经验,以便能够使用稀疏奖励完全学习。我们展示了我们的方法在套件挑战稀疏奖励目标达到的环境中,以前需要密集的奖励,以便在Meta训练中解决。我们的方法使用真正的稀疏奖励功能来解决这些环境,性能与具有代理密集奖励功能的培训相当。
translated by 谷歌翻译
最近基于进化的零级优化方法和基于策略梯度的一阶方法是解决加强学习(RL)问题的两个有希望的替代方案。前者的方法与任意政策一起工作,依赖状态依赖和时间扩展的探索,具有健壮性的属性,但遭受了较高的样本复杂性,而后者的方法更有效,但仅限于可区分的政策,并且学习的政策是不太强大。为了解决这些问题,我们提出了一种新颖的零级演员 - 批评算法(ZOAC),该算法将这两种方法统一为派对演员 - 批判性结构,以保留两者的优势。 ZOAC在参数空间,一阶策略评估(PEV)和零订单策略改进(PIM)的参数空间中进行了推出集合,每次迭代中都会进行推出。我们使用不同类型的策略在广泛的挑战连续控制基准上进行广泛评估我们的方法,其中ZOAC优于零阶和一阶基线算法。
translated by 谷歌翻译
自成立以来,建立在广泛任务中表现出色的普通代理的任务一直是强化学习的重要目标。这个问题一直是对Alarge工作体系的研究的主题,并且经常通过观察Atari 57基准中包含的广泛范围环境的分数来衡量的性能。 Agent57是所有57场比赛中第一个超过人类基准的代理商,但这是以数据效率差的代价,需要实现近800亿帧的经验。以Agent57为起点,我们采用了各种各样的形式,以降低超过人类基线所需的经验200倍。在减少数据制度和Propose有效的解决方案时,我们遇到了一系列不稳定性和瓶颈,以构建更强大,更有效的代理。我们还使用诸如Muesli和Muzero之类的高性能方法证明了竞争性的性能。 TOOUR方法的四个关键组成部分是(1)近似信任区域方法,该方法可以从TheOnline网络中稳定引导,(2)损失和优先级的归一化方案,在学习具有广泛量表的一组值函数时,可以提高鲁棒性, (3)改进的体系结构采用了NFNET的技术技术来利用更深的网络而无需标准化层,并且(4)政策蒸馏方法可使瞬时贪婪的策略加班。
translated by 谷歌翻译
深度加强学习(RL)的增长为该领域带来了多种令人兴奋的工具和方法。这种快速扩展使得了解RL工具箱的各个元素之间的相互作用。通过在连续控制环境中进行研究,我们从实证角度接近这项任务。我们提出了对基本性质的多个见解,包括:从相同数据培训的多个演员的平均值提升了性能;现有方法在培训运行,培训时期,培训时期和评估运行不稳定;有效培训不需要常用的添加剂动作噪声;基于后抽样的策略探讨比近似的UCB与加权Bellman备份相结合的探讨;单独加权的Bellman备份不能取代剪辑的双Q学习;批评者的初始化在基于集合的演员批评探索中起着重要作用。作为一个结论,我们展示了现有的工具如何以新颖的方式汇集,产生集合深度确定性政策梯度(ED2)方法,从Openai Gyem Mujoco的连续控制任务产生最先进的结果。从实际方面,ED2在概念上简单,易于编码,并且不需要在现有RL工具箱之外的知识。
translated by 谷歌翻译
深层确定性的非政策算法的类别有效地用于解决具有挑战性的连续控制问题。但是,当前的方法使用随机噪声作为一种常见的探索方法,该方法具有多个弱点,例如需要对给定任务进行手动调整以及在训练过程中没有探索性校准。我们通过提出一种新颖的指导探索方法来应对这些挑战,该方法使用差异方向控制器来结合可扩展的探索性动作校正。提供探索性方向的蒙特卡洛评论家合奏作为控制器。提出的方法通过动态改变勘探来改善传统探索方案。然后,我们提出了一种新颖的算法,利用拟议的定向控制器进行政策和评论家修改。所提出的算法在DMControl Suite的各种问题上都优于现代增强算法的现代增强算法。
translated by 谷歌翻译
Model-free deep reinforcement learning (RL) algorithms have been demonstrated on a range of challenging decision making and control tasks. However, these methods typically suffer from two major challenges: very high sample complexity and brittle convergence properties, which necessitate meticulous hyperparameter tuning. Both of these challenges severely limit the applicability of such methods to complex, real-world domains. In this paper, we propose soft actor-critic, an offpolicy actor-critic deep RL algorithm based on the maximum entropy reinforcement learning framework. In this framework, the actor aims to maximize expected reward while also maximizing entropy. That is, to succeed at the task while acting as randomly as possible. Prior deep RL methods based on this framework have been formulated as Q-learning methods. By combining off-policy updates with a stable stochastic actor-critic formulation, our method achieves state-of-the-art performance on a range of continuous control benchmark tasks, outperforming prior on-policy and off-policy methods. Furthermore, we demonstrate that, in contrast to other off-policy algorithms, our approach is very stable, achieving very similar performance across different random seeds.
translated by 谷歌翻译