进化计算(EC)已被证明能够快速训练深人造神经网络(DNNS)来解决增强学习(RL)问题。虽然遗传算法(GA)非常适合利用既不具有欺骗性也不稀疏的奖励功能,但当奖励函数是这些功能时,它会挣扎。为此,在某些情况下,新颖的搜索(NS)已被证明能够超越梯度跟随优化器,而在其他情况下则表现不佳。我们提出了一种新算法:探索 - 探索$ \ gamma $ - 适应学习者($ e^2 \ gamma al $或eyal)。通过保留动态大小的寻求新颖的代理商的利基市场,该算法可以维持人口多样性,并在可能的情况下利用奖励信号并探索其他奖励信号。该算法将GA的剥削能力和NS的勘探能力结合在一起,同时保持其简单性和优雅性。我们的实验表明,在大多数情况下,Eyal在与GA相当的情况下都胜过NS - 在某些情况下,它可以均优于两者。 Eyal还允许用其他算法(例如演化策略和惊喜搜索)代替利用组件(GA)和探索组件(NS)(NS),从而为未来的研究打开了大门。
translated by 谷歌翻译
最近被证明在强化学习(RL)设置中显示出的神经形式非常竞争,并且能够减轻基于梯度的方法的一些缺点。本文将专注于使用简单的遗传算法(GA)来应用神经发展,以找到产生最佳表现代理的神经网络的权重。此外,我们提出了两种新颖的修改,以提高与初始实施相比的数据效率和收敛速度。在Openai健身房提供的汇聚环境中评估了修改,并证明明显优于基线方法。
translated by 谷歌翻译
When searching for policies, reward-sparse environments often lack sufficient information about which behaviors to improve upon or avoid. In such environments, the policy search process is bound to blindly search for reward-yielding transitions and no early reward can bias this search in one direction or another. A way to overcome this is to use intrinsic motivation in order to explore new transitions until a reward is found. In this work, we use a recently proposed definition of intrinsic motivation, Curiosity, in an evolutionary policy search method. We propose Curiosity-ES, an evolutionary strategy adapted to use Curiosity as a fitness metric. We compare Curiosity with Novelty, a commonly used diversity metric, and find that Curiosity can generate higher diversity over full episodes without the need for an explicit diversity criterion and lead to multiple policies which find reward.
translated by 谷歌翻译
在过去的几年中,深层神经进化和深厚的增强学习受到了很多关注。一些作品比较了它们,突出了他们的利弊,但是新兴趋势在于结合起来,从而从两全其美的世界中受益。在本文中,我们通过将文献组织成相关的作品组,并将每个组中的所有现有组合都组织成一个通用框架,从而对这种新兴趋势进行了调查。我们系统地涵盖了所有易于使用的论文,无论其出版状态如何,重点是组合机制,而不是实验结果。总的来说,我们总共涵盖了45种算法比2017年更新。我们希望这项工作将通过促进对方法之间的关系的理解,从而有利于该领域的增长,从而导致更深入的分析,概述缺失有用的比较并提出新机制的新组合。
translated by 谷歌翻译
大自然的一个迷人方面在于它能够产生大型和多样化的生物体,这些生物都在他们的利基中都很高兴。相比之下,大多数AI算法专注于向给定问题找到一个有效的解决方案。除了表现外,旨在实现多样性是处理勘探开发权衡的便捷方式,在学习中发挥着核心作用。当返回的集合包含对所考虑的问题的几个工作解决方案时,它还允许增加鲁棒性,使其适用于机器人等真实应用。质量 - 多样性(QD)方法是为此目的设计的进化算法。本文提出了一种新颖的QD - PG,它结合了政策梯度算法的强度和质量多样性方法,在连续控制环境中产生了各种和高性能的神经政策的集合。这项工作的主要贡献是引入多样性政策梯度(DPG),该梯度(DPG)利用时刻级别的信息以采样有效的方式培养更多样化的策略。具体而言,QD-PG从地图 - E LITES网格中选择神经控制器,并使用两个基于梯度的突变运算符来提高质量和多样性,从而产生稳定的人口更新。我们的结果表明,QD - PG产生了各种解决方案的集合,解决了具有挑战性的勘探和控制问题,同时是比其进化竞争对手更高的样本效率的两个数量级。
translated by 谷歌翻译
在稀疏的奖励设置学习最优策略是困难的,因为学习代理人也鲜有其行动的质量没有反馈。在这些情况下,一个好的策略是专注于探索,希望能导致回报信号,以改善的发现。一个能够处理这种设置的学习算法必须能够(1)探讨可能的代理行为和(2)利用任何可能发现的奖励。高效勘探算法已经被提出,需要在被称为是一个值得探讨的空间中定义一个行为空间,即联营公司代理其产生的行为。需要定义这个空间是这些算法的限制。在这项工作中,我们介绍了STAX,旨在学习上的即时行为空间,并探索它的同时有效地优化发现任何报酬的算法。它通过分离的探索,并通过交替的两步过程中从奖励的剥削行为空间的学习这样做。在第一步骤中,建立STAX多样化策略的所有组成成分,同时学习策略评估过程中产生的高维观测值的低维表示。在开发步骤中,发射器用于优化发现有价值的解决方案的性能。在三个不同的稀疏奖励的环境进行的实验显示,STAX执行同等于现有基准,同时要求有关任务的要少得多的先验信息,因为它建立自主的行为空间。
translated by 谷歌翻译
最近,我们强调了一个基本问题,该问题被认为是混淆算法优化的,即\ textit {Confing}与目标函数的目标。即使前者的定义很好,后者也可能并不明显,例如,在学习一种策略来导航迷宫以找到目标(客观)时,有效的目标函数\ textit {评估}策略可能不是一个简单的功能到目标的距离。我们建议自动化可能发现良好的目标功能的手段 - 此处得到的建议。我们提出\ textbf {s} iolution \ textbf {a} nd \ textbf {f} itness \ textbf {e} volution(\ textbf {safe}),a \ textit {comensalistic} coovolutionary algorithm候选解决方案和一系列候选目标功能。作为此概念原理的证明,我们表明安全不仅成功地发展了机器人迷宫领域内的解决方案,而且还可以在进化过程中衡量解决方案质量所需的目标函数。
translated by 谷歌翻译
在这项工作中,我们考虑了视频游戏水平的程序内容生成问题。先前的方法依赖于能够生成不同级别的进化搜索方法,但是这一代过程很慢,这在实时设置中是有问题的。还提出了加强学习(RL)来解决相同的问题,尽管水平生成很快,但训练时间可能非常昂贵。我们提出了一个框架,以解决结合ES和RL的过程内容生成问题。特别是,我们的方法首先使用ES来生成一系列级别,然后使用行为克隆将这些级别的级别分配到策略中,然后可以查询该级别以快速产生新的水平。我们将方法应用于迷宫游戏和Super Mario Bros,结果表明我们的方法实际上会减少水平生成所需的时间,尤其是在需要越来越多的有效水平时。
translated by 谷歌翻译
参数适应性,即根据面临的问题自动调整算法的超参数的能力,是应用于数值优化的进化计算的主要趋势之一。多年来,已经提出了一些手工制作的适应政策来解决这个问题,但到目前为止,在应用机器学习以学习此类政策时,只有很少的尝试。在这里,我们介绍了一个通用框架,用于基于最新的增强学习算法在连续域元启发术中进行参数适应。我们证明了该框架在两种算法上的适用性,即协方差矩阵适应性进化策略(CMA-ES)和差异演化(DE),我们分别学习,我们分别学习了对阶梯大小(CMA-ES),CMA-ES的适应性策略,以及比例因子和交叉率(DE)。我们在不同维度的一组46个基准函数上训练这些策略,在两个设置中具有各种策略的投入:每个功能的一个策略,以及所有功能的全局策略。将分别与累积的阶梯尺寸适应(CSA)策略和两个众所周知的自适应DE变体(IDE和JDE)进行了比较,我们的政策能够在大多数情况下产生竞争成果,尤其是在DE的情况下。
translated by 谷歌翻译
进化算法的主要问题之一是人口与局部最小值的收敛。在本文中,我们探讨了可以通过共同的奖励系统鼓励代理商的各种行为来避免此问题的技术。奖励是随机分配在环境中的,而代理只因首先收集它们而获得奖励。这导致了代理人的新型行为的出现。我们介绍了有关迷宫问题的方法,并将其与先前提出的解决方案进行比较,该解决方案被称为新颖搜索(Lehman和Stanley,2011a)。我们发现我们的解决方案会导致性能改善,同时显着简单。在此基础上,我们将问题概括,并将方法应用于Atari游戏的一组更高级的任务集,在那里我们观察到类似的性能质量,所需的计算能力要少得多。
translated by 谷歌翻译
野火是一种高度普遍的多毒环境现象。这种现象的影响包括人类损失,环境破坏和高昂的经济成本。为了减轻这些效果,已经开发了几个计算机模拟系统,以根据一组输入参数预测火灾行为,也称为场景(风速和方向;温度;等)。但是,由于未知的变量值的不确定性,模拟的结果通常具有高度的误差,因为它们尚不清楚,或者由于其测量可能是不精确,错误或无法实时执行的。先前的工作提出了多种结果的组合,以减少这种不确定性。最先进的方法基于并行优化策略,该策略使用健身函数来指导所有可能场景之间的搜索。尽管这些方法显示了预测质量的改善,但它们具有与用于选择场景的算法有关的一些局限性。为了克服这些局限性,在这项工作中,我们建议应用新颖性搜索范式,该范围取代了目标函数的量度,以衡量所找到的解决方案的新颖性,这使搜索可以与彼此不同的行为不断生成解决方案。这种方法避免了本地Optima,并且可能能够找到有用的解决方案,而其他算法很难或无法找到。与现有方法一样,该提案也可以适用于其他传播模型(洪水,雪崩或滑坡)。
translated by 谷歌翻译
自从各种任务的自动化开始以来,自动驾驶车辆一直引起人们的兴趣。人类容易疲惫,在道路上的响应时间缓慢,最重要的是,每年约有135万道路交通事故死亡,这已经是一项危险的任务。预计自动驾驶可以减少世界上驾驶事故的数量,这就是为什么这个问题对研究人员感兴趣的原因。目前,自动驾驶汽车在使车辆自动驾驶时使用不同的算法来实现各种子问题。我们将重点关注增强学习算法,更具体地说是Q学习算法和增强拓扑的神经进化(NEAT),即进化算法和人工神经网络的组合,以训练模型代理,以学习如何在给定路径上驱动。本文将重点介绍上述两种算法之间的比较。
translated by 谷歌翻译
强化学习和最近的深度增强学习是解决如Markov决策过程建模的顺序决策问题的流行方法。问题和选择算法和超参数的RL建模需要仔细考虑,因为不同的配置可能需要完全不同的性能。这些考虑因素主要是RL专家的任务;然而,RL在研究人员和系统设计师不是RL专家的其他领域中逐渐变得流行。此外,许多建模决策,例如定义状态和动作空间,批次的大小和批量更新的频率以及时间戳的数量通常是手动进行的。由于这些原因,RL框架的自动化不同组成部分具有重要意义,近年来它引起了很多关注。自动RL提供了一个框架,其中RL的不同组件包括MDP建模,算法选择和超参数优化是自动建模和定义的。在本文中,我们探讨了可以在自动化RL中使用的文献和目前的工作。此外,我们讨论了Autorl中的挑战,打开问题和研究方向。
translated by 谷歌翻译
基准套件提供了对进化算法解决问题能力的有用度量,但是组成问题通常太复杂了,无法清洁算法的优势和劣势。在这里,我们介绍了基准套件档案(``进化运行中的选择方案的诊断概述''),以实证分析有关剥削和探索重要方面的选择方案。利用从根本上是攀岩,但我们考虑两种情况:纯剥削,可以独立优化表示形式中的每个位置,并且受到限制的利用,在该位置之间,由于位置之间的相互作用,向上进展更加有限。当优化路径不太清楚时,需要探索;我们认为能够遵循多个独立的爬山途径和跨健身山谷的能力。这些场景的每种组合都会产生独特的适应性景观,有助于表征与给定选择方案相关的进化动力学。我们分析了六个流行的选择方案。锦标赛的选择和截断选择都在剥削指标方面表现出色,但在需要探索时表现不佳;相反,新颖的搜索在探索方面表现出色,但未能利用梯度。在克服欺骗时,健身共享表现良好,但在所有其他诊断方面都很差。非主导的分类是维持由居住在多个Optima居住的个体组成的不同人群的最佳选择,但努力有效利用梯度。词汇酶选择平衡搜索空间探索而不牺牲剥削,通常在诊断方面表现良好。我们的工作证明了诊断对快速建立对选择方案特征的直观理解的价值,然后可以将其用于改进或开发新的选择方法。
translated by 谷歌翻译
演员 - 评论家(AC)算法以求解钢筋学习问题而闻名,但它们也遭受了低采样效率。基于AC的策略优化过程是迭代的,并且需要经常访问代理环境系统来通过推出策略,收集奖励和状态(即样本)来评估和更新策略,并从中学习。它最终需要大量的样本来学习最佳政策。为了提高采样效率,我们提出了一种策略来优化培训数据集,该数据集含有从AC过程中收集的显着较少的样本。数据集优化由仅限最佳剧集操作,策略参数 - 健身模型和遗传算法模块。与控制自主动态系统的许多当代AC算法相比,由优化的训练数据集训练的最佳策略网络表现出优越的性能。标准基准测试的评估表明,该方法提高了采样效率,可确保更快地收敛到Optima,并且比其对应物更具数据效率。
translated by 谷歌翻译
机器学习算法中多个超参数的最佳设置是发出大多数可用数据的关键。为此目的,已经提出了几种方法,例如进化策略,随机搜索,贝叶斯优化和启发式拇指规则。在钢筋学习(RL)中,学习代理在与其环境交互时收集的数据的信息内容严重依赖于许多超参数的设置。因此,RL算法的用户必须依赖于基于搜索的优化方法,例如网格搜索或Nelder-Mead单简单算法,这对于大多数R1任务来说是非常效率的,显着减慢学习曲线和离开用户的速度有目的地偏见数据收集的负担。在这项工作中,为了使RL算法更加用户独立,提出了一种使用贝叶斯优化的自主超参数设置的新方法。来自过去剧集和不同的超参数值的数据通过执行行为克隆在元学习水平上使用,这有助于提高最大化获取功能的加强学习变体的有效性。此外,通过紧密地整合在加强学习代理设计中的贝叶斯优化,还减少了收敛到给定任务的最佳策略所需的状态转换的数量。与其他手动调整和基于优化的方法相比,计算实验显示了有希望的结果,这突出了改变算法超级参数来增加所生成数据的信息内容的好处。
translated by 谷歌翻译
最近已结合了进化算法(EAS)和深度加强学习(DRL)以集成两个解决方案的优势以获得更好的政策学习。然而,在现有的混合方法中,EA用于直接培训策略网络,这将导致对政策绩效的样本效率和不可预测的影响。为了更好地整合这两种方法并避免引入EA引起的缺点,我们致力于设计更有效和合理的结合EA和DRL的方法。在本文中,我们提出了进化行动选择 - 双胞胎延迟深度确定性政策梯度(EAS-TD3),是EA和DRL的新组合。在EAS中,我们专注于优化策略网络选择的动作,并尝试通过进化算法来指导策略学习的高质量行动。我们对挑战的连续控制任务进行了几个实验。结果表明,EAS-TD3在其他最先进的方法中显示出优异的性能。
translated by 谷歌翻译
在过去的十年中,深入的强化学习(DRL)算法已经越来越多地使用,以解决各种决策问题,例如自动驾驶和机器人技术。但是,这些算法在部署在安全至关重要的环境中时面临着巨大的挑战,因为它们经常表现出错误的行为,可能导致潜在的关键错误。评估DRL代理的安全性的一种方法是测试它们,以检测可能导致执行过程中严重失败的故障。这就提出了一个问题,即我们如何有效测试DRL政策以确保其正确性和遵守安全要求。测试DRL代理的大多数现有作品都使用扰动代理的对抗性攻击。但是,这种攻击通常会导致环境的不切实际状态。他们的主要目标是测试DRL代理的鲁棒性,而不是测试代理商在要求方面的合规性。由于DRL环境的巨大状态空间,测试执行的高成本以及DRL算法的黑盒性质,因此不可能对DRL代理进行详尽的测试。在本文中,我们提出了一种基于搜索的强化学习代理(Starla)的测试方法,以通过有效地在有限的测试预算中寻找无法执行的代理执行,以测试DRL代理的策略。我们使用机器学习模型和专用的遗传算法来缩小搜索错误的搜索。我们将Starla应用于深Q学习剂,该Qualla被广泛用作基准测试,并表明它通过检测到与代理商策略相关的更多故障来大大优于随机测试。我们还研究了如何使用我们的搜索结果提取表征DRL代理的错误事件的规则。这些规则可用于了解代理失败的条件,从而评估其部署风险。
translated by 谷歌翻译
尽管将进化计算整合到增强学习中的新进展,但缺乏高性能平台可赋予合成性和大规模的并行性,这对与异步商业游戏相关的研究和应用造成了非平凡的困难。在这里,我们介绍了Lamarckian-一个开源平台,其支持进化增强学习可扩展到分布式计算资源的支持。为了提高训练速度和数据效率,拉马克人采用了优化的通信方法和异步进化增强学习工作流程。为了满足商业游戏和各种方法对异步界面的需求,Lamarckian量身定制了异步的马尔可夫决策过程界面,并设计了带有脱钩模块的面向对象的软件体系结构。与最先进的RLLIB相比,我们从经验上证明了Lamarckian在基准测试中具有多达6000 CPU核心的独特优势:i)i)在Google足球游戏上运行PPO时,采样效率和训练速度都翻了一番; ii)在乒乓球比赛中运行PBT+PPO时,训练速度的速度快13倍。此外,我们还提出了两种用例:i)如何将拉马克安应用于生成行为多样性游戏AI; ii)Lamarckian如何应用于游戏平衡测试的异步商业游戏。
translated by 谷歌翻译
深入学习的强化学习(RL)的结合导致了一系列令人印象深刻的壮举,许多相信(深)RL提供了一般能力的代理。然而,RL代理商的成功往往对培训过程中的设计选择非常敏感,这可能需要繁琐和易于易于的手动调整。这使得利用RL对新问题充满挑战,同时也限制了其全部潜力。在许多其他机器学习领域,AutomL已经示出了可以自动化这样的设计选择,并且在应用于RL时也会产生有希望的初始结果。然而,自动化强化学习(AutorL)不仅涉及Automl的标准应用,而且还包括RL独特的额外挑战,其自然地产生了不同的方法。因此,Autorl已成为RL中的一个重要研究领域,提供来自RNA设计的各种应用中的承诺,以便玩游戏等游戏。鉴于RL中考虑的方法和环境的多样性,在不同的子领域进行了大部分研究,从Meta学习到进化。在这项调查中,我们寻求统一自动的领域,我们提供常见的分类法,详细讨论每个区域并对研究人员来说是一个兴趣的开放问题。
translated by 谷歌翻译