基于搜索的程序内容生成(PCG)是一种众所周知的方法,用于游戏中的水平生成。它的主要优势是它是通用且能够满足功能约束的能力。但是,由于在线运行这些算法的大量计算成本,因此很少将基于搜索的PCG用于实时生成。在本文中,我们使用机器学习介绍了一种新型的迭代级生成器。我们训练模型以模仿进化过程,并使用模型生成水平。该训练有素的模型能够顺序修改嘈杂的水平,以创建更好的水平,而无需在推理过程中使用健身函数。我们在2D迷宫生成任务上评估了训练有素的模型。我们比较了该方法的几个不同版本:在进化结束时训练模型或每100代(辅助进化),并在进化过程中使用模型作为突变函数。使用辅助进化过程,最终训练的模型能够以99%的成功率产生迷宫,高度多样性为86%。这项工作为以进化过程为指导的一种新的学习水平生成器打开了大门,并可能会增加游戏行业中基于搜索的PCG的采用。
translated by 谷歌翻译
通过强化学习(PCGRL)的程序性内容生成(PCGRL)已经预言了对大型人为实现的数据集的需求,并允许代理使用可计算的,用户定义的质量衡量标准,而不是目标输出。我们探讨了PCGRL在3D域中的应用,其中内容生成任务自然具有更大的复杂性和与现实世界应用的潜在相关性。在这里,我们介绍了3D域的几个PCGRL任务,Minecraft(Mojang Studios,2009年)。这些任务将使用经常在3D环境中发现的负担来挑战基于RL的发电机,例如跳跃,多维运动和重力。我们培训代理商以优化这些任务中的每一个,以探索PCGRL先前研究的功能。该代理能够生成相对复杂和不同的级别,并推广到随机的初始状态和控制目标。提出的任务中的可控性测试证明了他们分析3D发电机成功和失败的实用性。
translated by 谷歌翻译
在这项工作中,我们考虑了视频游戏水平的程序内容生成问题。先前的方法依赖于能够生成不同级别的进化搜索方法,但是这一代过程很慢,这在实时设置中是有问题的。还提出了加强学习(RL)来解决相同的问题,尽管水平生成很快,但训练时间可能非常昂贵。我们提出了一个框架,以解决结合ES和RL的过程内容生成问题。特别是,我们的方法首先使用ES来生成一系列级别,然后使用行为克隆将这些级别的级别分配到策略中,然后可以查询该级别以快速产生新的水平。我们将方法应用于迷宫游戏和Super Mario Bros,结果表明我们的方法实际上会减少水平生成所需的时间,尤其是在需要越来越多的有效水平时。
translated by 谷歌翻译
自从各种任务的自动化开始以来,自动驾驶车辆一直引起人们的兴趣。人类容易疲惫,在道路上的响应时间缓慢,最重要的是,每年约有135万道路交通事故死亡,这已经是一项危险的任务。预计自动驾驶可以减少世界上驾驶事故的数量,这就是为什么这个问题对研究人员感兴趣的原因。目前,自动驾驶汽车在使车辆自动驾驶时使用不同的算法来实现各种子问题。我们将重点关注增强学习算法,更具体地说是Q学习算法和增强拓扑的神经进化(NEAT),即进化算法和人工神经网络的组合,以训练模型代理,以学习如何在给定路径上驱动。本文将重点介绍上述两种算法之间的比较。
translated by 谷歌翻译
参数适应性,即根据面临的问题自动调整算法的超参数的能力,是应用于数值优化的进化计算的主要趋势之一。多年来,已经提出了一些手工制作的适应政策来解决这个问题,但到目前为止,在应用机器学习以学习此类政策时,只有很少的尝试。在这里,我们介绍了一个通用框架,用于基于最新的增强学习算法在连续域元启发术中进行参数适应。我们证明了该框架在两种算法上的适用性,即协方差矩阵适应性进化策略(CMA-ES)和差异演化(DE),我们分别学习,我们分别学习了对阶梯大小(CMA-ES),CMA-ES的适应性策略,以及比例因子和交叉率(DE)。我们在不同维度的一组46个基准函数上训练这些策略,在两个设置中具有各种策略的投入:每个功能的一个策略,以及所有功能的全局策略。将分别与累积的阶梯尺寸适应(CSA)策略和两个众所周知的自适应DE变体(IDE和JDE)进行了比较,我们的政策能够在大多数情况下产生竞争成果,尤其是在DE的情况下。
translated by 谷歌翻译
本文介绍了一种全自动的机械照明方法,以实现一般视频游戏水平的生成。使用受约束的MAP-ELITE算法和GVG-AI框架,该系统生成了最简单的基于图块的级别,该级别包含特定的游戏机制集并满足可玩性约束。我们将这种方法应用于GVG-AI的$ 4 $不同游戏的机械空间:Zelda,Solarfox,Plants和eartortals。
translated by 谷歌翻译
最近被证明在强化学习(RL)设置中显示出的神经形式非常竞争,并且能够减轻基于梯度的方法的一些缺点。本文将专注于使用简单的遗传算法(GA)来应用神经发展,以找到产生最佳表现代理的神经网络的权重。此外,我们提出了两种新颖的修改,以提高与初始实施相比的数据效率和收敛速度。在Openai健身房提供的汇聚环境中评估了修改,并证明明显优于基线方法。
translated by 谷歌翻译
复杂的推理问题包含确定良好行动计划所需的计算成本各不相同的状态。利用此属性,我们提出了自适应亚go搜索(ADASUBS),这是一种适应性地调整计划范围的搜索方法。为此,ADASUBS在不同距离上产生了不同的子目标。采用验证机制来迅速滤除无法到达的子目标,从而使人专注于可行的进一步子目标。通过这种方式,ADASUBS受益于计划的效率更长的子目标,以及对较短的计划的良好控制。我们表明,ADASUB在三个复杂的推理任务上大大超过了层次规划算法:Sokoban,The Rubik的Cube和不平等现象证明了基准INT,为INT设定了新的最先进。
translated by 谷歌翻译
强化学习和最近的深度增强学习是解决如Markov决策过程建模的顺序决策问题的流行方法。问题和选择算法和超参数的RL建模需要仔细考虑,因为不同的配置可能需要完全不同的性能。这些考虑因素主要是RL专家的任务;然而,RL在研究人员和系统设计师不是RL专家的其他领域中逐渐变得流行。此外,许多建模决策,例如定义状态和动作空间,批次的大小和批量更新的频率以及时间戳的数量通常是手动进行的。由于这些原因,RL框架的自动化不同组成部分具有重要意义,近年来它引起了很多关注。自动RL提供了一个框架,其中RL的不同组件包括MDP建模,算法选择和超参数优化是自动建模和定义的。在本文中,我们探讨了可以在自动化RL中使用的文献和目前的工作。此外,我们讨论了Autorl中的挑战,打开问题和研究方向。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
自动适应玩家的游戏内容打开新的游戏开发门。在本文中,我们提出了一种使用人物代理和经验指标的架构,这使得能够在进行针对特定玩家人物的程序生成的水平。使用我们的游戏“Grave Rave”,我们证明了这种方法成功地适应了三个不同的三种不同体验指标的基于法则的角色代理。此外,该适应性被证明是特定的,这意味着水平是人的意识,而不仅仅是关于所选度量的一般优化。
translated by 谷歌翻译
人工智能,当与游戏进行合并时,使研究和推进领域的理想结构。多种代理游戏对每个代理具有多个控件,同时增加搜索复杂性的同时生成大量数据。因此,我们需要高级搜索方法来查找解决方案并创建人工智能代理。在本文中,我们提出了我们的小说进化蒙特卡罗树搜索(FEMCTS)代理商,借用从进化的Algorthims(EA)和Monte Carlo树搜索(MCT)的想法来玩Pommerman的比赛。它优于滚动地平线进化算法(Rhea)在高可观察性环境中显着,几乎和MCTS用于大多数游戏种子,在某些情况下表现优于它。
translated by 谷歌翻译
加强学习的最新进展(RL)已开始生产能够解决复杂环境分布的通常能力的代理。这些试剂通常在固定的,人为实现的环境上进行测试。另一方面,质量多样性(QD)优化已被证明是环境生成算法的有效组成部分,该算法可以产生多种多样的最终代理行为的高质量环境集合。但是,这些算法需要在新生成的环境上对代理的潜在昂贵模拟。我们提出了深层替代辅助生成环境(DSAGE),这是一种样本效率的QD环境生成算法,该算法保持了一个深层的替代模型,用于预测新环境中的试剂行为。结果有两个基准域,表明DSAGE明显优于现有的QD环境生成算法,这些算法在发现了引起最先进的RL代理商和计划代理的各种行为的环境集合中。
translated by 谷歌翻译
最近几十年来,已经采用了用于解决各种多主体优化问题(MOPS)的多主体进化算法(MOEAS)的显着进步。但是,这些逐渐改善的MOEAS并不一定配备了精致的可扩展和可学习的解决问题的策略,这些策略能够应对缩放型拖把带来的新的和宏伟的挑战,并不断提高各种方面的复杂性或规模,主要包括昂贵的方面,包括昂贵的方面。功能评估,许多目标,大规模搜索空间,时变环境和多任务。在不同的情况下,它需要不同的思考来设计新的强大MOEAS,以有效地解决它们。在这种情况下,对可学习的MOEAS进行的研究,以机器学习技术进行缩放的拖把,在进化计算领域受到了广泛的关注。在本文中,我们从可扩展的拖把和可学习的MOEAS的分类学开始,然后分析将拖把构成对传统MOEAS的挑战的分析。然后,我们综合概述了可学习的MOEAS的最新进展,以求解各种扩展拖把,主要集中在三个有吸引力的有前途的方向上(即,可学习的环境选择的可学习的进化鉴别器,可学习的进化生物的可学习生殖发生器,以及可学习的进化转移,用于分享或分享或分享或进行分享或可学习的转移。不同问题域之间的经验)。在本文中提供了有关可学习的MOEAS的见解,以参考该领域的努力的一般踪迹。
translated by 谷歌翻译
进化算法的主要问题之一是人口与局部最小值的收敛。在本文中,我们探讨了可以通过共同的奖励系统鼓励代理商的各种行为来避免此问题的技术。奖励是随机分配在环境中的,而代理只因首先收集它们而获得奖励。这导致了代理人的新型行为的出现。我们介绍了有关迷宫问题的方法,并将其与先前提出的解决方案进行比较,该解决方案被称为新颖搜索(Lehman和Stanley,2011a)。我们发现我们的解决方案会导致性能改善,同时显着简单。在此基础上,我们将问题概括,并将方法应用于Atari游戏的一组更高级的任务集,在那里我们观察到类似的性能质量,所需的计算能力要少得多。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
本文介绍了一种“混合自我注意整洁”方法,以改善高维输入中增强拓扑(整洁)算法的原始神经发展。虽然整洁的算法显示出在不同具有挑战性的任务中的显着结果,但由于输入表示是高维度,但它无法创建一个良好的调谐网络。我们的研究通过使用自我关注作为间接编码方法来解决此限制,以选择输入的最重要部分。此外,我们在混合方法的帮助下提高了整体性能,以发展最终网络权重。主要结论是混合自我关注整洁可以消除原始整洁的限制。结果表明,与进化算法相比,我们的模型可以在ATARI游戏中获得与原始像素输入的可比分数,其中参数数量较少。
translated by 谷歌翻译
特征选择是一个棘手的问题,因此实用算法通常折衷对计算时间解的精度。在本文中,我们提出了利用近似,或代理人的多层次的一种新型的多阶段特征选择框架。这种框架允许使用的包装在计算上更多有效的方式方法,显著增加的特征选择的解决方案的质量可以实现的,尤其是在大型数据集。我们设计和评估是一个替代辅助遗传算法(SAGA),它利用这个概念在勘探早期阶段,引导进化搜索。 SAGA只有切换到在最后开发阶段评估原有的功能。我们证明了上限SAGA替代辅助阶段的运行时间是雪上加霜等于包装GA,而且更好地扩展为实例数高位复杂性的归纳算法。我们证明,使用来自UCI ML储存部14个集,在实践中SAGA显著降低与基线相比包装遗传算法(GA)的计算时间,而汇聚成显著精度更高的解决方案。我们的实验表明,SAGA能以接近最优的解决方案不是一个包装GA快三倍到达,平均。我们还展示了旨在防止代理人误导向错误的最优进化搜索进化控制方法的重要性。
translated by 谷歌翻译
我们研究了在游戏中有效地产生高质量和多样化的内容的问题。以前的HESTETHSTONE上自动化牌照的工作表明,质量多样性算法MAP-ELITE可以生成具有不同战略游戏的高性能甲板的集合。但是,Map-Elites需要大量昂贵的评估来发现甲板的各种集合。我们建议使用在线培训的深度代理模型进行地图精英,以预测关于候选甲板的游戏结果。 Map-Elites发现了一个不同的数据集,以提高代理模型精度,而代理模型有助于指导地图精英迈向有希望的新内容。在炉石甲板德克布布布尔案例研究中,我们表明我们的方法提高了Map-Elites的样本效率,并且优于随机甲板训练的模型,以及线性代理模型基线,设置了新的最先进的自动炉石德克斯普通应用领域的质量多样性方法。
translated by 谷歌翻译
同时发展机器人的形态(体)和控制器(大脑)可能导致后代遗传体和大脑之间的不匹配。为了缓解这个问题,相对较早地提出了通过所谓的生活框架的所谓的生命框架的学习期。但是,实证评估仍缺乏迄今为止。在本文中,我们研究了这种学习机制与不同视角的影响。使用广泛的模拟,我们认为,与纯粹的进化方法相比,学习可以大大提高任务性能并减少一定适合水平所需的几代人数。此外,虽然学习只直接影响控制器,但我们证明了进化的形态也将是不同的。这提供了定量演示,即大脑的变化可以诱导体内的变化。最后,我们研究了给定体学习的能力量化的形态智力的概念。我们观察到学习三角洲,继承与学习大脑之间的性能差异,在整个进化过程中都在增长。这表明演化正在生产具有越来越多的可塑性的机器人,即连续几代变得越来越好,更好的学习者,这反过来使它们更好,在给定的任务中更好地更好。总而言之,我们的结果表明,生活的三角形不仅是理论兴趣的概念,而且是一种具有实际好处的系统架构。
translated by 谷歌翻译