进化算法的主要问题之一是人口与局部最小值的收敛。在本文中,我们探讨了可以通过共同的奖励系统鼓励代理商的各种行为来避免此问题的技术。奖励是随机分配在环境中的,而代理只因首先收集它们而获得奖励。这导致了代理人的新型行为的出现。我们介绍了有关迷宫问题的方法,并将其与先前提出的解决方案进行比较,该解决方案被称为新颖搜索(Lehman和Stanley,2011a)。我们发现我们的解决方案会导致性能改善,同时显着简单。在此基础上,我们将问题概括,并将方法应用于Atari游戏的一组更高级的任务集,在那里我们观察到类似的性能质量,所需的计算能力要少得多。
translated by 谷歌翻译
When searching for policies, reward-sparse environments often lack sufficient information about which behaviors to improve upon or avoid. In such environments, the policy search process is bound to blindly search for reward-yielding transitions and no early reward can bias this search in one direction or another. A way to overcome this is to use intrinsic motivation in order to explore new transitions until a reward is found. In this work, we use a recently proposed definition of intrinsic motivation, Curiosity, in an evolutionary policy search method. We propose Curiosity-ES, an evolutionary strategy adapted to use Curiosity as a fitness metric. We compare Curiosity with Novelty, a commonly used diversity metric, and find that Curiosity can generate higher diversity over full episodes without the need for an explicit diversity criterion and lead to multiple policies which find reward.
translated by 谷歌翻译
进化计算(EC)已被证明能够快速训练深人造神经网络(DNNS)来解决增强学习(RL)问题。虽然遗传算法(GA)非常适合利用既不具有欺骗性也不稀疏的奖励功能,但当奖励函数是这些功能时,它会挣扎。为此,在某些情况下,新颖的搜索(NS)已被证明能够超越梯度跟随优化器,而在其他情况下则表现不佳。我们提出了一种新算法:探索 - 探索$ \ gamma $ - 适应学习者($ e^2 \ gamma al $或eyal)。通过保留动态大小的寻求新颖的代理商的利基市场,该算法可以维持人口多样性,并在可能的情况下利用奖励信号并探索其他奖励信号。该算法将GA的剥削能力和NS的勘探能力结合在一起,同时保持其简单性和优雅性。我们的实验表明,在大多数情况下,Eyal在与GA相当的情况下都胜过NS - 在某些情况下,它可以均优于两者。 Eyal还允许用其他算法(例如演化策略和惊喜搜索)代替利用组件(GA)和探索组件(NS)(NS),从而为未来的研究打开了大门。
translated by 谷歌翻译
最近,我们强调了一个基本问题,该问题被认为是混淆算法优化的,即\ textit {Confing}与目标函数的目标。即使前者的定义很好,后者也可能并不明显,例如,在学习一种策略来导航迷宫以找到目标(客观)时,有效的目标函数\ textit {评估}策略可能不是一个简单的功能到目标的距离。我们建议自动化可能发现良好的目标功能的手段 - 此处得到的建议。我们提出\ textbf {s} iolution \ textbf {a} nd \ textbf {f} itness \ textbf {e} volution(\ textbf {safe}),a \ textit {comensalistic} coovolutionary algorithm候选解决方案和一系列候选目标功能。作为此概念原理的证明,我们表明安全不仅成功地发展了机器人迷宫领域内的解决方案,而且还可以在进化过程中衡量解决方案质量所需的目标函数。
translated by 谷歌翻译
最近被证明在强化学习(RL)设置中显示出的神经形式非常竞争,并且能够减轻基于梯度的方法的一些缺点。本文将专注于使用简单的遗传算法(GA)来应用神经发展,以找到产生最佳表现代理的神经网络的权重。此外,我们提出了两种新颖的修改,以提高与初始实施相比的数据效率和收敛速度。在Openai健身房提供的汇聚环境中评估了修改,并证明明显优于基线方法。
translated by 谷歌翻译
为了协助游戏开发人员制作游戏NPC,我们展示了EvolvingBehavior,这是一种新颖的工具,用于基因编程,以在不真实的引擎4中发展行为树4.在初步评估中,我们将演变的行为与我们的研究人员设计的手工制作的树木和随机的树木进行了比较 - 在3D生存游戏中种植的树木。我们发现,在这种情况下,EvolvingBehavior能够产生行为,以实现设计师的目标。最后,我们讨论了共同创造游戏AI设计工具的探索的含义和未来途径,以及行为树进化的挑战和困难。
translated by 谷歌翻译
大自然的一个迷人方面在于它能够产生大型和多样化的生物体,这些生物都在他们的利基中都很高兴。相比之下,大多数AI算法专注于向给定问题找到一个有效的解决方案。除了表现外,旨在实现多样性是处理勘探开发权衡的便捷方式,在学习中发挥着核心作用。当返回的集合包含对所考虑的问题的几个工作解决方案时,它还允许增加鲁棒性,使其适用于机器人等真实应用。质量 - 多样性(QD)方法是为此目的设计的进化算法。本文提出了一种新颖的QD - PG,它结合了政策梯度算法的强度和质量多样性方法,在连续控制环境中产生了各种和高性能的神经政策的集合。这项工作的主要贡献是引入多样性政策梯度(DPG),该梯度(DPG)利用时刻级别的信息以采样有效的方式培养更多样化的策略。具体而言,QD-PG从地图 - E LITES网格中选择神经控制器,并使用两个基于梯度的突变运算符来提高质量和多样性,从而产生稳定的人口更新。我们的结果表明,QD - PG产生了各种解决方案的集合,解决了具有挑战性的勘探和控制问题,同时是比其进化竞争对手更高的样本效率的两个数量级。
translated by 谷歌翻译
We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose input is raw pixels and whose output is a value function estimating future rewards. We apply our method to seven Atari 2600 games from the Arcade Learning Environment, with no adjustment of the architecture or learning algorithm. We find that it outperforms all previous approaches on six of the games and surpasses a human expert on three of them.
translated by 谷歌翻译
In many real-world scenarios, rewards extrinsic to the agent are extremely sparse, or absent altogether. In such cases, curiosity can serve as an intrinsic reward signal to enable the agent to explore its environment and learn skills that might be useful later in its life. We formulate curiosity as the error in an agent's ability to predict the consequence of its own actions in a visual feature space learned by a self-supervised inverse dynamics model. Our formulation scales to high-dimensional continuous state spaces like images, bypasses the difficulties of directly predicting pixels, and, critically, ignores the aspects of the environment that cannot affect the agent. The proposed approach is evaluated in two environments: VizDoom and Super Mario Bros. Three broad settings are investigated: 1) sparse extrinsic reward, where curiosity allows for far fewer interactions with the environment to reach the goal; 2) exploration with no extrinsic reward, where curiosity pushes the agent to explore more efficiently; and 3) generalization to unseen scenarios (e.g. new levels of the same game) where the knowledge gained from earlier experience helps the agent explore new places much faster than starting from scratch.
translated by 谷歌翻译
自从各种任务的自动化开始以来,自动驾驶车辆一直引起人们的兴趣。人类容易疲惫,在道路上的响应时间缓慢,最重要的是,每年约有135万道路交通事故死亡,这已经是一项危险的任务。预计自动驾驶可以减少世界上驾驶事故的数量,这就是为什么这个问题对研究人员感兴趣的原因。目前,自动驾驶汽车在使车辆自动驾驶时使用不同的算法来实现各种子问题。我们将重点关注增强学习算法,更具体地说是Q学习算法和增强拓扑的神经进化(NEAT),即进化算法和人工神经网络的组合,以训练模型代理,以学习如何在给定路径上驱动。本文将重点介绍上述两种算法之间的比较。
translated by 谷歌翻译
在生存的背景下,可以单独繁殖在我们的机器中产生智力吗?在这项工作中,自我复制是在现代学习环境中出现智能行为的一种机制。通过纯粹专注于生存,在进行自然选择的同时,进化的生物被证明会产生有意义的,复杂和聪明的行为,从而在没有任何奖励或目标概念的情况下向挑战性问题展示了创造性的解决方案。Atari和机器人学习环境是根据自然选择重新定义的,在这些实验过程中自我复制生物中出现的行为进行了详细描述。
translated by 谷歌翻译
基于搜索的程序内容生成(PCG)是一种众所周知的方法,用于游戏中的水平生成。它的主要优势是它是通用且能够满足功能约束的能力。但是,由于在线运行这些算法的大量计算成本,因此很少将基于搜索的PCG用于实时生成。在本文中,我们使用机器学习介绍了一种新型的迭代级生成器。我们训练模型以模仿进化过程,并使用模型生成水平。该训练有素的模型能够顺序修改嘈杂的水平,以创建更好的水平,而无需在推理过程中使用健身函数。我们在2D迷宫生成任务上评估了训练有素的模型。我们比较了该方法的几个不同版本:在进化结束时训练模型或每100代(辅助进化),并在进化过程中使用模型作为突变函数。使用辅助进化过程,最终训练的模型能够以99%的成功率产生迷宫,高度多样性为86%。这项工作为以进化过程为指导的一种新的学习水平生成器打开了大门,并可能会增加游戏行业中基于搜索的PCG的采用。
translated by 谷歌翻译
深入学习的强化学习(RL)的结合导致了一系列令人印象深刻的壮举,许多相信(深)RL提供了一般能力的代理。然而,RL代理商的成功往往对培训过程中的设计选择非常敏感,这可能需要繁琐和易于易于的手动调整。这使得利用RL对新问题充满挑战,同时也限制了其全部潜力。在许多其他机器学习领域,AutomL已经示出了可以自动化这样的设计选择,并且在应用于RL时也会产生有希望的初始结果。然而,自动化强化学习(AutorL)不仅涉及Automl的标准应用,而且还包括RL独特的额外挑战,其自然地产生了不同的方法。因此,Autorl已成为RL中的一个重要研究领域,提供来自RNA设计的各种应用中的承诺,以便玩游戏等游戏。鉴于RL中考虑的方法和环境的多样性,在不同的子领域进行了大部分研究,从Meta学习到进化。在这项调查中,我们寻求统一自动的领域,我们提供常见的分类法,详细讨论每个区域并对研究人员来说是一个兴趣的开放问题。
translated by 谷歌翻译
在这项工作中,我们考虑了视频游戏水平的程序内容生成问题。先前的方法依赖于能够生成不同级别的进化搜索方法,但是这一代过程很慢,这在实时设置中是有问题的。还提出了加强学习(RL)来解决相同的问题,尽管水平生成很快,但训练时间可能非常昂贵。我们提出了一个框架,以解决结合ES和RL的过程内容生成问题。特别是,我们的方法首先使用ES来生成一系列级别,然后使用行为克隆将这些级别的级别分配到策略中,然后可以查询该级别以快速产生新的水平。我们将方法应用于迷宫游戏和Super Mario Bros,结果表明我们的方法实际上会减少水平生成所需的时间,尤其是在需要越来越多的有效水平时。
translated by 谷歌翻译
我们在具有挑战性的3D视频游戏中处理规划和导航,其中包含使用特殊操作的代理商的断开区域的地图。在此设置中,经典符号规划者不适用或难以适应。我们介绍了一种混合技术,结合了培训的钢筋学习训练的低级政策和基于图的高级古典规划器。除了提供人类可解释的路径之外,该方法还提高了看不见地图中的端到端方法的泛化性能,在那里它在一点上通过复发端到端剂的成功率达到20%的绝对增加要点导航任务,但看不见的大型码1km x 1km。在深入的实验研究中,我们量化了巨大环境中端到端深度RL方法的局限性,我们还介绍了一个新的基准,即很快被释放的环境,可以生成用于导航任务的复杂程序3D地图。
translated by 谷歌翻译
Imitation learning techniques aim to mimic human behavior in a given task. An agent (a learning machine) is trained to perform a task from demonstrations by learning a mapping between observations and actions. The idea of teaching by imitation has been around for many years, however, the field is gaining attention recently due to advances in computing and sensing as well as rising demand for intelligent applications. The paradigm of learning by imitation is gaining popularity because it facilitates teaching complex tasks with minimal expert knowledge of the tasks. Generic imitation learning methods could potentially reduce the problem of teaching a task to that of providing demonstrations; without the need for explicit programming or designing reward functions specific to the task. Modern sensors are able to collect and transmit high volumes of data rapidly, and processors with high computational power allow fast processing that maps the sensory data to actions in a timely manner. This opens the door for many potential AI applications that require real-time perception and reaction such as humanoid robots, self-driving vehicles, human computer interaction and computer games to name a few. However, specialized algorithms are needed to effectively and robustly learn models as learning by imitation poses its own set of challenges. In this paper, we survey imitation learning methods and present design options in different steps of the learning process. We introduce a background and motivation for the field as well as highlight challenges specific to the imitation problem. Methods for designing and evaluating imitation learning tasks are categorized and reviewed. Special attention is given to learning methods in robotics and games as these domains are the most popular in the literature and provide a wide array of problems and methodologies. We extensively discuss combining imitation learning approaches using different sources and methods, as well as incorporating other motion learning methods to enhance imitation. We also discuss the potential impact on industry, present major applications and highlight current and future research directions.
translated by 谷歌翻译
自动适应玩家的游戏内容打开新的游戏开发门。在本文中,我们提出了一种使用人物代理和经验指标的架构,这使得能够在进行针对特定玩家人物的程序生成的水平。使用我们的游戏“Grave Rave”,我们证明了这种方法成功地适应了三个不同的三种不同体验指标的基于法则的角色代理。此外,该适应性被证明是特定的,这意味着水平是人的意识,而不仅仅是关于所选度量的一般优化。
translated by 谷歌翻译
本文介绍了一种“混合自我注意整洁”方法,以改善高维输入中增强拓扑(整洁)算法的原始神经发展。虽然整洁的算法显示出在不同具有挑战性的任务中的显着结果,但由于输入表示是高维度,但它无法创建一个良好的调谐网络。我们的研究通过使用自我关注作为间接编码方法来解决此限制,以选择输入的最重要部分。此外,我们在混合方法的帮助下提高了整体性能,以发展最终网络权重。主要结论是混合自我关注整洁可以消除原始整洁的限制。结果表明,与进化算法相比,我们的模型可以在ATARI游戏中获得与原始像素输入的可比分数,其中参数数量较少。
translated by 谷歌翻译
We introduce Procgen Benchmark, a suite of 16 procedurally generated game-like environments designed to benchmark both sample efficiency and generalization in reinforcement learning. We believe that the community will benefit from increased access to high quality training environments, and we provide detailed experimental protocols for using this benchmark. We empirically demonstrate that diverse environment distributions are essential to adequately train and evaluate RL agents, thereby motivating the extensive use of procedural content generation. We then use this benchmark to investigate the effects of scaling model size, finding that larger models significantly improve both sample efficiency and generalization.
translated by 谷歌翻译