将不断发展的机器人暴露在可变条件下是必要的,以获取对环境变化且可以越过现实差距的解决方案。但是,我们尚无分析和理解环境变化对进化过程的影响的方法,因此可以选择合适的变化范围。在本文中,我们介绍了一种允许我们衡量环境变化的影响的方法,并分析了变化幅度,引入它们的方式以及不断发展的剂的性能和鲁棒性之间的关系。我们的结果表明,(i)进化算法可以忍受具有很大影响的环境变化,(ii)影响代理行为的变化要比影响代理商或环境和环境的初始状态,以及环境和环境的初始状态的变化要好得多。 (iii)通过多次评估提高健身措施的准确性并不总是有用的。此外,我们的结果表明,环境变化允许生成解决方案,这些解决方案在不同的环境和不变环境中都能更好地发挥作用。
translated by 谷歌翻译
自然系统的多样性和质量一直是研究人造生活的社区的难题和灵感。现在广泛承认,使这些特性的适应机制在很大程度上受其居住环境的影响。面临环境变异性的生物具有在不同时间尺度上运行的两种替代适应机制:\ textit {可塑性},这是表型在不同环境中生存的能力,以及\ textit {EvolDobility},能够通过突变适应。尽管在环境变异性下至关重要,但两种机制都与假设在稳定环境中不必要的健身成本相关。在这项工作中,我们研究了可塑性和可变性进化模型中环境动力学与适应性之间的相互作用。我们尝试以不同类型的环境为特征,其特征是存在壁ni和确定适应性景观的气候功能。我们从经验上表明,环境动力学对可塑性和可变性的影响有所不同,并且即使在稳定的环境中,各种生态壁ches的存在也支持适应性。我们对选择机制进行消融研究,以分离基于健身的选择和利基限制竞争的作用。从我们的最低模型中获得的结果使我们能够在生物和人工系统的开放性研究中提出有前途的研究方向。
translated by 谷歌翻译
同时发展机器人的形态(体)和控制器(大脑)可能导致后代遗传体和大脑之间的不匹配。为了缓解这个问题,相对较早地提出了通过所谓的生活框架的所谓的生命框架的学习期。但是,实证评估仍缺乏迄今为止。在本文中,我们研究了这种学习机制与不同视角的影响。使用广泛的模拟,我们认为,与纯粹的进化方法相比,学习可以大大提高任务性能并减少一定适合水平所需的几代人数。此外,虽然学习只直接影响控制器,但我们证明了进化的形态也将是不同的。这提供了定量演示,即大脑的变化可以诱导体内的变化。最后,我们研究了给定体学习的能力量化的形态智力的概念。我们观察到学习三角洲,继承与学习大脑之间的性能差异,在整个进化过程中都在增长。这表明演化正在生产具有越来越多的可塑性的机器人,即连续几代变得越来越好,更好的学习者,这反过来使它们更好,在给定的任务中更好地更好。总而言之,我们的结果表明,生活的三角形不仅是理论兴趣的概念,而且是一种具有实际好处的系统架构。
translated by 谷歌翻译
自从各种任务的自动化开始以来,自动驾驶车辆一直引起人们的兴趣。人类容易疲惫,在道路上的响应时间缓慢,最重要的是,每年约有135万道路交通事故死亡,这已经是一项危险的任务。预计自动驾驶可以减少世界上驾驶事故的数量,这就是为什么这个问题对研究人员感兴趣的原因。目前,自动驾驶汽车在使车辆自动驾驶时使用不同的算法来实现各种子问题。我们将重点关注增强学习算法,更具体地说是Q学习算法和增强拓扑的神经进化(NEAT),即进化算法和人工神经网络的组合,以训练模型代理,以学习如何在给定路径上驱动。本文将重点介绍上述两种算法之间的比较。
translated by 谷歌翻译
最近被证明在强化学习(RL)设置中显示出的神经形式非常竞争,并且能够减轻基于梯度的方法的一些缺点。本文将专注于使用简单的遗传算法(GA)来应用神经发展,以找到产生最佳表现代理的神经网络的权重。此外,我们提出了两种新颖的修改,以提高与初始实施相比的数据效率和收敛速度。在Openai健身房提供的汇聚环境中评估了修改,并证明明显优于基线方法。
translated by 谷歌翻译
进化算法的主要问题之一是人口与局部最小值的收敛。在本文中,我们探讨了可以通过共同的奖励系统鼓励代理商的各种行为来避免此问题的技术。奖励是随机分配在环境中的,而代理只因首先收集它们而获得奖励。这导致了代理人的新型行为的出现。我们介绍了有关迷宫问题的方法,并将其与先前提出的解决方案进行比较,该解决方案被称为新颖搜索(Lehman和Stanley,2011a)。我们发现我们的解决方案会导致性能改善,同时显着简单。在此基础上,我们将问题概括,并将方法应用于Atari游戏的一组更高级的任务集,在那里我们观察到类似的性能质量,所需的计算能力要少得多。
translated by 谷歌翻译
生物学和人造药物需要处理现实世界中的不断变化。我们在四个经典的连续控制环境中研究了这个问题,并通过形态扰动增强。当不同身体部位的长度和厚度变化时,学习势头是挑战性的,因为需要控制政策才能适应形态以成功平衡和推进代理。我们表明,基于本体感受状态的控制策略的表现差,可以通过高度可变的身体配置,而(甲骨文)代理可以访问学习扰动的编码的(甲骨文)的性能要好得多。我们介绍了DMAP,这是一种以生物学启发的,基于注意力的策略网络体系结构。 DMAP将独立的本体感受处理,分布式策略与每个关节的单个控制器以及注意力机制结合在一起,从不同身体部位到不同控制器的动态门感觉信息。尽管无法访问(隐藏的)形态信息,但在所有考虑的环境中,DMAP都可以端对端训练,整体匹配或超越了Oracle代理的性能。因此,DMAP是从生物运动控制中实施原理的,为学习挑战的感觉运动任务提供了强烈的诱导偏见。总体而言,我们的工作证实了这些原则在挑战运动任务中的力量。
translated by 谷歌翻译
离散基因监管网络(GRNS)在鲁棒性和模块化的研究中起着至关重要的作用。评估GRNS稳健性的常见方法是测量它们调节一组扰动基因激活图案回到其未受干扰的形式的能力。通常,通过收集通过基因激活模式的预定分布产生的随机样品来获得扰动。这种采样方法引入了随机性,否定动态。这种动态施加在已经复杂的健身景观之上。因此,在使用采样的情况下,重要的是要理解哪种效果来自健身景观的结构,并且从施加的动力学产生。健身功能的随机性也会导致重现性和实验后分析中的困难。通过考虑基因活性模式的完全分布,我们制定确定性分布适应性评估,以避免适应性评估中的随机性。这种健身评估有助于重复性。其确定性允许我们在健身上确定理论界,从而确定算法是否达到了全局最优。它使我们能够将问题域与嘈杂的健身评估的影响区分开来,从而解决〜\ CiteT {espinosa2010Specialization}问题领域的行为中的两个剩余异常。我们还揭示了解决方案GRNS的一些属性,使它们具有稳健和模块化,导致对问题域的性质更深入了解。我们通过讨论潜在的方向来模拟和理解较大,更复杂的域中的模块化的出现,这是产生更有用的模块化解决方案的关键,并理解生物系统中的模块化的难以。
translated by 谷歌翻译
机器人的形态和行为的互相适应变得与快速的3D-制造方法和高效的深强化学习算法的出现越来越重要。对于互相适应的方法应用到真实世界的一个主要挑战是由于模型和仿真不准确的模拟到现实的差距。然而,以前的工作主要集中在形态开发的分析模型,并用大量的用户群(微)模拟器的进化适应的研究,忽视的模拟到现实差距的存在和在现实世界中制造周期的成本。本文提出了一种新的办法,结合经典的高频率计算昂贵的图形神经网络的代理数据高效互相适应深层神经网络具有不同度的自由度数。在仿真结果表明,新方法可以通过有效的设计优化与离线强化学习相结合共同适应的生产周期这样一个有限的数量中的代理程序,它允许在今后的工作中直接应用到真实世界的互相适应任务评估
translated by 谷歌翻译
机器人和与世界相互作用或互动的机器人和智能系统越来越多地被用来自动化各种任务。这些系统完成这些任务的能力取决于构成机器人物理及其传感器物体的机械和电气部件,例如,感知算法感知环境,并计划和控制算法以生产和控制算法来生产和控制算法有意义的行动。因此,通常有必要在设计具体系统时考虑这些组件之间的相互作用。本文探讨了以端到端方式对机器人系统进行任务驱动的合作的工作,同时使用推理或控制算法直接优化了系统的物理组件以进行任务性能。我们首先考虑直接优化基于信标的本地化系统以达到本地化准确性的问题。设计这样的系统涉及将信标放置在整个环境中,并通过传感器读数推断位置。在我们的工作中,我们开发了一种深度学习方法,以直接优化信标的放置和位置推断以达到本地化精度。然后,我们将注意力转移到了由任务驱动的机器人及其控制器优化的相关问题上。在我们的工作中,我们首先提出基于多任务增强学习的数据有效算法。我们的方法通过利用能够在物理设计的空间上概括设计条件的控制器,有效地直接优化了物理设计和控制参数,以直接优化任务性能。然后,我们对此进行跟进,以允许对离散形态参数(例如四肢的数字和配置)进行优化。最后,我们通过探索优化的软机器人的制造和部署来得出结论。
translated by 谷歌翻译
在过去的十年中,深入的强化学习(DRL)算法已经越来越多地使用,以解决各种决策问题,例如自动驾驶和机器人技术。但是,这些算法在部署在安全至关重要的环境中时面临着巨大的挑战,因为它们经常表现出错误的行为,可能导致潜在的关键错误。评估DRL代理的安全性的一种方法是测试它们,以检测可能导致执行过程中严重失败的故障。这就提出了一个问题,即我们如何有效测试DRL政策以确保其正确性和遵守安全要求。测试DRL代理的大多数现有作品都使用扰动代理的对抗性攻击。但是,这种攻击通常会导致环境的不切实际状态。他们的主要目标是测试DRL代理的鲁棒性,而不是测试代理商在要求方面的合规性。由于DRL环境的巨大状态空间,测试执行的高成本以及DRL算法的黑盒性质,因此不可能对DRL代理进行详尽的测试。在本文中,我们提出了一种基于搜索的强化学习代理(Starla)的测试方法,以通过有效地在有限的测试预算中寻找无法执行的代理执行,以测试DRL代理的策略。我们使用机器学习模型和专用的遗传算法来缩小搜索错误的搜索。我们将Starla应用于深Q学习剂,该Qualla被广泛用作基准测试,并表明它通过检测到与代理商策略相关的更多故障来大大优于随机测试。我们还研究了如何使用我们的搜索结果提取表征DRL代理的错误事件的规则。这些规则可用于了解代理失败的条件,从而评估其部署风险。
translated by 谷歌翻译
Machine learning frameworks such as Genetic Programming (GP) and Reinforcement Learning (RL) are gaining popularity in flow control. This work presents a comparative analysis of the two, bench-marking some of their most representative algorithms against global optimization techniques such as Bayesian Optimization (BO) and Lipschitz global optimization (LIPO). First, we review the general framework of the model-free control problem, bringing together all methods as black-box optimization problems. Then, we test the control algorithms on three test cases. These are (1) the stabilization of a nonlinear dynamical system featuring frequency cross-talk, (2) the wave cancellation from a Burgers' flow and (3) the drag reduction in a cylinder wake flow. We present a comprehensive comparison to illustrate their differences in exploration versus exploitation and their balance between `model capacity' in the control law definition versus `required complexity'. We believe that such a comparison paves the way toward the hybridization of the various methods, and we offer some perspective on their future development in the literature on flow control problems.
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
本研究旨在解决二次多尺寸机器人到执行器故障的容错问题,这对于在远程或极端环境中运行的机器人至关重要。特别地,建立了具有动态随机化(ACDR)的自适应课程增强学习算法。ACDR算法可以在随机执行器故障条件下自适应地培训四足机器人,并制定一个用于容错机器人控制的单一强大策略。值得注意的是,难以使静止的课程比易于2个课程更有效地用于四足机器人机器人。ACDR算法可用于构建机器人系统,该机器人不需要其他模块检测执行器故障和切换策略。实验结果表明,ACDR算法在平均奖励和步行距离方面优于传统算法。
translated by 谷歌翻译
为了协助游戏开发人员制作游戏NPC,我们展示了EvolvingBehavior,这是一种新颖的工具,用于基因编程,以在不真实的引擎4中发展行为树4.在初步评估中,我们将演变的行为与我们的研究人员设计的手工制作的树木和随机的树木进行了比较 - 在3D生存游戏中种植的树木。我们发现,在这种情况下,EvolvingBehavior能够产生行为,以实现设计师的目标。最后,我们讨论了共同创造游戏AI设计工具的探索的含义和未来途径,以及行为树进化的挑战和困难。
translated by 谷歌翻译
机器学习算法中多个超参数的最佳设置是发出大多数可用数据的关键。为此目的,已经提出了几种方法,例如进化策略,随机搜索,贝叶斯优化和启发式拇指规则。在钢筋学习(RL)中,学习代理在与其环境交互时收集的数据的信息内容严重依赖于许多超参数的设置。因此,RL算法的用户必须依赖于基于搜索的优化方法,例如网格搜索或Nelder-Mead单简单算法,这对于大多数R1任务来说是非常效率的,显着减慢学习曲线和离开用户的速度有目的地偏见数据收集的负担。在这项工作中,为了使RL算法更加用户独立,提出了一种使用贝叶斯优化的自主超参数设置的新方法。来自过去剧集和不同的超参数值的数据通过执行行为克隆在元学习水平上使用,这有助于提高最大化获取功能的加强学习变体的有效性。此外,通过紧密地整合在加强学习代理设计中的贝叶斯优化,还减少了收敛到给定任务的最佳策略所需的状态转换的数量。与其他手动调整和基于优化的方法相比,计算实验显示了有希望的结果,这突出了改变算法超级参数来增加所生成数据的信息内容的好处。
translated by 谷歌翻译
教机器人通过加强学习(RL)在复杂的三维环境环境下学习多样化的运动技能仍然具有挑战性。已经表明,在将其转移到复杂设置之前,在简单设置中的培训代理可以改善培训过程,但到目前为止,仅在相对简单的运动技能的背景下。在这项工作中,我们适应了增强的配对开放式开拓者(EPOET)方法,以训练更复杂的代理,以在复杂的三维地形上有效行走。首先,为了产生更加坚固且多样化的三维训练地形,并增加了复杂性,我们扩展了组成模式产生的网络 - 增强拓扑的神经进化(CPPN-NEAT)方法,并包括随机形状。其次,我们将Epoet与软性演员 - 批评外的优化相结合,产生Epoet-SAC,以确保代理商可以学习更多多样化的技能,以解决更具挑战性的任务。我们的实验结果表明,新生成的三维地形具有足够的多样性和复杂性来指导学习,Epoet成功地学习了这些地形上的复杂运动技能,并且我们提出的EPOET-SAC方法在Epoet上略有改进。
translated by 谷歌翻译
进化计算(EC)已被证明能够快速训练深人造神经网络(DNNS)来解决增强学习(RL)问题。虽然遗传算法(GA)非常适合利用既不具有欺骗性也不稀疏的奖励功能,但当奖励函数是这些功能时,它会挣扎。为此,在某些情况下,新颖的搜索(NS)已被证明能够超越梯度跟随优化器,而在其他情况下则表现不佳。我们提出了一种新算法:探索 - 探索$ \ gamma $ - 适应学习者($ e^2 \ gamma al $或eyal)。通过保留动态大小的寻求新颖的代理商的利基市场,该算法可以维持人口多样性,并在可能的情况下利用奖励信号并探索其他奖励信号。该算法将GA的剥削能力和NS的勘探能力结合在一起,同时保持其简单性和优雅性。我们的实验表明,在大多数情况下,Eyal在与GA相当的情况下都胜过NS - 在某些情况下,它可以均优于两者。 Eyal还允许用其他算法(例如演化策略和惊喜搜索)代替利用组件(GA)和探索组件(NS)(NS),从而为未来的研究打开了大门。
translated by 谷歌翻译
本文探讨了培训来生成代码的大型语言模型(LLMS)可以极大地提高对基因编程(GP)应用程序的突变操作员的有效性。由于此类LLM受益于包括顺序更改和修改的训练数据,因此它们可以近似人类会做出的可能变化。为了强调通过大型模型(ELM)的这种进化的含义的广度,在主要实验ELM与MAP-ELITE结合产生了数十万个Python程序的功能示例,这些示例在Sodarace域中输出了在Sodarace域中运行AMBULE的机器人,原始LLM从未在预训练中见过。然后,这些示例有助于引导培训一种新的条件语言模型,该模型可以为特定地形输出合适的步行者。引导新模型可以在以前可用的零培训数据中为给定上下文中输出适当的工件的新模型具有对开放性,深度学习和增强学习的影响。在这里深入探讨了这些含义,以期激发榆树现在打开的新研究方向。
translated by 谷歌翻译
参数适应性,即根据面临的问题自动调整算法的超参数的能力,是应用于数值优化的进化计算的主要趋势之一。多年来,已经提出了一些手工制作的适应政策来解决这个问题,但到目前为止,在应用机器学习以学习此类政策时,只有很少的尝试。在这里,我们介绍了一个通用框架,用于基于最新的增强学习算法在连续域元启发术中进行参数适应。我们证明了该框架在两种算法上的适用性,即协方差矩阵适应性进化策略(CMA-ES)和差异演化(DE),我们分别学习,我们分别学习了对阶梯大小(CMA-ES),CMA-ES的适应性策略,以及比例因子和交叉率(DE)。我们在不同维度的一组46个基准函数上训练这些策略,在两个设置中具有各种策略的投入:每个功能的一个策略,以及所有功能的全局策略。将分别与累积的阶梯尺寸适应(CSA)策略和两个众所周知的自适应DE变体(IDE和JDE)进行了比较,我们的政策能够在大多数情况下产生竞争成果,尤其是在DE的情况下。
translated by 谷歌翻译