在生存的背景下,可以单独繁殖在我们的机器中产生智力吗?在这项工作中,自我复制是在现代学习环境中出现智能行为的一种机制。通过纯粹专注于生存,在进行自然选择的同时,进化的生物被证明会产生有意义的,复杂和聪明的行为,从而在没有任何奖励或目标概念的情况下向挑战性问题展示了创造性的解决方案。Atari和机器人学习环境是根据自然选择重新定义的,在这些实验过程中自我复制生物中出现的行为进行了详细描述。
translated by 谷歌翻译
为了协助游戏开发人员制作游戏NPC,我们展示了EvolvingBehavior,这是一种新颖的工具,用于基因编程,以在不真实的引擎4中发展行为树4.在初步评估中,我们将演变的行为与我们的研究人员设计的手工制作的树木和随机的树木进行了比较 - 在3D生存游戏中种植的树木。我们发现,在这种情况下,EvolvingBehavior能够产生行为,以实现设计师的目标。最后,我们讨论了共同创造游戏AI设计工具的探索的含义和未来途径,以及行为树进化的挑战和困难。
translated by 谷歌翻译
突触塑性是神经网络中自我监管无监督学习的强大方法。最近利益的复苏已经在利用人工神经网络(ANNS)以及延期学习的突触可塑性方面开发。已经证明了可塑性来提高这些网络的学习能力在概括到新的环境环境。然而,这些训练有素的网络的长期稳定性尚未被检查。这项工作表明,利用ANN的可塑性导致不稳定于训练期间使用的预先指定的寿命。这种不稳定可以导致奖励寻求行为的戏剧性下降,或者快速导致到达环境终端状态。在许多训练时间范围内的两个不同环境中,这种行为被认为是在许多不同环境中的几种可塑性规则保持一致:推车极衡问题和四足球运动问题。我们通过使用尖刺神经元来提出这种不稳定性的解决方案。
translated by 谷歌翻译
我们分析了学习型号(如神经网络)本身是优化器时发生的学习优化的类型 - 我们将作为MESA优化的情况,我们在本文中介绍的新闻。我们认为,MESA优化的可能性为先进机器学习系统的安全和透明度提出了两个重要问题。首先,在什么情况下学习模型是优化的,包括当他们不应该?其次,当学习模型是优化器时,它的目标是什么 - 它将如何与损失函数不同,它训练的损失 - 并且如何对齐?在本文中,我们对这两个主要问题进行了深入的分析,并提供了未来研究的主题概述。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
自从各种任务的自动化开始以来,自动驾驶车辆一直引起人们的兴趣。人类容易疲惫,在道路上的响应时间缓慢,最重要的是,每年约有135万道路交通事故死亡,这已经是一项危险的任务。预计自动驾驶可以减少世界上驾驶事故的数量,这就是为什么这个问题对研究人员感兴趣的原因。目前,自动驾驶汽车在使车辆自动驾驶时使用不同的算法来实现各种子问题。我们将重点关注增强学习算法,更具体地说是Q学习算法和增强拓扑的神经进化(NEAT),即进化算法和人工神经网络的组合,以训练模型代理,以学习如何在给定路径上驱动。本文将重点介绍上述两种算法之间的比较。
translated by 谷歌翻译
Recent progress in artificial intelligence (AI) has renewed interest in building systems that learn and think like people. Many advances have come from using deep neural networks trained end-to-end in tasks such as object recognition, video games, and board games, achieving performance that equals or even beats humans in some respects. Despite their biological inspiration and performance achievements, these systems differ from human intelligence in crucial ways. We review progress in cognitive science suggesting that truly human-like learning and thinking machines will have to reach beyond current engineering trends in both what they learn, and how they learn it. Specifically, we argue that these machines should (a) build causal models of the world that support explanation and understanding, rather than merely solving pattern recognition problems; (b) ground learning in intuitive theories of physics and psychology, to support and enrich the knowledge that is learned; and (c) harness compositionality and learning-to-learn to rapidly acquire and generalize knowledge to new tasks and situations. We suggest concrete challenges and promising routes towards these goals that can combine the strengths of recent neural network advances with more structured cognitive models.
translated by 谷歌翻译
讨论了与科学,工程,建筑和人为因素相关的月球表面上的运输设施问题。未来十年制造的后勤决策可能对财务成功至关重要。除了概述一些问题及其与数学和计算的关系外,本文还为决策者,科学家和工程师提供了有用的资源。
translated by 谷歌翻译
我们将仔细研究道德,并尝试以可能成为工具的抽象属性的形式提取见解。我们想将道德与游戏联系起来,谈论道德的表现,将好奇心引入竞争和协调良好的伦理学之间的相互作用,并提供可能统一实体汇总的可能发展的看法。所有这些都是由计算复杂性造成的长阴影,这对游戏来说是负面的。该分析是寻找建模方面的第一步,这些方面可能在AI伦理中用于将现代AI系统整合到人类社会中。
translated by 谷歌翻译
在这项研究中,我们将人工智力的普遍增强学习(URL)代理模型扩展到量子环境。经典探索随机知识寻求代理,KL-KSA的实用功能是从密度矩阵上量子信息理论的距离措施。量子处理断层扫描(QPT)算法形成了用于建模环境动态的易解的程序。基于基于算法复杂度以及计算资源复杂性的可变成本函数来选择最佳QPT策略。我们而不是提供机器,我们估计了高级语言的成本指标,以允许现实的实验。整个代理设计封装在自我复制Quine中,基于最佳策略选择方案的预测值突变成本函数。因此,具有帕累托 - 最佳QPT政策的多个代理商使用遗传编程而发展,模仿各种资源权衡的物理理论的发展。这一正式框架被称为量子知识寻求代理(QKSA)。尽管其重要性,但很少有量子强化学习模型与量子机器学习中的电流推力相反。 QKSA是类似于古典URL模型的框架的第一个提议。类似于AIXI-TL如何是SOLOMONOFF通用归纳的资源有限的活动版本,QKSA是一个资源有限的参与观察者框架,用于最近提出的基于量子力学的基于量子学的算法的重建。 QKSA可以应用于仿真和研究量子信息理论的方面。具体地,我们证明它可以用于加速量子变分算法,该算法包括断层重建作为其积分子程序。
translated by 谷歌翻译
本文介绍了一种“混合自我注意整洁”方法,以改善高维输入中增强拓扑(整洁)算法的原始神经发展。虽然整洁的算法显示出在不同具有挑战性的任务中的显着结果,但由于输入表示是高维度,但它无法创建一个良好的调谐网络。我们的研究通过使用自我关注作为间接编码方法来解决此限制,以选择输入的最重要部分。此外,我们在混合方法的帮助下提高了整体性能,以发展最终网络权重。主要结论是混合自我关注整洁可以消除原始整洁的限制。结果表明,与进化算法相比,我们的模型可以在ATARI游戏中获得与原始像素输入的可比分数,其中参数数量较少。
translated by 谷歌翻译
同时发展机器人的形态(体)和控制器(大脑)可能导致后代遗传体和大脑之间的不匹配。为了缓解这个问题,相对较早地提出了通过所谓的生活框架的所谓的生命框架的学习期。但是,实证评估仍缺乏迄今为止。在本文中,我们研究了这种学习机制与不同视角的影响。使用广泛的模拟,我们认为,与纯粹的进化方法相比,学习可以大大提高任务性能并减少一定适合水平所需的几代人数。此外,虽然学习只直接影响控制器,但我们证明了进化的形态也将是不同的。这提供了定量演示,即大脑的变化可以诱导体内的变化。最后,我们研究了给定体学习的能力量化的形态智力的概念。我们观察到学习三角洲,继承与学习大脑之间的性能差异,在整个进化过程中都在增长。这表明演化正在生产具有越来越多的可塑性的机器人,即连续几代变得越来越好,更好的学习者,这反过来使它们更好,在给定的任务中更好地更好。总而言之,我们的结果表明,生活的三角形不仅是理论兴趣的概念,而且是一种具有实际好处的系统架构。
translated by 谷歌翻译
本文介绍了一种全自动的机械照明方法,以实现一般视频游戏水平的生成。使用受约束的MAP-ELITE算法和GVG-AI框架,该系统生成了最简单的基于图块的级别,该级别包含特定的游戏机制集并满足可玩性约束。我们将这种方法应用于GVG-AI的$ 4 $不同游戏的机械空间:Zelda,Solarfox,Plants和eartortals。
translated by 谷歌翻译
进化算法的主要问题之一是人口与局部最小值的收敛。在本文中,我们探讨了可以通过共同的奖励系统鼓励代理商的各种行为来避免此问题的技术。奖励是随机分配在环境中的,而代理只因首先收集它们而获得奖励。这导致了代理人的新型行为的出现。我们介绍了有关迷宫问题的方法,并将其与先前提出的解决方案进行比较,该解决方案被称为新颖搜索(Lehman和Stanley,2011a)。我们发现我们的解决方案会导致性能改善,同时显着简单。在此基础上,我们将问题概括,并将方法应用于Atari游戏的一组更高级的任务集,在那里我们观察到类似的性能质量,所需的计算能力要少得多。
translated by 谷歌翻译
The applicability of computational models to the biological world is an active topic of debate. We argue that a useful path forward results from abandoning hard boundaries between categories and adopting an observer-dependent, pragmatic view. Such a view dissolves the contingent dichotomies driven by human cognitive biases (e.g., tendency to oversimplify) and prior technological limitations in favor of a more continuous, gradualist view necessitated by the study of evolution, developmental biology, and intelligent machines. Efforts to re-shape living systems for biomedical or bioengineering purposes require prediction and control of their function at multiple scales. This is challenging for many reasons, one of which is that living systems perform multiple functions in the same place at the same time. We refer to this as "polycomputing" - the ability of the same substrate to simultaneously compute different things. This ability is an important way in which living things are a kind of computer, but not the familiar, linear, deterministic kind; rather, living things are computers in the broad sense of computational materials as reported in the rapidly-growing physical computing literature. We argue that an observer-centered framework for the computations performed by evolved and designed systems will improve the understanding of meso-scale events, as it has already done at quantum and relativistic scales. Here, we review examples of biological and technological polycomputing, and develop the idea that overloading of different functions on the same hardware is an important design principle that helps understand and build both evolved and designed systems. Learning to hack existing polycomputing substrates, as well as evolve and design new ones, will have massive impacts on regenerative medicine, robotics, and computer engineering.
translated by 谷歌翻译
最近,我们强调了一个基本问题,该问题被认为是混淆算法优化的,即\ textit {Confing}与目标函数的目标。即使前者的定义很好,后者也可能并不明显,例如,在学习一种策略来导航迷宫以找到目标(客观)时,有效的目标函数\ textit {评估}策略可能不是一个简单的功能到目标的距离。我们建议自动化可能发现良好的目标功能的手段 - 此处得到的建议。我们提出\ textbf {s} iolution \ textbf {a} nd \ textbf {f} itness \ textbf {e} volution(\ textbf {safe}),a \ textit {comensalistic} coovolutionary algorithm候选解决方案和一系列候选目标功能。作为此概念原理的证明,我们表明安全不仅成功地发展了机器人迷宫领域内的解决方案,而且还可以在进化过程中衡量解决方案质量所需的目标函数。
translated by 谷歌翻译
行为树(BT)是一种在自主代理中(例如机器人或计算机游戏中的虚拟实体)之间在不同任务之间进行切换的方法。 BT是创建模块化和反应性的复杂系统的一种非常有效的方法。这些属性在许多应用中至关重要,这导致BT从计算机游戏编程到AI和机器人技术的许多分支。在本书中,我们将首先对BTS进行介绍,然后我们描述BTS与早期切换结构的关系,并且在许多情况下如何概括。然后,这些想法被用作一套高效且易于使用的设计原理的基础。安全性,鲁棒性和效率等属性对于自主系统很重要,我们描述了一套使用BTS的状态空间描述正式分析这些系统的工具。借助新的分析工具,我们可以对BTS如何推广早期方法的形式形式化。我们还显示了BTS在自动化计划和机器学习中的使用。最后,我们描述了一组扩展的工具,以捕获随机BT的行为,其中动作的结果由概率描述。这些工具可以计算成功概率和完成时间。
translated by 谷歌翻译
在过去十年中,我们目睹了深度学习的兴起,以占据人工智能领域。人工神经网络的进步与具有大的内存容量大的硬件加速器的相应进步,以及大型数据集的可用性,使能研究人员和从业者能够培训和部署复杂的神经网络模型,这些模型在几个方面实现了最先进的性能跨越计算机视觉,自然语言处理和加强学习的领域。然而,由于这些神经网络变得更大,更复杂,更广泛地使用,目前深度学习模型的基本问题变得更加明显。已知最先进的深度学习模型遭受稳健性不良,无法适应新的任务设置的问题,以要求刚性和不灵活的配置假设。来自集体智能的想法,特别是来自复杂系统,如自组织,紧急行为,群优化和蜂窝系统的复杂系统的概念倾向于产生鲁棒,适应性,并且对环境配置具有较小的刚性假设的解决方案。因此,很自然地看到这些想法纳入更新的深度学习方法。在这篇综述中,我们将提供神经网络研究的历史背景,即神经网络研究的复杂系统的参与,并突出了现代深度学习研究中的几个活跃区域,这些研究融合了集体智能的原则,以推进其当前能力。为了促进双向思想流动,我们还讨论了利用现代深度学习模型的工作,以帮助推进复杂的系统研究。我们希望这次审查可以作为复杂系统和深度学习社区之间的桥梁,以促进思想的交叉授粉和促进跨学科的新合作。
translated by 谷歌翻译
本文探讨了培训来生成代码的大型语言模型(LLMS)可以极大地提高对基因编程(GP)应用程序的突变操作员的有效性。由于此类LLM受益于包括顺序更改和修改的训练数据,因此它们可以近似人类会做出的可能变化。为了强调通过大型模型(ELM)的这种进化的含义的广度,在主要实验ELM与MAP-ELITE结合产生了数十万个Python程序的功能示例,这些示例在Sodarace域中输出了在Sodarace域中运行AMBULE的机器人,原始LLM从未在预训练中见过。然后,这些示例有助于引导培训一种新的条件语言模型,该模型可以为特定地形输出合适的步行者。引导新模型可以在以前可用的零培训数据中为给定上下文中输出适当的工件的新模型具有对开放性,深度学习和增强学习的影响。在这里深入探讨了这些含义,以期激发榆树现在打开的新研究方向。
translated by 谷歌翻译