在啮齿动物的海马复合物中发现位置细胞和其他空间调节神经元的发现对于阐明空间认知的神经基础至关重要。最近,在可能的综合行为中观察到了编码以前经历过的轨迹的神经序列的重播,这可能对快速记忆巩固和行为计划产生影响。基于这些发现和以前的发现,已经提出了一些用于机器人导航和强化学习的有前途的模型。但是,大多数模型都使用精心设计的神经网络,并在简单的环境中进行了测试。在本文中,我们开发了一个自组织模型,结合了位置细胞并重播,并在具有障碍的非平凡环境中证明了其对快速单次学习的实用性。
translated by 谷歌翻译
最近的实验观察结果表明,在睡眠或不动性过程中,海马放置细胞(PC)的重新激活描绘了可以围绕障碍的轨迹,并且可以灵活地适应不断变化的迷宫布局。这种布局结合的重播揭示了位置单元的活动如何支持动态变化的迷宫中动物的灵活导航。但是,现有的重播计算模型缺乏生成布局结合的重播,将它们的用法限制在简单环境中,例如线性轨道或开放式磁场。在本文中,我们提出了一个计算模型,该模型生成了构造布局的重播,并解释了这种重播如何驱动迷宫中灵活导航的学习。首先,我们提出了一个类似于Hebbian的规则,以在探索迷宫期间学习PC间突触强度。然后,我们使用具有反馈抑制的连续吸引力网络(CAN)来对位置细胞和海马中间神经元之间的相互作用进行建模。位置细胞的活性凸起沿迷宫中的路径漂移,该路径模拟了布局构造的重播。在静止重播过程中,一种新型多巴胺调节的三因素规则以存储位置奖励关联来学习,从位置细胞到纹状体培养基神经元(MSN)的突触强度。在目标导航期间,罐子定期从动物的路径计划中生成重播轨迹,并且导致最大MSN活性的轨迹之后是动物。我们已经将模型实现为Mujoco物理模拟器中的高保真虚拟大鼠。广泛的实验表明,在迷宫中导航期间的出色灵活性是由于PC间和PC-MSN突触强度的连续重新学习。
translated by 谷歌翻译
在人类中,感知意识促进了来自感官输入的快速识别和提取信息。这种意识在很大程度上取决于人类代理人如何与环境相互作用。在这项工作中,我们提出了主动神经生成编码,用于学习动作驱动的生成模型的计算框架,而不会在动态环境中反正出错误(Backprop)。具体而言,我们开发了一种智能代理,即使具有稀疏奖励,也可以从规划的认知理论中汲取灵感。我们展示了我们框架与深度Q学习竞争力的几个简单的控制问题。我们的代理的强劲表现提供了有希望的证据,即神经推断和学习的无背方法可以推动目标定向行为。
translated by 谷歌翻译
Planning is an extraordinary ability in which the brain imagines and then enacts evaluated possible futures. Using traditional planning models, computer scientists have attempted to replicate this capacity with some level of success but ultimately face a reoccurring limitation: as the plan grows in steps, the number of different possible futures makes it intractable to determine the right sequence of actions to reach a goal state. Based on prior theoretical work on how the ecology of an animal governs the value of spatial planning, we developed a more efficient biologically-inspired planning algorithm, TLPPO. This algorithm allows us to achieve mouselevel predator evasion performance with orders of magnitude less computation than a widespread algorithm for planning in the situations of partial observability that typify predator-prey interactions. We compared the performance of a real-time agent using TLPPO against the performance of live mice, all tasked with evading a robot predator. We anticipate these results will be helpful to planning algorithm users and developers, as well as to areas of neuroscience where robot-animal interaction can provide a useful approach to studying the basis of complex behaviors.
translated by 谷歌翻译
深度强化学习已经证明了通过梯度下降调整的神经网络的潜力,以解决良好的环境中的复杂任务。但是,这些神经系统是缓慢的学习者,生产专门的药物,没有任何机制,无法继续学习培训课程。相反,生物突触可塑性是持久和多种多样的,并被认为在执行功能中起关键作用,例如工作记忆和认知灵活性,可能支持更高效和更通用的学习能力。受此启发的启发,我们建议建立具有动态权重的网络,能够不断执行自反射修改,这是其当前突触状态和动作奖励反馈的函数,而不是固定的网络配置。最终的模型,Metods(用于元优化的动力突触)是一种广泛适用的元强制学习系统,能够在代理策略空间中学习有效而强大的控制规则。具有动态突触的单层可以执行单次学习,将导航原则概括为看不见的环境,并表现出强大的学习自适应运动策略的能力,并与以前的元强化学习方法进行了比较。
translated by 谷歌翻译
传统上,欧几里德几何形状被科学家视为先验和目标。然而,当我们采取代理的位置时,选择最佳路线的问题也应考虑代理人,其实施例,特别是其认知努力的能力。在本文中,我们通过将信息处理成本与适当的空间距离合并信息处理成本,在世界内的状态之间考虑几何形状。这引起了一种几何形状,越来越不同于给定世界的原始几何形状,因为信息成本变得越来越重要。我们通过将其投射到2和三维空间来显示此\ Texit {“认知几何”},显示出不同的失真,反映了认知和信息节约策略以及枢转状态。通过其他信息成本引起的传统成本几何形状与那些之间的类比邀请了作为对\ Texit {InfodeSics}概念的最便宜路线的传统Geodesics概念的概括。至关重要的是,InfodeSics的概念近似于通常的几何特性,从开始到沿着GeodeSic的目标,而不仅仅是目标,而且所有中间点都以最佳成本从一开始就被访问。
translated by 谷歌翻译
Synaptic plasticity allows cortical circuits to learn new tasks and to adapt to changing environments. How do cortical circuits use plasticity to acquire functions such as decision-making or working memory? Neurons are connected in complex ways, forming recurrent neural networks, and learning modifies the strength of their connections. Moreover, neurons communicate emitting brief discrete electric signals. Here we describe how to train recurrent neural networks in tasks like those used to train animals in neuroscience laboratories, and how computations emerge in the trained networks. Surprisingly, artificial networks and real brains can use similar computational strategies.
translated by 谷歌翻译
学习涉及时变和不断发展的系统动态的控制政策通常对主流强化学习算法构成了巨大的挑战。在大多数标准方法中,通常认为动作是一组刚性的,固定的选择,这些选择以预定义的方式顺序应用于状态空间。因此,在不诉诸于重大学习过程的情况下,学识渊博的政策缺乏适应动作集和动作的“行为”结果的能力。此外,标准行动表示和动作引起的状态过渡机制固有地限制了如何将强化学习应用于复杂的现实世界应用中,这主要是由于所得大的状态空间的棘手性以及缺乏概括的学术知识对国家空间未知部分的政策。本文提出了一个贝叶斯味的广义增强学习框架,首先建立参数动作模型的概念,以更好地应对不确定性和流体动作行为,然后将增强领域的概念作为物理启发的结构引入通过“极化体验颗粒颗粒建立) “维持在学习代理的工作记忆中。这些粒子有效地编码了以自组织方式随时间演变的动态学习体验。在强化领域之上,我们将进一步概括策略学习过程,以通过将过去的记忆视为具有隐式图结构来结合高级决策概念,在该结构中,过去的内存实例(或粒子)与决策之间的相似性相互联系。定义,因此,可以应用“关联记忆”原则来增强学习代理的世界模型。
translated by 谷歌翻译
当研究不受限制的行为并允许小鼠离开笼子去驾驶复杂的迷宫时,小鼠在迷宫中表现出觅食行为,以寻求奖励,不时返回他们的家园,例如。喝。令人惊讶的是,当执行这样的``本垒打''时,老鼠不会遵循确切的反向路径,实际上,入口路径和家居路径几乎没有重叠。最近的工作提出了导航的层次主动推理模型,低级别模型对隐藏状态进行了推断,并提出了解释感官输入的姿势,而高级模型则可以推断出在位置之间移动,从而有效地构建环境地图。但是,使用此``MAP''进行计划,只允许代理找到它以前探索的轨迹,这与观察到的小鼠行为相去甚远。在本文中,我们探讨了通过使用低级生成模型来想象潜在的,但未发现的路径,探讨了将前路径纳入计划算法的方法。我们在网格世界环境中演示了概念证明,展示了代理如何使用从基于像素的观测值中学到的生成模型准确地预测地图中的新的,更短的路径。
translated by 谷歌翻译
尖峰神经网络(SNN)引起了脑启发的人工智能和计算神经科学的广泛关注。它们可用于在多个尺度上模拟大脑中的生物信息处理。更重要的是,SNN是适当的抽象水平,可以将大脑和认知的灵感带入人工智能。在本文中,我们介绍了脑启发的认知智力引擎(Braincog),用于创建脑启发的AI和脑模拟模型。 Braincog将不同类型的尖峰神经元模型,学习规则,大脑区域等作为平台提供的重要模块。基于这些易于使用的模块,BrainCog支持各种受脑启发的认知功能,包括感知和学习,决策,知识表示和推理,运动控制和社会认知。这些受脑启发的AI模型已在各种受监督,无监督和强化学习任务上有效验证,并且可以用来使AI模型具有多种受脑启发的认知功能。为了进行大脑模拟,Braincog实现了决策,工作记忆,神经回路的结构模拟以及小鼠大脑,猕猴大脑和人脑的整个大脑结构模拟的功能模拟。一个名为BORN的AI引擎是基于Braincog开发的,它演示了如何将Braincog的组件集成并用于构建AI模型和应用。为了使科学追求解码生物智能的性质并创建AI,Braincog旨在提供必要且易于使用的构件,并提供基础设施支持,以开发基于脑部的尖峰神经网络AI,并模拟认知大脑在多个尺度上。可以在https://github.com/braincog-x上找到Braincog的在线存储库。
translated by 谷歌翻译
从自下而上的计算大脑反向构造的长期目标是,本文档的重点是杂色抽象层。首先用状态机器模型描述其操作,开发了基本的宏观体系结构。然后使用支持时间计算的尖峰神经元实现状态机函数。神经元模型基于活跃的尖峰树突,并反映了Hawkins/Numenta神经元模型。通过研究基准来证明该体系结构,其中代理使用宏collumn首先学习,然后导航2-D环境,其中包含随机放置的功能。环境在宏collumn中表示为标记的有向图,其中边缘连接特征,标签表示它们之间的相对位移。
translated by 谷歌翻译
在流行媒体中,人造代理商的意识出现与同时实现人类或超人水平智力的那些相同的代理之间通常存在联系。在这项工作中,我们探讨了意识和智力之间这种看似直观的联系的有效性和潜在应用。我们通过研究与三种当代意识功能理论相关的认知能力:全球工作空间理论(GWT),信息生成理论(IGT)和注意力模式理论(AST)。我们发现,这三种理论都将有意识的功能专门与人类领域将军智力的某些方面联系起来。有了这个见解,我们转向人工智能领域(AI),发现尽管远未证明一般智能,但许多最先进的深度学习方法已经开始纳入三个功能的关键方面理论。确定了这一趋势后,我们以人类心理时间旅行的激励例子来提出方式,其中三种理论中每种理论的见解都可以合并为一个单一的统一和可实施的模型。鉴于三种功能理论中的每一种都可以通过认知能力来实现这一可能,因此,具有精神时间旅行的人造代理不仅具有比当前方法更大的一般智力,而且还与我们当前对意识功能作用的理解更加一致在人类中,这使其成为AI研究的有希望的近期目标。
translated by 谷歌翻译
Development of navigation algorithms is essential for the successful deployment of robots in rapidly changing hazardous environments for which prior knowledge of configuration is often limited or unavailable. Use of traditional path-planning algorithms, which are based on localization and require detailed obstacle maps with goal locations, is not possible. In this regard, vision-based algorithms hold great promise, as visual information can be readily acquired by a robot's onboard sensors and provides a much richer source of information from which deep neural networks can extract complex patterns. Deep reinforcement learning has been used to achieve vision-based robot navigation. However, the efficacy of these algorithms in environments with dynamic obstacles and high variation in the configuration space has not been thoroughly investigated. In this paper, we employ a deep Dyna-Q learning algorithm for room evacuation and obstacle avoidance in partially observable environments based on low-resolution raw image data from an onboard camera. We explore the performance of a robotic agent in environments containing no obstacles, convex obstacles, and concave obstacles, both static and dynamic. Obstacles and the exit are initialized in random positions at the start of each episode of reinforcement learning. Overall, we show that our algorithm and training approach can generalize learning for collision-free evacuation of environments with complex obstacle configurations. It is evident that the agent can navigate to a goal location while avoiding multiple static and dynamic obstacles, and can escape from a concave obstacle while searching for and navigating to the exit.
translated by 谷歌翻译
This paper surveys the eld of reinforcement learning from a computer-science perspective. It is written to be accessible to researchers familiar with machine learning. Both the historical basis of the eld and a broad selection of current work are summarized. Reinforcement learning is the problem faced by an agent that learns behavior through trial-and-error interactions with a dynamic environment. The work described here has a resemblance to work in psychology, but di ers considerably in the details and in the use of the word \reinforcement." The paper discusses central issues of reinforcement learning, including trading o exploration and exploitation, establishing the foundations of the eld via Markov decision theory, learning from delayed reinforcement, constructing empirical models to accelerate learning, making use of generalization and hierarchy, and coping with hidden state. It concludes with a survey of some implemented systems and an assessment of the practical utility of current methods for reinforcement learning.
translated by 谷歌翻译
Curiosity for machine agents has been a focus of lively research activity. The study of human and animal curiosity, particularly specific curiosity, has unearthed several properties that would offer important benefits for machine learners, but that have not yet been well-explored in machine intelligence. In this work, we conduct a comprehensive, multidisciplinary survey of the field of animal and machine curiosity. As a principal contribution of this work, we use this survey as a foundation to introduce and define what we consider to be five of the most important properties of specific curiosity: 1) directedness towards inostensible referents, 2) cessation when satisfied, 3) voluntary exposure, 4) transience, and 5) coherent long-term learning. As a second main contribution of this work, we show how these properties may be implemented together in a proof-of-concept reinforcement learning agent: we demonstrate how the properties manifest in the behaviour of this agent in a simple non-episodic grid-world environment that includes curiosity-inducing locations and induced targets of curiosity. As we would hope, our example of a computational specific curiosity agent exhibits short-term directed behaviour while updating long-term preferences to adaptively seek out curiosity-inducing situations. This work, therefore, presents a landmark synthesis and translation of specific curiosity to the domain of machine learning and reinforcement learning and provides a novel view into how specific curiosity operates and in the future might be integrated into the behaviour of goal-seeking, decision-making computational agents in complex environments.
translated by 谷歌翻译
在本文中,我们通过神经生成编码的神经认知计算框架(NGC)提出了一种无反向传播的方法,以机器人控制(NGC),设计了一种完全由强大的预测性编码/处理电路构建的代理,体现计划的原则。具体而言,我们制作了一种自适应剂系统,我们称之为主动预测性编码(ACTPC),该系统可以平衡内部生成的认知信号(旨在鼓励智能探索)与内部生成的仪器信号(旨在鼓励寻求目标行为)最终学习如何使用现实的机器人模拟器(即超现实的机器人套件)来控制各种模拟机器人系统以及复杂的机器人臂,以解决块提升任务并可能选择问题。值得注意的是,我们的实验结果表明,我们提出的ACTPC代理在面对稀疏(外部)奖励信号方面表现良好,并且具有竞争力或竞争性或胜过几种强大的基于反向Prop的RL方法。
translated by 谷歌翻译
To date, reinforcement learning has mostly been studied solving simple learning tasks. Reinforcement learning methods that have been studied so far typically converge slowly. The purpose of this work is thus twofold: 1) to investigate the utility of reinforcement learning in solving much more complicated learning tasks than previously studied, and 2) to investigate methods that will speed up reinforcement learning. This paper compares eight reinforcement learning frameworks: adaptive heuristic critic (AHC) learning due to Sutton, Q-learning due to Watkins, and three extensions to both basic methods for speeding up learning. The three extensions are experience replay, learning action models for planning, and teaching. The frameworks were investigated using connectionism as an approach to generalization. To evaluate the performance of different frameworks, a dynamic environment was used as a testbed. The enviromaaent is moderately complex and nondeterministic. This paper describes these frameworks and algorithms in detail and presents empirical evaluation of the frameworks.
translated by 谷歌翻译
主动同时定位和映射(SLAM)是规划和控制机器人运动以构建周围环境中最准确,最完整的模型的问题。自从三十多年前出现了积极感知的第一项基础工作以来,该领域在不同科学社区中受到了越来越多的关注。这带来了许多不同的方法和表述,并回顾了当前趋势,对于新的和经验丰富的研究人员来说都是非常有价值的。在这项工作中,我们在主动大满贯中调查了最先进的工作,并深入研究了仍然需要注意的公开挑战以满足现代应用程序的需求。为了实现现实世界的部署。在提供了历史观点之后,我们提出了一个统一的问题制定并审查经典解决方案方案,该方案将问题分解为三个阶段,以识别,选择和执行潜在的导航措施。然后,我们分析替代方法,包括基于深入强化学习的信念空间规划和现代技术,以及审查有关多机器人协调的相关工作。该手稿以讨论新的研究方向的讨论,解决可再现的研究,主动的空间感知和实际应用,以及其他主题。
translated by 谷歌翻译
灵活的目标指导行为是人类生活的一个基本方面。基于自由能最小化原理,主动推断理论从计算神经科学的角度正式产生了这种行为。基于该理论,我们介绍了一个输出型,时间预测的,模块化的人工神经网络体系结构,该建筑处理感觉运动信息,渗透到世界上与行为相关的方面,并引起高度灵活的,目标定向的行为。我们表明,我们的建筑经过端对端训练,以最大程度地减少自由能的近似值,它会发展出可以将其解释为负担能力地图的潜在状态。也就是说,新兴的潜在状态表明哪种行动导致哪些效果取决于局部环境。结合主动推断,我们表明可以调用灵活的目标指导行为,并结合新兴的负担能力图。结果,我们的模拟代理会在连续的空间中灵活地转向,避免与障碍物发生碰撞,并且更喜欢高确定性地导致目标的途径。此外,我们表明,学识渊博的代理非常适合跨环境的零拍概括:在训练少数固定环境中的代理商在具有障碍和其他影响其行为的固定环境中,它在程序生成的环境中表现出色,其中包含不同量的环境不同位置的各种尺寸的障碍和地形。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译