积极推断是一种用于建模大脑的最先进的框架,用于建立广泛的机制,例如习惯形成,多巴胺能排放和好奇心。然而,当在所有可能的策略上计算到达时间范围之前,最近的实现遭受指数(空间和时间)复杂性等级。 fountas等人。 (2020)使用Monte Carlo树搜索解决这个问题,导致两种不同的任务中的非常好的结果。此外,冠军等人。 (2021A)提出了一种基于结构学习的树搜索方法。这是通过开发通过激活推理方法的变形消息(Champion等,2021b)的变分数,这使得能够对贝叶斯网络的组成构建进行积极推理。然而,这条消息通过树搜索方法,我们呼叫分支时间有源推断(BTAI),从未经验过测试。在本文中,我们在迷宫溶解剂的背景下提出了对方法(Champion等,2021A)的实验研究。在这种情况下,我们表明,改进的先前偏好和更深的搜索都有助于减轻局部最小值的漏洞。然后,我们将BTAI与图形导航任务的标准活动推理(AI)进行比较。我们表明,对于小图形,BTAI和AI都成功解决了任务。对于较大的图表,AI展示了指数(空间)复杂性等级,使得该方法是棘手的。但是,BTAI更有效地探讨了策略的空间,成功地缩放到更大的图形。
translated by 谷歌翻译
分支时间有源推论(Champion等,2021b,a)是一个框架,提议将规划视为贝叶斯模型扩展的形式。它的根源可以在有源推理中找到(Friston等,2016; Da Costa等,2020;冠军等,2021C),一种广泛用于脑建模的神经科学框架,以及蒙特卡罗树搜索(布朗等人,2012),一种广泛应用于加强学习文学的方法。到目前为止,通过利用变形消息通过(WinN和Bishop,2005)提供的灵活性来执行潜在变量的推断,该迭代过程可以被理解为沿着因子图的边缘发送消息(福尼,2001年)。在本文中,我们利用了替代方法的推理效率称为贝叶斯滤波(Fox等,2003),其不需要更新方程的迭代,直到变分自由能的收敛。相反,该方案在两个阶段交替交替:整合证据和未来国家的预测。这两个相可以有效地执行,并且这提供了通过最先进的七十倍的加速。
translated by 谷歌翻译
在过去的10到15年中,积极的推论有助于解释从习惯形成到多巴胺能放电甚至建模好奇心的各种脑机制。然而,当在将所有可能的策略上计算到时间范围内的所有可能的策略时,当前实现遭受指数(空间和时间)复杂性等级。 Fountas等人(2020)使用Monte Carlo树搜索解决这个问题,导致两个不同的任务中的令人印象深刻的结果。在本文中,我们提出了一种替代框架,其旨在通过铸造规划作为结构学习问题来统一树搜索和有效推论。然后呈现两个树搜索算法。首先将预期的自由能量及时向前传播(即,朝向叶子),而第二次向后传播(即,朝向根)。然后,我们证明前向和后向传播分别与主动推断和复杂的推断相关,从而阐明了这两个规划策略之间的差异。
translated by 谷歌翻译
主动推断是建模大脑的最新框架,该框架解释了各种机制,例如习惯形成,多巴胺能排出和好奇心。最近,已经开发了基于蒙特卡洛树搜索的两个版本的分支时间活动推理(BTAI),以处理在计算所有可能的策略之前,直到时间范围的所有可能的策略时,都会发生指数(时空和时间)的复杂性类别。但是,这两个版本的BTAI仍然遭受指数复杂性类W.R.T的损失。在本文中,我们首先允许对几个观测值进行建模来解决此限制,每个观察都有其自己的可能性映射。同样,我们允许每个潜在状态都有自己的过渡映射。然后,推论算法利用了可能性和过渡映射的分解以加速后验计算。在DSPRITES环境上测试了这两个优化,其中DSPRITES数据集的元数据被用作模型的输入,而不是DSPRITES图像。在此任务上,$ btai_ {vmp} $(Champion等,2022b,a)能够在5.1秒内解决96.9 \%的任务,而$ btai_ {bf} $(Champion等,2021a)是能够在17.5秒内解决98.6 \%的任务。我们的新方法($ btai_ {3mf} $)通过仅在2.559秒内完整求解任务(100 \%),超过了其两个前任。最后,$ btai_ {3mf} $已在灵活且易于使用(Python)软件包中实现,我们开发了一个图形用户界面,以实现对模型信念,计划过程和行为的检查。
translated by 谷歌翻译
有效计划的能力对于生物体和人造系统都是至关重要的。在认知神经科学和人工智能(AI)中广泛研究了基于模型的计划和假期,但是从不同的角度来看,以及难以调和的考虑(生物现实主义与可伸缩性)的不同意见(生物现实主义与可伸缩性)。在这里,我们介绍了一种新颖的方法来计划大型POMDP(Active Tree search(ACT)),该方法结合了神经科学中领先的计划理论的规范性特征和生物学现实主义(主动推论)和树木搜索方法的可扩展性AI。这种统一对两种方法都是有益的。一方面,使用树搜索可以使生物学接地的第一原理,主动推断的方法可应用于大规模问题。另一方面,主动推理为探索 - 开发困境提供了一种原则性的解决方案,该解决方案通常在树搜索方法中以启发性解决。我们的模拟表明,ACT成功地浏览了对基于抽样的方法,需要自适应探索的问题以及大型POMDP问题“ RockSample”的二进制树,其中ACT近似于最新的POMDP解决方案。此外,我们说明了如何使用ACT来模拟人类和其他解决大型计划问题的人类和其他动物的神经生理反应(例如,在海马和前额叶皮层)。这些数值分析表明,主动树搜索是神经科学和AI计划理论的原则性实现,既具有生物现实主义和可扩展性。
translated by 谷歌翻译
积极推断是复杂系统中的认知和行为的叙述,它在贝叶斯推论的理论地幔下举起动作,感知和学习。积极的推论已经看到学术研究中的应用越来越多,特别是在寻求模拟人类或动物行为的领域。虽然近年来,来自有效推理文献产生的一些代码已经用Python和Julia这样的开源语言编写,迄今为止,用于模拟活动推理代理的最流行的软件是SPM,Matlab库的DEM工具箱最初开发用于神经影像数据的统计分析和建模。因此,在纯粹的数字和科学学科的应用程序方面,表现出对积极推断的兴趣,因此为在开源科学计算语言中模拟了激活推论的通用,广泛可用的和用户友好的代码,这一切都表现为纯粹的数字以及跨科学学科的应用程序。像python。我们在这里呈现的Python包,Pymdp(参见https://github.com/fifer-active/pymdp)表示朝这个方向的重要一步:即,我们提供了用于模拟有源推断的第一个开源包,部分 - 可观察的马尔可夫决策过程或POMDPS。我们查看包的结构,并解释了模块化设计和定制等优点,同时提供沿着文本代码块,以便演示如何使用它以轻松地构建和运行主动推断过程。我们开发了PyMDP,以增加有效推理框架的可访问性和暴露于有多种纪律背景的研究人员,工程师和开发人员。本着开源软件的精神,我们也希望它在不断增长的积极推理界中产生新的创新,发展和合作。
translated by 谷歌翻译
主动推断是建模生物学和人造药物的行为的概率框架,该框架源于最小化自由能的原理。近年来,该框架已成功地应用于各种情况下,其目标是最大程度地提高奖励,提供可比性,有时甚至是卓越的性能与替代方法。在本文中,我们通过演示如何以及何时进行主动推理代理执行最佳奖励的动作来阐明奖励最大化和主动推断之间的联系。确切地说,我们展示了主动推理为Bellman方程提供最佳解决方案的条件 - 这种公式是基于模型的增强学习和控制的几种方法。在部分观察到的马尔可夫决策过程中,标准的主动推理方案可以为计划视野1的最佳动作产生最佳动作,但不能超越。相比之下,最近开发的递归活跃推理方案(复杂的推理)可以在任何有限的颞范围内产生最佳作用。我们通过讨论主动推理和强化学习之间更广泛的关系来补充分析。
translated by 谷歌翻译
自由能原理及其必然的积极推论构成了一种生物启发的理论,该理论假设生物学作用保留在一个受限制的世界首选状态中,即它们最小化自由能。根据这一原则,生物学家学习了世界的生成模型和未来的计划行动,该模型将使代理保持稳态状态,以满足其偏好。该框架使自己在计算机中实现,因为它理解了使其计算负担得起的重要方面,例如变异推断和摊销计划。在这项工作中,我们研究了深度学习的工具,以设计和实现基于主动推断的人造代理,对自由能原理进行深入学习的呈现,调查工作与机器学习和主动推理领域相关,以及讨论实施过程中涉及的设计选择。该手稿探究了积极推理框架的新观点,将其理论方面扎根于更务实的事务中,为活跃推理的新手提供了实用指南,并为深度学习从业人员的起点提供了研究,以调查自由能源原则的实施。
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
在本文中,我们呈现AIDA,它是一种积极推断的代理,可以通过与人类客户端的互动来迭代地设计个性化音频处理算法。 AIDA的目标应用是在助听器(HA)算法的调整参数的情况下,每当HA客户端对其HA性能不满意时,提出了最有趣的替代值。 AIDA解释搜索“最有趣的替代品”作为最佳(声学)背景感知贝叶斯试验设计的问题。在计算术语中,AIDA被实现为基于有源推断的药剂,具有预期的试验设计的自由能标准。这种类型的建筑受到高效(贝叶斯)试验设计的神经经济模型的启发,并意味着AIDA包括用于声学信号和用户响应的生成概率模型。我们提出了一种用于声学信号的新型生成模型作为基于高斯过程分类器的时变自自回归滤波器和用户响应模型的总和。已经在生成模型的因子图中实施了完整的AIDA代理,并且通过对因子图的变分消息来实现所有任务(参数学习,声学上下文分类,试验设计等)。所有验证和验证实验和演示都可以在我们的GitHub存储库中自由访问。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
We advance a novel computational model of multi-agent, cooperative joint actions that is grounded in the cognitive framework of active inference. The model assumes that to solve a joint task, such as pressing together a red or blue button, two (or more) agents engage in a process of interactive inference. Each agent maintains probabilistic beliefs about the goal of the joint task (e.g., should we press the red or blue button?) and updates them by observing the other agent's movements, while in turn selecting movements that make his own intentions legible and easy to infer by the other agent (i.e., sensorimotor communication). Over time, the interactive inference aligns both the beliefs and the behavioral strategies of the agents, hence ensuring the success of the joint action. We exemplify the functioning of the model in two simulations. The first simulation illustrates a ''leaderless'' joint action. It shows that when two agents lack a strong preference about their joint task goal, they jointly infer it by observing each other's movements. In turn, this helps the interactive alignment of their beliefs and behavioral strategies. The second simulation illustrates a "leader-follower" joint action. It shows that when one agent ("leader") knows the true joint goal, it uses sensorimotor communication to help the other agent ("follower") infer it, even if doing this requires selecting a more costly individual plan. These simulations illustrate that interactive inference supports successful multi-agent joint actions and reproduces key cognitive and behavioral dynamics of "leaderless" and "leader-follower" joint actions observed in human-human experiments. In sum, interactive inference provides a cognitively inspired, formal framework to realize cooperative joint actions and consensus in multi-agent systems.
translated by 谷歌翻译
现象学是对有意识经验的严格描述性研究。最近对侯赛利亚现象学形式化的尝试为我们提供了一种数学模型,这是先验知识和期望的函数。在本文中,我们通过主动推理的镜头重新检查了侯赛利亚现象学的元素。在这样做的过程中,我们旨在推进计算现象学的项目,正如主动推理的支持者最近概述的那样。我们建议,可以将胡塞尔对意识描述的关键方面映射到与主动推理方法相关的生成模型的各个方面。我们首先简要审查主动推论。然后,我们讨论了胡塞尔的现象学,重点是时间意识。最后,我们介绍了从侯赛利亚现象学到主动推断的映射。
translated by 谷歌翻译
This white paper lays out a vision of research and development in the field of artificial intelligence for the next decade (and beyond). Its denouement is a cyber-physical ecosystem of natural and synthetic sense-making, in which humans are integral participants$\unicode{x2014}$what we call ''shared intelligence''. This vision is premised on active inference, a formulation of adaptive behavior that can be read as a physics of intelligence, and which inherits from the physics of self-organization. In this context, we understand intelligence as the capacity to accumulate evidence for a generative model of one's sensed world$\unicode{x2014}$also known as self-evidencing. Formally, this corresponds to maximizing (Bayesian) model evidence, via belief updating over several scales: i.e., inference, learning, and model selection. Operationally, this self-evidencing can be realized via (variational) message passing or belief propagation on a factor graph. Crucially, active inference foregrounds an existential imperative of intelligent systems; namely, curiosity or the resolution of uncertainty. This same imperative underwrites belief sharing in ensembles of agents, in which certain aspects (i.e., factors) of each agent's generative world model provide a common ground or frame of reference. Active inference plays a foundational role in this ecology of belief sharing$\unicode{x2014}$leading to a formal account of collective intelligence that rests on shared narratives and goals. We also consider the kinds of communication protocols that must be developed to enable such an ecosystem of intelligences and motivate the development of a shared hyper-spatial modeling language and transaction protocol, as a first$\unicode{x2014}$and key$\unicode{x2014}$step towards such an ecology.
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
最近的工作发现了经典的加固学习算法,贝叶斯过滤和主动推断之间的紧密联系,这使我们可以从贝叶斯后期来理解价值功能。一种替代方案但较少探索的无模型RL算法是后继表示,它以预期未来状态占领的后继矩阵来表达价值函数。在本文中,我们根据贝叶斯过滤得出了对后继表示的概率解释,从而设计了一种新型的主动推理代理体系结构,利用后继表示而不是基于模型的计划。我们证明,积极推理后继表示在计划范围和计算成本方面,与当前主动推理代理相比具有显着优势。此外,我们演示了继任代理如何推广到改变奖励功能(例如预期自由能的变体)。
translated by 谷歌翻译
变异推理(VI)是一种特定类型的近似贝叶斯推断,它近似于棘手的后验分布,具有可拖动的分布。 VI将推论问题施加为优化问题,更具体地说,目标是最大程度地相对于近似后验参数,最大程度地提高边缘可能性的对数的下限。另一方面,强化学习(RL)涉及自主代理,以及如何使其最佳行动,例如最大程度地提高预期未来累积奖励的概念。在代理行动对未来环境状态没有影响的非顺序环境中,RL被上下文的土匪和贝叶斯优化涵盖。然而,在适当的顺序场景中,代理商的行为影响未来的州,即时需要对潜在的长期奖励进行仔细的奖励。该手稿显示了VI和RL的明显不同主题是如何通过两种基本方式链接的。首先,在非顺序和顺序设置中,在软策略约束下,可以通过VI目标恢复RL最大化未来累积奖励的优化目标。该政策限制不仅是人造的,而且在许多RL任务中被证明是有用的正规化程序,从而在代理性能方面得到了重大改进。其次,在基于模型的RL中,代理旨在了解其正在运行的环境,模型学习零件自然可以用作控制环境动态的过程中的推论问题。我们将区分后者的两种情况:VI时,当环境状态被代理和VI完全观察到,仅通过观察分布才能部分观察到它们。
translated by 谷歌翻译
This paper surveys the eld of reinforcement learning from a computer-science perspective. It is written to be accessible to researchers familiar with machine learning. Both the historical basis of the eld and a broad selection of current work are summarized. Reinforcement learning is the problem faced by an agent that learns behavior through trial-and-error interactions with a dynamic environment. The work described here has a resemblance to work in psychology, but di ers considerably in the details and in the use of the word \reinforcement." The paper discusses central issues of reinforcement learning, including trading o exploration and exploitation, establishing the foundations of the eld via Markov decision theory, learning from delayed reinforcement, constructing empirical models to accelerate learning, making use of generalization and hierarchy, and coping with hidden state. It concludes with a survey of some implemented systems and an assessment of the practical utility of current methods for reinforcement learning.
translated by 谷歌翻译
探索开发权衡是在从机器学习,生物学到经济学的田地中的自适应行为描述的核心。虽然已经采取了许多方法,但解决了这笔权衡的一种方法已经装备或建议代理商拥有内在的“探索性驱动”,其经常在最大化关于世界的代理信息增益方面实施 - 一种方法 - 这一方法已广泛研究机器学习和认知科学。在本文中,我们在数学上调查这种方法的性质和意义,并证明了这种效用最大化和信息寻求行为的组合产生了我们称之为偏见目标的完全差异目标的最小化。我们提出了在\ EMPH {证据}目标之间的自适应行为潜在的目标职能的二分法,这与文献中的知名奖励或效用最大化目标最大化,而不是寻求最小化差异的目标代理人的预期和期望的期货,并争辩说,这一新的分歧目标可以为对自适应和智能行动的探索性成分进行更加丰富的理解,以超越简单的贪婪效用最大化。
translated by 谷歌翻译