在过去的10到15年中,积极的推论有助于解释从习惯形成到多巴胺能放电甚至建模好奇心的各种脑机制。然而,当在将所有可能的策略上计算到时间范围内的所有可能的策略时,当前实现遭受指数(空间和时间)复杂性等级。 Fountas等人(2020)使用Monte Carlo树搜索解决这个问题,导致两个不同的任务中的令人印象深刻的结果。在本文中,我们提出了一种替代框架,其旨在通过铸造规划作为结构学习问题来统一树搜索和有效推论。然后呈现两个树搜索算法。首先将预期的自由能量及时向前传播(即,朝向叶子),而第二次向后传播(即,朝向根)。然后,我们证明前向和后向传播分别与主动推断和复杂的推断相关,从而阐明了这两个规划策略之间的差异。
translated by 谷歌翻译
积极推断是一种用于建模大脑的最先进的框架,用于建立广泛的机制,例如习惯形成,多巴胺能排放和好奇心。然而,当在所有可能的策略上计算到达时间范围之前,最近的实现遭受指数(空间和时间)复杂性等级。 fountas等人。 (2020)使用Monte Carlo树搜索解决这个问题,导致两种不同的任务中的非常好的结果。此外,冠军等人。 (2021A)提出了一种基于结构学习的树搜索方法。这是通过开发通过激活推理方法的变形消息(Champion等,2021b)的变分数,这使得能够对贝叶斯网络的组成构建进行积极推理。然而,这条消息通过树搜索方法,我们呼叫分支时间有源推断(BTAI),从未经验过测试。在本文中,我们在迷宫溶解剂的背景下提出了对方法(Champion等,2021A)的实验研究。在这种情况下,我们表明,改进的先前偏好和更深的搜索都有助于减轻局部最小值的漏洞。然后,我们将BTAI与图形导航任务的标准活动推理(AI)进行比较。我们表明,对于小图形,BTAI和AI都成功解决了任务。对于较大的图表,AI展示了指数(空间)复杂性等级,使得该方法是棘手的。但是,BTAI更有效地探讨了策略的空间,成功地缩放到更大的图形。
translated by 谷歌翻译
分支时间有源推论(Champion等,2021b,a)是一个框架,提议将规划视为贝叶斯模型扩展的形式。它的根源可以在有源推理中找到(Friston等,2016; Da Costa等,2020;冠军等,2021C),一种广泛用于脑建模的神经科学框架,以及蒙特卡罗树搜索(布朗等人,2012),一种广泛应用于加强学习文学的方法。到目前为止,通过利用变形消息通过(WinN和Bishop,2005)提供的灵活性来执行潜在变量的推断,该迭代过程可以被理解为沿着因子图的边缘发送消息(福尼,2001年)。在本文中,我们利用了替代方法的推理效率称为贝叶斯滤波(Fox等,2003),其不需要更新方程的迭代,直到变分自由能的收敛。相反,该方案在两个阶段交替交替:整合证据和未来国家的预测。这两个相可以有效地执行,并且这提供了通过最先进的七十倍的加速。
translated by 谷歌翻译
主动推断是建模大脑的最新框架,该框架解释了各种机制,例如习惯形成,多巴胺能排出和好奇心。最近,已经开发了基于蒙特卡洛树搜索的两个版本的分支时间活动推理(BTAI),以处理在计算所有可能的策略之前,直到时间范围的所有可能的策略时,都会发生指数(时空和时间)的复杂性类别。但是,这两个版本的BTAI仍然遭受指数复杂性类W.R.T的损失。在本文中,我们首先允许对几个观测值进行建模来解决此限制,每个观察都有其自己的可能性映射。同样,我们允许每个潜在状态都有自己的过渡映射。然后,推论算法利用了可能性和过渡映射的分解以加速后验计算。在DSPRITES环境上测试了这两个优化,其中DSPRITES数据集的元数据被用作模型的输入,而不是DSPRITES图像。在此任务上,$ btai_ {vmp} $(Champion等,2022b,a)能够在5.1秒内解决96.9 \%的任务,而$ btai_ {bf} $(Champion等,2021a)是能够在17.5秒内解决98.6 \%的任务。我们的新方法($ btai_ {3mf} $)通过仅在2.559秒内完整求解任务(100 \%),超过了其两个前任。最后,$ btai_ {3mf} $已在灵活且易于使用(Python)软件包中实现,我们开发了一个图形用户界面,以实现对模型信念,计划过程和行为的检查。
translated by 谷歌翻译
积极推断是复杂系统中的认知和行为的叙述,它在贝叶斯推论的理论地幔下举起动作,感知和学习。积极的推论已经看到学术研究中的应用越来越多,特别是在寻求模拟人类或动物行为的领域。虽然近年来,来自有效推理文献产生的一些代码已经用Python和Julia这样的开源语言编写,迄今为止,用于模拟活动推理代理的最流行的软件是SPM,Matlab库的DEM工具箱最初开发用于神经影像数据的统计分析和建模。因此,在纯粹的数字和科学学科的应用程序方面,表现出对积极推断的兴趣,因此为在开源科学计算语言中模拟了激活推论的通用,广泛可用的和用户友好的代码,这一切都表现为纯粹的数字以及跨科学学科的应用程序。像python。我们在这里呈现的Python包,Pymdp(参见https://github.com/fifer-active/pymdp)表示朝这个方向的重要一步:即,我们提供了用于模拟有源推断的第一个开源包,部分 - 可观察的马尔可夫决策过程或POMDPS。我们查看包的结构,并解释了模块化设计和定制等优点,同时提供沿着文本代码块,以便演示如何使用它以轻松地构建和运行主动推断过程。我们开发了PyMDP,以增加有效推理框架的可访问性和暴露于有多种纪律背景的研究人员,工程师和开发人员。本着开源软件的精神,我们也希望它在不断增长的积极推理界中产生新的创新,发展和合作。
translated by 谷歌翻译
有效计划的能力对于生物体和人造系统都是至关重要的。在认知神经科学和人工智能(AI)中广泛研究了基于模型的计划和假期,但是从不同的角度来看,以及难以调和的考虑(生物现实主义与可伸缩性)的不同意见(生物现实主义与可伸缩性)。在这里,我们介绍了一种新颖的方法来计划大型POMDP(Active Tree search(ACT)),该方法结合了神经科学中领先的计划理论的规范性特征和生物学现实主义(主动推论)和树木搜索方法的可扩展性AI。这种统一对两种方法都是有益的。一方面,使用树搜索可以使生物学接地的第一原理,主动推断的方法可应用于大规模问题。另一方面,主动推理为探索 - 开发困境提供了一种原则性的解决方案,该解决方案通常在树搜索方法中以启发性解决。我们的模拟表明,ACT成功地浏览了对基于抽样的方法,需要自适应探索的问题以及大型POMDP问题“ RockSample”的二进制树,其中ACT近似于最新的POMDP解决方案。此外,我们说明了如何使用ACT来模拟人类和其他解决大型计划问题的人类和其他动物的神经生理反应(例如,在海马和前额叶皮层)。这些数值分析表明,主动树搜索是神经科学和AI计划理论的原则性实现,既具有生物现实主义和可扩展性。
translated by 谷歌翻译
主动推断是建模生物学和人造药物的行为的概率框架,该框架源于最小化自由能的原理。近年来,该框架已成功地应用于各种情况下,其目标是最大程度地提高奖励,提供可比性,有时甚至是卓越的性能与替代方法。在本文中,我们通过演示如何以及何时进行主动推理代理执行最佳奖励的动作来阐明奖励最大化和主动推断之间的联系。确切地说,我们展示了主动推理为Bellman方程提供最佳解决方案的条件 - 这种公式是基于模型的增强学习和控制的几种方法。在部分观察到的马尔可夫决策过程中,标准的主动推理方案可以为计划视野1的最佳动作产生最佳动作,但不能超越。相比之下,最近开发的递归活跃推理方案(复杂的推理)可以在任何有限的颞范围内产生最佳作用。我们通过讨论主动推理和强化学习之间更广泛的关系来补充分析。
translated by 谷歌翻译
应用于潜在Dirichlet分配(LDA)的变形贝叶斯(VB)是LDA的原始推理机制。由于LDA在2013年的成立之后,LDA的许多VB变体以及VB一般都已开发,但标准VB仍然广泛应用于LDA。变形消息传递(VMP)是传递VB等同物的消息,并且是用于为大量共轭指数图形模型构建变分推断解决方案的有用工具(还有其他模型可用的非共轭变体)。在本文中,我们介绍了LDA的VMP方程,还提供了对方程的简要讨论。我们希望在导出其他类似图形模型的变分推理解决方案时,这将帮助其他人。
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
This paper presents a tutorial introduction to the use of variational methods for inference and learning in graphical models (Bayesian networks and Markov random fields). We present a number of examples of graphical models, including the QMR-DT database, the sigmoid belief network, the Boltzmann machine, and several variants of hidden Markov models, in which it is infeasible to run exact inference algorithms. We then introduce variational methods, which exploit laws of large numbers to transform the original graphical model into a simplified graphical model in which inference is efficient. Inference in the simpified model provides bounds on probabilities of interest in the original model. We describe a general framework for generating variational transformations based on convex duality. Finally we return to the examples and demonstrate how variational algorithms can be formulated in each case.
translated by 谷歌翻译
自由能原理及其必然的积极推论构成了一种生物启发的理论,该理论假设生物学作用保留在一个受限制的世界首选状态中,即它们最小化自由能。根据这一原则,生物学家学习了世界的生成模型和未来的计划行动,该模型将使代理保持稳态状态,以满足其偏好。该框架使自己在计算机中实现,因为它理解了使其计算负担得起的重要方面,例如变异推断和摊销计划。在这项工作中,我们研究了深度学习的工具,以设计和实现基于主动推断的人造代理,对自由能原理进行深入学习的呈现,调查工作与机器学习和主动推理领域相关,以及讨论实施过程中涉及的设计选择。该手稿探究了积极推理框架的新观点,将其理论方面扎根于更务实的事务中,为活跃推理的新手提供了实用指南,并为深度学习从业人员的起点提供了研究,以调查自由能源原则的实施。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
在本文中,我们呈现AIDA,它是一种积极推断的代理,可以通过与人类客户端的互动来迭代地设计个性化音频处理算法。 AIDA的目标应用是在助听器(HA)算法的调整参数的情况下,每当HA客户端对其HA性能不满意时,提出了最有趣的替代值。 AIDA解释搜索“最有趣的替代品”作为最佳(声学)背景感知贝叶斯试验设计的问题。在计算术语中,AIDA被实现为基于有源推断的药剂,具有预期的试验设计的自由能标准。这种类型的建筑受到高效(贝叶斯)试验设计的神经经济模型的启发,并意味着AIDA包括用于声学信号和用户响应的生成概率模型。我们提出了一种用于声学信号的新型生成模型作为基于高斯过程分类器的时变自自回归滤波器和用户响应模型的总和。已经在生成模型的因子图中实施了完整的AIDA代理,并且通过对因子图的变分消息来实现所有任务(参数学习,声学上下文分类,试验设计等)。所有验证和验证实验和演示都可以在我们的GitHub存储库中自由访问。
translated by 谷歌翻译
这是机器学习中(主要是)笔和纸练习的集合。练习在以下主题上:线性代数,优化,定向图形模型,无向图形模型,图形模型的表达能力,因子图和消息传递,隐藏马尔可夫模型的推断,基于模型的学习(包括ICA和非正态模型),采样和蒙特卡洛整合以及变异推断。
translated by 谷歌翻译
In many risk-aware and multi-objective reinforcement learning settings, the utility of the user is derived from a single execution of a policy. In these settings, making decisions based on the average future returns is not suitable. For example, in a medical setting a patient may only have one opportunity to treat their illness. Making decisions using just the expected future returns -- known in reinforcement learning as the value -- cannot account for the potential range of adverse or positive outcomes a decision may have. Therefore, we should use the distribution over expected future returns differently to represent the critical information that the agent requires at decision time by taking both the future and accrued returns into consideration. In this paper, we propose two novel Monte Carlo tree search algorithms. Firstly, we present a Monte Carlo tree search algorithm that can compute policies for nonlinear utility functions (NLU-MCTS) by optimising the utility of the different possible returns attainable from individual policy executions, resulting in good policies for both risk-aware and multi-objective settings. Secondly, we propose a distributional Monte Carlo tree search algorithm (DMCTS) which extends NLU-MCTS. DMCTS computes an approximate posterior distribution over the utility of the returns, and utilises Thompson sampling during planning to compute policies in risk-aware and multi-objective settings. Both algorithms outperform the state-of-the-art in multi-objective reinforcement learning for the expected utility of the returns.
translated by 谷歌翻译
象征性的AI社区越来越多地试图在神经符号结构中接受机器学习,但由于文化障碍,仍在挣扎。为了打破障碍,这份相当有思想的个人备忘录试图解释和纠正统计,机器学习和深入学习的惯例,从局外人的角度进行深入学习。它提供了一个分步协议,用于设计一个机器学习系统,该系统满足符号AI社区认真对待所必需的最低理论保证,即,它讨论“在哪些条件下,我们可以停止担心和接受统计机器学习。 “一些亮点:大多数教科书都是为计划专门研究STAT/ML/DL的人编写的,应该接受术语。该备忘录适用于经验丰富的象征研究人员,他们听到了很多嗡嗡声,但仍然不确定和持怀疑态度。有关STAT/ML/DL的信息目前太分散或嘈杂而无法投资。此备忘录优先考虑紧凑性,并特别注意与象征性范式相互共鸣的概念。我希望这份备忘录能节省时间。它优先考虑一般数学建模,并且不讨论任何特定的函数近似器,例如神经网络(NNS),SVMS,决策树等。它可以对校正开放。将此备忘录视为与博客文章相似的内容,采用有关Arxiv的论文的形式。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
探索开发权衡是在从机器学习,生物学到经济学的田地中的自适应行为描述的核心。虽然已经采取了许多方法,但解决了这笔权衡的一种方法已经装备或建议代理商拥有内在的“探索性驱动”,其经常在最大化关于世界的代理信息增益方面实施 - 一种方法 - 这一方法已广泛研究机器学习和认知科学。在本文中,我们在数学上调查这种方法的性质和意义,并证明了这种效用最大化和信息寻求行为的组合产生了我们称之为偏见目标的完全差异目标的最小化。我们提出了在\ EMPH {证据}目标之间的自适应行为潜在的目标职能的二分法,这与文献中的知名奖励或效用最大化目标最大化,而不是寻求最小化差异的目标代理人的预期和期望的期货,并争辩说,这一新的分歧目标可以为对自适应和智能行动的探索性成分进行更加丰富的理解,以超越简单的贪婪效用最大化。
translated by 谷歌翻译
已经引入了生成流量网络(GFlowNETS)作为在主动学习背景下采样多样化候选的方法,具有培训目标,其使它们与给定奖励功能成比例地进行比例。在本文中,我们显示了许多额外的GFLOWN的理论特性。它们可用于估计联合概率分布和一些变量未指定的相应边际分布,并且特别感兴趣地,可以代表像集合和图形的复合对象的分布。 Gflownets摊销了通常通过计算昂贵的MCMC方法在单个但训练有素的生成通行证中进行的工作。它们还可用于估计分区功能和自由能量,给定子集(子图)的超标(超图)的条件概率,以及给定集合(图)的所有超标仪(超图)的边际分布。我们引入了熵和相互信息估计的变体,从帕累托前沿采样,与奖励最大化策略的连接,以及随机环境的扩展,连续动作和模块化能量功能。
translated by 谷歌翻译