令人惊讶的事件触发了可衡量的大脑活动,并通过影响学习,记忆和决策来影响人类行为。但是,目前在惊喜的定义上尚无共识。在这里,我们确定了统一框架中惊喜的18个数学定义。我们首先将这些定义的技术分类基于它们对代理人的信念的依赖,展示它们如何相互关系,并在什么条件下证明它们是无法区分的。除了这项技术分析之外,我们提出了一个惊喜定义的分类法,并根据它们测量的数量将其分类为四个概念类别:(i)“预测惊喜”衡量预测与观察之间的不匹配; (ii)“变更点检测惊喜”衡量了环境变化的可能性; (iii)“信心校正的惊喜”明确说明了信心的影响; (iv)“信息获得惊喜”衡量了对新观察的信念更新。该分类法为大脑中功能作用和生理特征的原则研究奠定了基础。
translated by 谷歌翻译
主动推断是建模生物学和人造药物的行为的概率框架,该框架源于最小化自由能的原理。近年来,该框架已成功地应用于各种情况下,其目标是最大程度地提高奖励,提供可比性,有时甚至是卓越的性能与替代方法。在本文中,我们通过演示如何以及何时进行主动推理代理执行最佳奖励的动作来阐明奖励最大化和主动推断之间的联系。确切地说,我们展示了主动推理为Bellman方程提供最佳解决方案的条件 - 这种公式是基于模型的增强学习和控制的几种方法。在部分观察到的马尔可夫决策过程中,标准的主动推理方案可以为计划视野1的最佳动作产生最佳动作,但不能超越。相比之下,最近开发的递归活跃推理方案(复杂的推理)可以在任何有限的颞范围内产生最佳作用。我们通过讨论主动推理和强化学习之间更广泛的关系来补充分析。
translated by 谷歌翻译
自由能原理及其必然的积极推论构成了一种生物启发的理论,该理论假设生物学作用保留在一个受限制的世界首选状态中,即它们最小化自由能。根据这一原则,生物学家学习了世界的生成模型和未来的计划行动,该模型将使代理保持稳态状态,以满足其偏好。该框架使自己在计算机中实现,因为它理解了使其计算负担得起的重要方面,例如变异推断和摊销计划。在这项工作中,我们研究了深度学习的工具,以设计和实现基于主动推断的人造代理,对自由能原理进行深入学习的呈现,调查工作与机器学习和主动推理领域相关,以及讨论实施过程中涉及的设计选择。该手稿探究了积极推理框架的新观点,将其理论方面扎根于更务实的事务中,为活跃推理的新手提供了实用指南,并为深度学习从业人员的起点提供了研究,以调查自由能源原则的实施。
translated by 谷歌翻译
变异推理(VI)是一种特定类型的近似贝叶斯推断,它近似于棘手的后验分布,具有可拖动的分布。 VI将推论问题施加为优化问题,更具体地说,目标是最大程度地相对于近似后验参数,最大程度地提高边缘可能性的对数的下限。另一方面,强化学习(RL)涉及自主代理,以及如何使其最佳行动,例如最大程度地提高预期未来累积奖励的概念。在代理行动对未来环境状态没有影响的非顺序环境中,RL被上下文的土匪和贝叶斯优化涵盖。然而,在适当的顺序场景中,代理商的行为影响未来的州,即时需要对潜在的长期奖励进行仔细的奖励。该手稿显示了VI和RL的明显不同主题是如何通过两种基本方式链接的。首先,在非顺序和顺序设置中,在软策略约束下,可以通过VI目标恢复RL最大化未来累积奖励的优化目标。该政策限制不仅是人造的,而且在许多RL任务中被证明是有用的正规化程序,从而在代理性能方面得到了重大改进。其次,在基于模型的RL中,代理旨在了解其正在运行的环境,模型学习零件自然可以用作控制环境动态的过程中的推论问题。我们将区分后者的两种情况:VI时,当环境状态被代理和VI完全观察到,仅通过观察分布才能部分观察到它们。
translated by 谷歌翻译
积极推断是复杂系统中的认知和行为的叙述,它在贝叶斯推论的理论地幔下举起动作,感知和学习。积极的推论已经看到学术研究中的应用越来越多,特别是在寻求模拟人类或动物行为的领域。虽然近年来,来自有效推理文献产生的一些代码已经用Python和Julia这样的开源语言编写,迄今为止,用于模拟活动推理代理的最流行的软件是SPM,Matlab库的DEM工具箱最初开发用于神经影像数据的统计分析和建模。因此,在纯粹的数字和科学学科的应用程序方面,表现出对积极推断的兴趣,因此为在开源科学计算语言中模拟了激活推论的通用,广泛可用的和用户友好的代码,这一切都表现为纯粹的数字以及跨科学学科的应用程序。像python。我们在这里呈现的Python包,Pymdp(参见https://github.com/fifer-active/pymdp)表示朝这个方向的重要一步:即,我们提供了用于模拟有源推断的第一个开源包,部分 - 可观察的马尔可夫决策过程或POMDPS。我们查看包的结构,并解释了模块化设计和定制等优点,同时提供沿着文本代码块,以便演示如何使用它以轻松地构建和运行主动推断过程。我们开发了PyMDP,以增加有效推理框架的可访问性和暴露于有多种纪律背景的研究人员,工程师和开发人员。本着开源软件的精神,我们也希望它在不断增长的积极推理界中产生新的创新,发展和合作。
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
象征性的AI社区越来越多地试图在神经符号结构中接受机器学习,但由于文化障碍,仍在挣扎。为了打破障碍,这份相当有思想的个人备忘录试图解释和纠正统计,机器学习和深入学习的惯例,从局外人的角度进行深入学习。它提供了一个分步协议,用于设计一个机器学习系统,该系统满足符号AI社区认真对待所必需的最低理论保证,即,它讨论“在哪些条件下,我们可以停止担心和接受统计机器学习。 “一些亮点:大多数教科书都是为计划专门研究STAT/ML/DL的人编写的,应该接受术语。该备忘录适用于经验丰富的象征研究人员,他们听到了很多嗡嗡声,但仍然不确定和持怀疑态度。有关STAT/ML/DL的信息目前太分散或嘈杂而无法投资。此备忘录优先考虑紧凑性,并特别注意与象征性范式相互共鸣的概念。我希望这份备忘录能节省时间。它优先考虑一般数学建模,并且不讨论任何特定的函数近似器,例如神经网络(NNS),SVMS,决策树等。它可以对校正开放。将此备忘录视为与博客文章相似的内容,采用有关Arxiv的论文的形式。
translated by 谷歌翻译
积极推论的中央概念是,物理系统参数概率的内部状态在外部世界的状态下衡量。这些可以被视为代理人的信仰,以贝叶斯先前或后部表示。在这里,我们开始发展一般理论,这将告诉我们何时适合将国家解释为以这种方式代表信仰。我们专注于系统可以被解释为执行贝叶斯滤波或贝叶斯推断的情况。我们使用类别理论的技术提供对存在这种解释的方法的形式定义。
translated by 谷歌翻译
通过观察自己的行为来了解决策者的优先事项对于在医疗保健等决策过程中的透明度和问责制至关重要。尽管传统的政策学习方法几乎总是假定行为的平稳性,但在实践中几乎不正确:随着临床专业人员随着时间的流逝,医学实践不断发展。例如,随着医学界对器官移植的理解多年来的发展,一个相关的问题是:实际的器官分配政策如何发展?为了给出答案,我们希望采用一种政策学习方法,该方法提供了可解释的决策代表,尤其是捕获代理商对世界的非统计知识,并以离线方式运作。首先,我们将决策者的不断发展的行为对上下文的强盗进行了建模,并正式化了背景匪徒(ICB)的问题。其次,我们提出了两种混凝土算法作为解决方案,学习代理行为的学习参数和非参数表示。最后,使用真实和模拟数据进行肝移植,我们说明了我们方法的适用性和解释性,以及基准测试并验证其准确性。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
在过去的10到15年中,积极的推论有助于解释从习惯形成到多巴胺能放电甚至建模好奇心的各种脑机制。然而,当在将所有可能的策略上计算到时间范围内的所有可能的策略时,当前实现遭受指数(空间和时间)复杂性等级。 Fountas等人(2020)使用Monte Carlo树搜索解决这个问题,导致两个不同的任务中的令人印象深刻的结果。在本文中,我们提出了一种替代框架,其旨在通过铸造规划作为结构学习问题来统一树搜索和有效推论。然后呈现两个树搜索算法。首先将预期的自由能量及时向前传播(即,朝向叶子),而第二次向后传播(即,朝向根)。然后,我们证明前向和后向传播分别与主动推断和复杂的推断相关,从而阐明了这两个规划策略之间的差异。
translated by 谷歌翻译
我们提出了一个基于最小描述长度(MDL)原理的多任务加固学习的新颖框架。在我们称MDL-Control(MDL-C)的这种方法中,代理商在面临的任务中学习了共同的结构,然后将其提炼成更简单的表示,从而促进更快的收敛性和对新任务的概括。这样一来,MDL-C自然将适应性适应与任务分布的认知不确定性平衡。我们通过MDL原理与贝叶斯推论之间的正式联系来激励MDL-C,得出理论性能保证,并在离散和高维连续控制任务上证明了MDL-C的经验有效性。从经验上讲,该框架用于修改现有的策略优化方法,并在离散和高维连续控制问题中改善其多任务性能。
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
有效计划的能力对于生物体和人造系统都是至关重要的。在认知神经科学和人工智能(AI)中广泛研究了基于模型的计划和假期,但是从不同的角度来看,以及难以调和的考虑(生物现实主义与可伸缩性)的不同意见(生物现实主义与可伸缩性)。在这里,我们介绍了一种新颖的方法来计划大型POMDP(Active Tree search(ACT)),该方法结合了神经科学中领先的计划理论的规范性特征和生物学现实主义(主动推论)和树木搜索方法的可扩展性AI。这种统一对两种方法都是有益的。一方面,使用树搜索可以使生物学接地的第一原理,主动推断的方法可应用于大规模问题。另一方面,主动推理为探索 - 开发困境提供了一种原则性的解决方案,该解决方案通常在树搜索方法中以启发性解决。我们的模拟表明,ACT成功地浏览了对基于抽样的方法,需要自适应探索的问题以及大型POMDP问题“ RockSample”的二进制树,其中ACT近似于最新的POMDP解决方案。此外,我们说明了如何使用ACT来模拟人类和其他解决大型计划问题的人类和其他动物的神经生理反应(例如,在海马和前额叶皮层)。这些数值分析表明,主动树搜索是神经科学和AI计划理论的原则性实现,既具有生物现实主义和可扩展性。
translated by 谷歌翻译
This paper studies systematic exploration for reinforcement learning with rich observations and function approximation. We introduce a new model called contextual decision processes, that unifies and generalizes most prior settings. Our first contribution is a complexity measure, the Bellman rank , that we show enables tractable learning of near-optimal behavior in these processes and is naturally small for many well-studied reinforcement learning settings. Our second contribution is a new reinforcement learning algorithm that engages in systematic exploration to learn contextual decision processes with low Bellman rank. Our algorithm provably learns near-optimal behavior with a number of samples that is polynomial in all relevant parameters but independent of the number of unique observations. The approach uses Bellman error minimization with optimistic exploration and provides new insights into efficient exploration for reinforcement learning with function approximation.
translated by 谷歌翻译
强化学习中的信用作业是衡量行动对未来奖励的影响的问题。特别是,这需要从运气中分离技能,即解除外部因素和随后的行动对奖励行动的影响。为实现这一目标,我们将来自因果关系的反事件的概念调整为无模型RL设置。关键思想是通过学习从轨迹中提取相关信息来应对未来事件的价值函数。我们制定了一系列政策梯度算法,这些算法使用这些未来条件的价值函数作为基准或批评,并表明它们是可怕的差异。为避免对未来信息的调理潜在偏见,我们将后视信息限制为不包含有关代理程序行为的信息。我们展示了我们对许多说明性和具有挑战性问题的算法的功效和有效性。
translated by 谷歌翻译
预测性编码提供了对皮质功能的潜在统一说明 - 假设大脑的核心功能是最小化有关世界生成模型的预测错误。该理论与贝叶斯大脑框架密切相关,在过去的二十年中,在理论和认知神经科学领域都产生了重大影响。基于经验测试的预测编码的改进和扩展的理论和数学模型,以及评估其在大脑中实施的潜在生物学合理性以及该理论所做的具体神经生理学和心理学预测。尽管存在这种持久的知名度,但仍未对预测编码理论,尤其是该领域的最新发展进行全面回顾。在这里,我们提供了核心数学结构和预测编码的逻辑的全面综述,从而补充了文献中最新的教程。我们还回顾了该框架中的各种经典和最新工作,从可以实施预测性编码的神经生物学现实的微电路到预测性编码和广泛使用的错误算法的重新传播之间的紧密关系,以及对近距离的调查。预测性编码和现代机器学习技术之间的关系。
translated by 谷歌翻译
我们介绍了一种改进政策改进的方法,该方法在基于价值的强化学习(RL)的贪婪方法与基于模型的RL的典型计划方法之间进行了插值。新方法建立在几何视野模型(GHM,也称为伽马模型)的概念上,该模型对给定策略的折现状态验证分布进行了建模。我们表明,我们可以通过仔细的基本策略GHM的仔细组成,而无需任何其他学习,可以评估任何非马尔科夫策略,以固定的概率在一组基本马尔可夫策略之间切换。然后,我们可以将广义政策改进(GPI)应用于此类非马尔科夫政策的收集,以获得新的马尔可夫政策,通常将其表现优于其先驱。我们对这种方法提供了彻底的理论分析,开发了转移和标准RL的应用,并在经验上证明了其对标准GPI的有效性,对充满挑战的深度RL连续控制任务。我们还提供了GHM培训方法的分析,证明了关于先前提出的方法的新型收敛结果,并显示了如何在深度RL设置中稳定训练这些模型。
translated by 谷歌翻译
已经引入了生成流量网络(GFlowNETS)作为在主动学习背景下采样多样化候选的方法,具有培训目标,其使它们与给定奖励功能成比例地进行比例。在本文中,我们显示了许多额外的GFLOWN的理论特性。它们可用于估计联合概率分布和一些变量未指定的相应边际分布,并且特别感兴趣地,可以代表像集合和图形的复合对象的分布。 Gflownets摊销了通常通过计算昂贵的MCMC方法在单个但训练有素的生成通行证中进行的工作。它们还可用于估计分区功能和自由能量,给定子集(子图)的超标(超图)的条件概率,以及给定集合(图)的所有超标仪(超图)的边际分布。我们引入了熵和相互信息估计的变体,从帕累托前沿采样,与奖励最大化策略的连接,以及随机环境的扩展,连续动作和模块化能量功能。
translated by 谷歌翻译
The notion of uncertainty is of major importance in machine learning and constitutes a key element of machine learning methodology. In line with the statistical tradition, uncertainty has long been perceived as almost synonymous with standard probability and probabilistic predictions. Yet, due to the steadily increasing relevance of machine learning for practical applications and related issues such as safety requirements, new problems and challenges have recently been identified by machine learning scholars, and these problems may call for new methodological developments. In particular, this includes the importance of distinguishing between (at least) two different types of uncertainty, often referred to as aleatoric and epistemic. In this paper, we provide an introduction to the topic of uncertainty in machine learning as well as an overview of attempts so far at handling uncertainty in general and formalizing this distinction in particular.
translated by 谷歌翻译