在机器学习中的局部更新规则和基于机器学习中的全局梯度的优化存在越来越大的融合。一种特别激励的连接是预测编码网络中本地知识优化与用于培训最先进的深层人工神经网络的错误反向验证算法之间的对应关系。在这里,我们专注于相关的预测编码网络中的精度加权与深神经网络的自然梯度下降算法之间的相关,但仍然很大程度上是探讨的联系。精确加权预测编码是一种有趣的候选者,用于缩放不确定性感知优化 - 特别是对于具有大参数空间的模型 - 由于其分布式性质以及渔民信息度量的底层局部近似,自适应学习自然梯度下降的速率。在这里,我们表明,具有学习精度的分层预测编码网络确实能够解决具有与天然梯度的全局反向化的性能相当的各种监督和无监督的学习任务,并且优于其经典梯度下降对应对方,其中嵌入了高量噪声的任务或标签输入。当应用于未经监视的图像输入的自动编码时,确定性网络产生分层组织和解散的嵌入,暗示在预测编码和分层变分或分化推理之间的密切连接处。
translated by 谷歌翻译
我们目前PredProp,在神经网络中的权重,活动双向,并行和局部优化和精确的方法。 PredProp共同地址推理和学习,学习秤动态速率和权重梯度的损失函数的曲率通过优化预测误差精度。 PredProp优化上本地可用于每个层的预测误差和变量严格基于与随机梯度下降和错误向前传播网络参数。相邻层可优化共享活动变量,使得预测误差可以在网络中向前传播,而预测向后传播。该方法尽量减少消极自由能,或证据下界整个网络。我们表明,PredProp训练的网络类似于基于梯度的预测编码时的权重的邻国活动变量之间的数量是一个。对比相关的工作,PredProp概括朝任意深度的向后的连接和对任何深网络架构优化精度。由于预测误差精度和Fisher信息针对每一层之间的类比,PredProp实现自然梯度下降的一种形式。当优化DNN模型,逐层PredProp渲染模型的双向预测编码网络。另外DNNs可以参数化2个活动变量之间的权重。我们评估PredProp为简单的推理,学习并结合任务密集DNNs。我们证明了,没有在网络中一个明确的采样工序,PredProp实现变推理的形式,允许从少量的更复杂的任务和数据集,以今后的工作数据和假评估的学习解开的嵌入。
translated by 谷歌翻译
本文涉及可微分的动态模型,与神经过程理论一致,铸造大脑功能作为内部生成模型解释观察的分层改进。我们的工作扩展了基于梯度的预测编码的现有实现,具有自动分化,并允许对非线性状态参数化进行深度神经网络。基于梯度的预测编码通过优化从刺激传播到潜伏状态的精度加权预测误差,优化了每个层的推断状态和重量。预测向后流动,从潜在状态朝向下层。这里建议的模型优化了潜在状态的分层和动态预测。分层预测编码预期内容和分层结构。动态预测捕获编码内容的变化以及更高阶导数。分层和动态预测相互作用并解决相同潜在状态的不同方面。我们将模型应用于顺序数据的各种感知和规划任务,并显示其相互依赖。特别是,我们演示了如何在离散时间步骤中采样的并行地址中的抽样距离的抽样距离。我们讨论了放松线性层次结构的可能性,以满足具有紧急特性的更灵活的图形结构。我们将模型的颗粒结构与描述生物网络中的预测编码的规范微电路进行比较,并查看与Markov橡皮布的连接作为表征模块化的工具。最后一节草图为嵌套的时空层次结构中有效的感知和规划的想法。
translated by 谷歌翻译
预测性编码(PC)是计算神经科学中的有影响力的理论,它认为皮层通过实施层次结构的预测误差最小化过程来形成无监督的世界模型。 PC网络(PCN)分为两个阶段。首先,更新神经活动以优化网络对外部刺激的反应。其次,更新突触权重以整合活动中的这种变化 - 一种称为\ emph {前瞻性配置}的算法。虽然先前的工作已经显示了如何在各种限制下发现近似倒流(BP),但最近的工作表明,在该标准制度中运行的PCN不近似BP,但仍获得了竞争性培训和广泛性培训,以进行BP训练。网络在诸如在线,几乎没有射击和持续学习之类的任务上的网络效果超过了它们,在该任务中,大脑擅长于大脑。尽管这种有希望的经验表现,但理论上对PCN的性质和动力学在该制度中的理解很少。在本文中,我们对经过预期配置训练的PCN的性质进行了全面的理论分析。我们首先得出有关PCN的推理平衡以及与目标传播(TP)的紧密联系关系的分析结果。其次,我们提供了PCN中学习的理论分析,作为广义期望最大化的变体,并使用它来证明PCN与BP损耗函数的关键点的收敛性,从而表明,从理论上讲,深色PCN可以实现相同的实现。作为BP的概括性能,同时保持其独特的优势。
translated by 谷歌翻译
预测性编码提供了对皮质功能的潜在统一说明 - 假设大脑的核心功能是最小化有关世界生成模型的预测错误。该理论与贝叶斯大脑框架密切相关,在过去的二十年中,在理论和认知神经科学领域都产生了重大影响。基于经验测试的预测编码的改进和扩展的理论和数学模型,以及评估其在大脑中实施的潜在生物学合理性以及该理论所做的具体神经生理学和心理学预测。尽管存在这种持久的知名度,但仍未对预测编码理论,尤其是该领域的最新发展进行全面回顾。在这里,我们提供了核心数学结构和预测编码的逻辑的全面综述,从而补充了文献中最新的教程。我们还回顾了该框架中的各种经典和最新工作,从可以实施预测性编码的神经生物学现实的微电路到预测性编码和广泛使用的错误算法的重新传播之间的紧密关系,以及对近距离的调查。预测性编码和现代机器学习技术之间的关系。
translated by 谷歌翻译
神经生成模型可用于学习从数据的复杂概率分布,从它们中进行采样,并产生概率密度估计。我们提出了一种用于开发由大脑预测处理理论启发的神经生成模型的计算框架。根据预测加工理论,大脑中的神经元形成一个层次结构,其中一个级别的神经元形成关于来自另一个层次的感觉输入的期望。这些神经元根据其期望与观察到的信号之间的差异更新其本地模型。以类似的方式,我们的生成模型中的人造神经元预测了邻近的神经元的作用,并根据预测匹配现实的程度来调整它们的参数。在这项工作中,我们表明,在我们的框架内学到的神经生成模型在练习中跨越多个基准数据集和度量来表现良好,并且保持竞争或显着优于具有类似功能的其他生成模型(例如变形自动编码器)。
translated by 谷歌翻译
预测编码(PC)是皮质功能的一般理论。最近显示了一种PC模型中的本地梯度的学习规则,以密切近似近似。该发现表明,基于梯度的PC模型可能有助于了解大脑如何解决信用分配问题。该模型也可用于开发与神经族硬件兼容的局部学习算法。在本文中,我们修改了该PC模型,使其更好地适合生物限制,包括神经元只能具有正射击率的约束和突触只在一个方向上流动的约束。我们还计算基于梯度的权重和活动更新,给定修改的活动值。我们表明,在某些条件下,这些修改后的PC网络也表现出或几乎在MNIST数据中作为未修改的PC模型和具有BackPropagation培训的网络。
translated by 谷歌翻译
大脑如何执行信用分配是神经科学中的基本未解决问题。已经提出了许多“生物学上合理的”算法,这些算法计算了近似通过反向传播计算的梯度(BP),并以更紧密地满足神经回路施加的约束的方式运行。许多这样的算法都利用了基于能量的模型(EBM)的框架,其中对模型中的所有自由变量进行了优化以最大程度地减少全局能量函数。但是,在文献中,这些算法存在于孤立状态,没有将它们联系在一起的统一理论。在这里,我们提供了一个全面的理论,说明EBM可以近似BP的条件,这使我们能够统一许多BP近似值导致文献中的许多BP近似(即预测性编码,平衡传播和HEBBIAN学习),并证明它们的近似值均为BP源于自由相平衡处EBM的简单和一般数学特性。然后可以通过不同的能量函数以不同的方式利用该属性,这些特定选择产生了BP Approxatimating算法的家族,两者都包含文献中的已知结果,并且可用于得出新的结果。
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
A large amount of recent research has the far-reaching goal of finding training methods for deep neural networks that can serve as alternatives to backpropagation (BP). A prominent example is predictive coding (PC), which is a neuroscience-inspired method that performs inference on hierarchical Gaussian generative models. These methods, however, fail to keep up with modern neural networks, as they are unable to replicate the dynamics of complex layers and activation functions. In this work, we solve this problem by generalizing PC to arbitrary probability distributions, enabling the training of architectures, such as transformers, that are hard to approximate with only Gaussian assumptions. We perform three experimental analyses. First, we study the gap between our method and the standard formulation of PC on multiple toy examples. Second, we test the reconstruction quality on variational autoencoders, where our method reaches the same reconstruction quality as BP. Third, we show that our method allows us to train transformer networks and achieve a performance comparable with BP on conditional language models. More broadly, this method allows neuroscience-inspired learning to be applied to multiple domains, since the internal distributions can be flexibly adapted to the data, tasks, and architectures used.
translated by 谷歌翻译
预测编码网络(PCN)旨在学习世界的生成模型。给定观察结果,可以倒入该生成模型以推断这些观察结果的原因。但是,当训练PCNS时,通常会观察到明显的病理学,而推理精度峰值峰值,然后通过进一步的训练下降。这不能通过过度拟合来解释,因为训练和测试准确性同时降低。在这里,我们对这种现象进行了彻底的研究,并表明它是由PCN层面各个层之间的速度之间的不平衡引起的。我们证明,可以通过在每一层的重量矩阵正规化:限制矩阵奇异值的相对大小来防止这一点,我们允许重量矩阵改变,但限制了一层可以对其邻居产生的整体影响。我们还证明,通过仅限制权重的更加合理和简单的方案,可以实现类似的效果。
translated by 谷歌翻译
深度神经网络在图像分类中Excel Excel,但它们对输入扰动的性能比人类感知更强。在这项工作中,我们可以通过在深卷积网络中纳入脑激发的经常性动态来探讨此缺点是否可以部分地解决。我们从神经科学的一个受欢迎的框架中获取灵感:“预测编码”。在分层模型的每层,生成反馈'预测'(即,重建)前一层中的活动模式。重建错误用于迭代地更新时间间隔内的网络的表示,并通过自然图像数据集来优化网络的反馈权重 - 一种无监督的培训形式。我们展示将此策略实施到两个流行的网络中,VGG16和高效网络,从而提高了对各种损坏和对抗的攻击的鲁棒性。我们假设其他前馈网络可以类似地受益于所提出的框架。为了在这种方向上促进研究,我们提供称为PRIGEIFY的基于开放的Pytorch的包,其可用于实施和研究预测编码动态在任何卷积神经网络中的影响。
translated by 谷歌翻译
贝叶斯脑假设假设大脑根据贝叶斯定理进行准确地运行统计分布。突触前囊泡释放神经递质的随机性失效可以让大脑从网络参数的后部分布中样本,被解释为认知不确定性。尚未显示出先前随机故障可能允许网络从观察到的分布中采样,也称为炼肠或残留不确定性。两个分布的采样使概率推断,高效搜索和创造性或生成问题解决。我们证明,在基于人口码的神经活动的解释下,可以用单独的突触衰竭来表示和对两种类型的分布进行分布。我们首先通过突触故障和横向抑制来定义生物学限制的神经网络和采样方案。在该框架内,我们派生基于辍学的认知不确定性,然后从突触功效证明了允许网络从任意,由接收层表示的分布来释放概率的分析映射。其次,我们的结果导致了本地学习规则,突触将适应其发布概率。我们的结果表明,在生物学限制的网络中,仅使用本地学习的突触失败率,与变分的贝叶斯推断相关的完整贝叶斯推断。
translated by 谷歌翻译
Models of sensory processing and learning in the cortex need to efficiently assign credit to synapses in all areas. In deep learning, a known solution is error backpropagation, which however requires biologically implausible weight transport from feed-forward to feedback paths. We introduce Phaseless Alignment Learning (PAL), a bio-plausible method to learn efficient feedback weights in layered cortical hierarchies. This is achieved by exploiting the noise naturally found in biophysical systems as an additional carrier of information. In our dynamical system, all weights are learned simultaneously with always-on plasticity and using only information locally available to the synapses. Our method is completely phase-free (no forward and backward passes or phased learning) and allows for efficient error propagation across multi-layer cortical hierarchies, while maintaining biologically plausible signal transport and learning. Our method is applicable to a wide class of models and improves on previously known biologically plausible ways of credit assignment: compared to random synaptic feedback, it can solve complex tasks with less neurons and learn more useful latent representations. We demonstrate this on various classification tasks using a cortical microcircuit model with prospective coding.
translated by 谷歌翻译
Large multilayer neural networks trained with backpropagation have recently achieved state-ofthe-art results in a wide range of problems. However, using backprop for neural net learning still has some disadvantages, e.g., having to tune a large number of hyperparameters to the data, lack of calibrated probabilistic predictions, and a tendency to overfit the training data. In principle, the Bayesian approach to learning neural networks does not have these problems. However, existing Bayesian techniques lack scalability to large dataset and network sizes. In this work we present a novel scalable method for learning Bayesian neural networks, called probabilistic backpropagation (PBP). Similar to classical backpropagation, PBP works by computing a forward propagation of probabilities through the network and then doing a backward computation of gradients. A series of experiments on ten real-world datasets show that PBP is significantly faster than other techniques, while offering competitive predictive abilities. Our experiments also show that PBP provides accurate estimates of the posterior variance on the network weights.
translated by 谷歌翻译
在基于人工神经网络的终身学习系统中,最大的障碍之一是在遇到新信息时无法保留旧知识。这种现象被称为灾难性遗忘。在本文中,我们提出了一种新型的连接主义架构,即顺序的神经编码网络,在从数据点流中学习时忘记了,并且与当今的网络不同,它不会通过流行的错误反向传播来学习。基于预测性处理的神经认知理论,我们的模型以生物学上可行的方式适应了突触,而另一个神经系统学会了指导和控制这种类似皮层的结构,模仿了一些基础神经节的某些任务连续控制功能。在我们的实验中,我们证明了与标准神经模型相比,我们的自组织系统经历的遗忘大大降低,表现优于先前提出的方法,包括基于排练/数据缓冲的方法,包括标准(SplitMnist,SplitMnist,Split Mnist等) 。)和定制基准测试,即使以溪流式的方式进行了训练。我们的工作提供了证据表明,在实际神经元系统中模仿机制,例如本地学习,横向竞争,可以产生新的方向和可能性,以应对终身机器学习的巨大挑战。
translated by 谷歌翻译
平衡系统是表达神经计算的有力方法。作为特殊情况,它们包括对神经科学和机器学习的最新兴趣模型,例如平衡复发性神经网络,深度平衡模型或元学习。在这里,我们提出了一个新的原则,用于学习具有时间和空间本地规则的此类系统。我们的原理将学习作为一个最不控制的问题,我们首先引入一个最佳控制器,以将系统带入解决方案状态,然后将学习定义为减少达到这种状态所需的控制量。我们表明,将学习信号纳入动力学作为最佳控制可以以先前未知的方式传输信用分配信息,避免将中间状态存储在内存中,并且不依赖无穷小的学习信号。在实践中,我们的原理可以使基于梯度的学习方法的强大绩效匹配,该方法应用于涉及复发性神经网络和元学习的一系列问题。我们的结果阐明了大脑如何学习并提供解决广泛的机器学习问题的新方法。
translated by 谷歌翻译
现代深度学习方法构成了令人难以置信的强大工具,以解决无数的挑战问题。然而,由于深度学习方法作为黑匣子运作,因此与其预测相关的不确定性往往是挑战量化。贝叶斯统计数据提供了一种形式主义来理解和量化与深度神经网络预测相关的不确定性。本教程概述了相关文献和完整的工具集,用于设计,实施,列车,使用和评估贝叶斯神经网络,即使用贝叶斯方法培训的随机人工神经网络。
translated by 谷歌翻译
The success of machine learning algorithms generally depends on data representation, and we hypothesize that this is because different representations can entangle and hide more or less the different explanatory factors of variation behind the data. Although specific domain knowledge can be used to help design representations, learning with generic priors can also be used, and the quest for AI is motivating the design of more powerful representation-learning algorithms implementing such priors. This paper reviews recent work in the area of unsupervised feature learning and deep learning, covering advances in probabilistic models, auto-encoders, manifold learning, and deep networks. This motivates longer-term unanswered questions about the appropriate objectives for learning good representations, for computing representations (i.e., inference), and the geometrical connections between representation learning, density estimation and manifold learning.
translated by 谷歌翻译
Compared to point estimates calculated by standard neural networks, Bayesian neural networks (BNN) provide probability distributions over the output predictions and model parameters, i.e., the weights. Training the weight distribution of a BNN, however, is more involved due to the intractability of the underlying Bayesian inference problem and thus, requires efficient approximations. In this paper, we propose a novel approach for BNN learning via closed-form Bayesian inference. For this purpose, the calculation of the predictive distribution of the output and the update of the weight distribution are treated as Bayesian filtering and smoothing problems, where the weights are modeled as Gaussian random variables. This allows closed-form expressions for training the network's parameters in a sequential/online fashion without gradient descent. We demonstrate our method on several UCI datasets and compare it to the state of the art.
translated by 谷歌翻译