尽管对生物学上合理的学习规则进行了广泛的理论工作,但很难获得有关大脑中是否以及如何实施此类规则的明确证据。我们考虑在生物学上合理的监督和加强学习规则,并询问学习过程中网络活动的变化是否可以用于确定正在使用哪种学习规则。有监督的学习需要一个信用分配模型来估计从神经活动到行为的映射,并且在生物生物体中,该模型将不可避免地是理想映射的不完善的近似,从而导致相对于重量更新的偏见真正的梯度。另一方面,强化学习不需要信用分配模型,并且倾向于按照真正的梯度方向进行体重更新。我们得出一个指标,通过观察学习过程中网络活动的变化来区分学习规则,鉴于实验者已经知道了从大脑到行为的映射。由于脑机界面(BMI)实验允许对该映射进行完美了解,因此我们专注于使用复发性神经网络对光标控制BMI任务进行建模,这表明可以在模拟实验中使用神经科学实验者将在模拟实验中进行区分,以区分学习规则。合理地可以访问。
translated by 谷歌翻译
Synaptic plasticity allows cortical circuits to learn new tasks and to adapt to changing environments. How do cortical circuits use plasticity to acquire functions such as decision-making or working memory? Neurons are connected in complex ways, forming recurrent neural networks, and learning modifies the strength of their connections. Moreover, neurons communicate emitting brief discrete electric signals. Here we describe how to train recurrent neural networks in tasks like those used to train animals in neuroscience laboratories, and how computations emerge in the trained networks. Surprisingly, artificial networks and real brains can use similar computational strategies.
translated by 谷歌翻译
The spectacular successes of recurrent neural network models where key parameters are adjusted via backpropagation-based gradient descent have inspired much thought as to how biological neuronal networks might solve the corresponding synaptic credit assignment problem. There is so far little agreement, however, as to how biological networks could implement the necessary backpropagation through time, given widely recognized constraints of biological synaptic network signaling architectures. Here, we propose that extra-synaptic diffusion of local neuromodulators such as neuropeptides may afford an effective mode of backpropagation lying within the bounds of biological plausibility. Going beyond existing temporal truncation-based gradient approximations, our approximate gradient-based update rule, ModProp, propagates credit information through arbitrary time steps. ModProp suggests that modulatory signals can act on receiving cells by convolving their eligibility traces via causal, time-invariant and synapse-type-specific filter taps. Our mathematical analysis of ModProp learning, together with simulation results on benchmark temporal tasks, demonstrate the advantage of ModProp over existing biologically-plausible temporal credit assignment rules. These results suggest a potential neuronal mechanism for signaling credit information related to recurrent interactions over a longer time horizon. Finally, we derive an in-silico implementation of ModProp that could serve as a low-complexity and causal alternative to backpropagation through time.
translated by 谷歌翻译
平衡系统是表达神经计算的有力方法。作为特殊情况,它们包括对神经科学和机器学习的最新兴趣模型,例如平衡复发性神经网络,深度平衡模型或元学习。在这里,我们提出了一个新的原则,用于学习具有时间和空间本地规则的此类系统。我们的原理将学习作为一个最不控制的问题,我们首先引入一个最佳控制器,以将系统带入解决方案状态,然后将学习定义为减少达到这种状态所需的控制量。我们表明,将学习信号纳入动力学作为最佳控制可以以先前未知的方式传输信用分配信息,避免将中间状态存储在内存中,并且不依赖无穷小的学习信号。在实践中,我们的原理可以使基于梯度的学习方法的强大绩效匹配,该方法应用于涉及复发性神经网络和元学习的一系列问题。我们的结果阐明了大脑如何学习并提供解决广泛的机器学习问题的新方法。
translated by 谷歌翻译
深度学习的成功激发了人们对大脑是否使用基于梯度的学习来学习层次结构表示的兴趣。但是,目前在深层神经网络中基于梯度的信用分配的生物学上合理的方法需要无限的小反馈信号,这在生物学上现实的嘈杂环境中是有问题的,并且与神经科学的实验证据不符,表明自上而下的反馈可以显着影响神经活动。在最近提出的一种信用分配方法的深度反馈控制(DFC)的基础上,我们结合了对神经活动的强烈反馈影响与基​​于梯度的学习,并表明这自然会导致对神经网络优化的新看法。权重更新并没有逐渐将网络权重转换为具有低输出损失的配置,而是逐渐最大程度地减少了将网络驱动到监督输出标签的控制器所需的反馈量。此外,我们表明,在DFC中使用强反馈的使用允许同时学习和反馈连接,并在时空中完全本地学习规则。我们通过对标准计算机视觉基准测试的实验来补充我们的理论结果,显示了反向传播的竞争性能以及对噪声的鲁棒性。总体而言,我们的工作提出了一种从根本上新颖的学习视图,作为控制最小化,同时避开了生物学上不切实际的假设。
translated by 谷歌翻译
动物行为是由与不同控制策略并行工作的多个大脑区域驱动的。我们提出了基础神经节中损失钢筋学习的生物学上合理的模型,该模型可以在这种建筑中学习。该模型说明了与动作相关的多巴胺活动调制,该调制不是由实现政策算法的以前模型捕获的。特别是,该模型预测,多巴胺活动标志着奖励预测误差(如经典模型)和“动作惊喜”的组合,这是对动作相对于基础神经节的当前政策的意外程度的衡量标准。在存在动作惊喜项的情况下,该模型实现了Q学习的近似形式。在基准导航和达到任务上,我们从经验上表明,该模型能够完全或部分由其他策略(例如其他大脑区域)学习。相比之下,没有动作惊喜术语的模型在存在其他政策的情况下遭受了损失,并且根本无法从完全由外部驱动的行为中学习。该模型为多巴胺活性提供了许多实验发现,提供了一个计算说明,这是基础神经节中的经典增强模型无法解释的。这些包括背侧和腹侧纹状体中不同水平的动作惊喜信号,通过实践减少了运动调节的多巴胺活性的量以及多巴胺活性的动作起始和运动学的表示。它还提供了进一步的预测,可以通过纹状体多巴胺活性的记录进行测试。
translated by 谷歌翻译
预测性编码提供了对皮质功能的潜在统一说明 - 假设大脑的核心功能是最小化有关世界生成模型的预测错误。该理论与贝叶斯大脑框架密切相关,在过去的二十年中,在理论和认知神经科学领域都产生了重大影响。基于经验测试的预测编码的改进和扩展的理论和数学模型,以及评估其在大脑中实施的潜在生物学合理性以及该理论所做的具体神经生理学和心理学预测。尽管存在这种持久的知名度,但仍未对预测编码理论,尤其是该领域的最新发展进行全面回顾。在这里,我们提供了核心数学结构和预测编码的逻辑的全面综述,从而补充了文献中最新的教程。我们还回顾了该框架中的各种经典和最新工作,从可以实施预测性编码的神经生物学现实的微电路到预测性编码和广泛使用的错误算法的重新传播之间的紧密关系,以及对近距离的调查。预测性编码和现代机器学习技术之间的关系。
translated by 谷歌翻译
错误 - 背面范围(BackProp)算法仍然是人工神经网络中信用分配问题的最常见解决方案。在神经科学中,尚不清楚大脑是否可以采用类似的策略来纠正其突触。最近的模型试图弥合这一差距,同时与一系列实验观察一致。但是,这些模型要么无法有效地跨多层返回误差信号,要么需要多相学习过程,它们都不让人想起大脑中的学习。在这里,我们介绍了一种新模型,破裂的皮质皮质网络(BUSTCCN),该网络通过整合了皮质网络的已知特性,即爆发活动,短期可塑性(STP)和dendrite-target-targeting Interneurons来解决这些问题。 BUSTCCN依赖于连接型特异性STP的突发多路复用来传播深层皮质网络中的反向Prop样误差信号。这些误差信号是在远端树突上编码的,由于兴奋性抑制性抑制性倒入输入而诱导爆发依赖性可塑性。首先,我们证明我们的模型可以使用单相学习过程有效地通过多层回溯错误。接下来,我们通过经验和分析表明,在我们的模型中学习近似反向推广的梯度。最后,我们证明我们的模型能够学习复杂的图像分类任务(MNIST和CIFAR-10)。总体而言,我们的结果表明,跨细胞,细胞,微电路和系统水平的皮质特征共同基于大脑中的单相有效深度学习。
translated by 谷歌翻译
人类可以通过最小的相互干扰连续学习几项任务,但一次接受多个任务进行培训时的表现较差。标准深神经网络相反。在这里,我们提出了针对人工神经网络的新型计算限制,灵感来自灵长类动物前额叶皮层的较​​早作品,以捕获交织训练的成本,并允许网络在不忘记的情况下按顺序学习两个任务。我们通过两个算法主题,所谓的“呆滞”任务单元和HEBBIAN训练步骤增强了标准随机梯度下降,该步骤加强了任务单元和编码与任务相关信息的隐藏单元之间的连接。我们发现,“缓慢”的单元在培训期间引入了转换成本,该单元在交错训练下偏向表示的表示,而忽略了上下文提示的联合表示,而Hebbian步骤则促进了从任务单元到隐藏层的门控方案的形成这会产生正交表示,完全防止干扰。在先前发布的人类行为数据上验证该模型表明,它与接受过封锁或交错课程训练的参与者的表现相匹配,并且这些绩效差异是由真实类别边界的误解驱动的。
translated by 谷歌翻译
电机控制中的一个主要问题是了解大脑计划的计划,并在面对延迟和嘈杂的刺激面前执行适当的运动。解决这种控制问题的突出框架是最佳反馈控制(OFC)。 OFC通过将嘈杂的感官刺激和使用卡尔曼滤波器或其扩展集成内部模型的预测来生成优化行为相关标准的控制操作。然而,缺乏Kalman滤波和控制的令人满意的神经模型,因为现有的提案具有以下限制:不考虑感官反馈的延迟,交替阶段的训练,以及需要了解噪声协方差矩阵,以及系统动态。此外,这些研究中的大多数考虑了卡尔曼滤波的隔离,而不是与控制联合。为了解决这些缺点,我们介绍了一种新的在线算法,它将自适应卡尔曼滤波与模型自由控制方法相结合(即,策略梯度算法)。我们在具有局部突触塑性规则的生物合理的神经网络中实现该算法。该网络执行系统识别和卡尔曼滤波,而无需多个阶段,具有不同的更新规则或噪声协方差的知识。在内部模型的帮助下,它可以使用延迟感官反馈执行状态估计。它在不需要任何信息知识的情况下了解控制政策,从而避免需要重量运输。通过这种方式,我们的OFC实施解决了在存在刺激延迟存在下生产适当的感官电动机控制所需的信用分配问题。
translated by 谷歌翻译
Models of sensory processing and learning in the cortex need to efficiently assign credit to synapses in all areas. In deep learning, a known solution is error backpropagation, which however requires biologically implausible weight transport from feed-forward to feedback paths. We introduce Phaseless Alignment Learning (PAL), a bio-plausible method to learn efficient feedback weights in layered cortical hierarchies. This is achieved by exploiting the noise naturally found in biophysical systems as an additional carrier of information. In our dynamical system, all weights are learned simultaneously with always-on plasticity and using only information locally available to the synapses. Our method is completely phase-free (no forward and backward passes or phased learning) and allows for efficient error propagation across multi-layer cortical hierarchies, while maintaining biologically plausible signal transport and learning. Our method is applicable to a wide class of models and improves on previously known biologically plausible ways of credit assignment: compared to random synaptic feedback, it can solve complex tasks with less neurons and learn more useful latent representations. We demonstrate this on various classification tasks using a cortical microcircuit model with prospective coding.
translated by 谷歌翻译
在双替代强制选择任务中,先验知识可以提高性能,特别是在靠近心理物理阈值的操作时。例如,如果主题知道一个选择比另一个更有可能更有可能,则可以在证据疲软时使其选择。这些任务的常见假设是先前储存在神经活动中。在这里,我们提出了一个不同的假设:之前的储存在突触强度中。我们研究国际脑实验室任务,其中光栅出现在屏幕的右侧或左侧,鼠标必须移动一个轮子将光栅带到中心。相反,光栅通常是低的,这使得任务相对困难,并且光栅出现在右侧的现有概率是80%或20%,其(无罪)的约50试验块。我们将其模拟作为增强学习任务,使用前馈神经网络将状态映射到动作,并调整网络的权重以最大化奖励,通过策略梯度学习。我们的模型使用内部状态来存储对光栅和信心的估计,并遵循贝叶斯更新,并且可以在接合和脱离状态之间切换以模仿动物行为。该模型再现主要实验发现 - 在大约10个试验中,块开关后的对比度变化的心理曲线。此外,如在实验中所见,在我们的模型中,右侧块和左块中的神经元活动的差异很小 - 如果噪声约为2%,几乎不可能将块结构从单一试验中的活动中解码。难以测试的假设难以测试,但该技术应该在不遥远的未来中提供。
translated by 谷歌翻译
跟踪湍流羽流以定位其源是一个复杂的控制问题,因为它需要多感觉集成,并且必须强大地间歇性气味,更改风向和可变羽流统计。这项任务是通过飞行昆虫进行常规进行的,通常是长途跋涉,以追求食物或配偶。在许多实验研究中已经详细研究了这种显着行为的几个方面。在这里,我们采用硅化方法互补,采用培训,利用加强学习培训,开发对支持羽流跟踪的行为和神经计算的综合了解。具体而言,我们使用深增强学习(DRL)来训练经常性神经网络(RNN)代理以定位模拟湍流羽毛的来源。有趣的是,代理人的紧急行为类似于飞行昆虫,而RNNS学会代表任务相关变量,例如自上次气味遭遇以来的头部方向和时间。我们的分析表明了一种有趣的实验可测试的假设,用于跟踪风向改变的羽毛 - 该试剂遵循局部羽状形状而不是电流风向。虽然反射短记忆行为足以跟踪恒定风中的羽毛,但更长的记忆时间表对于跟踪切换方向的羽毛是必不可少的。在神经动力学的水平下,RNNS的人口活动是低维度的,并且组织成不同的动态结构,与行为模块一些对应。我们的Silico方法提供了湍流羽流跟踪策略的关键直觉,并激励未来的目标实验和理论发展。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
经常性神经网络(RNN)经常用于建模脑功能和结构的方面。在这项工作中,我们培训了小型完全连接的RNN,以具有时变刺激的时间和流量控制任务。我们的结果表明,不同的RNN可以通过对不同的底层动态进行不同的RNN来解决相同的任务,并且优雅地降低的性能随着网络尺寸而降低,间隔持续时间增加,或者连接损坏。我们的结果对于量化通常用作黑匣子的模型的不同方面是有用的,并且需要预先理解以建模脑皮质区域的生物反应。
translated by 谷歌翻译
强化学习中的信用作业是衡量行动对未来奖励的影响的问题。特别是,这需要从运气中分离技能,即解除外部因素和随后的行动对奖励行动的影响。为实现这一目标,我们将来自因果关系的反事件的概念调整为无模型RL设置。关键思想是通过学习从轨迹中提取相关信息来应对未来事件的价值函数。我们制定了一系列政策梯度算法,这些算法使用这些未来条件的价值函数作为基准或批评,并表明它们是可怕的差异。为避免对未来信息的调理潜在偏见,我们将后视信息限制为不包含有关代理程序行为的信息。我们展示了我们对许多说明性和具有挑战性问题的算法的功效和有效性。
translated by 谷歌翻译
可以通过将奖励信号均匀地广播到实现增强学习规则的单元来训练人工神经网络。虽然这提出了一种生物合理的替代培训网络,但与其培训深网络的高方差使其变得不切实际。高方差来自低效结构信用分配,因为单个奖励信号用于评估所有单位的集体动作。为了促进结构性信用分配,我们建议将奖励信号替换为隐藏的单位,随着单位传出权重的$ ^ 2 $常态的变化。因此,网络中的每个隐藏单元都在尝试最大化其传出权重的规范而不是全球奖励,因此我们调用此学习方法\ EMPH {重量最大化}。我们证明了重量最大化大致遵循期望奖励的梯度。与Backpropagation相比,重量最大化可用于培训连续值和离散值的单位。此外,重量最大化解决了与生物合理性有关的若干重大问题。我们的实验表明,用重量最大化训练的网络可以比加强和略微慢于背部慢化来学习比较快。重量最大化说明了在没有任何中央协调的竞争游戏中自动出现的合作行为的一个例子。
translated by 谷歌翻译
近年来,机器学习的巨大进步已经开始对许多科学和技术的许多领域产生重大影响。在本文的文章中,我们探讨了量子技术如何从这项革命中受益。我们在说明性示例中展示了过去几年的科学家如何开始使用机器学习和更广泛的人工智能方法来分析量子测量,估计量子设备的参数,发现新的量子实验设置,协议和反馈策略,以及反馈策略,以及通常改善量子计算,量子通信和量子模拟的各个方面。我们重点介绍了公开挑战和未来的可能性,并在未来十年的一些投机愿景下得出结论。
translated by 谷歌翻译
在本文中,我们通过神经生成编码的神经认知计算框架(NGC)提出了一种无反向传播的方法,以机器人控制(NGC),设计了一种完全由强大的预测性编码/处理电路构建的代理,体现计划的原则。具体而言,我们制作了一种自适应剂系统,我们称之为主动预测性编码(ACTPC),该系统可以平衡内部生成的认知信号(旨在鼓励智能探索)与内部生成的仪器信号(旨在鼓励寻求目标行为)最终学习如何使用现实的机器人模拟器(即超现实的机器人套件)来控制各种模拟机器人系统以及复杂的机器人臂,以解决块提升任务并可能选择问题。值得注意的是,我们的实验结果表明,我们提出的ACTPC代理在面对稀疏(外部)奖励信号方面表现良好,并且具有竞争力或竞争性或胜过几种强大的基于反向Prop的RL方法。
translated by 谷歌翻译
最近的作品研究了在神经切线内核(NTK)制度中训练的广泛神经网络的理论和经验特性。鉴于生物神经网络比其人工对应物宽得多,因此我们认为NTK范围广泛的神经网络是生物神经网络的可能模型。利用NTK理论,我们从理论上说明梯度下降驱动层的重量更新与其输入活动相关性一致,并通过误差加权,并从经验上证明了结果在有限宽度的宽网络中也存在。对齐结果使我们能够制定一个生物动机的,无反向传播的学习规则,理论上等同于无限宽度网络中的反向传播。我们测试了馈电和经常性神经网络中基准问题的这些学习规则,并在宽网络中证明了与反向传播相当的性能。所提出的规则在低数据制度中特别有效,这在生物学习环境中很常见。
translated by 谷歌翻译