布雷特认为,神经编码隐喻是大脑所做事情的无效基础。在这里,我们认为这是一个不充分的指南,用于构建人工智能,学习在复杂,不断变化的环境中实现短期和长期目标。
translated by 谷歌翻译
目前用于深度学习的算法可能不能在大脑中运行,因为它们依赖于权重传输,其中前向路径神经元以可能在生理学上不可能的方式将突触权重传递到反馈路径。一种称为反馈对齐的算法通过使用随机反馈权重实现了无需权重传输的深度学习,但它可以在硬视觉识别任务上执行。在这里,我们描述了一个神经环绕的重量镜,它使反馈路径即使在大型网络中也可以快速准确地学习适当的突触重量,无需重量传输或复杂布线,并具有Hebbian学习规则。在ImageNetvisual识别任务上进行测试,具有权重镜像的网络优于普通反馈对齐和较新的符号对称方法,并且几乎匹配使用权重传输的误差反向传播算法。
translated by 谷歌翻译
强化学习领域(RL)面临着越来越具有组合复杂性的挑战性领域。对于RL代理来解决这些挑战,它必须能够有效地进行规划。先前的工作通常结合非特定的计划算法(例如树搜索)来利用环境的显式模型。最近,已经提出了一种新的方法家族,通过在函数逼近器(例如树形结构神经网络)中通过归纳偏差提供结构来学习如何规划,通过无模型RL算法进行端到端训练。 。在本文中,我们更进一步,并且凭经验证明,除了卷积网络和LSTM之类的标准神经网络组件之外没有特殊结构的完全无模型方法,可以学习展示通常与基于模型的计划器相关的许多特征。我们衡量我们的代理人在规划方面的有效性,以便在组合和不可逆转的状态空间,其数据效率以及利用额外思考时间的能力方面进行推广。我们发现我们的代理具有许多人可能期望在规划算法中找到的特征。此外,它超越了最先进的组合领域,如推箱子,并且优于其他无模型方法,利用强大的归纳偏向规划。
translated by 谷歌翻译
近年来,深度强化学习(RL)算法取得了长足的进步。一个重要的剩余挑战是能够快速将技能转化为新任务,并将现有技能与新获得的技能相结合。在通过组合技能解决任务的领域中,这种能力有望大幅降低深度RL算法的数据要求,从而提高其适用性。最近的工作已经研究了以行动 - 价值函数的形式表现出行为的方式。我们分析这些方法以突出它们的优势和弱点,并指出每种方法都容易出现性能不佳的情况。为了进行这种分析,我们将广义策略改进扩展到最大熵框架,并介绍了在连续动作空间中实现后继特征的实际方法。然后我们提出了一种新方法,原则上可以恢复最佳的policyduring转移。该方法通过明确地学习策略之间的(折扣的,未来的)差异来工作。我们在表格案例中研究了这种方法,并提出了一种适用于多维连续动作空间的可扩展变体。我们将我们的方法与现有的方法进行比较,讨论一系列具有组成结构的非平凡连续控制问题,并且尽管不需要同时观察所有任务奖励,但仍能在质量上更好地表现。
translated by 谷歌翻译
持续学习是在保护旧知识的同时学习新任务或知识的问题,并且理想地从旧体验中推广以更快地学习新任务。随机梯度下降训练的神经网络在连续训练具有不同数据分布的新任务时经常降级旧任务。这种被称为灾难性遗忘的现象被认为是学习非固定数据或新任务序列的主要障碍,并且阻止网络不断积累知识和技能。我们在强化学习的背景下研究这个问题,在一个代理暴露于序列中的任务的位置。与大多数其他工作不同,我们没有为任务边界模型提供明确的指示,这是学习代理暴露出连续经验的最普遍情况。虽然最近提出了各种抵消灾难性遗忘的方法,但我们探索了一种直截了当,一般而且看似被忽视的解决方案 - 使用经验重放缓冲过去的事件 - 结合政策上和政策外的学习,利用行为克隆。我们表明,这种策略仍然可以快速学习新任务,但可以大大减少Atari和DMLab域中的灾难性遗忘,甚至可以匹配需要任务同等性的方法的性能。当缓冲存储受到约束时,我们确认随机丢弃数据的简单机制允许有限大小的缓冲区最常用以及无条件缓冲区。
translated by 谷歌翻译
存储器系统面临的主要挑战是在存在由于其他存储的模式和噪声引起的干扰的情况下对存储模式的鲁棒检索。理论上有充分理由的强大检索解决方案由吸引动力学给出,它在回忆过程中迭代地清理模式。然而,将吸引子动力学结合到现代深度学习系统中会带来困难:吸引子盆的特征在于消失的梯度,这使得训练神经网络变得困难。在这项工作中,我们通过训练生成分布式存储器而不模拟吸引子动力学来避免消失梯度问题。基于Kanerva机器中提出的记忆写入推理的概念,我们证明基于似然的Lyapunov函数是从最大化生成记忆的变分下限出现的。实验表明,它在迭代检索时收敛于纠正模式,并实现了作为botha记忆模型和生成模型的竞争性能。
translated by 谷歌翻译
Humans spend a remarkable fraction of waking life engaged in acts of "mentaltime travel". We dwell on our actions in the past and experience satisfactionor regret. More than merely autobiographical storytelling, we use these eventrecollections to change how we will act in similar scenarios in the future.This process endows us with a computationally important ability to link actionsand consequences across long spans of time, which figures prominently inaddressing the problem of long-term temporal credit assignment; in artificialintelligence (AI) this is the question of how to evaluate the utility of theactions within a long-duration behavioral sequence leading to success orfailure in a task. Existing approaches to shorter-term credit assignment in AIcannot solve tasks with long delays between actions and consequences. Here, weintroduce a new paradigm for reinforcement learning where agents use recall ofspecific memories to credit actions from the past, allowing them to solveproblems that are intractable for existing algorithms. This paradigm broadensthe scope of problems that can be investigated in AI and offers a mechanisticaccount of behaviors that may inspire computational models in neuroscience,psychology, and behavioral economics.
translated by 谷歌翻译
在现实世界中,奖励很少,今天大多数强化学习算法都在与这种稀疏性斗争。解决这个问题的一个方法是让代理人为自己创造奖励 - 从而使奖励更加密集,更适合学习。特别是,受到动物的好奇行为的启发,观察小说可以奖励奖励。这样的奖金总结了真实的任务奖励 - 使RL算法可以从综合奖励中学习。我们提出了一种新的好奇心方法,它使用次数记忆来形成新奇奖励。为了确定奖金,将当前观察与记忆中的观察结果进行比较。至关重要的是,比较是根据从记忆中的那些人那里获得当前观察所需的环境步骤来完成的 - 其中包含了关于环境动态的丰富信息。这使我们能够克服先前工作中已知的“沙发土豆”问题 - 当代理人通过利用导致不可预测后果的行为找到立即满足自己的方法时。我们在ViZDoom和DMLab中测试了视觉丰富的3D环境中的ourapproach。在ViZDoom,ouragent学习成功导航到遥远的目标至少2次紧固最先进的好奇心方法ICM。在DMLab中,我们的代理人可以推广到新的程序生成的游戏关卡 - 在测试迷宫中以至少2倍的速度达到目标并获得非常稀疏的奖励。
translated by 谷歌翻译
获得神经网络预测的可靠不确定性估计是一直存在的挑战。贝叶斯神经网络已经被提出作为解决方案,但它仍然是如何指定先验的。特别是,在权重空间中标准正态先验的常规实践仅强加了弱的不规则性,导致后面的函数可能在分布式输入上概括出未预见的方式。我们提出噪声对比驱动器(NCP)。关键思想是训练模型以输出训练分布之外的数据点的高不确定性。 NCP使用inputprior来实现,它将噪声添加到当前迷你批次的输入,以及outputprior,这是给定这些输入的广泛分布。 NCP与任何代表预测不确定性的模型兼容,易于扩展,并且在整个培训过程中具有可靠的不确定性估计。根据经验,我们证明了NCP作为现有基线的补充提供了明显的改进。我们展示了航班延误数据集的可扩展性,其中对先前公布的结果有显着改善。
translated by 谷歌翻译
错误算法(BP)的反向传播通常被认为是不可能在真实大脑中实现的。然而,最近机器学习和人工智能中的深度网络的成功启发了理解大脑如何跨多层学习的建议,以及它如何实现过热的BP。到目前为止,这些提案都没有严格评估过BP指导的深度学习已被证明是关键的任务,或者是比简单的全连接网络更有条理的体系结构。在这里,我们首先提出了在数据集上扩展生物学动机的深度学习模型的结果,这些数据集需要具有适当架构的深度网络以达到良好的性能。我们在MNIST,CIFAR-10和ImageNet数据集上展示结果,探索目标传播(TP)和反馈对齐(FA)算法的变体,并探索全连接和局部连接架构的性能。我们还引入了差异目标传播(DTP)的无重量传递变量,以从倒数第二层去除反向传播。其中许多算法都适用于MNIST,但对于CIFAR和ImageNet,我们发现TP和FA变体的性能明显差于BP,特别是对于由局部连接单元组成的网络,这就打开了关于是否需要新架构和算法来扩展这些方法的问题。我们的结果和实施细节有助于为未来生物学激励的深度学习计划建立基线。
translated by 谷歌翻译