我们介绍了一种基于功能空间上的近似贝叶斯推理而不是深度神经网络参数的有监督连续学习的新方法。我们使用通过将神经网络的最后一层的权重视为随机和高斯分布而获得的高斯过程。用于连续学习的功能正则化自然地通过以顺序方式应用变分稀疏GP推理方法来遇到新任务。在该过程的每个步骤中,构造当前任务的概要,其包括(i)诱导输入和(ii)在这些输入处的函数值的后验分布。本摘要通过出现在变分下界中的Kullback-Leiblerregularisation术语来定期学习未来任务,并减少灾难性遗忘的影响。我们充分发展了方法理论,并证明了它在分类数据集中的有效性,如Split-MNIST,Permuted-MNIST和Omniglot。
translated by 谷歌翻译
处理神经网络的统计无效率的一种方法是依靠辅助损失来帮助建立有用的表示。但是,要知道辅助任务是否对主任务有用以及何时可能开始受到伤害并不总是微不足道的。我们建议使用任务梯度之间的余弦相似性作为自适应权重来检测辅助损失何时有助于主要损失。我们证明了我们的方法可以保证收敛到主要任务的关键点,并证明了所提算法在几个领域的实用性:ImageNet子集上的多任务监督学习,强化学习ongridworld,以及Atari游戏的强化学习。
translated by 谷歌翻译
基于梯度的元学习技术在解决具有挑战性的小镜头学习和快速适应问题方面具有广泛的适用性和实用性。然而,当在极低数据体系中操作高维参数空间时,它们具有实际困难。我们表明,通过学习模型参数的数据依赖性潜在生成表示,并在这个低维潜在空间中进行基于梯度的学习,可以绕过这些限制。由此产生的方法,潜在嵌入优化(LEO),将基于梯度的自适应过程与模型参数的基础高维空间分离。 Ourevaluation表明,LEO可以在竞争性的miniImageNet和tieredImageNet轻量级分类任务上实现最先进的性能。进一步分析表明LEO能够捕获数据中的不确定性,并且可以通过在潜在空间中进行优化来更有效地执行自适应。
translated by 谷歌翻译
我们介绍了一种深度强化学习(RL)的方法,通过结构化感知和关系推理提高了传统方法的效率,泛化能力和可解释性。它使用自我注意来迭代地推理场景中的关系并引导模型。 - 免费政策。我们的研究结果表明,在一个名为Box-World的新型导航和规划任务中,我们的代理人找到了可解决的解决方案,这些解决方案在样本复杂性方面提高了基线,能够推广到比在训练期间更复杂的场景,以及整体性能。在“星际争霸II”学习环境中,我们的经纪人在六款迷你游戏中实现了最先进的性能 - 超过了四位人类大师的表现。通过考虑建筑感应偏差,我们的工作为克服深度RL中的重要但顽固的挑战开辟了新的方向。
translated by 谷歌翻译
基于记忆的神经网络通过利用长时间记忆信息的能力来建模时态数据。然而,目前还不清楚是否能够用他们记忆中的信息进行复杂的关系推理。在这里,我们首先确认我们的直觉,即标准内存架构可能会在严重涉及理解实体连接方式的任务中挣扎 - 即涉及关系推理的任务。然后,我们通过使用一个新的内存模块 - 一个\ textit {关系内存核心}(RMC)来改善这些缺陷 - 它采用了多头点产品注意力,允许记忆进行交互。最后,我们在一系列任务中测试RMC,这些任务可以从顺序信息中更有能力的关系推理中获益,并且在RL域(例如Mini PacMan),程序评估和语言建模中显示出巨大的收益,从而实现最先进的结果。 WikiText-103,Project Gutenberg和GigaWorddatasets。
translated by 谷歌翻译
人工智能(AI)最近经历了复兴,在视觉,语言,控制和决策等关键领域取得了重大进展。部分原因在于廉价数据和廉价的计算资源,它们符合深度学习的自然优势。然而,在许多不同压力下发展的人类智能的许多定义特征仍然是当前方法所无法实现的。特别是,超越一个人的经验 - 从人类智慧中获得人类智慧的标志 - 仍然是现代人工智能的一项艰巨挑战。以下是部分立场文件,部分审查和部分统一。认为组合概括必须是人工智能达到人类能力的首要任务,结构化表征和计算是实现这一目标的关键。就像生物学使用自然和培养合作一样,我们拒绝“手工工程”和“端到端”学习之间的错误选择,而是主张从其互补优势中获益的方法。我们探索在深度学习架构中如何使用关系归纳偏差可以促进对实体,关系和组成它们的规则的学习。我们为AI工具包提供了一个新的构建模块,它具有强大的关系引导偏差 - 图形网络 - 它概括和扩展了在图形上运行的神经网络的各种方法,并提供了一个简单的界面来操纵结构化知识和生产结构化行为。我们讨论图网络如何支持关系推理和组合泛化,为更复杂,可解释和灵活的推理模式奠定基础。作为本文的参考,我们发布了一个用于构建图形网络的开源软件库,并演示了如何在实践中使用它们。
translated by 谷歌翻译
元学习代理擅长从开放式任务分配中快速学习新任务;然而,一旦下文开始,他们就会忘记他们对每项任务的了解。当任务重新出现时 - 就像在自然环境中那样 - 学习代理必须再次探索而不是立即利用以前发现的解决方案。我们提出了一种形式化,用于生成开放式但重复的环境,然后开发一种元学习架构来解决这些环境。这种架构将标准的LSTM工作记忆与可微分的神经情景记忆融合在一起。我们利用这种情节LSTM在五个学习环境中探索具有重复发生任务的代理的能力,包括强盗导航和随机序列决策问题。
translated by 谷歌翻译
我们为连续学习领域引入了一个概念上简单且可扩展的框架,其中任务是按顺序学习的。我们的方法在参数数量上是恒定的,旨在保持以前遇到的任务的性能,同时加速后续问题的学习进度。这是通过训练具有两个组件的网络来实现的:能够解决先前遇到的问题的知识库,其连接到用于有效地学习当前任务的活动列。在学习新任务后,活动列被提炼到知识库中,注意保护以前获得的任何技能。这种主动学习(进展)循环然后进行整合(压缩)不需要架构增长,不需要访问或存储先前的数据或其他任何特定的参数。我们展示了手写字母顺序分类以及双向强化学习领域的进展和压缩方法:Atari游戏和3D迷宫导航。
translated by 谷歌翻译
牛顿法和AdaGrad等高级优化算法受益于二阶导数或二阶统计量,以实现更好的下行方向和更快的收敛速度。从本质上讲,算法需要计算矩阵的逆平方根或倒平方根,其中whosesize是搜索空间维数的二次方。对于高维搜索空间,矩阵求逆或平方根的反演变得势不可挡,这反过来要求近似方法。在这项工作中,我们提出了一种新的矩阵近似方法,它将矩阵划分为块,并用一个或两个数字表示每个块。该方法允许有效计算矩阵逆和逆平方根。我们将我们的方法应用于AdaGrad训练深度神经网络。与对角线近似相比,实验显示出令人鼓舞的结果。
translated by 谷歌翻译
大多数深度强化学习算法在复杂和丰富的环境中数据效率低,限制了它们在许多场景中的适用性。用于提高数据效率的唯一方向是使用共享神经网络参数的多任务学习,其中可以通过跨交叉相关任务来提高效率。然而,在实践中,通常不会观察到这种情况,因为来自不同任务的渐变可能会产生负面干扰,导致学习不稳定,有时甚至会降低数据效率。另一个问题是任务之间的不同奖励方案,这很容易导致一个任务确定共享模型的学习。我们提出了一种新的联合训练方法,我们称之为Distral(Distill&transferlearning)。我们建议分享一个捕获常见行为的“蒸馏”策略,而不是在不同的工作者之间共享参数。每个工人都经过培训,可以解决自己的任务,同时受限于保持对共享政策的控制,而共享政策则通过蒸馏培训成为所有任务政策的质心。学习过程的两个方面都是通过优化联合目标函数得出的。我们表明,我们的方法支持在复杂的3D环境中进行有效传输,优于多个相关方法。此外,所提出的学习过程更加健壮且更加稳定 - 这些属性在深层强化学习中至关重要。
translated by 谷歌翻译