我们介绍了一种基于功能空间上的近似贝叶斯推理而不是深度神经网络参数的有监督连续学习的新方法。我们使用通过将神经网络的最后一层的权重视为随机和高斯分布而获得的高斯过程。用于连续学习的功能正则化自然地通过以顺序方式应用变分稀疏GP推理方法来遇到新任务。在该过程的每个步骤中,构造当前任务的概要,其包括(i)诱导输入和(ii)在这些输入处的函数值的后验分布。本摘要通过出现在变分下界中的Kullback-Leiblerregularisation术语来定期学习未来任务,并减少灾难性遗忘的影响。我们充分发展了方法理论,并证明了它在分类数据集中的有效性,如Split-MNIST,Permuted-MNIST和Omniglot。
translated by 谷歌翻译
神经过程(NPs)(Garnelo等2018a; b)通过学习来回归以将观察到的输入 - 输出对的上下文集映射到分布式回归函数。每个函数都根据上下文对输出的分布进行建模。 NP具有有效拟合数据的优势,具有上下文输入 - 输出对数量的线性复杂度,并且可以学习一大类条件分布;它们学习以仲裁集的上下文集为条件的预测分布。尽管如此,我们还是表明NPs存在一个基本的缺点,即在观察到的数据条件的输入上给出了不准确的预测。我们通过将注意力集中到NP来解决这个问题,允许每个输入位置参与预测的相关上下文点。我们证明,这极大地提高了预测的准确性,显着加快了训练速度,并扩展了可以建模的功能范围。
translated by 谷歌翻译
持续学习是在保护旧知识的同时学习新任务或知识的问题,并且理想地从旧体验中推广以更快地学习新任务。随机梯度下降训练的神经网络在连续训练具有不同数据分布的新任务时经常降级旧任务。这种被称为灾难性遗忘的现象被认为是学习非固定数据或新任务序列的主要障碍,并且阻止网络不断积累知识和技能。我们在强化学习的背景下研究这个问题,在一个代理暴露于序列中的任务的位置。与大多数其他工作不同,我们没有为任务边界模型提供明确的指示,这是学习代理暴露出连续经验的最普遍情况。虽然最近提出了各种抵消灾难性遗忘的方法,但我们探索了一种直截了当,一般而且看似被忽视的解决方案 - 使用经验重放缓冲过去的事件 - 结合政策上和政策外的学习,利用行为克隆。我们表明,这种策略仍然可以快速学习新任务,但可以大大减少Atari和DMLab域中的灾难性遗忘,甚至可以匹配需要任务同等性的方法的性能。当缓冲存储受到约束时,我们确认随机丢弃数据的简单机制允许有限大小的缓冲区最常用以及无条件缓冲区。
translated by 谷歌翻译
神经网络(NN)是参数化函数,可以通过梯度下降来调整以近似标记的高精度数据集合。另一方面,高斯过程(GP)是定义可能函数的分布的概率模型,并且通过概率推理的规则根据数据进行更新。 GP是概率性的,数据有效的和灵活的,但是它们也是计算密集型的,因此它们的适用性受到限制。我们介绍了一类神经潜变量模型,我们称之为神经过程(NPs),结合了两个世界中最好的。与GP类似,NP定义了函数的分布,能够适应新的观察,并且可以估计其预测中的不确定性。与NN一样,NP在培训评估期间具有计算效率,但也学会使其先验适应数据。我们展示了NP在一系列学习任务中的表现,包括回归和优化,并与文献中的相关模型进行比较和对比。
translated by 谷歌翻译
我们为连续学习领域引入了一个概念上简单且可扩展的框架,其中任务是按顺序学习的。我们的方法在参数数量上是恒定的,旨在保持以前遇到的任务的性能,同时加速后续问题的学习进度。这是通过训练具有两个组件的网络来实现的:能够解决先前遇到的问题的知识库,其连接到用于有效地学习当前任务的活动列。在学习新任务后,活动列被提炼到知识库中,注意保护以前获得的任何技能。这种主动学习(进展)循环然后进行整合(压缩)不需要架构增长,不需要访问或存储先前的数据或其他任何特定的参数。我们展示了手写字母顺序分类以及双向强化学习领域的进展和压缩方法:Atari游戏和3D迷宫导航。
translated by 谷歌翻译
Reading comprehension (RC)---in contrast to information retrieval---requiresintegrating information and reasoning about events, entities, and theirrelations across a full document. Question answering is conventionally used toassess RC ability, in both artificial agents and children learning to read.However, existing RC datasets and tasks are dominated by questions that can besolved by selecting answers using superficial information (e.g., local contextsimilarity or global term frequency); they thus fail to test for the essentialintegrative aspect of RC. To encourage progress on deeper comprehension oflanguage, we present a new dataset and set of tasks in which the reader mustanswer questions about stories by reading entire books or movie scripts. Thesetasks are designed so that successfully answering their questions requiresunderstanding the underlying narrative rather than relying on shallow patternmatching or salience. We show that although humans solve the tasks easily,standard RC models struggle on the tasks presented here. We provide an analysisof the dataset and the challenges it presents.
translated by 谷歌翻译
我们提出了一个积极的感知问题,其中自主代理主动与具有潜在对抗行为的第二代理交互。鉴于其他代理人意图的不确定性,目标是收集进一步的证据以帮助区分潜在的威胁。主要的技术挑战是代理意图的部分可观察性,对手模型以及相应的不确定性建模。请注意,攻击者可能会通过使用从过去经验中学到的欺骗性策略来误导自治代理。我们提出了一种方法,将信念空间规划,生成对手建模和最大熵增强学习相结合,以获得随机信念空间策略。通过计算模拟框架中的各种对抗行为并最小化自治代理行为的可预测性,所得到的策略对未建模的对抗策略更加健壮。与标准的增强约束部分可观察马尔可夫决策过程稳健方法相比,这种改进的鲁棒性是根据对手来实现的,该对手适应于对自治代理的策略进行索引。
translated by 谷歌翻译
虽然指数乘积(POE)公式在串行连杆机器人的运动学建模中越来越受欢迎,但由于其对机器人的直观和简洁的几何解释,因此仍然是最广泛使用的Denavit-Hartenberg(D-H)符号。本文开发了一种解决方案,将POE模型自动转换为具有旋转,棱柱和螺旋关节的机器人的D-H模型,这是一套完整的三基本一自由度下对关节,用于构造一个串联机器人。所开发的转换算法可用于诸如校准的应用中,其中需要将D-H模型转换为用于识别的POE模型,然后返回到D-H模型以进行补偿。本文证明的两种模型的等价性也有利于对运动学参数可识别性的分析。发现一般POE模型中可识别参数的最大数量是5h + 4r + 2t + n + 6其中h,r,t和n分别代表螺旋,旋转,棱柱和一般关节的数量。还建议D-H模型中基础框架和工具框架的可识别性受到限制,而不是先前假设的任意六个参数。
translated by 谷歌翻译
基因表达谱已被广泛用于表征细胞对疾病的反应模式。随着数据的出现,可扩展的学习工具对于使用深度学习模型处理大型数据集来模拟复杂的生物过程变得至关重要。我们提出了从基因表达谱中恢复的自动编码器tocapture非线性关系。自动编码器是一种使用人工神经网络的非线性降维技术,它可以学习未标记数据的隐藏表示。我们对来自National CancerInstitute Genomic Data Commons的大量肿瘤样本进行自动编码,并获得广义和无监督的表示。我们利用专注于HPC的深度学习工具包Livermore Big Artificial Neural Network(LBANN)来有效地并行化训练算法,将计算时间从几小时缩短到几分钟。使用训练的自动编码器,我们生成小数据集的潜在表示,包含各种肿瘤类型的正常细胞和癌细胞对。引入了一种称为自编码器节点显着性(ANS)的新措施来识别最能区分各种细胞对的隐藏节点。我们通过主成分分析和t分布随机邻域嵌入的可视化比较了我们对最佳分类节点的发现。我们证明了自动编码器有效地为数据集中的多个学习任务提取了不同的基因特征。
translated by 谷歌翻译
虽然深度神经网络(DNN)的成功在各个领域都已得到很好的建立,但我们解释和解释这些方法的能力是有限的。与先前提出的试图解释特定分类决策的本地方法不同,我们关注全局可解释性并提出一个普遍适用的问题:给定一个训练有素的模型,哪个特征最重要?在神经网络的背景下,一个特征本身并不重要,因此我们的策略专门用于利用部分协方差结构并将变量依赖结合到特征区域中。我们在本文中的方法论贡献是双重的。首先,我们提出了适用于具有高共线预测器(在计算机视觉中普遍存在)的应用的DNN的效应大小模拟。其次,我们将最近提出的“Relative cEntrality”(RATE)度量(Crawford etal。,2019)扩展到贝叶斯深度学习环境。 RATE将信息理论标准应用于效应大小的后验分布,以评估特征意义。我们将框架应用于三个广泛的应用领域:计算机视觉,自然语言处理和社会科学。
translated by 谷歌翻译