在本报告中,我们回顾了基于记忆的元学习作为建筑样本有效策略的工具,该策略从过去的经验中学习以适应目标类中的任何任务。我们的目标是为读者提供此工具的概念基础,以构建在陆域上运行的新的可扩展代理。为此,我们提出了基本的算法模板,用于建立最佳预测器和强化学习器,其行为就好像它们具有允许它们有效地利用任务结构的概率模型。此外,我们在贝叶斯框架内重建基于内存的元学习,显示元学习策略接近最优,因为它们分摊贝叶斯过滤数据,其中适应在内存动态中实现为具有足够统计数据的状态机。从本质上讲,基于记忆的学习 - 学习将概率序贯推理的难题转化为回归问题。
translated by 谷歌翻译
许多现实世界的任务表现出丰富的结构,在州空间的不同部分或时间上重复。在这项工作中,我们研究了利用这种重复结构加速和规范学习的可能性。我们从KL正规化的预期奖励目标开始,该目标引入了一个额外的组件,即默认策略。我们不是依赖于固定的默认策略,而是从数据中学习它。但至关重要的是,我们限制默认策略接收的信息量,迫使其学习可重用行为,以帮助策略更快地学习。我们正式化了这一策略,并讨论了与信息瓶颈方法和变分EM算法的联系。我们在离散和连续作用域中提供实证结果,并证明,对于某些任务,在策略旁边学习默认策略可以显着加快和改善学习。
translated by 谷歌翻译
我们提出了一种神经混合模型,该模型由在由深度可逆变换(即,正常化流动)计算的特征的一组上定义的线性模型组成。我们模型的一个吸引人的特性是,p(特征),特征密度和p(目标|特征),预测分布,可以在单个前馈传递中精确计算。我们表明,尽管存在可逆性约束,我们的混合模型可以实现与纯预测模型的相似性。然而,尽管存在混合优化目标,生成组件仍然是输入特征的良好模型。这提供了额外的功能,例如检测分发外输入和启用半监督学习。精确关联密度p(目标,特征)的可用性也使我们可以很好地计算许多量,使我们的混合模型成为概率深度学习的下行应用的有用构建块。
translated by 谷歌翻译
我们介绍了一种基于功能空间上的近似贝叶斯推理而不是深度神经网络参数的有监督连续学习的新方法。我们使用通过将神经网络的最后一层的权重视为随机和高斯分布而获得的高斯过程。用于连续学习的功能正则化自然地通过以顺序方式应用变分稀疏GP推理方法来遇到新任务。在该过程的每个步骤中,构造当前任务的概要,其包括(i)诱导输入和(ii)在这些输入处的函数值的后验分布。本摘要通过出现在变分下界中的Kullback-Leiblerregularisation术语来定期学习未来任务,并减少灾难性遗忘的影响。我们充分发展了方法理论,并证明了它在分类数据集中的有效性,如Split-MNIST,Permuted-MNIST和Omniglot。
translated by 谷歌翻译
为了改善深度神经网络indata-scarce,non-i.i.d。或无监督设置的性能,最近的研究致力于将对称变换下的不变性编码到神经网络体系结构中。我们将神经网络输入和输出视为随机变量,并从概率对称的角度考虑群不变性。利用概率和统计学中的工具,我们建立了功能和概率对称之间的联系,并获得了在紧凑群的作用下不变或等变的联合和条件概率分布的生成函数表示。这些表示完全表征了可用于对这种分布进行建模的神经网络结构,并产生了构建不变随机或确定性神经网络的通用程序。我们开发了可交换序列和数组的一般程序的细节,并将一些最近的例子作为特例回收。
translated by 谷歌翻译
神经过程(NPs)(Garnelo等2018a; b)通过学习来回归以将观察到的输入 - 输出对的上下文集映射到分布式回归函数。每个函数都根据上下文对输出的分布进行建模。 NP具有有效拟合数据的优势,具有上下文输入 - 输出对数量的线性复杂度,并且可以学习一大类条件分布;它们学习以仲裁集的上下文集为条件的预测分布。尽管如此,我们还是表明NPs存在一个基本的缺点,即在观察到的数据条件的输入上给出了不准确的预测。我们通过将注意力集中到NP来解决这个问题,允许每个输入位置参与预测的相关上下文点。我们证明,这极大地提高了预测的准确性,显着加快了训练速度,并扩展了可以建模的功能范围。
translated by 谷歌翻译
我们在VariationalAuto-Encoders(VAEs)中通过将其作为潜在表征的\ emph {分解}来展开广泛的解开概念,其特征在于i)在数据的潜在编码中强制适当的重叠水平,以及ii)正则化通过先验表示的平均编码到期望的结构。我们通过证明a)$ \ beta $ -VAE纯粹通过潜在编码中的重叠的规范化,以及通过其平均(高斯)编码器方差来解开,并且b)解开,因为独立性之间的独立性,可以被视为正则化先前具有特定特征的总和。我们通过展示这些因素的简单操作来验证这种表征,例如使用旋转变异驱动器,可以帮助改善解缠结,并讨论这种特征如何提供一个更通用的框架来结合分解的概念,而不仅仅是潜伏之间的独立性。
translated by 谷歌翻译
我们专注于学习单个电机模块的问题,该模块可以灵活地表达一系列行为,以控制高维物理模拟人形机器人。为此,我们提出了一种具有潜在变量瓶颈的逆模型的一般结构的电机架构。通过Weshow可以完全离线训练这个模型,以完成数千个专家政策并学习电机原始嵌入空间。训练的神经概率运动原始系统可以执行全身人形行为的一次性模仿,强有力地模仿未经观察的行为。此外,我们证明了直接控制控制器重用学习的电机原始空间来解决任务,并且产生的运动相对自然。为了支持我们的模型训练,我们比较了两种离线策略克隆方法,包括一种经验有效的方法,我们称之为线性反馈策略克隆。我们鼓励读者查看总结我们结果的补充视频(https://youtu.be/1NAHsrrH2t0)。
translated by 谷歌翻译
我们研究自适应重要性抽样(AIS)作为在线学习问题,并且考虑到在这种适应中探索和开发之间权衡的重要性。借用土匪文献中的思想,我们提出戴基,一种基于分区的AIS算法。我们进一步介绍AIS的概念,并表明Daisee有$ \ mathcal {O}(\ sqrt {T}(\ logT)^ {\ frac {3} {4}})$累积伪遗憾,其中$ T $是项目的数量。然后,我们扩展Daisee以自适应地学习样本空间的分层分区,以获得更有效的采样,并根据经验确认两种算法的性能。
translated by 谷歌翻译
我们提出了一类优化方法,它们使用一阶梯度信息和一类凸函数实现线性收敛,这些凸函数比平滑和强凸函数大得多。这个较大的类包括其二阶导数在其最小值处可以是单数或无限的函数。我们的方法是共形哈密顿动力学的离散化,它概括了经典动量方法来模拟具有暴露于附加力的非标准动能的粒子运动和感兴趣函数的梯度场。它们是第一级的,因为它们只需要梯度计算。然而,关键的是,动力学梯度图可以被设计成以允许在非平滑或非强凸的凸函数上的线性会聚的方式结合关于凸共轭的信息。我们研究了一种隐式和两种显式方法。对于一种显式方法,我们提供了收敛到非凸函数静止点的条件。总而言之,我们提供了保证线性收敛的凸函数和kineticenergy对的条件,并表明这些条件可以通过功率增长的函数来满足。总之,这些方法扩展了可以通过一阶计算进行线性收敛的凸函数类。
translated by 谷歌翻译