我们提出了一种神经混合模型,该模型由在由深度可逆变换(即,正常化流动)计算的特征的一组上定义的线性模型组成。我们模型的一个吸引人的特性是,p(特征),特征密度和p(目标|特征),预测分布,可以在单个前馈传递中精确计算。我们表明,尽管存在可逆性约束,我们的混合模型可以实现与纯预测模型的相似性。然而,尽管存在混合优化目标,生成组件仍然是输入特征的良好模型。这提供了额外的功能,例如检测分发外输入和启用半监督学习。精确关联密度p(目标,特征)的可用性也使我们可以很好地计算许多量,使我们的混合模型成为概率深度学习的下行应用的有用构建块。
translated by 谷歌翻译
我们介绍了一种基于功能空间上的近似贝叶斯推理而不是深度神经网络参数的有监督连续学习的新方法。我们使用通过将神经网络的最后一层的权重视为随机和高斯分布而获得的高斯过程。用于连续学习的功能正则化自然地通过以顺序方式应用变分稀疏GP推理方法来遇到新任务。在该过程的每个步骤中,构造当前任务的概要,其包括(i)诱导输入和(ii)在这些输入处的函数值的后验分布。本摘要通过出现在变分下界中的Kullback-Leiblerregularisation术语来定期学习未来任务,并减少灾难性遗忘的影响。我们充分发展了方法理论,并证明了它在分类数据集中的有效性,如Split-MNIST,Permuted-MNIST和Omniglot。
translated by 谷歌翻译
为了改善深度神经网络indata-scarce,non-i.i.d。或无监督设置的性能,最近的研究致力于将对称变换下的不变性编码到神经网络体系结构中。我们将神经网络输入和输出视为随机变量,并从概率对称的角度考虑群不变性。利用概率和统计学中的工具,我们建立了功能和概率对称之间的联系,并获得了在紧凑群的作用下不变或等变的联合和条件概率分布的生成函数表示。这些表示完全表征了可用于对这种分布进行建模的神经网络结构,并产生了构建不变随机或确定性神经网络的通用程序。我们开发了可交换序列和数组的一般程序的细节,并将一些最近的例子作为特例回收。
translated by 谷歌翻译
神经过程(NPs)(Garnelo等2018a; b)通过学习来回归以将观察到的输入 - 输出对的上下文集映射到分布式回归函数。每个函数都根据上下文对输出的分布进行建模。 NP具有有效拟合数据的优势,具有上下文输入 - 输出对数量的线性复杂度,并且可以学习一大类条件分布;它们学习以仲裁集的上下文集为条件的预测分布。尽管如此,我们还是表明NPs存在一个基本的缺点,即在观察到的数据条件的输入上给出了不准确的预测。我们通过将注意力集中到NP来解决这个问题,允许每个输入位置参与预测的相关上下文点。我们证明,这极大地提高了预测的准确性,显着加快了训练速度,并扩展了可以建模的功能范围。
translated by 谷歌翻译
我们在VariationalAuto-Encoders(VAEs)中通过将其作为潜在表征的\ emph {分解}来展开广泛的解开概念,其特征在于i)在数据的潜在编码中强制适当的重叠水平,以及ii)正则化通过先验表示的平均编码到期望的结构。我们通过证明a)$ \ beta $ -VAE纯粹通过潜在编码中的重叠的规范化,以及通过其平均(高斯)编码器方差来解开,并且b)解开,因为独立性之间的独立性,可以被视为正则化先前具有特定特征的总和。我们通过展示这些因素的简单操作来验证这种表征,例如使用旋转变异驱动器,可以帮助改善解缠结,并讨论这种特征如何提供一个更通用的框架来结合分解的概念,而不仅仅是潜伏之间的独立性。
translated by 谷歌翻译
我们专注于学习单个电机模块的问题,该模块可以灵活地表达一系列行为,以控制高维物理模拟人形机器人。为此,我们提出了一种具有潜在变量瓶颈的逆模型的一般结构的电机架构。通过Weshow可以完全离线训练这个模型,以完成数千个专家政策并学习电机原始嵌入空间。训练的神经概率运动原始系统可以执行全身人形行为的一次性模仿,强有力地模仿未经观察的行为。此外,我们证明了直接控制控制器重用学习的电机原始空间来解决任务,并且产生的运动相对自然。为了支持我们的模型训练,我们比较了两种离线策略克隆方法,包括一种经验有效的方法,我们称之为线性反馈策略克隆。我们鼓励读者查看总结我们结果的补充视频(https://youtu.be/1NAHsrrH2t0)。
translated by 谷歌翻译
我们研究自适应重要性抽样(AIS)作为在线学习问题,并且考虑到在这种适应中探索和开发之间权衡的重要性。借用土匪文献中的思想,我们提出戴基,一种基于分区的AIS算法。我们进一步介绍AIS的概念,并表明Daisee有$ \ mathcal {O}(\ sqrt {T}(\ logT)^ {\ frac {3} {4}})$累积伪遗憾,其中$ T $是项目的数量。然后,我们扩展Daisee以自适应地学习样本空间的分层分区,以获得更有效的采样,并根据经验确认两种算法的性能。
translated by 谷歌翻译
我们提出了一类优化方法,它们使用一阶梯度信息和一类凸函数实现线性收敛,这些凸函数比平滑和强凸函数大得多。这个较大的类包括其二阶导数在其最小值处可以是单数或无限的函数。我们的方法是共形哈密顿动力学的离散化,它概括了经典动量方法来模拟具有暴露于附加力的非标准动能的粒子运动和感兴趣函数的梯度场。它们是第一级的,因为它们只需要梯度计算。然而,关键的是,动力学梯度图可以被设计成以允许在非平滑或非强凸的凸函数上的线性会聚的方式结合关于凸共轭的信息。我们研究了一种隐式和两种显式方法。对于一种显式方法,我们提供了收敛到非凸函数静止点的条件。总而言之,我们提供了保证线性收敛的凸函数和kineticenergy对的条件,并表明这些条件可以通过功率增长的函数来满足。总之,这些方法扩展了可以通过一阶计算进行线性收敛的凸函数类。
translated by 谷歌翻译
经验证据表明,在许多真实网络中发生的重尾度分布很好地接近幂指数,其中指数$ \ eta $可能取值小于或大于2。基于各种可交换形式的模型能够以$ \ eta <2 $捕获幂律,并且允许易处理的推理算法;我们在之前的结果中得出结论:$ \ eta> 2 $不能通过现有随机图模型中使用的可交换形式生成。优先附着模型产生大于2的幂数指数,但由于执行推理无可交换模型的固有困难,因此作为统计模型的用途有限。受此差距的影响,我们为最近提出的一类模型设计并实现了参考算法,这些模型生成所有可能值的$ \ eta $。我们表明,尽管它们不可交换,但这些模型具有适合推理的概率结构。我们的方法制作了一大类先前难以处理的模型,可用于统计推断。
translated by 谷歌翻译
神经网络(NN)是参数化函数,可以通过梯度下降来调整以近似标记的高精度数据集合。另一方面,高斯过程(GP)是定义可能函数的分布的概率模型,并且通过概率推理的规则根据数据进行更新。 GP是概率性的,数据有效的和灵活的,但是它们也是计算密集型的,因此它们的适用性受到限制。我们介绍了一类神经潜变量模型,我们称之为神经过程(NPs),结合了两个世界中最好的。与GP类似,NP定义了函数的分布,能够适应新的观察,并且可以估计其预测中的不确定性。与NN一样,NP在培训评估期间具有计算效率,但也学会使其先验适应数据。我们展示了NP在一系列学习任务中的表现,包括回归和优化,并与文献中的相关模型进行比较和对比。
translated by 谷歌翻译