低精度操作可提供可扩展性,内存节省,可移植性和能效。本文提出了SWALP,这是一种精确度训练方法,可以通过修改的学习率计划平均低精度SGD迭代。 SWALP易于实现,即使所有数字量化到8位,包括梯度累加器,也可以匹配全精度SGD的性能。此外,我们证明SWALPconverges任意接近二次目标的最优解,并且在强凸设置中渐近地小于低精度SGD的噪声球。
translated by 谷歌翻译
Machine learning (ML) techniques are enjoying rapidly increasing adoption. However, designing and implementing the systems that support ML models in real-world deployments remains a significant obstacle, in large part due to the radically different development and deployment profile of modern ML methods, and the range of practical concerns that come with broader adoption. We propose to foster a new systems machine learning research community at the intersection of the traditional systems and ML communities, focused on topics such as hardware systems for ML, software systems for ML, and ML optimized for metrics beyond predictive accuracy. To do this, we describe a new conference, SysML, that explicitly targets research at the intersection of systems and machine learning with a program committee split evenly between experts in systems and ML, and an explicit focus on topics at the intersection of the two.
translated by 谷歌翻译
贝叶斯优化在优化耗时的黑盒目标方面很受欢迎。尽管如此,对于深度神经网络中的超参数调整,即使是一些超参数设置评估验证错误所需的时间仍然是瓶颈。多保真优化有望减少对这些目标使用更便宜的代理 - 例如,使用训练点的子集训练网络的验证错误或者收敛所需的迭代次数更少。我们提出了一种高度灵活和实用的多保真贝叶斯优化方法,重点是有效地优化迭代训练的监督学习模型的超参数。我们引入了一种新的采集功能,即跟踪感知知识梯度,它有效地利用了多个连续保真度控制和跟踪观察---保真序列中物镜的值,当使用训练迭代改变保真度时可用。我们提供了可用于优化我们的采集功能的可变方法,并展示了它为超神经网络和大规模内核学习的超参数调整提供了最先进的替代方案。
translated by 谷歌翻译
神经网络权重的后验是高维和多模式。每种模式通常表征数据的有意义的不同表示。我们开发了循环随机梯度MCMC(SG-MCMC)来自动探索这种分布。特别是,我们提出了一个循环步长计划,其中较大的步骤发现新模式,较小的步骤表征每种模式。我们证明我们提出的学习计划提供了比具有标准衰减计划的SG-MCMC的静态分布的样本更快的收敛。此外,我们提供了广泛的实验结果,以证明循环SG-MCMC在学习复杂多模态分布中的有效性,特别是对现代深度神经网络进行贝叶斯推理。
translated by 谷歌翻译
我们提出了SWA-Gaussian(SWAG),一种简单,可扩展,通用的方法,用于深度学习中的不确定性表示和校准。随机权重平均(SWA),计算随机梯度下降(SGD)的第一时刻,用修改的学习率计划迭代最近,我们已经证明了它可以改善深度学习中的泛化。利用SWAG,我们使用SWA解决方案作为第一时刻拟合高斯,并且还从SGD迭代得到秩和对角协方差,在神经网络权重上形成近似后验分布;我们从这个高斯分布中抽样来进行贝叶斯模型平均。 Weempirically发现SWAG近似于真实后验的形状,与描述SGD迭代的静态分布的结果一致。此外,我们证明SWAG在各种计算机视觉任务上表现良好,包括样本外检测,校准和转移学习,与许多流行的替代品相比,包括MC压差,KFACLaplace和温度缩放。
translated by 谷歌翻译
具有导数的高斯过程(GP)在许多应用中是有用的,包括贝叶斯优化,隐式表面重建和地形重建。将GP与$ n $ pointsin $ d $维度中的函数值和导数拟合需要使用$ {n(d + 1)\次n(d + 1)} $正定矩阵的线性求解和对数行列式 - 导致禁止$ \ mathcal {O}(n ^ 3d ^ 3)$计算标准直接方法。我们建议使用快速$ \ mathcal {O}(nd)$矩阵 - 向量乘法(MVM)的有限求解器,以及可以将迭代收敛几个数量级的Cholesky预处理旋转,从而实现快速的核心学习和预测。我们的方法与维度减少一起使贝叶斯优化与衍生物一起扩展到高维问题和大的评估预算。
translated by 谷歌翻译
识别模型参数的变化是机器学习和统计的基础。然而,标准变点模型是有限的无效性,通常解决一维问题并假设是瞬时变化。我们引入变化曲面作为变化点的多维和高度表达的推广。我们提供了变换曲面的模型不可知形式化,说明了它们如何在多个维度上提供变量,异构和非单调变化率。此外,我们还展示了变换曲面如何用于反事实预测。作为变换面框架的具体实例,我们开发了高斯过程变换曲面(GPCS)。我们通过引入加性不可分离核的新方法证明了贝叶斯后验均值和可信集的反事实预测,以及大规模可扩展性。利用两个大的时空数据集,我们使用GPCS来发现和表征可以提供科学和政策相关权威的复杂变化。具体而言,我们分析了美国的二十世纪麻疹发病率,并在引入麻疹疫苗后发现了以前未知的异质性变化。此外,我们将该模型应用于纽约市的铅检测试剂盒,发现不同的空间人口统计模式。
translated by 谷歌翻译
尽管可扩展模型取得了进展,但用于高斯过程(GP)的推理工具尚未充分利用计算硬件的发展。我们提出了一种基于Blackbox Matrix-Matrix乘法(BBMM)的GP推理的有效且通用的方法。 BBMM推断使用共轭梯度算法的修改版本来导出在单个调用中训练和推理所需的所有项。这降低了从$ O(n ^ 3)$到$ O(n ^ 2)$的精确GP推断的渐近复杂度。使该算法适应复杂的GP模型只需要一个例程来进行内核及其衍生的有效矩阵 - 矩阵乘法。此外,BBMM使用专门的预处理器来大幅加速收敛。在实验中我们表明BBMM有效地使用GPU加速 - 精确的GPinference和可伸缩近似比现有方法快20倍。此外,我们还提供了GPyTorch,这是一个基于PyTorch的可扩展GPinference软件平台,通过BBMM实现。
translated by 谷歌翻译
我们引入了概率快速文本,这是一种新的词嵌入模型,可以捕获多个词义,子词结构和不确定性信息。特别是,我们用高斯混合密度表示每个词,其中混合分量的平均值由总和给出n克。这种表示允许模型在子词结构(例如拉丁词根)之间共享统计强度,从而产生罕见,拼写错误甚至看不见的单词的准确表示。而且,混合物的每种成分都能捕捉到不同的词义。概率FastText优于具有无概率模型的FastText和不包含子字结构的字典级概率嵌入,包括英语RareWord和外语数据集。我们还在基准测试中实现了最先进的性能,可测量性能够识别不同的含义。因此,所提出的模型是第一个实现多感觉表示,同时在rarewords上丰富了语义。
translated by 谷歌翻译
高斯过程(GP)回归最引人注目的特征之一是能够提供经过良好校准的后验分布。诱导点方法的最新进展加快了GP边际可能性和后验计算,使后验协方差估计和采样成为计算瓶颈。在本文中,我们通过使用Lanczos算法快速逼近预测协方差矩阵来解决这些问题。我们的方法,我们称之为LOVE(LanczOsVariance Estimates),大大提高了时间和空间的复杂性。在实验中,LOVE计算协方差的速度提高了2000倍,绘制样本的速度比现有方法快18,000倍,所有这些都没有牺牲准确性。
translated by 谷歌翻译