Mixup is a popular data augmentation technique for training deep neural networks where additional samples are generated by linearly interpolating pairs of inputs and their labels. This technique is known to improve the generalization performance in many learning paradigms and applications. In this work, we first analyze Mixup and show that it implicitly regularizes infinitely many directional derivatives of all orders. We then propose a new method to improve Mixup based on the novel insight. To demonstrate the effectiveness of the proposed method, we conduct experiments across various domains such as images, tabular data, speech, and graphs. Our results show that the proposed method improves Mixup across various datasets using a variety of architectures, for instance, exhibiting an improvement over Mixup by 0.8% in ImageNet top-1 accuracy.
translated by 谷歌翻译
Gaussian process training decomposes into inference of the (approximate) posterior and learning of the hyperparameters. For non-Gaussian (non-conjugate) likelihoods, two common choices for approximate inference are Expectation Propagation (EP) and Variational Inference (VI), which have complementary strengths and weaknesses. While VI's lower bound to the marginal likelihood is a suitable objective for inferring the approximate posterior, it does not automatically imply it is a good learning objective for hyperparameter optimization. We design a hybrid training procedure where the inference leverages conjugate-computation VI and the learning uses an EP-like marginal likelihood approximation. We empirically demonstrate on binary classification that this provides a good learning objective and generalizes better.
translated by 谷歌翻译
无源域的适应性(SFDA)旨在通过仅使用预训练的源模型将分类器调整为未标记的目标数据集。但是,缺乏源数据和域移动使目标数据对目标数据的预测不可靠。我们建议量化源模型预测中的不确定性,并利用它来指导目标适应。为此,我们通过在网络参数上合并先验,构建一个概率源模型,从而在模型预测上诱导分布。通过采用拉普拉斯近似值来估算不确定性,并合并以识别不在源歧管中的目标数据点并在最大化目标数据上的共同信息时减少重量。与最近的作品不同,我们的概率处理是计算轻量级,脱离源训练和目标适应,并且不需要专门的源培训或模型体系结构的更改。我们显示了不确定性引导的SFDA比封闭设置和开放式设置中的传统SFDA的优势,并提供了经验证据,即即使没有调整,我们的方法对于强大的域转移也更为强大。
translated by 谷歌翻译
尽管扩散模型在图像生成中表现出了巨大的成功,但它们的噪声生成过程并未明确考虑图像的结构,例如它们固有的多尺度性质。受扩散模型的启发和粗到精细建模的可取性,我们提出了一个新模型,该模型通过迭代反转热方程式生成图像,当在图像的2D平面上运行时,PDE局部删除了细尺度信息。在我们的新方法中,正向热方程的解被解释为有向图形模型中的变异近似。我们展示了有希望的图像质量,并指出了在扩散模型中未见的新兴定性特性,例如在神经网络可解释性的图像和各个方面的整体颜色和形状分解。对自然图像的光谱分析将我们的模型定位为扩散模型的一种双重偶,并揭示了其中的隐式感应偏见。
translated by 谷歌翻译
这是普遍且观察到的,但知之甚少,两个在训练过程中具有相似性能的机器学习模型可能具有非常不同的现实性能特征。这意味着模型内部的难以捉摸的差异,表现为表示多样性(RM)。我们引入了一种概念性和实验设置,用于分析RM,并表明某些训练方法系统地导致RM比其他训练方法更大,这是通过通过单数矢量规范相关分析(SVCCA)激活相似性来衡量的。我们将其进一步与通过I.I.D的方差衡量的预测多样性相关联。在四个通用图像数据集中,分布外测试集预测。我们呼吁模型中的RM系统测量和最大暴露,而不是消除RM。诸如我们的炮板分析之类的定性工具可以促进与利益相关者的RM效应的理解和交流。
translated by 谷歌翻译
高斯过程(GPS)提供了对图表的推理和学习的原则和直接的方法。然而,缺乏用于时空建模的正义的图形内核已经备份了在图形问题中的使用。我们在图形上利用随机偏微分方程(SPDES)和GPS之间的显式链接,并导出捕获空间和时间交互的不可分离的时空图形内核。我们制定了随机热方程和波动方程的图形核。我们展示通过为图形提供新颖的时空GP建模的新型工具,我们在特征扩散,振荡和其他复杂交互中的实际应用中优先于现有的图形内核。
translated by 谷歌翻译
稀疏变分高斯工艺(SVGP)方法是由于其计算效益的非共轭高斯工艺推论的常见选择。在本文中,我们通过使用双重参数化来提高其计算效率,其中每个数据示例被分配双参数,类似于期望传播中使用的站点参数。我们使用自然梯度下降的双重参数化速度推断,并提供了较小的证据,用于近似参数学习。该方法具有与当前SVGP方法相同的内存成本,但它更快,更准确。
translated by 谷歌翻译
我们介绍了一种可扩展的方法来实现高斯工艺推断,它将时空滤波与自然梯度变化推断相结合,导致用于多变量数据的非共轭GP方法,其相对于时间线性缩放。我们的自然梯度方法可以应用并行滤波和平滑,进一步降低时间跨度复杂性在时间步长的对数。我们得出了稀疏近似,该稀疏近似值在减少的空间诱导点上构造一个状态空间模型,并且显示用于可分离的马尔可夫内核,完整和稀疏的情况完全恢复标准变分GP,同时表现出有利的计算特性。为了进一步改善空间缩放,我们提出了一种平均场景假设空间位置之间的独立性,当与稀疏性和平行化连接时,这导致了大规模的时空问题的有效和准确的方法。
translated by 谷歌翻译
我们制定自然梯度变推理(VI),期望传播(EP),和后线性化(PL)作为牛顿法用于优化贝叶斯后验分布的参数扩展。这种观点明确地把数值优化框架下的推理算法。我们表明,通用近似牛顿法从优化文献,即高斯 - 牛顿和准牛顿方法(例如,该BFGS算法),仍然是这种“贝叶斯牛顿”框架下有效。这导致了一套这些都保证以产生半正定协方差矩阵,不像标准VI和EP新颖算法。我们统一的观点提供了新的见解各种推理方案之间的连接。所有提出的方法适用于具有高斯事先和非共轭的可能性,这是我们与(疏)高斯过程和状态空间模型展示任何模型。
translated by 谷歌翻译
已知神经网络模型加强隐藏的数据偏差,使它们不可靠且难以解释。我们试图通过在功能空间中引入归纳偏差来构建“知道他们不知道的内容”。我们表明贝叶斯神经网络的定期激活功能在网络权重和平移 - 不变,静止的高斯过程前沿建立了连接之间的连接。此外,我们表明,通过覆盖三角波和周期性的Relu激活功能,该链接超出了正弦波(傅里叶)激活。在一系列实验中,我们表明定期激活功能获得了域内数据的可比性,并捕获对深度神经网络中的扰动输入的灵敏度进行域名检测。
translated by 谷歌翻译