Quantifying the deviation of a probability distribution is challenging when the target distribution is defined by a density with an intractable normalizing constant. The kernel Stein discrepancy (KSD) was proposed to address this problem and has been applied to various tasks including diagnosing approximate MCMC samplers and goodness-of-fit testing for unnormalized statistical models. This article investigates a convergence control property of the diffusion kernel Stein discrepancy (DKSD), an instance of the KSD proposed by Barp et al. (2019). We extend the result of Gorham and Mackey (2017), which showed that the KSD controls the bounded-Lipschitz metric, to functions of polynomial growth. Specifically, we prove that the DKSD controls the integral probability metric defined by a class of pseudo-Lipschitz functions, a polynomial generalization of Lipschitz functions. We also provide practical sufficient conditions on the reproducing kernel for the stated property to hold. In particular, we show that the DKSD detects non-convergence in moments with an appropriate kernel.
translated by 谷歌翻译
最大平均差异(MMD)(例如内核Stein差异(KSD))已成为广泛应用的中心,包括假设测试,采样器选择,分布近似和变异推断。在每种情况下,这些基于内核的差异度量都需要(i)(i)将目标p与其他概率度量分开,甚至(ii)控制弱收敛到P。在本文中,我们得出了新的足够和必要的条件,以确保(i) (ii)。对于可分开的度量空间上的MMD,我们表征了那些将BOCHNER嵌入量度分开的内核,并引入了简单条件,以将所有措施用无限的内核分开,并控制与有界内核的收敛。我们在$ \ mathbb {r}^d $上使用这些结果来实质性地扩大了KSD分离和收敛控制的已知条件,并开发了已知的第一个KSD,以恰好将弱收敛到P。我们的假设检验,测量和改善样本质量以及用Stein变异梯度下降进行抽样的结果。
translated by 谷歌翻译
季节预测$ \ unicode {x2013} $预测温度和降水量为2至6周$ \ unicode {x2013} $,对于有效的水分配,野火管理,干旱和缓解洪水至关重要。最近的国际研究工作提高了操作动力学模型的亚季节能力,但是温度和降水预测技能仍然很差,部分原因是代表动态模型内大气动力学和物理学的顽固错误。为了应对这些错误,我们引入了一种自适应偏置校正(ABC)方法,该方法将最新的动力学预测与使用机器学习的观察结合在一起。当应用于欧洲中等天气预测中心(ECMWF)的领先的亚季节模型时,ABC将温度预测技能提高了60-90%,在美国的连续美国,降水预测技能提高了40-69%基于Shapley队列的实用工作流程,用于解释ABC技能的提高并根据特定的气候条件识别机遇的高技能窗口。
translated by 谷歌翻译
尖峰和单杆先验由于其可解释性和有利的统计特性,通常用于贝叶斯变量选择。但是,当变量数量较大时,现有的尖峰和锯齿状后侧面的采样器会产生过度的计算成本。在本文中,我们提出了可伸缩的尖峰和剪裁($ s^3 $),这是用于高维贝叶斯回归的可伸缩吉布斯采样实现,并具有乔治和麦卡洛克(George and McCulloch)的连续​​尖峰和剪辑(1993)。对于具有$ n $观测值和$ p $ cOVARIATES的数据集,$ s^3 $具有订单$ \ max \ {n^2 p_t,np \} $计算成本$ t $,其中$ p_t $永远不超过数量Markov链的迭代$ t $和$ t-1 $之间的协变量切换尖峰和单杆状态。这可以改善最先进实施的$ n^2 p $每题费,因为通常,$ p_t $大大小于$ p $。我们将$ S^3 $应用于合成和现实世界数据集上,证明了现有精确采样器的数量级加速顺序,并且比相当成本的近似采样器相比,推断质量的显着增长。
translated by 谷歌翻译
Gradient estimation -- approximating the gradient of an expectation with respect to the parameters of a distribution -- is central to the solution of many machine learning problems. However, when the distribution is discrete, most common gradient estimators suffer from excessive variance. To improve the quality of gradient estimation, we introduce a variance reduction technique based on Stein operators for discrete distributions. We then use this technique to build flexible control variates for the REINFORCE leave-one-out estimator. Our control variates can be adapted online to minimize variance and do not require extra evaluations of the target function. In benchmark generative modeling tasks such as training binary variational autoencoders, our gradient estimator achieves substantially lower variance than state-of-the-art estimators with the same number of function evaluations.
translated by 谷歌翻译
马尔可夫链Monte Carlo(MCMC)为难以相干后望的渐近一致的估计提供,因为迭代的数量趋于无穷大。但是,在大数据应用中,MCMC可计算地计算地昂贵。这催化了对诸如MCMC等近似MCMC的采样方法的兴趣,这对渐近一致性进行了改善的计算速度。在本文中,我们提出了基于马尔可夫链耦合的估计,以评估这种渐近偏置的采样方法的质量。估计器给出了渐近偏置抽样方法的限制分布与利息的原始目标分布之间的韦斯特·距离的经验上限。我们为我们的上限建立了理论担保,并表明我们的估算变量能够在高维度方面保持有效。我们将质量措施应用于随机梯度MCMC,变分贝叶斯和LAPPAlt近似为高数据,并在50000维度中以4500维度和贝叶斯线性回归近似MCMC。
translated by 谷歌翻译
在分发压缩中,一个目标是使用少量代表点准确地总结$ \ mathbb {p} $。近乎最佳的稀释程序通过从马尔可夫链中的$ n $积分来实现这一目标,并使用$ \ widetilde {\ mathcal {o}}识别$ \ sqrt {n} $ points(1 / sqrt {n})$差异$ \ mathbb {p} $。不幸的是,这些算法患有样本大小$ N $的二次或超级二次运行时。为了解决这一缺陷,我们介绍了一种简单的元过程,用于加速任何细化算法,同时遭遇最多为4美元的次数为4美元。与DWivedi和Mackey的二次时间内核半核节点和内核变薄算法相结合(2021),Compress ++以$ \ mathcal {o}提供$ \ sqrt {n} $ points(\ sqrt {\ log n / n})$ Integration error和monte-monte-carlo在$ \ mathcal {o}中的最大意义差异差异(n \ log ^ 3 n)$ time和$ \ mathcal {o}(\ sqrt {n} \ log ^ 2 n)$空间。此外,Compress ++享受相同的近线性运行时给出任何二次时间输入并通过平方根数减少超级二次算法的运行时间。在我们的基准测试中,具有高维蒙特卡罗样本和马尔可夫链瞄准具有挑战性的微分方程后海底,压缩++匹配或几乎匹配其输入算法的准确性在较少时间的时间顺序。
translated by 谷歌翻译
Dwivedi和Mackey(2021)的核细化(kt)算法(2021)通过瞄准再现内核希尔伯特空间(RKHS)来更有效地压缩概率分布,并且通过瞄准再现内核Hilbert空间(RKHS)并利用较小的平方根根内核。在这里,我们提供了四种改进。首先,我们表明KT直接应用于目标RKHS,对任何内核,任何分布和RKHS中的任何固定功能都没有收益,无维保证。其次,我们表明,对于像高斯,反向多资本和SINC等分析核,目标KT承认最大平均差异(MMD)的保证与平方根KT相当的保证,而无需明确地使用平方根内核。第三,我们证明KT与分数电源内核产生了更好的Monte-Carlo MMD保证非平滑内核,如Laplace和Mat'ern,没有方形根源。第四,我们建立了kt应用于目标和电源内核的总和(我们呼叫kt +的程序)同时继承了Power Kt的改进的MMD保证和目标KT的更严格的各个功能保证。在我们的目标KT和KT +的实验中,我们目睹了甚至以100美元的尺寸,并且在压缩挑战微分方程后面时,我们目睹了整合误差的显着改进。
translated by 谷歌翻译
我们基准了一个简单学习模型的亚季节预测工具包,该工具包优于操作实践和最先进的机器学习和深度学习方法。这些模型,由Mouatadid等人引入。 (2022),包括(a)气候++,这是气候学的一种适应性替代品,对于降水而言,准确性9%,比美国运营气候预测系统(CFSV2)高9%,熟练250%; (b)CFSV2 ++,一种学习的CFSV2校正,可将温度和降水精度提高7-8%,技能提高50-275%; (c)持久性++是一种增强的持久性模型,将CFSV2预测与滞后测量相结合,以将温度和降水精度提高6-9%,技能提高40-130%。在整个美国,气候++,CFSV2 ++和持久性++工具包始终优于标准气象基准,最先进的机器和深度学习方法,以及欧洲中等范围的天气预报集合中心。
translated by 谷歌翻译
许多现代的机器学习算法通过在与性别或种族等敏感属性相关的粗略定义的群体之间执行公平限制来减轻偏见。但是,这些算法很少说明组内异质性和偏见可能会对组的某些成员产生不成比例。在这项工作中,我们表征了社会规范偏见(Snob),这是一种微妙但因此的算法歧视类型,即使这些系统实现了群体公平目标,也可以通过机器学习模型展示。我们通过职业分类中的性别偏见来研究这个问题。我们通过衡量算法的预测与推断性别规范的一致性相关,来量化势利小人。当预测一个人是否属于男性主导的职业时,该框架表明,“公平”的分类者仍然以与推断的男性规范相符的方式写的传记。我们比较跨算法公平方法的势利小人,并表明它通常是残留的偏见,而后处理方法根本不会减轻这种偏见。
translated by 谷歌翻译