Multivariate Hawkes processes are temporal point processes extensively applied to model event data with dependence on past occurrences and interaction phenomena. In the generalised nonlinear model, positive and negative interactions between the components of the process are allowed, therefore accounting for so-called excitation and inhibition effects. In the nonparametric setting, learning the temporal dependence structure of Hawkes processes is often a computationally expensive task, all the more with Bayesian estimation methods. In general, the posterior distribution in the nonlinear Hawkes model is non-conjugate and doubly intractable. Moreover, existing Monte-Carlo Markov Chain methods are often slow and not scalable to high-dimensional processes in practice. Recently, efficient algorithms targeting a mean-field variational approximation of the posterior distribution have been proposed. In this work, we unify existing variational Bayes inference approaches under a general framework, that we theoretically analyse under easily verifiable conditions on the prior, the variational class, and the model. We notably apply our theory to a novel spike-and-slab variational class, that can induce sparsity through the connectivity graph parameter of the multivariate Hawkes model. Then, in the context of the popular sigmoid Hawkes model, we leverage existing data augmentation technique and design adaptive and sparsity-inducing mean-field variational methods. In particular, we propose a two-step algorithm based on a thresholding heuristic to select the graph parameter. Through an extensive set of numerical simulations, we demonstrate that our approach enjoys several benefits: it is computationally efficient, can reduce the dimensionality of the problem by selecting the graph parameter, and is able to adapt to the smoothness of the underlying parameter.
translated by 谷歌翻译
近似贝叶斯计算(ABC)使复杂模型中的统计推断能够计算,其可能性难以计算,但易于模拟。 ABC通过接受/拒绝机制构建到后部分布的内核类型近似,该机制比较真实和模拟数据的摘要统计信息。为了避免对汇总统计数据的需求,我们直接将经验分布与通过分类获得的Kullback-Leibler(KL)发散估计值进行比较。特别是,我们将灵活的机器学习分类器混合在ABC中以自动化虚假/真实数据比较。我们考虑传统的接受/拒绝内核以及不需要ABC接受阈值的指数加权方案。我们的理论结果表明,我们的ABC后部分布集中在真实参数周围的速率取决于分类器的估计误差。我们得出了限制后形状的结果,并找到了一个正确缩放的指数内核,渐近常态持有。我们展示了我们对模拟示例以及在股票波动率估计的背景下的真实数据的有用性。
translated by 谷歌翻译
利用启发式来评估收敛性和压缩马尔可夫链蒙特卡罗的输出可以在生产的经验逼近时是次优。通常,许多初始状态归因于“燃烧”并移除,而链条的其余部分是“变薄”,如果还需要压缩。在本文中,我们考虑回顾性地从样本路径中选择固定基数的状态的问题,使得由其经验分布提供的近似接近最佳。提出了一种基于核心稳定性差异的贪婪最小化的新方法,这适用于需要重压力的问题。理论结果保障方法的一致性及其有效性在常微分方程的参数推理的具体背景下证明了该效果。软件可在Python,R和Matlab中的Stein细化包中提供。
translated by 谷歌翻译
我们引入了一种新的经验贝叶斯方法,用于大规模多线性回归。我们的方法结合了两个关键思想:(i)使用灵活的“自适应收缩”先验,该先验近似于正常分布的有限混合物,近似于正常分布的非参数家族; (ii)使用变分近似来有效估计先前的超参数并计算近似后期。将这两个想法结合起来,将快速,灵活的方法与计算速度相当,可与快速惩罚的回归方法(例如Lasso)相当,并在各种场景中具有出色的预测准确性。此外,我们表明,我们方法中的后验平均值可以解释为解决惩罚性回归问题,并通过直接解决优化问题(而不是通过交叉验证来调整)从数据中学到的惩罚函数的精确形式。 。我们的方法是在r https://github.com/stephenslab/mr.ash.ash.alpha的r软件包中实现的
translated by 谷歌翻译
近年来目睹了采用灵活的机械学习模型进行乐器变量(IV)回归的兴趣,但仍然缺乏不确定性量化方法的发展。在这项工作中,我们为IV次数回归提出了一种新的Quasi-Bayesian程序,建立了最近开发的核化IV模型和IV回归的双/极小配方。我们通过在$ l_2 $和sobolev规范中建立最低限度的最佳收缩率,并讨论可信球的常见有效性来分析所提出的方法的频繁行为。我们进一步推出了一种可扩展的推理算法,可以扩展到与宽神经网络模型一起工作。实证评价表明,我们的方法对复杂的高维问题产生了丰富的不确定性估计。
translated by 谷歌翻译
离散状态空间代表了对统计推断的主要计算挑战,因为归一化常数的计算需要在大型或可能的无限集中进行求和,这可能是不切实际的。本文通过开发适合离散可怜的可能性的新型贝叶斯推理程序来解决这一计算挑战。受到连续数据的最新方法学进步的启发,主要思想是使用离散的Fisher Divergence更新有关模型参数的信念,以代替有问题的棘手的可能性。结果是可以使用标准计算工具(例如Markov Chain Monte Carlo)进行采样的广义后部,从而规避了棘手的归一化常数。分析了广义后验的统计特性,并具有足够的后验一致性和渐近正态性的条件。此外,提出了一种新颖的通用后代校准方法。应用程序在离散空间数据的晶格模型和计数数据的多元模型上介绍,在每种情况下,方法论都以低计算成本促进通用的贝叶斯推断。
translated by 谷歌翻译
Mixtures of regression are a powerful class of models for regression learning with respect to a highly uncertain and heterogeneous response variable of interest. In addition to being a rich predictive model for the response given some covariates, the parameters in this model class provide useful information about the heterogeneity in the data population, which is represented by the conditional distributions for the response given the covariates associated with a number of distinct but latent subpopulations. In this paper, we investigate conditions of strong identifiability, rates of convergence for conditional density and parameter estimation, and the Bayesian posterior contraction behavior arising in finite mixture of regression models, under exact-fitted and over-fitted settings and when the number of components is unknown. This theory is applicable to common choices of link functions and families of conditional distributions employed by practitioners. We provide simulation studies and data illustrations, which shed some light on the parameter learning behavior found in several popular regression mixture models reported in the literature.
translated by 谷歌翻译
离散数据丰富,并且通常作为计数或圆形数据而出现。甚至对于线性回归模型,缀合格前沿和闭合形式的后部通常是不可用的,这需要近似诸如MCMC的后部推理。对于广泛的计数和圆形数据回归模型,我们介绍了能够闭合后部推理的共轭前沿。密钥后和预测功能可通过直接蒙特卡罗模拟来计算。至关重要的是,预测分布是离散的,以匹配数据的支持,并且可以在多个协变量中进行共同评估或模拟。这些工具广泛用途是线性回归,非线性模型,通过基础扩展,以及模型和变量选择。多种仿真研究表明计算,预测性建模和相对于现有替代方案的选择性的显着优势。
translated by 谷歌翻译
变性推理(VI)为基于传统的采样方法提供了一种吸引人的替代方法,用于实施贝叶斯推断,因为其概念性的简单性,统计准确性和计算可扩展性。然而,常见的变分近似方案(例如平均场(MF)近似)需要某些共轭结构以促进有效的计算,这可能会增加不必要的限制对可行的先验分布家族,并对变异近似族对差异进行进一步的限制。在这项工作中,我们开发了一个通用计算框架,用于实施MF-VI VIA WASSERSTEIN梯度流(WGF),这是概率度量空间上的梯度流。当专门针对贝叶斯潜在变量模型时,我们将分析基于时间消化的WGF交替最小化方案的算法收敛,用于实现MF近似。特别是,所提出的算法类似于EM算法的分布版本,包括更新潜在变量变异分布的E step以及在参数的变异分布上进行最陡峭下降的m step。我们的理论分析依赖于概率度量空间中的最佳运输理论和细分微积分。我们证明了时间限制的WGF的指数收敛性,以最大程度地减少普通大地测量学严格的凸度的通用物镜功能。我们还提供了通过使用时间限制的WGF的固定点方程从MF近似获得的变异分布的指数收缩的新证明。我们将方法和理论应用于两个经典的贝叶斯潜在变量模型,即高斯混合模型和回归模型的混合物。还进行了数值实验,以补充这两个模型下的理论发现。
translated by 谷歌翻译
广义贝叶斯推理使用损失函数而不是可能性的先前信仰更新,因此可以用于赋予鲁棒性,以防止可能的错误规范的可能性。在这里,我们认为广泛化的贝叶斯推论斯坦坦差异作为损失函数的损失,由应用程序的可能性含有难治性归一化常数。在这种情况下,斯坦因差异来避免归一化恒定的评估,并产生封闭形式或使用标准马尔可夫链蒙特卡罗的通用后出版物。在理论层面上,我们显示了一致性,渐近的正常性和偏见 - 稳健性,突出了这些物业如何受到斯坦因差异的选择。然后,我们提供关于一系列棘手分布的数值实验,包括基于内核的指数家庭模型和非高斯图形模型的应用。
translated by 谷歌翻译
对复杂模型执行精确的贝叶斯推理是计算的难治性的。马尔可夫链蒙特卡罗(MCMC)算法可以提供后部分布的可靠近似,但对于大型数据集和高维模型昂贵。减轻这种复杂性的标准方法包括使用子采样技术或在群集中分发数据。然而,这些方法通常在高维方案中不可靠。我们在此处专注于最近的替代类别的MCMC方案,利用类似于乘客(ADMM)优化算法的庆祝交替方向使用的分裂策略。这些方法似乎提供了凭经验最先进的性能,但其高维层的理论行为目前未知。在本文中,我们提出了一个详细的理论研究,该算法之一称为分裂Gibbs采样器。在规律条件下,我们使用RICCI曲率和耦合思路为此方案建立了明确的收敛速率。我们以数字插图支持我们的理论。
translated by 谷歌翻译
本文研究了用于训练过度参数化制度中的贝叶斯神经网络(BNN)的变异推理(VI),即当神经元的数量趋于无穷大时。更具体地说,我们考虑过度参数化的两层BNN,并指出平均VI训练中的关键问题。这个问题来自于证据(ELBO)的下限分解为两个术语:一个与模型的可能性函数相对应,第二个对应于kullback-leibler(KL)差异(KL)差异。特别是,我们从理论和经验上都表明,只有当根据观测值和神经元之间的比率适当地重新缩放KL时,在过度参数化制度中,这两个术语之间存在权衡。我们还通过数值实验来说明我们的理论结果,这些实验突出了该比率的关键选择。
translated by 谷歌翻译
当可用时,我们继续研究宠物或SPECT等抛光断层凝视的不确定性量化问题。为了解决上述问题,我们将最近提出的非参数后学习技术适应排放断层扫描中泊松型数据的背景。使用这种方法,我们推出了采样算法,这些算法是微不一性的,可扩展的,非常容易实现。此外,我们证明了在小噪声极限中分布产生的样品的条件一致性和紧密性(即,当采集时间趋于无穷大时)并导出必须使用MRI图像的新几何和必要条件。这种情况自然出现在错过的广义泊松模型的可识别性问题的背景下。我们还将我们的方法与贝叶斯马尔可夫链蒙特卡罗采样进行了鲜明对比,基于一个数据增强方案,这在宠物或SPECT的期望最大化算法中非常流行。我们理论上展示了这些数据增强显着增加了马尔可夫链的混合时间。鉴于此,我们的算法似乎在设计复杂性,可扩展性,数值负荷和不确定性评估之间提供合理的权衡。
translated by 谷歌翻译
我们提出了一种变分贝叶斯比例危险模型,用于预测和可变选择的关于高维存活数据。我们的方法基于平均场变分近似,克服了MCMC的高计算成本,而保留有用的特征,提供优异的点估计,并通过后夹层概念提供可变选择的自然机制。我们提出的方法的性能通过广泛的仿真进行评估,并与其他最先进的贝叶斯变量选择方法进行比较,展示了可比或更好的性能。最后,我们展示了如何在两个转录组数据集上使用所提出的方法进行审查的生存结果,其中我们识别具有预先存在的生物解释的基因。
translated by 谷歌翻译
We consider the stochastic linear contextual bandit problem with high-dimensional features. We analyze the Thompson sampling (TS) algorithm, using special classes of sparsity-inducing priors (e.g. spike-and-slab) to model the unknown parameter, and provide a nearly optimal upper bound on the expected cumulative regret. To the best of our knowledge, this is the first work that provides theoretical guarantees of Thompson sampling in high dimensional and sparse contextual bandits. For faster computation, we use spike-and-slab prior to model the unknown parameter and variational inference instead of MCMC to approximate the posterior distribution. Extensive simulations demonstrate improved performance of our proposed algorithm over existing ones.
translated by 谷歌翻译
One of the core problems of modern statistics is to approximate difficult-to-compute probability densities. This problem is especially important in Bayesian statistics, which frames all inference about unknown quantities as a calculation involving the posterior density. In this paper, we review variational inference (VI), a method from machine learning that approximates probability densities through optimization. VI has been used in many applications and tends to be faster than classical methods, such as Markov chain Monte Carlo sampling. The idea behind VI is to first posit a family of densities and then to find the member of that family which is close to the target. Closeness is measured by Kullback-Leibler divergence. We review the ideas behind mean-field variational inference, discuss the special case of VI applied to exponential family models, present a full example with a Bayesian mixture of Gaussians, and derive a variant that uses stochastic optimization to scale up to massive data. We discuss modern research in VI and highlight important open problems. VI is powerful, but it is not yet well understood. Our hope in writing this paper is to catalyze statistical research on this class of algorithms.
translated by 谷歌翻译
这项工作提出了一个新的程序,可以在高斯过程(GP)建模的背景下获得预测分布,并放松了一些感兴趣的范围之外的插值约束:预测分布的平均值不一定会在观察到的值时插入观察值的值。感兴趣的外部范围,但仅限于留在外面。这种称为放松的高斯工艺(REGP)插值的方法在感兴趣的范围内提供了更好的预测分布,尤其是在GP模型的平稳性假设不合适的情况下。它可以被视为一种面向目标的方法,并且在贝叶斯优化中变得特别有趣,例如,对于目标函数的最小化,低功能值的良好预测分布很重要。当将预期改进标准和REGP用于依次选择评估点时,从理论上保证了所得优化算法的收敛性(前提)。实验表明,在贝叶斯优化中使用REGP代替固定的GP模型是有益的。
translated by 谷歌翻译
We consider the problem of estimating the optimal transport map between a (fixed) source distribution $P$ and an unknown target distribution $Q$, based on samples from $Q$. The estimation of such optimal transport maps has become increasingly relevant in modern statistical applications, such as generative modeling. At present, estimation rates are only known in a few settings (e.g. when $P$ and $Q$ have densities bounded above and below and when the transport map lies in a H\"older class), which are often not reflected in practice. We present a unified methodology for obtaining rates of estimation of optimal transport maps in general function spaces. Our assumptions are significantly weaker than those appearing in the literature: we require only that the source measure $P$ satisfies a Poincar\'e inequality and that the optimal map be the gradient of a smooth convex function that lies in a space whose metric entropy can be controlled. As a special case, we recover known estimation rates for bounded densities and H\"older transport maps, but also obtain nearly sharp results in many settings not covered by prior work. For example, we provide the first statistical rates of estimation when $P$ is the normal distribution and the transport map is given by an infinite-width shallow neural network.
translated by 谷歌翻译
本论文主要涉及解决深层(时间)高斯过程(DGP)回归问题的状态空间方法。更具体地,我们代表DGP作为分层组合的随机微分方程(SDES),并且我们通过使用状态空间过滤和平滑方法来解决DGP回归问题。由此产生的状态空间DGP(SS-DGP)模型生成丰富的电视等级,与建模许多不规则信号/功能兼容。此外,由于他们的马尔可道结构,通过使用贝叶斯滤波和平滑方法可以有效地解决SS-DGPS回归问题。本论文的第二次贡献是我们通过使用泰勒力矩膨胀(TME)方法来解决连续离散高斯滤波和平滑问题。这诱导了一类滤波器和SmooThers,其可以渐近地精确地预测随机微分方程(SDES)解决方案的平均值和协方差。此外,TME方法和TME过滤器和SmoOthers兼容模拟SS-DGP并解决其回归问题。最后,本文具有多种状态 - 空间(深)GPS的应用。这些应用主要包括(i)来自部分观察到的轨迹的SDES的未知漂移功能和信号的光谱 - 时间特征估计。
translated by 谷歌翻译
我们在客观函数是多模态和/或具有鞍点的情况下,在某些情况下介​​绍了一个新的在线算法,以便在术语G-PFSO。支撑G-PFSO的关键元件是概率分布,该概率分布,其被示出为集中在目标参数值上,因为样品大小增加并且可以通过标准粒子滤波算法有效地估计(B)。该分布取决于学习速率,其中学习速率越快,它将更快地集中在搜索空间的所需元素上,但是G-PFSO的可能性不太可能从目标函数的局部最优值逃逸。为了实现具有慢的学习速率的快速收敛速度,G-PFSO利用平均的加速性,在随机梯度文献中众所周知。考虑到几个具有挑战性的估计问题,数值实验表明,具有高概率,G-PFSO成功地找到了目标函数的最高模式,并以最佳速率收敛到其全球最大化器。虽然这项工作的重点是预期的对数似然最大化,但所提出的方法及其理论更普遍适用于优化通过期望定义的函数。
translated by 谷歌翻译