我们提出了一种变分贝叶斯比例危险模型,用于预测和可变选择的关于高维存活数据。我们的方法基于平均场变分近似,克服了MCMC的高计算成本,而保留有用的特征,提供优异的点估计,并通过后夹层概念提供可变选择的自然机制。我们提出的方法的性能通过广泛的仿真进行评估,并与其他最先进的贝叶斯变量选择方法进行比较,展示了可比或更好的性能。最后,我们展示了如何在两个转录组数据集上使用所提出的方法进行审查的生存结果,其中我们识别具有预先存在的生物解释的基因。
translated by 谷歌翻译
我们引入了一种新的经验贝叶斯方法,用于大规模多线性回归。我们的方法结合了两个关键思想:(i)使用灵活的“自适应收缩”先验,该先验近似于正常分布的有限混合物,近似于正常分布的非参数家族; (ii)使用变分近似来有效估计先前的超参数并计算近似后期。将这两个想法结合起来,将快速,灵活的方法与计算速度相当,可与快速惩罚的回归方法(例如Lasso)相当,并在各种场景中具有出色的预测准确性。此外,我们表明,我们方法中的后验平均值可以解释为解决惩罚性回归问题,并通过直接解决优化问题(而不是通过交叉验证来调整)从数据中学到的惩罚函数的精确形式。 。我们的方法是在r https://github.com/stephenslab/mr.ash.ash.alpha的r软件包中实现的
translated by 谷歌翻译
Rapid advancements in collection and dissemination of multi-platform molecular and genomics data has resulted in enormous opportunities to aggregate such data in order to understand, prevent, and treat human diseases. While significant improvements have been made in multi-omic data integration methods to discover biological markers and mechanisms underlying both prognosis and treatment, the precise cellular functions governing these complex mechanisms still need detailed and data-driven de-novo evaluations. We propose a framework called Functional Integrative Bayesian Analysis of High-dimensional Multiplatform Genomic Data (fiBAG), that allows simultaneous identification of upstream functional evidence of proteogenomic biomarkers and the incorporation of such knowledge in Bayesian variable selection models to improve signal detection. fiBAG employs a conflation of Gaussian process models to quantify (possibly non-linear) functional evidence via Bayes factors, which are then mapped to a novel calibrated spike-and-slab prior, thus guiding selection and providing functional relevance to the associations with patient outcomes. Using simulations, we illustrate how integrative methods with functional calibration have higher power to detect disease related markers than non-integrative approaches. We demonstrate the profitability of fiBAG via a pan-cancer analysis of 14 cancer types to identify and assess the cellular mechanisms of proteogenomic markers associated with cancer stemness and patient survival.
translated by 谷歌翻译
尖峰和单杆先验由于其可解释性和有利的统计特性,通常用于贝叶斯变量选择。但是,当变量数量较大时,现有的尖峰和锯齿状后侧面的采样器会产生过度的计算成本。在本文中,我们提出了可伸缩的尖峰和剪裁($ s^3 $),这是用于高维贝叶斯回归的可伸缩吉布斯采样实现,并具有乔治和麦卡洛克(George and McCulloch)的连续​​尖峰和剪辑(1993)。对于具有$ n $观测值和$ p $ cOVARIATES的数据集,$ s^3 $具有订单$ \ max \ {n^2 p_t,np \} $计算成本$ t $,其中$ p_t $永远不超过数量Markov链的迭代$ t $和$ t-1 $之间的协变量切换尖峰和单杆状态。这可以改善最先进实施的$ n^2 p $每题费,因为通常,$ p_t $大大小于$ p $。我们将$ S^3 $应用于合成和现实世界数据集上,证明了现有精确采样器的数量级加速顺序,并且比相当成本的近似采样器相比,推断质量的显着增长。
translated by 谷歌翻译
One of the core problems of modern statistics is to approximate difficult-to-compute probability densities. This problem is especially important in Bayesian statistics, which frames all inference about unknown quantities as a calculation involving the posterior density. In this paper, we review variational inference (VI), a method from machine learning that approximates probability densities through optimization. VI has been used in many applications and tends to be faster than classical methods, such as Markov chain Monte Carlo sampling. The idea behind VI is to first posit a family of densities and then to find the member of that family which is close to the target. Closeness is measured by Kullback-Leibler divergence. We review the ideas behind mean-field variational inference, discuss the special case of VI applied to exponential family models, present a full example with a Bayesian mixture of Gaussians, and derive a variant that uses stochastic optimization to scale up to massive data. We discuss modern research in VI and highlight important open problems. VI is powerful, but it is not yet well understood. Our hope in writing this paper is to catalyze statistical research on this class of algorithms.
translated by 谷歌翻译
在使用多模式贝叶斯后部分布时,马尔可夫链蒙特卡罗(MCMC)算法难以在模式之间移动,并且默认变分或基于模式的近似推动将低估后不确定性。并且,即使找到最重要的模式,难以评估后部的相对重量。在这里,我们提出了一种使用MCMC,变分或基于模式的模式的并行运行的方法,以便尽可能多地击中多种模式或分离的区域,然后使用贝叶斯堆叠来组合这些用于构建分布的加权平均值的可扩展方法。通过堆叠从多模式后分布的堆叠,最小化交叉验证预测误差的结果,并且代表了比变分推断更好的不确定度,但它不一定是相当于渐近的,以完全贝叶斯推断。我们呈现理论一致性,其中堆叠推断逼近来自未衰退的模型和非混合采样器的真实数据生成过程,预测性能优于完全贝叶斯推断,因此可以被视为祝福而不是模型拼写下的诅咒。我们展示了几个模型家庭的实际实施:潜在的Dirichlet分配,高斯过程回归,分层回归,马蹄素变量选择和神经网络。
translated by 谷歌翻译
回归模型用于各种应用,为来自不同领域的研究人员提供强大的科学工具。线性或简单的参数,模型通常不足以描述输入变量与响应之间的复杂关系。通过诸如神经网络的灵活方法可以更好地描述这种关系,但这导致不太可解释的模型和潜在的过度装备。或者,可以使用特定的参数非线性函数,但是这种功能的规范通常是复杂的。在本文中,我们介绍了一种灵活的施工方法,高度灵活的非线性参数回归模型。非线性特征是分层的,类似于深度学习,但对要考虑的可能类型的功能具有额外的灵活性。这种灵活性,与变量选择相结合,使我们能够找到一小部分重要特征,从而可以更具可解释的模型。在可能的功能的空间内,考虑了贝叶斯方法,基于它们的复杂性引入功能的前沿。采用遗传修改模式跳跃马尔可夫链蒙特卡罗算法来执行贝叶斯推理和估计模型平均的后验概率。在各种应用中,我们说明了我们的方法如何用于获得有意义的非线性模型。此外,我们将其预测性能与多个机器学习算法进行比较。
translated by 谷歌翻译
贝叶斯变量选择方法是适合和推断稀疏高维线性回归模型的强大技术。但是,许多在计算密集型上或需要对模型参数进行限制性的先验分布。基于可能性的惩罚方法在计算方面更友好,但是推理需要资源密集型的改装技术。在本文中,我们提出了一种有效而强大的贝叶斯方法,用于稀疏高维线性回归。通过使用插件的经验贝叶斯估算超参数的估计值,需要对参数的最小化假设。有效的最大后验概率(MAP)估计是通过使用分区和扩展期望最大化(ECM)算法完成的。结果是应用于稀疏高维线性回归的经验贝叶斯ECM(探针)算法。我们提出了估计未来价值预测的可靠和预测间隔的方法。我们将预测的经验特性和我们的预测推断与可比方法进行了比较,并通过大量的模拟研究和对癌细胞系药物反应研究的分析进行了比较。提出的方法在R软件包探针中实现。
translated by 谷歌翻译
Multivariate Hawkes processes are temporal point processes extensively applied to model event data with dependence on past occurrences and interaction phenomena. In the generalised nonlinear model, positive and negative interactions between the components of the process are allowed, therefore accounting for so-called excitation and inhibition effects. In the nonparametric setting, learning the temporal dependence structure of Hawkes processes is often a computationally expensive task, all the more with Bayesian estimation methods. In general, the posterior distribution in the nonlinear Hawkes model is non-conjugate and doubly intractable. Moreover, existing Monte-Carlo Markov Chain methods are often slow and not scalable to high-dimensional processes in practice. Recently, efficient algorithms targeting a mean-field variational approximation of the posterior distribution have been proposed. In this work, we unify existing variational Bayes inference approaches under a general framework, that we theoretically analyse under easily verifiable conditions on the prior, the variational class, and the model. We notably apply our theory to a novel spike-and-slab variational class, that can induce sparsity through the connectivity graph parameter of the multivariate Hawkes model. Then, in the context of the popular sigmoid Hawkes model, we leverage existing data augmentation technique and design adaptive and sparsity-inducing mean-field variational methods. In particular, we propose a two-step algorithm based on a thresholding heuristic to select the graph parameter. Through an extensive set of numerical simulations, we demonstrate that our approach enjoys several benefits: it is computationally efficient, can reduce the dimensionality of the problem by selecting the graph parameter, and is able to adapt to the smoothness of the underlying parameter.
translated by 谷歌翻译
具有伽马超高提升的分层模型提供了一个灵活,稀疏的促销框架,用于桥接$ l ^ 1 $和$ l ^ 2 $ scalalizations在贝叶斯的配方中致正问题。尽管对这些模型具有贝叶斯动机,但现有的方法仅限于\ Textit {最大后验}估计。尚未实现执行不确定性量化的可能性。本文介绍了伽马超高图的分层逆问题的变分迭代交替方案。所提出的变分推理方法产生精确的重建,提供有意义的不确定性量化,易于实施。此外,它自然地引入了用于选择超参数的模型选择。我们说明了我们在几个计算的示例中的方法的性能,包括从时间序列数据的动态系统的解卷积问题和稀疏识别。
translated by 谷歌翻译
Modern statistical learning algorithms are capable of amazing flexibility, but struggle with interpretability. One possible solution is sparsity: making inference such that many of the parameters are estimated as being identically 0, which may be imposed through the use of nonsmooth penalties such as the $\ell_1$ penalty. However, the $\ell_1$ penalty introduces significant bias when high sparsity is desired. In this article, we retain the $\ell_1$ penalty, but define learnable penalty weights $\lambda_p$ endowed with hyperpriors. We start the article by investigating the optimization problem this poses, developing a proximal operator associated with the $\ell_1$ norm. We then study the theoretical properties of this variable-coefficient $\ell_1$ penalty in the context of penalized likelihood. Next, we investigate application of this penalty to Variational Bayes, developing a model we call the Sparse Bayesian Lasso which allows for behavior qualitatively like Lasso regression to be applied to arbitrary variational models. In simulation studies, this gives us the Uncertainty Quantification and low bias properties of simulation-based approaches with an order of magnitude less computation. Finally, we apply our methodology to a Bayesian lagged spatiotemporal regression model of internal displacement that occurred during the Iraqi Civil War of 2013-2017.
translated by 谷歌翻译
The horseshoe prior is known to possess many desirable properties for Bayesian estimation of sparse parameter vectors, yet its density function lacks an analytic form. As such, it is challenging to find a closed-form solution for the posterior mode. Conventional horseshoe estimators use the posterior mean to estimate the parameters, but these estimates are not sparse. We propose a novel expectation-maximisation (EM) procedure for computing the MAP estimates of the parameters in the case of the standard linear model. A particular strength of our approach is that the M-step depends only on the form of the prior and it is independent of the form of the likelihood. We introduce several simple modifications of this EM procedure that allow for straightforward extension to generalised linear models. In experiments performed on simulated and real data, our approach performs comparable, or superior to, state-of-the-art sparse estimation methods in terms of statistical performance and computational cost.
translated by 谷歌翻译
贝叶斯变量选择是用于数据分析的强大工具,因为它为可变选择提供了原则性的方法,该方法可以说明事先信息和不确定性。但是,贝叶斯变量选择的广泛采用受到计算挑战的阻碍,尤其是在具有大量协变量P或非偶联的可能性的困难政权中。为了扩展到大型P制度,我们引入了一种有效的MCMC方案,其每次迭代的成本在P中是均等的。此外,我们还显示了如何将该方案扩展到用于计数数据的广义线性模型,这些模型在生物学,生态学,经济学,经济学,经济学,经济学,经济学,经济学,经济学上很普遍超越。特别是,我们设计有效的算法,用于二项式和负二项式回归中的可变选择,其中包括逻辑回归作为一种特殊情况。在实验中,我们证明了方法的有效性,包括对癌症和玉米基因组数据。
translated by 谷歌翻译
剩下的交叉验证(LOO-CV)是一种估计样本外预测准确性的流行方法。但是,由于需要多次拟合模型,因此计算LOO-CV标准在计算上可能很昂贵。在贝叶斯的情况下,重要性采样提供了一种可能的解决方案,但是经典方法可以轻松地产生差异是无限的估计器,从而使它们可能不可靠。在这里,我们提出和分析一种新型混合估计量来计算贝叶斯Loo-CV标准。我们的方法保留了经典方法的简单性和计算便利性,同时保证了所得估计器的有限差异。提供了理论和数值结果,以说明提高的鲁棒性和效率。在高维问题中,计算益处尤为重要,可以为更广泛的模型执行贝叶斯loo-CV。所提出的方法可以在标准概率编程软件中很容易实现,并且计算成本大致相当于拟合原始模型一次。
translated by 谷歌翻译
潜在位置网络模型是网络科学的多功能工具;应用程序包括集群实体,控制因果混淆,并在未观察的图形上定义前提。估计每个节点的潜在位置通常是贝叶斯推理问题的群体,吉布斯内的大都市是最流行的近似后分布的工具。然而,众所周知,GIBBS内的大都市对于大型网络而言是低效;接受比计算成本昂贵,并且所得到的后绘高度相关。在本文中,我们提出了一个替代的马尔可夫链蒙特卡罗战略 - 使用分裂哈密顿蒙特卡罗和萤火虫蒙特卡罗的组合定义 - 利用后部分布的功能形式进行更有效的后退计算。我们展示了这些战略在吉布斯和综合网络上的其他算法中优于大都市,以及学区的教师和工作人员的真正信息共享网络。
translated by 谷歌翻译
在选择组套索(或普遍的变体,例如重叠,稀疏或标准化的组套索)之后,在没有选择偏见的调整的情况下,对所选参数的推断是不可靠的。在受惩罚的高斯回归设置中,现有方法为选择事件提供了调整,这些事件可以表示为数据变量中的线性不平等。然而,这种表示未能与组套索一起选择,并实质上阻碍了随后的选择后推断的范围。推论兴趣的关键问题 - 例如,推断选定变量对结果的影响 - 仍未得到解答。在本文中,我们开发了一种一致的,选择性的贝叶斯方法,通过得出似然调整因子和近似值来解决现有差距,从而消除了组中的偏见。对模拟数据和人类Connectome项目数据的实验表明,我们的方法恢复了所选组中参数的影响,同时仅支付较小的偏差调整价格。
translated by 谷歌翻译
贝叶斯拉索是在线性回归框架中构建的,并应用了吉布斯采样以估计回归参数。本文开发了一种新的稀疏学习模型,称为贝叶斯套索稀疏(BLS)模型,该模型采用了贝叶斯拉索的层次模型公式。与原始贝叶斯套索的主要区别在于估计程序;BLS方法使用基于II类型最大似然过程的学习算法。与贝叶斯拉索相反,BLS提供了回归参数的稀疏估计值。BLS方法还通过引入内核功能来得出非线性监督学习问题。我们将BLS模型与众所周知的相关矢量机,快速拉普拉斯法,再见套索和套索在模拟和真实数据上进行了比较。数值结果表明,BLS稀疏而精确,尤其是在处理嘈杂和不规则数据集时。
translated by 谷歌翻译
离散数据丰富,并且通常作为计数或圆形数据而出现。甚至对于线性回归模型,缀合格前沿和闭合形式的后部通常是不可用的,这需要近似诸如MCMC的后部推理。对于广泛的计数和圆形数据回归模型,我们介绍了能够闭合后部推理的共轭前沿。密钥后和预测功能可通过直接蒙特卡罗模拟来计算。至关重要的是,预测分布是离散的,以匹配数据的支持,并且可以在多个协变量中进行共同评估或模拟。这些工具广泛用途是线性回归,非线性模型,通过基础扩展,以及模型和变量选择。多种仿真研究表明计算,预测性建模和相对于现有替代方案的选择性的显着优势。
translated by 谷歌翻译
统计模型是机器学习的核心,具有广泛适用性,跨各种下游任务。模型通常由通过最大似然估计从数据估计的自由参数控制。但是,当面对现实世界数据集时,许多模型运行到一个关键问题:它们是在完全观察到的数据方面配制的,而在实践中,数据集会困扰缺失数据。来自不完整数据的统计模型估计理论在概念上类似于潜在变量模型的估计,其中存在强大的工具,例如变分推理(VI)。然而,与标准潜在变量模型相比,具有不完整数据的参数估计通常需要估计缺失变量的指数 - 许多条件分布,因此使标准的VI方法是棘手的。通过引入变分Gibbs推理(VGI),是一种新的通用方法来解决这个差距,以估计来自不完整数据的统计模型参数。我们在一组合成和实际估算任务上验证VGI,从不完整的数据中估算重要的机器学习模型,VAE和标准化流程。拟议的方法,同时通用,实现比现有的特定模型特定估计方法竞争或更好的性能。
translated by 谷歌翻译
大型现代数据往往涉及评估和测试高维未知参数。所希望的是识别稀疏信号,``针在草堆“”,具有精度和错误发现控制。然而,在现代数据结构的空前复杂性和异质性需要新的机器学习工具来有效地利用共性和稳健地调整既稀疏和异质性。此外,对于高维参数的估计往往缺乏量化的不确定性。在本文中,我们提出了一个新颖的穗和 - 非参数混合物之前(SNP) - 尖峰,以促进稀疏和非参数结构,以捕获信号。在对比状态的最先进的方法中,所提出的方法解决了估计和在与几个优点一次测试的问题:1)精确稀疏估计; 2)的点估计与收缩/阈值处理软特性; 3)对于不确定性量化可信区间; 4)最佳的多个测试程序,其控制错误发现率。我们的方法表现出有前途的两个模拟数据和基因表达的案例研究经验性能。
translated by 谷歌翻译