贝叶斯变量选择方法是适合和推断稀疏高维线性回归模型的强大技术。但是,许多在计算密集型上或需要对模型参数进行限制性的先验分布。基于可能性的惩罚方法在计算方面更友好,但是推理需要资源密集型的改装技术。在本文中,我们提出了一种有效而强大的贝叶斯方法,用于稀疏高维线性回归。通过使用插件的经验贝叶斯估算超参数的估计值,需要对参数的最小化假设。有效的最大后验概率(MAP)估计是通过使用分区和扩展期望最大化(ECM)算法完成的。结果是应用于稀疏高维线性回归的经验贝叶斯ECM(探针)算法。我们提出了估计未来价值预测的可靠和预测间隔的方法。我们将预测的经验特性和我们的预测推断与可比方法进行了比较,并通过大量的模拟研究和对癌细胞系药物反应研究的分析进行了比较。提出的方法在R软件包探针中实现。
translated by 谷歌翻译
我们引入了一种新的经验贝叶斯方法,用于大规模多线性回归。我们的方法结合了两个关键思想:(i)使用灵活的“自适应收缩”先验,该先验近似于正常分布的有限混合物,近似于正常分布的非参数家族; (ii)使用变分近似来有效估计先前的超参数并计算近似后期。将这两个想法结合起来,将快速,灵活的方法与计算速度相当,可与快速惩罚的回归方法(例如Lasso)相当,并在各种场景中具有出色的预测准确性。此外,我们表明,我们方法中的后验平均值可以解释为解决惩罚性回归问题,并通过直接解决优化问题(而不是通过交叉验证来调整)从数据中学到的惩罚函数的精确形式。 。我们的方法是在r https://github.com/stephenslab/mr.ash.ash.alpha的r软件包中实现的
translated by 谷歌翻译
The horseshoe prior is known to possess many desirable properties for Bayesian estimation of sparse parameter vectors, yet its density function lacks an analytic form. As such, it is challenging to find a closed-form solution for the posterior mode. Conventional horseshoe estimators use the posterior mean to estimate the parameters, but these estimates are not sparse. We propose a novel expectation-maximisation (EM) procedure for computing the MAP estimates of the parameters in the case of the standard linear model. A particular strength of our approach is that the M-step depends only on the form of the prior and it is independent of the form of the likelihood. We introduce several simple modifications of this EM procedure that allow for straightforward extension to generalised linear models. In experiments performed on simulated and real data, our approach performs comparable, or superior to, state-of-the-art sparse estimation methods in terms of statistical performance and computational cost.
translated by 谷歌翻译
我们提出了一种变分贝叶斯比例危险模型,用于预测和可变选择的关于高维存活数据。我们的方法基于平均场变分近似,克服了MCMC的高计算成本,而保留有用的特征,提供优异的点估计,并通过后夹层概念提供可变选择的自然机制。我们提出的方法的性能通过广泛的仿真进行评估,并与其他最先进的贝叶斯变量选择方法进行比较,展示了可比或更好的性能。最后,我们展示了如何在两个转录组数据集上使用所提出的方法进行审查的生存结果,其中我们识别具有预先存在的生物解释的基因。
translated by 谷歌翻译
大型现代数据往往涉及评估和测试高维未知参数。所希望的是识别稀疏信号,``针在草堆“”,具有精度和错误发现控制。然而,在现代数据结构的空前复杂性和异质性需要新的机器学习工具来有效地利用共性和稳健地调整既稀疏和异质性。此外,对于高维参数的估计往往缺乏量化的不确定性。在本文中,我们提出了一个新颖的穗和 - 非参数混合物之前(SNP) - 尖峰,以促进稀疏和非参数结构,以捕获信号。在对比状态的最先进的方法中,所提出的方法解决了估计和在与几个优点一次测试的问题:1)精确稀疏估计; 2)的点估计与收缩/阈值处理软特性; 3)对于不确定性量化可信区间; 4)最佳的多个测试程序,其控制错误发现率。我们的方法表现出有前途的两个模拟数据和基因表达的案例研究经验性能。
translated by 谷歌翻译
贝叶斯拉索是在线性回归框架中构建的,并应用了吉布斯采样以估计回归参数。本文开发了一种新的稀疏学习模型,称为贝叶斯套索稀疏(BLS)模型,该模型采用了贝叶斯拉索的层次模型公式。与原始贝叶斯套索的主要区别在于估计程序;BLS方法使用基于II类型最大似然过程的学习算法。与贝叶斯拉索相反,BLS提供了回归参数的稀疏估计值。BLS方法还通过引入内核功能来得出非线性监督学习问题。我们将BLS模型与众所周知的相关矢量机,快速拉普拉斯法,再见套索和套索在模拟和真实数据上进行了比较。数值结果表明,BLS稀疏而精确,尤其是在处理嘈杂和不规则数据集时。
translated by 谷歌翻译
剩下的交叉验证(LOO-CV)是一种估计样本外预测准确性的流行方法。但是,由于需要多次拟合模型,因此计算LOO-CV标准在计算上可能很昂贵。在贝叶斯的情况下,重要性采样提供了一种可能的解决方案,但是经典方法可以轻松地产生差异是无限的估计器,从而使它们可能不可靠。在这里,我们提出和分析一种新型混合估计量来计算贝叶斯Loo-CV标准。我们的方法保留了经典方法的简单性和计算便利性,同时保证了所得估计器的有限差异。提供了理论和数值结果,以说明提高的鲁棒性和效率。在高维问题中,计算益处尤为重要,可以为更广泛的模型执行贝叶斯loo-CV。所提出的方法可以在标准概率编程软件中很容易实现,并且计算成本大致相当于拟合原始模型一次。
translated by 谷歌翻译
我们提出了一种估计具有标称分类数据的高维线性模型的方法。我们的估算器,称为范围,通过使其相应的系数完全相等来融合水平。这是通过对分类变量的系数的阶数统计之间的差异之间的差异来实现这一点,从而聚类系数。我们提供了一种算法,用于精确和有效地计算在具有潜在许多级别的单个变量的情况下的总体上的最小值的全局最小值,并且在多变量情况下在块坐标血管下降过程中使用它。我们表明,利用未知级别融合的Oracle最小二乘解决方案是具有高概率的坐标血缘的极限点,只要真正的级别具有一定的最小分离;已知这些条件在单变量案例中最小。我们展示了在一系列实际和模拟数据集中的范围的有利性能。 R包的R包Catreg实现线性模型的范围,也可以在CRAN上提供逻辑回归的版本。
translated by 谷歌翻译
回归模型用于各种应用,为来自不同领域的研究人员提供强大的科学工具。线性或简单的参数,模型通常不足以描述输入变量与响应之间的复杂关系。通过诸如神经网络的灵活方法可以更好地描述这种关系,但这导致不太可解释的模型和潜在的过度装备。或者,可以使用特定的参数非线性函数,但是这种功能的规范通常是复杂的。在本文中,我们介绍了一种灵活的施工方法,高度灵活的非线性参数回归模型。非线性特征是分层的,类似于深度学习,但对要考虑的可能类型的功能具有额外的灵活性。这种灵活性,与变量选择相结合,使我们能够找到一小部分重要特征,从而可以更具可解释的模型。在可能的功能的空间内,考虑了贝叶斯方法,基于它们的复杂性引入功能的前沿。采用遗传修改模式跳跃马尔可夫链蒙特卡罗算法来执行贝叶斯推理和估计模型平均的后验概率。在各种应用中,我们说明了我们的方法如何用于获得有意义的非线性模型。此外,我们将其预测性能与多个机器学习算法进行比较。
translated by 谷歌翻译
在过去几十年中,已经提出了各种方法,用于估计回归设置中的预测间隔,包括贝叶斯方法,集合方法,直接间隔估计方法和保形预测方法。重要问题是这些方法的校准:生成的预测间隔应该具有预定义的覆盖水平,而不会过于保守。在这项工作中,我们从概念和实验的角度审查上述四类方法。结果来自各个域的基准数据集突出显示从一个数据集中的性能的大波动。这些观察可能归因于违反某些类别的某些方法所固有的某些假设。我们说明了如何将共形预测用作提供不具有校准步骤的方法的方法的一般校准程序。
translated by 谷歌翻译
离散数据丰富,并且通常作为计数或圆形数据而出现。甚至对于线性回归模型,缀合格前沿和闭合形式的后部通常是不可用的,这需要近似诸如MCMC的后部推理。对于广泛的计数和圆形数据回归模型,我们介绍了能够闭合后部推理的共轭前沿。密钥后和预测功能可通过直接蒙特卡罗模拟来计算。至关重要的是,预测分布是离散的,以匹配数据的支持,并且可以在多个协变量中进行共同评估或模拟。这些工具广泛用途是线性回归,非线性模型,通过基础扩展,以及模型和变量选择。多种仿真研究表明计算,预测性建模和相对于现有替代方案的选择性的显着优势。
translated by 谷歌翻译
We develop a general framework for distribution-free predictive inference in regression, using conformal inference. The proposed methodology allows for the construction of a prediction band for the response variable using any estimator of the regression function. The resulting prediction band preserves the consistency properties of the original estimator under standard assumptions, while guaranteeing finite-sample marginal coverage even when these assumptions do not hold. We analyze and compare, both empirically and theoretically, the two major variants of our conformal framework: full conformal inference and split conformal inference, along with a related jackknife method. These methods offer different tradeoffs between statistical accuracy (length of resulting prediction intervals) and computational efficiency. As extensions, we develop a method for constructing valid in-sample prediction intervals called rank-one-out conformal inference, which has essentially the same computational efficiency as split conformal inference. We also describe an extension of our procedures for producing prediction bands with locally varying length, in order to adapt to heteroskedascity in the data. Finally, we propose a model-free notion of variable importance, called leave-one-covariate-out or LOCO inference. Accompanying this paper is an R package conformalInference that implements all of the proposals we have introduced. In the spirit of reproducibility, all of our empirical results can also be easily (re)generated using this package.
translated by 谷歌翻译
我们提出了一种使用边缘似然的分布式贝叶斯模型选择的一般方法,其中数据集被分开在非重叠子集中。这些子集仅由个别工人本地访问,工人之间没有共享数据。我们近似通过在每个子集的每个子集上从后部采样通过Monte Carlo采样的完整数据的模型证据。结果使用一种新的方法来组合,该方法校正使用所产生的样本的汇总统计分裂。我们的鸿沟和征服方法使贝叶斯模型在大型数据设置中选择,利用所有可用信息,而是限制工人之间的沟通。我们派生了理论误差界限,这些错误界限量化了计算增益与精度损失之间的结果。当我们的真实世界实验所示,令人尴尬的平行性质在大规模数据集时产生了重要的速度。此外,我们展示了如何在可逆跳转设置中扩展建议的方法以在可逆跳转设置中进行模型选择,该跳转设置在一个运行中探讨多个特征组合。
translated by 谷歌翻译
预测组合在预测社区中蓬勃发展,近年来,已经成为预测研究和活动主流的一部分。现在,由单个(目标)系列产生的多个预测组合通过整合来自不同来源收集的信息,从而提高准确性,从而减轻了识别单个“最佳”预测的风险。组合方案已从没有估计的简单组合方法演变为涉及时间变化的权重,非线性组合,组件之间的相关性和交叉学习的复杂方法。它们包括结合点预测和结合概率预测。本文提供了有关预测组合的广泛文献的最新评论,并参考可用的开源软件实施。我们讨论了各种方法的潜在和局限性,并突出了这些思想如何随着时间的推移而发展。还调查了有关预测组合实用性的一些重要问题。最后,我们以当前的研究差距和未来研究的潜在见解得出结论。
translated by 谷歌翻译
具有伽马超高提升的分层模型提供了一个灵活,稀疏的促销框架,用于桥接$ l ^ 1 $和$ l ^ 2 $ scalalizations在贝叶斯的配方中致正问题。尽管对这些模型具有贝叶斯动机,但现有的方法仅限于\ Textit {最大后验}估计。尚未实现执行不确定性量化的可能性。本文介绍了伽马超高图的分层逆问题的变分迭代交替方案。所提出的变分推理方法产生精确的重建,提供有意义的不确定性量化,易于实施。此外,它自然地引入了用于选择超参数的模型选择。我们说明了我们在几个计算的示例中的方法的性能,包括从时间序列数据的动态系统的解卷积问题和稀疏识别。
translated by 谷歌翻译
JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact
translated by 谷歌翻译
从降压和嘈杂的测量值(例如MRI和低剂量计算机断层扫描(CT))中重建图像是数学上不良的反问题。我们提出了一种基于期望传播(EP)技术的易于使用的重建方法。我们将蒙特卡洛(MC)方法,马尔可夫链蒙特卡洛(MCMC)和乘数(ADMM)算法的交替方向方法纳入EP方法,以解决EP中遇到的棘手性问题。我们在复杂的贝叶斯模型上演示了图像重建的方法。我们的技术应用于伽马相机扫描中的图像。我们仅将EPMC,EP-MCMC,EP-ADMM方法与MCMC进行比较。指标是更好的图像重建,速度和参数估计。在真实和模拟数据中使用伽马相机成像进行的实验表明,我们提出的方法在计算上比MCMC昂贵,并且产生相对更好的图像重建。
translated by 谷歌翻译
尖峰和单杆先验由于其可解释性和有利的统计特性,通常用于贝叶斯变量选择。但是,当变量数量较大时,现有的尖峰和锯齿状后侧面的采样器会产生过度的计算成本。在本文中,我们提出了可伸缩的尖峰和剪裁($ s^3 $),这是用于高维贝叶斯回归的可伸缩吉布斯采样实现,并具有乔治和麦卡洛克(George and McCulloch)的连续​​尖峰和剪辑(1993)。对于具有$ n $观测值和$ p $ cOVARIATES的数据集,$ s^3 $具有订单$ \ max \ {n^2 p_t,np \} $计算成本$ t $,其中$ p_t $永远不超过数量Markov链的迭代$ t $和$ t-1 $之间的协变量切换尖峰和单杆状态。这可以改善最先进实施的$ n^2 p $每题费,因为通常,$ p_t $大大小于$ p $。我们将$ S^3 $应用于合成和现实世界数据集上,证明了现有精确采样器的数量级加速顺序,并且比相当成本的近似采样器相比,推断质量的显着增长。
translated by 谷歌翻译
内核正规化最小二乘(KRLS)是一种流行的方法,用于灵活估算可能在变量之间具有复杂关系的模型。但是,其对许多研究人员的有用性受到限制,原因有两个。首先,现有的方法不灵活,不允许KRL与理论动机的扩展(例如固定效应或非线性结果)结合使用。其次,对于甚至适度尺寸的数据集,估计在计算上是非常强大的。我们的论文通过引入广义KRL(GKRL)来解决这两种问题。我们注意到,可以将KRLS重新构造为层次模型,从而允许轻松推理和模块化模型构建。在计算上,我们还实施随机草图以显着加速估计,同时估计质量的罚款有限。我们证明,GKRL可以在一分钟内进行数万观察到的数据集中。此外,可以迅速估计需要在十二次(例如元学习者)中安装模型的最新技术。
translated by 谷歌翻译
Rapid advancements in collection and dissemination of multi-platform molecular and genomics data has resulted in enormous opportunities to aggregate such data in order to understand, prevent, and treat human diseases. While significant improvements have been made in multi-omic data integration methods to discover biological markers and mechanisms underlying both prognosis and treatment, the precise cellular functions governing these complex mechanisms still need detailed and data-driven de-novo evaluations. We propose a framework called Functional Integrative Bayesian Analysis of High-dimensional Multiplatform Genomic Data (fiBAG), that allows simultaneous identification of upstream functional evidence of proteogenomic biomarkers and the incorporation of such knowledge in Bayesian variable selection models to improve signal detection. fiBAG employs a conflation of Gaussian process models to quantify (possibly non-linear) functional evidence via Bayes factors, which are then mapped to a novel calibrated spike-and-slab prior, thus guiding selection and providing functional relevance to the associations with patient outcomes. Using simulations, we illustrate how integrative methods with functional calibration have higher power to detect disease related markers than non-integrative approaches. We demonstrate the profitability of fiBAG via a pan-cancer analysis of 14 cancer types to identify and assess the cellular mechanisms of proteogenomic markers associated with cancer stemness and patient survival.
translated by 谷歌翻译