Hierarchical Bayesian Poisson regression models (HBPRMs) provide a flexible modeling approach of the relationship between predictors and count response variables. The applications of HBPRMs to large-scale datasets require efficient inference algorithms due to the high computational cost of inferring many model parameters based on random sampling. Although Markov Chain Monte Carlo (MCMC) algorithms have been widely used for Bayesian inference, sampling using this class of algorithms is time-consuming for applications with large-scale data and time-sensitive decision-making, partially due to the non-conjugacy of many models. To overcome this limitation, this research develops an approximate Gibbs sampler (AGS) to efficiently learn the HBPRMs while maintaining the inference accuracy. In the proposed sampler, the data likelihood is approximated with Gaussian distribution such that the conditional posterior of the coefficients has a closed-form solution. Numerical experiments using real and synthetic datasets with small and large counts demonstrate the superior performance of AGS in comparison to the state-of-the-art sampling algorithm, especially for large datasets.
translated by 谷歌翻译
离散数据丰富,并且通常作为计数或圆形数据而出现。甚至对于线性回归模型,缀合格前沿和闭合形式的后部通常是不可用的,这需要近似诸如MCMC的后部推理。对于广泛的计数和圆形数据回归模型,我们介绍了能够闭合后部推理的共轭前沿。密钥后和预测功能可通过直接蒙特卡罗模拟来计算。至关重要的是,预测分布是离散的,以匹配数据的支持,并且可以在多个协变量中进行共同评估或模拟。这些工具广泛用途是线性回归,非线性模型,通过基础扩展,以及模型和变量选择。多种仿真研究表明计算,预测性建模和相对于现有替代方案的选择性的显着优势。
translated by 谷歌翻译
潜在位置网络模型是网络科学的多功能工具;应用程序包括集群实体,控制因果混淆,并在未观察的图形上定义前提。估计每个节点的潜在位置通常是贝叶斯推理问题的群体,吉布斯内的大都市是最流行的近似后分布的工具。然而,众所周知,GIBBS内的大都市对于大型网络而言是低效;接受比计算成本昂贵,并且所得到的后绘高度相关。在本文中,我们提出了一个替代的马尔可夫链蒙特卡罗战略 - 使用分裂哈密顿蒙特卡罗和萤火虫蒙特卡罗的组合定义 - 利用后部分布的功能形式进行更有效的后退计算。我们展示了这些战略在吉布斯和综合网络上的其他算法中优于大都市,以及学区的教师和工作人员的真正信息共享网络。
translated by 谷歌翻译
最近,经验可能性已在贝叶斯框架下广泛应用。马尔可夫链蒙特卡洛(MCMC)方法经常用于从感兴趣参数的后验分布中采样。然而,可能性支持的复杂性,尤其是非凸性的性质,在选择适当的MCMC算法时建立了巨大的障碍。这种困难限制了在许多应用中基于贝叶斯的经验可能性(贝叶赛)方法的使用。在本文中,我们提出了一个两步的大都会黑斯廷斯算法,以从贝耶斯后期进行采样。我们的建议是在层次上指定的,其中确定经验可能性的估计方程用于根据其余参数的建议值提出一组参数的值。此外,我们使用经验可能性讨论贝叶斯模型的选择,并将我们的两步大都会黑斯廷斯算法扩展到可逆的跳跃马尔可夫链蒙特卡洛手术程序,以便从最终的后验中采样。最后,提出了我们提出的方法的几种应用。
translated by 谷歌翻译
贝叶斯变量选择是用于数据分析的强大工具,因为它为可变选择提供了原则性的方法,该方法可以说明事先信息和不确定性。但是,贝叶斯变量选择的广泛采用受到计算挑战的阻碍,尤其是在具有大量协变量P或非偶联的可能性的困难政权中。为了扩展到大型P制度,我们引入了一种有效的MCMC方案,其每次迭代的成本在P中是均等的。此外,我们还显示了如何将该方案扩展到用于计数数据的广义线性模型,这些模型在生物学,生态学,经济学,经济学,经济学,经济学,经济学,经济学,经济学上很普遍超越。特别是,我们设计有效的算法,用于二项式和负二项式回归中的可变选择,其中包括逻辑回归作为一种特殊情况。在实验中,我们证明了方法的有效性,包括对癌症和玉米基因组数据。
translated by 谷歌翻译
贝叶斯变量选择是用于数据分析的强大工具,因为它为可变选择提供了原则性的方法,该方法可以说明事先信息和不确定性。但是,贝叶斯变量选择的更广泛采用受到计算挑战的阻碍,尤其是在具有大量协变量或非偶联的可能性的困难政权中。在生物学,生态学,经济学及其他方面普遍存在的计数数据的广义线性模型代表了一个重要的特殊情况。在这里,我们介绍了一种有效的MCMC方案,用于利用脾气暴躁的Gibbs采样(Zanella and Roberts,2019年)中的二项式和负二项式回归中的可变选择,其中包括逻辑回归作为一种特殊情况。在实验中,我们证明了我们的方法的有效性,包括对拥有一千万变量的癌症数据。
translated by 谷歌翻译
Neyman-Scott过程是COX过程的特殊情况。潜在和可观察的随机过程均为泊松过程。我们考虑了本文的深度Neyman-Scott过程,其中网络的建筑组件是所有泊松过程。我们通过Markov Chain Monte Carlo开发了一种高效的后部抽样,并使用它来实现基于可能性的推断。我们的方法为复杂的分层点流程推断出来的空间。我们在实验中展示了更多隐藏的泊松过程为似然拟合和事件类型预测带来了更好的性能。我们还将我们的方法与最先进的模式进行了用于时间现实世界数据集的方法,并使用较少的参数展示数据拟合和预测的竞争能力。
translated by 谷歌翻译
多项式概率贝叶斯添加剂回归树(MPBART)框架是由Kindo等人提出的。 (KD),与BART的多项式概率(MNP)模型中的潜在实用程序近似(Chipman等人,2010年)。与多项式逻辑模型相比,MNP不假定独立的替代方案,并且可以通过多元高斯分布式潜在实用程序指定替代方案之间的相关结构。我们介绍了两种新算法,以拟合MPBART,并表明我们的提案的理论混合速率相等或优于KD中现有的算法。通过模拟,我们探讨了方法对参考水平的选择,结果频率的不平衡以及实用程序误差项的先前超参数的规格。这项工作是由基于电子健康记录(EHR)从肯尼亚提供医疗保健(AMPATH)的学术模型中的电子健康记录(EHR)来实现后验预测分布来在HIV阳性患者中进行护理的后验预测分配的动机。在应用程序和模拟中,与KD相比,在MCMC收敛速率和后验预测精度方面,我们使用建议的性能更好。
translated by 谷歌翻译
我们提出了一种变分贝叶斯比例危险模型,用于预测和可变选择的关于高维存活数据。我们的方法基于平均场变分近似,克服了MCMC的高计算成本,而保留有用的特征,提供优异的点估计,并通过后夹层概念提供可变选择的自然机制。我们提出的方法的性能通过广泛的仿真进行评估,并与其他最先进的贝叶斯变量选择方法进行比较,展示了可比或更好的性能。最后,我们展示了如何在两个转录组数据集上使用所提出的方法进行审查的生存结果,其中我们识别具有预先存在的生物解释的基因。
translated by 谷歌翻译
当由于模型的复杂性或数据丰富而不是可行的,LAPPAlt方法,LAPPAlt近似和变分方法等近似推断方法是流行的方法。在本文中,我们提出了一种混合近似方法,即低秩变分贝叶斯校正(VBC),其使用LAPLACE方法并随后对后轴进行变分贝叶斯校正。这项成本基本上是Laplace方法确保该方法可扩展性的方法。我们用模拟和实际数据说明了该方法及其优势,小而大规模。
translated by 谷歌翻译
在使用多模式贝叶斯后部分布时,马尔可夫链蒙特卡罗(MCMC)算法难以在模式之间移动,并且默认变分或基于模式的近似推动将低估后不确定性。并且,即使找到最重要的模式,难以评估后部的相对重量。在这里,我们提出了一种使用MCMC,变分或基于模式的模式的并行运行的方法,以便尽可能多地击中多种模式或分离的区域,然后使用贝叶斯堆叠来组合这些用于构建分布的加权平均值的可扩展方法。通过堆叠从多模式后分布的堆叠,最小化交叉验证预测误差的结果,并且代表了比变分推断更好的不确定度,但它不一定是相当于渐近的,以完全贝叶斯推断。我们呈现理论一致性,其中堆叠推断逼近来自未衰退的模型和非混合采样器的真实数据生成过程,预测性能优于完全贝叶斯推断,因此可以被视为祝福而不是模型拼写下的诅咒。我们展示了几个模型家庭的实际实施:潜在的Dirichlet分配,高斯过程回归,分层回归,马蹄素变量选择和神经网络。
translated by 谷歌翻译
随机梯度马尔可夫链Monte Carlo(SGMCMC)是一种流行的可扩展贝叶斯推断算法。然而,这些算法包括诸如步进尺寸或批量尺寸,这些算法基于所获得的后样品影响估计器的准确性。因此,必须由从业者调整这些超级参数,目前没有具体的和自动化方式来调整它们存在。基于接受率的标准MCMC调整方法不能用于SGMCMC,从而需要替代工具和诊断。我们提出了一种基于新的基于强盗的算法,通过最小化真正的后后部和蒙特卡罗近似之间的斯坦坦差异来调谐SGMCMC近似度。我们提供支持这种方法的理论结果,并评估各种基于Stein的差异。我们通过对模拟和实际数据集的实验支持我们的结果,并发现该方法对于各种应用程序实用。
translated by 谷歌翻译
了解Covid-19的传播是众多研究的主题,突出了可靠的流行模型的重要性。在这里,我们使用带有时间协变量的潜在霍克斯工艺引入了一种新型的流行模型,用于建模感染。与其他模型不同,我们通过基础霍克斯过程驱动的概率分布进行对报告的案例进行建模。通过霍克斯过程对感染进行建模,使我们能够估计受感染的人感染的人。我们提出了一个内核密度颗粒滤波器(KDPF),以推断潜在病例和繁殖数,并在不久的将来预测新病例。计算工作与感染的数量成正比,使使用粒子滤波器类型算法(例如KDPF)成为可能。我们证明了拟议的算法对合成数据集的性能,而Covid-19报告了英国各个地方当局的病例,并将我们的模型基于替代方法。
translated by 谷歌翻译
尖峰和单杆先验由于其可解释性和有利的统计特性,通常用于贝叶斯变量选择。但是,当变量数量较大时,现有的尖峰和锯齿状后侧面的采样器会产生过度的计算成本。在本文中,我们提出了可伸缩的尖峰和剪裁($ s^3 $),这是用于高维贝叶斯回归的可伸缩吉布斯采样实现,并具有乔治和麦卡洛克(George and McCulloch)的连续​​尖峰和剪辑(1993)。对于具有$ n $观测值和$ p $ cOVARIATES的数据集,$ s^3 $具有订单$ \ max \ {n^2 p_t,np \} $计算成本$ t $,其中$ p_t $永远不超过数量Markov链的迭代$ t $和$ t-1 $之间的协变量切换尖峰和单杆状态。这可以改善最先进实施的$ n^2 p $每题费,因为通常,$ p_t $大大小于$ p $。我们将$ S^3 $应用于合成和现实世界数据集上,证明了现有精确采样器的数量级加速顺序,并且比相当成本的近似采样器相比,推断质量的显着增长。
translated by 谷歌翻译
零售商的主要障碍之一是了解他们可以从合同需求响应(DR)客户期望的消费弹性。零售商提供的DR产品的目前的趋势不是消费者特定的,这对消费者在这些计划中的积极参与的额外障碍带来了额外的障碍。消费者需求行为的弹性因个人而异。该实用程序将从知识中获益,更准确地了解其价格的变化将如何修改其客户的消费模式。这项工作提出了博士签约消费者消费弹性的功能模型。该模型的目的是确定负载调整,消费者可以为不同的价格水平提供给零售商或公用事业。拟议的模型使用贝叶斯概率方法来识别实际的负载调整,单个合同的客户可以提供它可以体验的不同价格水平。发达的框架为零售商或公用事业提供了一个工具,以获得关于个人消费者如何应对不同价格水平的关键信息。这种方法能够量化消费者对DR信号作出反应的可能性,并识别各个合同的博士客户提供的实际负载调整提供他们可以体验的不同价格水平。该信息可用于最大限度地提高零售商或实用程序可以向系统运营商提供的服务的控制和可靠性。
translated by 谷歌翻译
从降压和嘈杂的测量值(例如MRI和低剂量计算机断层扫描(CT))中重建图像是数学上不良的反问题。我们提出了一种基于期望传播(EP)技术的易于使用的重建方法。我们将蒙特卡洛(MC)方法,马尔可夫链蒙特卡洛(MCMC)和乘数(ADMM)算法的交替方向方法纳入EP方法,以解决EP中遇到的棘手性问题。我们在复杂的贝叶斯模型上演示了图像重建的方法。我们的技术应用于伽马相机扫描中的图像。我们仅将EPMC,EP-MCMC,EP-ADMM方法与MCMC进行比较。指标是更好的图像重建,速度和参数估计。在真实和模拟数据中使用伽马相机成像进行的实验表明,我们提出的方法在计算上比MCMC昂贵,并且产生相对更好的图像重建。
translated by 谷歌翻译
这项工作引入了一种新颖的多变量时间点过程,部分均值行为泊松(PMBP)过程,可以利用以将多变量霍克斯过程适合部分间隔删除的数据,该数据包括在尺寸和间隔子集上的事件时间戳的混合中组成的数据。 - 委员会互补尺寸的事件计数。首先,我们通过其条件强度定义PMBP过程,并导出子临界性的规律性条件。我们展示了鹰过程和MBP过程(Rizoiu等人)是PMBP过程的特殊情况。其次,我们提供了能够计算PMBP过程的条件强度和采样事件历史的数字方案。第三,我们通过使用合成和现实世界数据集来证明PMBP过程的适用性:我们测试PMBP过程的能力,以恢复多变量霍克参数给出鹰过程的样本事件历史。接下来,我们在YouTube流行预测任务上评估PMBP过程,并表明它优于当前最先进的鹰强度过程(Rizoiu等人。(2017b))。最后,在Covid19的策划数据集上,关于国家样本的Covid19每日案例计数和Covid19相关的新闻文章,我们展示了PMBP拟合参数上的聚类使各国的分类能够分类案件和新闻的国家级互动报告。
translated by 谷歌翻译
具有微分方程的机械模型是机器学习科学应用的关键组成部分。这种模型中的推论通常在计算上是要求的,因为它涉及重复求解微分方程。这里的主要问题是数值求解器很难与标准推理技术结合使用。概率数字中的最新工作已经开发了一类新的用于普通微分方程(ODE)的求解器,该方程式直接用贝叶斯过滤词来表达解决方案过程。我们在这里表明,这允许将此类方法与概念和数值易于宽容地结合在一起,并在ODE本身中与潜在力模型结合在一起。然后,可以在潜在力和ode溶液上执行近似贝叶斯推断,并在一个线性复杂度传递中进行扩展的卡尔曼滤波器 /更平滑的线性复杂度,也就是说,以计算单个ODE解决方案为代价。我们通过培训表明了算法的表达和性能,以及其他训练中的非参数SIRD模型。
translated by 谷歌翻译
我们引入了一种新的经验贝叶斯方法,用于大规模多线性回归。我们的方法结合了两个关键思想:(i)使用灵活的“自适应收缩”先验,该先验近似于正常分布的有限混合物,近似于正常分布的非参数家族; (ii)使用变分近似来有效估计先前的超参数并计算近似后期。将这两个想法结合起来,将快速,灵活的方法与计算速度相当,可与快速惩罚的回归方法(例如Lasso)相当,并在各种场景中具有出色的预测准确性。此外,我们表明,我们方法中的后验平均值可以解释为解决惩罚性回归问题,并通过直接解决优化问题(而不是通过交叉验证来调整)从数据中学到的惩罚函数的精确形式。 。我们的方法是在r https://github.com/stephenslab/mr.ash.ash.alpha的r软件包中实现的
translated by 谷歌翻译
这是模型选择和假设检测的边缘似然计算的最新介绍和概述。计算概率模型(或常量比率)的常规规定常数是许多统计数据,应用数学,信号处理和机器学习中的许多应用中的基本问题。本文提供了对主题的全面研究。我们突出了不同技术之间的局限性,优势,连接和差异。还描述了使用不正确的前沿的问题和可能的解决方案。通过理论比较和数值实验比较一些最相关的方法。
translated by 谷歌翻译