我们开发了一种贝叶斯方法,以预测从具有多通道(即多维张量)结构的多个来源收集的数据的连续或二元结果。作为一个激励示例,我们将来自多个'Omics源的分子数据考虑在多个发育时间点上测量,作为恒河猴模型中早期铁缺乏症(ID)的预测指标。我们在系数上使用具有低级别结构的线性模型来捕获多路依赖性,并在每个源分别对系数的方差进行建模以推断其相对贡献。共轭先验促进了有效的吉布斯采样算法以进行后推理,假设有正常误差的连续结果或具有概率链接的二元结果。模拟表明,我们的模型在错误分类速率和估计系数与真实系数的相关性方面的性能如预期的,在考虑到不同来源的不同信号大小时,通过合并多路结构和适度的增长,可以通过稳定的性能增长。此外,它为我们的激励应用提供了可靠的ID猴子分类。以R代码形式的软件可在https://github.com/biostatskim/bayesmsmw上获得。
translated by 谷歌翻译
Understanding of the pathophysiology of obstructive lung disease (OLD) is limited by available methods to examine the relationship between multi-omic molecular phenomena and clinical outcomes. Integrative factorization methods for multi-omic data can reveal latent patterns of variation describing important biological signal. However, most methods do not provide a framework for inference on the estimated factorization, simultaneously predict important disease phenotypes or clinical outcomes, nor accommodate multiple imputation. To address these gaps, we propose Bayesian Simultaneous Factorization (BSF). We use conjugate normal priors and show that the posterior mode of this model can be estimated by solving a structured nuclear norm-penalized objective that also achieves rank selection and motivates the choice of hyperparameters. We then extend BSF to simultaneously predict a continuous or binary response, termed Bayesian Simultaneous Factorization and Prediction (BSFP). BSF and BSFP accommodate concurrent imputation and full posterior inference for missing data, including "blockwise" missingness, and BSFP offers prediction of unobserved outcomes. We show via simulation that BSFP is competitive in recovering latent variation structure, as well as the importance of propagating uncertainty from the estimated factorization to prediction. We also study the imputation performance of BSF via simulation under missing-at-random and missing-not-at-random assumptions. Lastly, we use BSFP to predict lung function based on the bronchoalveolar lavage metabolome and proteome from a study of HIV-associated OLD. Our analysis reveals a distinct cluster of patients with OLD driven by shared metabolomic and proteomic expression patterns, as well as multi-omic patterns related to lung function decline. Software is freely available at https://github.com/sarahsamorodnitsky/BSFP .
translated by 谷歌翻译
多维时空数据的概率建模对于许多现实世界应用至关重要。然而,现实世界时空数据通常表现出非平稳性的复杂依赖性,即相关结构随位置/时间而变化,并且在空间和时间之间存在不可分割的依赖性,即依赖关系。开发有效和计算有效的统计模型,以适应包含远程和短期变化的非平稳/不可分割的过程,成为一项艰巨的任务,尤其是对于具有各种腐败/缺失结构的大规模数据集。在本文中,我们提出了一个新的统计框架 - 贝叶斯互补内核学习(BCKL),以实现多维时空数据的可扩展概率建模。为了有效地描述复杂的依赖性,BCKL与短距离时空高斯过程(GP)相结合的内核低级分解(GP),其中两个组件相互补充。具体而言,我们使用多线性低级分组组件来捕获数据中的全局/远程相关性,并基于紧凑的核心函数引入加法短尺度GP,以表征其余的局部变异性。我们为模型推断开发了有效的马尔可夫链蒙特卡洛(MCMC)算法,并在合成和现实世界时空数据集上评估了所提出的BCKL框架。我们的结果证实了BCKL在提供准确的后均值和高质量不确定性估计方面的出色表现。
translated by 谷歌翻译
近年来,深度学习(DL)方法的流行程度急剧增加,并且在生物医学科学中的监督学习问题中的应用显着增长。但是,现代生物医学数据集中缺失数据的较高流行率和复杂性对DL方法提出了重大挑战。在这里,我们在深入学习的广义线性模型的背景下,对缺失数据进行了正式处理,这是一种监督的DL架构,用于回归和分类问题。我们提出了一种新的体系结构,即\ textit {dlglm},这是第一个能够在训练时在输入功能和响应中灵活地说明忽略和不可忽视的缺失模式之一。我们通过统计模拟证明,我们的方法在没有随机(MNAR)缺失的情况下胜过现有的监督学习任务方法。我们从UCI机器学习存储库中对银行营销数据集进行了案例研究,在该数据集中我们预测客户是否基于电话调查数据订阅了产品。
translated by 谷歌翻译
Matrix factorization exploits the idea that, in complex high-dimensional data, the actual signal typically lies in lower-dimensional structures. These lower dimensional objects provide useful insight, with interpretability favored by sparse structures. Sparsity, in addition, is beneficial in terms of regularization and, thus, to avoid over-fitting. By exploiting Bayesian shrinkage priors, we devise a computationally convenient approach for high-dimensional matrix factorization. The dependence between row and column entities is modeled by inducing flexible sparse patterns within factors. The availability of external information is accounted for in such a way that structures are allowed while not imposed. Inspired by boosting algorithms, we pair the the proposed approach with a numerical strategy relying on a sequential inclusion and estimation of low-rank contributions, with data-driven stopping rule. Practical advantages of the proposed approach are demonstrated by means of a simulation study and the analysis of soccer heatmaps obtained from new generation tracking data.
translated by 谷歌翻译
在过去二十年中,识别具有不同纵向数据趋势的群体的方法已经成为跨越许多研究领域的兴趣。为了支持研究人员,我们总结了文献关于纵向聚类的指导。此外,我们提供了一种纵向聚类方法,包括基于基团的轨迹建模(GBTM),生长混合模拟(GMM)和纵向K平均值(KML)。该方法在基本级别引入,并列出了强度,限制和模型扩展。在最近数据收集的发展之后,将注意这些方法的适用性赋予密集的纵向数据(ILD)。我们展示了使用R.中可用的包在合成数据集上的应用程序的应用。
translated by 谷歌翻译
潜在位置网络模型是网络科学的多功能工具;应用程序包括集群实体,控制因果混淆,并在未观察的图形上定义前提。估计每个节点的潜在位置通常是贝叶斯推理问题的群体,吉布斯内的大都市是最流行的近似后分布的工具。然而,众所周知,GIBBS内的大都市对于大型网络而言是低效;接受比计算成本昂贵,并且所得到的后绘高度相关。在本文中,我们提出了一个替代的马尔可夫链蒙特卡罗战略 - 使用分裂哈密顿蒙特卡罗和萤火虫蒙特卡罗的组合定义 - 利用后部分布的功能形式进行更有效的后退计算。我们展示了这些战略在吉布斯和综合网络上的其他算法中优于大都市,以及学区的教师和工作人员的真正信息共享网络。
translated by 谷歌翻译
Rapid advancements in collection and dissemination of multi-platform molecular and genomics data has resulted in enormous opportunities to aggregate such data in order to understand, prevent, and treat human diseases. While significant improvements have been made in multi-omic data integration methods to discover biological markers and mechanisms underlying both prognosis and treatment, the precise cellular functions governing these complex mechanisms still need detailed and data-driven de-novo evaluations. We propose a framework called Functional Integrative Bayesian Analysis of High-dimensional Multiplatform Genomic Data (fiBAG), that allows simultaneous identification of upstream functional evidence of proteogenomic biomarkers and the incorporation of such knowledge in Bayesian variable selection models to improve signal detection. fiBAG employs a conflation of Gaussian process models to quantify (possibly non-linear) functional evidence via Bayes factors, which are then mapped to a novel calibrated spike-and-slab prior, thus guiding selection and providing functional relevance to the associations with patient outcomes. Using simulations, we illustrate how integrative methods with functional calibration have higher power to detect disease related markers than non-integrative approaches. We demonstrate the profitability of fiBAG via a pan-cancer analysis of 14 cancer types to identify and assess the cellular mechanisms of proteogenomic markers associated with cancer stemness and patient survival.
translated by 谷歌翻译
不同的代理需要进行预测。他们观察到相同的数据,但有不同的模型:他们预测使用不同的解释变量。我们研究哪个代理商认为它们具有最佳的预测能力 - 通过最小的主观后均匀平均平方预测误差来衡量 - 并且显示它如何取决于样本大小。使用小样品,我们呈现结果表明它是使用低维模型的代理。对于大型样品,通常是具有高维模型的代理,可能包括无关的变量,但从未排除相关的变量。我们将结果应用于拍卖生产资产拍卖中的获胜模型,以争辩于企业家和具有简单模型的投资者将在新部门过度代表,并了解解释横断面变异的“因素”的扩散资产定价文学中的预期股票回报。
translated by 谷歌翻译
本文开发了贝叶斯因果林的稀疏诱导版本,最近提出的非参数因果回归模型采用贝叶斯添加剂回归树,专门设计用于使用观察数据来估计异质治疗效果。我们介绍的稀疏诱导组件是通过实证研究的动机,其中不是所有可用的协变量相关的,导致在估计个体治疗效果的兴趣表面底层的不同程度。在这项工作中提供的扩展版本,我们命名贝叶斯因果森林,配备了一对允许模型通过树集合中的相应数量的分裂调节每个协变量的重量。这些前瞻改善了模型对稀疏数据产生过程的适应性,并且允许在治疗效果估计的框架中进行完全贝叶斯特征缩收,从而揭示推动异质性的调节因子。此外,该方法允许先前了解相关的混杂协变量和对模型中掺入结果的影响的相对幅度。我们说明了我们在模拟研究中的方法的表现,与贝叶斯因果林和其他最先进的模型相比,展示如何与越来越多的协变量以及其如何处理强烈混淆的情景。最后,我们还提供了使用真实数据的应用程序的示例。
translated by 谷歌翻译
回归模型用于各种应用,为来自不同领域的研究人员提供强大的科学工具。线性或简单的参数,模型通常不足以描述输入变量与响应之间的复杂关系。通过诸如神经网络的灵活方法可以更好地描述这种关系,但这导致不太可解释的模型和潜在的过度装备。或者,可以使用特定的参数非线性函数,但是这种功能的规范通常是复杂的。在本文中,我们介绍了一种灵活的施工方法,高度灵活的非线性参数回归模型。非线性特征是分层的,类似于深度学习,但对要考虑的可能类型的功能具有额外的灵活性。这种灵活性,与变量选择相结合,使我们能够找到一小部分重要特征,从而可以更具可解释的模型。在可能的功能的空间内,考虑了贝叶斯方法,基于它们的复杂性引入功能的前沿。采用遗传修改模式跳跃马尔可夫链蒙特卡罗算法来执行贝叶斯推理和估计模型平均的后验概率。在各种应用中,我们说明了我们的方法如何用于获得有意义的非线性模型。此外,我们将其预测性能与多个机器学习算法进行比较。
translated by 谷歌翻译
Many scientific problems require identifying a small set of covariates that are associated with a target response and estimating their effects. Often, these effects are nonlinear and include interactions, so linear and additive methods can lead to poor estimation and variable selection. Unfortunately, methods that simultaneously express sparsity, nonlinearity, and interactions are computationally intractable -- with runtime at least quadratic in the number of covariates, and often worse. In the present work, we solve this computational bottleneck. We show that suitable interaction models have a kernel representation, namely there exists a "kernel trick" to perform variable selection and estimation in $O$(# covariates) time. Our resulting fit corresponds to a sparse orthogonal decomposition of the regression function in a Hilbert space (i.e., a functional ANOVA decomposition), where interaction effects represent all variation that cannot be explained by lower-order effects. On a variety of synthetic and real data sets, our approach outperforms existing methods used for large, high-dimensional data sets while remaining competitive (or being orders of magnitude faster) in runtime.
translated by 谷歌翻译
Latent factor model estimation typically relies on either using domain knowledge to manually pick several observed covariates as factor proxies, or purely conducting multivariate analysis such as principal component analysis. However, the former approach may suffer from the bias while the latter can not incorporate additional information. We propose to bridge these two approaches while allowing the number of factor proxies to diverge, and hence make the latent factor model estimation robust, flexible, and statistically more accurate. As a bonus, the number of factors is also allowed to grow. At the heart of our method is a penalized reduced rank regression to combine information. To further deal with heavy-tailed data, a computationally attractive penalized robust reduced rank regression method is proposed. We establish faster rates of convergence compared with the benchmark. Extensive simulations and real examples are used to illustrate the advantages.
translated by 谷歌翻译
具有许多多变量反应和协变量的拟合回归模型可能具有挑战性,但这种反应和协变量有时会具有张于变化的结构。我们扩展了经典多元回归模型以以两种方式利用此类结构:首先,我们对回归系数施加四种类型的低级张量格式。其次,我们使用Tensor-Variate正常分布模拟错误,该误差在协方差矩阵上强加了Kronecker可分离格式。我们通过块放松算法获得最大似然估计,并得出其计算复杂性和渐近分布。我们的回归框架使我们能够制定句子 - 变异的方差(Tanova)方法。当以单向Tanova布局应用时,使我们能够识别与功能磁共振成像研究中的自杀企图或非追求竞技器的相互作用显着相关的脑区。另一个应用程序在野生图像数据集中标记的面孔上使用三向Tanova,以区分与族裔血统,年龄组和性别相关的面部特征。 R包$ Totr $实施方法。
translated by 谷歌翻译
在社会科学和企业中观测数据的分析中,难以获得“(准)单源数据集”,其中同时观察到感兴趣的变量。相反,通常针对不同的个体或单位获取多源数据集。已经提出了各种方法来研究每个数据集中的变量之间的关系,例如匹配和潜在的变量建模。有必要利用这些数据集作为具有缺失变量的单源数据集。现有方法假设要集成的数据集是从相同的人群中获取,或者采样取决于协变量。在缺失方面,这种假设被称为随机(MAR)缺失。然而,正如在应用研究中所示的那样,这一假设可能不会在实际数据分析中保持,并且获得的结果可能偏置。我们提出了一种数据融合方法,不认为数据集是均匀的。我们使用用于非MAR缺失数据的高斯过程潜变量模型。该模型假设关注的变量和缺失的概率取决于潜在变量。模拟研究和实际数据分析表明,具有缺失数据机制和潜在高斯过程的提出方法产生有效估计,而现有方法提供严重偏置的估计。这是第一研究,其中在数据融合问题中的可谐振假设下考虑并解决了对数据集的非随机分配。
translated by 谷歌翻译
我们引入了一种新的经验贝叶斯方法,用于大规模多线性回归。我们的方法结合了两个关键思想:(i)使用灵活的“自适应收缩”先验,该先验近似于正常分布的有限混合物,近似于正常分布的非参数家族; (ii)使用变分近似来有效估计先前的超参数并计算近似后期。将这两个想法结合起来,将快速,灵活的方法与计算速度相当,可与快速惩罚的回归方法(例如Lasso)相当,并在各种场景中具有出色的预测准确性。此外,我们表明,我们方法中的后验平均值可以解释为解决惩罚性回归问题,并通过直接解决优化问题(而不是通过交叉验证来调整)从数据中学到的惩罚函数的精确形式。 。我们的方法是在r https://github.com/stephenslab/mr.ash.ash.alpha的r软件包中实现的
translated by 谷歌翻译
无似然方法是对可以模拟的隐式模型执行推断的必不可少的工具,但相应的可能性是棘手的。但是,常见的无可能方法不能很好地扩展到大量模型参数。一种有前途的无可能推理的有前途的方法涉及通过仅根据据信为低维成分提供信息的摘要统计数据来估计低维边缘后期,然后在某种程度上结合了低维近似值。在本文中,我们证明,对于看似直观的汇总统计选择,这种低维近似值在实践中可能是差的。我们描述了一个理想化的低维汇总统计量,原则上适用于边际估计。但是,在实践中很难直接近似理想的选择。因此,我们提出了一种替代的边际估计方法,该方法更容易实施和自动化。考虑到初始选择的低维摘要统计量可能仅对边缘后验位置有用,新方法通过使用所有摘要统计数据来确保全局可识别性来提高性能,从而提高性能使用低维摘要统计量进行精确的低维近似。我们表明,该方法的后部可以分别基于低维和完整的摘要统计数据将其表示为后验分布的对数库。在几个示例中说明了我们方法的良好性能。
translated by 谷歌翻译
In many applications, heterogeneous treatment effects on a censored response variable are of primary interest, and it is natural to evaluate the effects at different quantiles (e.g., median). The large number of potential effect modifiers, the unknown structure of the treatment effects, and the presence of right censoring pose significant challenges. In this paper, we develop a hybrid forest approach called Hybrid Censored Quantile Regression Forest (HCQRF) to assess the heterogeneous effects varying with high-dimensional variables. The hybrid estimation approach takes advantage of the random forests and the censored quantile regression. We propose a doubly-weighted estimation procedure that consists of a redistribution-of-mass weight to handle censoring and an adaptive nearest neighbor weight derived from the forest to handle high-dimensional effect functions. We propose a variable importance decomposition to measure the impact of a variable on the treatment effect function. Extensive simulation studies demonstrate the efficacy and stability of HCQRF. The result of the simulation study also convinces us of the effectiveness of the variable importance decomposition. We apply HCQRF to a clinical trial of colorectal cancer. We achieve insightful estimations of the treatment effect and meaningful variable importance results. The result of the variable importance also confirms the necessity of the decomposition.
translated by 谷歌翻译
多项式概率贝叶斯添加剂回归树(MPBART)框架是由Kindo等人提出的。 (KD),与BART的多项式概率(MNP)模型中的潜在实用程序近似(Chipman等人,2010年)。与多项式逻辑模型相比,MNP不假定独立的替代方案,并且可以通过多元高斯分布式潜在实用程序指定替代方案之间的相关结构。我们介绍了两种新算法,以拟合MPBART,并表明我们的提案的理论混合速率相等或优于KD中现有的算法。通过模拟,我们探讨了方法对参考水平的选择,结果频率的不平衡以及实用程序误差项的先前超参数的规格。这项工作是由基于电子健康记录(EHR)从肯尼亚提供医疗保健(AMPATH)的学术模型中的电子健康记录(EHR)来实现后验预测分布来在HIV阳性患者中进行护理的后验预测分配的动机。在应用程序和模拟中,与KD相比,在MCMC收敛速率和后验预测精度方面,我们使用建议的性能更好。
translated by 谷歌翻译
大型观察数据越来越多地提供健康,经济和社会科学等学科,研究人员对因果问题而不是预测感兴趣。在本文中,从旨在调查参与学校膳食计划对健康指标的实证研究,研究了使用非参数回归的方法估算异质治疗效果的问题。首先,我们介绍了与观察或非完全随机数据进行因果推断相关的设置和相关的问题,以及如何在统计学习工具的帮助下解决这些问题。然后,我们审查并制定现有最先进的框架的统一分类,允许通过非参数回归模型来估算单个治疗效果。在介绍模型选择问题的简要概述后,我们说明了一些关于三种不同模拟研究的方法的性能。我们通过展示一些关于学校膳食计划数据的实证分析的一些方法的使用来结束。
translated by 谷歌翻译