倾斜的随机生存森林(RSF)是一种用于右翼结果的合奏监督学习方法。斜RSF中的树是使用预测变量的线性组合生长的,以创建分支,而在标准RSF中,使用单个预测变量。倾斜的RSF集合通常比标准RSF合奏具有更高的预测准确性。但是,评估预测变量的所有可能的线性组合会诱导大量的计算开销,从而将应用限制为大规模数据集。此外,几乎没有开发用于解释斜RSF合奏的方法,与基于轴的对应物相比,它们仍然难以解释。我们介绍了一种提高斜力RSF计算效率的方法,以及一种用斜RSF估计单个预测变量重要性的方法。我们减少计算开销的策略是利用牛顿 - 拉夫森评分(Newton-Raphson)评分,这是一种经典的优化技术,我们适用于决策树的每个非叶子节点内的COX部分似然函数。我们通过在线性组合中否定了用于给定预测指标的每个系数,然后计算出降低的降低准确性,从而估计单个预测因子对斜RSF的重要性。通常,在基准测试实验中,我们发现,与现有的斜RSF相比,与现有软件相比,我们对斜RSF的实现速度约为450倍,而较高的Brier得分则要高450倍。我们在模拟研究中发现,“否定重要性”比置换重要性,莎普利添加性解释和先前引入的技术更可靠地区分相关和无关的预测因子,以基于方差分析来衡量斜RSF的可变重要性。当前研究中引入的方法可在AORSF R软件包中获得。
translated by 谷歌翻译
使用完整的患者病史预测临床事件的个人风险仍然是个性化医学的主要挑战。在用于计算个体动态预测的方法中,联合模型具有在辍学时使用所有可用信息的资产。但是,它们仅限于少量的纵向预测因子。我们的目标是提出一种创新的替代解决方案,以使用可能大量的纵向预测变量来预测事件概率。我们开发了Dynforest,这是处理内源性纵向预测因子的竞争风险的随机生存森林的扩展。在树的每个节点上,将时间依赖的预测变量转换为定期特征(使用混合模型),以用作将受试者分为两个亚组的候选者。单个事件的概率是由Aalen-Johansen估计器在每棵树中估算的,该叶子的叶子是根据其预测因子史对受试者进行分类的。最终的个人预测由特定于树特定的个人事件概率的平均值给出。我们进行了一项仿真研究,以证明在小维环境(与关节模型相比)和较大的维环境(与忽略内容丰富的辍学方法的回归校准方法相比)中的DynForest的性能。我们还将DynForest应用于(i)根据认知,功能,血管和神经脱位标记的重复度量预测老年人痴呆的个体概率,以及(ii)量化每种标记物对痴呆预测的重要性。在R软件包DynForest中实施,我们的方法论为预测纵向内生预测变量的事件的方法提供了解决方案。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
Precision Medicine根据患者的特征为患者提供定制的治疗方法,是提高治疗效率的一种有希望的方法。大规模的OMICS数据对于患者表征很有用,但是它们的测量经常会随着时间而变化,从而导致纵向数据。随机森林是用于构建预测模型的最先进的机器学习方法之一,并且可以在精密医学中发挥关键作用。在本文中,我们回顾了标准随机森林方法的扩展,以进行纵向数据分析。扩展方法根据其设计的数据结构进行分类。我们考虑单变量和多变量响应,并根据时间效应是否相关,进一步对重复测量进行分类。还提供了审查扩展程序的可用软件实现信息。最后,我们讨论了我们审查的局限性和一些未来的研究指示。
translated by 谷歌翻译
有许多可用于选择优先考虑治疗的可用方法,包括基于治疗效果估计,风险评分和手工制作规则的遵循申请。我们将秩加权平均治疗效应(RATY)指标作为一种简单常见的指标系列,用于比较水平竞争范围的治疗优先级规则。对于如何获得优先级规则,率是不可知的,并且仅根据他们在识别受益于治疗中受益的单位的方式进行评估。我们定义了一系列速率估算器,并证明了一个中央限位定理,可以在各种随机和观测研究环境中实现渐近精确的推断。我们为使用自主置信区间的使用提供了理由,以及用于测试关于治疗效果中的异质性的假设的框架,与优先级规则相关。我们对速率的定义嵌套了许多现有度量,包括QINI系数,以及我们的分析直接产生了这些指标的推论方法。我们展示了我们从个性化医学和营销的示例中的方法。在医疗环境中,使用来自Sprint和Accor-BP随机对照试验的数据,我们发现没有明显的证据证明异质治疗效果。另一方面,在大量的营销审判中,我们在一些数字广告活动的治疗效果中发现了具有的强大证据,并证明了如何使用率如何比较优先考虑估计风险的目标规则与估计治疗效益优先考虑的目标规则。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
In many applications, heterogeneous treatment effects on a censored response variable are of primary interest, and it is natural to evaluate the effects at different quantiles (e.g., median). The large number of potential effect modifiers, the unknown structure of the treatment effects, and the presence of right censoring pose significant challenges. In this paper, we develop a hybrid forest approach called Hybrid Censored Quantile Regression Forest (HCQRF) to assess the heterogeneous effects varying with high-dimensional variables. The hybrid estimation approach takes advantage of the random forests and the censored quantile regression. We propose a doubly-weighted estimation procedure that consists of a redistribution-of-mass weight to handle censoring and an adaptive nearest neighbor weight derived from the forest to handle high-dimensional effect functions. We propose a variable importance decomposition to measure the impact of a variable on the treatment effect function. Extensive simulation studies demonstrate the efficacy and stability of HCQRF. The result of the simulation study also convinces us of the effectiveness of the variable importance decomposition. We apply HCQRF to a clinical trial of colorectal cancer. We achieve insightful estimations of the treatment effect and meaningful variable importance results. The result of the variable importance also confirms the necessity of the decomposition.
translated by 谷歌翻译
Real-time individual endpoint prediction has always been a challenging task but of great clinic utility for both patients and healthcare providers. With 6,879 chronic kidney disease stage 4 (CKD4) patients as a use case, we explored the feasibility and performance of gated recurrent units with decay that models Weibull probability density function (GRU-D-Weibull) as a semi-parametric longitudinal model for real-time individual endpoint prediction. GRU-D-Weibull has a maximum C-index of 0.77 at 4.3 years of follow-up, compared to 0.68 achieved by competing models. The L1-loss of GRU-D-Weibull is ~66% of XGB(AFT), ~60% of MTLR, and ~30% of AFT model at CKD4 index date. The average absolute L1-loss of GRU-D-Weibull is around one year, with a minimum of 40% Parkes serious error after index date. GRU-D-Weibull is not calibrated and significantly underestimates true survival probability. Feature importance tests indicate blood pressure becomes increasingly important during follow-up, while eGFR and blood albumin are less important. Most continuous features have non-linear/parabola impact on predicted survival time, and the results are generally consistent with existing knowledge. GRU-D-Weibull as a semi-parametric temporal model shows advantages in built-in parameterization of missing, native support for asynchronously arrived measurement, capability of output both probability and point estimates at arbitrary time point for arbitrary prediction horizon, improved discrimination and point estimate accuracy after incorporating newly arrived data. Further research on its performance with more comprehensive input features, in-process or post-process calibration are warranted to benefit CKD4 or alike terminally-ill patients.
translated by 谷歌翻译
我们引入了一种新颖的方式,将增强功能与高斯工艺和混合效应模型相结合。首先,在高斯过程中先前的平均函数的零或线性假设可以放松,并以灵活的非参数方式分组随机效应模型,其次,第二个在大多数增强算法中做出的独立性假设。前者有利于预测准确性和避免模型错误。后者对于有效学习固定效应预测函数和获得概率预测很重要。我们提出的算法也是用于处理培养树木中高心电图分类变量的新颖解决方案。此外,我们提出了一个扩展名,该扩展是使用维奇亚近似为高斯工艺模型缩放到大数据的,该模型依靠新的结果进行协方差参数推断。与几个模拟和现实世界数据集的现有方法相比,我们获得了提高的预测准确性。
translated by 谷歌翻译
与经典的统计学习方法相比,机器和深度学习生存模型表现出相似甚至改进事件的预测能力,但太复杂了,无法被人类解释。有几种模型不合时宜的解释可以克服这个问题。但是,没有一个直接解释生存函数预测。在本文中,我们介绍了Survhap(t),这是第一个允许解释生存黑盒模型的解释。它基于Shapley添加性解释,其理论基础稳定,并在机器学习从业人员中广泛采用。拟议的方法旨在增强精确诊断和支持领域的专家做出决策。关于合成和医学数据的实验证实,survhap(t)可以检测具有时间依赖性效果的变量,并且其聚集是对变量对预测的重要性的决定因素,而不是存活。 survhap(t)是模型不可屈服的,可以应用于具有功能输出的所有型号。我们在http://github.com/mi2datalab/survshap中提供了python中时间相关解释的可访问实现。
translated by 谷歌翻译
The aim of this study is to define importance of predictors for black box machine learning methods, where the prediction function can be highly non-additive and cannot be represented by statistical parameters. In this paper we defined a ``Generalized Variable Importance Metric (GVIM)'' using the true conditional expectation function for a continuous or a binary response variable. We further showed that the defined GVIM can be represented as a function of the Conditional Average Treatment Effect (CATE) squared for multinomial and continuous predictors. Then we propose how the metric can be estimated using using any machine learning models. Finally we showed the properties of the estimator using multiple simulations.
translated by 谷歌翻译
Prognostication for lung cancer, a leading cause of mortality, remains a complex task, as it needs to quantify the associations of risk factors and health events spanning a patient's entire life. One challenge is that an individual's disease course involves non-terminal (e.g., disease progression) and terminal (e.g., death) events, which form semi-competing relationships. Our motivation comes from the Boston Lung Cancer Study, a large lung cancer survival cohort, which investigates how risk factors influence a patient's disease trajectory. Following developments in the prediction of time-to-event outcomes with neural networks, deep learning has become a focal area for the development of risk prediction methods in survival analysis. However, limited work has been done to predict multi-state or semi-competing risk outcomes, where a patient may experience adverse events such as disease progression prior to death. We propose a novel neural expectation-maximization algorithm to bridge the gap between classical statistical approaches and machine learning. Our algorithm enables estimation of the non-parametric baseline hazards of each state transition, risk functions of predictors, and the degree of dependence among different transitions, via a multi-task deep neural network with transition-specific sub-architectures. We apply our method to the Boston Lung Cancer Study and investigate the impact of clinical and genetic predictors on disease progression and mortality.
translated by 谷歌翻译
估算干预措施对患者结果的影响是个性化医学的关键方面之一。他们的推断经常受到训练数据仅包括给药治疗的结果,而不是用于替代治疗(所谓的反事实结果)。基于观察数据的这种情况,即〜对于连续和二进制结果变量,不适用干预的数据,建议了几种方法。然而,患者结果通常以时间对次的数据记录,如果在观察期内未发生事件,则包括右审查的事件时间。尽管他们的重要性巨大,时间令人难度的数据很少用于治疗优化。我们建议一种名为Bites的方法(用于存活数据的平衡个体治疗效果),其将特定的半导体Cox损耗与治疗平衡的深神经网络相结合;即,我们使用积分概率度量(IPM)正常化治疗和未治疗的患者之间的差异。我们在仿真研究中展示了这种方法优于现有技术。此外,我们在应用于乳腺癌患者队列的应用中证明可以基于六个常规参数进行激素治疗。我们成功验证了独立的队列中的这一发现。提供叮咬作为易于使用的Python实现。
translated by 谷歌翻译
肾脏移植可以显着增强患有末期肾脏疾病的人的生活水平。影响移植物生存时间的一个重要因素(移植失败的时间和患者需要另一个移植的时间)是肾移植的是供体和受体之间人类白细胞抗原(HLA)的兼容性。在本文中,我们提出了4种新的与生物学的特征表示,以将HLA信息纳入基于机器学习的生存分析算法中。我们在超过100,000次移植的数据库上评估了我们提出的HLA特征表示,并发现它们将预测准确性提高了约1%,在患者水平上适度,但在社会水平上可能具有重要意义。准确预测生存时间可以改善移植生存结果,从而更好地分配捐助者向接受者分配,并减少由于移植失败而与匹配不佳的捐助者造成的重新移植数量。
translated by 谷歌翻译
风险评分广泛用于临床决策,通常由逻辑回归模型产生。基于机器学习的方法可以很好地识别重要的预测因子,但这种“黑匣子”变量选择限制解释性,并且从单个模型评估的可变重要性可以偏置。我们提出了一种强大而可解释的可解释的可解释选择方法,使用最近开发的福利可变重要性云(福利维奇)占模型的可变性。我们的方法评估和可视化了深入推理和透明变量选择的总变量贡献,并过滤出非重要贡献者来简化模型构建步骤。我们从可变贡献中获得了一个集合变量排名,这很容易与自动化和模块化的风险分数发生器,自动摩托,以方便的实现。在对早期死亡或意外再入住的研究中,福糖选定了6个候选变量中的6个,以创建一个良好的性能,从机器学习的排名到一个16变量模型具有类似的性能。
translated by 谷歌翻译
1972年出现了经典的COX模型,促进了如何使用生物医学中的事实分析来量化患者预后的突破。该模型最有用的特征之一是分析中变量的解释性。但是,这是以引入有关回归模型功能形式的强有力的假设的代价。为了打破这一差距,本文旨在利用新的套索神经网络在间隔进行审查的设置中利用经典COX模型的解释性优势,该网络同时选择最相关的变量,同时量化预测因子和生存时间之间的非线性关系。在广泛的模拟研究中,新方法的增益在经验上进行了说明,其中涉及线性和非线性地面依赖性的示例。我们还证明了我们在NHANES 2003-2006波的生理,临床和加速度计分析中的策略表现,以预测体育活动对患者存活的影响。我们的方法的表现优于使用传统Cox模型的文献中的先前结果。
translated by 谷歌翻译
捕获基于协变量的多变量响应载体之间的条件协方差或相关性对于包括神经科学,流行病学和生物医学在内的各个领域很重要。我们提出了一种新方法,称为随机森林(covregrf),以使用随机森林框架估算一个多变量响应的协方差矩阵。随机林木的建造具有专门设计的分裂规则,以最大化儿童节点的样本协方差矩阵估计值之间的差异。我们还提出了对协变量子集的部分效应的显着性检验。我们通过一项模拟研究评估了提出的方法和显着性测试的性能,该研究表明该方法提供了准确的协方差矩阵估计值,并且Type-1误差得到了很好的控制。我们还证明了该方法与甲状腺疾病数据集的应用。
translated by 谷歌翻译
尽管电子健康记录是生物医学研究的丰富数据来源,但这些系统并未在医疗环境中统一地实施,并且由于医疗保健碎片化和孤立的电子健康记录之间缺乏互操作性,可能缺少大量数据。考虑到缺少数据的案例的删除可能会在随后的分析中引起严重的偏见,因此,一些作者更喜欢采用多重插补策略来恢复缺失的信息。不幸的是,尽管几项文献作品已经通过使用现在可以自由研究的任何不同的多个归档算法记录了有希望的结果,但尚无共识,MI算法效果最好。除了选择MI策略之外,归纳算法及其应用程序设置的选择也至关重要且具有挑战性。在本文中,受鲁宾和范布伦的开创性作品的启发,我们提出了一个方法学框架,可以应用于评估和比较多种多个插补技术,旨在选择用于计算临床研究工作中最有效的推断。我们的框架已被应用于验证和扩展较大的队列,这是我们在先前的文献研究中提出的结果,我们在其中评估了关键患者的描述符和Covid-19的影响在2型糖尿病患者中的影响,其数据为2型糖尿病,其数据为2型糖尿病由国家共同队列合作飞地提供。
translated by 谷歌翻译
我们提出了一种基于配对构造的模型组件的广义添加剂模型,并以预测为主要目的。该模型组件的设计使我们的模型可以捕获响应协变量之间关系中潜在的复杂相互作用效应。此外,我们的模型不需要连续协变量的离散化,因此适用于许多此类协变量的问题。此外,我们设计了一种受梯度增强启发的拟合算法,以及通过对模型空间和近似值的限制来加快时间对比计算的限制,用于模型选择和模型选择的有效程序。除了我们的模型在更高维度中成为现实的选择绝对必要外,这些技术还可以作为设计有效模型选择算法的其他类型的Copula回归模型的基础。我们已经在模拟研究中探索了我们方法的特征,特别是将其与自然替代方案进行比较,例如逻辑回归,经典增强模型和受到惩罚的逻辑回归。我们还展示了我们在威斯康星州乳腺癌数据集和波士顿住房数据集上的方法。结果表明,即使离散协变量的比例很高,我们的方法的预测性能要么比其他方法更好或可比其他方法媲美。
translated by 谷歌翻译
算法公平是一个越来越重要的领域,与检测和减轻机器学习模型中的偏见有关。在回归和分类中,有很多文献来算法公平,但是对生存分析的领域几乎没有探索。生存分析是预测任务,试图预测事件随时间的可能性。生存预测在敏感的环境中尤为重要,例如利用机器学习进行诊断和预后。在本文中,我们探讨了如何利用现有的生存指标来用群体公平指标来衡量偏见。我们在29个生存数据集和8个措施的经验实验中探讨了这一点。我们发现,歧视的度量能够很好地捕捉偏见,而对校准和评分规则的衡量标准则更少。我们建议进一步的研究领域,包括基于预测的公平指标,以进行分配预测。
translated by 谷歌翻译