在本文中,我们通过合并的回归策略来预测条件生存函数。我们将弱的学习者视为不同的随机生存树。我们建议在右审查设置中最大化和解以找到最佳参数。我们探索两种方法,一种通常的生存眼镜蛇和基于一致性指数的新型加权预测指标。我们提出的配方使用两种不同的规范,例如Max-Norm和Frobenius Norm,从测试数据集中的查询点找到了一组邻近性预测。我们通过三个不同的现实数据集实现来说明我们的算法。
translated by 谷歌翻译
肾脏移植可以显着增强患有末期肾脏疾病的人的生活水平。影响移植物生存时间的一个重要因素(移植失败的时间和患者需要另一个移植的时间)是肾移植的是供体和受体之间人类白细胞抗原(HLA)的兼容性。在本文中,我们提出了4种新的与生物学的特征表示,以将HLA信息纳入基于机器学习的生存分析算法中。我们在超过100,000次移植的数据库上评估了我们提出的HLA特征表示,并发现它们将预测准确性提高了约1%,在患者水平上适度,但在社会水平上可能具有重要意义。准确预测生存时间可以改善移植生存结果,从而更好地分配捐助者向接受者分配,并减少由于移植失败而与匹配不佳的捐助者造成的重新移植数量。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
与经典的统计学习方法相比,机器和深度学习生存模型表现出相似甚至改进事件的预测能力,但太复杂了,无法被人类解释。有几种模型不合时宜的解释可以克服这个问题。但是,没有一个直接解释生存函数预测。在本文中,我们介绍了Survhap(t),这是第一个允许解释生存黑盒模型的解释。它基于Shapley添加性解释,其理论基础稳定,并在机器学习从业人员中广泛采用。拟议的方法旨在增强精确诊断和支持领域的专家做出决策。关于合成和医学数据的实验证实,survhap(t)可以检测具有时间依赖性效果的变量,并且其聚集是对变量对预测的重要性的决定因素,而不是存活。 survhap(t)是模型不可屈服的,可以应用于具有功能输出的所有型号。我们在http://github.com/mi2datalab/survshap中提供了python中时间相关解释的可访问实现。
translated by 谷歌翻译
COX比例危害模型是用于预测给定临床或遗传协变量患者的预期寿命的生存分析的规范方法 - 它是其原始形式的线性模型。近年来,已经提出了几种将COX模型推广到神经网络的方法,但是这些方法在数字上都不是正确的,并且在计算上都没有。我们提出了FastCPH,这是一种以线性时间运行的新方法,并支持绑扎事件的标准Breslow和EFRON方法。我们还证明了FastCPH与Lassonet的性能,Lassonet是一种神经网络,可通过特征稀疏性(生存数据集)提供解释性。最终过程是有效的,选择有用的协变量,并优于现有的Coxph方法。
translated by 谷歌翻译
Tongue cancer is a common oral cavity malignancy that originates in the mouth and throat. Much effort has been invested in improving its diagnosis, treatment, and management. Surgical removal, chemotherapy, and radiation therapy remain the major treatment for tongue cancer. The survival of patients determines the treatment effect. Previous studies have identified certain survival and risk factors based on descriptive statistics, ignoring the complex, nonlinear relationship among clinical and demographic variables. In this study, we utilize five cutting-edge machine learning models and clinical data to predict the survival of tongue cancer patients after treatment. Five-fold cross-validation, bootstrap analysis, and permutation feature importance are applied to estimate and interpret model performance. The prognostic factors identified by our method are consistent with previous clinical studies. Our method is accurate, interpretable, and thus useable as additional evidence in tongue cancer treatment and management.
translated by 谷歌翻译
神经网络中的大多数工作都集中在给定一组协变量的情况下估计连续响应变量的条件平均值。在本文中,我们考虑使用神经网络估算有条件的分布函数,以审查和未经审查的数据。该算法建立在与时间依赖性协变量有关COX回归的数据结构上。在不施加任何模型假设的情况下,我们考虑了基于条件危险函数是唯一未知的非参数参数的损失函数,可以应用不明显的优化方法。通过仿真研究,我们显示了所提出的方法具有理想的性能,而部分可能性方法和传统的神经网络具有$ l_2 $损失产量的偏向估计,当模型假设违反。我们进一步用几个现实世界数据集说明了提出的方法。提出的方法的实现可在https://github.com/bingqing0729/nncde上获得。
translated by 谷歌翻译
倾斜的随机生存森林(RSF)是一种用于右翼结果的合奏监督学习方法。斜RSF中的树是使用预测变量的线性组合生长的,以创建分支,而在标准RSF中,使用单个预测变量。倾斜的RSF集合通常比标准RSF合奏具有更高的预测准确性。但是,评估预测变量的所有可能的线性组合会诱导大量的计算开销,从而将应用限制为大规模数据集。此外,几乎没有开发用于解释斜RSF合奏的方法,与基于轴的对应物相比,它们仍然难以解释。我们介绍了一种提高斜力RSF计算效率的方法,以及一种用斜RSF估计单个预测变量重要性的方法。我们减少计算开销的策略是利用牛顿 - 拉夫森评分(Newton-Raphson)评分,这是一种经典的优化技术,我们适用于决策树的每个非叶子节点内的COX部分似然函数。我们通过在线性组合中否定了用于给定预测指标的每个系数,然后计算出降低的降低准确性,从而估计单个预测因子对斜RSF的重要性。通常,在基准测试实验中,我们发现,与现有的斜RSF相比,与现有软件相比,我们对斜RSF的实现速度约为450倍,而较高的Brier得分则要高450倍。我们在模拟研究中发现,“否定重要性”比置换重要性,莎普利添加性解释和先前引入的技术更可靠地区分相关和无关的预测因子,以基于方差分析来衡量斜RSF的可变重要性。当前研究中引入的方法可在AORSF R软件包中获得。
translated by 谷歌翻译
可变选择是统计和机器学习中的重要问题。Copula熵(CE)是用于测量统计独立性的数学概念,最近已应用于变量选择。在本文中,我们建议将基于CE的方法应用于可变选择来生存分析。这个想法是测量变量与事件与CE的时间之间的相关性,然后根据其CE值选择变量。进行了模拟数据和两个实际癌症数据的实验,以将所提出的方法与两种相关方法进行比较:随机生存森林和套索cox。实验结果表明,所提出的方法可以选择更容易解释的“右”变量,并带来更好的预测性能。
translated by 谷歌翻译
Real-time individual endpoint prediction has always been a challenging task but of great clinic utility for both patients and healthcare providers. With 6,879 chronic kidney disease stage 4 (CKD4) patients as a use case, we explored the feasibility and performance of gated recurrent units with decay that models Weibull probability density function (GRU-D-Weibull) as a semi-parametric longitudinal model for real-time individual endpoint prediction. GRU-D-Weibull has a maximum C-index of 0.77 at 4.3 years of follow-up, compared to 0.68 achieved by competing models. The L1-loss of GRU-D-Weibull is ~66% of XGB(AFT), ~60% of MTLR, and ~30% of AFT model at CKD4 index date. The average absolute L1-loss of GRU-D-Weibull is around one year, with a minimum of 40% Parkes serious error after index date. GRU-D-Weibull is not calibrated and significantly underestimates true survival probability. Feature importance tests indicate blood pressure becomes increasingly important during follow-up, while eGFR and blood albumin are less important. Most continuous features have non-linear/parabola impact on predicted survival time, and the results are generally consistent with existing knowledge. GRU-D-Weibull as a semi-parametric temporal model shows advantages in built-in parameterization of missing, native support for asynchronously arrived measurement, capability of output both probability and point estimates at arbitrary time point for arbitrary prediction horizon, improved discrimination and point estimate accuracy after incorporating newly arrived data. Further research on its performance with more comprehensive input features, in-process or post-process calibration are warranted to benefit CKD4 or alike terminally-ill patients.
translated by 谷歌翻译
在本文中,我们考虑如何通过歧视措施来评估生存分布预测。这是一个非凡的问题,因为歧视措施是生存分析中最常用的,但没有明确的方法可以从分布预测中获得风险预测。我们调查文学和软件中提出的方法,并考虑各自的优缺点。虽然分布经常通过歧视措施评估,但我们发现该方法很少在文献中描述,并且经常导致不公平的比较。我们发现,降低风险分布的最强大方法是总结预测的累积危险。我们建议机器学习生存分析软件在分布和风险预测之间实现明确的转换,以便更透明和可访问的模型评估。
translated by 谷歌翻译
内核生存分析模型借助内核函数估计了个体生存分布,该分布衡量了任意两个数据点之间的相似性。可以使用深内核存活模型来学习这种内核函数。在本文中,我们提出了一种名为“生存内核”的新的深内核生存模型,该模型以模型解释和理论分析的方式将大型数据集扩展到大型数据集。具体而言,根据最近开发的训练集压缩方案,用于分类和回归,将培训数据分为簇,称为内核网,我们将其扩展到生存分析设置。在测试时间,每个数据点表示为这些簇的加权组合,每个数据点可以可视化。对于生存核的特殊情况,我们在预测的生存分布上建立了有限样本误差,该误差是最佳的,该误差是最佳的。尽管使用上述内核网络压缩策略可以实现测试时间的可伸缩性,但训练过程中的可伸缩性是通过基于XGBoost(例如Xgboost)的暖启动程序和加速神经建筑搜索的启发式方法来实现的。在三个不同大小的标准生存分析数据集(大约300万个数据点)上,我们表明生存核具有很高的竞争力,并且在一致性指数方面经过测试的最佳基线。我们的代码可在以下网址找到:https://github.com/georgehc/survival-kernets
translated by 谷歌翻译
神经网络(深度学习)是人工智能中的现代模型,并且在生存分析中已被利用。尽管以前的作品已经显示出一些改进,但培训出色的深度学习模型需要大量数据,这在实践中可能不存在。为了应对这一挑战,我们开发了一个基于Kullback-Leibler(KL)深度学习程序,以将外部生存预测模型与新收集的活动时间数据整合在一起。时间依赖性的KL歧视信息用于衡量外部数据和内部数据之间的差异。这是考虑使用先前信息来处理深度学习生存分析中的简短数据问题的第一项工作。仿真和实际数据结果表明,与以前的工作相比,所提出的模型可实现更好的性能和更高的鲁棒性。
translated by 谷歌翻译
癌症是一种复杂的疾病,具有重大的社会和经济影响。高通量分子测定的进步以及进行高质量多摩斯测量的成本降低,通过机器学习促进了见解。先前的研究表明,使用多个OMIC预测生存和分层癌症患者的希望。在本文中,我们开发了一种有监督的自动编码器(SAE)模型,用于基于生存的多摩变集成,该模型在以前的工作中改进,并报告一种具体的监督自动编码器模型(CSAE),该模型(CSAE)也使用功能选择来共同重建输入功能。作为预测生存。我们的实验表明,我们的模型表现优于或与一些最常用的基线相提并论,同时提供更好的生存分离(SAE)或更容易解释(CSAE)。我们还对我们的模型进行了特征选择稳定性分析,并注意到与通常与生存有关的特征存在幂律关系。该项目的代码可在以下网址获得:https://github.com/phcavelar/coxae
translated by 谷歌翻译
有许多可用于选择优先考虑治疗的可用方法,包括基于治疗效果估计,风险评分和手工制作规则的遵循申请。我们将秩加权平均治疗效应(RATY)指标作为一种简单常见的指标系列,用于比较水平竞争范围的治疗优先级规则。对于如何获得优先级规则,率是不可知的,并且仅根据他们在识别受益于治疗中受益的单位的方式进行评估。我们定义了一系列速率估算器,并证明了一个中央限位定理,可以在各种随机和观测研究环境中实现渐近精确的推断。我们为使用自主置信区间的使用提供了理由,以及用于测试关于治疗效果中的异质性的假设的框架,与优先级规则相关。我们对速率的定义嵌套了许多现有度量,包括QINI系数,以及我们的分析直接产生了这些指标的推论方法。我们展示了我们从个性化医学和营销的示例中的方法。在医疗环境中,使用来自Sprint和Accor-BP随机对照试验的数据,我们发现没有明显的证据证明异质治疗效果。另一方面,在大量的营销审判中,我们在一些数字广告活动的治疗效果中发现了具有的强大证据,并证明了如何使用率如何比较优先考虑估计风险的目标规则与估计治疗效益优先考虑的目标规则。
translated by 谷歌翻译
生存分析是事实建模的艺术,在临床治疗决策中起着重要作用。最近,已经提出了由神经ODE建立的连续时间模型进行生存分析。然而,由于神经ODE求解器的计算复杂性很高,神经ODE的训练很慢。在这里,我们提出了一种有效的替代方案,用于柔性连续时间模型,称为生存混合物密度网络(生存MDN)。生存MDN适用于混合密度网络(MDN)的输出的可逆阳性功能。尽管MDN产生灵活的实价分布,但可逆正函数将模型映射到时间域,同时保留可拖动密度。使用四个数据集,我们表明生存MDN的性能优于或类似于一致性的连续和离散时间基准,集成的brier得分和集成的二项式对数可能性。同时,生存MDN的速度也比基于ODE的模型和离散模型中规避的分类问题快。
translated by 谷歌翻译
Attention-based multiple instance learning (AMIL) algorithms have proven to be successful in utilizing gigapixel whole-slide images (WSIs) for a variety of different computational pathology tasks such as outcome prediction and cancer subtyping problems. We extended an AMIL approach to the task of survival prediction by utilizing the classical Cox partial likelihood as a loss function, converting the AMIL model into a nonlinear proportional hazards model. We applied the model to tissue microarray (TMA) slides of 330 lung cancer patients. The results show that AMIL approaches can handle very small amounts of tissue from a TMA and reach similar C-index performance compared to established survival prediction methods trained with highly discriminative clinical factors such as age, cancer grade, and cancer stage
translated by 谷歌翻译
机器学习在医疗保健中的应用通常需要处理时间到事实的预测任务,包括不良事件的预测,重新住院或死亡。由于失去随访,此类结果通常受到审查。标准的机器学习方法不能直接地应用于具有审查结果的数据集。在本文中,我们提出了Auton-Survival,这是一个开源存储库,用于简化审查的活动时间或生存数据的工具。Auton Survival包括用于生存回归的工具,存在域移位,反事实估计,风险分层的表型,评估以及治疗效果的估计。通过采用大量SEER肿瘤学发病率数据的现实世界案例研究,我们证明了Auton Survival迅速支持数据科学家在回答复杂健康和流行病学问题方面的能力。
translated by 谷歌翻译
已经开发了几种深度学习算法,以使用整个幻灯片图像(WSIS)预测癌症患者的存活。但是,WSI中与患者的生存和疾病进展有关的WSI中的图像表型对临床医生而言都是困难的,以及深度学习算法。用于生存预测的大多数基于深度学习的多个实例学习(MIL)算法使用顶级实例(例如Maxpooling)或顶级/底部实例(例如,Mesonet)来识别图像表型。在这项研究中,我们假设WSI中斑块得分分布的全面信息可以更好地预测癌症的生存。我们开发了一种基于分布的多构度生存学习算法(DeepDismisl)来验证这一假设。我们使用两个大型国际大型癌症WSIS数据集设计和执行实验-MCO CRC和TCGA Coad -Read。我们的结果表明,有关WSI贴片分数的分布的信息越多,预测性能越好。包括每个选定分配位置(例如百分位数)周围的多个邻域实例可以进一步改善预测。与最近发表的最新算法相比,DeepDismisl具有优越的预测能力。此外,我们的算法是可以解释的,可以帮助理解癌症形态表型与癌症生存风险之间的关系。
translated by 谷歌翻译
用于生存预测的深层神经网络在歧视方面超过了经典方法,这是患者根据事件的秩序。相反,诸如COX比例危害模型之类的经典方法显示出更好的校准,即对基础分布事件的正确时间预测。特别是在医学领域,预测单个患者的存活至关重要,歧视和校准都是重要的绩效指标。在这里,我们提出了离散的校准生存(DC),这是一个新型的深层神经网络,用于歧视和校准的生存预测,在三个医疗数据集的歧视中优于竞争生存模型,同时在所有离散时间模型中实现最佳校准。 DC的增强性能可以归因于两个新型功能,即可变的时间输出节点间距和新颖的损耗项,可优化未经审查和审查的患者数据的使用。我们认为,DCS是临床应用基于深度学习的生存预测和良好校准的重要一步。
translated by 谷歌翻译