由于存在抗抗,因此仅由于例如损失跟踪而仅部分已知的抗抗,因此仅存在抗抗,因此存在于回归建模的具有挑战性。这些问题经常在医疗应用中出现,使生存分析成为医疗保健的生物统计学和机器学习的关键努力,Cox回归模型是最常用的模型。我们描述了一种基于COX回归的学习混合物来模拟各个生存分布的生存分析回归模型的新方法。我们提出了对该模型的预期最大化算法的近似,该算法对混合组进行了艰难的分配,以进行优化效率。在每个组分配中,我们使用深神经网络的每个组内的危险比以及每个混合物组分非参数的基线危害。我们对多个现实世界数据集进行实验,并查看种族和性别患者的死亡率。我们强调了校准在医疗保健环境中的重要性,并证明我们的方法在鉴别性能和校准方面表明了古典和现代生存分析基线,在少数人口统计数据上具有大的收益。
translated by 谷歌翻译
现实世界中临床干预措施的治疗功效的估计涉及处理诸如死亡时间,重新住院或可能受到检查的复合事件之类的连续结果。在这种情况下,反事实推理需要将混杂的生理特征的影响与正在评估的干预措施的影响中影响基线存活率的影响。在本文中,我们提出了一种潜在变量方法来模拟异质治疗效果,该方法通过提出一个人可以属于具有不同响应特征的潜在簇之一。我们表明,这种潜在结构可以介导基本的生存率,并有助于确定干预的影响。我们证明了我们的方法根据个人对最初进行的多个大型随机临床试验的治疗反应来发现可行的表型的能力,该试验最初是为了评估适当的治疗方法以降低心血管风险。
translated by 谷歌翻译
机器学习在医疗保健中的应用通常需要处理时间到事实的预测任务,包括不良事件的预测,重新住院或死亡。由于失去随访,此类结果通常受到审查。标准的机器学习方法不能直接地应用于具有审查结果的数据集。在本文中,我们提出了Auton-Survival,这是一个开源存储库,用于简化审查的活动时间或生存数据的工具。Auton Survival包括用于生存回归的工具,存在域移位,反事实估计,风险分层的表型,评估以及治疗效果的估计。通过采用大量SEER肿瘤学发病率数据的现实世界案例研究,我们证明了Auton Survival迅速支持数据科学家在回答复杂健康和流行病学问题方面的能力。
translated by 谷歌翻译
从电子健康记录(EHR)数据中进行有效学习来预测临床结果,这通常是具有挑战性的,因为在不规则的时间段记录的特征和随访的损失以及竞争性事件(例如死亡或疾病进展)。为此,我们提出了一种生成的事实模型,即Survlatent Ode,该模型采用了基于基于微分方程的复发性神经网络(ODE-RNN)作为编码器,以有效地对不规则采样的输入数据进行潜在状态的动力学有效地参数化。然后,我们的模型利用所得的潜在嵌入来灵活地估计多个竞争事件的生存时间,而无需指定事件特定危害功能的形状。我们展示了我们在Mimic-III上的竞争性能,这是一种从重症监护病房收集的自由纵向数据集,预测医院死亡率以及DANA-FARBER癌症研究所(DFCI)的数据,以预测静脉血栓症(静脉血栓症(DFCI)(DFCI)( VTE),是癌症患者的生命并发症,死亡作为竞争事件。幸存ODE优于分层VTE风险组的当前临床标准Khorana风险评分,同时提供临床上有意义且可解释的潜在表示。
translated by 谷歌翻译
生存分析是事实建模的艺术,在临床治疗决策中起着重要作用。最近,已经提出了由神经ODE建立的连续时间模型进行生存分析。然而,由于神经ODE求解器的计算复杂性很高,神经ODE的训练很慢。在这里,我们提出了一种有效的替代方案,用于柔性连续时间模型,称为生存混合物密度网络(生存MDN)。生存MDN适用于混合密度网络(MDN)的输出的可逆阳性功能。尽管MDN产生灵活的实价分布,但可逆正函数将模型映射到时间域,同时保留可拖动密度。使用四个数据集,我们表明生存MDN的性能优于或类似于一致性的连续和离散时间基准,集成的brier得分和集成的二项式对数可能性。同时,生存MDN的速度也比基于ODE的模型和离散模型中规避的分类问题快。
translated by 谷歌翻译
在本文中,我们提出了一种使用神经网络的生存分析模型,以及可伸缩优化算法。直接应用最大似然估计(MLE)缩短数据的一个关键技术挑战是评估目标函数及其梯度相对于模型参数需要计算积分。为了解决这一挑战,我们认识到,可以将用于审查数据的MEE视为差分方程约束优化问题,这是一种新颖的视角。在此连接之后,我们通过普通微分方程模拟事件时间的分布,并利用有效的颂歌求解器并伴随敏感性分析来数值评估可能性和梯度。使用这种方法,我们能够1)提供广泛的连续时间存活分布,无需强大的结构假设,2)使用神经网络获得强大的特征表示,3)允许在大规模应用中使用模型估计模型随机梯度下降。通过仿真研究和现实世界数据示例,我们展示了所提出的方法与现有的最先进的深度学习生存分析模型相比的有效性。已在HTTPS://github.com/Jiaqima/soden公开提供拟议的SODEN方法。
translated by 谷歌翻译
用于生存预测的深层神经网络在歧视方面超过了经典方法,这是患者根据事件的秩序。相反,诸如COX比例危害模型之类的经典方法显示出更好的校准,即对基础分布事件的正确时间预测。特别是在医学领域,预测单个患者的存活至关重要,歧视和校准都是重要的绩效指标。在这里,我们提出了离散的校准生存(DC),这是一个新型的深层神经网络,用于歧视和校准的生存预测,在三个医疗数据集的歧视中优于竞争生存模型,同时在所有离散时间模型中实现最佳校准。 DC的增强性能可以归因于两个新型功能,即可变的时间输出节点间距和新颖的损耗项,可优化未经审查和审查的患者数据的使用。我们认为,DCS是临床应用基于深度学习的生存预测和良好校准的重要一步。
translated by 谷歌翻译
Prognostication for lung cancer, a leading cause of mortality, remains a complex task, as it needs to quantify the associations of risk factors and health events spanning a patient's entire life. One challenge is that an individual's disease course involves non-terminal (e.g., disease progression) and terminal (e.g., death) events, which form semi-competing relationships. Our motivation comes from the Boston Lung Cancer Study, a large lung cancer survival cohort, which investigates how risk factors influence a patient's disease trajectory. Following developments in the prediction of time-to-event outcomes with neural networks, deep learning has become a focal area for the development of risk prediction methods in survival analysis. However, limited work has been done to predict multi-state or semi-competing risk outcomes, where a patient may experience adverse events such as disease progression prior to death. We propose a novel neural expectation-maximization algorithm to bridge the gap between classical statistical approaches and machine learning. Our algorithm enables estimation of the non-parametric baseline hazards of each state transition, risk functions of predictors, and the degree of dependence among different transitions, via a multi-task deep neural network with transition-specific sub-architectures. We apply our method to the Boston Lung Cancer Study and investigate the impact of clinical and genetic predictors on disease progression and mortality.
translated by 谷歌翻译
神经网络(深度学习)是人工智能中的现代模型,并且在生存分析中已被利用。尽管以前的作品已经显示出一些改进,但培训出色的深度学习模型需要大量数据,这在实践中可能不存在。为了应对这一挑战,我们开发了一个基于Kullback-Leibler(KL)深度学习程序,以将外部生存预测模型与新收集的活动时间数据整合在一起。时间依赖性的KL歧视信息用于衡量外部数据和内部数据之间的差异。这是考虑使用先前信息来处理深度学习生存分析中的简短数据问题的第一项工作。仿真和实际数据结果表明,与以前的工作相比,所提出的模型可实现更好的性能和更高的鲁棒性。
translated by 谷歌翻译
观察生存数据的因果结构提供了关于协变量和事件时间之间关系的重要信息。我们从信息理论源编码参数中获得动机,并且如果采用合适的源编码器,则显示结合所指示的非循环图(DAG)的知识可以是有益的。作为在此上下文中的可能的源编码器中,我们推导出基于变分推理的条件变分性Autiachiater用于因果结构化生存预测,我们将其称为Dagsurv。我们说明了Dagsurv在低和高维合成数据集中的性能,以及诸如元数据集等现实数据集,如元数据集。我们证明,该方法优于其他生存分析基线,如Cox比例危害,Deepsurv和Deephit,这对数据实体之间的潜在因果关系感到遗憾。
translated by 谷歌翻译
算法公平是一个越来越重要的领域,与检测和减轻机器学习模型中的偏见有关。在回归和分类中,有很多文献来算法公平,但是对生存分析的领域几乎没有探索。生存分析是预测任务,试图预测事件随时间的可能性。生存预测在敏感的环境中尤为重要,例如利用机器学习进行诊断和预后。在本文中,我们探讨了如何利用现有的生存指标来用群体公平指标来衡量偏见。我们在29个生存数据集和8个措施的经验实验中探讨了这一点。我们发现,歧视的度量能够很好地捕捉偏见,而对校准和评分规则的衡量标准则更少。我们建议进一步的研究领域,包括基于预测的公平指标,以进行分配预测。
translated by 谷歌翻译
Real-time individual endpoint prediction has always been a challenging task but of great clinic utility for both patients and healthcare providers. With 6,879 chronic kidney disease stage 4 (CKD4) patients as a use case, we explored the feasibility and performance of gated recurrent units with decay that models Weibull probability density function (GRU-D-Weibull) as a semi-parametric longitudinal model for real-time individual endpoint prediction. GRU-D-Weibull has a maximum C-index of 0.77 at 4.3 years of follow-up, compared to 0.68 achieved by competing models. The L1-loss of GRU-D-Weibull is ~66% of XGB(AFT), ~60% of MTLR, and ~30% of AFT model at CKD4 index date. The average absolute L1-loss of GRU-D-Weibull is around one year, with a minimum of 40% Parkes serious error after index date. GRU-D-Weibull is not calibrated and significantly underestimates true survival probability. Feature importance tests indicate blood pressure becomes increasingly important during follow-up, while eGFR and blood albumin are less important. Most continuous features have non-linear/parabola impact on predicted survival time, and the results are generally consistent with existing knowledge. GRU-D-Weibull as a semi-parametric temporal model shows advantages in built-in parameterization of missing, native support for asynchronously arrived measurement, capability of output both probability and point estimates at arbitrary time point for arbitrary prediction horizon, improved discrimination and point estimate accuracy after incorporating newly arrived data. Further research on its performance with more comprehensive input features, in-process or post-process calibration are warranted to benefit CKD4 or alike terminally-ill patients.
translated by 谷歌翻译
我们提出了一种通用公式,用于具有临床生存数据的设置中连续治疗建议问题,我们称之为深层生存剂量反应函数(DEEPSDRF)。也就是说,我们认为学习条件平均剂量反应(CADR)的问题仅来自历史数据,在历史数据中,观察到的因素(混杂因素)都会影响观察到的治疗和事件时间结果。DEEPSDRF的估计治疗效果使我们能够开发出针对选择偏差的校正的推荐算法。我们比较了基于随机搜索和强化学习的两种推荐方法,并在患者结局方面发现了相似的表现。我们在广泛的仿真研究和EICU研究所(ERI)数据库中测试了DeepSDRF和相应的推荐剂。据我们所知,这是首次使用因果模型来解决医疗环境中观察数据的连续治疗效果。
translated by 谷歌翻译
有许多可用于选择优先考虑治疗的可用方法,包括基于治疗效果估计,风险评分和手工制作规则的遵循申请。我们将秩加权平均治疗效应(RATY)指标作为一种简单常见的指标系列,用于比较水平竞争范围的治疗优先级规则。对于如何获得优先级规则,率是不可知的,并且仅根据他们在识别受益于治疗中受益的单位的方式进行评估。我们定义了一系列速率估算器,并证明了一个中央限位定理,可以在各种随机和观测研究环境中实现渐近精确的推断。我们为使用自主置信区间的使用提供了理由,以及用于测试关于治疗效果中的异质性的假设的框架,与优先级规则相关。我们对速率的定义嵌套了许多现有度量,包括QINI系数,以及我们的分析直接产生了这些指标的推论方法。我们展示了我们从个性化医学和营销的示例中的方法。在医疗环境中,使用来自Sprint和Accor-BP随机对照试验的数据,我们发现没有明显的证据证明异质治疗效果。另一方面,在大量的营销审判中,我们在一些数字广告活动的治疗效果中发现了具有的强大证据,并证明了如何使用率如何比较优先考虑估计风险的目标规则与估计治疗效益优先考虑的目标规则。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
This paper considers doing quantile regression on censored data using neural networks (NNs). This adds to the survival analysis toolkit by allowing direct prediction of the target variable, along with a distribution-free characterisation of uncertainty, using a flexible function approximator. We begin by showing how an algorithm popular in linear models can be applied to NNs. However, the resulting procedure is inefficient, requiring sequential optimisation of an individual NN at each desired quantile. Our major contribution is a novel algorithm that simultaneously optimises a grid of quantiles output by a single NN. To offer theoretical insight into our algorithm, we show firstly that it can be interpreted as a form of expectation-maximisation, and secondly that it exhibits a desirable `self-correcting' property. Experimentally, the algorithm produces quantiles that are better calibrated than existing methods on 10 out of 12 real datasets.
translated by 谷歌翻译
有效的决策需要了解预测中固有的不确定性。在回归中,这种不确定性可以通过各种方法估算;然而,许多这些方法对调谐进行费力,产生过度自确性的不确定性间隔,或缺乏敏锐度(给予不精确的间隔)。我们通过提出一种通过定义具有两个不同损失功能的神经网络来捕获回归中的预测分布的新方法来解决这些挑战。具体地,一个网络近似于累积分布函数,第二网络近似于其逆。我们将此方法称为合作网络(CN)。理论分析表明,优化的固定点处于理想化的解决方案,并且该方法是渐近的与地面真理分布一致。凭经验,学习是简单且强大的。我们基准CN对两个合成和六个现实世界数据集的几种常见方法,包括预测来自电子健康记录的糖尿病患者的A1C值,其中不确定是至关重要的。在合成数据中,所提出的方法与基本上匹配地面真理。在真实世界数据集中,CN提高了许多性能度量的结果,包括对数似然估计,平均误差,覆盖估计和预测间隔宽度。
translated by 谷歌翻译
因果关系的概念在人类认知中起着重要作用。在过去的几十年中,在许多领域(例如计算机科学,医学,经济学和教育)中,因果推论已经得到很好的发展。随着深度学习技术的发展,它越来越多地用于针对反事实数据的因果推断。通常,深层因果模型将协变量的特征映射到表示空间,然后设计各种客观优化函数,以根据不同的优化方法公正地估算反事实数据。本文重点介绍了深层因果模型的调查,其核心贡献如下:1)我们在多种疗法和连续剂量治疗下提供相关指标; 2)我们从时间开发和方法分类的角度综合了深层因果模型的全面概述; 3)我们协助有关相关数据集和源代码的详细且全面的分类和分析。
translated by 谷歌翻译
我们提出了一种变分贝叶斯比例危险模型,用于预测和可变选择的关于高维存活数据。我们的方法基于平均场变分近似,克服了MCMC的高计算成本,而保留有用的特征,提供优异的点估计,并通过后夹层概念提供可变选择的自然机制。我们提出的方法的性能通过广泛的仿真进行评估,并与其他最先进的贝叶斯变量选择方法进行比较,展示了可比或更好的性能。最后,我们展示了如何在两个转录组数据集上使用所提出的方法进行审查的生存结果,其中我们识别具有预先存在的生物解释的基因。
translated by 谷歌翻译
神经网络中的大多数工作都集中在给定一组协变量的情况下估计连续响应变量的条件平均值。在本文中,我们考虑使用神经网络估算有条件的分布函数,以审查和未经审查的数据。该算法建立在与时间依赖性协变量有关COX回归的数据结构上。在不施加任何模型假设的情况下,我们考虑了基于条件危险函数是唯一未知的非参数参数的损失函数,可以应用不明显的优化方法。通过仿真研究,我们显示了所提出的方法具有理想的性能,而部分可能性方法和传统的神经网络具有$ l_2 $损失产量的偏向估计,当模型假设违反。我们进一步用几个现实世界数据集说明了提出的方法。提出的方法的实现可在https://github.com/bingqing0729/nncde上获得。
translated by 谷歌翻译