电子健康记录(EHR)系统以高频提供批判性,丰富和有价值的信息。EHR数据中最激动人心的应用之一正在开发具有来自生存分析的工具的实时死亡率警告系统。然而,最近使用的大多数生存分析方法基于使用静态协变量的(半)参数模型。这些模型不会利用时变EHR数据传达的信息。在这项工作中,我们展示了一种高度可扩展的生存分析方法,Boxhed 2.0基于模拟IV数据集的实时ICU死亡警告指示。重要的是,Boxhed可以以完全非参数的方式结合时间依赖的协变量,并通过理论来支持。我们的ICU死亡率模型实现了0.41和AUC-ROC的AUC-PRC为0.83的样品,展示了实时监测的好处。
translated by 谷歌翻译
从电子健康记录(EHR)数据中进行有效学习来预测临床结果,这通常是具有挑战性的,因为在不规则的时间段记录的特征和随访的损失以及竞争性事件(例如死亡或疾病进展)。为此,我们提出了一种生成的事实模型,即Survlatent Ode,该模型采用了基于基于微分方程的复发性神经网络(ODE-RNN)作为编码器,以有效地对不规则采样的输入数据进行潜在状态的动力学有效地参数化。然后,我们的模型利用所得的潜在嵌入来灵活地估计多个竞争事件的生存时间,而无需指定事件特定危害功能的形状。我们展示了我们在Mimic-III上的竞争性能,这是一种从重症监护病房收集的自由纵向数据集,预测医院死亡率以及DANA-FARBER癌症研究所(DFCI)的数据,以预测静脉血栓症(静脉血栓症(DFCI)(DFCI)( VTE),是癌症患者的生命并发症,死亡作为竞争事件。幸存ODE优于分层VTE风险组的当前临床标准Khorana风险评分,同时提供临床上有意义且可解释的潜在表示。
translated by 谷歌翻译
用于生存预测的深层神经网络在歧视方面超过了经典方法,这是患者根据事件的秩序。相反,诸如COX比例危害模型之类的经典方法显示出更好的校准,即对基础分布事件的正确时间预测。特别是在医学领域,预测单个患者的存活至关重要,歧视和校准都是重要的绩效指标。在这里,我们提出了离散的校准生存(DC),这是一个新型的深层神经网络,用于歧视和校准的生存预测,在三个医疗数据集的歧视中优于竞争生存模型,同时在所有离散时间模型中实现最佳校准。 DC的增强性能可以归因于两个新型功能,即可变的时间输出节点间距和新颖的损耗项,可优化未经审查和审查的患者数据的使用。我们认为,DCS是临床应用基于深度学习的生存预测和良好校准的重要一步。
translated by 谷歌翻译
使用完整的患者病史预测临床事件的个人风险仍然是个性化医学的主要挑战。在用于计算个体动态预测的方法中,联合模型具有在辍学时使用所有可用信息的资产。但是,它们仅限于少量的纵向预测因子。我们的目标是提出一种创新的替代解决方案,以使用可能大量的纵向预测变量来预测事件概率。我们开发了Dynforest,这是处理内源性纵向预测因子的竞争风险的随机生存森林的扩展。在树的每个节点上,将时间依赖的预测变量转换为定期特征(使用混合模型),以用作将受试者分为两个亚组的候选者。单个事件的概率是由Aalen-Johansen估计器在每棵树中估算的,该叶子的叶子是根据其预测因子史对受试者进行分类的。最终的个人预测由特定于树特定的个人事件概率的平均值给出。我们进行了一项仿真研究,以证明在小维环境(与关节模型相比)和较大的维环境(与忽略内容丰富的辍学方法的回归校准方法相比)中的DynForest的性能。我们还将DynForest应用于(i)根据认知,功能,血管和神经脱位标记的重复度量预测老年人痴呆的个体概率,以及(ii)量化每种标记物对痴呆预测的重要性。在R软件包DynForest中实施,我们的方法论为预测纵向内生预测变量的事件的方法提供了解决方案。
translated by 谷歌翻译
目的:临床票据含有其他地方未存在的信息,包括药物反应和症状,所有这些都在预测急性护理患者的关键结果时非常重要。我们提出了从临床笔记中的表型作为一种捕获基本信息的方法的自动注释,这与通常使用生命体征和实验室测试结果的互补性,以预测重症监护单元(ICU)中的结果。方法:我们开发一种新颖的表型注释模型,用于注释患者的表型特征,然后用作预测模型的输入特征,以预测ICU患者结果。我们展示并验证了我们的方法对三个ICU预测任务进行实验,包括使用MIMIC-III数据集的医院死亡率,生理失效和超过24,000名患者的逗留时间。结果:掺入表型信息的预测模型实现0.845(AUC-ROC),以预测医院死亡率,0.839(AUC-ROC)的生理失代偿和0.430(Kappa),所有这些都始终胜过基线模型利用只有生命的迹象和实验室测试结果。此外,我们进行了彻底的解释性研究,表明表型在患者和队列水平方面提供了有价值的见解。结论:该方法表明表型信息是传统上使用生命体征和实验室测试结果的补充,改善了ICU中的结果的重要预测。
translated by 谷歌翻译
COVID-19大流行对全球医疗保健系统造成了沉重的负担,并造成了巨大的社会破坏和经济损失。已经提出了许多深度学习模型来执行临床预测任务,例如使用电子健康记录(EHR)数据在重症监护病房中为Covid-19患者的死亡率预测。尽管在某些临床应用中取得了最初的成功,但目前缺乏基准测试结果来获得公平的比较,因此我们可以选择最佳模型以供临床使用。此外,传统预测任务的制定与重症监护现实世界的临床实践之间存在差异。为了填补这些空白,我们提出了两项​​临床预测任务,特定于结局的预测和重症监护病房中的COVID-19患者的早期死亡率预测。这两个任务是根据幼稚的停车时间和死亡率预测任务的改编,以适应COVID-19患者的临床实践。我们提出了公平,详细的开源数据预处管道,并评估了两项任务的17个最先进的预测模型,包括5个机器学习模型,6种基本的深度学习模型和6种专门为EHR设计的深度学习预测模型数据。我们使用来自两个现实世界Covid-19 EHR数据集的数据提供基准测试结果。这两个数据集都可以公开可用,而无需任何查询,并且可以根据要求访问一个数据集。我们为两项任务提供公平,可重复的基准测试结果。我们在在线平台上部署所有实验结果和模型。我们还允许临床医生和研究人员将其数据上传到平台上,并使用训练有素的模型快速获得预测结果。我们希望我们的努力能够进一步促进Covid-19预测建模的深度学习和机器学习研究。
translated by 谷歌翻译
源于机器学习和优化的临床决策支持工具可以为医疗保健提供者提供显着的价值,包括通过更好地管理重症监护单位。特别是,重要的是,患者排放任务在降低患者的住宿时间(以及相关住院费用)和放弃决策后的入院甚至死亡的风险之间存在对细微的折衷。这项工作介绍了一个端到端的一般框架,用于捕获这种权衡,以推荐患者电子健康记录的最佳放电计时决策。数据驱动方法用于导出捕获患者的生理条件的解析,离散状态空间表示。基于该模型和给定的成本函数,在数值上制定并解决了无限的地平线折扣明马尔科夫决策过程,以计算最佳的排放政策,其价值使用违规评估策略进行评估。进行广泛的数值实验以使用现实生活重症监护单元患者数据来验证所提出的框架。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
机器学习在医疗保健中的应用通常需要处理时间到事实的预测任务,包括不良事件的预测,重新住院或死亡。由于失去随访,此类结果通常受到审查。标准的机器学习方法不能直接地应用于具有审查结果的数据集。在本文中,我们提出了Auton-Survival,这是一个开源存储库,用于简化审查的活动时间或生存数据的工具。Auton Survival包括用于生存回归的工具,存在域移位,反事实估计,风险分层的表型,评估以及治疗效果的估计。通过采用大量SEER肿瘤学发病率数据的现实世界案例研究,我们证明了Auton Survival迅速支持数据科学家在回答复杂健康和流行病学问题方面的能力。
translated by 谷歌翻译
生存分析是事实建模的艺术,在临床治疗决策中起着重要作用。最近,已经提出了由神经ODE建立的连续时间模型进行生存分析。然而,由于神经ODE求解器的计算复杂性很高,神经ODE的训练很慢。在这里,我们提出了一种有效的替代方案,用于柔性连续时间模型,称为生存混合物密度网络(生存MDN)。生存MDN适用于混合密度网络(MDN)的输出的可逆阳性功能。尽管MDN产生灵活的实价分布,但可逆正函数将模型映射到时间域,同时保留可拖动密度。使用四个数据集,我们表明生存MDN的性能优于或类似于一致性的连续和离散时间基准,集成的brier得分和集成的二项式对数可能性。同时,生存MDN的速度也比基于ODE的模型和离散模型中规避的分类问题快。
translated by 谷歌翻译
神经网络(深度学习)是人工智能中的现代模型,并且在生存分析中已被利用。尽管以前的作品已经显示出一些改进,但培训出色的深度学习模型需要大量数据,这在实践中可能不存在。为了应对这一挑战,我们开发了一个基于Kullback-Leibler(KL)深度学习程序,以将外部生存预测模型与新收集的活动时间数据整合在一起。时间依赖性的KL歧视信息用于衡量外部数据和内部数据之间的差异。这是考虑使用先前信息来处理深度学习生存分析中的简短数据问题的第一项工作。仿真和实际数据结果表明,与以前的工作相比,所提出的模型可实现更好的性能和更高的鲁棒性。
translated by 谷歌翻译
对世界各地的急诊部门(ED)服务的需求不断增长,特别是在Covid-19大流行下。风险三环在优先考虑最需要它们的患者的有限医疗资源方面发挥着至关重要的作用。最近,普遍使用电子健康记录(EHR)已经产生了大量的存储数据,伴随着开发可改善紧急护理的预测模型的巨大机会。然而,没有基于大型公共EHR的广泛接受的ED基准,这是新的研究人员可以轻松访问的基准。填补这种差距的成功可以使研究人员更快,方便地开始研究,而无需详细数据预处理,并促进不同研究和方法之间的比较。在本文中,基于医疗信息MART为重症监护IV急诊部门(MIMIC-IV-ED)数据库,我们提出了一款公共ED基准套件,并获得了从2011年到2019年的50万ED访问的基准数据集。三个ed已经介绍了基于预测任务(住院,关键结果和72小时ED Revisit),其中实施了各种流行的方法,从机器学习方法到临床评分系统进行了实施。他们的性能结果评估并进行了比较。我们的代码是开源,因此任何具有访问模仿-IV-ED的人都可以遵循相同的数据处理步骤,构建基准,并重现实验。本研究提供了洞察力,建议,以及未来研究人员的协议,以处理原始数据并快速建立紧急护理模型。
translated by 谷歌翻译
可以提前以低虚假警报率预测不良事件的模型对于接受医学界的决策支持系统至关重要。这项具有挑战性的机器学习任务通常仍被视为简单的二进制分类,并提出了一些定制方法来利用样本之间的时间依赖性。我们提出了时间标签平滑(TLS),这是一种新颖的学习策略,可调节平滑强度,这是与感兴趣的事件接近的函数。这种正则化技术降低了在类边界上的模型置信度,在该阶级边界中,信号通常是嘈杂或不信息的,因此训练可以集中在远离该边界区域的临床信息丰富的数据点上。从理论的角度来看,我们还表明,我们的方法可以作为多屈曲预测的扩展,这是在其他早期预测工作中提出的学习启发式词。 TLS从经验上匹配或跑赢大盘,考虑了各种早期预测基准任务的竞争方法。特别是,我们的方法可显着提高与临床相关的指标的性能,例如以低弹药率以较低的事件召回。
translated by 谷歌翻译
在本文中,我们提出了一种使用神经网络的生存分析模型,以及可伸缩优化算法。直接应用最大似然估计(MLE)缩短数据的一个关键技术挑战是评估目标函数及其梯度相对于模型参数需要计算积分。为了解决这一挑战,我们认识到,可以将用于审查数据的MEE视为差分方程约束优化问题,这是一种新颖的视角。在此连接之后,我们通过普通微分方程模拟事件时间的分布,并利用有效的颂歌求解器并伴随敏感性分析来数值评估可能性和梯度。使用这种方法,我们能够1)提供广泛的连续时间存活分布,无需强大的结构假设,2)使用神经网络获得强大的特征表示,3)允许在大规模应用中使用模型估计模型随机梯度下降。通过仿真研究和现实世界数据示例,我们展示了所提出的方法与现有的最先进的深度学习生存分析模型相比的有效性。已在HTTPS://github.com/Jiaqima/soden公开提供拟议的SODEN方法。
translated by 谷歌翻译
Real-time individual endpoint prediction has always been a challenging task but of great clinic utility for both patients and healthcare providers. With 6,879 chronic kidney disease stage 4 (CKD4) patients as a use case, we explored the feasibility and performance of gated recurrent units with decay that models Weibull probability density function (GRU-D-Weibull) as a semi-parametric longitudinal model for real-time individual endpoint prediction. GRU-D-Weibull has a maximum C-index of 0.77 at 4.3 years of follow-up, compared to 0.68 achieved by competing models. The L1-loss of GRU-D-Weibull is ~66% of XGB(AFT), ~60% of MTLR, and ~30% of AFT model at CKD4 index date. The average absolute L1-loss of GRU-D-Weibull is around one year, with a minimum of 40% Parkes serious error after index date. GRU-D-Weibull is not calibrated and significantly underestimates true survival probability. Feature importance tests indicate blood pressure becomes increasingly important during follow-up, while eGFR and blood albumin are less important. Most continuous features have non-linear/parabola impact on predicted survival time, and the results are generally consistent with existing knowledge. GRU-D-Weibull as a semi-parametric temporal model shows advantages in built-in parameterization of missing, native support for asynchronously arrived measurement, capability of output both probability and point estimates at arbitrary time point for arbitrary prediction horizon, improved discrimination and point estimate accuracy after incorporating newly arrived data. Further research on its performance with more comprehensive input features, in-process or post-process calibration are warranted to benefit CKD4 or alike terminally-ill patients.
translated by 谷歌翻译
现实世界中临床干预措施的治疗功效的估计涉及处理诸如死亡时间,重新住院或可能受到检查的复合事件之类的连续结果。在这种情况下,反事实推理需要将混杂的生理特征的影响与正在评估的干预措施的影响中影响基线存活率的影响。在本文中,我们提出了一种潜在变量方法来模拟异质治疗效果,该方法通过提出一个人可以属于具有不同响应特征的潜在簇之一。我们表明,这种潜在结构可以介导基本的生存率,并有助于确定干预的影响。我们证明了我们的方法根据个人对最初进行的多个大型随机临床试验的治疗反应来发现可行的表型的能力,该试验最初是为了评估适当的治疗方法以降低心血管风险。
translated by 谷歌翻译
Predicting the health risks of patients using Electronic Health Records (EHR) has attracted considerable attention in recent years, especially with the development of deep learning techniques. Health risk refers to the probability of the occurrence of a specific health outcome for a specific patient. The predicted risks can be used to support decision-making by healthcare professionals. EHRs are structured patient journey data. Each patient journey contains a chronological set of clinical events, and within each clinical event, there is a set of clinical/medical activities. Due to variations of patient conditions and treatment needs, EHR patient journey data has an inherently high degree of missingness that contains important information affecting relationships among variables, including time. Existing deep learning-based models generate imputed values for missing values when learning the relationships. However, imputed data in EHR patient journey data may distort the clinical meaning of the original EHR patient journey data, resulting in classification bias. This paper proposes a novel end-to-end approach to modeling EHR patient journey data with Integrated Convolutional and Recurrent Neural Networks. Our model can capture both long- and short-term temporal patterns within each patient journey and effectively handle the high degree of missingness in EHR data without any imputation data generation. Extensive experimental results using the proposed model on two real-world datasets demonstrate robust performance as well as superior prediction accuracy compared to existing state-of-the-art imputation-based prediction methods.
translated by 谷歌翻译
最近应用于从密集护理单位收集的时间序列的机器学习方法的成功暴露了缺乏标准化的机器学习基准,用于开发和比较这些方法。虽然原始数据集(例如MIMIC-IV或EICU)可以在物理体上自由访问,但是选择任务和预处理的选择通常是针对每个出版物的ad-hoc,限制出版物的可比性。在这项工作中,我们的目标是通过提供覆盖大型ICU相关任务的基准来改善这种情况。使用HirID数据集,我们定义与临床医生合作开发的多个临床相关任务。此外,我们提供可重复的端到端管道,以构建数据和标签。最后,我们提供了对当前最先进的序列建模方法的深入分析,突出了这种类型数据的深度学习方法的一些限制。通过这款基准,我们希望为研究界提供合理比较的可能性。
translated by 谷歌翻译
针对组织病理学图像数据的临床决策支持主要侧重于强烈监督的注释,这提供了直观的解释性,但受专业表现的束缚。在这里,我们提出了一种可解释的癌症复发预测网络(Ecarenet),并表明没有强注释的端到端学习提供最先进的性能,而可以通过注意机制包括可解释性。在前列腺癌生存预测的用例上,使用14,479个图像和仅复发时间作为注释,我们在验证集中达到0.78的累积动态AUC,与专家病理学家(以及在单独测试中的AUC为0.77放)。我们的模型是良好的校准,输出生存曲线以及每位患者的风险分数和群体。利用多实例学习层的注意重量,我们表明恶性斑块对预测的影响较高,从而提供了对预测的直观解释。我们的代码可在www.github.com/imsb-uke/ecarenet上获得。
translated by 谷歌翻译
由于存在抗抗,因此仅由于例如损失跟踪而仅部分已知的抗抗,因此仅存在抗抗,因此存在于回归建模的具有挑战性。这些问题经常在医疗应用中出现,使生存分析成为医疗保健的生物统计学和机器学习的关键努力,Cox回归模型是最常用的模型。我们描述了一种基于COX回归的学习混合物来模拟各个生存分布的生存分析回归模型的新方法。我们提出了对该模型的预期最大化算法的近似,该算法对混合组进行了艰难的分配,以进行优化效率。在每个组分配中,我们使用深神经网络的每个组内的危险比以及每个混合物组分非参数的基线危害。我们对多个现实世界数据集进行实验,并查看种族和性别患者的死亡率。我们强调了校准在医疗保健环境中的重要性,并证明我们的方法在鉴别性能和校准方面表明了古典和现代生存分析基线,在少数人口统计数据上具有大的收益。
translated by 谷歌翻译