Survival modeling in healthcare relies on explainable statistical models; yet, their underlying assumptions are often simplistic and, thus, unrealistic. Machine learning models can estimate more complex relationships and lead to more accurate predictions, but are non-interpretable. This study shows it is possible to estimate hospitalization for congestive heart failure by a 30 seconds single-lead electrocardiogram signal. Using a machine learning approach not only results in greater predictive power but also provides clinically meaningful interpretations. We train an eXtreme Gradient Boosting accelerated failure time model and exploit SHapley Additive exPlanations values to explain the effect of each feature on predictions. Our model achieved a concordance index of 0.828 and an area under the curve of 0.853 at one year and 0.858 at two years on a held-out test set of 6,573 patients. These results show that a rapid test based on an electrocardiogram could be crucial in targeting and treating high-risk individuals.
translated by 谷歌翻译
背景:几项研究突出了考虑急性冠状动脉综合征(ACS)诊断和治疗性差异的重要性。然而,几乎已经研究了ACS子群中的性别特异性风险标志物。本研究旨在探索机器学习(ML)模型,以识别从电子健康记录(EHR)的公共数据库中的ACS子群体中的妇女和男性的住院死亡率标志。方法:从医疗信息MART中提取1,299名患有的ST升高的心肌梗死(Stemi)和2,820名非St-Expation心肌梗死患者进行重症监护(MIMIC)-III数据库。我们培训和验证了死亡率预测模型,并使用了可解释性技术来识别每个子群体的性别特异性标记。结果:基于极端梯度升压的模型(XGBoost)实现了最高性能:STEMI和AUC = 0.94(95 \%CI:0.80- 0.90)为nstemi。对于STEMI,女性的顶部标记是慢性肾功能衰竭,心率高,年龄超过70岁。对于男性来说,顶部标记是急性肾功能衰竭,高肌钙蛋白T水平,年龄超过75岁。然而,对于NStemi,女性的顶部标记较低,肌钙蛋白水平低,尿素水平高,80多年。对于男性来说,顶部标记是高心率,肌酐水平,年龄超过70岁。结论:我们的结果表明,通过解释ehrs培训的ML死亡率模型,通过解释ML死亡率模型显示不同ACS子群的可能的显着和相干的性别特异性风险标记。在妇女与男性的确定风险标志中观察到差异,突出了考虑性别特异性标记在实施更适当的治疗策略和更好的临床结果方面的重要性。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
简介:在房颤(AF)导管消融过程(CAP)期间记录了12条铅心电图(ECG)。如果没有长时间的随访评估AF复发(AFR),确定CAP是否成功并不容易。因此,AFR风险预测算法可以使CAP患者更好地管理。在这项研究中,我们从CAP前后记录的12铅ECG中提取功能,并训练AFR风险预测机学习模型。方法:从112例患者中提取前和后段段。该分析包括信号质量标准,心率变异性和由12铅ECG设计的形态生物标志物(总体804个功能)。在112名患者中,有43例AFR临床终点可用。这些用于使用前或后CAP特征来评估AFR风险预测的可行性。在嵌套的交叉验证框架内训练了一个随机的森林分类器。结果:发现36个特征在区分手术前和手术后具有统计学意义(n = 112)。对于分类,报告了接收器操作特性(AUROC)曲线下的区域,AUROC_PRE = 0.64,AUROC_POST = 0.74(n = 43)。讨论和结论:此初步分析表明AFR风险预测的可行性。这样的模型可用于改善盖帽管理。
translated by 谷歌翻译
Real-time individual endpoint prediction has always been a challenging task but of great clinic utility for both patients and healthcare providers. With 6,879 chronic kidney disease stage 4 (CKD4) patients as a use case, we explored the feasibility and performance of gated recurrent units with decay that models Weibull probability density function (GRU-D-Weibull) as a semi-parametric longitudinal model for real-time individual endpoint prediction. GRU-D-Weibull has a maximum C-index of 0.77 at 4.3 years of follow-up, compared to 0.68 achieved by competing models. The L1-loss of GRU-D-Weibull is ~66% of XGB(AFT), ~60% of MTLR, and ~30% of AFT model at CKD4 index date. The average absolute L1-loss of GRU-D-Weibull is around one year, with a minimum of 40% Parkes serious error after index date. GRU-D-Weibull is not calibrated and significantly underestimates true survival probability. Feature importance tests indicate blood pressure becomes increasingly important during follow-up, while eGFR and blood albumin are less important. Most continuous features have non-linear/parabola impact on predicted survival time, and the results are generally consistent with existing knowledge. GRU-D-Weibull as a semi-parametric temporal model shows advantages in built-in parameterization of missing, native support for asynchronously arrived measurement, capability of output both probability and point estimates at arbitrary time point for arbitrary prediction horizon, improved discrimination and point estimate accuracy after incorporating newly arrived data. Further research on its performance with more comprehensive input features, in-process or post-process calibration are warranted to benefit CKD4 or alike terminally-ill patients.
translated by 谷歌翻译
可说明的人工智能(XAI)被确定为使用机器学习(ML)模型进行预测时确定功能的重要性的可行方法。在这项研究中,我们创建了将个人健康信息(例如,他们的药物历史和合并症)作为输入的模型,并预测个体将具有急性冠状动脉综合征(ACS)不利结果的可能性。使用Xai,我们量化了特定药物对这些ACS预测的贡献,从而产生了基于XAI的药物检测技术,使用ACS作为检测的不利结果的示例。鉴定了1993年至2009年在1993年至2009年期间提供的65岁以上的人(解剖治疗化学(ATC)级别M)或心血管系统(ATC类C)药物,以及其药物历史,组合和其他关键特征来自联系的西澳大利亚数据集。培训多种ML模型以预测这些个体如果这些个体具有ACS相关的不利结果(即,用于ACS的放电诊断的死亡或住院),并且使用各种ML和XAI技术来计算哪种特征 - 特别是哪种药物 - 导致这些预测。发现ROFecoxib和Celecoxib的药物分配特征对ACS相关的不利结果预测(平均)的贡献大于零效果,并且发现ACS相关的不利结果可以预测72%的准确度。此外,发现Xai库石灰和Shap成功识别重要和不重要的功能,具有略微优于石灰的形状。 ML培训的ML模型与XAI算法串联的连接行政健康数据集可以成功地量化特征重要性,并且随着进一步的开发,可能被用作药物检测技术。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
目的:临床票据含有其他地方未存在的信息,包括药物反应和症状,所有这些都在预测急性护理患者的关键结果时非常重要。我们提出了从临床笔记中的表型作为一种捕获基本信息的方法的自动注释,这与通常使用生命体征和实验室测试结果的互补性,以预测重症监护单元(ICU)中的结果。方法:我们开发一种新颖的表型注释模型,用于注释患者的表型特征,然后用作预测模型的输入特征,以预测ICU患者结果。我们展示并验证了我们的方法对三个ICU预测任务进行实验,包括使用MIMIC-III数据集的医院死亡率,生理失效和超过24,000名患者的逗留时间。结果:掺入表型信息的预测模型实现0.845(AUC-ROC),以预测医院死亡率,0.839(AUC-ROC)的生理失代偿和0.430(Kappa),所有这些都始终胜过基线模型利用只有生命的迹象和实验室测试结果。此外,我们进行了彻底的解释性研究,表明表型在患者和队列水平方面提供了有价值的见解。结论:该方法表明表型信息是传统上使用生命体征和实验室测试结果的补充,改善了ICU中的结果的重要预测。
translated by 谷歌翻译
与经典的统计学习方法相比,机器和深度学习生存模型表现出相似甚至改进事件的预测能力,但太复杂了,无法被人类解释。有几种模型不合时宜的解释可以克服这个问题。但是,没有一个直接解释生存函数预测。在本文中,我们介绍了Survhap(t),这是第一个允许解释生存黑盒模型的解释。它基于Shapley添加性解释,其理论基础稳定,并在机器学习从业人员中广泛采用。拟议的方法旨在增强精确诊断和支持领域的专家做出决策。关于合成和医学数据的实验证实,survhap(t)可以检测具有时间依赖性效果的变量,并且其聚集是对变量对预测的重要性的决定因素,而不是存活。 survhap(t)是模型不可屈服的,可以应用于具有功能输出的所有型号。我们在http://github.com/mi2datalab/survshap中提供了python中时间相关解释的可访问实现。
translated by 谷歌翻译
医学中的机器学习利用了财富的医疗保健数据来提取知识,促进临床决策,最终改善护理。然而,在缺乏人口统计分集的数据集上培训的ML模型可以在适用于不足的人群时产生次优绩效(例如少数民族,社会经济地位较低),因此延续了健康差异。在这项研究中,我们评估了四种型分类,以预测高氯血症 - 一种经常由ICU人口中的侵袭性流体给药的条件 - 并将其在种族,性别和保险亚组中进行比较。我们观察到,除了基于实验室的患者的模型性能之外,还要添加社会决定因素特征。 40个模型 - 亚组中的40分,亚组测试产生了显着不同的AUC分数,提示在将ML模型应用于社会决定簇子组时的差异。我们敦促未来的研究人员设计主动调整潜在偏见的模型,并包括他们研究中的子组报告。
translated by 谷歌翻译
心血管疾病(CVD)是一组心脏和血管疾病,是对人类健康最严重的危险之一,此类患者的数量仍在增长。早期,准确的检测在成功治疗和干预中起着关键作用。心电图(ECG)是识别各种心血管异常的金标准。在临床实践和当前大多数研究中,主要使用标准的12铅ECG。但是,使用较少的铅可以使ECG更加普遍,因为可以通过便携式或可穿戴设备来方便地记录它。在这项研究中,我们开发了一种新颖的深度学习系统,以仅使用三个ECG铅来准确识别多个心血管异常。
translated by 谷歌翻译
为了推动满足所有人需求并使医疗保健民主化的健康创新,有必要评估各种分配转变的深度学习(DL)算法的概括性能,以确保这些算法具有强大的态度。据我们所知,这项回顾性研究是第一个开发和评估从跨种族,年龄和性别的长期跳动间隔的AF事件检测的深度学习模型(DL)模型的概括性能(DL)模型的概括。新的复发DL模型(表示为ARNET2)是在2,147名患者的大型回顾性数据集中开发的,总计51,386小时连续心电图(ECG)。对来自四个中心(美国,以色列,日本和中国)的手动注释测试集评估了模型的概括,总计402名患者。该模型在以色列海法的Rambam医院Holter Clinic的1,730个Consecutives Holter记录中进一步验证了该模型。该模型的表现优于最先进的模型,并且在种族,年龄和性别之间进行了广泛的良好。女性的表现高于男性和年轻人(不到60岁),并且在种族之间显示出一些差异。解释这些变化的主要发现是心房颤动患病率更高(AFL)的群体的性能受损。我们关于跨组的ARNET2相对性能的发现可能对选择相对于感兴趣群的首选AF检查方法具有临床意义。
translated by 谷歌翻译
口服食物挑战(OFC)对于准确诊断患者的食物过敏至关重要。但是,患者不愿接受OFC,对于那些这样做的患者,在农村/社区医疗保健环境中,对过敏症患者的使用率有限。通过机器学习方法对OFC结果的预测可以促进在家中食品过敏原的删除,在OFC中改善患者和医师的舒适度,并通过最大程度地减少执行的OFC的数量来节省医疗资源。临床数据是从共同接受1,284个OFC的1,12例患者那里收集的,包括临床因素,包括血清特异性IgE,总IgE,皮肤刺测试(SPTS),症状,性别和年龄。使用这些临床特征,构建了机器学习模型,以预测花生,鸡蛋和牛奶挑战的结果。每种过敏原的最佳性能模型是使用凹入和凸内核(LUCCK)方法创建的,该方法在曲线(AUC)(AUC)下分别用于花生,鸡蛋和牛奶OFC预测为0.76、0.68和0.70, 。通过Shapley添加说明(SHAP)的模型解释表明,特定的IgE以及SPTS的Wheal和Flare值高度预测了OFC结果。该分析的结果表明,机器学习有可能预测OFC结果,并揭示了相关的临床因素进行进一步研究。
translated by 谷歌翻译
我们提出了一种用合成心电图训练神经网络的方法,其模拟可穿戴单引线心电图监测器产生的模拟信号。我们使用域随机化,其中对于每个训练示例,诸如波形形状,RR间隔和噪声之类的合成信号属性。使用合成数据培训的模型与具有真实数据训练的对应物进行比较。在不同物理活性和心房颤动期间记录的心电图中的R波检测用于比较模型。通过允许随机化超出现实数据中通常观察到的内容,性能是对具有实际数据训练的网络的性能的par或取代。实验表明,在不同的测试集上具有不同的种子和训练示例,而无需任何测试设定特定调谐。该方法可以使用实际上自由收集数据与准确的标签一起培训神经网络,无需手动注释,并且当使用疾病使用疾病特定的先验信息时,它会开辟了在心脏病分类上延长使用的合成数据的可能性在心电图一代。另外,可以控制数据的分布消除通常在健康相关数据中观察到的类别不平衡,并且另外,生成的数据本质上是私有的。
translated by 谷歌翻译
围绕深度学习算法的长期挑战是解开和了解它们如何做出决定。可解释的人工智能(XAI)提供了方法,以解释算法的内部功能及其决策背后的原因,这些方式以人类用户的解释和可理解的方式提供了解释。 。到目前为止,已经开发了许多XAI方法,并且对这些策略进行比较分析似乎是为了辨别它们与临床预测模型的相关性。为此,我们首先实施了两个使用结构化表格和时间序列生理数据的创伤性脑损伤(TBI)(TBI)的预测模型。使用六种不同的解释技术来描述本地和全球水平的预测模型。然后,我们对每种策略的优点和缺点进行了批判性分析,突出了对使用这些方法感兴趣的研究人员的影响。根据几种XAI特征,例如可理解性,忠诚度和稳定性,将实施的方法相互比较。我们的发现表明,Shap是最稳定的,其保真度最高,但缺乏可理解性。另一方面,锚是最可理解的方法,但仅适用于表格数据而不是时间序列数据。
translated by 谷歌翻译
睡眠呼吸暂停(SA)是一种睡眠障碍,其特征是打s和慢性睡眠,这可能导致严重的疾病,例如高血压,心力衰竭和心肌病(心脏肌肉组织的增大)。心电图(ECG)在识别SA中起着至关重要的作用,因为它可能显示出异常的心脏活性。对基于ECG的SA检测的最新研究集中在功能工程技术上,这些技术从多铅ECG信号中提取特定特征,并将其用作分类模型输入。在这项研究中,提出了一种基于S峰检测的新型特征提取方法,以增强使用单铅ECG对相邻SA段的检测。特别是,使用单个铅(V2)收集的ECG特征用于识别SA发作。在提取的功能上,对CNN模型进行了训练以检测SA。实验结果表明,所提出的方法从单铅ECG数据中检测到SA比现有的最新方法更准确,具有91.13%的分类精度,敏感性为92.58%和88.75%的特异性。此外,与S峰相关的特征的进一步使用可以提高分类准确性0.85%。我们的发现表明,提出的机器学习系统有可能成为检测SA发作的有效方法。
translated by 谷歌翻译
心血管疾病是一个大的全球医疗保健问题;症状通常突然存在,最小的警告。心电图(ECG)是一种快速,简单可靠,通过测量通过皮肤上的电极记录的电极来评估心脏健康的方法。 ECG经常需要通过心脏病专家分析,花时间可以花在改善患者护理和结果上。因此,已经提出了使用机器学习的自动ECG分类系统,可以学习ECG功能之间的复杂交互,并使用它来检测异常。然而,为此目的构建的算法经常无法概括到解开数据,报告最初令人印象深刻的结果,在应用于新环境时急剧下降。此外,机器学习算法遭受“黑匣子”问题,其中难以确定如何做出决定。这对医疗保健的应用至关重要,因为临床医生需要能够验证评估过程以信任算法。本文提出了一种用于在MIT-BIH心律失常数据集中的每个类中可视化模型决策的方法,使用完整类的平均调整显着图来确定正在学习的模式。我们通过基于最先进的模型构建两种算法来实现这一点。本文突出了这些地图如何用于在模型中找到可能影响概括性和模型性能的模型中的问题。比较完整类的显着性图给出了模型中混淆变量或其他偏差的总体印象,而不同于在ECG-By-ECG基础上比较显着图时会突出显示的内容。
translated by 谷歌翻译
电子健康记录(EHR)系统以高频提供批判性,丰富和有价值的信息。EHR数据中最激动人心的应用之一正在开发具有来自生存分析的工具的实时死亡率警告系统。然而,最近使用的大多数生存分析方法基于使用静态协变量的(半)参数模型。这些模型不会利用时变EHR数据传达的信息。在这项工作中,我们展示了一种高度可扩展的生存分析方法,Boxhed 2.0基于模拟IV数据集的实时ICU死亡警告指示。重要的是,Boxhed可以以完全非参数的方式结合时间依赖的协变量,并通过理论来支持。我们的ICU死亡率模型实现了0.41和AUC-ROC的AUC-PRC为0.83的样品,展示了实时监测的好处。
translated by 谷歌翻译
背景:基于AI的足够大型,精心策划的医疗数据集的分析已被证明有望提供早期检测,更快的诊断,更好的决策和更有效的治疗方法。但是,从多种来源获得的如此高度机密且非常敏感的医疗数据通常受到高度限制,因为不当使用,不安全的存储,数据泄漏或滥用可能侵犯了一个人的隐私。在这项工作中,我们将联合学习范式应用于异质的,孤立的高清心电图集,该图从12铅的ECG传感器阵列到达来训练AI模型。与在中心位置收集相同的数据时,我们评估了所得模型的能力,与经过训练的最新模型相比,获得了等效性能。方法:我们提出了一种基于联合学习范式训练AI模型的隐私方法,以培训AI模型,以实现异质,分布式,数据集。该方法应用于基于梯度增强,卷积神经网络和具有长期短期记忆的复发神经网络的广泛机器学习技术。这些模型在一个心电图数据集上进行了培训,该数据集包含从六名地理分开和异质来源的43,059名患者收集的12个铅录音。研究结果:用于检测心血管异常的AI模型的结果集获得了与使用集中学习方法训练的模型相当的预测性能。解释:计算参数的方法在本地为全局模型做出了贡献,然后仅交换此类参数,而不是ML中的整个敏感数据,这有助于保留医疗数据隐私。
translated by 谷歌翻译
目的:Shapley添加说明(SHAP)是一种流行的事后技术,用于解释黑匣子模型。尽管已经对数据不平衡对预测模型的影响进行了广泛的研究,但在基于Shap的模型解释方面,它在很大程度上仍然未知。这项研究试图研究数据不平衡对深度学习模型的Shap解释的影响,并提出一种减轻这些影响的策略。材料和方法:我们建议在解释黑匣子模型时在背景中调整类别的类别,并在形状中进行解释数据。我们的数据平衡策略是构成背景数据和解释数据,同等分布。为了评估数据调整对模型解释的影响,我们建议将Beeswarm图用作定性工具,以识别“异常”解释伪像,并定量测试可变重要性和预测能力之间的一致性。我们在一项实证研究中证明了我们提出的方法,该研究使用医学信息MART(MIMIC-III)数据预测住院死亡率和多层概念。结果:使用数据平衡策略将使我们能够减少蜜蜂图图中的工件数量,从而减轻数据不平衡的负面影响。此外,通过平衡策略,来自相应重要性排名的顶级变量表明歧视能力得到了改善。讨论和结论:我们的发现表明,平衡的背景和解释数据可以帮助减少偏斜的数据分布引起的解释结果中的噪声,并提高可变重要性排名的可靠性。此外,这些平衡程序提高了在临床应用中识别出异常特征的患者方面的可能性。
translated by 谷歌翻译