30天的医院再入院是一个长期存在的医疗问题,会影响患者的发病率和死亡率,每年造成数十亿美元的损失。最近,已经创建了机器学习模型来预测特定疾病患者的住院再入院风险,但是不存在任何模型来预测所有患者的风险。我们开发了一个双向长期记忆(LSTM)网络,该网络能够使用随时可用的保险数据(住院访问,门诊就诊和药物处方)来预测任何入院患者的30天重新入选,无论其原因如何。使用历史,住院和入院后数据时,表现最佳模型的ROC AUC为0.763(0.011)。 LSTM模型显着优于基线随机森林分类器,表明了解事件的顺序对于模型预测很重要。与仅住院数据相比,与住院数据相比,将30天的历史数据纳入也显着改善了模型性能,这表明患者入院前的临床病史,包括门诊就诊和药房数据是重新入院的重要贡献者。我们的结果表明,机器学习模型能够使用结构化保险计费数据以合理的准确性来预测住院再入院的风险。由于可以从网站中提取计费数据或同等代理人,因此可以部署此类模型以识别有入院风险的患者,或者分配更多可靠的随访(更近的后续后续,家庭健康,邮寄药物) - 出院后风险患者。
translated by 谷歌翻译
传统机器学习方法面临两种主要挑战,在处理医疗保健预测分析任务方面。首先,医疗保健数据的高维性质需要劳动密集型和耗时的过程,为每项新任务选择适当的功能集。其次,这些方法依赖于特征工程来捕获患者数据的顺序性,这可能无法充分利用医疗事件的时间模式及其依赖性。最近的深度学习方法通​​过解决医疗数据的高维和时间挑战,对各种医疗保健预测任务显示了有希望的性能。这些方法可以学习关键因素(例如,医学概念或患者)的有用表示及其与高维原始或最低处理的医疗保健数据的相互作用。在本文中,我们系统地审查了专注于推进和使用深神经网络的研究,以利用患者结构化时间序列数据进行医疗保健预测任务。为了识别相关研究,搜索MEDLINE,IEEE,SCOPUS和ACM数字图书馆于2021年2月7日出版的研究。我们发现研究人员在十个研究流中为深度时间序列预测文献做出了贡献:深入学习模型,缺少价值处理,不规则处理,患者表示,静态数据包容,关注机制,解释,纳入医疗本体,学习策略和可扩展性。本研究总结了这些文献流的研究见解,确定了几个关键研究差距,并提出了未来的患者时间序列数据深入学习的研究机会。
translated by 谷歌翻译
慢性肾脏疾病(CKD)代表一种缓慢进行的疾病,最终可能需要肾脏替代疗法(RRT),包括透析或肾移植。例如,对需要RRT的患者(提前1年)的早期鉴定可以改善患者的预后,例如,通过允许更高质量的透析血管通道。因此,护理团队对RRT的需求的早期认识是成功管理该疾病的关键。不幸的是,目前没有常用的RRT启动预测工具。在这项工作中,我们提出了一种机器学习模型,该模型可以动态地识别有可能需要RRT的CKD患者,最多只使用索赔数据。为了评估该模型,我们研究了大约300万Medicare受益人,我们做出了超过800万个预测。我们表明该模型可以识别出超过90%敏感性和特异性的风险患者。尽管在准备临床使用之前需要进行其他工作,但本研究为筛查工具提供了一个基础,以在时间窗口内识别有风险的患者,以实现旨在改善RRT结果的早期主动干预措施。
translated by 谷歌翻译
电子健康记录(EHRS)在患者级别汇总了多种信息,并保留了整个时间内患者健康状况进化的轨迹代表。尽管此信息提供了背景,并且可以由医生利用以监控患者的健康并进行更准确的预后/诊断,但患者记录可以包含长期跨度的信息,这些信息与快速生成的医疗数据速率相结合,使临床决策变得更加复杂。患者轨迹建模可以通过以可扩展的方式探索现有信息来帮助,并可以通过促进预防医学实践来增强医疗保健质量。我们为建模患者轨迹提出了一种解决方案,该解决方案结合了不同类型的信息并考虑了临床数据的时间方面。该解决方案利用了两种不同的架构:一组支持灵活的输入功能集,以将患者的录取转换为密集的表示;以及在基于复发的架构中进行的第二次探索提取的入院表示,其中使用滑动窗口机制在子序列中处理患者轨迹。使用公开可用的模仿III临床数据库评估了开发的解决方案,以两种不同的临床结果,意外的患者再入院和疾病进展。获得的结果证明了第一个体系结构使用单个患者入院进行建模和诊断预测的潜力。虽然临床文本中的信息并未显示在其他现有作品中观察到的判别能力,但这可以通过微调临床模型来解释。最后,我们使用滑动窗口机制来表示基于序列的体系结构的潜力,以表示输入数据,从而获得与其他现有解决方案的可比性能。
translated by 谷歌翻译
症状检查已成为收集症状和诊断患者的重要工具,最大限度地减少临床人员的参与。我们开发了一种机器学习支持的系统,智能曲线,超越传统症状,通过与电子医疗记录(EMR)紧密的双向集成。在EMR衍生的患者历史上,我们的系统将患者的首席投诉识别自由文本条目,然后询问一系列离散问题以获得相关的症状学。患者特定数据用于预测详细的ICD-10-CM代码以及药物,实验室和成像订单。然后将患者的反应和临床决策支持(CDS)预测插入EMR。要培训机器学习组件的智能路程,我们使用了超过2500万级初级保健遭遇的新型数据集和100万患者的自由文本原因的参赛作品。这些数据集用于构建:(1)基于长的短期存储器(LSTM)的患者历史表示,(2)用于首发投诉提取的微调变压器模型,(3)一个用于问题测序的随机林模型, (4)用于CDS预测的前馈网络。我们的系统总共支持337名患者的首席投诉,该投诉共同组成了Kaiser Permanente的所有初级保健费用。
translated by 谷歌翻译
Tuberculosis (TB), an infectious bacterial disease, is a significant cause of death, especially in low-income countries, with an estimated ten million new cases reported globally in $2020$. While TB is treatable, non-adherence to the medication regimen is a significant cause of morbidity and mortality. Thus, proactively identifying patients at risk of dropping off their medication regimen enables corrective measures to mitigate adverse outcomes. Using a proxy measure of extreme non-adherence and a dataset of nearly $700,000$ patients from four states in India, we formulate and solve the machine learning (ML) problem of early prediction of non-adherence based on a custom rank-based metric. We train ML models and evaluate against baselines, achieving a $\sim 100\%$ lift over rule-based baselines and $\sim 214\%$ over a random classifier, taking into account country-wide large-scale future deployment. We deal with various issues in the process, including data quality, high-cardinality categorical data, low target prevalence, distribution shift, variation across cohorts, algorithmic fairness, and the need for robustness and explainability. Our findings indicate that risk stratification of non-adherent patients is a viable, deployable-at-scale ML solution.
translated by 谷歌翻译
医院住宿时间(LOS)是最重要的医疗保健度量之一,反映了医院的服务质量,有助于改善医院调度和管理。LOS预测有助于成本管理,因为留在医院的患者通常在资源受到严重限制的情况下这样做。在这项研究中,我们通过机器学习和统计方法审查了LOS预测的论文。我们的文献综述考虑了对卒中患者LOS预测的研究研究。一些受访的研究表明,作者达成了相应的结论。例如,患者的年龄被认为是一些研究中卒中患者LOS的重要预测因子,而其他研究则认为年龄不是一个重要因素。因此,在该领域需要额外的研究以进一步了解卒中患者LOS的预测因子。
translated by 谷歌翻译
抗微生物抗性(AMR)是患者的风险和医疗保健系统的负担。但是,AMR测定通常需要几天。本研究为基于易于使用的临床和微生物预测因子,包括患者人口统计,医院住宿数据,诊断,临床特征以及微生物/抗微生物特征,以及仅使用微生物/抗微生物特征将这些模型与微生物/抗微生物特性进行基于幼稚抗体模型的模型的预测模型。在培养之前准确地预测阻力的能力可以向临床决策提供通知临床决策并缩短行动时间。这里采用的机器学习算法显示出改进的分类性能(接收器操作特性曲线0.88-0.89的区域)与使用飞利浦EICU研究所的6个生物和10个抗生素的接收器操作特征曲线0.86下的接收器下的面积为0.88-0.89)(ERI )数据库。该方法可以帮助指导抗菌治疗,目的是改善患者结果并减少不必要或无效抗生素的使用。
translated by 谷歌翻译
入院后护理管理协调患者的转诊,以改善从医院出院,尤其是老年人和长期患者。在护理管理环境中,健康转诊是由托管护理组织(MCO)的专业部门处理的,该部门与许多其他实体进行互动,包括住院医院,保险公司和入院后护理提供者。在本文中,提出了一个机器学习引导的离散事件仿真框架,以改善健康推荐处理。开发了基于随机福雷林的预测模型来预测LOS和推荐类型。构建了两个仿真模型,以代表转介处理系统和智能系统的AS配置,分别合并了预测功能。通过将推荐处理系统的预测模块合并以计划和优先级推荐,在减少平均转介创建延迟时间方面增强了整体性能。这项研究将强调放电后护理管理在改善健康质量和降低相关成本方面的作用。此外,本文演示了如何使用集成系统工程方法来改进复杂的医疗系统的过程。
translated by 谷歌翻译
Electronic Health Records (EHRs) hold detailed longitudinal information about each patient's health status and general clinical history, a large portion of which is stored within the unstructured text. Temporal modelling of this medical history, which considers the sequence of events, can be used to forecast and simulate future events, estimate risk, suggest alternative diagnoses or forecast complications. While most prediction approaches use mainly structured data or a subset of single-domain forecasts and outcomes, we processed the entire free-text portion of EHRs for longitudinal modelling. We present Foresight, a novel GPT3-based pipeline that uses NER+L tools (i.e. MedCAT) to convert document text into structured, coded concepts, followed by providing probabilistic forecasts for future medical events such as disorders, medications, symptoms and interventions. Since large portions of EHR data are in text form, such an approach benefits from a granular and detailed view of a patient while introducing modest additional noise. On tests in two large UK hospitals (King's College Hospital, South London and Maudsley) and the US MIMIC-III dataset precision@10 of 0.80, 0.81 and 0.91 was achieved for forecasting the next biomedical concept. Foresight was also validated on 34 synthetic patient timelines by 5 clinicians and achieved relevancy of 97% for the top forecasted candidate disorder. Foresight can be easily trained and deployed locally as it only requires free-text data (as a minimum). As a generative model, it can simulate follow-on disorders, medications and interventions for as many steps as required. Foresight is a general-purpose model for biomedical concept modelling that can be used for real-world risk estimation, virtual trials and clinical research to study the progression of diseases, simulate interventions and counterfactuals, and for educational purposes.
translated by 谷歌翻译
本文研究了医学领域的概念与患者表示的问题。我们将电子健康记录(EHRS)的患者历史作为ICD概念的时间序列,其中嵌入在一个无监督的设置中学习了一种基于变压器的神经网络模型。在6年内对百万患者历史的收集进行了模型培训。与几种基线方法相比,评估这种模型的预测力。与类似系统相比,对模拟-III数据的一系列实验显示了所呈现模型的优势。此外,我们分析了对概念关系的获得空间,并展示了医学领域的知识如何成功转移到患者嵌入形式的保险评分的实际任务。
translated by 谷歌翻译
COVID-19的大流行造成了毁灭性的经济和社会破坏,使全球医疗机构的资源紧张。这导致全国范围内呼吁模型预测Covid-19患者的住院和严重疾病,以告知有限医疗资源的分配。我们回应针对儿科人群的其中一种。为了应对这一挑战,我们使用电子健康记录研究了针对儿科人群的两项预测任务:1)预测哪些儿童更有可能住院,而2)在住院儿童中,哪些孩子更有可能出现严重的症状。我们通过新颖的机器学习模型MEDML应对国家儿科Covid-19数据挑战。 MEDML根据超过600万个医学概念的医学知识和倾向得分提取了最预测的特征,并通过图神经网络(GNN)结合了异质医学特征之间的功能间关系。我们使用来自国家队列协作(N3C)数据集的数据评估了143,605名患者的MEDML,并在143,605名患者的住院预测任务中评估了严重性预测任务的11,465名患者。我们还报告了详细的小组级和个人级特征的重要性分析,以评估模型的解释性。与最佳的基线机器学习模型相比,MEDML的AUROC得分高达7%,AUPRC得分高达14%,并且自大流行以来的所有九个国家地理区域以及所有三个月的跨度都表现良好。我们的跨学科研究团队开发了一种将临床领域知识纳入新型机器学习模型的框架的方法,该框架比当前最新的数据驱动的功能选择方法更具预测性和可解释。
translated by 谷歌翻译
Importance: The prevalence of severe mental illnesses (SMIs) in the United States is approximately 3% of the whole population. The ability to conduct risk screening of SMIs at large scale could inform early prevention and treatment. Objective: A scalable machine learning based tool was developed to conduct population-level risk screening for SMIs, including schizophrenia, schizoaffective disorders, psychosis, and bipolar disorders,using 1) healthcare insurance claims and 2) electronic health records (EHRs). Design, setting and participants: Data from beneficiaries from a nationwide commercial healthcare insurer with 77.4 million members and data from patients from EHRs from eight academic hospitals based in the U.S. were used. First, the predictive models were constructed and tested using data in case-control cohorts from insurance claims or EHR data. Second, performance of the predictive models across data sources were analyzed. Third, as an illustrative application, the models were further trained to predict risks of SMIs among 18-year old young adults and individuals with substance associated conditions. Main outcomes and measures: Machine learning-based predictive models for SMIs in the general population were built based on insurance claims and EHR.
translated by 谷歌翻译
Associazione Medici Diabetologi(AMD)收集并管理着全球最大的糖尿病患者记录集合之一,也称为AMD数据库。本文介绍了一个正在进行的项目的初步结果,该项目的重点是人工智能和机器学习技术的应用,以概念化,清洁和分析如此重要且有价值的数据集,目的是提供预测性见解,以更好地支持糖尿病学家的诊断糖尿病学家和治疗选择。
translated by 谷歌翻译
大型和深度电子医疗保健记录(EHR)数据集的可用性有可能更好地了解现实世界中的患者旅行,并鉴定出新的患者亚组。基于ML的EHR数据集合主要是工具驱动的,即基于可用或新开发的方法的构建。但是,这些方法,它们的输入要求以及最重要的是,通常难以解释产量,尤其是没有深入的数据科学或统计培训。这危害了需要进行可行且具有临床意义的解释的最后一步。这项研究研究了使用大型EHR数据集和多种聚类方法进行临床研究的方法进行大规模进行患者分层分析的方法。我们已经开发了几种工具来促进无监督的患者分层结果的临床评估和解释,即模式筛查,元聚类,替代建模和策展。这些工具可以在分析中的不同阶段使用。与标准分析方法相比,我们证明了凝结结果并优化分析时间的能力。在元聚类的情况下,我们证明了患者簇的数量可以从72减少到3。在另一个分层的结果中,通过使用替代模型,我们可以迅速确定如果有血液钠测量值可用,则可以对心力衰竭患者进行分层。由于这是对所有心力衰竭患者进行的常规测量,因此表明数据偏差。通过使用进一步的队列和特征策展,可以去除这些患者和其他无关的特征以提高临床意义。这些示例显示了拟议方法的有效性,我们希望鼓励在该领域的进一步研究。
translated by 谷歌翻译
电子医疗保健记录是可用于患者分层的重要信息来源,以探索新型疾病表型。但是,它们可能具有挑战性,因为数据往往稀疏和不规则地采样。解决这些限制的一种方法是学习密集的嵌入,其代表使用经常性神经网络AutoEncoder(RNN-AE)的单个患者轨迹。该过程可以易于对不需要的数据偏差影响。我们表明,使用先前提出的RNN-AE模型的患者嵌入和群集可能受到轨迹偏差的影响,这意味着结果由每个患者轨迹中包含的数据量主导,而不是临床相关细节。我们调查了2个数据集(来自不同医院)和2个疾病区域的偏差,以及使用患者轨迹的不同部分。我们使用2个以前公布的基线方法的结果表示事件到最终轨迹的情况下特别强烈的偏见。我们提出了一种方法,可以使用RNN-AE顶部的对抗培训方案来克服这个问题。我们的研究结果表明,我们的方法可以减少所有情况下的轨迹偏差。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
医学中的机器学习利用了财富的医疗保健数据来提取知识,促进临床决策,最终改善护理。然而,在缺乏人口统计分集的数据集上培训的ML模型可以在适用于不足的人群时产生次优绩效(例如少数民族,社会经济地位较低),因此延续了健康差异。在这项研究中,我们评估了四种型分类,以预测高氯血症 - 一种经常由ICU人口中的侵袭性流体给药的条件 - 并将其在种族,性别和保险亚组中进行比较。我们观察到,除了基于实验室的患者的模型性能之外,还要添加社会决定因素特征。 40个模型 - 亚组中的40分,亚组测试产生了显着不同的AUC分数,提示在将ML模型应用于社会决定簇子组时的差异。我们敦促未来的研究人员设计主动调整潜在偏见的模型,并包括他们研究中的子组报告。
translated by 谷歌翻译
目的:提高地理访问仍然是确定卫生政策设计中区域医疗资源充足的关键问题。然而,患者的选择可以是各种因素的复杂交互的结果。本研究的目的是提出深度神经网络方法来模拟患者选择在旅行距离中的复杂决定,以获取护理,这是分配资源的决策制定的重要指标。方法:我们使用了台湾的4年全国保险数据,并积累了早期文献中讨论的可能特征。本研究提出使用卷积神经网络(CNN)基于框架来进行预测。模型性能对其他机器学习方法进行了测试。使用集成梯度(IG)进一步解释了所提出的框架来分析特征权重。结果:我们成功地证明了使用基于CNN的框架来预测患者的旅行距离的有效性,实现0.968,AUC的精度,0.969,敏感性为0.960,比0.989的特异性。基于CNN的框架优于所有其他方法。在这项研究中,IG重量可能是可解释的;然而,这种关系与公共卫生中的已知指标不相似,类似于普通共识。结论:我们的结果表明了基于深度学习的旅行距离预测模型的可行性。它有可能在资源分配中指导政策制定。
translated by 谷歌翻译
口服食物挑战(OFC)对于准确诊断患者的食物过敏至关重要。但是,患者不愿接受OFC,对于那些这样做的患者,在农村/社区医疗保健环境中,对过敏症患者的使用率有限。通过机器学习方法对OFC结果的预测可以促进在家中食品过敏原的删除,在OFC中改善患者和医师的舒适度,并通过最大程度地减少执行的OFC的数量来节省医疗资源。临床数据是从共同接受1,284个OFC的1,12例患者那里收集的,包括临床因素,包括血清特异性IgE,总IgE,皮肤刺测试(SPTS),症状,性别和年龄。使用这些临床特征,构建了机器学习模型,以预测花生,鸡蛋和牛奶挑战的结果。每种过敏原的最佳性能模型是使用凹入和凸内核(LUCCK)方法创建的,该方法在曲线(AUC)(AUC)下分别用于花生,鸡蛋和牛奶OFC预测为0.76、0.68和0.70, 。通过Shapley添加说明(SHAP)的模型解释表明,特定的IgE以及SPTS的Wheal和Flare值高度预测了OFC结果。该分析的结果表明,机器学习有可能预测OFC结果,并揭示了相关的临床因素进行进一步研究。
translated by 谷歌翻译