越来越多的研究致力于将机器学习方法应用于电子健康记录(EHR)数据,以完成各种临床任务。这一不断增长的研究领域暴露了所有人EHR数据集可访问性的局限性,以及不同建模框架的可重复性。这些局限性的原因之一是缺乏标准化的预处理管道。模仿是一种以许多研究中使用的原始格式免费获得的EHR数据集。缺乏标准化的预处理步骤是对数据集更广泛采用的重大障碍。它还导致在下游任务中使用不同的队列,从而限制了在类似研究中比较结果的能力。对比研究还使用各种不同的性能指标,可以大大降低比较模型结果的能力。在这项工作中,我们提供了一条端到端完全可定制的管道,以提取,清洁和预处理数据;并预测和评估ICU和非ICU相关临床时间序列预测任务的模拟数据集(MIMIC-IV)的第四版。该工具可在https://github.com/healthylaife/mimic-imic-iv-data-pipeline上公开获得。
translated by 谷歌翻译
最近应用于从密集护理单位收集的时间序列的机器学习方法的成功暴露了缺乏标准化的机器学习基准,用于开发和比较这些方法。虽然原始数据集(例如MIMIC-IV或EICU)可以在物理体上自由访问,但是选择任务和预处理的选择通常是针对每个出版物的ad-hoc,限制出版物的可比性。在这项工作中,我们的目标是通过提供覆盖大型ICU相关任务的基准来改善这种情况。使用HirID数据集,我们定义与临床医生合作开发的多个临床相关任务。此外,我们提供可重复的端到端管道,以构建数据和标签。最后,我们提供了对当前最先进的序列建模方法的深入分析,突出了这种类型数据的深度学习方法的一些限制。通过这款基准,我们希望为研究界提供合理比较的可能性。
translated by 谷歌翻译
传统机器学习方法面临两种主要挑战,在处理医疗保健预测分析任务方面。首先,医疗保健数据的高维性质需要劳动密集型和耗时的过程,为每项新任务选择适当的功能集。其次,这些方法依赖于特征工程来捕获患者数据的顺序性,这可能无法充分利用医疗事件的时间模式及其依赖性。最近的深度学习方法通​​过解决医疗数据的高维和时间挑战,对各种医疗保健预测任务显示了有希望的性能。这些方法可以学习关键因素(例如,医学概念或患者)的有用表示及其与高维原始或最低处理的医疗保健数据的相互作用。在本文中,我们系统地审查了专注于推进和使用深神经网络的研究,以利用患者结构化时间序列数据进行医疗保健预测任务。为了识别相关研究,搜索MEDLINE,IEEE,SCOPUS和ACM数字图书馆于2021年2月7日出版的研究。我们发现研究人员在十个研究流中为深度时间序列预测文献做出了贡献:深入学习模型,缺少价值处理,不规则处理,患者表示,静态数据包容,关注机制,解释,纳入医疗本体,学习策略和可扩展性。本研究总结了这些文献流的研究见解,确定了几个关键研究差距,并提出了未来的患者时间序列数据深入学习的研究机会。
translated by 谷歌翻译
对世界各地的急诊部门(ED)服务的需求不断增长,特别是在Covid-19大流行下。风险三环在优先考虑最需要它们的患者的有限医疗资源方面发挥着至关重要的作用。最近,普遍使用电子健康记录(EHR)已经产生了大量的存储数据,伴随着开发可改善紧急护理的预测模型的巨大机会。然而,没有基于大型公共EHR的广泛接受的ED基准,这是新的研究人员可以轻松访问的基准。填补这种差距的成功可以使研究人员更快,方便地开始研究,而无需详细数据预处理,并促进不同研究和方法之间的比较。在本文中,基于医疗信息MART为重症监护IV急诊部门(MIMIC-IV-ED)数据库,我们提出了一款公共ED基准套件,并获得了从2011年到2019年的50万ED访问的基准数据集。三个ed已经介绍了基于预测任务(住院,关键结果和72小时ED Revisit),其中实施了各种流行的方法,从机器学习方法到临床评分系统进行了实施。他们的性能结果评估并进行了比较。我们的代码是开源,因此任何具有访问模仿-IV-ED的人都可以遵循相同的数据处理步骤,构建基准,并重现实验。本研究提供了洞察力,建议,以及未来研究人员的协议,以处理原始数据并快速建立紧急护理模型。
translated by 谷歌翻译
COVID-19大流行对全球医疗保健系统造成了沉重的负担,并造成了巨大的社会破坏和经济损失。已经提出了许多深度学习模型来执行临床预测任务,例如使用电子健康记录(EHR)数据在重症监护病房中为Covid-19患者的死亡率预测。尽管在某些临床应用中取得了最初的成功,但目前缺乏基准测试结果来获得公平的比较,因此我们可以选择最佳模型以供临床使用。此外,传统预测任务的制定与重症监护现实世界的临床实践之间存在差异。为了填补这些空白,我们提出了两项​​临床预测任务,特定于结局的预测和重症监护病房中的COVID-19患者的早期死亡率预测。这两个任务是根据幼稚的停车时间和死亡率预测任务的改编,以适应COVID-19患者的临床实践。我们提出了公平,详细的开源数据预处管道,并评估了两项任务的17个最先进的预测模型,包括5个机器学习模型,6种基本的深度学习模型和6种专门为EHR设计的深度学习预测模型数据。我们使用来自两个现实世界Covid-19 EHR数据集的数据提供基准测试结果。这两个数据集都可以公开可用,而无需任何查询,并且可以根据要求访问一个数据集。我们为两项任务提供公平,可重复的基准测试结果。我们在在线平台上部署所有实验结果和模型。我们还允许临床医生和研究人员将其数据上传到平台上,并使用训练有素的模型快速获得预测结果。我们希望我们的努力能够进一步促进Covid-19预测建模的深度学习和机器学习研究。
translated by 谷歌翻译
人工智能(AI)系统在接下来的几十年中有很大的希望可以改善医疗保健。具体而言,利用多个数据源和输入模式的AI系统有望成为一种可行的方法,可以在广泛的应用程序中提供更准确的结果和可部署的管道。在这项工作中,我们提出并评估一个统一的医学中的整体AI(HAIM)框架,以促进利用多模式输入的AI系统的生成和测试。我们的方法使用可通用的数据预处理和机器学习建模阶段,可以很容易地适应医疗保健环境中的研究和部署。我们通过训练和表征基于MIMIC-IV-MM的14,324个独立模型来评估我们的HAIM框架,该模型是一种多模式临床数据库(n = 34,537个样本),其中包含7,279个独特的住院和6,485名患者,涵盖了4个数据模态的所有可能输入组合(即,所有可能的输入组合)表格,时间序列,文本和图像),11个独特的数据源和12个预测任务。我们表明,该框架可以始终如一地生产出在各种医疗保健示范中超过相似的单源方法的模型(乘以6-33%),包括10种不同的胸部病理学诊断,以及休息时间和48小时的死亡率预测。我们还使用Shapley值量化了每种模式和数据源的贡献,这证明了数据类型重要性的异质性以及在不同医疗保健相关的任务中多模式输入的必要性。我们的整体医学AI(HAIM)框架的可推广性能和灵活性可以为未来的临床和运营医疗环境中的多模式预测系统提供有希望的途径。
translated by 谷歌翻译
尽管电子保健记录(EHR)丰富,但其异质性限制了医疗数据在构建预测模型中的利用。为了应对这一挑战,我们提出了通用医疗预测框架(UNIHPF),该框架不需要医疗领域知识和对多个预测任务的最小预处理。实验结果表明,UNIHPF能够构建可以从不同EHR系统处理任何形式的医疗数据的大规模EHR模型。我们的框架在多源学习任务(包括转移和汇总学习)中大大优于基线模型,同时在单个医疗数据集中接受培训时也会显示出可比的结果。为了凭经验证明我们工作的功效,我们使用各种数据集,模型结构和任务进行了广泛的实验。我们认为,我们的发现可以为对EHR的多源学习提供进一步研究提供有益的见解。
translated by 谷歌翻译
电子健康记录(EHRS)在患者级别汇总了多种信息,并保留了整个时间内患者健康状况进化的轨迹代表。尽管此信息提供了背景,并且可以由医生利用以监控患者的健康并进行更准确的预后/诊断,但患者记录可以包含长期跨度的信息,这些信息与快速生成的医疗数据速率相结合,使临床决策变得更加复杂。患者轨迹建模可以通过以可扩展的方式探索现有信息来帮助,并可以通过促进预防医学实践来增强医疗保健质量。我们为建模患者轨迹提出了一种解决方案,该解决方案结合了不同类型的信息并考虑了临床数据的时间方面。该解决方案利用了两种不同的架构:一组支持灵活的输入功能集,以将患者的录取转换为密集的表示;以及在基于复发的架构中进行的第二次探索提取的入院表示,其中使用滑动窗口机制在子序列中处理患者轨迹。使用公开可用的模仿III临床数据库评估了开发的解决方案,以两种不同的临床结果,意外的患者再入院和疾病进展。获得的结果证明了第一个体系结构使用单个患者入院进行建模和诊断预测的潜力。虽然临床文本中的信息并未显示在其他现有作品中观察到的判别能力,但这可以通过微调临床模型来解释。最后,我们使用滑动窗口机制来表示基于序列的体系结构的潜力,以表示输入数据,从而获得与其他现有解决方案的可比性能。
translated by 谷歌翻译
COVID-19的大流行造成了毁灭性的经济和社会破坏,使全球医疗机构的资源紧张。这导致全国范围内呼吁模型预测Covid-19患者的住院和严重疾病,以告知有限医疗资源的分配。我们回应针对儿科人群的其中一种。为了应对这一挑战,我们使用电子健康记录研究了针对儿科人群的两项预测任务:1)预测哪些儿童更有可能住院,而2)在住院儿童中,哪些孩子更有可能出现严重的症状。我们通过新颖的机器学习模型MEDML应对国家儿科Covid-19数据挑战。 MEDML根据超过600万个医学概念的医学知识和倾向得分提取了最预测的特征,并通过图神经网络(GNN)结合了异质医学特征之间的功能间关系。我们使用来自国家队列协作(N3C)数据集的数据评估了143,605名患者的MEDML,并在143,605名患者的住院预测任务中评估了严重性预测任务的11,465名患者。我们还报告了详细的小组级和个人级特征的重要性分析,以评估模型的解释性。与最佳的基线机器学习模型相比,MEDML的AUROC得分高达7%,AUPRC得分高达14%,并且自大流行以来的所有九个国家地理区域以及所有三个月的跨度都表现良好。我们的跨学科研究团队开发了一种将临床领域知识纳入新型机器学习模型的框架的方法,该框架比当前最新的数据驱动的功能选择方法更具预测性和可解释。
translated by 谷歌翻译
预训练在机器学习的不同领域表现出成功,例如计算机视觉,自然语言处理(NLP)和医学成像。但是,尚未完全探索用于临床数据分析。记录了大量的临床记录,但是对于在小型医院收集的数据或处理罕见疾病的数据仍可能稀缺数据和标签。在这种情况下,对较大的未标记临床数据进行预训练可以提高性能。在本文中,我们提出了专为异质的多模式临床数据设计的新型无监督的预训练技术,用于通过蒙版语言建模(MLM)启发的患者预测,通过利用对人群图的深度学习来启发。为此,我们进一步提出了一个基于图形转换器的网络,该网络旨在处理异质临床数据。通过将基于掩盖的预训练与基于变压器的网络相结合,我们将基于掩盖的其他域中训练的成功转化为异质临床数据。我们使用三个医学数据集Tadpole,Mimic-III和一个败血症预测数据集,在自我监督和转移学习设置中展示了我们的预训练方法的好处。我们发现,我们提出的培训方法有助于对患者和人群水平的数据进行建模,并提高所有数据集中不同微调任务的性能。
translated by 谷歌翻译
机器学习和临床研究社区利用现实世界数据(RWD)的方法,包括电子健康记录中捕获的数据(EHR)截然不同。虽然临床研究人员谨慎使用RWD进行临床研究,但用于医疗团队的ML会消费公共数据集,并以最少的审查来开发新算法。这项研究通过开发和验证ML-DQA来弥合这一差距,ML-DQA是基于RWD最佳实践的数据质量保证框架。 ML-DQA框架适用于两个地理位置的五个ML项目,分别是不同的医疗状况和不同的人群。在这五个项目中,共收集了247,536名患者的RWD,共有2,999项质量检查和24份质量报告。出现了五种可推广的实践:所有项目都使用类似的方法来分组冗余数据元素表示;所有项目都使用自动实用程序来构建诊断和药物数据元素;所有项目都使用了一个共同的基于规则的转换库;所有项目都使用统一的方法将数据质量检查分配给数据元素;所有项目都使用类似的临床裁决方法。包括临床医生,数据科学家和受训者在内的平均有5.8个人参与每个项目实施ML-DQA,每个项目平均进行了23.4个数据元素。这项研究证明了ML-DQA在医疗项目中的重要性作用,并为团队提供了开展这些基本活动的框架。
translated by 谷歌翻译
本文研究了医学领域的概念与患者表示的问题。我们将电子健康记录(EHRS)的患者历史作为ICD概念的时间序列,其中嵌入在一个无监督的设置中学习了一种基于变压器的神经网络模型。在6年内对百万患者历史的收集进行了模型培训。与几种基线方法相比,评估这种模型的预测力。与类似系统相比,对模拟-III数据的一系列实验显示了所呈现模型的优势。此外,我们分析了对概念关系的获得空间,并展示了医学领域的知识如何成功转移到患者嵌入形式的保险评分的实际任务。
translated by 谷歌翻译
大型和深度电子医疗保健记录(EHR)数据集的可用性有可能更好地了解现实世界中的患者旅行,并鉴定出新的患者亚组。基于ML的EHR数据集合主要是工具驱动的,即基于可用或新开发的方法的构建。但是,这些方法,它们的输入要求以及最重要的是,通常难以解释产量,尤其是没有深入的数据科学或统计培训。这危害了需要进行可行且具有临床意义的解释的最后一步。这项研究研究了使用大型EHR数据集和多种聚类方法进行临床研究的方法进行大规模进行患者分层分析的方法。我们已经开发了几种工具来促进无监督的患者分层结果的临床评估和解释,即模式筛查,元聚类,替代建模和策展。这些工具可以在分析中的不同阶段使用。与标准分析方法相比,我们证明了凝结结果并优化分析时间的能力。在元聚类的情况下,我们证明了患者簇的数量可以从72减少到3。在另一个分层的结果中,通过使用替代模型,我们可以迅速确定如果有血液钠测量值可用,则可以对心力衰竭患者进行分层。由于这是对所有心力衰竭患者进行的常规测量,因此表明数据偏差。通过使用进一步的队列和特征策展,可以去除这些患者和其他无关的特征以提高临床意义。这些示例显示了拟议方法的有效性,我们希望鼓励在该领域的进一步研究。
translated by 谷歌翻译
Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
translated by 谷歌翻译
现实世界中的电子健康记录(EHR)通常会受到高丢失数据率的困扰。例如,在我们的EHR中,对于某些功能,缺失率可能高达90%,所有功能的平均缺失率约为70%。我们提出了一种时间感知的双交叉访问的缺失价值插补方法,称为ta-dualCV,该方法自发利用跨特征和纵向依赖性的多元依赖性在EHRS中从有限的可观察记录中提取的信息。具体而言,ta-dualCV捕获了不同特征测量值的缺失模式的潜在结构,它还考虑了时间连续性,并根据时间步长和不规则的时间间隔捕获了潜在的时间缺失模式。使用三种类型的任务使用三个大型现实世界EHR评估TA-DUALCV:无监督的选级任务,通过更改掩盖率高达90%的掩码率和使用长期短期记忆(LSTM)进行监督的24小时早期预测对化粪池休克的早期预测(LSTM) 。我们的结果表明,TA-DUALCV在两种任务上的所有现有最先进的归纳基线(例如底特律和驯服)的表现明显好。
translated by 谷歌翻译
基于变压器模型架构的最近深入学习研究在各种域和任务中展示了最先进的性能,主要是在计算机视觉和自然语言处理域中。虽然最近的一些研究已经实施了使用电子健康记录数据的临床任务的变压器,但它们的范围,灵活性和全面性有限。在本研究中,我们提出了一种灵活的基于变换器的EHR嵌入管道和预测模型框架,它引入了利用了医疗域唯一的数据属性的现有工作流程的几个新颖修改。我们展示了灵活设计的可行性,在重症监护病房的案例研究中,我们的模型准确地预测了七种临床结果,这些临床结果与多个未来的时间范围有关的入院和患者死亡率。
translated by 谷歌翻译
临床试验是药物开发的重要一步,通常是昂贵且耗时的。在计算机试验中,是通过模拟和建模作为替代传统临床试验的临床试验进行数字进行的。在计算机试验中支持AI可以通过创建虚拟队列作为控件来增加案例组的规模。此外,它还可以实现试验设计的自动化和优化,并预测试验成功率。本文在三个主要主题下系统地回顾了论文:临床模拟,个性化预测建模和计算机辅助试验设计。我们专注于如何在这些应用中应用机器学习(ML)。特别是,我们介绍了机器学习问题的公式和每个任务的可用数据源。最后,我们讨论了现实世界中的Silico试验中AI的挑战和机遇。
translated by 谷歌翻译
心脏病已成为对人类生活产生重大影响的最严重疾病之一。在过去的十年中,它已成为全球人民死亡的主要原因之一。为了防止患者进一步损害,准确地诊断为心脏病是一个重要因素。最近,我们看到了非侵入性医学程序的用法,例如医学领域的基于人工智能的技术。专门的机器学习采用了多种算法和技术,这些算法和技术被广泛使用,并且在较少的时间以诊断心脏病的准确诊断非常有用。但是,对心脏病的预测并不是一件容易的事。医疗数据集的规模不断增加,使从业者了解复杂的特征关系并做出疾病预测是一项复杂的任务。因此,这项研究的目的是从高度维数据集中确定最重要的风险因素,这有助于对心脏病的准确分类,并减少并发症。为了进行更广泛的分析,我们使用了具有各种医学特征的两个心脏病数据集。基准模型的分类结果证明,相关特征对分类精度产生了很大的影响。即使功能减少,与在全功能集中训练的模型相比,分类模型的性能随着训练时间的减少而显着提高。
translated by 谷歌翻译
疾病鉴定是观察健康研究中的核心,常规活动。队列影响下游分析,例如如何表征病情,定义患者的风险以及研究哪些治疗方法。因此,至关重要的是要确保选定的队列代表所有患者,而与他们的人口统计学或社会决定因素无关。虽然在构建可能影响其公平性的表型定义时有多种潜在的偏见来源,但在表型领域中考虑不同定义在患者亚组中的影响并不是标准。在本文中,我们提出了一组最佳实践来评估表型定义的公平性。我们利用预测模型中常用的既定公平指标,并将其与常用的流行病学队列描述指标联系起来。我们描述了一项针对克罗恩病和2型糖尿病的实证研究,每个研究都有从两组患者亚组(性别和种族)中从文献中获取的多种表型定义。我们表明,根据不同的公平指标和亚组,不同的表型定义表现出较大和不同的性能。我们希望拟议的最佳实践可以帮助构建公平和包容的表型定义。
translated by 谷歌翻译
Although prediction models for delirium, a commonly occurring condition during general hospitalization or post-surgery, have not gained huge popularity, their algorithmic bias evaluation is crucial due to the existing association between social determinants of health and delirium risk. In this context, using MIMIC-III and another academic hospital dataset, we present some initial experimental evidence showing how sociodemographic features such as sex and race can impact the model performance across subgroups. With this work, our intent is to initiate a discussion about the intersectionality effects of old age, race and socioeconomic factors on the early-stage detection and prevention of delirium using ML.
translated by 谷歌翻译