基于电子健康记录(EHR)的健康预测建筑模型已成为一个活跃的研究领域。 EHR患者旅程数据由患者定期的临床事件/患者访问组成。大多数现有研究的重点是建模访问之间的长期依赖性,而无需明确考虑连续访问之间的短期相关性,在这种情况下,将不规则的时间间隔(并入为辅助信息)被送入健康预测模型中以捕获患者期间的潜在渐进模式。 。我们提出了一个具有四个模块的新型深神经网络,以考虑各种变量对健康预测的贡献:i)堆叠的注意力模块在每个患者旅程中加强了临床事件中的深层语义,并产生访问嵌入,ii)短 - 术语时间关注模块模型在连续访问嵌入之间的短期相关性,同时捕获这些访问嵌入中时间间隔的影响,iii)长期时间关注模块模型的长期依赖模型,同时捕获时间间隔内的时间间隔的影响这些访问嵌入,iv),最后,耦合的注意模块适应了短期时间关注和长期时间注意模块的输出,以做出健康预测。对模拟III的实验结果表明,与现有的最新方法相比,我们的模型的预测准确性以及该方法的可解释性和鲁棒性。此外,我们发现建模短期相关性有助于局部先验的产生,从而改善了患者旅行的预测性建模。
translated by 谷歌翻译
Predicting the health risks of patients using Electronic Health Records (EHR) has attracted considerable attention in recent years, especially with the development of deep learning techniques. Health risk refers to the probability of the occurrence of a specific health outcome for a specific patient. The predicted risks can be used to support decision-making by healthcare professionals. EHRs are structured patient journey data. Each patient journey contains a chronological set of clinical events, and within each clinical event, there is a set of clinical/medical activities. Due to variations of patient conditions and treatment needs, EHR patient journey data has an inherently high degree of missingness that contains important information affecting relationships among variables, including time. Existing deep learning-based models generate imputed values for missing values when learning the relationships. However, imputed data in EHR patient journey data may distort the clinical meaning of the original EHR patient journey data, resulting in classification bias. This paper proposes a novel end-to-end approach to modeling EHR patient journey data with Integrated Convolutional and Recurrent Neural Networks. Our model can capture both long- and short-term temporal patterns within each patient journey and effectively handle the high degree of missingness in EHR data without any imputation data generation. Extensive experimental results using the proposed model on two real-world datasets demonstrate robust performance as well as superior prediction accuracy compared to existing state-of-the-art imputation-based prediction methods.
translated by 谷歌翻译
由于患者状况和治疗需求的变化,电子健康记录(EHR)表现出大量缺失数据。缺失价值的插补被认为是应对这一挑战的有效方法。现有的工作将插补方法和预测模型分为基于EHR的机器学习系统的两个独立部分。我们通过利用复合密度网络(CDNET)提出了一种集成的端对端方法,该方法允许插入方法和预测模型在单个框架中调整在一起。 CDNET由一个封闭式复发单元(GRU),混合物密度网络(MDN)和正则注意网络(RAN)组成。 GRU用作对EHR数据进行建模的潜在变量模型。 MDN旨在采样GRU生成的潜在变量。该运行是适用于较不可靠的估算值的正规器。 CDNET的结构使GRU和MDN迭代地利用彼此的输出来估算缺失值,从而导致更准确,更健壮的预测。我们验证cdnet关于模拟III数据集的死亡率预测任务。我们的模型以大幅度的利润率优于最先进的模型。我们还从经验上表明,正规化值是出色预测性能的关键因素。对预测不确定性的分析表明,我们的模型可以同时捕获核心和认知不确定性,从而使模型用户更好地了解模型结果。
translated by 谷歌翻译
传统机器学习方法面临两种主要挑战,在处理医疗保健预测分析任务方面。首先,医疗保健数据的高维性质需要劳动密集型和耗时的过程,为每项新任务选择适当的功能集。其次,这些方法依赖于特征工程来捕获患者数据的顺序性,这可能无法充分利用医疗事件的时间模式及其依赖性。最近的深度学习方法通​​过解决医疗数据的高维和时间挑战,对各种医疗保健预测任务显示了有希望的性能。这些方法可以学习关键因素(例如,医学概念或患者)的有用表示及其与高维原始或最低处理的医疗保健数据的相互作用。在本文中,我们系统地审查了专注于推进和使用深神经网络的研究,以利用患者结构化时间序列数据进行医疗保健预测任务。为了识别相关研究,搜索MEDLINE,IEEE,SCOPUS和ACM数字图书馆于2021年2月7日出版的研究。我们发现研究人员在十个研究流中为深度时间序列预测文献做出了贡献:深入学习模型,缺少价值处理,不规则处理,患者表示,静态数据包容,关注机制,解释,纳入医疗本体,学习策略和可扩展性。本研究总结了这些文献流的研究见解,确定了几个关键研究差距,并提出了未来的患者时间序列数据深入学习的研究机会。
translated by 谷歌翻译
Multivariate time series data in practical applications, such as health care, geoscience, and biology, are characterized by a variety of missing values. In time series prediction and other related tasks, it has been noted that missing values and their missing patterns are often correlated with the target labels, a.k.a., informative missingness. There is very limited work on exploiting the missing patterns for effective imputation and improving prediction performance. In this paper, we develop novel deep learning models, namely GRU-D, as one of the early attempts. GRU-D is based on Gated Recurrent Unit (GRU), a state-of-the-art recurrent neural network. It takes two representations of missing patterns, i.e., masking and time interval, and effectively incorporates them into a deep model architecture so that it not only captures the long-term temporal dependencies in time series, but also utilizes the missing patterns to achieve better prediction results. Experiments of time series classification tasks on real-world clinical datasets (MIMIC-III, PhysioNet) and synthetic datasets demonstrate that our models achieve state-of-the-art performance and provides useful insights for better understanding and utilization of missing values in time series analysis.
translated by 谷歌翻译
基于变压器模型架构的最近深入学习研究在各种域和任务中展示了最先进的性能,主要是在计算机视觉和自然语言处理域中。虽然最近的一些研究已经实施了使用电子健康记录数据的临床任务的变压器,但它们的范围,灵活性和全面性有限。在本研究中,我们提出了一种灵活的基于变换器的EHR嵌入管道和预测模型框架,它引入了利用了医疗域唯一的数据属性的现有工作流程的几个新颖修改。我们展示了灵活设计的可行性,在重症监护病房的案例研究中,我们的模型准确地预测了七种临床结果,这些临床结果与多个未来的时间范围有关的入院和患者死亡率。
translated by 谷歌翻译
电子健康记录(EHR)已经大量用于现代医疗保健系统,用于将患者的入场信息记录到医院。许多数据驱动方法采用EHR中的时间特征,用于预测患者的特定疾病,阅告期或诊断。然而,由于某些时间事件的监督培训中固有的标签,大多数现有的预测模型不能充分利用EHR数据。此外,对于现有的作品很难同时提供通用和个性化的解释性。为解决这些挑战,我们首先提出了一种具有信息流到分层结构的信息流的双曲线嵌入方法。我们将这些预先训练的表征纳入了图形神经网络以检测疾病并发症,并设计一种计算特定疾病和入学贡献的多级注意方法,从而提高个性化的可解释性。我们在自我监督的学习框架中提出了一个新的层次结构增强的历史预测代理任务,以充分利用EHR数据和利用医疗领域知识。我们开展一套全面的实验和案例研究,广泛使用的公开可用的EHR数据集以验证我们模型的有效性。结果表明我们的模型在预测任务和可解释能力方面的优势。
translated by 谷歌翻译
疾病的早​​期诊断可能会改善健康结果,例如较高的存活率和较低的治疗成本。随着电子健康记录中的大量信息(EHR),使用机器学习(ML)方法有很大的潜力来对疾病进展进行建模,以旨在早期预测疾病发作和其他结果。在这项工作中,我们采用了神经odes的最新创新来利用EHR的全部时间信息。我们提出了冰节(将临床嵌入与神经普通微分方程的整合),该体系结构在时间上整合临床代码和神经ODE的嵌入,以学习和预测EHR中的患者轨迹。我们将我们的方法应用于公共可用的模拟III和模拟IV数据集,与最新方法相比,报告了预测结果的改进,特别是针对EHR中经常观察到的临床代码。我们还表明,冰节在预测某些医疗状况(例如急性肾衰竭和肺心脏病)方面更有能力,并且还能够随着时间的推移产生患者的风险轨迹,以进行进一步的预测。
translated by 谷歌翻译
COVID-19大流行对全球医疗保健系统造成了沉重的负担,并造成了巨大的社会破坏和经济损失。已经提出了许多深度学习模型来执行临床预测任务,例如使用电子健康记录(EHR)数据在重症监护病房中为Covid-19患者的死亡率预测。尽管在某些临床应用中取得了最初的成功,但目前缺乏基准测试结果来获得公平的比较,因此我们可以选择最佳模型以供临床使用。此外,传统预测任务的制定与重症监护现实世界的临床实践之间存在差异。为了填补这些空白,我们提出了两项​​临床预测任务,特定于结局的预测和重症监护病房中的COVID-19患者的早期死亡率预测。这两个任务是根据幼稚的停车时间和死亡率预测任务的改编,以适应COVID-19患者的临床实践。我们提出了公平,详细的开源数据预处管道,并评估了两项任务的17个最先进的预测模型,包括5个机器学习模型,6种基本的深度学习模型和6种专门为EHR设计的深度学习预测模型数据。我们使用来自两个现实世界Covid-19 EHR数据集的数据提供基准测试结果。这两个数据集都可以公开可用,而无需任何查询,并且可以根据要求访问一个数据集。我们为两项任务提供公平,可重复的基准测试结果。我们在在线平台上部署所有实验结果和模型。我们还允许临床医生和研究人员将其数据上传到平台上,并使用训练有素的模型快速获得预测结果。我们希望我们的努力能够进一步促进Covid-19预测建模的深度学习和机器学习研究。
translated by 谷歌翻译
深度学习模型已经实现了患者电子健康记录(EHR)的有希望的疾病预测。但是,大多数模型在I.I.D.下开发了假设未能考虑不可知的分布变化,从而降低了深度学习模型到分布(OOD)数据的概括能力。在这种情况下,将利用可能在不同环境中发生变化的虚假统计相关性,这可能会导致深度学习模型的次优性能。训练分布中存在过程和诊断之间的不稳定相关性可能会导致历史EHR与未来诊断之间的虚假相关性。为了解决这个问题,我们建议使用一种称为因果医疗保健嵌入(CHE)的因果表示学习方法。 CHE旨在通过消除诊断和程序之间的依赖性来消除虚假的统计关系。我们介绍了希尔伯特 - 史密特独立标准(HSIC),以衡量嵌入式诊断和程序特征之间的独立性。基于因果观点分析,我们执行样本加权技术,以摆脱这种虚假关系,以跨不同环境对EHR进行稳定学习。此外,我们提出的CHE方法可以用作灵活的插件模块,可以增强EHR上现有的深度学习模型。在两个公共数据集和五个最先进的基线上进行了广泛的实验表明,CHE可以通过大幅度提高深度学习模型对分布数据的预测准确性。此外,可解释性研究表明,CHE可以成功利用因果结构来反映历史记录对预测的更合理贡献。
translated by 谷歌翻译
现实世界中的电子健康记录(EHR)通常会受到高丢失数据率的困扰。例如,在我们的EHR中,对于某些功能,缺失率可能高达90%,所有功能的平均缺失率约为70%。我们提出了一种时间感知的双交叉访问的缺失价值插补方法,称为ta-dualCV,该方法自发利用跨特征和纵向依赖性的多元依赖性在EHRS中从有限的可观察记录中提取的信息。具体而言,ta-dualCV捕获了不同特征测量值的缺失模式的潜在结构,它还考虑了时间连续性,并根据时间步长和不规则的时间间隔捕获了潜在的时间缺失模式。使用三种类型的任务使用三个大型现实世界EHR评估TA-DUALCV:无监督的选级任务,通过更改掩盖率高达90%的掩码率和使用长期短期记忆(LSTM)进行监督的24小时早期预测对化粪池休克的早期预测(LSTM) 。我们的结果表明,TA-DUALCV在两种任务上的所有现有最先进的归纳基线(例如底特律和驯服)的表现明显好。
translated by 谷歌翻译
自动化医疗编码,医疗保健操作和交付的基本任务,通过从临床文献预测医学代码来实现非结构化数据。自然语言处理中深入学习模型的最新进展已被广泛应用于此任务。然而,它缺乏对医学编码的神经网络架构设计的统一视图。本综述提出了一个统一的框架,为医疗编码模型的构建块提供了一般性的理解,并概述了近期框架下的最新模型。我们的统一框架将医疗编码分解为四个主要组件,即文本特征提取的编码器模块,为构建深编码器架构的机制,解码器模块,用于将隐藏的表示转换为医学代码,以及辅助信息的使用。最后,我们讨论了关键的研究挑战和未来方向。
translated by 谷歌翻译
对传染病疾病的准确预测是有效控制该地区流行病的关键。大多数现有方法忽略了区域之间的潜在动态依赖性或区域之间的时间依赖性和相互依存关系的重要性。在本文中,我们提出了一个内部和内部嵌入式融合网络(SEFNET),以改善流行病预测性能。 SEFNET由两个平行模块组成,分别是嵌入模块的系列间嵌入模块。在嵌入模块的串间嵌入模块中,提出了一个多尺度的统一卷积组件,称为“区域感知卷积”,该组件与自我发挥作用,以捕获从多个区域获得的时间序列之间捕获动态依赖性。内部嵌入模块使用长期的短期内存来捕获每个时间序列中的时间关系。随后,我们学习了两个嵌入的影响度,并将它们与参数矩阵融合法融合在一起。为了进一步提高鲁棒性,Sefnet还与非线性神经网络并行整合了传统的自回归组件。在四个现实世界流行有关的数据集上进行的实验表明,SEFNET具有有效性,并且表现优于最先进的基线。
translated by 谷歌翻译
电子健康记录(EHRS)在患者级别汇总了多种信息,并保留了整个时间内患者健康状况进化的轨迹代表。尽管此信息提供了背景,并且可以由医生利用以监控患者的健康并进行更准确的预后/诊断,但患者记录可以包含长期跨度的信息,这些信息与快速生成的医疗数据速率相结合,使临床决策变得更加复杂。患者轨迹建模可以通过以可扩展的方式探索现有信息来帮助,并可以通过促进预防医学实践来增强医疗保健质量。我们为建模患者轨迹提出了一种解决方案,该解决方案结合了不同类型的信息并考虑了临床数据的时间方面。该解决方案利用了两种不同的架构:一组支持灵活的输入功能集,以将患者的录取转换为密集的表示;以及在基于复发的架构中进行的第二次探索提取的入院表示,其中使用滑动窗口机制在子序列中处理患者轨迹。使用公开可用的模仿III临床数据库评估了开发的解决方案,以两种不同的临床结果,意外的患者再入院和疾病进展。获得的结果证明了第一个体系结构使用单个患者入院进行建模和诊断预测的潜力。虽然临床文本中的信息并未显示在其他现有作品中观察到的判别能力,但这可以通过微调临床模型来解释。最后,我们使用滑动窗口机制来表示基于序列的体系结构的潜力,以表示输入数据,从而获得与其他现有解决方案的可比性能。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
Remaining Useful Life (RUL) estimation plays a critical role in Prognostics and Health Management (PHM). Traditional machine health maintenance systems are often costly, requiring sufficient prior expertise, and are difficult to fit into highly complex and changing industrial scenarios. With the widespread deployment of sensors on industrial equipment, building the Industrial Internet of Things (IIoT) to interconnect these devices has become an inexorable trend in the development of the digital factory. Using the device's real-time operational data collected by IIoT to get the estimated RUL through the RUL prediction algorithm, the PHM system can develop proactive maintenance measures for the device, thus, reducing maintenance costs and decreasing failure times during operation. This paper carries out research into the remaining useful life prediction model for multi-sensor devices in the IIoT scenario. We investigated the mainstream RUL prediction models and summarized the basic steps of RUL prediction modeling in this scenario. On this basis, a data-driven approach for RUL estimation is proposed in this paper. It employs a Multi-Head Attention Mechanism to fuse the multi-dimensional time-series data output from multiple sensors, in which the attention on features is used to capture the interactions between features and attention on sequences is used to learn the weights of time steps. Then, the Long Short-Term Memory Network is applied to learn the features of time series. We evaluate the proposed model on two benchmark datasets (C-MAPSS and PHM08), and the results demonstrate that it outperforms the state-of-art models. Moreover, through the interpretability of the multi-head attention mechanism, the proposed model can provide a preliminary explanation of engine degradation. Therefore, this approach is promising for predictive maintenance in IIoT scenarios.
translated by 谷歌翻译
我们利用深度顺序模型来解决预测患者医疗保健利用的问题,这可能有助于政府更好地为未来的医疗保健使用提供资源。具体地,我们研究\纺织{发散亚组}的问题,其中较小的人口小组中的结果分布大大偏离了一般人群的群体。如果亚组的尺寸非常小(例如,稀有疾病),则对不同亚组的专业模型建造专门模型的传统方法可能是有问题的。为了解决这一挑战,我们首先开发一种新的无关注顺序模型,SANSFORMERS,灌输了适合在电子医疗记录中建模临床码的归纳偏差。然后,我们通过在整个健康登记处预先培训每个模型(接近100万名患者)之前,设计了一个特定的自我监督目标,并展示其有效性,特别是稀缺数据设置,特别是在整个健康登记处(接近一百万名患者)进行微调下游任务不同的子组。我们使用两个数据来源与LSTM和变压器模型进行比较新的SANSFARER架构和辅助医疗利用预测的多任务学习目标。凭经验,无关注的Sansformer模型在实验中始终如一地执行,在大多数情况下以至少$ \ SIM 10 $ \%表现出在大多数情况下的基线。此外,在预测医院访问数量时,自我监督的预训练将在整个始终提高性能,例如通过超过$ \ sim 50 $ \%(和高度为800美元\%)。
translated by 谷歌翻译
COVID-19的大流行造成了毁灭性的经济和社会破坏,使全球医疗机构的资源紧张。这导致全国范围内呼吁模型预测Covid-19患者的住院和严重疾病,以告知有限医疗资源的分配。我们回应针对儿科人群的其中一种。为了应对这一挑战,我们使用电子健康记录研究了针对儿科人群的两项预测任务:1)预测哪些儿童更有可能住院,而2)在住院儿童中,哪些孩子更有可能出现严重的症状。我们通过新颖的机器学习模型MEDML应对国家儿科Covid-19数据挑战。 MEDML根据超过600万个医学概念的医学知识和倾向得分提取了最预测的特征,并通过图神经网络(GNN)结合了异质医学特征之间的功能间关系。我们使用来自国家队列协作(N3C)数据集的数据评估了143,605名患者的MEDML,并在143,605名患者的住院预测任务中评估了严重性预测任务的11,465名患者。我们还报告了详细的小组级和个人级特征的重要性分析,以评估模型的解释性。与最佳的基线机器学习模型相比,MEDML的AUROC得分高达7%,AUPRC得分高达14%,并且自大流行以来的所有九个国家地理区域以及所有三个月的跨度都表现良好。我们的跨学科研究团队开发了一种将临床领域知识纳入新型机器学习模型的框架的方法,该框架比当前最新的数据驱动的功能选择方法更具预测性和可解释。
translated by 谷歌翻译
随着电子健康记录(EHR)在医疗保健设施中的广泛应用,深入学习的健康事件预测越来越受到关注。用于深度学习的预测的EHR数据的一个共同特征是历史诊断。现有的工作主要认为诊断为独立疾病,并不考虑访问中疾病之间的临床关系。许多机器学习方法假设疾病表示在患者的不同访问中是静态的。然而,在实际实践中,同时经常被诊断的多种疾病反映了有利于预后的隐藏模式。此外,疾病的发展不是静态,因为某些疾病可以出现或消失,并且在患者的不同访问中显示各种症状。为了有效利用这种组合疾病信息并探索疾病的动态,我们提出了一种使用动态疾病图表上的转换功能的新型背景感知学习框架。具体而言,我们构建一种具有多个节点属性的全球疾病共同发生图,用于疾病组合。我们为每位患者的访问设计动态子图,以利用全球和本地环境。我们进一步根据节点属性的变化来定义每次访问中的三个诊断角色,以模拟疾病过渡过程。两个真实世界EHR数据集的实验结果表明,建议的模型优于现有技术的预测健康事件。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译