背景:在美国的电子健康记录(EHR)的日益越来越多的采用创造了可计算数据的Trovers,已经应用了机器学习方法来提取有用的见解。表示为矩阵(张量)的三维类似物的EHR数据被分解成可以被解释为计算表型的二维因子。方法:我们将受限的张量分解施加到2015年至2015年西北医学企业数据仓库中患有乳腺,前列腺,结直肠癌或肺癌患者群组中的增殖和预测死亡率。在我们的实验中,我们使用监督期检查在分解算法中,通过医学指示过滤张量相同,并在分解过程中纳入额外的健康(SDOH)协变量的社会决定因素。我们定性地评估了所产生的计算表型,并通过评估它们在曲线(AUC)统计下的区域预测五年死亡率的能力。结果:医疗指示过滤导致更简洁和可解释的表型。死亡预测性能(AUC)在不同的实验条件下变化,癌症类型(乳腺:0.623-0.694,前列腺:0.603 - 0.750,结直肠:0.523-0.641和Lung:0.517 - 0.623)。通常,利用监督期的使用和SDOH协变量的结合改善了预测性能。结论:约束张量分解,适用于癌症患者的稀疏EHR数据,可以发现预测五年死亡率的计算表型。将SDOH变量的结合到分解算法是一种易于实现和有效的方法来提高预测性能。
translated by 谷歌翻译
计算表型可以无监督发现患者的亚组以及电子健康记录(EHR)的相应同时发生的医疗状况。通常,EHR数据包含人口统计信息,诊断和实验室结果。发现(新颖的)表型具有预后和治疗价值的潜力。为医生提供透明且可解释的结果是一项重要要求,也是推进精确医学的重要组成部分。低级别数据近似方法,例如矩阵(例如,非负矩阵分解)和张量分解(例如,candecomp/parafac),已经证明它们可以提供这种透明且可解释的见解。最近的发展通过合并不同的限制和正规化来促进可解释性,从而适应了低级数据近似方法。此外,它们还为EHR数据中的共同挑战提供解决方案,例如高维度,数据稀疏性和不完整性。尤其是从纵向EHR中提取时间表型,近年来引起了很多关注。在本文中,我们对计算表型的低级别近似方法进行了全面的综述。现有文献根据矩阵与张量分解归类为时间与静态表型方法。此外,我们概述了验证表型的不同方法,即评估临床意义。
translated by 谷歌翻译
张量分解因其在多维数据中捕获潜在因素的固有能力而获得了越来越多的兴趣,该数据具有许多应用程序,例如推荐系统和电子健康记录(EHR)挖掘。已经提出了Parafac2及其变体来解决不规则的张量,其中一种张量模式不对齐,例如,EHR中推荐系统或患者的不同用户可能具有不同的记录。 PARAFAC2已成功应用于EHRS,用于提取有意义的医学概念(表型)。尽管有最近的进步,但当前模型的可预测性和可解释性并不令人满意,这限制了其用于下游分析的效用。在本文中,我们提出了多个多任务学习的多个监督不规则张量分解。多个多个可以灵活地包含静态(例如,院内死亡率预测)和连续或动态(例如,通风的需求)任务。通过通过下游预测任务监督张量分解并利用来自多个相关预测任务的信息,Multipar不仅可以产生更有意义的表型,而且可以为下游任务提供更好的预测性能。我们在两个现实世界中的EHR数据集上进行了广泛的实验,以证明Multipar是可扩展的,并且与现有的最新方法相比,具有更有意义的亚组和更强的预测性能,可以更好地张紧张量。
translated by 谷歌翻译
肺癌是全球癌症死亡的主要原因,肺腺癌是最普遍的肺癌形式。 EGFR阳性肺腺癌已被证明对TKI治疗的反应率很高,这是肺癌分子测试的基本性质。尽管目前的指南考虑必要测试,但很大一部分患者并未常规化,导致数百万的人未接受最佳治疗肺癌。测序是EGFR突变分子测试的黄金标准,但是结果可能需要数周的时间才能回来,这在时间限制的情况下并不理想。能够快速,便宜地检测EGFR突变的替代筛查工具的开发,同时保存组织以进行测序可以帮助减少受比较治疗的患者的数量。我们提出了一种多模式方法,该方法将病理图像和临床变量整合在一起,以预测EGFR突变状态,迄今为止最大的临床队列中的AUC为84%。这样的计算模型可以以很少的额外成本进行大部分部署。它的临床应用可以减少中国接受亚最佳治疗的患者数量53.1%,在美国将高达96.6%的患者减少96.6%。
translated by 谷歌翻译
组织病理学图像提供了癌症诊断的明确来源,其中包含病理学家用来识别和分类恶性疾病的信息,并指导治疗选择。这些图像包含大量信息,其中大部分目前不可用人类的解释。有监督的深度学习方法对于分类任务非常有力,但它们本质上受注释的成本和质量限制。因此,我们开发了组织形态表型学习,这是一种无监督的方法,它不需要注释,并且通过小图像瓷砖中的歧视性图像特征的自我发现进行操作。瓷砖分为形态上相似的簇,这些簇似乎代表了自然选择下出现的肿瘤生长的复发模式。这些簇具有不同的特征,可以使用正交方法识别。应用于肺癌组织,我们表明它们与患者的结局紧密保持一致,组织病理学识别的肿瘤类型和生长模式以及免疫表型的转录组度量。
translated by 谷歌翻译
肥胖是一个重大的健康问题,增加了各种主要慢性病的风险,如糖尿病,癌症和中风。虽然通过横断面BMI录音识别的肥胖作用已经过分研究,但BMI轨迹的作用远远不大。在这项研究中,我们利用从大型和地理位置的EHR数据集中提取的BMI轨迹捕获大约200万个人的健康状况为期六年的健康状况。我们根据BMI轨迹定义九个新的可解释和基于证据的变量,以使用K-Means聚类方法将患者聚类为子组。我们在人口统计学,社会经济和生理测量变量方面彻底审查了每个集群特征,以指定簇中患者的不同性质。在我们的实验中,已被重新建立肥胖,高血压,阿尔茨海默和痴呆症的肥胖,高血压,阿尔茨海默氏症和痴呆症的直接关系,并且已经发现有几种慢性疾病的特异性特征的不同簇符合或与现有的知识体系互补。
translated by 谷歌翻译
大型和深度电子医疗保健记录(EHR)数据集的可用性有可能更好地了解现实世界中的患者旅行,并鉴定出新的患者亚组。基于ML的EHR数据集合主要是工具驱动的,即基于可用或新开发的方法的构建。但是,这些方法,它们的输入要求以及最重要的是,通常难以解释产量,尤其是没有深入的数据科学或统计培训。这危害了需要进行可行且具有临床意义的解释的最后一步。这项研究研究了使用大型EHR数据集和多种聚类方法进行临床研究的方法进行大规模进行患者分层分析的方法。我们已经开发了几种工具来促进无监督的患者分层结果的临床评估和解释,即模式筛查,元聚类,替代建模和策展。这些工具可以在分析中的不同阶段使用。与标准分析方法相比,我们证明了凝结结果并优化分析时间的能力。在元聚类的情况下,我们证明了患者簇的数量可以从72减少到3。在另一个分层的结果中,通过使用替代模型,我们可以迅速确定如果有血液钠测量值可用,则可以对心力衰竭患者进行分层。由于这是对所有心力衰竭患者进行的常规测量,因此表明数据偏差。通过使用进一步的队列和特征策展,可以去除这些患者和其他无关的特征以提高临床意义。这些示例显示了拟议方法的有效性,我们希望鼓励在该领域的进一步研究。
translated by 谷歌翻译
Prognostication for lung cancer, a leading cause of mortality, remains a complex task, as it needs to quantify the associations of risk factors and health events spanning a patient's entire life. One challenge is that an individual's disease course involves non-terminal (e.g., disease progression) and terminal (e.g., death) events, which form semi-competing relationships. Our motivation comes from the Boston Lung Cancer Study, a large lung cancer survival cohort, which investigates how risk factors influence a patient's disease trajectory. Following developments in the prediction of time-to-event outcomes with neural networks, deep learning has become a focal area for the development of risk prediction methods in survival analysis. However, limited work has been done to predict multi-state or semi-competing risk outcomes, where a patient may experience adverse events such as disease progression prior to death. We propose a novel neural expectation-maximization algorithm to bridge the gap between classical statistical approaches and machine learning. Our algorithm enables estimation of the non-parametric baseline hazards of each state transition, risk functions of predictors, and the degree of dependence among different transitions, via a multi-task deep neural network with transition-specific sub-architectures. We apply our method to the Boston Lung Cancer Study and investigate the impact of clinical and genetic predictors on disease progression and mortality.
translated by 谷歌翻译
影响重症患者护理的许多基本问题会带来类似的分析挑战:医生无法轻易估计处于危险的医疗状况或治疗的影响,因为医疗状况和药物的因果影响是纠缠的。他们也无法轻易进行研究:没有足够的高质量数据来进行高维观察性因果推断,并且通常无法在道德上进行RCT。但是,机械知识可获得,包括如何吸收人体药物,并且这些知识与有限数据的结合可能就足够了 - 如果我们知道如何结合它们。在这项工作中,我们提出了一个框架,用于在这些复杂条件下对重症患者的因果影响估算:随着时间的流逝,药物与观察之间的相互作用,不大的患者数据集以及可以代替缺乏数据的机械知识。我们将此框架应用于影响重症患者的极其重要的问题,即癫痫发作和大脑中其他潜在有害的电气事件的影响(称为癫痫样活动 - EA)对结局。鉴于涉及的高赌注和数据中的高噪声,可解释性对于解决此类复杂问题的故障排除至关重要。我们匹配的小组的解释性使神经科医生可以执行图表审查,以验证我们的因果分析的质量。例如,我们的工作表明,患者经历了高水平的癫痫发作般的活动(75%的EA负担),并且未经治疗的六个小时的窗口未受治疗,平均而言,这种不良后果的机会增加了16.7%。作为严重的大脑损伤,终生残疾或死亡。我们发现患有轻度但长期EA的患者(平均EA负担> = 50%)患有不良结果的风险增加了11.2%。
translated by 谷歌翻译
肾脏移植可以显着增强患有末期肾脏疾病的人的生活水平。影响移植物生存时间的一个重要因素(移植失败的时间和患者需要另一个移植的时间)是肾移植的是供体和受体之间人类白细胞抗原(HLA)的兼容性。在本文中,我们提出了4种新的与生物学的特征表示,以将HLA信息纳入基于机器学习的生存分析算法中。我们在超过100,000次移植的数据库上评估了我们提出的HLA特征表示,并发现它们将预测准确性提高了约1%,在患者水平上适度,但在社会水平上可能具有重要意义。准确预测生存时间可以改善移植生存结果,从而更好地分配捐助者向接受者分配,并减少由于移植失败而与匹配不佳的捐助者造成的重新移植数量。
translated by 谷歌翻译
Importance: Social determinants of health (SDOH) are known to be associated with increased risk of suicidal behaviors, but few studies utilized SDOH from unstructured electronic health record (EHR) notes. Objective: To investigate associations between suicide and recent SDOH, identified using structured and unstructured data. Design: Nested case-control study. Setting: EHR data from the US Veterans Health Administration (VHA). Participants: 6,122,785 Veterans who received care in the US VHA between October 1, 2010, and September 30, 2015. Exposures: Occurrence of SDOH over a maximum span of two years compared with no occurrence of SDOH. Main Outcomes and Measures: Cases of suicide deaths were matched with 4 controls on birth year, cohort entry date, sex, and duration of follow-up. We developed an NLP system to extract SDOH from unstructured notes. Structured data, NLP on unstructured data, and combining them yielded seven, eight and nine SDOH respectively. Adjusted odds ratios (aORs) and 95% confidence intervals (CIs) were estimated using conditional logistic regression. Results: In our cohort, 8,821 Veterans committed suicide during 23,725,382 person-years of follow-up (incidence rate 37.18 /100,000 person-years). Our cohort was mostly male (92.23%) and white (76.99%). Across the six common SDOH as covariates, NLP-extracted SDOH, on average, covered 84.38% of all SDOH occurrences. All SDOH, measured by structured data and NLP, were significantly associated with increased risk of suicide. The SDOH with the largest effects was legal problems (aOR=2.67, 95% CI=2.46-2.89), followed by violence (aOR=2.26, 95% CI=2.11-2.43). NLP-extracted and structured SDOH were also associated with suicide. Conclusions and Relevance: NLP-extracted SDOH were always significantly associated with increased risk of suicide among Veterans, suggesting the potential of NLP in public health studies.
translated by 谷歌翻译
超重和肥胖仍然是一个主要的全球性公共健康问题,并确定增加未来体重增加风险的个性化模式在预防肥胖症和许多与肥胖症相关的次螯症方面具有至关重要的作用。在这项工作中,我们使用规则发现方法来研究这个问题,通过呈现提供真正的解释性和同时优化所识别模式的准确性(经常正确)的准确性(适用于许多样本)的方法来研究这个问题。具体而言,我们扩展了一个已建立的子组 - 发现方法以生成类型X-> Y的所需规则,并显示如何从X侧提取最高特征,作为Y的最佳预测因子。在我们的肥胖问题中,X是指来自非常大的和多站点EHR数据的提取功能,y表示大量的重量。使用我们的方法,我们还广泛地比较了由个人性别,年龄,种族,保险类型,邻里类型和收入水平决定的22层模式中的模式中的差异和不平等。通过广泛的实验,我们对未来危险体重增加的预测变量显示出新的和互补结果。
translated by 谷歌翻译
Tongue cancer is a common oral cavity malignancy that originates in the mouth and throat. Much effort has been invested in improving its diagnosis, treatment, and management. Surgical removal, chemotherapy, and radiation therapy remain the major treatment for tongue cancer. The survival of patients determines the treatment effect. Previous studies have identified certain survival and risk factors based on descriptive statistics, ignoring the complex, nonlinear relationship among clinical and demographic variables. In this study, we utilize five cutting-edge machine learning models and clinical data to predict the survival of tongue cancer patients after treatment. Five-fold cross-validation, bootstrap analysis, and permutation feature importance are applied to estimate and interpret model performance. The prognostic factors identified by our method are consistent with previous clinical studies. Our method is accurate, interpretable, and thus useable as additional evidence in tongue cancer treatment and management.
translated by 谷歌翻译
Systemic Lupus红斑(SLE)是一种罕见的自身免疫疾病,其特征是令人无法预测的耀斑和缓解的速度,具有不同的表现形式。狼疮性肾炎,SLE用于器官损伤和死亡率的主要疾病表现之一,是卢布斯分类标准的关键组成部分。因此,准确地鉴定电子健康记录(EHRS)中的狼疮性肾炎将使大型队列观察研究和临床试验有益于患者人口的表征对于招聘,研究设计和分析至关重要。可以通过程序代码和结构化数据来认可狼疮肾炎,例如实验室测试。然而,记录狼疮肾炎的其他关键信息,例如来自肾脏活检和先前的医学史叙事的组织学报告,需要复杂的文本处理,以从病理报告和临床笔记中挖掘信息。在这项研究中,我们开发了使用EHR数据识别鉴定狼疮肾炎的血管肾炎,而不使用自然语言处理(NLP)。我们开发了四种算法:仅使用结构化数据(基线算法)和使用不同NLP模型的三种算法的规则的算法。这三种NLP模型基于正则化逻辑回归,并使用不同的特征集,包括积极提及概念独特标识符(Cue),耐备的外观数量,以及三个部件的混合物。基线算法和最佳执行的NLP算法在Vanderbilt University Center(VUMC)的数据集上验证了外部验证。我们最佳地执行来自结构化数据,正则表达式概念和映射的特征的NLP模型,与基线狼疮性肾炎算法相比,在NMEDW(0.41 VS 0.79)和VUMC(0.62 VS 0.96)数据集中有所改善。
translated by 谷歌翻译
抗微生物抗性(AMR)是患者的风险和医疗保健系统的负担。但是,AMR测定通常需要几天。本研究为基于易于使用的临床和微生物预测因子,包括患者人口统计,医院住宿数据,诊断,临床特征以及微生物/抗微生物特征,以及仅使用微生物/抗微生物特征将这些模型与微生物/抗微生物特性进行基于幼稚抗体模型的模型的预测模型。在培养之前准确地预测阻力的能力可以向临床决策提供通知临床决策并缩短行动时间。这里采用的机器学习算法显示出改进的分类性能(接收器操作特性曲线0.88-0.89的区域)与使用飞利浦EICU研究所的6个生物和10个抗生素的接收器操作特征曲线0.86下的接收器下的面积为0.88-0.89)(ERI )数据库。该方法可以帮助指导抗菌治疗,目的是改善患者结果并减少不必要或无效抗生素的使用。
translated by 谷歌翻译
慢性肾脏疾病(CKD)代表一种缓慢进行的疾病,最终可能需要肾脏替代疗法(RRT),包括透析或肾移植。例如,对需要RRT的患者(提前1年)的早期鉴定可以改善患者的预后,例如,通过允许更高质量的透析血管通道。因此,护理团队对RRT的需求的早期认识是成功管理该疾病的关键。不幸的是,目前没有常用的RRT启动预测工具。在这项工作中,我们提出了一种机器学习模型,该模型可以动态地识别有可能需要RRT的CKD患者,最多只使用索赔数据。为了评估该模型,我们研究了大约300万Medicare受益人,我们做出了超过800万个预测。我们表明该模型可以识别出超过90%敏感性和特异性的风险患者。尽管在准备临床使用之前需要进行其他工作,但本研究为筛查工具提供了一个基础,以在时间窗口内识别有风险的患者,以实现旨在改善RRT结果的早期主动干预措施。
translated by 谷歌翻译
合成健康数据在共享数据以支持生物医学研究和创新医疗保健应用的发展时有可能减轻隐私问题。基于机器学习,尤其是生成对抗网络(GAN)方法的现代方法生成的现代方法继续发展并表现出巨大的潜力。然而,缺乏系统的评估框架来基准测试方法,并确定哪些方法最合适。在这项工作中,我们引入了一个可推广的基准测试框架,以评估综合健康数据的关键特征在实用性和隐私指标方面。我们将框架应用框架来评估来自两个大型学术医疗中心的电子健康记录(EHRS)数据的合成数据生成方法。结果表明,共享合成EHR数据存在公用事业私人关系权衡。结果进一步表明,在每个用例中,在所有标准上都没有明确的方法是最好的,这使得为什么需要在上下文中评估合成数据生成方法。
translated by 谷歌翻译
高血压是心血管疾病的主要原因和过早死亡。不同的高血压亚型可能在其预后变化,并且需要不同的治疗方法。个人的高血压风险由遗传和环境因素以及它们的相互作用决定。在这项工作中,我们研究了911名非洲裔美国人和1171名欧洲美国人在高血压遗传流行病学网络(Hypergen)Cohort中。我们使用环境变量和基于不同标准选择的遗传功能组建造的高血压子类型分类模型。拟合模型提供了洞察高血压亚型的遗传景观,这可能有助于未来的个性化诊断和治疗高血压。
translated by 谷歌翻译
偏见标志着病史,导致影响边缘化群体的不平等护理。观察数据中缺失的模式通常反映了这些群体差异,但是算法对群体特定缺失的算法公平含义尚不清楚。尽管具有潜在的影响,但归因通常还是被遗忘的预处理步骤。充其量,从业者通过优化整体绩效来指导选级选择,而忽略了这种预处理如何加强不平等。我们的工作通过研究插补如何影响下游算法的公平性来质疑这种选择。首先,我们提供了临床存在机制与特定组的遗失模式之间关系的结构化视图。然后,通过模拟和现实世界实验,我们证明了插补选择会影响边缘化的群体绩效,并且没有归因策略始终降低差异。重要的是,我们的结果表明,当前的做法可能危害健康平等,因为在人口层面上类似地执行插补策略可能会以不同的方式影响边缘化的群体。最后,我们提出了缓解因机器学习管道的忽视步骤而导致的不平等的建议。
translated by 谷歌翻译
传统机器学习方法面临两种主要挑战,在处理医疗保健预测分析任务方面。首先,医疗保健数据的高维性质需要劳动密集型和耗时的过程,为每项新任务选择适当的功能集。其次,这些方法依赖于特征工程来捕获患者数据的顺序性,这可能无法充分利用医疗事件的时间模式及其依赖性。最近的深度学习方法通​​过解决医疗数据的高维和时间挑战,对各种医疗保健预测任务显示了有希望的性能。这些方法可以学习关键因素(例如,医学概念或患者)的有用表示及其与高维原始或最低处理的医疗保健数据的相互作用。在本文中,我们系统地审查了专注于推进和使用深神经网络的研究,以利用患者结构化时间序列数据进行医疗保健预测任务。为了识别相关研究,搜索MEDLINE,IEEE,SCOPUS和ACM数字图书馆于2021年2月7日出版的研究。我们发现研究人员在十个研究流中为深度时间序列预测文献做出了贡献:深入学习模型,缺少价值处理,不规则处理,患者表示,静态数据包容,关注机制,解释,纳入医疗本体,学习策略和可扩展性。本研究总结了这些文献流的研究见解,确定了几个关键研究差距,并提出了未来的患者时间序列数据深入学习的研究机会。
translated by 谷歌翻译