超重和肥胖仍然是一个主要的全球性公共健康问题,并确定增加未来体重增加风险的个性化模式在预防肥胖症和许多与肥胖症相关的次螯症方面具有至关重要的作用。在这项工作中,我们使用规则发现方法来研究这个问题,通过呈现提供真正的解释性和同时优化所识别模式的准确性(经常正确)的准确性(适用于许多样本)的方法来研究这个问题。具体而言,我们扩展了一个已建立的子组 - 发现方法以生成类型X-> Y的所需规则,并显示如何从X侧提取最高特征,作为Y的最佳预测因子。在我们的肥胖问题中,X是指来自非常大的和多站点EHR数据的提取功能,y表示大量的重量。使用我们的方法,我们还广泛地比较了由个人性别,年龄,种族,保险类型,邻里类型和收入水平决定的22层模式中的模式中的差异和不平等。通过广泛的实验,我们对未来危险体重增加的预测变量显示出新的和互补结果。
translated by 谷歌翻译
肥胖是一个重大的健康问题,增加了各种主要慢性病的风险,如糖尿病,癌症和中风。虽然通过横断面BMI录音识别的肥胖作用已经过分研究,但BMI轨迹的作用远远不大。在这项研究中,我们利用从大型和地理位置的EHR数据集中提取的BMI轨迹捕获大约200万个人的健康状况为期六年的健康状况。我们根据BMI轨迹定义九个新的可解释和基于证据的变量,以使用K-Means聚类方法将患者聚类为子组。我们在人口统计学,社会经济和生理测量变量方面彻底审查了每个集群特征,以指定簇中患者的不同性质。在我们的实验中,已被重新建立肥胖,高血压,阿尔茨海默和痴呆症的肥胖,高血压,阿尔茨海默氏症和痴呆症的直接关系,并且已经发现有几种慢性疾病的特异性特征的不同簇符合或与现有的知识体系互补。
translated by 谷歌翻译
医院住宿时间(LOS)是最重要的医疗保健度量之一,反映了医院的服务质量,有助于改善医院调度和管理。LOS预测有助于成本管理,因为留在医院的患者通常在资源受到严重限制的情况下这样做。在这项研究中,我们通过机器学习和统计方法审查了LOS预测的论文。我们的文献综述考虑了对卒中患者LOS预测的研究研究。一些受访的研究表明,作者达成了相应的结论。例如,患者的年龄被认为是一些研究中卒中患者LOS的重要预测因子,而其他研究则认为年龄不是一个重要因素。因此,在该领域需要额外的研究以进一步了解卒中患者LOS的预测因子。
translated by 谷歌翻译
疾病鉴定是观察健康研究中的核心,常规活动。队列影响下游分析,例如如何表征病情,定义患者的风险以及研究哪些治疗方法。因此,至关重要的是要确保选定的队列代表所有患者,而与他们的人口统计学或社会决定因素无关。虽然在构建可能影响其公平性的表型定义时有多种潜在的偏见来源,但在表型领域中考虑不同定义在患者亚组中的影响并不是标准。在本文中,我们提出了一组最佳实践来评估表型定义的公平性。我们利用预测模型中常用的既定公平指标,并将其与常用的流行病学队列描述指标联系起来。我们描述了一项针对克罗恩病和2型糖尿病的实证研究,每个研究都有从两组患者亚组(性别和种族)中从文献中获取的多种表型定义。我们表明,根据不同的公平指标和亚组,不同的表型定义表现出较大和不同的性能。我们希望拟议的最佳实践可以帮助构建公平和包容的表型定义。
translated by 谷歌翻译
2型糖尿病(T2DM)的早期诊断对于及时的治疗干预措施和生活方式改变至关重要。随着医学成像数据在许多患者群体中变得更广泛可用,我们试图研究是否可以在表格学习分类器模型中利用图像衍生的表型数据来预测T2DM的发病率,而无需使用侵入性血液实验室测量。我们表明,使用图像衍生表型的神经网络和决策树模型都可以预测患者T2DM状态的召回评分高达87.6%。我们还提出了与“ Syntha1c编码器”相同的结构的新颖使用,这些结构能够输出模仿血液血红蛋白A1C经验实验室测量值的可解释值。最后,我们证明了T2DM风险预测模型对输入矢量成分中小扰动的敏感性可用于预测从以前看不见的患者人群中取样的协变量的性能。
translated by 谷歌翻译
Health systems rely on commercial prediction algorithms to identify and help patients with complex health needs. We show that a widely used algorithm, typical of this industry-wide approach and affecting millions of patients, exhibits significant racial bias: At a given risk score, Black patients are considerably sicker than White patients, as evidenced by signs of uncontrolled illnesses. Remedying this disparity would increase the percentage of Black patients receiving additional help from 17.7 to 46.5%. The bias arises because the algorithm predicts health care costs rather than illness, but unequal access to care means that we spend less money caring for Black patients than for White patients. Thus, despite health care cost appearing to be an effective proxy for health by some measures of predictive accuracy, large racial biases arise. We suggest that the choice of convenient, seemingly effective proxies for ground truth can be an important source of algorithmic bias in many contexts.
translated by 谷歌翻译
大型和深度电子医疗保健记录(EHR)数据集的可用性有可能更好地了解现实世界中的患者旅行,并鉴定出新的患者亚组。基于ML的EHR数据集合主要是工具驱动的,即基于可用或新开发的方法的构建。但是,这些方法,它们的输入要求以及最重要的是,通常难以解释产量,尤其是没有深入的数据科学或统计培训。这危害了需要进行可行且具有临床意义的解释的最后一步。这项研究研究了使用大型EHR数据集和多种聚类方法进行临床研究的方法进行大规模进行患者分层分析的方法。我们已经开发了几种工具来促进无监督的患者分层结果的临床评估和解释,即模式筛查,元聚类,替代建模和策展。这些工具可以在分析中的不同阶段使用。与标准分析方法相比,我们证明了凝结结果并优化分析时间的能力。在元聚类的情况下,我们证明了患者簇的数量可以从72减少到3。在另一个分层的结果中,通过使用替代模型,我们可以迅速确定如果有血液钠测量值可用,则可以对心力衰竭患者进行分层。由于这是对所有心力衰竭患者进行的常规测量,因此表明数据偏差。通过使用进一步的队列和特征策展,可以去除这些患者和其他无关的特征以提高临床意义。这些示例显示了拟议方法的有效性,我们希望鼓励在该领域的进一步研究。
translated by 谷歌翻译
谵妄是急性急性发病脑功能障碍,在紧急情况下,与较高的死亡率有关。由于其演示和风险因素难以检测和监测,这取决于患者的潜在病情。在我们的研究中,我们旨在识别谵妄人口中的亚型,并建立使用医疗信息MART进行密集护理IV(MIMIC-IV)数据来检测谵妄的亚组特定的预测模型。我们表明谵妄存在于谵妄中。对于特定于组的预测模型,还观察到特征重要性的差异。我们的工作可以重新校准每个谵妄亚组的现有谵妄预测模型,并提高ICU或急诊部门患者的谵妄检测和监测的精度。
translated by 谷歌翻译
影响重症患者护理的许多基本问题会带来类似的分析挑战:医生无法轻易估计处于危险的医疗状况或治疗的影响,因为医疗状况和药物的因果影响是纠缠的。他们也无法轻易进行研究:没有足够的高质量数据来进行高维观察性因果推断,并且通常无法在道德上进行RCT。但是,机械知识可获得,包括如何吸收人体药物,并且这些知识与有限数据的结合可能就足够了 - 如果我们知道如何结合它们。在这项工作中,我们提出了一个框架,用于在这些复杂条件下对重症患者的因果影响估算:随着时间的流逝,药物与观察之间的相互作用,不大的患者数据集以及可以代替缺乏数据的机械知识。我们将此框架应用于影响重症患者的极其重要的问题,即癫痫发作和大脑中其他潜在有害的电气事件的影响(称为癫痫样活动 - EA)对结局。鉴于涉及的高赌注和数据中的高噪声,可解释性对于解决此类复杂问题的故障排除至关重要。我们匹配的小组的解释性使神经科医生可以执行图表审查,以验证我们的因果分析的质量。例如,我们的工作表明,患者经历了高水平的癫痫发作般的活动(75%的EA负担),并且未经治疗的六个小时的窗口未受治疗,平均而言,这种不良后果的机会增加了16.7%。作为严重的大脑损伤,终生残疾或死亡。我们发现患有轻度但长期EA的患者(平均EA负担> = 50%)患有不良结果的风险增加了11.2%。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
30天的医院再入院是一个长期存在的医疗问题,会影响患者的发病率和死亡率,每年造成数十亿美元的损失。最近,已经创建了机器学习模型来预测特定疾病患者的住院再入院风险,但是不存在任何模型来预测所有患者的风险。我们开发了一个双向长期记忆(LSTM)网络,该网络能够使用随时可用的保险数据(住院访问,门诊就诊和药物处方)来预测任何入院患者的30天重新入选,无论其原因如何。使用历史,住院和入院后数据时,表现最佳模型的ROC AUC为0.763(0.011)。 LSTM模型显着优于基线随机森林分类器,表明了解事件的顺序对于模型预测很重要。与仅住院数据相比,与住院数据相比,将30天的历史数据纳入也显着改善了模型性能,这表明患者入院前的临床病史,包括门诊就诊和药房数据是重新入院的重要贡献者。我们的结果表明,机器学习模型能够使用结构化保险计费数据以合理的准确性来预测住院再入院的风险。由于可以从网站中提取计费数据或同等代理人,因此可以部署此类模型以识别有入院风险的患者,或者分配更多可靠的随访(更近的后续后续,家庭健康,邮寄药物) - 出院后风险患者。
translated by 谷歌翻译
Importance: The prevalence of severe mental illnesses (SMIs) in the United States is approximately 3% of the whole population. The ability to conduct risk screening of SMIs at large scale could inform early prevention and treatment. Objective: A scalable machine learning based tool was developed to conduct population-level risk screening for SMIs, including schizophrenia, schizoaffective disorders, psychosis, and bipolar disorders,using 1) healthcare insurance claims and 2) electronic health records (EHRs). Design, setting and participants: Data from beneficiaries from a nationwide commercial healthcare insurer with 77.4 million members and data from patients from EHRs from eight academic hospitals based in the U.S. were used. First, the predictive models were constructed and tested using data in case-control cohorts from insurance claims or EHR data. Second, performance of the predictive models across data sources were analyzed. Third, as an illustrative application, the models were further trained to predict risks of SMIs among 18-year old young adults and individuals with substance associated conditions. Main outcomes and measures: Machine learning-based predictive models for SMIs in the general population were built based on insurance claims and EHR.
translated by 谷歌翻译
心脏病已成为对人类生活产生重大影响的最严重疾病之一。在过去的十年中,它已成为全球人民死亡的主要原因之一。为了防止患者进一步损害,准确地诊断为心脏病是一个重要因素。最近,我们看到了非侵入性医学程序的用法,例如医学领域的基于人工智能的技术。专门的机器学习采用了多种算法和技术,这些算法和技术被广泛使用,并且在较少的时间以诊断心脏病的准确诊断非常有用。但是,对心脏病的预测并不是一件容易的事。医疗数据集的规模不断增加,使从业者了解复杂的特征关系并做出疾病预测是一项复杂的任务。因此,这项研究的目的是从高度维数据集中确定最重要的风险因素,这有助于对心脏病的准确分类,并减少并发症。为了进行更广泛的分析,我们使用了具有各种医学特征的两个心脏病数据集。基准模型的分类结果证明,相关特征对分类精度产生了很大的影响。即使功能减少,与在全功能集中训练的模型相比,分类模型的性能随着训练时间的减少而显着提高。
translated by 谷歌翻译
COVID-19的大流行造成了毁灭性的经济和社会破坏,使全球医疗机构的资源紧张。这导致全国范围内呼吁模型预测Covid-19患者的住院和严重疾病,以告知有限医疗资源的分配。我们回应针对儿科人群的其中一种。为了应对这一挑战,我们使用电子健康记录研究了针对儿科人群的两项预测任务:1)预测哪些儿童更有可能住院,而2)在住院儿童中,哪些孩子更有可能出现严重的症状。我们通过新颖的机器学习模型MEDML应对国家儿科Covid-19数据挑战。 MEDML根据超过600万个医学概念的医学知识和倾向得分提取了最预测的特征,并通过图神经网络(GNN)结合了异质医学特征之间的功能间关系。我们使用来自国家队列协作(N3C)数据集的数据评估了143,605名患者的MEDML,并在143,605名患者的住院预测任务中评估了严重性预测任务的11,465名患者。我们还报告了详细的小组级和个人级特征的重要性分析,以评估模型的解释性。与最佳的基线机器学习模型相比,MEDML的AUROC得分高达7%,AUPRC得分高达14%,并且自大流行以来的所有九个国家地理区域以及所有三个月的跨度都表现良好。我们的跨学科研究团队开发了一种将临床领域知识纳入新型机器学习模型的框架的方法,该框架比当前最新的数据驱动的功能选择方法更具预测性和可解释。
translated by 谷歌翻译
本文介绍了一种使用旨在解决现实世界应用中CDSS的低适用性和可扩展性问题的数据驱动的预测模型来构建一致和适用的临床决策支持系统(CDSS)的方法。该方法基于域特定和数据驱动的支持程序的三种特定于域和数据驱动的支持程序,该程序将被纳入临床业务流程,具有更高的信任和预测结果和建议的解释性。在考虑的三个阶段,监管策略,数据驱动模式和解释程序被集成,以实现与决策者的自然域特定的互动,具有智能决策支持焦点的连续缩小。该提出的方法能够实现更高水平的自动化,可扩展性和CDSS的语义解释性。该方法是在软件解决方案中实现的,并在T2DM预测中进行了测试,使我们能够改善已知的临床尺度(例如FindRisk),同时保持与现有应用程序类似的特定问题的推理界面。这种继承与三分阶段的方法一起提供了更高的解决方案兼容性,并导致数据驱动的解决方案在现实案件中的信任,有效和解释应用。
translated by 谷歌翻译
Tuberculosis (TB), an infectious bacterial disease, is a significant cause of death, especially in low-income countries, with an estimated ten million new cases reported globally in $2020$. While TB is treatable, non-adherence to the medication regimen is a significant cause of morbidity and mortality. Thus, proactively identifying patients at risk of dropping off their medication regimen enables corrective measures to mitigate adverse outcomes. Using a proxy measure of extreme non-adherence and a dataset of nearly $700,000$ patients from four states in India, we formulate and solve the machine learning (ML) problem of early prediction of non-adherence based on a custom rank-based metric. We train ML models and evaluate against baselines, achieving a $\sim 100\%$ lift over rule-based baselines and $\sim 214\%$ over a random classifier, taking into account country-wide large-scale future deployment. We deal with various issues in the process, including data quality, high-cardinality categorical data, low target prevalence, distribution shift, variation across cohorts, algorithmic fairness, and the need for robustness and explainability. Our findings indicate that risk stratification of non-adherent patients is a viable, deployable-at-scale ML solution.
translated by 谷歌翻译
随着数据驱动的系统越来越大规模部署,对历史上边缘化的群体的不公平和歧视结果引起了道德问题,这些群体在培训数据中的代表性不足。作为回应,围绕AI的公平和包容性的工作呼吁代表各个人口组的数据集。在本文中,我们对可访问性数据集中的年龄,性别和种族和种族的代表性进行了分析 - 数据集 - 来自拥有的数据集,这些数据集来自拥有的人。残疾和老年人 - 这可能在减轻包含AI注入的应用程序的偏见方面发挥重要作用。我们通过审查190个数据集的公开信息来检查由残疾人来源的数据集中的当前表示状态,我们称这些可访问性数据集为止。我们发现可访问性数据集代表不同的年龄,但具有性别和种族表示差距。此外,我们研究了人口统计学变量的敏感和复杂性质如何使分类变得困难和不一致(例如,性别,种族和种族),标记的来源通常未知。通过反思当前代表残疾数据贡献者的挑战和机会,我们希望我们的努力扩大了更多可能将边缘化社区纳入AI注入系统的可能性。
translated by 谷歌翻译
Investigation and analysis of patient outcomes, including in-hospital mortality and length of stay, are crucial for assisting clinicians in determining a patient's result at the outset of their hospitalization and for assisting hospitals in allocating their resources. This paper proposes an approach based on combining the well-known gray wolf algorithm with frequent items extracted by association rule mining algorithms. First, original features are combined with the discriminative extracted frequent items. The best subset of these features is then chosen, and the parameters of the used classification algorithms are also adjusted, using the gray wolf algorithm. This framework was evaluated using a real dataset made up of 2816 patients from the Imam Ali Kermanshah Hospital in Iran. The study's findings indicate that low Ejection Fraction, old age, high CPK values, and high Creatinine levels are the main contributors to patients' mortality. Several significant and interesting rules related to mortality in hospitals and length of stay have also been extracted and presented. Additionally, the accuracy, sensitivity, specificity, and auroc of the proposed framework for the diagnosis of mortality in the hospital using the SVM classifier were 0.9961, 0.9477, 0.9992, and 0.9734, respectively. According to the framework's findings, adding frequent items as features considerably improves classification accuracy.
translated by 谷歌翻译
This report summarises the outcomes of a systematic literature search to identify Bayesian network models used to support decision making in healthcare. After describing the search methodology, the selected research papers are briefly reviewed, with the view to identify publicly available models and datasets that are well suited to analysis using the causal interventional analysis software tool developed in Wang B, Lyle C, Kwiatkowska M (2021). Finally, an experimental evaluation of applying the software on a selection of models is carried out and preliminary results are reported.
translated by 谷歌翻译
提出了一个新的框架,用于处理纵向,多元,异质临床数据的建模和分析的复杂任务。该方法使用时间抽象将数据转换为更合适的形式,用于建模,时间模式挖掘,以发现复杂,纵向数据和生存分析的机器学习模型中的模式,以选择发现的模式。该方法应用于阿尔茨海默氏病(AD)的现实世界研究,这是一种无法治愈的进行性神经退行性疾病。在生存分析模型中,发现的模式可预测AD的一致性指数高达0.8。这是使用AD的时间数据收集对AD数据进行生存分析的第一项工作。可视化模块还清楚地描绘了发现的模式,以易于解释。
translated by 谷歌翻译