高血压是心血管疾病的主要原因和过早死亡。不同的高血压亚型可能在其预后变化,并且需要不同的治疗方法。个人的高血压风险由遗传和环境因素以及它们的相互作用决定。在这项工作中,我们研究了911名非洲裔美国人和1171名欧洲美国人在高血压遗传流行病学网络(Hypergen)Cohort中。我们使用环境变量和基于不同标准选择的遗传功能组建造的高血压子类型分类模型。拟合模型提供了洞察高血压亚型的遗传景观,这可能有助于未来的个性化诊断和治疗高血压。
translated by 谷歌翻译
医学中的机器学习利用了财富的医疗保健数据来提取知识,促进临床决策,最终改善护理。然而,在缺乏人口统计分集的数据集上培训的ML模型可以在适用于不足的人群时产生次优绩效(例如少数民族,社会经济地位较低),因此延续了健康差异。在这项研究中,我们评估了四种型分类,以预测高氯血症 - 一种经常由ICU人口中的侵袭性流体给药的条件 - 并将其在种族,性别和保险亚组中进行比较。我们观察到,除了基于实验室的患者的模型性能之外,还要添加社会决定因素特征。 40个模型 - 亚组中的40分,亚组测试产生了显着不同的AUC分数,提示在将ML模型应用于社会决定簇子组时的差异。我们敦促未来的研究人员设计主动调整潜在偏见的模型,并包括他们研究中的子组报告。
translated by 谷歌翻译
风险评分广泛用于临床决策,通常由逻辑回归模型产生。基于机器学习的方法可以很好地识别重要的预测因子,但这种“黑匣子”变量选择限制解释性,并且从单个模型评估的可变重要性可以偏置。我们提出了一种强大而可解释的可解释的可解释选择方法,使用最近开发的福利可变重要性云(福利维奇)占模型的可变性。我们的方法评估和可视化了深入推理和透明变量选择的总变量贡献,并过滤出非重要贡献者来简化模型构建步骤。我们从可变贡献中获得了一个集合变量排名,这很容易与自动化和模块化的风险分数发生器,自动摩托,以方便的实现。在对早期死亡或意外再入住的研究中,福糖选定了6个候选变量中的6个,以创建一个良好的性能,从机器学习的排名到一个16变量模型具有类似的性能。
translated by 谷歌翻译
谵妄是急性急性发病脑功能障碍,在紧急情况下,与较高的死亡率有关。由于其演示和风险因素难以检测和监测,这取决于患者的潜在病情。在我们的研究中,我们旨在识别谵妄人口中的亚型,并建立使用医疗信息MART进行密集护理IV(MIMIC-IV)数据来检测谵妄的亚组特定的预测模型。我们表明谵妄存在于谵妄中。对于特定于组的预测模型,还观察到特征重要性的差异。我们的工作可以重新校准每个谵妄亚组的现有谵妄预测模型,并提高ICU或急诊部门患者的谵妄检测和监测的精度。
translated by 谷歌翻译
背景:几项研究突出了考虑急性冠状动脉综合征(ACS)诊断和治疗性差异的重要性。然而,几乎已经研究了ACS子群中的性别特异性风险标志物。本研究旨在探索机器学习(ML)模型,以识别从电子健康记录(EHR)的公共数据库中的ACS子群体中的妇女和男性的住院死亡率标志。方法:从医疗信息MART中提取1,299名患有的ST升高的心肌梗死(Stemi)和2,820名非St-Expation心肌梗死患者进行重症监护(MIMIC)-III数据库。我们培训和验证了死亡率预测模型,并使用了可解释性技术来识别每个子群体的性别特异性标记。结果:基于极端梯度升压的模型(XGBoost)实现了最高性能:STEMI和AUC = 0.94(95 \%CI:0.80- 0.90)为nstemi。对于STEMI,女性的顶部标记是慢性肾功能衰竭,心率高,年龄超过70岁。对于男性来说,顶部标记是急性肾功能衰竭,高肌钙蛋白T水平,年龄超过75岁。然而,对于NStemi,女性的顶部标记较低,肌钙蛋白水平低,尿素水平高,80多年。对于男性来说,顶部标记是高心率,肌酐水平,年龄超过70岁。结论:我们的结果表明,通过解释ehrs培训的ML死亡率模型,通过解释ML死亡率模型显示不同ACS子群的可能的显着和相干的性别特异性风险标记。在妇女与男性的确定风险标志中观察到差异,突出了考虑性别特异性标记在实施更适当的治疗策略和更好的临床结果方面的重要性。
translated by 谷歌翻译
口服食物挑战(OFC)对于准确诊断患者的食物过敏至关重要。但是,患者不愿接受OFC,对于那些这样做的患者,在农村/社区医疗保健环境中,对过敏症患者的使用率有限。通过机器学习方法对OFC结果的预测可以促进在家中食品过敏原的删除,在OFC中改善患者和医师的舒适度,并通过最大程度地减少执行的OFC的数量来节省医疗资源。临床数据是从共同接受1,284个OFC的1,12例患者那里收集的,包括临床因素,包括血清特异性IgE,总IgE,皮肤刺测试(SPTS),症状,性别和年龄。使用这些临床特征,构建了机器学习模型,以预测花生,鸡蛋和牛奶挑战的结果。每种过敏原的最佳性能模型是使用凹入和凸内核(LUCCK)方法创建的,该方法在曲线(AUC)(AUC)下分别用于花生,鸡蛋和牛奶OFC预测为0.76、0.68和0.70, 。通过Shapley添加说明(SHAP)的模型解释表明,特定的IgE以及SPTS的Wheal和Flare值高度预测了OFC结果。该分析的结果表明,机器学习有可能预测OFC结果,并揭示了相关的临床因素进行进一步研究。
translated by 谷歌翻译
快速准确地检测该疾病可以大大帮助减少任何国家医疗机构对任何大流行期间死亡率降低死亡率的压力。这项工作的目的是使用新型的机器学习框架创建多模式系统,该框架同时使用胸部X射线(CXR)图像和临床数据来预测COVID-19患者的严重程度。此外,该研究还提出了一种基于nom图的评分技术,用于预测高危患者死亡的可能性。这项研究使用了25种生物标志物和CXR图像,以预测意大利第一波Covid-19(3月至6月2020年3月至6月)在930名Covid-19患者中的风险。提出的多模式堆叠技术分别产生了89.03%,90.44%和89.03%的精度,灵敏度和F1分数,以识别低风险或高危患者。与CXR图像或临床数据相比,这种多模式方法可提高准确性6%。最后,使用多元逻辑回归的列线图评分系统 - 用于对第一阶段确定的高风险患者的死亡风险进行分层。使用随机森林特征选择模型将乳酸脱氢酶(LDH),O2百分比,白细胞(WBC)计数,年龄和C反应蛋白(CRP)鉴定为有用的预测指标。开发了五个预测因素参数和基于CXR图像的列函数评分,以量化死亡的概率并将其分为两个风险组:分别存活(<50%)和死亡(> = 50%)。多模式技术能够预测F1评分为92.88%的高危患者的死亡概率。开发和验证队列曲线下的面积分别为0.981和0.939。
translated by 谷歌翻译
心脏病已成为对人类生活产生重大影响的最严重疾病之一。在过去的十年中,它已成为全球人民死亡的主要原因之一。为了防止患者进一步损害,准确地诊断为心脏病是一个重要因素。最近,我们看到了非侵入性医学程序的用法,例如医学领域的基于人工智能的技术。专门的机器学习采用了多种算法和技术,这些算法和技术被广泛使用,并且在较少的时间以诊断心脏病的准确诊断非常有用。但是,对心脏病的预测并不是一件容易的事。医疗数据集的规模不断增加,使从业者了解复杂的特征关系并做出疾病预测是一项复杂的任务。因此,这项研究的目的是从高度维数据集中确定最重要的风险因素,这有助于对心脏病的准确分类,并减少并发症。为了进行更广泛的分析,我们使用了具有各种医学特征的两个心脏病数据集。基准模型的分类结果证明,相关特征对分类精度产生了很大的影响。即使功能减少,与在全功能集中训练的模型相比,分类模型的性能随着训练时间的减少而显着提高。
translated by 谷歌翻译
个性化的纵向疾病评估对于快速诊断,适当管理和最佳调整多发性硬化症(MS)的治疗策略至关重要。这对于识别特殊主体特异性疾病特征也很重要。在这里,我们设计了一种新型的纵向模型,以使用可能包含缺失值的传感器数据以自动化方式绘制单个疾病轨迹。首先,我们使用在智能手机上管理的基于传感器的评估来收集与步态和平衡有关的数字测量以及上肢功能。接下来,我们通过插补对待缺失的数据。然后,我们通过使用广义估计方程来发现MS的潜在标记。随后,从多个培训数据集中学到的参数被结合起来形成一个简单的,统一的纵向预测模型,以预测MS在先前看不见的MS的人中随着时间的推移。为了减轻严重疾病得分的个体的潜在低估,最终模型结合了第一天的数据。结果表明,所提出的模型有望实现个性化的纵向MS评估。他们还表明,与步态和平衡以及上肢功能有关的功能(从基于传感器的评估中远程收集)可能是预测MS随时间推移的有用数字标记。
translated by 谷歌翻译
Systemic Lupus红斑(SLE)是一种罕见的自身免疫疾病,其特征是令人无法预测的耀斑和缓解的速度,具有不同的表现形式。狼疮性肾炎,SLE用于器官损伤和死亡率的主要疾病表现之一,是卢布斯分类标准的关键组成部分。因此,准确地鉴定电子健康记录(EHRS)中的狼疮性肾炎将使大型队列观察研究和临床试验有益于患者人口的表征对于招聘,研究设计和分析至关重要。可以通过程序代码和结构化数据来认可狼疮肾炎,例如实验室测试。然而,记录狼疮肾炎的其他关键信息,例如来自肾脏活检和先前的医学史叙事的组织学报告,需要复杂的文本处理,以从病理报告和临床笔记中挖掘信息。在这项研究中,我们开发了使用EHR数据识别鉴定狼疮肾炎的血管肾炎,而不使用自然语言处理(NLP)。我们开发了四种算法:仅使用结构化数据(基线算法)和使用不同NLP模型的三种算法的规则的算法。这三种NLP模型基于正则化逻辑回归,并使用不同的特征集,包括积极提及概念独特标识符(Cue),耐备的外观数量,以及三个部件的混合物。基线算法和最佳执行的NLP算法在Vanderbilt University Center(VUMC)的数据集上验证了外部验证。我们最佳地执行来自结构化数据,正则表达式概念和映射的特征的NLP模型,与基线狼疮性肾炎算法相比,在NMEDW(0.41 VS 0.79)和VUMC(0.62 VS 0.96)数据集中有所改善。
translated by 谷歌翻译
在机器学习的许多应用中,不可避免的值是不可避免的,并且在培训和测试时都提出了挑战。当反复出现的模式中缺少变量时,已经提出了单独的图案子模型作为解决方案。但是,独立模型并不能有效利用所有可用数据。相反,将共享模型拟合到完整数据集通常取决于插补,而当丢失度取决于未观察到的因素时,这可能是次优的。我们提出了一种替代方法,称为共享模式子模型,该方法做出了a)在测试时对缺失值的强大预测,b)维持或提高模式子模型的预测能力,c)有一个简短的描述,可改善可解释性。我们确定共享是最佳的情况,即使缺失本身具有预测性以及预测目标取决于未观察到的变量。关于合成数据和两个医疗保健数据集的分类和回归实验表明,我们的模型在模式专业化和信息共享之间实现了良好的权衡。
translated by 谷歌翻译
尽管电子健康记录是生物医学研究的丰富数据来源,但这些系统并未在医疗环境中统一地实施,并且由于医疗保健碎片化和孤立的电子健康记录之间缺乏互操作性,可能缺少大量数据。考虑到缺少数据的案例的删除可能会在随后的分析中引起严重的偏见,因此,一些作者更喜欢采用多重插补策略来恢复缺失的信息。不幸的是,尽管几项文献作品已经通过使用现在可以自由研究的任何不同的多个归档算法记录了有希望的结果,但尚无共识,MI算法效果最好。除了选择MI策略之外,归纳算法及其应用程序设置的选择也至关重要且具有挑战性。在本文中,受鲁宾和范布伦的开创性作品的启发,我们提出了一个方法学框架,可以应用于评估和比较多种多个插补技术,旨在选择用于计算临床研究工作中最有效的推断。我们的框架已被应用于验证和扩展较大的队列,这是我们在先前的文献研究中提出的结果,我们在其中评估了关键患者的描述符和Covid-19的影响在2型糖尿病患者中的影响,其数据为2型糖尿病,其数据为2型糖尿病由国家共同队列合作飞地提供。
translated by 谷歌翻译
机器学习方法利用多参数生物标志物,特别是基于神经影像动物,具有改善痴呆早期诊断的巨大潜力,并预测哪些个体存在发展痴呆的风险。对于机器学习领域的基准算法和痴呆症中的神经影像症,并评估他们在临床实践中使用的潜力和临床试验,七年的大挑战已经在过去十年中组织:Miriad,Alzheimer的疾病大数据梦,Caddementia,机器学习挑战,MCI神经影像动物,蝌蚪和预测分析竞争。基于两个挑战评估框架,我们分析了这些大挑战如何互相补充研究问题,数据集,验证方法,结果和影响。七个大挑战解决了与(临床前)痴呆症(临床)痴呆症的筛查,诊断,预测和监测有关的问题。临床问题,任务和性能指标几乎没有重叠。然而,这具有提供对广泛问题的洞察力的优势,它也会限制对挑战的结果的验证。通常,获胜算法执行严格的数据预处理并组合了广泛的输入特征。尽管最先进的表演,但临床上没有挑战评估的大部分方法。为了增加影响,未来的挑战可以更加关注统计分析,对其与高于阿尔茨海默病的临床问题,以及使用超越阿尔茨海默病神经影像疾病的临床问题,以及超越阿尔茨海默病的临床问题。鉴于过去十年中汲取的潜力和经验教训,我们在未来十年及其超越的机器学习和神经影像中的大挑战前景兴奋。
translated by 谷歌翻译
背景:在美国的电子健康记录(EHR)的日益越来越多的采用创造了可计算数据的Trovers,已经应用了机器学习方法来提取有用的见解。表示为矩阵(张量)的三维类似物的EHR数据被分解成可以被解释为计算表型的二维因子。方法:我们将受限的张量分解施加到2015年至2015年西北医学企业数据仓库中患有乳腺,前列腺,结直肠癌或肺癌患者群组中的增殖和预测死亡率。在我们的实验中,我们使用监督期检查在分解算法中,通过医学指示过滤张量相同,并在分解过程中纳入额外的健康(SDOH)协变量的社会决定因素。我们定性地评估了所产生的计算表型,并通过评估它们在曲线(AUC)统计下的区域预测五年死亡率的能力。结果:医疗指示过滤导致更简洁和可解释的表型。死亡预测性能(AUC)在不同的实验条件下变化,癌症类型(乳腺:0.623-0.694,前列腺:0.603 - 0.750,结直肠:0.523-0.641和Lung:0.517 - 0.623)。通常,利用监督期的使用和SDOH协变量的结合改善了预测性能。结论:约束张量分解,适用于癌症患者的稀疏EHR数据,可以发现预测五年死亡率的计算表型。将SDOH变量的结合到分解算法是一种易于实现和有效的方法来提高预测性能。
translated by 谷歌翻译
医院住宿时间(LOS)是最重要的医疗保健度量之一,反映了医院的服务质量,有助于改善医院调度和管理。LOS预测有助于成本管理,因为留在医院的患者通常在资源受到严重限制的情况下这样做。在这项研究中,我们通过机器学习和统计方法审查了LOS预测的论文。我们的文献综述考虑了对卒中患者LOS预测的研究研究。一些受访的研究表明,作者达成了相应的结论。例如,患者的年龄被认为是一些研究中卒中患者LOS的重要预测因子,而其他研究则认为年龄不是一个重要因素。因此,在该领域需要额外的研究以进一步了解卒中患者LOS的预测因子。
translated by 谷歌翻译
超重和肥胖仍然是一个主要的全球性公共健康问题,并确定增加未来体重增加风险的个性化模式在预防肥胖症和许多与肥胖症相关的次螯症方面具有至关重要的作用。在这项工作中,我们使用规则发现方法来研究这个问题,通过呈现提供真正的解释性和同时优化所识别模式的准确性(经常正确)的准确性(适用于许多样本)的方法来研究这个问题。具体而言,我们扩展了一个已建立的子组 - 发现方法以生成类型X-> Y的所需规则,并显示如何从X侧提取最高特征,作为Y的最佳预测因子。在我们的肥胖问题中,X是指来自非常大的和多站点EHR数据的提取功能,y表示大量的重量。使用我们的方法,我们还广泛地比较了由个人性别,年龄,种族,保险类型,邻里类型和收入水平决定的22层模式中的模式中的差异和不平等。通过广泛的实验,我们对未来危险体重增加的预测变量显示出新的和互补结果。
translated by 谷歌翻译
细菌感染负责全球高死亡率。感染潜在的抗菌素耐药性,多方面的患者的临床状况会阻碍正确选择抗生素治疗。随机临床试验提供了平均治疗效果估计值,但对于治疗选择的风险分层和优化,即个性化治疗效果(ITE)并不理想。在这里,我们利用了从美国南部学术诊所收集的大规模电子健康记录数据,模仿临床试验,即“目标试验”,并为诊断患有急性细菌的患者开发了死亡率预测和ITE估计的机器学习模型皮肤和皮肤结构感染(ABSSI)是由于金黄色葡萄球菌(MRSA)引起的。 ABSSI-MRSA是一个充满挑战的疾病,治疗选择减少 - 万古霉素是首选的选择,但它具有不可忽略的副作用。首先,我们使用倾向评分匹配来模仿试验并创建随机治疗(万古霉素与其他抗生素)数据集。接下来,我们使用此数据来训练各种机器学习方法(包括增强/Lasso Logistic回归,支持向量机和随机森林),并通过引导验证选择接收器特征(AUC)下的面积最佳模型。最后,我们使用这些模型来计算ITE并通过改变治疗的变化来避免死亡。排出外测试表明,SVM和RF是最准确的,AUC分别为81%和78%,但BLR/Lasso不远(76%)。通过使用BLR/Lasso计算反事实,万古霉素增加了死亡的风险,但显示出很大的变化(优势比1.2,95%范围0.4-3.8),对结果概率的贡献是适度的。取而代之的是,RF在ITE中表现出更大的变化,表明更复杂的治疗异质性。
translated by 谷歌翻译
目的:我们研究使用机器学习(ML)模型的可解释的累入预测,并在预测能力,稀疏性和公平性方面分析性能。与以前的作品不同,本研究列举了输出概率而不是二进制预测的可解释模型,并使用定量公平定义来评估模型。本研究还研究了模型是否可以横跨地理位置概括。方法:我们在佛罗里达州和肯塔基州的两个不同的刑事核查数据集上生成了黑盒和可解释的ML模型。我们将这些模型的预测性能和公平与目前用于司法系统中使用的两种方法进行了比较,以预测审前常规率:Arnold PSA和Compas。我们评估了所有模型的预测性能,可以在两次跨越两次预测六种不同类型犯罪的模型。结果:几种可解释的ML模型可以预测常规和黑盒ML模型,比Compas或Arnold PSA更准确。这些模型在实践中可能有用。类似于Arnold PSA,这些可解释模型中的一些可以作为一个简单的表格写入。其他可以使用一组可视化显示。我们的地理分析表明ML模型应分开培训,以便单独的位置并随时间更新。我们还为可​​解释模型提供了公平分析。结论:可解释的机器学习模型可以在预测准确性和公平性方面表现,也可以表现,也可以表现,也可以执行不可解释的方法和目前使用的风险评估尺度。机器学习模型对于单独培训,可以更准确地进行不同的位置,并保持最新。
translated by 谷歌翻译
为目标疾病开发新药物是一项耗时且昂贵的任务,药物重新利用已成为药物开发领域的流行话题。随着许多健康索赔数据可用,已经对数据进行了许多研究。现实世界的数据嘈杂,稀疏,并且具有许多混杂因素。此外,许多研究表明,药物的作用在人群中是异质的。近年来已经出现了许多有关估计异构治疗效果(HTE)(HTE)的高级机器学习模型,并已应用于计量经济学和机器学习社区。这些研究将医学和药物开发视为主要应用领域,但是从HTE方法论到药物开发的转化研究有限。我们旨在将HTE方法介绍到医疗保健领域,并在通过基准实验进行医疗保健行政索赔数据进行基准实验时提供可行性考虑。另外,我们希望使用基准实验来展示如何将模型应用于医疗保健研究时如何解释和评估模型。通过将最近的HTE技术引入生物医学信息学社区的广泛读者,我们希望通过机器学习促进广泛采用因果推断。我们还希望提供HTE具有个性化药物有效性的可行性。
translated by 谷歌翻译
目的:创建和评估人工智能深度学习平台(Oraicle)的准确性,能够仅使用视网膜眼睛图像来预测个人整体5年心血管风险(CVD)以及组件风险因素的相对贡献,这些因素包括这一点风险。方法:我们从47,236个患者就诊的数据库中使用了165,907个视网膜图像。最初,每个图像与生物识别数据年龄,种族,性别,性,存在和持续时间HDL/LDL比以及任何CVD事件Wtihin 5年的视网膜图像采集5年。计算了基于Framingham方程的风险评分。还确定了个人和整体人口的实际CVD事件率。最后,仅使用年龄,种族,性别加上视网膜图像对Oraicle进行训练。结果:与基于弗雷明厄姆的分数相比,在接下来的5年中,Oraicle在预测心血管事件方面的准确性高达12%,尤其是对于最高风险的人群。每个限制性模型的可靠性和准确性对Oraicle的性能均优于最佳性能,表明它使用了两组数据中的数据来得出其最终结果。结论:视网膜摄影是便宜的,只需要最少的培训才能获得全自动,廉价的摄像头系统,现在可以广泛使用。因此,基于AI的CVD风险算法(例如Oraicle)有望使CV健康筛查更加准确,更加相似,并且更容易访问。此外,Oraicle评估构成个人总体风险的组件相对贡献的独特能力将根据个人的特定需求为治疗决策提供信息,从而增加了阳性健康结果的可能性。
translated by 谷歌翻译